结构化新闻数据

我们的结构化新闻数据API提供了一个简单的方法来访问来自世界各地的新闻文章。 我们提供了一个简单、一致和易于使用的API来访问来自数千个来源的新闻文章。

title

新闻文章的标题。

href

新闻文章的URL。

description

新闻文章的描述。

body

新闻文章的全部内容。

published_at

新闻文章发表的日期。

image

新闻文章的形象。

语言

新闻文章的语言。

类别

新闻文章的类别。

topic

新闻文章的主题。

industry

新闻文章的行业。

情绪

新闻文章的情绪。

🔥 story

将文章分组为故事。

来源

文章来源信息。

🔥 正在_中断

突发新闻检测。

is_duplicate

重复检测。

is_paywall

付费墙检测。

links

新闻文章的链接。

media

来自新闻文章的媒体。

hashtags

新闻文章中的主题标签。

read_time

以分钟为单位阅读文章的估计时间。

sentences_count

文章中的句子数。

段落_数量

文章中的段落数。

words_count

文章的字数。

characters_count

文章中的字符数。

常见问题解答

每篇文章包含核心字段(标题、描述、正文、URL、发布日期、图像)以及丰富的数据:情感分析、类别、主题、行业分类、语言、包含发布者排名的来源信息、故事聚类ID和内容指标(如字数和阅读时间)。我们还从文章内容中提取实体、标签、链接和媒体。
我们的情感分析使用在新闻内容上训练的NLP模型,将文章分类为正面、负面或中性。每篇文章都会收到一个极性分数和置信度水平。该模型分析文章的全文,而不仅仅是标题,在50多种语言中实现高准确性。您可以按情感筛选搜索结果,以找到特定的情感语气。
故事聚类将报道同一事件或主题的相关文章进行分组。当多个出版商报道同一新闻时,我们为它们分配相同的故事ID。这有助于您跟踪故事随时间的发展、识别热门话题、衡量报道广度,并避免处理来自不同来源的重复内容。
我们的重复检测算法分析文章内容、实体和发布时间,以识别多个发布者何时报道同一个故事。每篇文章都有一个is_duplicate标志。这有助于您过滤冗余内容并专注于独特的新闻。结合故事聚类,您可以获得每个故事的一篇文章或跟踪全面报道。
APITube支持多种导出格式:JSON(默认)、CSV、TSV、XLSX(Excel)、XML和RSS源。所有格式包含相同的数据字段。选择最适合您工作流程的格式 - JSON用于API,CSV/XLSX用于电子表格和BI工具,RSS用于订阅源阅读器,XML用于传统系统。
发布者排名(OPR - 总体发布者排名)基于多个因素从0-10评分:域名权威性、流量、内容质量、发布频率和编辑标准。较高排名的来源(6 )通常包括路透社、BBC、纽约时报等主要新闻媒体。使用此过滤器可以优先考虑权威来源或排除低质量内容。
我们的NER(命名实体识别)从文章文本中提取人员、组织、地点、品牌、事件等。每个实体包括其类型和提及次数。使用实体数据进行品牌监控、追踪特定公司、分析地理覆盖范围或从新闻内容构建知识图谱。
API返回两个字段:描述(摘要/摘录)和正文(完整文章文本)。正文字段包含完全清理的文章内容,已删除HTML。一些付费墙后的文章可能有有限的正文内容 - 检查is_paywall标志。所有套餐均包含完整正文访问权限,无额外费用。

结构化新闻数据API:超越原始文章

APITube提供跨500,000多个来源的具有一致架构的结构化新闻数据。每篇文章包含标准化字段:标题、正文、发布日期、来源元数据和全面的自然语言处理丰富。

丰富字段包括情感分数(正面/负面/中性)、提取的实体(人员、组织、位置、品牌)、主题和类别分类、行业标签和可读性指标。故事聚类自动对相关文章进行分组。

对于数据工程师和分析师,结构化输出消除了解析复杂性。一致的JSON模式直接与数据库、分析平台和机器学习管道一起工作。导出到CSV、XLSX或XML以实现电子表格和商业智能工具集成。