構造化ニュースデータ

構造化されたニュースデータAPIは、世界中のニュース記事にアクセスする簡単な方法を提供します。 私たちは、何千ものソースからのニュース記事にアクセスするための、シンプルで一貫性のある、使いやすいAPIを提供しています。

title

ニュース記事のタイトル。

href

ニュース記事のURL。

description

ニュース記事の説明。

body

ニュース記事の完全な内容。

published_at

ニュース記事が公開された日付。

image

ニュース記事の画像。

言語

ニュース記事の言語。

カテゴリ

ニュース記事のカテゴリです。

topic

ニュース記事のトピック。

industry

業界のニュース記事。

センチメント

ニュース記事の感情。

🔥 story

記事をストーリーにグループ化します。

ソース

記事のソース情報。

🔥 は_breaking

ニュース速報検出。

is_duplicate

重複検出。

is_paywall

ペイウォールの検出。

links

ニュース記事からのリンク。

media

ニュース記事からのメディア。

hashtags

ニュース記事からのハッシュタグ。

read_time

分単位で記事を読むための推定時間。

sentences_count

記事内の文の数。

段落_数

記事内の段落の数。

words_count

記事内の単語の数。

characters_count

記事内の文字数。

よくある質問

各記事には、コアフィールド(タイトル、説明、本文、URL、発行日、画像)に加えて、豊富なデータが含まれています:センチメント分析、カテゴリ、トピック、業界分類、言語、発行者ランクを含むソース情報、ストーリークラスタリングID、および語数や読了時間などのコンテンツメトリクス。また、記事コンテンツからエンティティ、ハッシュタグ、リンク、メディアも抽出します。
当社のセンチメント分析は、ニュースコンテンツで訓練されたNLPモデルを使用して、記事をポジティブ、ネガティブ、またはニュートラルに分類します。各記事は、極性スコアと信頼レベルを受け取ります。モデルは記事の全文を分析し、見出しだけでなく、50以上の言語で高い精度を達成します。特定の感情的な色合いを見つけるために、センチメントで検索結果をフィルタリングできます。
ストーリークラスタリングは、同じイベントまたはトピックを扱う関連記事をグループ化します。複数の出版社が同じニュースを報道する場合、同じストーリーIDを割り当てます。これにより、ストーリーが時間とともにどのように発展するか、トレンドトピックを特定し、報道の広さを測定し、異なるソースからの重複コンテンツの処理を回避できます。
重複検出アルゴリズムは、記事のコンテンツ、エンティティ、および発行タイミングを分析して、複数の出版社が同じストーリーを報道しているかを識別します。各記事にはis_duplicate フラグがあります。これにより、冗長なコンテンツをフィルタリングし、ユニークなニュースに焦点を当てることができます。ストーリークラスタリングと組み合わせることで、1つのストーリーにつき1つの記事を取得したり、完全な報道を追跡したりできます。
APITubeは、複数のエクスポート形式をサポートしています:JSON(デフォルト)、CSV、TSV、XLSX(Excel)、XML、RSSフィード。すべての形式に同じデータフィールドが含まれています。ワークフローに最適な形式を選択してください - API用のJSON、スプレッドシートとBIツール用のCSV/XLSX、フィードリーダー用のRSS、レガシーシステム用のXML。
出版者ランク(OPR - 総合出版者ランク)は、ドメイン権威性、トラフィック量、コンテンツ品質、発行頻度、編集基準などの複数の要因に基づいて0-10でスコアリングされます。高ランク(6 )のソースには、通常ロイター、BBC、NYTなどの主要なニュースアウトレットが含まれます。このフィルターを使用して、信頼性の高いソースを優先するか、低品質のコンテンツを除外します。
当社のNER(固有表現認識)は、記事テキストから人物、組織、場所、ブランド、イベントなどを抽出します。各エンティティには、そのタイプと言及回数が含まれています。エンティティデータをブランドモニタリング、特定の企業の追跡、地理的カバレッジの分析、またはニュースコンテンツからの知識グラフの構築に使用してください。
APIは、description(要約/抜粋)とbody(完全な記事本文)の両方のフィールドを返します。bodyフィールドには、HTMLを削除した完全にクリーンな記事のコンテンツが含まれています。有料壁の背後にある一部の記事は、本文のコンテンツが制限されている場合があります - is_paywallフラグを確認してください。完全な本文へのアクセスは、すべてのプランに含まれており、追加費用はありません。

構造化ニュースデータAPI:生の記事を超えて

APITubeは、50万以上のソース全体で一貫したスキーマを持つ構造化されたニュースデータを提供します。各記事には、標準化されたフィールド:タイトル、本文、発行日、ソースメタデータ、包括的なNLP拡張が含まれています。

豊富化フィールドには、感情スコア(ポジティブ/ネガティブ/ニュートラル)、抽出されたエンティティ(人、組織、場所、ブランド)、トピックおよびカテゴリ分類、業界タグ、可読性メトリクスが含まれます。ストーリークラスタリングは関連する記事を自動的にグループ化します。

データエンジニアと分析者にとって、構造化された出力により解析の複雑さが排除されます。一貫したJSONスキーマは、データベース、分析プラットフォーム、MLパイプラインと直接連携します。スプレッドシートとBIツールの統合のため、CSV、XLSX、またはXMLへエクスポート。