構造化ニュースデータ
構造化されたニュースデータAPIは、世界中のニュース記事にアクセスする簡単な方法を提供します。 私たちは、何千ものソースからのニュース記事にアクセスするための、シンプルで一貫性のある、使いやすいAPIを提供しています。
title
ニュース記事のタイトル。
href
ニュース記事のURL。
description
ニュース記事の説明。
body
ニュース記事の完全な内容。
published_at
ニュース記事が公開された日付。
image
ニュース記事の画像。
言語
ニュース記事の言語。
カテゴリ
ニュース記事のカテゴリです。
topic
ニュース記事のトピック。
industry
業界のニュース記事。
センチメント
ニュース記事の感情。
🔥 story
記事をストーリーにグループ化します。
ソース
記事のソース情報。
🔥 は_breaking
ニュース速報検出。
is_duplicate
重複検出。
is_paywall
ペイウォールの検出。
links
ニュース記事からのリンク。
media
ニュース記事からのメディア。
hashtags
ニュース記事からのハッシュタグ。
read_time
分単位で記事を読むための推定時間。
sentences_count
記事内の文の数。
段落_数
記事内の段落の数。
words_count
記事内の単語の数。
characters_count
記事内の文字数。
よくある質問
- 各記事には、コアフィールド(タイトル、説明、本文、URL、発行日、画像)に加えて、豊富なデータが含まれています:センチメント分析、カテゴリ、トピック、業界分類、言語、発行者ランクを含むソース情報、ストーリークラスタリングID、および語数や読了時間などのコンテンツメトリクス。また、記事コンテンツからエンティティ、ハッシュタグ、リンク、メディアも抽出します。
- 当社のセンチメント分析は、ニュースコンテンツで訓練されたNLPモデルを使用して、記事をポジティブ、ネガティブ、またはニュートラルに分類します。各記事は、極性スコアと信頼レベルを受け取ります。モデルは記事の全文を分析し、見出しだけでなく、50以上の言語で高い精度を達成します。特定の感情的な色合いを見つけるために、センチメントで検索結果をフィルタリングできます。
- ストーリークラスタリングは、同じイベントまたはトピックを扱う関連記事をグループ化します。複数の出版社が同じニュースを報道する場合、同じストーリーIDを割り当てます。これにより、ストーリーが時間とともにどのように発展するか、トレンドトピックを特定し、報道の広さを測定し、異なるソースからの重複コンテンツの処理を回避できます。
- 重複検出アルゴリズムは、記事のコンテンツ、エンティティ、および発行タイミングを分析して、複数の出版社が同じストーリーを報道しているかを識別します。各記事にはis_duplicate フラグがあります。これにより、冗長なコンテンツをフィルタリングし、ユニークなニュースに焦点を当てることができます。ストーリークラスタリングと組み合わせることで、1つのストーリーにつき1つの記事を取得したり、完全な報道を追跡したりできます。
- APITubeは、複数のエクスポート形式をサポートしています:JSON(デフォルト)、CSV、TSV、XLSX(Excel)、XML、RSSフィード。すべての形式に同じデータフィールドが含まれています。ワークフローに最適な形式を選択してください - API用のJSON、スプレッドシートとBIツール用のCSV/XLSX、フィードリーダー用のRSS、レガシーシステム用のXML。
- 出版者ランク(OPR - 総合出版者ランク)は、ドメイン権威性、トラフィック量、コンテンツ品質、発行頻度、編集基準などの複数の要因に基づいて0-10でスコアリングされます。高ランク(6 )のソースには、通常ロイター、BBC、NYTなどの主要なニュースアウトレットが含まれます。このフィルターを使用して、信頼性の高いソースを優先するか、低品質のコンテンツを除外します。
- 当社のNER(固有表現認識)は、記事テキストから人物、組織、場所、ブランド、イベントなどを抽出します。各エンティティには、そのタイプと言及回数が含まれています。エンティティデータをブランドモニタリング、特定の企業の追跡、地理的カバレッジの分析、またはニュースコンテンツからの知識グラフの構築に使用してください。
- APIは、description(要約/抜粋)とbody(完全な記事本文)の両方のフィールドを返します。bodyフィールドには、HTMLを削除した完全にクリーンな記事のコンテンツが含まれています。有料壁の背後にある一部の記事は、本文のコンテンツが制限されている場合があります - is_paywallフラグを確認してください。完全な本文へのアクセスは、すべてのプランに含まれており、追加費用はありません。
構造化ニュースデータAPI:生の記事を超えて
APITubeは、50万以上のソース全体で一貫したスキーマを持つ構造化されたニュースデータを提供します。各記事には、標準化されたフィールド:タイトル、本文、発行日、ソースメタデータ、包括的なNLP拡張が含まれています。
豊富化フィールドには、感情スコア(ポジティブ/ネガティブ/ニュートラル)、抽出されたエンティティ(人、組織、場所、ブランド)、トピックおよびカテゴリ分類、業界タグ、可読性メトリクスが含まれます。ストーリークラスタリングは関連する記事を自動的にグループ化します。
データエンジニアと分析者にとって、構造化された出力により解析の複雑さが排除されます。一貫したJSONスキーマは、データベース、分析プラットフォーム、MLパイプラインと直接連携します。スプレッドシートとBIツールの統合のため、CSV、XLSX、またはXMLへエクスポート。