Données d'Actualités Structurées
Notre API de données d'actualités structurées offre un moyen simple d'accéder aux articles d'actualité du monde entier. Nous fournissons une API simple, cohérente et facile à utiliser pour accéder aux articles d'actualité provenant de milliers de sources.
title
Le titre de l'article de presse.
href
L'URL de l'article de presse.
description
Une description de l'article de presse.
body
Le contenu complet de l'article de presse.
published_at
La date à laquelle l'article de presse a été publié.
image
L'image de l'article de presse.
langue
La langue de l'article de presse.
Catégorie
La catégorie de l'article de presse.
topic
Le sujet de l'article de presse.
industry
L'industrie de l'article de presse.
sentiment
Le sentiment de l'article de presse.
🔥 story
Regroupez les articles en histoires.
Source
Informations sur la source de l'article.
🔥 est_breaking
Détection des dernières nouvelles.
is_duplicate
Détection des doublons.
is_paywall
Détection de mur payant.
links
Les liens de l'article de presse.
media
Les médias de l'article de presse.
hashtags
Les hashtags de l'article de presse.
read_time
Le temps estimé pour lire l'article en minutes.
sentences_count
Le nombre de phrases dans l'article.
nombre_de_paragraphes
Le nombre de paragraphes dans l'article.
words_count
Le nombre de mots dans l'article.
characters_count
Le nombre de caractères dans l'article.
Questions fréquemment posées
- Chaque article comprend des champs de base (titre, description, corps, URL, date de publication, image) plus des données enrichies : analyse de sentiment, catégorie, sujet, classification sectorielle, langue, informations sur la source avec le rang de l'éditeur, identifiant de clustering d'articles, et métriques de contenu comme le nombre de mots et le temps de lecture. Nous extrayons également les entités, hashtags, liens et médias du contenu de l'article.
- Notre analyse de sentiment utilise des modèles NLP entraînés sur du contenu d'actualités pour classer les articles comme positifs, négatifs ou neutres. Chaque article reçoit un score de polarité et un niveau de confiance. Le modèle analyse le texte complet de l'article, pas seulement les titres, en atteignant une haute précision dans plus de 50 langues. Vous pouvez filtrer les résultats de recherche par sentiment pour trouver des tons émotionnels spécifiques.
- Le clustering d'articles regroupe des articles connexes couvrant le même événement ou sujet. Lorsque plusieurs éditeurs rapportent la même nouvelle, nous leur attribuons le même identifiant d'histoire. Cela vous aide à suivre l'évolution des histoires dans le temps, à identifier les sujets tendance, à mesurer l'étendue de la couverture et à éviter de traiter du contenu en double provenant de différentes sources.
- Notre algorithme de détection de doublons analyse le contenu des articles, les entités et le calendrier de publication pour identifier quand plusieurs éditeurs couvrent la même histoire. Chaque article a un indicateur is_duplicate. Cela vous aide à filtrer le contenu redondant et à vous concentrer sur les actualités uniques. Combiné avec le clustering d'articles, vous pouvez obtenir un article par histoire ou suivre la couverture complète.
- APITube prend en charge plusieurs formats d'exportation : JSON (par défaut), CSV, TSV, XLSX (Excel), XML et flux RSS. Tous les formats incluent les mêmes champs de données. Choisissez le format qui convient le mieux à votre flux de travail — JSON pour les API, CSV/XLSX pour les tableurs et les outils BI, RSS pour les lecteurs de flux, XML pour les systèmes hérités.
- Le rang de l'éditeur (OPR - Overall Publisher Rank) est noté de 0 à 10 en fonction de plusieurs facteurs : autorité du domaine, volume de trafic, qualité du contenu, fréquence de publication et normes éditoriales. Les sources les mieux classées (6 ) comprennent généralement de grands médias comme Reuters, BBC, NYT. Utilisez ce filtre pour prioriser les sources autorisées ou exclure le contenu de faible qualité.
- Notre NER (Reconnaissance d'Entités Nommées) extrait des personnes, des organisations, des lieux, des marques, des événements et plus encore à partir du texte de l'article. Chaque entité comprend son type et son nombre de mentions. Utilisez les données d'entités pour la surveillance de marque, le suivi d'entreprises spécifiques, l'analyse de la couverture géographique ou la construction de graphiques de connaissances à partir de contenu de presse.
- L'API renvoie les deux champs : description (résumé/extrait) et corps (texte complet de l'article). Le champ de corps contient le contenu de l'article nettoyé complet avec le HTML supprimé. Certains articles derrière des murs de paiement peuvent avoir un contenu de corps limité - vérifiez le drapeau is_paywall. L'accès au corps complet est inclus dans tous les plans, sans frais supplémentaires.
API de Données D'actualités Structurées : Au-Delà des Articles Bruts
APITube fournit des données d'actualités structurées avec des schémas cohérents pour plus de 500 000 sources. Chaque article comprend des champs normalisés : titre, corps, date de publication, métadonnées source et enrichissement NLP complet.
Les champs d'enrichissement incluent des scores de sentiment (positif/négatif/neutre), des entités extraites (personnes, organisations, lieux, marques), une classification par thème et catégorie, des balises sectorielles et des métriques de lisibilité. Le clustering d'articles regroupe automatiquement les articles connexes.
Pour les ingénieurs données et les analystes, la sortie structurée élimine la complexité de l'analyse. Les schémas JSON cohérents fonctionnent directement avec les bases de données, les plateformes d'analyse et les pipelines ML. Exportation vers CSV, XLSX ou XML pour l'intégration des tableurs et des outils BI.