Notizie strutturate

La nostra API Structured news Data fornisce un modo semplice per accedere agli articoli di notizie da tutto il mondo. Forniamo un'API semplice, coerente e facile da usare per accedere agli articoli di notizie da migliaia di fonti.

title

Il titolo dell'articolo.

href

L'URL dell'articolo.

description

Una descrizione dell'articolo di notizie.

body

Il contenuto completo dell'articolo di notizie.

published_at

La data in cui è stato pubblicato l'articolo.

image

L'immagine dell'articolo di notizie.

lingua

La lingua dell'articolo di notizie.

Categoria

La categoria dell'articolo di notizie.

topic

L'argomento dell'articolo di notizie.

industry

L'industria dell'articolo di notizie.

sentimento

Il sentimento dell'articolo di notizie.

🔥 story

Raggruppa gli articoli in storie.

Fonte

Articolo fonte di informazioni.

🔥 è_breaking

Breaking news detection.

is_duplicate

Rilevamento duplicato.

is_paywall

Rilevamento Paywall.

links

I link dall'articolo di notizie.

media

I media dall'articolo di notizie.

hashtags

Gli hashtag dell'articolo.

read_time

Il tempo stimato per leggere l'articolo in minuti.

sentences_count

Il numero di frasi nell'articolo.

conteggio_paragrafi

Il numero di paragrafi dell'articolo.

words_count

Il numero di parole nell'articolo.

characters_count

Il numero di caratteri nell'articolo.

Domande frequenti

Ogni articolo include campi core (titolo, descrizione, corpo, URL, data di pubblicazione, immagine) più dati arricchiti: analisi del sentiment, categoria, argomento, classificazione industriale, lingua, informazioni sulla fonte con ranking dell'editore, ID di clustering delle storie e metriche dei contenuti come conteggio delle parole e tempo di lettura. Estraiamo inoltre entità, hashtag, link e media dal contenuto dell'articolo.
La nostra analisi del sentiment utilizza modelli NLP addestrati su contenuti di notizie per classificare gli articoli come positivi, negativi o neutri. Ogni articolo riceve un punteggio di polarità e un livello di confidenza. Il modello analizza il testo completo dell'articolo, non solo i titoli, raggiungendo un'elevata precisione in oltre 50 lingue. È possibile filtrare i risultati di ricerca per sentiment per trovare specifici toni emotivi.
Il clustering delle storie raggruppa articoli correlati che coprono lo stesso evento o argomento. Quando più editori riportano la stessa notizia, assegniamo loro lo stesso ID storia. Questo ti aiuta a tracciare come le storie si sviluppano nel tempo, identificare argomenti di tendenza, misurare l'ampiezza della copertura ed evitare di elaborare contenuti duplicati da fonti diverse.
Il nostro algoritmo di rilevamento dei duplicati analizza il contenuto dell'articolo, le entità e i tempi di pubblicazione per identificare quando più editori coprono la stessa storia. Ogni articolo ha un flag is_duplicate. Questo aiuta a filtrare il contenuto ridondante e concentrarsi su notizie uniche. Combinato con il clustering delle storie, è possibile ottenere un articolo per storia o tracciare la copertura completa.
APITube supporta più formati di esportazione: JSON (predefinito), CSV, TSV, XLSX (Excel), XML e feed RSS. Tutti i formati includono gli stessi campi di dati. Scegliere il formato che meglio si adatta al proprio flusso di lavoro - JSON per API, CSV/XLSX per fogli di calcolo e strumenti BI, RSS per lettori di feed, XML per sistemi legacy.
Il rango dell'editore (OPR - Overall Publisher Rank) è valutato da 0-10 in base a molteplici fattori: autorità del dominio, volume di traffico, qualità del contenuto, frequenza di pubblicazione e standard editoriali. Le fonti di ranking più alto (6 ) includono tipicamente grandi testate giornalistiche come Reuters, BBC, NYT. Utilizzare questo filtro per dare priorità a fonti autorevoli o escludere contenuti di bassa qualità.
Il nostro NER (Riconoscimento di Entità Nominate) estrae persone, organizzazioni, luoghi, marchi, eventi e altro dal testo dell'articolo. Ogni entità include il suo tipo e il conteggio delle menzioni. Utilizza i dati delle entità per il monitoraggio dei marchi, il tracciamento di aziende specifiche, l'analisi della copertura geografica o la costruzione di grafi di conoscenza dai contenuti di notizie.
L'API restituisce entrambi i campi: descrizione (sommario/estratto) e corpo (testo completo dell'articolo). Il campo del corpo contiene il contenuto dell'articolo completamente ripulito con HTML rimosso. Alcuni articoli dietro paywall possono avere contenuto del corpo limitato - controllare il flag is_paywall. L'accesso al corpo completo è incluso in tutti i piani, senza costi aggiuntivi.

API di Dati di Notizie Strutturate: Oltre gli Articoli Grezzi

APITube fornisce dati di notizie strutturati con schemi coerenti in oltre 500.000 fonti. Ogni articolo include campi normalizzati: titolo, corpo, data di pubblicazione, metadati di origine e arricchimento NLP completo.

I campi di arricchimento includono punteggi di sentiment (positivo/negativo/neutro), entità estratte (persone, organizzazioni, luoghi, marchi), classificazione di argomenti e categorie, tag di settore e metriche di leggibilità. Il clustering delle storie raggruppa automaticamente gli articoli correlati.

Per ingegneri di dati e analisti, l'output strutturato elimina la complessità di parsing. Gli schemi JSON coerenti funzionano direttamente con database, piattaforme di analisi e pipeline ML. Esportazione in CSV, XLSX o XML per l'integrazione con fogli di calcolo e strumenti BI.