Strukturerede Nyhedsdata

Vores strukturerede nyhedsdata API giver en enkel måde at få adgang til nyhedsartikler fra hele verden. Vi leverer en enkel, konsekvent og nem at bruge API til at få adgang til nyhedsartikler fra tusindvis af kilder.

title

Titlen på nyhedsartiklen.

href

URL ' en til nyhedsartiklen.

description

En beskrivelse af nyhedsartiklen.

body

Det fulde indhold af nyhedsartiklen.

published_at

Datoen, hvor nyhedsartiklen blev offentliggjort.

image

Billedet af nyhedsartiklen.

sprog

Sproget i nyhedsartiklen.

Kategori

Kategorien af nyhedsartiklen.

topic

Emnet for nyhedsartiklen.

industry

Branchen af nyhedsartiklen.

stemning

Stemningen i nyhedsartiklen.

🔥 story

Gruppere artiklerne i historier.

Kilde

Artikel Kilde information.

🔥 er_breaking

Breaking nyheder afsløring.

is_duplicate

Duplikat detektion.

is_paywall

Detektion af betalingsvæg.

links

Links fra nyhedsartiklen.

media

Medierne fra nyhedsartiklen.

hashtags

Hashtags fra nyhedsartiklen.

read_time

Den anslåede tid til at læse artiklen i minutter.

sentences_count

Antallet af sætninger i artiklen.

afsnit_antal

Antallet af afsnit i artiklen.

words_count

Antallet af ord i artiklen.

characters_count

Antallet af tegn i artiklen.

Ofte stillede spørgsmål

Hver artikel indeholder kernefelter (titel, beskrivelse, brødtekst, URL, publikationsdato, billede) plus beriget data: sentimentanalyse, kategori, emne, brancheklassificering, sprog, kildeinformation med udgiver-rang, historieklynge-ID og indholdsmålinger som ordantal og læsetid. Vi udtrækker også enheder, hashtags, links og medier fra artikelindholdet.
Vores sentimentanalyse bruger NLP-modeller trænet på nyhedsindhold til at klassificere artikler som positive, negative eller neutrale. Hver artikel får en polaritetsscore og konfidensniveau. Modellen analyserer hele artikelteksten, ikke kun overskrifter, og opnår høj nøjagtighed på over 50 sprog. Du kan filtrere søgeresultater efter sentiment for at finde specifikke følelsesmæssige nuancer.
Historieklyngedannelse grupperer relaterede artikler, der dækker samme begivenhed eller emne. Når flere udgivere rapporterer om samme nyhed, tildeler vi dem samme historie-ID. Dette hjælper dig med at følge, hvordan historier udvikler sig over tid, identificere trending emner, måle dækningsbredde og undgå at behandle dubleret indhold fra forskellige kilder.
Vores duplikatdetektionsalgoritme analyserer artikelindhold, enheder og publikationstidspunkt for at identificere, hvornår flere udgivere dækker samme historie. Hver artikel har et is_duplicate-flag. Dette hjælper dig med at filtrere redundant indhold fra og fokusere på unikke nyheder. Kombineret med historieklyngedannelse kan du få én artikel pr. historie eller følge fuld dækning.
APITube understøtter flere eksportformater: JSON (standard), CSV, TSV, XLSX (Excel), XML og RSS-feeds. Alle formater indeholder de samme datafelter. Vælg det format, der bedst passer til din arbejdsgang - JSON til API'er, CSV/XLSX til regneark og BI-værktøjer, RSS til feed-læsere, XML til ældre systemer.
Udgiver-rang (OPR - Overall Publisher Rank) scores fra 0-10 baseret på flere faktorer: domæneautoritet, trafikvolumen, indholdskvalitet, publikationsfrekvens og redaktionelle standarder. Højere rangerede kilder (6 ) omfatter typisk store nyhedsmedier som Reuters, BBC, NYT. Brug dette filter til at prioritere autoritativa kilder eller udelukke lavkvalitetsindhold.
Vores NER (Navngivet Enhedsgenkendelse) uddrag personer, organisationer, steder, mærker, begivenheder og mere fra artikeltekst. Hver enhed inkluderer sin type og antal henvisninger. Brug enhedsdata til mærkeovervågning, sporing af specifikke virksomheder, analyse af geografisk dækning eller opbygning af vidensgraf fra nyhedsindhold.
API'en returnerer begge felter: beskrivelse (resumé/uddrag) og brødtekst (fuld artikeltekst). Brødtekstfeltet indeholder det fuldstændig rensede artikelindhold med HTML fjernet. Nogle artikler bag betalingsmure kan have begrænset brødtekstindhold - tjek is_paywall-flaget. Fuld brødtekstadgang er inkluderet i alle planer uden ekstra omkostninger.

Struktureret Nyhedsdata-API: Ud over Rå Artikler

APITube leverer strukturerede nyhedsdata med konsekvente skemaer på tværs af over 500.000 kilder. Hver artikel inkluderer normaliserede felter: titel, brødtekst, publikationsdato, kildemetadata og omfattende NLP-berigelses.

Berigelsesfelter omfatter sentimentscorer (positiv/negativ/neutral), udtrukne enheder (personer, organisationer, steder, mærker), emne- og kategoriklassificering, branchetags og læsbarhedsmetrikker. Historieclustering grupperer automatisk beslægtede artikler.

For dataingenører og analytikere eliminerer struktureret output parsing-kompleksitet. Konsistente JSON-skemaer arbejder direkte med databaser, analyseplatforme og ML-pipelines. Eksporter til CSV, XLSX eller XML til regneark og BI-værktøjsintegration.