Datos Estructurados de Noticias
Nuestra API de datos estructurados de noticias proporciona una forma sencilla de acceder a artículos de noticias de todo el mundo. Proporcionamos una API simple, consistente y fácil de usar para acceder a artículos de noticias de miles de fuentes.
title
El título del artículo de noticias.
href
La URL del artículo de noticias.
description
Una descripción del artículo de noticias.
body
El contenido completo del artículo de noticias.
published_at
La fecha en que se publicó el artículo de noticias.
image
La imagen del artículo de noticias.
idioma
El lenguaje del artículo de noticias.
Categoría
La categoría del artículo de noticias.
topic
El tema del artículo de noticias.
industry
La industria del artículo de noticias.
sentimiento
El sentimiento del artículo de noticias.
🔥 story
Agrupa los artículos en historias.
source
Información de la fuente del artículo.
🔥 es_noticia
Detección de noticias de última hora.
is_duplicate
Detección de duplicados.
is_paywall
Detección de muros de pago.
links
Los enlaces del artículo de noticias.
media
Los medios de comunicación del artículo de noticias.
hashtags
Los hashtags del artículo de noticias.
read_time
El tiempo estimado para leer el artículo en minutos.
sentences_count
El número de oraciones en el artículo.
conteo_de_párrafos
El número de párrafos del artículo.
words_count
El número de palabras en el artículo.
characters_count
El número de caracteres en el artículo.
Preguntas frecuentes
- Cada artículo incluye campos principales (título, descripción, cuerpo, URL, fecha de publicación, imagen) más datos enriquecidos: análisis de sentimiento, categoría, tema, clasificación de industria, idioma, información de origen con ranking del editor, ID de agrupación de historias y métricas de contenido como conteo de palabras y tiempo de lectura. También extraemos entidades, hashtags, enlaces y medios del contenido del artículo.
- Nuestro análisis de sentimiento utiliza modelos de NLP entrenados en contenido de noticias para clasificar artículos como positivos, negativos o neutrales. Cada artículo recibe una puntuación de polaridad y un nivel de confianza. El modelo analiza el texto completo del artículo, no solo los titulares, logrando alta precisión en más de 50 idiomas. Puede filtrar los resultados de búsqueda por sentimiento para encontrar tonos emocionales específicos.
- La agrupación de historias agrupa artículos relacionados que cubren el mismo evento o tema. Cuando múltiples editores informan sobre la misma noticia, les asignamos el mismo ID de historia. Esto le ayuda a rastrear cómo se desarrollan las historias con el tiempo, identificar temas de tendencia, medir la amplitud de la cobertura y evitar procesar contenido duplicado de diferentes fuentes.
- Nuestro algoritmo de detección de duplicados analiza el contenido del artículo, las entidades y el momento de publicación para identificar cuándo varios editores cubren la misma historia. Cada artículo tiene una bandera is_duplicate. Esto le ayuda a filtrar contenido redundante y enfocarse en noticias únicas. Combinado con la agrupación de historias, puede obtener un artículo por historia o rastrear la cobertura completa.
- APITube admite múltiples formatos de exportación: JSON (predeterminado), CSV, TSV, XLSX (Excel), XML y fuentes RSS. Todos los formatos incluyen los mismos campos de datos. Elija el formato que mejor se adapte a su flujo de trabajo: JSON para API, CSV/XLSX para hojas de cálculo y herramientas de BI, RSS para lectores de feeds, XML para sistemas heredados.
- Ranking del editor (OPR - Overall Publisher Rank) se califica de 0-10 basado en múltiples factores: autoridad de dominio, volumen de tráfico, calidad de contenido, frecuencia de publicación y estándares editoriales. Las fuentes de mayor ranking (6 ) típicamente incluyen grandes medios de noticias como Reuters, BBC, NYT. Use este filtro para priorizar fuentes autorizadas o excluir contenido de baja calidad.
- Nuestro NER (Reconocimiento de Entidades Nombradas) extrae personas, organizaciones, ubicaciones, marcas, eventos y más del texto del artículo. Cada entidad incluye su tipo y recuento de menciones. Use datos de entidades para monitoreo de marcas, seguimiento de empresas específicas, análisis de cobertura geográfica o construcción de grafos de conocimiento a partir de contenido de noticias.
- La API devuelve ambos campos: descripción (resumen/extracto) y cuerpo (texto completo del artículo). El campo de cuerpo contiene el contenido del artículo completamente limpio con HTML eliminado. Algunos artículos detrás de muros de pago pueden tener contenido de cuerpo limitado - verifique la bandera is_paywall. El acceso al cuerpo completo está incluido en todos los planes, sin costo adicional.
API de Datos de Noticias Estructurados: Más Allá de los Artículos Brutos
APITube entrega datos de noticias estructurados con esquemas consistentes en más de 500,000 fuentes. Cada artículo incluye campos normalizados: título, cuerpo, fecha de publicación, metadatos de origen y enriquecimiento NLP integral.
Los campos de enriquecimiento incluyen puntuaciones de sentimiento (positivo/negativo/neutral), entidades extraídas (personas, organizaciones, ubicaciones, marcas), clasificación de temas y categorías, etiquetas de industria y métricas de legibilidad. La agrupación de historias agrupa automáticamente artículos relacionados.
Para ingenieros de datos y analistas, la salida estructurada elimina la complejidad de análisis. Los esquemas JSON consistentes trabajan directamente con bases de datos, plataformas de análisis y tuberías de ML. Exportar a CSV, XLSX o XML para integración de hojas de cálculo y herramientas de BI.