ข้อมูลข่าวที่มีโครงสร้าง

ข่าวล่าสุดจากทั่วทุกมุมโลก ข่าวและสภาพอากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ,การพยากรณ์อากาศ

title

ชื่อของบทความข่าว

href

งบทความข่าว

description

คำอธิบายของบทความข่าว

body

เนื้อหาเต็มรูปแบบของบทความข่าว

published_at

วันที่เมื่อบทความข่าวถูกเผยแพร่

image

ภาพของบทความข่าว

ภาษา

ภาษาของบทความข่าว

หมวดหมู่

ประเภทของบทความข่าว

topic

หัวข้อของบทความข่าว

industry

อุตสาหกรรมของบทความข่าว

ความรู้สึก

ความเชื่อมั่นของบทความข่าว

🔥 story

การเขียนข้อความโฆษณา,การเขียนในนามคนอื่น

source

ข้อมูลแหล่งที่มาของบทความ

🔥 กำลัง_แตก

ทำลายการตรวจสอบข่าว

is_duplicate

การตรวจจับที่ซ้ำกัน

is_paywall

การตรวจจับเพย์วอลล์

links

ลิงค์จากบทความข่าว

media

สื่อจากบทความข่าว

hashtags

แฮชแท็กจากบทความข่าว

read_time

เวลาโดยประมาณในการอ่านบทความในนาทีที่

sentences_count

จำนวนประโยคในบทความ

นับ_ย่อหน้า

จำนวนย่อหน้าในบทความ

words_count

จำนวนคำในบทความ

characters_count

จำนวนอักขระในบทความ

คำถามที่พบบ่อย

แต่ละบทความประกอบด้วยฟิลด์หลัก (ชื่อเรื่อง คำอธิบาย เนื้อหา URL วันที่เผยแพร่ ภาพ) พร้อมข้อมูลที่เพิ่มคุณค่า: การวิเคราะห์ความรู้สึก หมวดหมู่ หัวข้อ การจัดประเภทอุตสาหกรรม ภาษา ข้อมูลแหล่งที่มาพร้อมอันดับผู้จัดพิมพ์ ID การจัดกลุ่มเรื่อง และตัวชี้วัดเนื้อหา เช่น จำนวนคำและเวลาอ่าน เรายังแยกเอนทิตี แฮชแท็ก ลิงก์ และสื่อออกจากเนื้อหาบทความ
การวิเคราะห์ความรู้สึกของเราใช้แบบจำลอง NLP ที่ฝึกฝนบนเนื้อหาข่าวเพื่อจัดประเภทบทความเป็นเชิงบวก เชิงลบ หรือเป็นกลาง แต่ละบทความจะได้รับคะแนนความโน้มเอียงและระดับความเชื่อมั่น แบบจำลองวิเคราะห์ข้อความบทความทั้งหมด ไม่ใช่แค่หัวข้อ โดยมีความแม่นยำสูงในมากกว่า 50 ภาษา คุณสามารถกรองผลการค้นหาตามความรู้สึกเพื่อค้นหาโทนอารมณ์เฉพาะได้
การจัดกลุ่มเรื่องจะรวมบทความที่เกี่ยวข้องที่นำเสนอเหตุการณ์หรือหัวข้อเดียวกัน เมื่อสำนักพิมพ์หลายแห่งรายงานข่าวเดียวกัน เราจะกำหนด ID เรื่องเดียวกัน นี่ช่วยให้คุณติดตามการพัฒนาของเรื่องตามเวลา ระบุหัวข้อที่กำลังได้รับความนิยม วัดความกว้างของการรายงาน และหลีกเลี่ยงการประมวลผลเนื้อหาที่ซ้ำกันจากแหล่งต่างๆ
อัลกอริทึมตรวจจับสำเนาของเราวิเคราะห์เนื้อหาบทความ เอนทิตี และเวลาเผยแพร่เพื่อระบุเมื่อสำนักพิมพ์หลายแห่งนำเสนอเรื่องเดียวกัน แต่ละบทความมีสัญลักษณ์ is_duplicate นี้ช่วยให้คุณกรองเนื้อหาที่ซ้ำซ้อนและมุ่งเน้นไปที่ข่าวที่เป็นเอกลักษณ์ เมื่อรวมกับการจัดกลุ่มเรื่อง คุณสามารถรับบทความหนึ่งต่อเรื่องหรือติดตามการรายงานอย่างครบถ้วน
APITube รองรับรูปแบบการส่งออกหลายรูปแบบ: JSON (ค่าเริ่มต้น) CSV TSV XLSX (Excel) XML และฟีด RSS ทุกรูปแบบมีฟิลด์ข้อมูลเหมือนกัน เลือกรูปแบบที่เหมาะสมกับขั้นตอนการทำงานของคุณ - JSON สำหรับ API CSV/XLSX สำหรับสเปรดชีตและเครื่องมือ BI RSS สำหรับการอ่านฟีด XML สำหรับระบบเก่า
อันดับผู้จัดพิมพ์ (OPR - อันดับผู้จัดพิมพ์โดยรวม) ได้รับคะแนนจาก 0-10 ตามปัจจัยหลายอย่าง: อำนาจโดเมน ปริมาณการเข้าชม คุณภาพเนื้อหา ความถี่การเผยแพร่ และมาตรฐานการบรรณาธิการ แหล่งข้อมูลที่มีอันดับสูง (6 ) โดยทั่วไปจะรวมถึงสื่อข่าวหลักเช่น Reuters BBC NYT ใช้ตัวกรองนี้เพื่อให้ความสำคัญกับแหล่งข้อมูลที่น่าเชื่อถือหรือแยกเนื้อหาที่มีคุณภาพต่ำ
NER (การจดจำหน่วยที่มีชื่อ) ของเราแยกบุคคล องค์กร สถานที่ แบรนด์ เหตุการณ์ และอื่นๆ จากข้อความบทความ แต่ละหน่วยประกอบด้วยประเภทและจำนวนการกล่าวถึง ใช้ข้อมูลหน่วยสำหรับการตรวจสอบแบรนด์ การติดตามบริษัทเฉพาะ การวิเคราะห์การครอบคลุมทางภูมิศาสตร์ หรือสร้างกราฟความรู้จากเนื้อหาข่าว
API ส่งคืนทั้งสองฟิลด์: คำอธิบาย (สรุป/ข้อความตัดตอน) และเนื้อหา (ข้อความบทความเต็ม) ฟิลด์เนื้อหาประกอบด้วยเนื้อหาบทความที่ทำความสะอาดแล้วอย่างสมบูรณ์พร้อมลบ HTML ออก บทความบางฉบับที่อยู่เบื้องหลังกำแพงการชำระเงินอาจมีเนื้อหาที่จำกัด - ตรวจสอบเครื่องหมาย is_paywall การเข้าถึงเนื้อหาเต็มรวมอยู่ในทุกแผน ไม่มีค่าใช้จ่ายเพิ่มเติม

API ข้อมูลข่าวที่มีโครงสร้าง: เกินกว่าบทความดิบ

APITube ส่งข้อมูลข่าวที่มีโครงสร้างด้วยสคีมาที่สอดคล้องกันจากแหล่งข้อมูลมากกว่า 500,000 แหล่ง แต่ละบทความประกอบด้วยฟิลด์มาตรฐาน: หัวเรื่อง เนื้อหา วันที่เผยแพร่ เมตาดาตาแหล่งที่มา และการเพิ่มคุณค่า NLP อย่างครอบคลุม

ฟิลด์การเพิ่มคุณค่าประกอบด้วยคะแนนความรู้สึก (เชิงบวก/เชิงลบ/เป็นกลาง) เอนทิตีที่แยกออกมา (บุคคล องค์กร สถานที่ แบรนด์) การจัดประเภทหัวข้อและหมวดหมู่ แท็กอุตสาหกรรม และเมตริกความอ่านง่าย การจัดกลุ่มเรื่องจะจัดกลุ่มบทความที่เกี่ยวข้องโดยอัตโนมัติ

สำหรับวิศวกรข้อมูลและนักวิเคราะห์ เอาต์พุตที่มีโครงสร้างขจัดความซับซ้อนของการแยกวิเคราะห์ โครงร่าง JSON ที่สอดคล้องทำงานโดยตรงกับฐานข้อมูล แพลตฟอร์มการวิเคราะห์ และไปป์ไลน์ ML ส่งออกเป็น CSV XLSX หรือ XML สำหรับการรวมสเปรดชีตและเครื่องมือ BI