extract_content
Ekstrak kandungan artikel utama dengan pengesanan kebolehbacaan, membuang elemen ulangan seperti iklan, bar navigasi dan pengaki. Sesuai untuk pengekstrakan kandungan bersih yang dioptimumkan untuk LLM dan analisis kandungan.
Kes Penggunaan
Kandungan Bersih untuk LLM
Ekstrak kandungan artikel tanpa iklan dan navigasi untuk disuap ke dalam model AI
Pengekstrakan Artikel
Dapatkan teks artikel utama daripada tapak berita, blog dan platform kandungan
Membuang Elemen Ulangan
Buang iklan, tetingkap timbul, pengepala, pengaki dan elemen bukan kandungan lain
Pengagregatan Kandungan
Bina pembaca RSS, pengagregat berita dan platform kurasi kandungan
Mod Pembaca
Cipta pengalaman membaca tanpa gangguan seperti mod pembaca penyemak imbas
Penyelidikan & Analisis
Ekstrak teks artikel untuk analisis sentimen, NLP dan projek penyelidikan
Endpoint
/api/v1/tools/extract_contentParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
url | string | Required | - | URL halaman web untuk mengekstrak kandungan Example: https://example.com/article |
options | object | Optional | - | Pilihan pengekstrakan kandungan Example: {"includeImages": true, "includeLinks": true} |
options.includeImages | boolean | Optional | true | Sertakan imej dalam kandungan yang diekstrak Example: true |
options.includeLinks | boolean | Optional | false | Kekalkan pautan dalam kandungan yang diekstrak Example: false |
options.minTextLength | number | Optional | 100 | Panjang teks minimum (dalam aksara) untuk dianggap sebagai kandungan utama Example: 200 |
Contoh Permintaan
Contoh Respons
{ "success": true, "data": { "title": "The Future of Web Scraping: AI and Machine Learning", "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...", "author": "John Doe", "publishDate": "2024-01-15T10:30:00Z", "images": [ { "src": "https://example.com/images/hero.jpg", "alt": "Web scraping visualization", "width": 1200, "height": 630 } ], "readingTime": 8, "wordCount": 1847, "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..." }, "credits_used": 2, "credits_remaining": 998, "processing_time": 680}data.titleTajuk artikel yang diekstrakdata.contentKandungan artikel utama dalam format Markdown (bersih, tiada iklan/bar navigasi)data.authorPengarang artikel (jika tersedia)data.publishDateTarikh penerbitan artikel (format ISO 8601)data.imagesTatasusunan imej dengan src, teks alt dan dimensidata.readingTimeAnggaran masa membaca dalam minit (berdasarkan 200 wpm)data.wordCountJumlah kiraan perkataan kandungan yang diekstrakcredits_usedCredits ditolak untuk permintaan ini (2 setiap pengekstrakan)Pengendalian Ralat
Tiada Kandungan Ditemui (422 Unprocessable Entity)
Tidak dapat mengekstrak kandungan utama daripada halaman. Halaman mungkin kosong atau tiada kandungan boleh dibaca.
URL Tidak Sah (400 Bad Request)
Format URL tidak sah. Pastikan ia menyertakan protokol (http:// atau https://)
Halaman Tidak Boleh Diakses (404 Not Found)
URL mengembalikan ralat 404. Sahkan URL adalah betul dan boleh diakses secara umum.
Credits Tidak Mencukupi (402 Payment Required)
Akaun anda tidak mempunyai credits yang mencukupi (perlu 2). Beli lebih banyak credits atau naik taraf pelan anda.
Had Kadar Melebihi (429 Too Many Requests)
Anda telah melebihi had kadar pelan anda. Tunggu seketika atau naik taraf pelan anda untuk had yang lebih tinggi.
Kos Credit
Free Plan: 1,000 credits percubaan sekali sahaja = 500 pengekstrakan
Hobby Plan: 5,000 credits/bulan = 2,500 pengekstrakan ($19/mo)
Professional Plan: 50,000 credits/bulan = 25,000 pengekstrakan ($99/mo)
Business Plan: 250,000 credits/bulan = 125,000 pengekstrakan ($399/mo)