CrawlForge
Alat Lanjutan2 credits

extract_content

Ekstrak kandungan artikel utama dengan pengesanan kebolehbacaan, membuang elemen ulangan seperti iklan, bar navigasi dan pengaki. Sesuai untuk pengekstrakan kandungan bersih yang dioptimumkan untuk LLM dan analisis kandungan.

Kes Penggunaan

Kandungan Bersih untuk LLM

Ekstrak kandungan artikel tanpa iklan dan navigasi untuk disuap ke dalam model AI

Pengekstrakan Artikel

Dapatkan teks artikel utama daripada tapak berita, blog dan platform kandungan

Membuang Elemen Ulangan

Buang iklan, tetingkap timbul, pengepala, pengaki dan elemen bukan kandungan lain

Pengagregatan Kandungan

Bina pembaca RSS, pengagregat berita dan platform kurasi kandungan

Mod Pembaca

Cipta pengalaman membaca tanpa gangguan seperti mod pembaca penyemak imbas

Penyelidikan & Analisis

Ekstrak teks artikel untuk analisis sentimen, NLP dan projek penyelidikan

Endpoint

POST/api/v1/tools/extract_content
Auth Required
2 req/s pada pelan Free
2 credits

Parameters

NameTypeRequiredDefaultDescription
url
stringRequired-
URL halaman web untuk mengekstrak kandungan
Example: https://example.com/article
options
objectOptional-
Pilihan pengekstrakan kandungan
Example: {"includeImages": true, "includeLinks": true}
options.includeImages
booleanOptionaltrue
Sertakan imej dalam kandungan yang diekstrak
Example: true
options.includeLinks
booleanOptionalfalse
Kekalkan pautan dalam kandungan yang diekstrak
Example: false
options.minTextLength
numberOptional100
Panjang teks minimum (dalam aksara) untuk dianggap sebagai kandungan utama
Example: 200

Contoh Permintaan

terminalBash

Contoh Respons

200 OK680ms
{
"success": true,
"data": {
"title": "The Future of Web Scraping: AI and Machine Learning",
"content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
"author": "John Doe",
"publishDate": "2024-01-15T10:30:00Z",
"images": [
{
"src": "https://example.com/images/hero.jpg",
"alt": "Web scraping visualization",
"width": 1200,
"height": 630
}
],
"readingTime": 8,
"wordCount": 1847,
"excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
},
"credits_used": 2,
"credits_remaining": 998,
"processing_time": 680
}
Field Descriptions
data.titleTajuk artikel yang diekstrak
data.contentKandungan artikel utama dalam format Markdown (bersih, tiada iklan/bar navigasi)
data.authorPengarang artikel (jika tersedia)
data.publishDateTarikh penerbitan artikel (format ISO 8601)
data.imagesTatasusunan imej dengan src, teks alt dan dimensi
data.readingTimeAnggaran masa membaca dalam minit (berdasarkan 200 wpm)
data.wordCountJumlah kiraan perkataan kandungan yang diekstrak
credits_usedCredits ditolak untuk permintaan ini (2 setiap pengekstrakan)

Pengendalian Ralat

Tiada Kandungan Ditemui (422 Unprocessable Entity)

Tidak dapat mengekstrak kandungan utama daripada halaman. Halaman mungkin kosong atau tiada kandungan boleh dibaca.

URL Tidak Sah (400 Bad Request)

Format URL tidak sah. Pastikan ia menyertakan protokol (http:// atau https://)

Halaman Tidak Boleh Diakses (404 Not Found)

URL mengembalikan ralat 404. Sahkan URL adalah betul dan boleh diakses secara umum.

Credits Tidak Mencukupi (402 Payment Required)

Akaun anda tidak mempunyai credits yang mencukupi (perlu 2). Beli lebih banyak credits atau naik taraf pelan anda.

Had Kadar Melebihi (429 Too Many Requests)

Anda telah melebihi had kadar pelan anda. Tunggu seketika atau naik taraf pelan anda untuk had yang lebih tinggi.

Tip Pro: extract_content menggunakan algoritma Readability Mozilla, teknologi yang sama di sebalik Reader View Firefox. Ia berfungsi paling baik pada halaman bergaya artikel dengan struktur kandungan yang jelas.

Kos Credit

2 credits
2 credits setiap permintaan
Setiap permintaan extract_content yang berjaya berharga 2 credits, tanpa mengira panjang kandungan.

Free Plan: 1,000 credits percubaan sekali sahaja = 500 pengekstrakan

Hobby Plan: 5,000 credits/bulan = 2,500 pengekstrakan ($19/mo)

Professional Plan: 50,000 credits/bulan = 25,000 pengekstrakan ($99/mo)

Business Plan: 250,000 credits/bulan = 125,000 pengekstrakan ($399/mo)

Alat Berkaitan

extract_text
Ekstrak semua teks daripada HTML (termasuk elemen ulangan) (1 credit)
summarize_content
Ringkaskan kandungan yang diekstrak (4 credits)
Bersedia untuk mencuba extract_content? Daftar secara percuma dan dapatkan 1,000 credits untuk mula membina.