CrawlForge
Alat Asas1 credit

extract_text

Ekstrak teks bersih dan mudah dibaca daripada HTML dengan penghuraian pintar. Membuang skrip, gaya dan kandungan boilerplate secara automatik sambil mengekalkan kandungan teks utama.

Kes Penggunaan

Pengekstrakan Artikel untuk LLM

Ekstrak teks artikel yang bersih untuk peringkasan, analisis atau pemprosesan AI

Analisis Kandungan

Dapatkan teks biasa untuk kiraan perkataan, analisis kebolehbacaan atau pengesanan sentimen

Teks Bersih untuk Peringkasan

Buang gangguan HTML sebelum dihantar ke model peringkasan

Pembuangan Boilerplate

Buang iklan, navigasi dan elemen bukan kandungan yang lain

Endpoint

POST/api/v1/tools/extract_text
Auth Required
2 req/s pada pelan Free
1 credit

Parameters

Nota: Anda mesti menyediakan sama ada html atau url. Jika kedua-duanya disediakan, html diberi keutamaan.
NameTypeRequiredDefaultDescription
html
stringOptional-
Kandungan HTML untuk mengekstrak teks (sediakan sama ada html atau url)
Example: <html><body><h1>Hello World</h1></body></html>
url
stringOptional-
URL untuk diambil dan diekstrak teksnya (sediakan sama ada html atau url)
Example: https://example.com/article
selector
stringOptional-
Pemilih CSS untuk menyasarkan elemen tertentu (lalai: keseluruhan halaman)
Example: article, .content, #main
clean
booleanOptionaltrue
Buang ruang putih berlebihan dan normalkan pemformatan
Example: true
preserve_links
booleanOptionalfalse
Sertakan pautan dalam teks yang diekstrak bersama URL masing-masing
Example: false
preserve_formatting
booleanOptionalfalse
Kekalkan pemformatan HTML asas (perenggan, pemisah baris)
Example: false
max_length
numberOptional-
Panjang maksimum teks yang diekstrak (akan dipangkas dengan ...)
Example: 5000

Contoh Permintaan

cURL - Extract from URL

terminalBash

TypeScript - Extract from HTML

extractText.tsTypescript

Python - Extract with Selector

extract_text.pyPython

Contoh Respons

200 OK180ms
{
"success": true,
"data": {
"text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)",
"metadata": {
"title": "Article Title - Example Site",
"description": "Meta description of the article",
"word_count": 248,
"character_count": 1432,
"selector_used": "article",
"links_preserved": true,
"formatting_preserved": false
}
},
"credits_used": 1,
"credits_remaining": 999,
"processing_time": 180
}
Field Descriptions
data.textKandungan teks biasa yang diekstrak
data.metadata.word_countJumlah bilangan perkataan dalam teks yang diekstrak
data.metadata.character_countJumlah bilangan aksara
data.metadata.selector_usedPemilih CSS yang telah digunakan
credits_usedCredits ditolak untuk permintaan ini (1 setiap pengekstrakan)

Pengendalian Ralat

Input Hilang (400 Bad Request)

html mahupun url tidak disediakan. Anda mesti menyediakan sekurang-kurangnya satu.

Pemilih Tidak Sah (400 Bad Request)

Pemilih CSS tidak sah atau tidak sepadan dengan sebarang elemen. Sahkan sintaks pemilih anda.

Pengambilan URL Gagal (500 Internal Server Error)

Gagal mengambil URL. Pastikan URL boleh diakses dan mengembalikan HTML.

Kos Credit

1 credit
1 credit setiap permintaan
Setiap pengekstrakan teks berkos 1 credit, tanpa mengira saiz kandungan atau kerumitan pemilih.

Alat Berkaitan

fetch_url
Ambil kandungan HTML sebelum mengekstrak teks (1 credit)
scrape_structured
Ekstrak data berstruktur dengan pemilih tersuai (2 credits)
content_analysis
Analisis teks yang diekstrak untuk sentimen dan topik (4 credits)
Bersedia untuk mengekstrak teks bersih? Daftar secara percuma dan dapatkan 1,000 credits untuk bermula.