extract_text
Ekstrak teks bersih dan mudah dibaca daripada HTML dengan penghuraian pintar. Membuang skrip, gaya dan kandungan boilerplate secara automatik sambil mengekalkan kandungan teks utama.
Kes Penggunaan
Pengekstrakan Artikel untuk LLM
Ekstrak teks artikel yang bersih untuk peringkasan, analisis atau pemprosesan AI
Analisis Kandungan
Dapatkan teks biasa untuk kiraan perkataan, analisis kebolehbacaan atau pengesanan sentimen
Teks Bersih untuk Peringkasan
Buang gangguan HTML sebelum dihantar ke model peringkasan
Pembuangan Boilerplate
Buang iklan, navigasi dan elemen bukan kandungan yang lain
Endpoint
/api/v1/tools/extract_textParameters
html atau url. Jika kedua-duanya disediakan, html diberi keutamaan.| Name | Type | Required | Default | Description |
|---|---|---|---|---|
html | string | Optional | - | Kandungan HTML untuk mengekstrak teks (sediakan sama ada html atau url) Example: <html><body><h1>Hello World</h1></body></html> |
url | string | Optional | - | URL untuk diambil dan diekstrak teksnya (sediakan sama ada html atau url) Example: https://example.com/article |
selector | string | Optional | - | Pemilih CSS untuk menyasarkan elemen tertentu (lalai: keseluruhan halaman) Example: article, .content, #main |
clean | boolean | Optional | true | Buang ruang putih berlebihan dan normalkan pemformatan Example: true |
preserve_links | boolean | Optional | false | Sertakan pautan dalam teks yang diekstrak bersama URL masing-masing Example: false |
preserve_formatting | boolean | Optional | false | Kekalkan pemformatan HTML asas (perenggan, pemisah baris) Example: false |
max_length | number | Optional | - | Panjang maksimum teks yang diekstrak (akan dipangkas dengan ...) Example: 5000 |
Contoh Permintaan
cURL - Extract from URL
TypeScript - Extract from HTML
Python - Extract with Selector
Contoh Respons
{ "success": true, "data": { "text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)", "metadata": { "title": "Article Title - Example Site", "description": "Meta description of the article", "word_count": 248, "character_count": 1432, "selector_used": "article", "links_preserved": true, "formatting_preserved": false } }, "credits_used": 1, "credits_remaining": 999, "processing_time": 180}data.textKandungan teks biasa yang diekstrakdata.metadata.word_countJumlah bilangan perkataan dalam teks yang diekstrakdata.metadata.character_countJumlah bilangan aksaradata.metadata.selector_usedPemilih CSS yang telah digunakancredits_usedCredits ditolak untuk permintaan ini (1 setiap pengekstrakan)Pengendalian Ralat
Input Hilang (400 Bad Request)
html mahupun url tidak disediakan. Anda mesti menyediakan sekurang-kurangnya satu.
Pemilih Tidak Sah (400 Bad Request)
Pemilih CSS tidak sah atau tidak sepadan dengan sebarang elemen. Sahkan sintaks pemilih anda.
Pengambilan URL Gagal (500 Internal Server Error)
Gagal mengambil URL. Pastikan URL boleh diakses dan mengembalikan HTML.