extract_text

Ekstrak teks bersih dan mudah dibaca daripada HTML dengan penghuraian pintar. Membuang skrip, gaya dan kandungan boilerplate secara automatik sambil mengekalkan kandungan teks utama.

Kes Penggunaan

Pengekstrakan Artikel untuk LLM

Ekstrak teks artikel yang bersih untuk peringkasan, analisis atau pemprosesan AI

Analisis Kandungan

Dapatkan teks biasa untuk kiraan perkataan, analisis kebolehbacaan atau pengesanan sentimen

Teks Bersih untuk Peringkasan

Buang gangguan HTML sebelum dihantar ke model peringkasan

Pembuangan Boilerplate

Buang iklan, navigasi dan elemen bukan kandungan yang lain

Endpoint

POST/api/v1/tools/extract_text

Auth Required

2 req/s pada pelan Free

1 credit

Parameters

Nota: Anda mesti menyediakan sama ada html atau url. Jika kedua-duanya disediakan, html diberi keutamaan.

Name	Type	Required	Default	Description
html	string	Optional	-	Kandungan HTML untuk mengekstrak teks (sediakan sama ada html atau url) Example: <html><body><h1>Hello World</h1></body></html>
url	string	Optional	-	URL untuk diambil dan diekstrak teksnya (sediakan sama ada html atau url) Example: https://example.com/article
selector	string	Optional	-	Pemilih CSS untuk menyasarkan elemen tertentu (lalai: keseluruhan halaman) Example: article, .content, #main
clean	boolean	Optional	true	Buang ruang putih berlebihan dan normalkan pemformatan Example: true
preserve_links	boolean	Optional	false	Sertakan pautan dalam teks yang diekstrak bersama URL masing-masing Example: false
preserve_formatting	boolean	Optional	false	Kekalkan pemformatan HTML asas (perenggan, pemisah baris) Example: false
max_length	number	Optional	-	Panjang maksimum teks yang diekstrak (akan dipangkas dengan ...) Example: 5000

Contoh Permintaan

cURL - Extract from URL

terminalBash

curl -X POST https://www.crawlforge.dev/api/v1/tools/extract_text \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "selector": "article",
    "clean": true,
    "max_length": 5000
  }'

TypeScript - Extract from HTML

extractText.tsTypescript

const htmlContent = `
  <html>
    <body>
      <article>
        <h1>Article Title</h1>
        <p>This is the main content of the article.</p>
        <a href="/related">Related Article</a>
      </article>
    </body>
  </html>
`;

const response = await fetch('https://www.crawlforge.dev/api/v1/tools/extract_text', {
  method: 'POST',
  headers: {
    'X-API-Key': process.env.CRAWLFORGE_API_KEY!,
    'Content-Type': 'application/json',
  },
  body: JSON.stringify({
    html: htmlContent,
    selector: 'article',
    clean: true,
    preserve_links: true
  }),
});

const data = await response.json();

if (data.success) {
  console.log('Extracted text:', data.data.text);
  console.log('Word count:', data.data.metadata.word_count);
  console.log('Character count:', data.data.metadata.character_count);
} else {
  console.error('Error:', data.error);
}

Python - Extract with Selector

extract_text.pyPython

import requests
import os

response = requests.post(
    'https://www.crawlforge.dev/api/v1/tools/extract_text',
    headers={
        'X-API-Key': os.environ['CRAWLFORGE_API_KEY'],
        'Content-Type': 'application/json',
    },
    json={
        'url': 'https://example.com/article',
        'selector': 'article, .main-content',
        'clean': True,
        'preserve_formatting': True,
        'max_length': 10000
    }
)

data = response.json()

if data['success']:
    text = data['data']['text']
    metadata = data['data']['metadata']

    print(f"Title: {metadata['title']}")
    print(f"Word count: {metadata['word_count']}")
    print(f"Character count: {metadata['character_count']}")
    print(f"\nExtracted text:\n{text[:500]}...")
else:
    print(f"Error: {data['error']}")

Contoh Respons

200 OK180ms

{
  "success": true,
  "data": {
    "text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)",
    "metadata": {
      "title": "Article Title - Example Site",
      "description": "Meta description of the article",
      "word_count": 248,
      "character_count": 1432,
      "selector_used": "article",
      "links_preserved": true,
      "formatting_preserved": false
    }
  },
  "credits_used": 1,
  "credits_remaining": 999,
  "processing_time": 180
}

Field Descriptions

data.textKandungan teks biasa yang diekstrak

data.metadata.word_countJumlah bilangan perkataan dalam teks yang diekstrak

data.metadata.character_countJumlah bilangan aksara

data.metadata.selector_usedPemilih CSS yang telah digunakan

credits_usedCredits ditolak untuk permintaan ini (1 setiap pengekstrakan)

Pengendalian Ralat

Input Hilang (400 Bad Request)

html mahupun url tidak disediakan. Anda mesti menyediakan sekurang-kurangnya satu.

Pemilih Tidak Sah (400 Bad Request)

Pemilih CSS tidak sah atau tidak sepadan dengan sebarang elemen. Sahkan sintaks pemilih anda.

Pengambilan URL Gagal (500 Internal Server Error)

Gagal mengambil URL. Pastikan URL boleh diakses dan mengembalikan HTML.

Kos Credit