extract_content

Ekstrak kandungan artikel utama dengan pengesanan kebolehbacaan, membuang elemen ulangan seperti iklan, bar navigasi dan pengaki. Sesuai untuk pengekstrakan kandungan bersih yang dioptimumkan untuk LLM dan analisis kandungan.

Kes Penggunaan

Kandungan Bersih untuk LLM

Ekstrak kandungan artikel tanpa iklan dan navigasi untuk disuap ke dalam model AI

Pengekstrakan Artikel

Dapatkan teks artikel utama daripada tapak berita, blog dan platform kandungan

Membuang Elemen Ulangan

Buang iklan, tetingkap timbul, pengepala, pengaki dan elemen bukan kandungan lain

Pengagregatan Kandungan

Bina pembaca RSS, pengagregat berita dan platform kurasi kandungan

Mod Pembaca

Cipta pengalaman membaca tanpa gangguan seperti mod pembaca penyemak imbas

Penyelidikan & Analisis

Ekstrak teks artikel untuk analisis sentimen, NLP dan projek penyelidikan

Endpoint

POST/api/v1/tools/extract_content

Auth Required

2 req/s pada pelan Free

2 credits

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL halaman web untuk mengekstrak kandungan Example: https://example.com/article
options	object	Optional	-	Pilihan pengekstrakan kandungan Example: {"includeImages": true, "includeLinks": true}
options.includeImages	boolean	Optional	true	Sertakan imej dalam kandungan yang diekstrak Example: true
options.includeLinks	boolean	Optional	false	Kekalkan pautan dalam kandungan yang diekstrak Example: false
options.minTextLength	number	Optional	100	Panjang teks minimum (dalam aksara) untuk dianggap sebagai kandungan utama Example: 200

Contoh Permintaan

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_content \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "options": {
      "includeImages": true,
      "includeLinks": false,
      "minTextLength": 200
    }
  }'

Contoh Respons

200 OK680ms

{
  "success": true,
  "data": {
    "title": "The Future of Web Scraping: AI and Machine Learning",
    "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
    "author": "John Doe",
    "publishDate": "2024-01-15T10:30:00Z",
    "images": [
      {
        "src": "https://example.com/images/hero.jpg",
        "alt": "Web scraping visualization",
        "width": 1200,
        "height": 630
      }
    ],
    "readingTime": 8,
    "wordCount": 1847,
    "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
  },
  "credits_used": 2,
  "credits_remaining": 998,
  "processing_time": 680
}

Field Descriptions

data.titleTajuk artikel yang diekstrak

data.contentKandungan artikel utama dalam format Markdown (bersih, tiada iklan/bar navigasi)

data.authorPengarang artikel (jika tersedia)

data.publishDateTarikh penerbitan artikel (format ISO 8601)

data.imagesTatasusunan imej dengan src, teks alt dan dimensi

data.readingTimeAnggaran masa membaca dalam minit (berdasarkan 200 wpm)

data.wordCountJumlah kiraan perkataan kandungan yang diekstrak

credits_usedCredits ditolak untuk permintaan ini (2 setiap pengekstrakan)

Pengendalian Ralat

Tiada Kandungan Ditemui (422 Unprocessable Entity)

Tidak dapat mengekstrak kandungan utama daripada halaman. Halaman mungkin kosong atau tiada kandungan boleh dibaca.

URL Tidak Sah (400 Bad Request)

Format URL tidak sah. Pastikan ia menyertakan protokol (http:// atau https://)

Halaman Tidak Boleh Diakses (404 Not Found)

URL mengembalikan ralat 404. Sahkan URL adalah betul dan boleh diakses secara umum.

Credits Tidak Mencukupi (402 Payment Required)

Akaun anda tidak mempunyai credits yang mencukupi (perlu 2). Beli lebih banyak credits atau naik taraf pelan anda.

Had Kadar Melebihi (429 Too Many Requests)

Anda telah melebihi had kadar pelan anda. Tunggu seketika atau naik taraf pelan anda untuk had yang lebih tinggi.

Tip Pro: extract_content menggunakan algoritma Readability Mozilla, teknologi yang sama di sebalik Reader View Firefox. Ia berfungsi paling baik pada halaman bergaya artikel dengan struktur kandungan yang jelas.

Kos Credit

2 credits

2 credits setiap permintaan

Setiap permintaan extract_content yang berjaya berharga 2 credits, tanpa mengira panjang kandungan.

Free Plan: 1,000 credits percubaan sekali sahaja = 500 pengekstrakan

Hobby Plan: 5,000 credits/bulan = 2,500 pengekstrakan ($19/mo)

Professional Plan: 50,000 credits/bulan = 25,000 pengekstrakan ($99/mo)

Business Plan: 250,000 credits/bulan = 125,000 pengekstrakan ($399/mo)

Alat Berkaitan

extract_text

Ekstrak semua teks daripada HTML (termasuk elemen ulangan) (1 credit)

summarize_content

Ringkaskan kandungan yang diekstrak (4 credits)

Bersedia untuk mencuba extract_content? Daftar secara percuma dan dapatkan 1,000 credits untuk mula membina.

Kes Penggunaan

Kandungan Bersih untuk LLM

Ekstrak kandungan artikel tanpa iklan dan navigasi untuk disuap ke dalam model AI

Pengekstrakan Artikel

Dapatkan teks artikel utama daripada tapak berita, blog dan platform kandungan

Membuang Elemen Ulangan

Buang iklan, tetingkap timbul, pengepala, pengaki dan elemen bukan kandungan lain

Pengagregatan Kandungan

Bina pembaca RSS, pengagregat berita dan platform kurasi kandungan

Mod Pembaca

Cipta pengalaman membaca tanpa gangguan seperti mod pembaca penyemak imbas

Penyelidikan & Analisis

Ekstrak teks artikel untuk analisis sentimen, NLP dan projek penyelidikan

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL halaman web untuk mengekstrak kandungan Example: https://example.com/article
options	object	Optional	-	Pilihan pengekstrakan kandungan Example: {"includeImages": true, "includeLinks": true}
options.includeImages	boolean	Optional	true	Sertakan imej dalam kandungan yang diekstrak Example: true
options.includeLinks	boolean	Optional	false	Kekalkan pautan dalam kandungan yang diekstrak Example: false
options.minTextLength	number	Optional	100	Panjang teks minimum (dalam aksara) untuk dianggap sebagai kandungan utama Example: 200

Contoh Permintaan

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_content \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "options": {
      "includeImages": true,
      "includeLinks": false,
      "minTextLength": 200
    }
  }'

Contoh Respons

200 OK680ms

{
  "success": true,
  "data": {
    "title": "The Future of Web Scraping: AI and Machine Learning",
    "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
    "author": "John Doe",
    "publishDate": "2024-01-15T10:30:00Z",
    "images": [
      {
        "src": "https://example.com/images/hero.jpg",
        "alt": "Web scraping visualization",
        "width": 1200,
        "height": 630
      }
    ],
    "readingTime": 8,
    "wordCount": 1847,
    "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
  },
  "credits_used": 2,
  "credits_remaining": 998,
  "processing_time": 680
}

Field Descriptions

data.titleTajuk artikel yang diekstrak

data.contentKandungan artikel utama dalam format Markdown (bersih, tiada iklan/bar navigasi)

data.authorPengarang artikel (jika tersedia)

data.publishDateTarikh penerbitan artikel (format ISO 8601)

data.imagesTatasusunan imej dengan src, teks alt dan dimensi

data.readingTimeAnggaran masa membaca dalam minit (berdasarkan 200 wpm)

data.wordCountJumlah kiraan perkataan kandungan yang diekstrak

credits_usedCredits ditolak untuk permintaan ini (2 setiap pengekstrakan)

Pengendalian Ralat

Tiada Kandungan Ditemui (422 Unprocessable Entity)

Tidak dapat mengekstrak kandungan utama daripada halaman. Halaman mungkin kosong atau tiada kandungan boleh dibaca.

URL Tidak Sah (400 Bad Request)

Format URL tidak sah. Pastikan ia menyertakan protokol (http:// atau https://)

Halaman Tidak Boleh Diakses (404 Not Found)

URL mengembalikan ralat 404. Sahkan URL adalah betul dan boleh diakses secara umum.

Credits Tidak Mencukupi (402 Payment Required)

Akaun anda tidak mempunyai credits yang mencukupi (perlu 2). Beli lebih banyak credits atau naik taraf pelan anda.

Had Kadar Melebihi (429 Too Many Requests)

Anda telah melebihi had kadar pelan anda. Tunggu seketika atau naik taraf pelan anda untuk had yang lebih tinggi.

Kos Credit

2 credits

2 credits setiap permintaan

Setiap permintaan extract_content yang berjaya berharga 2 credits, tanpa mengira panjang kandungan.

Free Plan: 1,000 credits percubaan sekali sahaja = 500 pengekstrakan

Hobby Plan: 5,000 credits/bulan = 2,500 pengekstrakan ($19/mo)

Professional Plan: 50,000 credits/bulan = 25,000 pengekstrakan ($99/mo)

Business Plan: 250,000 credits/bulan = 125,000 pengekstrakan ($399/mo)