CrawlForge
Panduan Pertengahan

Panduan Pemprosesan Kelompok

Skalakan scraping web ke beribu-ribu URL dengan pengurusan baris gilir yang cekap, pemulihan ralat, dan strategi pengoptimuman prestasi.

Menggunakan Alat batch_scrape
Pengurusan Baris Gilir
Pemulihan Ralat
Pengoptimuman Prestasi

1. Menggunakan Alat batch_scrape

Alat batch_scrape mengendalikan sehingga 50 URL secara serentak dengan pengehadan kadar terbina dalam dan pemberitahuan webhook.

Scraping Kelompok Asas

1 credit setiap URL (50 URL = 50 credits)

Bash

Pemprosesan Async dengan Webhook

Sesuai untuk kelompok besar (100+ URL) - terima pemberitahuan apabila selesai

Typescript

2. Pengurusan Baris Gilir

Proses beribu-ribu URL dengan memecahkannya kepada kelompok dan menguruskan baris gilir.

Strategi Pemecahan

Pecahkan senarai URL yang besar kepada kelompok yang boleh diuruskan

Typescript
Petua Pro: Gunakan Redis atau pangkalan data untuk menyimpan baris gilir anda. Ini membolehkan anda menyambung semula pemprosesan jika skrip anda terhempas atau perlu dimulakan semula.

3. Pemulihan Ralat

Kendalikan kegagalan dengan baik menggunakan logik cuba semula dan penjejakan ralat.

Pengendalian Ralat yang Mantap

Typescript

4. Pengoptimuman Prestasi

Maksimumkan throughput dan minimumkan kos dengan strategi pengoptimuman ini.

Optimumkan Keserentakan
Mulakan dengan maxConcurrency: 5, tingkatkan kepada 10 untuk pelan Professional/Business
Gunakan onlyMainContent
Tetapkan onlyMainContent: true untuk mengurangkan saiz respons sebanyak 60-80%
Pilih Format Minimum
Gunakan formats: ["markdown"] dan bukannya berbilang format (html, text, screenshot)
Cache Keputusan
Simpan data yang di-scrape dalam Redis/pangkalan data untuk mengelakkan scraping semula URL yang sama
Elakkan Pengelompokan Berlebihan
Jangan melebihi 50 URL setiap kelompok - pecahkan kepada berbilang permintaan sebaliknya
Jangan Abaikan Had Kadar
Hormati had kadar pelan anda (Free: 5/s, Hobby: 10/s, Pro: 50/s, Business: 100/s)

Prestasi Dijangka

SenarioMasaTetapan
Kelompok Kecil (10 URL)~5 saatmaxConcurrency: 5
Kelompok Sederhana (50 URL)~15 saatmaxConcurrency: 10
Kelompok Besar (500 URL)~3 minit10 kelompok × 50 URL
Kelompok Sangat Besar (5,000 URL)~30 minit100 kelompok × 50 URL
Langkah Seterusnya
Teruskan pembelajaran dengan lebih banyak panduan lanjutan
Pengoptimuman Credit →
Minimumkan kos
Teknik Stealth →
Pintas sistem anti-bot