Panduan Pertengahan
Panduan Pemprosesan Kelompok
Skalakan scraping web ke beribu-ribu URL dengan pengurusan baris gilir yang cekap, pemulihan ralat, dan strategi pengoptimuman prestasi.
1. Menggunakan Alat batch_scrape
Alat batch_scrape mengendalikan sehingga 50 URL secara serentak dengan pengehadan kadar terbina dalam dan pemberitahuan webhook.
Scraping Kelompok Asas
1 credit setiap URL (50 URL = 50 credits)
Bash
Pemprosesan Async dengan Webhook
Sesuai untuk kelompok besar (100+ URL) - terima pemberitahuan apabila selesai
Typescript
2. Pengurusan Baris Gilir
Proses beribu-ribu URL dengan memecahkannya kepada kelompok dan menguruskan baris gilir.
Strategi Pemecahan
Pecahkan senarai URL yang besar kepada kelompok yang boleh diuruskan
Typescript
Petua Pro: Gunakan Redis atau pangkalan data untuk menyimpan baris gilir anda. Ini membolehkan anda menyambung semula pemprosesan jika skrip anda terhempas atau perlu dimulakan semula.
3. Pemulihan Ralat
Kendalikan kegagalan dengan baik menggunakan logik cuba semula dan penjejakan ralat.
Pengendalian Ralat yang Mantap
Typescript
4. Pengoptimuman Prestasi
Maksimumkan throughput dan minimumkan kos dengan strategi pengoptimuman ini.
Optimumkan Keserentakan
Mulakan dengan
maxConcurrency: 5, tingkatkan kepada 10 untuk pelan Professional/BusinessGunakan onlyMainContent
Tetapkan
onlyMainContent: true untuk mengurangkan saiz respons sebanyak 60-80%Pilih Format Minimum
Gunakan
formats: ["markdown"] dan bukannya berbilang format (html, text, screenshot)Cache Keputusan
Simpan data yang di-scrape dalam Redis/pangkalan data untuk mengelakkan scraping semula URL yang sama
Elakkan Pengelompokan Berlebihan
Jangan melebihi 50 URL setiap kelompok - pecahkan kepada berbilang permintaan sebaliknya
Jangan Abaikan Had Kadar
Hormati had kadar pelan anda (Free: 5/s, Hobby: 10/s, Pro: 50/s, Business: 100/s)
Prestasi Dijangka
| Senario | Masa | Tetapan |
|---|---|---|
| Kelompok Kecil (10 URL) | ~5 saat | maxConcurrency: 5 |
| Kelompok Sederhana (50 URL) | ~15 saat | maxConcurrency: 10 |
| Kelompok Besar (500 URL) | ~3 minit | 10 kelompok × 50 URL |
| Kelompok Sangat Besar (5,000 URL) | ~30 minit | 100 kelompok × 50 URL |
Langkah Seterusnya
Teruskan pembelajaran dengan lebih banyak panduan lanjutan