CrawlForge
Panduan Lanjutan

Teknik Scraping Lanjutan

Kuasai senario scraping kompleks termasuk kandungan dinamik, halaman yang dilindungi pengesahan, pemaparan JavaScript, dan pengendalian AJAX dengan CrawlForge MCP.

Kandungan Dinamik & JavaScript
Pengesahan & Sesi
AJAX & Tatal Tak Terhingga
Pengendalian Had Kadar

1. Kandungan Dinamik & JavaScript

Banyak tapak web moden memaparkan kandungan dengan JavaScript selepas muatan halaman awal. Gunakan scrape_with_actions untuk menunggu elemen dinamik.

Bila Menggunakan Automasi Pelayar
Single-Page Apps (SPAs): Aplikasi React, Vue, Angular yang memuatkan data secara tak segerak
Lazy Loading
Imej, video, atau kandungan yang dimuatkan semasa menatal
Elemen Interaktif
Dropdown, modal, atau tab yang mendedahkan kandungan
HTML Statik
Gunakan fetch_url sebaliknya (5x lebih murah)

Contoh: Scraping SPA React

5 credits

Bash
Petua Pro: Sentiasa cuba fetch_url dahulu. Banyak SPA memaparkan kandungan terlebih dahulu dalam HTML awal atau mendedahkan titik akhir API yang boleh anda panggil terus.

2. Pengesahan & Sesi

Scrape halaman di sebalik borang log masuk atau pengesahan API menggunakan kuki, pengepala, atau penghantaran borang automatik.

Strategi 1: Pengesahan Kuki

Terbaik untuk tapak yang membolehkan anda memperoleh kuki sesi secara manual

Bash

Strategi 2: Log Masuk Automatik dengan Borang

Automasikan keseluruhan proses log masuk dengan form_submit

Bash
Nota Keselamatan: Jangan sekali-kali mengekod keras kredensial. Gunakan pemboleh ubah persekitaran dan putarkannya secara berkala. Pertimbangkan untuk menggunakan OAuth atau token API apabila tersedia.

3. AJAX & Tatal Tak Terhingga

Tangkap kandungan yang dimuatkan semasa anda menatal atau mengklik butang "Load More".

Contoh Tatal Tak Terhingga

5 credits

Typescript

4. Pengendalian Had Kadar

Laksanakan backoff eksponen dan logik cuba semula apabila menghadapi respons 429.

Contoh Logik Cuba Semula

Typescript
Langkah Seterusnya
Teruskan perjalanan pembelajaran anda dengan lebih banyak panduan lanjutan
Pemprosesan Kelompok →
Skala ke beribu-ribu URL
Teknik Stealth →
Pintas sistem anti-bot