Web Scraping

Robots.txt

Definisi

Robots.txt ialah fail teks standard yang diletakkan di akar laman web yang memberitahu perangkak web halaman mana yang dibenarkan atau tidak dibenarkan untuk diakses. Ia merupakan sebahagian daripada Robots Exclusion Protocol.

Bagaimana Ia Berkaitan dengan CrawlForge

Fail robots.txt bertindak sebagai satu set garis panduan untuk perangkak. Walaupun tidak mengikat dari segi undang-undang, menghormatinya dianggap amalan standard untuk scraping yang beretika. Ia menentukan laluan mana yang tidak dibenarkan, keutamaan kelewatan perangkak, dan pautan ke peta laman XML.

Alat CrawlForge menghormati arahan robots.txt secara lalai. Apabila menggunakan crawl_deep atau map_site, perangkak menyemak robots.txt sebelum mengakses halaman, memastikan aktiviti scraping anda kekal dalam keutamaan yang dinyatakan oleh pemilik laman.

Alat CrawlForge Berkaitan

Istilah Berkaitan

Perangkak Web

Perangkak web ialah program yang melayari web secara sistematik dengan mengikuti pautan dari halaman ke halaman. Perangkak menemui dan mengindeks kandungan merentas seluruh laman web atau domain.

Peta Laman

Peta laman ialah fail XML yang menyenaraikan semua URL pada laman web, bersama metadata seperti tarikh pengubahsuaian terakhir dan keutamaan. Ia membantu enjin carian dan perangkak menemui dan mengindeks semua halaman dengan cekap.

Pengehadan Kadar

Pengehadan kadar ialah teknik yang digunakan oleh laman web dan API untuk mengawal bilangan permintaan yang boleh dibuat oleh klien dalam tempoh masa tertentu. Ia mencegah lebihan beban pelayan dan mempertahankan daripada scraping yang menyalahgunakan.

Ejen Pengguna

Ejen pengguna ialah rentetan yang dihantar dalam pengepala permintaan HTTP yang mengenal pasti perisian klien yang membuat permintaan. Laman web menggunakannya untuk mengesan pelayar, bot, dan penyapu.

Mula Scraping dengan 1,000 Credits Percuma

Mulakan dengan CrawlForge hari ini. Tiada kad kredit diperlukan.

Mula scraping dengan 1,000 credits percuma