XPath
Definisi
XPath (XML Path Language) ialah bahasa pertanyaan untuk memilih nod daripada dokumen XML atau HTML. Ia menyediakan cara yang lebih berkuasa dan fleksibel untuk menavigasi pepohon dokumen berbanding pemilih CSS sahaja.
Bagaimana Ia Berkaitan dengan CrawlForge
Ungkapan XPath boleh menavigasi ke atas, ke bawah, dan merentas pepohon dokumen, menjadikannya berguna untuk senario pengekstrakan yang kompleks. Contohnya, anda boleh memilih elemen harga berdasarkan kandungan teks adik-beradiknya -- sesuatu yang tidak boleh dilakukan oleh pemilih CSS.
CrawlForge menyokong XPath bersama-sama pemilih CSS dalam alat pengekstrakannya. XPath amat bernilai apabila scraping laman lama dengan HTML yang berstruktur lemah atau apabila anda perlu mengekstrak data berdasarkan kandungan teks dan bukan nama kelas.
Alat CrawlForge Berkaitan
Istilah Berkaitan
Pemilih CSS
Pemilih CSS ialah corak yang digunakan untuk memilih dan menyasarkan elemen HTML tertentu pada halaman web. Dalam web scraping, pemilih mengenal pasti dengan tepat data yang hendak diekstrak daripada struktur halaman.
Penghuraian DOM
Penghuraian DOM ialah proses menukar HTML mentah kepada pepohon Document Object Model yang berstruktur. Perwakilan pepohon ini membolehkan program menavigasi dan mengekstrak elemen tertentu daripada halaman web.
Penghuraian HTML
Penghuraian HTML ialah proses menganalisis markup HTML untuk mengekstrak struktur dan kandungannya. Penghurai menukar rentetan HTML mentah kepada struktur pepohon yang boleh dinavigasi yang boleh ditanyakan dan dimanipulasi oleh program.
Data Berstruktur
Data berstruktur ialah maklumat yang disusun dalam format yang telah ditakrifkan yang memudahkan mesin menghuraikan dan memahaminya. Pada web, ia biasanya merujuk kepada markup schema.org yang dibenamkan dalam halaman HTML.
Mula Scraping dengan 1,000 Credits Percuma
Mulakan dengan CrawlForge hari ini. Tiada kad kredit diperlukan.
Mula scraping dengan 1,000 credits percuma