Glosari Web Scraping
50 istilah penting merangkumi web scraping, ejen AI, Model Context Protocol, dan pengekstrakan data.
D
Data Berstruktur
DataData berstruktur ialah maklumat yang disusun dalam format yang telah ditakrifkan yang memudahkan mesin menghuraikan dan memahaminya. Pada web, ia biasanya merujuk kepada markup schema.org yang dibenamkan dalam halaman HTML.
Data Web
IndustriData web ialah sebarang maklumat yang boleh diakses secara awam di internet. Ia termasuk kandungan laman web, siaran media sosial, API awam, rekod kerajaan, dan sebarang data lain yang tersedia melalui protokol web.
E
Ejen AI
AI / MCPEjen AI ialah sistem autonomi yang dikuasakan oleh model bahasa besar yang boleh menaakul tentang tugasan, membuat keputusan, dan mengambil tindakan dengan menggunakan alat. Ejen melangkaui chatbot ringkas dengan merancang dan melaksanakan aliran kerja berbilang langkah.
Ejen Pengguna
Web ScrapingEjen pengguna ialah rentetan yang dihantar dalam pengepala permintaan HTTP yang mengenal pasti perisian klien yang membuat permintaan. Laman web menggunakannya untuk mengesan pelayar, bot, dan penyapu.
Embeddings
AI / MCPEmbeddings ialah perwakilan vektor berangka padat bagi teks, imej, atau data lain. Ia menangkap makna semantik dalam format yang membolehkan carian persamaan, pengelompokan, dan operasi pembelajaran mesin yang lain.
ETL (Extract, Transform, Load)
IndustriETL ialah proses penyepaduan data yang mengekstrak data daripada sumber, mengubahnya kepada format yang sesuai, dan memuatkannya ke dalam sistem sasaran. Ia merupakan pendekatan standard untuk memindahkan data antara sistem.
J
JSON
DataJSON (JavaScript Object Notation) ialah format pertukaran data ringan yang mudah dibaca oleh manusia dan dihuraikan oleh mesin. Ia merupakan format standard untuk respons API dan pertukaran data berstruktur.
JSON-LD
DataJSON-LD (JSON for Linking Data) ialah kaedah mengekod data berstruktur menggunakan format JSON. Ia merupakan format pilihan untuk membenamkan markup schema.org dalam halaman web untuk pemahaman enjin carian.
K
Kandungan Dinamik
Web ScrapingKandungan dinamik ialah kandungan web yang dimuatkan atau dijana oleh JavaScript selepas pemuatan halaman awal. Ini termasuk aplikasi satu halaman, data yang dimuatkan AJAX, dan kandungan yang dipaparkan di sisi klien.
Kejuruteraan Gesaan
AI / MCPKejuruteraan gesaan ialah amalan mereka bentuk dan memperhalus arahan yang diberikan kepada model bahasa untuk mencapai output yang dikehendaki. Ia melibatkan penghasilan gesaan sistem, contoh few-shot, dan pertanyaan berstruktur.
Klien MCP
AI / MCPKlien MCP ialah aplikasi atau model AI yang menyambung ke MCP server untuk menemui dan memanggil alat. Ia menghantar permintaan panggilan alat dan memproses respons berstruktur yang dikembalikan oleh pelayan.
Kualiti Data
IndustriKualiti data mengukur sebaik mana sesuatu set data memenuhi keperluan penggunaan yang dimaksudkan. Dimensi utama termasuk ketepatan, kelengkapan, konsistensi, ketepatan masa, dan kesahihan data.
M
Markdown
DataMarkdown ialah bahasa markup ringan yang menggunakan sintaks pemformatan teks biasa. Ia digunakan secara meluas untuk dokumentasi, penciptaan kandungan, dan sebagai format perantaraan yang bersih untuk kandungan web yang diekstrak.
Markup Skema
DataMarkup skema ialah perbendaharaan tag (daripada schema.org) yang anda tambah pada HTML untuk menambah baik cara enjin carian membaca dan mewakili halaman anda. Ia mentakrifkan jenis seperti Product, Article, Organization, dan sifat-sifatnya.
MCP server
AI / MCPMCP server ialah perkhidmatan yang mendedahkan alat dan sumber melalui Model Context Protocol. Ia mendaftarkan fungsi yang tersedia, mengendalikan panggilan alat masuk daripada klien AI, dan mengembalikan keputusan berstruktur.
Model Bahasa Besar (LLM)
AI / MCPModel bahasa besar ialah rangkaian neural yang dilatih dengan jumlah data teks yang besar yang boleh memahami dan menjana bahasa manusia. LLM menguasakan pembantu AI, penjana kod, dan ejen autonomi.
Model Context Protocol (MCP)
AI / MCPModel Context Protocol ialah satu standard terbuka yang membolehkan model AI berinteraksi dengan alat dan sumber data luaran melalui antara muka bersatu. Ia menyediakan cara berstruktur untuk LLM memanggil fungsi, mengakses API, dan mendapatkan maklumat masa nyata.
P
Pangkalan Data Vektor
AI / MCPPangkalan data vektor ialah pangkalan data khusus yang direka untuk menyimpan dan menanyakan embeddings vektor berdimensi tinggi dengan cekap. Ia membolehkan carian persamaan yang pantas merentas berjuta-juta dokumen terbenam.
Pelayar Tanpa Kepala
Web ScrapingPelayar tanpa kepala ialah pelayar web tanpa antara muka pengguna grafik yang boleh dikawal secara aturcara. Ia melaksanakan JavaScript dan memaparkan halaman sama seperti pelayar biasa, tetapi berjalan di latar belakang.
Pemanggilan Fungsi
AI / MCPPemanggilan fungsi ialah keupayaan model bahasa untuk memanggil fungsi atau API luaran semasa perbualan. Model memutuskan bila hendak memanggil fungsi, menjana argumen yang sesuai, dan memproses keputusan yang dikembalikan.
Pemantauan Harga
IndustriPemantauan harga ialah penjejakan automatik harga produk dan perkhidmatan merentas laman web dari semasa ke semasa. Ia membolehkan perniagaan bertindak balas terhadap perubahan harga pesaing, mengoptimumkan harga sendiri, dan mengenal pasti trend pasaran.
Pemilih CSS
Web ScrapingPemilih CSS ialah corak yang digunakan untuk memilih dan menyasarkan elemen HTML tertentu pada halaman web. Dalam web scraping, pemilih mengenal pasti dengan tepat data yang hendak diekstrak daripada struktur halaman.
Pemindahan Kandungan
IndustriPemindahan kandungan ialah proses memindahkan kandungan daripada satu platform atau sistem ke sistem lain. Ia melibatkan pengekstrakan kandungan daripada sumber, mengubahnya supaya sepadan dengan format sasaran, dan memuatkannya ke dalam sistem baharu.
Penalaan Halus
AI / MCPPenalaan halus ialah proses melatih lagi model bahasa pra-latih pada set data tertentu untuk mengkhususkan tingkah lakunya bagi tugasan atau domain tertentu. Ia menyesuaikan model tujuan umum kepada kes penggunaan yang disasarkan.
Pengayaan Prospek
IndustriPengayaan prospek ialah proses menambah maklumat prospek asas dengan titik data tambahan seperti saiz syarikat, industri, timbunan teknologi, dan profil sosial. Ia membantu pasukan jualan mengutamakan dan memperibadikan jangkauan.
Pengehadan Kadar
Web ScrapingPengehadan kadar ialah teknik yang digunakan oleh laman web dan API untuk mengawal bilangan permintaan yang boleh dibuat oleh klien dalam tempoh masa tertentu. Ia mencegah lebihan beban pelayan dan mempertahankan daripada scraping yang menyalahgunakan.
Pengepala HTTP
Web ScrapingPengepala HTTP ialah pasangan kunci-nilai yang dihantar bersama permintaan dan respons HTTP yang menyediakan metadata tentang komunikasi tersebut. Dalam scraping, pengepala seperti User-Agent, Accept, dan Cookie adalah kritikal untuk permintaan yang berjaya.
Penggunaan Alat
AI / MCPPenggunaan alat ialah keupayaan model AI untuk berinteraksi dengan alat, API, dan perkhidmatan luaran untuk menyelesaikan tugasan melangkaui penjanaan teks. Ia melanjutkan keupayaan model untuk merangkumi penyemakan imbas web, pelaksanaan kod, perolehan data, dan banyak lagi.
Penghuraian DOM
Web ScrapingPenghuraian DOM ialah proses menukar HTML mentah kepada pepohon Document Object Model yang berstruktur. Perwakilan pepohon ini membolehkan program menavigasi dan mengekstrak elemen tertentu daripada halaman web.
Penghuraian HTML
DataPenghuraian HTML ialah proses menganalisis markup HTML untuk mengekstrak struktur dan kandungannya. Penghurai menukar rentetan HTML mentah kepada struktur pepohon yang boleh dinavigasi yang boleh ditanyakan dan dimanipulasi oleh program.
Penomboran Halaman
Web ScrapingPenomboran halaman ialah amalan membahagikan kandungan merentas pelbagai halaman. Mengendalikan penomboran halaman dalam web scraping bermakna menavigasi melalui semua halaman secara automatik untuk mengumpul set data yang lengkap.
Penyelesaian CAPTCHA
Web ScrapingPenyelesaian CAPTCHA merujuk kepada teknik automatik untuk memintas cabaran CAPTCHA yang digunakan laman web untuk membezakan manusia daripada bot. Ini termasuk pengecaman imej, penyelesaian berasaskan token, dan emulasi cap jari pelayar.
Perangkak Web
Web ScrapingPerangkak web ialah program yang melayari web secara sistematik dengan mengikuti pautan dari halaman ke halaman. Perangkak menemui dan mengindeks kandungan merentas seluruh laman web atau domain.
Perisikan Persaingan
IndustriPerisikan persaingan ialah pengumpulan dan analisis maklumat secara sistematik tentang pesaing, trend pasaran, dan dinamik industri. Ia memaklumkan keputusan strategik tentang harga, kedudukan, dan pembangunan produk.
Peta Laman
Web ScrapingPeta laman ialah fail XML yang menyenaraikan semua URL pada laman web, bersama metadata seperti tarikh pengubahsuaian terakhir dan keutamaan. Ia membantu enjin carian dan perangkak menemui dan mengindeks semua halaman dengan cekap.
Putaran Proksi
Web ScrapingPutaran proksi ialah amalan mengitar melalui pelbagai alamat IP proksi semasa membuat permintaan web. Ini mengagihkan permintaan merentas IP yang berbeza untuk mengelakkan had kadar dan penyekatan berasaskan IP.
R
REST API
DataREST API (Representational State Transfer) ialah seni bina perkhidmatan web yang menggunakan kaedah HTTP standard untuk melaksanakan operasi pada sumber. Ia merupakan gaya API yang paling biasa untuk perkhidmatan web.
Retrieval-Augmented Generation (RAG)
AI / MCPRAG ialah seni bina AI yang menggabungkan perolehan maklumat dengan penjanaan teks. Ia mula-mula mendapatkan dokumen yang relevan daripada sumber luaran, kemudian menggunakannya sebagai konteks untuk model bahasa menjana respons yang tepat dan berasas.
Robots.txt
Web ScrapingRobots.txt ialah fail teks standard yang diletakkan di akar laman web yang memberitahu perangkak web halaman mana yang dibenarkan atau tidak dibenarkan untuk diakses. Ia merupakan sebahagian daripada Robots Exclusion Protocol.
T
Tadbir Urus Data
IndustriTadbir urus data ialah rangka kerja dasar, prosedur, dan standard yang memastikan data diuruskan dengan betul sepanjang kitaran hayatnya. Ia merangkumi privasi data, pematuhan, kawalan akses, dan standard kualiti.
Tetingkap Konteks
AI / MCPTetingkap konteks ialah jumlah maksimum teks (diukur dalam token) yang boleh diproses oleh model bahasa dalam satu permintaan. Ia termasuk kedua-dua gesaan input dan output yang dijana.
Titik Akhir API
DataTitik akhir API ialah URL tertentu di mana API menerima permintaan. Setiap titik akhir melaksanakan fungsi tertentu, seperti mendapatkan data, mencipta rekod, atau mencetuskan tindakan.
Token
AI / MCPToken ialah unit asas teks yang diproses oleh model bahasa. Teks dipecahkan kepada token (kira-kira 4 aksara atau 0.75 perkataan setiap satu) sebelum diproses oleh model. Kiraan token menentukan kos dan had konteks.
W
Web Scraping
Web ScrapingWeb scraping ialah pengekstrakan data secara automatik daripada laman web. Ia melibatkan pengambilan halaman web secara aturcara dan menghuraikan kandungannya untuk mengumpul maklumat berstruktur.
Webhook
DataWebhook ialah panggilan balik HTTP yang menghantar data ke URL yang ditentukan apabila sesuatu peristiwa berlaku. Tidak seperti tinjauan, webhook menolak data secara masa nyata, membolehkan seni bina dipacu peristiwa.