CrawlForge
Laman UtamaKes PenggunaanIntegrasiHargaDokumentasiBlog

Glosari Web Scraping

50 istilah penting merangkumi web scraping, ejen AI, Model Context Protocol, dan pengekstrakan data.

ABCDEFGHIJKLMNOPQRSTUVWXYZ

A

Audit SEO

Industri

Audit SEO ialah analisis menyeluruh prestasi pengoptimuman enjin carian sesuatu laman web. Ia menilai SEO teknikal, kandungan pada halaman, metadata, struktur laman, dan mengenal pasti peluang untuk penambahbaikan.

D

Data Berstruktur

Data

Data berstruktur ialah maklumat yang disusun dalam format yang telah ditakrifkan yang memudahkan mesin menghuraikan dan memahaminya. Pada web, ia biasanya merujuk kepada markup schema.org yang dibenamkan dalam halaman HTML.

Data Web

Industri

Data web ialah sebarang maklumat yang boleh diakses secara awam di internet. Ia termasuk kandungan laman web, siaran media sosial, API awam, rekod kerajaan, dan sebarang data lain yang tersedia melalui protokol web.

E

Ejen AI

AI / MCP

Ejen AI ialah sistem autonomi yang dikuasakan oleh model bahasa besar yang boleh menaakul tentang tugasan, membuat keputusan, dan mengambil tindakan dengan menggunakan alat. Ejen melangkaui chatbot ringkas dengan merancang dan melaksanakan aliran kerja berbilang langkah.

Ejen Pengguna

Web Scraping

Ejen pengguna ialah rentetan yang dihantar dalam pengepala permintaan HTTP yang mengenal pasti perisian klien yang membuat permintaan. Laman web menggunakannya untuk mengesan pelayar, bot, dan penyapu.

Embeddings

AI / MCP

Embeddings ialah perwakilan vektor berangka padat bagi teks, imej, atau data lain. Ia menangkap makna semantik dalam format yang membolehkan carian persamaan, pengelompokan, dan operasi pembelajaran mesin yang lain.

ETL (Extract, Transform, Load)

Industri

ETL ialah proses penyepaduan data yang mengekstrak data daripada sumber, mengubahnya kepada format yang sesuai, dan memuatkannya ke dalam sistem sasaran. Ia merupakan pendekatan standard untuk memindahkan data antara sistem.

G

GraphQL

Data

GraphQL ialah bahasa pertanyaan untuk API yang membolehkan klien meminta dengan tepat data yang mereka perlukan. Tidak seperti REST, satu titik akhir GraphQL menyajikan semua pertanyaan, dengan klien menentukan bentuk data.

J

JSON

Data

JSON (JavaScript Object Notation) ialah format pertukaran data ringan yang mudah dibaca oleh manusia dan dihuraikan oleh mesin. Ia merupakan format standard untuk respons API dan pertukaran data berstruktur.

JSON-LD

Data

JSON-LD (JSON for Linking Data) ialah kaedah mengekod data berstruktur menggunakan format JSON. Ia merupakan format pilihan untuk membenamkan markup schema.org dalam halaman web untuk pemahaman enjin carian.

K

Kandungan Dinamik

Web Scraping

Kandungan dinamik ialah kandungan web yang dimuatkan atau dijana oleh JavaScript selepas pemuatan halaman awal. Ini termasuk aplikasi satu halaman, data yang dimuatkan AJAX, dan kandungan yang dipaparkan di sisi klien.

Kejuruteraan Gesaan

AI / MCP

Kejuruteraan gesaan ialah amalan mereka bentuk dan memperhalus arahan yang diberikan kepada model bahasa untuk mencapai output yang dikehendaki. Ia melibatkan penghasilan gesaan sistem, contoh few-shot, dan pertanyaan berstruktur.

Klien MCP

AI / MCP

Klien MCP ialah aplikasi atau model AI yang menyambung ke MCP server untuk menemui dan memanggil alat. Ia menghantar permintaan panggilan alat dan memproses respons berstruktur yang dikembalikan oleh pelayan.

Kualiti Data

Industri

Kualiti data mengukur sebaik mana sesuatu set data memenuhi keperluan penggunaan yang dimaksudkan. Dimensi utama termasuk ketepatan, kelengkapan, konsistensi, ketepatan masa, dan kesahihan data.

M

Markdown

Data

Markdown ialah bahasa markup ringan yang menggunakan sintaks pemformatan teks biasa. Ia digunakan secara meluas untuk dokumentasi, penciptaan kandungan, dan sebagai format perantaraan yang bersih untuk kandungan web yang diekstrak.

Markup Skema

Data

Markup skema ialah perbendaharaan tag (daripada schema.org) yang anda tambah pada HTML untuk menambah baik cara enjin carian membaca dan mewakili halaman anda. Ia mentakrifkan jenis seperti Product, Article, Organization, dan sifat-sifatnya.

MCP server

AI / MCP

MCP server ialah perkhidmatan yang mendedahkan alat dan sumber melalui Model Context Protocol. Ia mendaftarkan fungsi yang tersedia, mengendalikan panggilan alat masuk daripada klien AI, dan mengembalikan keputusan berstruktur.

Model Bahasa Besar (LLM)

AI / MCP

Model bahasa besar ialah rangkaian neural yang dilatih dengan jumlah data teks yang besar yang boleh memahami dan menjana bahasa manusia. LLM menguasakan pembantu AI, penjana kod, dan ejen autonomi.

Model Context Protocol (MCP)

AI / MCP

Model Context Protocol ialah satu standard terbuka yang membolehkan model AI berinteraksi dengan alat dan sumber data luaran melalui antara muka bersatu. Ia menyediakan cara berstruktur untuk LLM memanggil fungsi, mengakses API, dan mendapatkan maklumat masa nyata.

O

Output Berstruktur

AI / MCP

Output berstruktur merujuk kepada data yang dikembalikan dalam format yang boleh diramal dan boleh dibaca mesin seperti JSON, dan bukan teks bebas. Ia membolehkan pemprosesan hiliran yang boleh dipercayai oleh ejen AI dan saluran paip data.

P

Pangkalan Data Vektor

AI / MCP

Pangkalan data vektor ialah pangkalan data khusus yang direka untuk menyimpan dan menanyakan embeddings vektor berdimensi tinggi dengan cekap. Ia membolehkan carian persamaan yang pantas merentas berjuta-juta dokumen terbenam.

Pelayar Tanpa Kepala

Web Scraping

Pelayar tanpa kepala ialah pelayar web tanpa antara muka pengguna grafik yang boleh dikawal secara aturcara. Ia melaksanakan JavaScript dan memaparkan halaman sama seperti pelayar biasa, tetapi berjalan di latar belakang.

Pemanggilan Fungsi

AI / MCP

Pemanggilan fungsi ialah keupayaan model bahasa untuk memanggil fungsi atau API luaran semasa perbualan. Model memutuskan bila hendak memanggil fungsi, menjana argumen yang sesuai, dan memproses keputusan yang dikembalikan.

Pemantauan Harga

Industri

Pemantauan harga ialah penjejakan automatik harga produk dan perkhidmatan merentas laman web dari semasa ke semasa. Ia membolehkan perniagaan bertindak balas terhadap perubahan harga pesaing, mengoptimumkan harga sendiri, dan mengenal pasti trend pasaran.

Pemilih CSS

Web Scraping

Pemilih CSS ialah corak yang digunakan untuk memilih dan menyasarkan elemen HTML tertentu pada halaman web. Dalam web scraping, pemilih mengenal pasti dengan tepat data yang hendak diekstrak daripada struktur halaman.

Pemindahan Kandungan

Industri

Pemindahan kandungan ialah proses memindahkan kandungan daripada satu platform atau sistem ke sistem lain. Ia melibatkan pengekstrakan kandungan daripada sumber, mengubahnya supaya sepadan dengan format sasaran, dan memuatkannya ke dalam sistem baharu.

Penalaan Halus

AI / MCP

Penalaan halus ialah proses melatih lagi model bahasa pra-latih pada set data tertentu untuk mengkhususkan tingkah lakunya bagi tugasan atau domain tertentu. Ia menyesuaikan model tujuan umum kepada kes penggunaan yang disasarkan.

Pengayaan Prospek

Industri

Pengayaan prospek ialah proses menambah maklumat prospek asas dengan titik data tambahan seperti saiz syarikat, industri, timbunan teknologi, dan profil sosial. Ia membantu pasukan jualan mengutamakan dan memperibadikan jangkauan.

Pengehadan Kadar

Web Scraping

Pengehadan kadar ialah teknik yang digunakan oleh laman web dan API untuk mengawal bilangan permintaan yang boleh dibuat oleh klien dalam tempoh masa tertentu. Ia mencegah lebihan beban pelayan dan mempertahankan daripada scraping yang menyalahgunakan.

Pengepala HTTP

Web Scraping

Pengepala HTTP ialah pasangan kunci-nilai yang dihantar bersama permintaan dan respons HTTP yang menyediakan metadata tentang komunikasi tersebut. Dalam scraping, pengepala seperti User-Agent, Accept, dan Cookie adalah kritikal untuk permintaan yang berjaya.

Penggunaan Alat

AI / MCP

Penggunaan alat ialah keupayaan model AI untuk berinteraksi dengan alat, API, dan perkhidmatan luaran untuk menyelesaikan tugasan melangkaui penjanaan teks. Ia melanjutkan keupayaan model untuk merangkumi penyemakan imbas web, pelaksanaan kod, perolehan data, dan banyak lagi.

Penghuraian DOM

Web Scraping

Penghuraian DOM ialah proses menukar HTML mentah kepada pepohon Document Object Model yang berstruktur. Perwakilan pepohon ini membolehkan program menavigasi dan mengekstrak elemen tertentu daripada halaman web.

Penghuraian HTML

Data

Penghuraian HTML ialah proses menganalisis markup HTML untuk mengekstrak struktur dan kandungannya. Penghurai menukar rentetan HTML mentah kepada struktur pepohon yang boleh dinavigasi yang boleh ditanyakan dan dimanipulasi oleh program.

Penomboran Halaman

Web Scraping

Penomboran halaman ialah amalan membahagikan kandungan merentas pelbagai halaman. Mengendalikan penomboran halaman dalam web scraping bermakna menavigasi melalui semua halaman secara automatik untuk mengumpul set data yang lengkap.

Penyelesaian CAPTCHA

Web Scraping

Penyelesaian CAPTCHA merujuk kepada teknik automatik untuk memintas cabaran CAPTCHA yang digunakan laman web untuk membezakan manusia daripada bot. Ini termasuk pengecaman imej, penyelesaian berasaskan token, dan emulasi cap jari pelayar.

Perangkak Web

Web Scraping

Perangkak web ialah program yang melayari web secara sistematik dengan mengikuti pautan dari halaman ke halaman. Perangkak menemui dan mengindeks kandungan merentas seluruh laman web atau domain.

Perisikan Persaingan

Industri

Perisikan persaingan ialah pengumpulan dan analisis maklumat secara sistematik tentang pesaing, trend pasaran, dan dinamik industri. Ia memaklumkan keputusan strategik tentang harga, kedudukan, dan pembangunan produk.

Peta Laman

Web Scraping

Peta laman ialah fail XML yang menyenaraikan semua URL pada laman web, bersama metadata seperti tarikh pengubahsuaian terakhir dan keutamaan. Ia membantu enjin carian dan perangkak menemui dan mengindeks semua halaman dengan cekap.

Putaran Proksi

Web Scraping

Putaran proksi ialah amalan mengitar melalui pelbagai alamat IP proksi semasa membuat permintaan web. Ini mengagihkan permintaan merentas IP yang berbeza untuk mengelakkan had kadar dan penyekatan berasaskan IP.

R

REST API

Data

REST API (Representational State Transfer) ialah seni bina perkhidmatan web yang menggunakan kaedah HTTP standard untuk melaksanakan operasi pada sumber. Ia merupakan gaya API yang paling biasa untuk perkhidmatan web.

Retrieval-Augmented Generation (RAG)

AI / MCP

RAG ialah seni bina AI yang menggabungkan perolehan maklumat dengan penjanaan teks. Ia mula-mula mendapatkan dokumen yang relevan daripada sumber luaran, kemudian menggunakannya sebagai konteks untuk model bahasa menjana respons yang tepat dan berasas.

Robots.txt

Web Scraping

Robots.txt ialah fail teks standard yang diletakkan di akar laman web yang memberitahu perangkak web halaman mana yang dibenarkan atau tidak dibenarkan untuk diakses. Ia merupakan sebahagian daripada Robots Exclusion Protocol.

S

Saluran Paip Data

Industri

Saluran paip data ialah urutan langkah automatik yang mengumpul, memproses, mengubah, dan menyampaikan data daripada sumber kepada destinasi. Ia membolehkan aliran data berterusan antara sistem tanpa campur tangan manual.

T

Tadbir Urus Data

Industri

Tadbir urus data ialah rangka kerja dasar, prosedur, dan standard yang memastikan data diuruskan dengan betul sepanjang kitaran hayatnya. Ia merangkumi privasi data, pematuhan, kawalan akses, dan standard kualiti.

Tetingkap Konteks

AI / MCP

Tetingkap konteks ialah jumlah maksimum teks (diukur dalam token) yang boleh diproses oleh model bahasa dalam satu permintaan. Ia termasuk kedua-dua gesaan input dan output yang dijana.

Titik Akhir API

Data

Titik akhir API ialah URL tertentu di mana API menerima permintaan. Setiap titik akhir melaksanakan fungsi tertentu, seperti mendapatkan data, mencipta rekod, atau mencetuskan tindakan.

Token

AI / MCP

Token ialah unit asas teks yang diproses oleh model bahasa. Teks dipecahkan kepada token (kira-kira 4 aksara atau 0.75 perkataan setiap satu) sebelum diproses oleh model. Kiraan token menentukan kos dan had konteks.

W

Web Scraping

Web Scraping

Web scraping ialah pengekstrakan data secara automatik daripada laman web. Ia melibatkan pengambilan halaman web secara aturcara dan menghuraikan kandungannya untuk mengumpul maklumat berstruktur.

Webhook

Data

Webhook ialah panggilan balik HTTP yang menghantar data ke URL yang ditentukan apabila sesuatu peristiwa berlaku. Tidak seperti tinjauan, webhook menolak data secara masa nyata, membolehkan seni bina dipacu peristiwa.

X

XPath

Web Scraping

XPath (XML Path Language) ialah bahasa pertanyaan untuk memilih nod daripada dokumen XML atau HTML. Ia menyediakan cara yang lebih berkuasa dan fleksibel untuk menavigasi pepohon dokumen berbanding pemilih CSS sahaja.

Footer

CrawlForge

Web scraping gred perusahaan untuk Ejen AI. 23 alat MCP khusus yang direka untuk pembangun moden yang membina sistem pintar.

Produk

  • Ciri
  • Harga
  • Kes Penggunaan
  • Integrasi
  • Alternatif
  • Changelog

Sumber

  • Mula Bekerja
  • Rujukan API
  • Templat
  • Panduan
  • Blog
  • Glosari
  • Soalan Lazim
  • Peta Laman

Pembangun

  • Protokol MCP
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

Syarikat

  • Tentang
  • Hubungi
  • Privasi
  • Terma

Kekal dikemas kini

Dapatkan kemas kini terkini tentang alat dan ciri baharu.

Dibina dengan Next.js dan protokol MCP

© 2025-2026 CrawlForge. Hak cipta terpelihara.