Pada halaman ini
Claude sangat cemerlang dalam membaca, menaakul, dan meringkaskan kandungan web -- tetapi secara lalai ia tidak boleh fetch satu halaman langsung pun. Web scraping dengan Claude hanya menjadi mungkin apabila anda merapatkan jurang itu dengan Model Context Protocol (MCP). Sambungkan CrawlForge MCP dan Claude memperoleh 23 alat scraping yang boleh dipanggilnya atas permintaan: fetch URL, ekstrak teks artikel yang bersih, tarik data berstruktur dengan pemilih CSS, pintas sistem anti-bot, atau jalankan deep research berbilang sumber. Tiada Python, tiada boilerplate Playwright, tiada kod scraping langsung.
Ini ialah panduan hab untuk setiap aliran kerja web scraping Claude. Sama ada anda menggunakan Claude Desktop, Claude Code dalam terminal anda, atau Anthropic API mentah, halaman ini menunjukkan persediaannya dan memautkan kepada tutorial mendalam untuk setiap laluan.
Mula Pantas: Persediaan 2 Minit
Anda hanya memerlukan tiga perkara: Node.js 18+, satu permukaan Claude (Desktop, Code, atau akses API), dan API key CrawlForge percuma. Daftar di crawlforge.dev/signup -- anda mendapat 1,000 credits tanpa kad kredit.
Untuk Claude Desktop, tambah CrawlForge ke fail konfigurasi anda:
{
"mcpServers": {
"crawlforge": {
"command": "npx",
"args": ["-y", "@crawlforge/mcp-server"],
"env": {
"CRAWLFORGE_API_KEY": "cf_live_YOUR_API_KEY_HERE"
}
}
}
}Untuk Claude Code, laluan terpantas ialah wizard persediaan:
npm install -g crawlforge-mcp-server
npx crawlforge-setup # paste your cf_live_ key when promptedMulakan semula Claude, dan anda sudah boleh scraping. Tanya secara terus: "Fetch https://news.ycombinator.com and give me the top 5 story titles." Claude Desktop menyokong MCP server pada setiap pelan, termasuk Free; Claude Code memerlukan pelan Claude berbayar atau pengebilan API -- apa pun, tiada langganan scraping berasingan. Bahagian seterusnya panduan ini menerangkan cara setiap laluan berfungsi dan apa yang anda boleh bina.
Jadual Kandungan
- Cara Claude Scrape Web
- Persediaan Claude Desktop
- Persediaan Claude Code
- Claude API: Bina Agen Anda Sendiri
- Apa yang Anda Boleh Bina
- Scraping Tapak yang Dilindungi dan Sarat JavaScript
- Credits dan Kos
- Soalan Lazim
Cara Claude Scrape Web
Claude tiada akses rangkaian natif. Minta model untuk "baca halaman ini" dan ia akan memberitahu anda bahawa ia tidak boleh membuka URL -- pengetahuannya berakhir pada had latihannya. Web scraping dengan Claude berfungsi dengan memberikan model alat yang boleh dipanggilnya, dan standard untuk alat tersebut ialah Model Context Protocol.
MCP ialah standard terbuka Anthropic untuk menyambungkan pembantu AI ke sistem luaran. Sebuah MCP server mengiklankan satu set alat (setiap satu dengan nama, penerangan, dan skema input JSON); klien (Claude Desktop, Claude Code, atau gelung API anda sendiri) menunjukkan alat tersebut kepada model. Apabila gesaan memerlukan data langsung, Claude mengeluarkan panggilan alat berstruktur, klien melaksanakannya, dan hasilnya mengalir kembali ke dalam perbualan. Jika anda baru dengan protokol ini, mulakan dengan penerangan protokol MCP untuk pembangun kami.
CrawlForge ialah MCP server yang dibina khas untuk web scraping. Daripada satu fungsi "fetch" generik, ia mendedahkan 23 alat khusus -- daripada fetch_url (HTML mentah, 1 credit) hingga deep_research (sintesis berbilang sumber, 10 credits). Claude memilih alat yang tepat untuk setiap permintaan secara automatik. Untuk seni bina penuh dan katalog alat, baca panduan lengkap untuk MCP web scraping.
Model mental utamanya: anda menerangkan hasil yang diingini dalam bahasa biasa, dan Claude mengatur alat-alatnya. Anda tidak pernah menulis skrip scraping. Claude memutuskan sama ada untuk fetch, ekstrak, crawl, atau menyelidik -- dan merangkaikan alat apabila tugasan memerlukan beberapa langkah.
Persediaan Claude Desktop
Claude Desktop ialah laluan tanpa terminal. Ia membaca MCP server daripada satu fail JSON dan mendedahkan alatnya melalui antara muka sembang. Ini pilihan terbaik jika anda mahu scrape secara berbual tanpa menulis sebarang kod.
Fail konfigurasi terletak di:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json - Linux:
~/.config/Claude/claude_desktop_config.json
Tambah blok CrawlForge daripada Mula Pantas di atas, gantikan pemegang tempat dengan kunci cf_live_ anda, kemudian tutup Claude Desktop sepenuhnya (bukan sekadar menutup tetingkap) dan buka semula. Ikon alat akan muncul dalam kotak input setelah server dimuatkan. Uji dengan:
Extract the main content from https://example.com and summarize it in three bullets.
Claude memanggil extract_content (2 credits) dan memulangkan prosa bersih tanpa iklan atau navigasi. Untuk panduan penuh -- termasuk penyelesaian masalah ralat "no tools found" dan lima contoh gesaan yang lengkap -- lihat cara menambah web scraping ke Claude Desktop.
Persediaan Claude Code
Claude Code ialah agen berasaskan terminal daripada Anthropic. Ia boleh menyunting fail, menjalankan arahan shell, dan menulis ujian -- tetapi seperti Desktop, ia tidak boleh fetch halaman langsung sehingga anda menyambungkan MCP server. Setelah CrawlForge didaftarkan, Claude Code boleh scrape, menyimpan hasil ke cakera, dan menyalurkannya terus ke dalam kod dalam satu sesi.
Pasang server secara global dan jalankan wizard:
npm install -g crawlforge-mcp-server
crawlforge-mcp-server --version
# crawlforge-mcp-server 3.0.16
npx crawlforge-setup # writes the MCP entry and stores your keyMulakan semula Claude Code, kemudian sahkan sambungan:
/mcp
Anda sepatutnya melihat crawlforge disenaraikan sebagai bersambung dengan alatnya tersedia. Sekarang minta Claude Code untuk scrape: "Fetch https://news.ycombinator.com and return the top 5 stories as a JSON array." Ia memanggil fetch_url (1 credit), menghuraikan HTML, dan menulis JSON yang sah.
Jika anda benar-benar baru dengan Claude Code, panduan pemasangan untuk pemula merangkumi persediaan Node, fail konfigurasi manual, dan arahan /mcp add langkah demi langkah. Untuk panduan berfokuskan tugasan -- scraping halaman harga, kemudian meningkat ke tapak yang dipaparkan dengan JavaScript -- baca cara scrape tapak web dengan Claude Code.
Claude API: Bina Agen Anda Sendiri
Jika anda membina produk dan bukannya bekerja secara interaktif, langkau Desktop dan Code sepenuhnya dan sambungkan CrawlForge ke Anthropic Claude API. API ini menyokong penggunaan alat natif: anda menghantar satu set takrifan alat kepada Claude, dan model memulangkan blok tool_use berstruktur yang dilaksanakan oleh kod anda terhadap CrawlForge REST API.
Gelungnya mudah: hantar gesaan pengguna berserta takrifan alat, terima blok tool_use, panggil CrawlForge, pulangkan tool_result, dan biarkan Claude meneruskan. Berikut ialah terasnya dalam TypeScript:
import Anthropic from '@anthropic-ai/sdk';
const claude = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });
// Call the CrawlForge REST API for a given tool
async function runCrawlForgeTool(name: string, input: Record<string, unknown>) {
const res = await fetch(`https://crawlforge.dev/api/v1/tools/${name}`, {
method: 'POST',
headers: {
'Authorization': `Bearer ${process.env.CRAWLFORGE_API_KEY}`,
'Content-Type': 'application/json',
},
body: JSON.stringify(input),
});
return res.json();
}
const message = await claude.messages.create({
model: 'claude-sonnet-4-6',
max_tokens: 1024,
tools: [
{
name: 'extract_content',
description: 'Extract clean readable content from a web page. Costs 2 credits.',
input_schema: {
type: 'object',
properties: { url: { type: 'string', description: 'The URL to read' } },
required: ['url'],
},
},
],
messages: [
{ role: 'user', content: 'What is on the Hacker News front page right now?' },
],
});
// When Claude returns a tool_use block, execute it and feed the result back
const toolUse = message.content.find((b) => b.type === 'tool_use');
if (toolUse && toolUse.type === 'tool_use') {
const result = await runCrawlForgeTool(toolUse.name, toolUse.input as Record<string, unknown>);
console.log(result); // feed this back as a tool_result to continue the conversation
}Corak ini berskala daripada satu alat hingga kesemua 23. Versi pengeluaran penuh -- mentakrifkan berbilang skema alat, mengendalikan gelung penggunaan alat berbilang giliran, dan penstriman respons -- terdapat dalam cara menggunakan CrawlForge dengan Anthropic Claude API.
Apa yang Anda Boleh Bina
Persediaan adalah bahagian yang membosankan. Berikut ialah apa yang sebenarnya dibuka oleh web scraping dengan Claude, dengan contoh gesaan yang boleh anda tampal hari ini.
1. Pembantu Penyelidikan
Halakan Claude kepada satu topik dan biarkan ia mencari, fetch, dan mensintesis merentas sumber dan bukannya meneka daripada data latihan yang lapuk.
Research "state of WebGPU browser support in 2026". Search the web, read the top
sources, and give me a 5-bullet summary with a citation link after each bullet.
Claude merangkaikan search_web (5 credits) dengan extract_content (2 credits setiap satu) bagi setiap sumber. Projek penuhnya -- reka bentuk gesaan, penyusunan kedudukan sumber, dan pemformatan sitasi -- terdapat dalam membina pembantu penyelidikan AI dengan Claude dan MCP.
2. Agen Perisikan Persaingan
Jejaki halaman pesaing -- harga, senarai ciri, log perubahan -- dan biarkan Claude menandakan apa yang berubah.
Scrape the pricing pages for these three competitors and build a comparison table
of plan name, monthly price, and included seats. Highlight anything cheaper than ours.
Claude menggunakan scrape_structured (2 credits) untuk ekstraksi jadual yang bersih. Lihat pembinaan hujung ke hujung dalam bina agen perisikan persaingan dengan Claude dan CrawlForge.
3. Deep Research untuk Satu Soalan
Apabila soalan memerlukan keluasan dan pengesahan sumber dan bukannya carian pantas, serahkannya kepada deep_research.
Do deep research on "regulatory changes affecting EU AI startups in 2026" and
return a structured report with conflicting viewpoints noted.
Alat tunggal ini (10 credits) mencari, fetch, menyemak silang, dan mensintesis dengan sitasi. Baca apa yang dilakukannya di sebalik tabir dalam memperkenalkan deep research.
4. Pemantau Harga Automatik
Gabungkan scraping dengan penjejakan perubahan supaya Claude memberitahu anda apabila harga berubah -- tanpa anda perlu membaca semula semuanya sendiri.
Set up a daily check on this product page. Extract the current price and alert me
only when it drops below $80.
Claude menggandingkan scrape_structured (2 credits) dengan track_changes (3 credits). Sistem lengkapnya -- pemilih, penjadualan, dan pemberitahuan -- terdapat dalam bina sistem pemantauan harga AI.
Scraping Tapak yang Dilindungi dan Sarat JavaScript
Banyak tapak sama ada memaparkan kandungan dengan JavaScript sisi klien atau berada di sebalik sistem anti-bot seperti Cloudflare, DataDome, atau PerimeterX. Panggilan fetch_url biasa memulangkan cangkerang kosong atau halaman cabaran. CrawlForge memberikan Claude dua alat peningkatan untuk kes-kes ini.
scrape_with_actions (5 credits) memandu pelayar sebenar: ia boleh menunggu kandungan dimuatkan, mengklik butang, mengisi borang, dan menskrol sebelum mengekstrak. Gunakannya untuk aplikasi satu halaman serta kandungan yang dipagari log masuk atau interaksi.
stealth_mode (5 credits) menambah randomisasi cap jari, putaran proxy residential, dan simulasi tingkah laku manusia untuk melepasi pengesanan bot pada halaman yang sebaliknya bersifat awam.
This pricing page is behind Cloudflare and loads its table with JavaScript. Use
stealth mode to load it, wait for the pricing table to render, then extract the
plan names and prices into JSON.
Urutan yang betul ialah: cuba fetch_url dahulu (1 credit -- banyak halaman "dilindungi" sebenarnya menyajikan kandungan kepada permintaan yang dibentuk dengan baik), kemudian tingkatkan. Pertimbangan putaran cap jari dan bila setiap alat menang diliputi dalam kupasan mendalam stealth mode kami. Satu batasan yang jujur: CrawlForge tidak akan menyelesaikan CAPTCHA interaktif atau scrape kandungan di sebalik paywall yang belum anda bayar -- dan anda juga tidak sepatutnya memintanya berbuat demikian.
Credits dan Kos
CrawlForge menggunakan model credit: setiap panggilan alat memotong bilangan credits yang tetap, jadi operasi murah kekal murah. Berikut ialah kos sebenar bagi setiap alat.
| Credits | Alat |
|---|---|
| 0 | list_ollama_models |
| 1 | fetch_url, extract_text, extract_links, extract_metadata, scrape_template |
| 2 | scrape_structured, extract_content, map_site, process_document, localization |
| 3 | track_changes, analyze_content, extract_structured, extract_with_llm |
| 4 | summarize_content, crawl_deep |
| 5 | stealth_mode, scrape_with_actions, batch_scrape, search_web, generate_llms_txt |
| 10 | deep_research |
Pelan-pelan menskalakan peruntukan credit bulanan:
| Plan | Harga | Credits | Sesuai untuk |
|---|---|---|---|
| Free | $0 | 1,000 (sekali sahaja) | Mencuba, penggunaan peribadi ringan |
| Hobby | $19/bulan | 5,000/bulan | Projek sampingan dan scraping berkala |
| Professional | $99/bulan | 50,000/bulan | Agen pengeluaran dan pasukan |
| Business | $399/bulan | 250,000/bulan | Saluran volum tinggi dengan SLA |
Dua tabiat memastikan kos kekal rendah. Pertama, utamakan alat termurah yang berfungsi -- fetch_url (1 credit) berbanding search_web (5 credits) apabila anda sudah tahu URL-nya. Kedua, gunakan batch_scrape (5 credits) untuk banyak URL dan bukannya melepaskan panggilan individu. Butiran penuh terdapat di halaman harga, dan anda boleh memantau penggunaan dalam dashboard.
Bersedia untuk Bermula?
Web scraping dengan Claude mengambil masa kira-kira dua minit untuk disediakan dan sifar baris kod scraping. Pilih laluan anda -- Claude Desktop, Claude Code, atau Claude API -- sambungkan CrawlForge, dan biarkan Claude memilih daripada 23 alat atas permintaan.
Mulakan secara percuma dengan 1,000 credits -- tiada kad kredit diperlukan.