Pada halaman ini
Jika anda pernah menulis Claude Code skill dan menyaksikan Claude terus mengabaikannya, v4.8.0 ini untuk anda. CrawlForge MCP Server v4.8.0 menghadirkan tujuh Claude Agent Skills untuk web scraping sebenar yang aktif secara automatik, yang memetakan prompt bahasa Inggeris ringkas kepada 26 alat pelayan — supaya Claude memuatkan alat scraping, crawling, atau research yang betul tanpa anda perlu menyatakan yang mana satu untuk dipanggil.
Ini ialah keluaran minor yang sepenuhnya bersifat tambahan (dihadirkan pada 28 Jun 2026). Bilangan alat kekal pada 26, dan tiada skema alat, bentuk output, atau kos credit yang berubah untuk pemanggil sedia ada. Bersama-sama skills tersebut, kami menyambungkan perlindungan SSRF yang benar-benar dikuatkuasakan, membaiki prompt pengesahan MCP yang sebelum ini secara senyap gagal dalam keadaan fail open, menjadikan format scrape screenshot benar-benar berfungsi, menambah format branding berasaskan design tokens, dan menghadirkan pemantauan perubahan berjadual terbina dalam yang sebenar.
Jadual kandungan
- Apa yang dihadirkan dalam v4.8.0
- Tujuh Claude Agent Skills yang aktif secara automatik untuk web scraping
- Dua format scrape baharu: branding dan screenshot
- Pemantauan perubahan berjadual terbina dalam
- Pengukuhan keselamatan: kawalan yang diiklankan tetapi rosak secara senyap
- Harga: 26 alat bermeter, tiada alat baharu, tiada yang percuma
- Cara menaik taraf
- Apa yang seterusnya
Apa yang dihadirkan dalam v4.8.0
Ringkasan satu baris: Claude Agent Skills sebenar yang aktif secara automatik, dua format scrape baharu, kawalan keselamatan yang benar-benar dikuatkuasakan, dan pemantauan perubahan berjadual yang berfungsi.
Terdapat tepat satu perubahan tingkah laku untuk ditonjolkan di awal, gaya changelog Stripe: klien yang menyokong elicitation MCP kini akan benar-benar melihat pengesahan kos dan keselamatan (contohnya, deep research melebihi 50 URL, batch scrape, dan deep crawl) yang sebelum ini gagal muncul. Selebihnya bersifat tambahan semata-mata.
Pasang atau naik taraf dalam satu baris:
npm install -g crawlforge-mcp-server@latest
npx crawlforge initBerikut ialah changelog yang mudah diimbas:
| Jenis | Perubahan |
|---|---|
| Ditambah | 7 Claude Agent Skills yang aktif secara automatik meliputi kesemua 26 alat |
| Ditambah | Format branding untuk scrape (design tokens, tiada pelayar) |
| Ditambah | Format screenshot untuk scrape kini memaparkan (dahulunya no-op) |
| Ditambah | Pemantauan perubahan berjadual: create/list/stop + CLI cron |
| Dibaiki | Perlindungan SSRF disambungkan ke laluan scraping langsung |
| Dibaiki | Pengesahan elicitation MCP kini berfungsi (dahulunya no-op senyap) |
| Keselamatan | Had kadar (rate limiting) keluar per-host + pengukuhan executeJavaScript |
Tujuh Claude Agent Skills yang aktif secara automatik untuk web scraping
Pendekatan lama menghadirkan fail reference-markdown kosong yang sebenarnya tidak pernah dimuatkan oleh Claude Code. Jika anda pernah meletakkan fail skill pada cakera dan menyaksikan Claude mengabaikannya, anda tahu mod kegagalannya: fail itu ada, tetapi tiada apa yang memberitahu model bila ia relevan, jadi anda akhirnya terpaksa menyatakan secara terperinci "gunakan alat stealth_mode untuk scrape ini" — yang menggagalkan tujuannya.
Jadi kami membinanya semula dengan betul. Skill kini ialah direktori yang mengandungi fail SKILL.md dengan YAML frontmatter. Semasa permulaan, Claude pra-memuatkan hanya name dan description setiap skill yang dipasang, kemudian membaca badan penuhnya hanya apabila ia menilai skill itu relevan dengan prompt anda. Anthropic menggelar ini pendedahan beransur-ansur (progressive disclosure) — skills bukan konteks yang sentiasa dimuatkan, ia dimuatkan atas permintaan.
---
name: crawlforge-web-scraping
description: >-
Scrape, crawl, and extract content from websites and return clean
Markdown or structured JSON. Use when the user wants to scrape a page,
crawl a site, extract links or metadata, map a site, or convert a URL
to Markdown for an LLM.
---
# CrawlForge Web Scraping
...Penjelasan jujur: pengaktifan automatik dinilai oleh model, bukan terjamin. Penerangan (description) yang baik dan kaya dengan pencetus meningkatkan secara ketara kebarangkalian skill yang betul diaktifkan, tetapi ia ialah heuristik, bukan kontrak — dan anda sentiasa boleh menamakan skill atau alat secara eksplisit dalam prompt anda untuk memaksanya.
Tujuh skills tersebut meliputi kesemua 26 alat:
| Skill | Meliputi |
|---|---|
crawlforge-getting-started | Onboarding, persediaan key, pemilihan alat |
crawlforge-web-scraping | scrape, crawl, map, ekstrak links/metadata/text |
crawlforge-deep-research | deep research, search, summarize, analyze |
crawlforge-stealth-browsing | stealth mode, anti-bot, tindakan pelayar |
crawlforge-structured-extraction | pengekstrakan LLM, templat, structured scrape |
crawlforge-change-tracking | track changes, monitor berjadual |
crawlforge-batch-automation | batch scrape, pemprosesan dokumen, llms.txt |
Skills dipasang pada skop peribadi di ~/.claude/skills/<name>/SKILL.md. Ia melengkapi MCP dan bukannya menggantikannya: MCP mendedahkan 26 alat, manakala skills mengajar Claude bila dan bagaimana untuk menggunakannya — bayangkan ia sebagai panduan onboarding untuk pekerja baharu yang sudah pun mempunyai alat di atas mejanya.
Naik taraf membaiki sendiri. Pemasang mengeluarkan fail kosong legasi (membiarkan skills tidak berkaitan tidak tersentuh), dan npm run skills:gen menjana semula SKILL.md akar. Terdapat juga hook forced-eval yang boleh dipilih masuk — peringatan UserPromptSubmit yang idempoten yang meningkatkan pengaktifan automatik — di sebalik --with-hook pada install-skills dan init (dan --remove-hook pada uninstall-skills). Ia dimatikan secara lalai.
npx crawlforge init melakukan keseluruhan aliran: mengkonfigurasi API key anda, memasang skills, dan mendaftarkan MCP server dengan klien AI anda.
Dua format scrape baharu: branding dan screenshot
Alat scrape memperoleh dua format output. Kos kekal pada 2 credits untuk kedua-duanya.
Format branding baharu melakukan pengekstrakan design-token statik daripada HTML dan CSS dengan tanpa memerlukan pelayar. Ia mengembalikan palet warna, fon dan tipografi, logo dan favicon, serta token border-radius, bayang, dan spacing. Ia dilindungi SSRF, dan pengambilan CSS terpaut dihadkan dari segi bilangan dan saiz.
{
"tool": "scrape",
"arguments": {
"url": "https://stripe.com",
"formats": ["branding"]
}
}Format screenshot kini benar-benar berfungsi — sebelum ini ia ialah no-op. Ia memapar secara malas (lazy) melalui kumpulan pelayar dikongsi dan mengembalikan sumber MCP crawlforge://screenshot/{id}. Pelayar dilancarkan hanya apabila screenshot diminta, dan jika pemaparan gagal ia merosot kepada amaran supaya selebihnya scrape masih berjaya (kejayaan separa dikekalkan).
{
"tool": "scrape",
"arguments": {
"url": "https://example.com",
"formats": ["markdown", "screenshot"]
}
}Pemantauan perubahan berjadual terbina dalam
track_changes memperoleh operasi berjadual sebenar: create_scheduled_monitor, stop_scheduled_monitor, dan list_scheduled_monitors yang baharu. Ini sebelum ini ialah kod mati yang menimbulkan ralat apabila dipanggil. Ia kini disokong oleh penjadual berterusan sebenar (MonitorScheduler.js + MonitorStore.js), dan garis dasar dihidrat semula daripada snapshot apabila dimulakan semula.
Anda boleh melampirkan goal bahasa Inggeris ringkas yang pilihan. Ia dinilai oleh LLM (Ollama-dahulu) dan merosot dengan baik kepada ambang signifikan apabila tiada LLM tersedia — jadi halaman docs atau changelog API boleh mengembalikan keputusan signifikan sebenar, bukan sekadar diff.
{
"tool": "track_changes",
"arguments": {
"operation": "create_scheduled_monitor",
"url": "https://docs.example.com/changelog",
"interval": "1h",
"goal": "Tell me only when a breaking API change is announced"
}
}Kini bahagian yang jujur: stdio MCP server bukan daemon yang berpanjangan, jadi pemicuan berjadual yang boleh dipercayai menggunakan CLI bersama-sama system cron. monitor:run-due ialah satu kali (one-shot) yang memeriksa setiap monitor yang tiba masanya dan menjamin pemicuan:
# Create and inspect monitors
crawlforge monitor:create --url https://docs.example.com/changelog --interval 1h
crawlforge monitor:list
# Drive due checks from system cron (every 15 minutes)
*/15 * * * * crawlforge monitor:run-duetrack_changes berharga 3 credits setiap panggilan.
Pengukuhan keselamatan: kawalan yang diiklankan tetapi rosak secara senyap
MCP server telah menjadi permukaan serangan yang diiktiraf, dan pelayan scraping yang mengambil URL sewenang-wenangnya bagi pihak anda ialah sasaran SSRF (Server-Side Request Forgery — pemalsuan permintaan pihak pelayan) klasik — halakannya ke endpoint cloud-metadata (169.254.169.254) dan fetch yang tidak dilindungi akan dengan senang hati menyerahkan respons itu kembali. Kami mengaudit postur kami sendiri dan menemui dua kawalan yang kami iklankan tetapi sebenarnya tidak dikuatkuasakan. Kedua-duanya telah dibaiki.
SSRF kini dikuatkuasakan pada laluan langsung
ssrfProtection.js wujud tetapi tidak pernah disambungkan ke dalam alat — setiap scrape menggunakan fetch() mentah tanpa pengesahan IP atau host. ssrfGuard.js yang baharu menyuntik dispatcher undici yang carian masa-sambungnya mengesahkan setiap sambungan (permintaan awal dan setiap lompatan redirect) dan menambat pada IP yang disahkan, menutup tetingkap TOCTOU DNS-rebinding.
Stage 1 (lalai) menyekat loopback, link-local dan cloud-metadata (169.254.169.254), serta 0.0.0.0. Ia kini dialirkan melalui kira-kira 14 modul: laluan fetch asas, batch scrape, map site, crawl, extract, pemprosesan dokumen, research, llms.txt, robots/sitemap, dan differ change-tracking.
# Default: Stage 1 is on. Tighten or override as needed.
SSRF_STRICT=true # adds full RFC1918 / ULA private-range enforcement
ALLOWED_DOMAINS=internal.acme.dev # trusted-host bypass for known internal targets
SSRF_PROTECTION_ENABLED=false # kill switchElicitation MCP kini benar-benar berfungsi
ElicitationHelper lama memanggil server.elicit() — kaedah yang tidak wujud — dan tidak pernah memeriksa keupayaan klien, jadi setiap pengesahan kos dan keselamatan secara senyap gagal dalam keadaan fail open (terus benarkan apabila gagal). Ia dibaiki untuk memanggil elicitInput, bergantung pada keupayaan elicitation klien, dan menghuraikan medan action (accept / decline / cancel). Ia masih fail open untuk klien yang tidak menyokong elicitation, tetapi klien yang berkeupayaan elicitation kini akan melihat prompt tersebut.
Pertahanan berlapis
Had kadar (rate limiting) keluar per-host (hostRateLimiter.js) ditambah pada laluan fetch asas dan batch scrape: lalai 10 requests/second setiap host, dikawal oleh RATE_LIMIT_PER_DOMAIN. Tiada had global, jadi crawl pelbagai-host yang luas tidak terjejas. Ini ialah pertahanan berlapis, bukan sempadan SSRF itu sendiri.
Akhir sekali, executeJavaScript (masih dimatikan secara lalai) memperoleh panjang skrip maksimum (JS_MAX_SCRIPT_LENGTH), masa tamat pelaksanaan eksplisit (JS_EXECUTION_TIMEOUT_MS), dan log audit stderr berstruktur yang merekodkan SHA-256, panjang, dan URL setiap skrip.
Harga: 26 alat bermeter, tiada alat baharu, tiada yang percuma
Tiada alat baharu dalam v4.8.0 — format dan operasi baharu ditambah pada alat sedia ada, jadi bilangannya kekal pada 26. Kesemua 26 alat bermeter dan memerlukan API key, dengan kos antara 1 hingga 10 credits setiap panggilan. Perhatikan bahawa list_ollama_models kini berharga 1 credit — ia tidak lagi percuma, dan tiada alat yang percuma setiap panggilan.
| Pelan | Harga | Credits |
|---|---|---|
| Free | satu kali (tanpa kad) | 1,000 trial credits (tidak ditetap semula) |
| Hobby | $19/bulan | 5,000 |
| Professional | $99/bulan | 50,000 |
| Business | $399/bulan | 250,000 |
Setiap pelan merangkumi setiap alat. Pengekstrakan LLM lalainya menggunakan Ollama tempatan, jadi anda tidak memerlukan API key OpenAI atau Anthropic melainkan anda memilih untuk menggunakannya.
Cara menaik taraf
Pengguna baharu:
npm install -g crawlforge-mcp-server
npx crawlforge initPengguna sedia ada: npm install -g crawlforge-mcp-server@latest, atau cuma cetuskan sambungan semula /mcp. Jalankan semula init (atau install-skills) untuk mengambil 7 skills dan membaiki sendiri sebarang fail kosong legasi. v4.8.0 bersifat tambahan, jadi tiada apa yang rosak.
Ini meneruskan irama ketepatan 4.7.x: 4.7.2 menjalankan audit langsung penuh ke atas kesemua 26 alat dan membaiki scrape_with_actions, extract_structured, dan resources/read; 4.7.1 membaiki credibilityThreshold deep_research dan pepijat "undefined" generate_llms_txt; 4.7.0 beralih kepada model bermeter sepenuhnya. Jika anda baharu di sini, pos pelancaran v4.2.2 merangkumi CLI yang kini menggerakkan monitor:run-due.
Apa yang seterusnya
Lebih banyak perkara yang sama: irama tetap pengukuhan kepercayaan-dan-ketepatan merentas kesemua 26 alat. Jika anda menemui kawalan yang tidak berkelakuan seperti yang didakwa dokumen, itulah pepijat yang kami mahu dengar — cubalah, pecahkannya, dan beritahu kami apa yang tidak berfungsi.
Bersedia untuk mencubanya? Mulakan secara percuma dengan 1,000 credits — kemudian jalankan npx crawlforge init untuk memasang 7 skills dan mendaftarkan MCP server. Lihat dokumentasi penuh, rujukan track_changes, atau rumusan kami tentang MCP server terbaik untuk web scraping pada 2026.
Cuba sendiri — tiada pendaftaran diperlukan
Jalankan mana-mana daripada 27 alat scraping dan pengekstrakan CrawlForge dalam playground, kemudian mula secara percuma dengan 1,000 credits.
1,000 credits percuma • Isi semula setiap bulan • Tiada kad kredit diperlukan
Tag
Tentang Penulis
Kekal dikemas kini dengan pandangan terkini
Dapatkan tutorial, kemas kini produk dan petua web scraping terus ke peti masuk anda.
Tiada spam. Berhenti melanggan bila-bila masa.