CrawlForge
首页应用场景集成价格文档博客
如何正确使用 web scraping 模板
Tutorials
返回博客
教程

如何正确使用 web scraping 模板

C
CrawlForge Team
工程团队
2026年6月5日
阅读时长 10 分钟

本页内容

快速解答

web scraping 模板是一份开箱即用的 JSON 配置,它将多个 CrawlForge 工具串联成一个工作流——复制它,指向你的 URL,然后运行即可。CrawlForge 提供横跨 9 个类别(电商、研究、SEO、销售、监控等)的 24 个模板,每次运行花费 3 到 19 credits。你可以从 Claude 或 Cursor 这样的 MCP 客户端、crawlforge CLI 或 REST API 中使用它们。

大多数 web scraping 项目并非独一无二。跟踪竞争对手的价格。增强一份线索名单。为 SEO 审计一个站点。为模型抓取训练数据。来来回回,无非就是那么几套固定的套路。web scraping 模板就是其中一套套路的预接线版本:一份开箱即用的 JSON 配置,它以正确的顺序串联起恰当的 CrawlForge 工具,让你可以复制它、指向你的目标,然后运行。CrawlForge 在模板库中提供了 24 个模板。本指南讲的是如何用好它们——不只是复制粘贴,而是在扩大规模之前读懂、改造并核算它们的成本。

目录

  • 什么是 web scraping 模板?
  • 模板库 vs scrape_template 工具
  • 如何正确使用模板
  • 最值得先复制的 8 个模板
  • 其余 16 个模板
  • 自定义或自行构建

什么是 web scraping 模板?

模板是一份已保存的配置,它将两到三个 CrawlForge 工具编排成一个带有业务成果的工作流。你不必自己去接线 search_web、再 scrape_structured、再 analyze_content——也不必猜测每一个参数——而是直接复制一份已经做好这些的配置。

库中的每个模板都附带:

  • 一个类别——电商、研究、数据采集、监控、AI 与 LLM、销售、SEO、内容,或高级 Scraping(共九类)。
  • 一个难度——初级、中级或高级。
  • 它运行的工具链,以及每次运行的固定 credits 成本(3 到 19 credits)。
  • 一份带有合理默认参数、可复制粘贴的 JSON 配置。

你可以从任意 MCP 客户端(Claude、Cursor、Windsurf)、crawlforge CLI 或 REST API 运行该配置。同样的配置,同样形态的结果。

模板库 vs scrape_template 工具

这一点常让人混淆,所以我们说清楚。CrawlForge 中有两个名字里都带 "template" 的不同东西:

模板库scrape_template 工具
它是什么一个多工具配置链的库一个带 10 个站点 schema 的单一工具
范围任意工作流(价格、SEO、研究……)10 个特定站点(Amazon、LinkedIn、GitHub……)
输出串联工具返回的任何内容针对那一个站点的结构化 JSON
成本3-19 credits/次运行(其工具之和)1 credit/次调用
适用场景你想要一个现成的完整工作流你想要某个热门站点的数据

如果你的目标是这十个受支持站点之一,那就用这个工具——在用一个工具抓取 Amazon、LinkedIn 及另外 8 个站点中有深入介绍。对于其他一切——一条完整的价格监控或线索增强流水线——你需要的是库中的模板。本指南讲的就是这个库。

如何正确使用模板

复制粘贴只是第一步。用好一个模板有六步。

1. 按成果选,而不是按工具选。 从任务("监控竞争对手价格")出发,按类别和难度筛选模板库。新手?先从便宜、两个工具、初级的模板入手,再去碰 19 credits 的研究流水线。

2. 运行前先读懂配置。 看清工具顺序、参数,以及它是否带有 schedule(hourly、daily 或 weekly)。顺序很重要:search_web 先找到 URL,然后 scrape_structured 再从中提取。

3. 替换占位符。 每份配置都附带示例值——https://competitor-a.com/pricing、{company_name}、"product name"、一个默认 schema。把它们替换成你真实的目标,以及你想要返回的确切字段。schema 就是你的输出契约;把它精简到你实际会用到的部分。

4. 扩大规模前先算 credits 账。 一个模板的成本就是其各工具成本之和。乘以频率:一个 7 credits 的模板每小时运行一次,就是 168 credits/天。下面是各配置所依据的按工具计费表:

Credits工具
1fetch_url、extract_text、extract_links、extract_metadata、scrape_template
2scrape_structured、extract_content、map_site、process_document、localization
3analyze_content、track_changes、extract_structured、extract_with_llm
4summarize_content、crawl_deep
5stealth_mode、scrape_with_actions、batch_scrape、search_web、generate_llms_txt
10deep_research

5. 从你选定的技术栈中运行它。 在 MCP 客户端里,粘贴目标并让 agent 调用这些工具。在终端或 cron 任务里,用 crawlforge CLI。在应用里,调用 REST API。三者共享同一个 API key 和同一份 credits 余额。

6. 调度并监控。 为监控而生的模板带有 schedule。把它们与 track_changes 搭配使用,这样你就能针对差异采取行动,而不是针对每一次完全相同的运行。

最值得先复制的 8 个模板

模板库里有 24 个。下面这八个覆盖了需求最高的任务,从初级跨越到高级。

1. 竞争对手价格监控

电商 · 中级 · 7 credits/次运行 · batch_scrape + scrape_structured

按计划抓取一组竞争对手的价格页面,并把它们规范化为干净的套餐 / 价格 / 功能结构。

Json

改造它:把 urls 换成你竞争对手的价格页面,然后把 selectors 和 schema 调成你要跟踪的字段。大多数价格类工作把 schedule 保持为 daily 即可。完整教程:构建一个 AI 价格监控系统。

2. 联系人增强流水线

销售 · 中级 · 7 credits/次运行 · search_web + extract_metadata + extract_links

把一个干巴巴的公司名变成一条增强后的记录——官网、社交账号和关键链接。

Json

改造它:用你 CRM 导出的数据驱动 {company_name},并把 extract_links 的过滤器扩大到你关心的域名。逐行运行它,就能增强整份名单。完整教程:构建一个线索增强引擎。

3. SEO 站点审计

SEO · 初级 · 6 credits/次运行 · map_site + extract_metadata + analyze_content

爬取一个站点,提取每个页面的元数据,并对内容质量打分——一次快速、可重复的审计。

Json

改造它:把 url 指向你的域名,并调高或调低 max_depth 来控制爬取广度(以及成本)。这是最便宜、适合定期运行的模板之一。完整教程:用 CrawlForge 自动化 SEO 审计。

4. AI 训练数据采集器

AI 与 LLM · 中级 · 7 credits/次运行 · batch_scrape + extract_content

大规模采集并清洗网页,得到模型可直接使用的文本——没有导航,没有样板内容。

Json

改造它:从 sitemap 或 CSV 中喂入 urls,并保持 remove_navigation 开启,这样菜单和页脚就不会污染你的数据集。完整教程:面向 AI 训练数据流水线的 web scraping。

5. 市场情报看板

研究 · 高级 · 19 credits/次运行 · deep_research + batch_scrape + summarize_content

旗舰之作。运行多来源研究,抓取关键的行业信息源,并把它们全部汇总成一份每日简报。

Json

改造它:把 query 改成你的市场,并把 urls 换成你信任的信息源。它以 19 credits/次运行,是这里最贵的模板——按 daily 运行,而不是按小时。相关阅读:用 AI agent 做竞争情报。

6. 评论情感分析器

电商 · 中级 · 10 credits/次运行 · search_web + scrape_structured + analyze_content

跨平台找到评论,把它们结构化,并对情感和主题打分。

Json

改造它:把你的产品放进 query,调高 max_results 以获得更多覆盖,并让 schema 保持精简,这样情感打分才不会失真。相关阅读:规模化电商产品数据提取。

7. 招聘信息抓取器

数据采集 · 中级 · 7 credits/次运行 · search_web + scrape_structured

搜索招聘网站,把招聘信息提取成结构化的数据流——职位、公司、地点、薪资、日期。

Json

改造它:把 query 改成你的职位和地区,并按需添加 schema 字段(远程标记、资历级别)。在招聘信息抓取器模板页面查看实际效果。

8. 网站变化检测器

监控 · 初级 · 6 credits/次运行 · fetch_url + extract_content + analyze_content

盯住单个页面,在其内容发生变动时浮现出来——价格、条款或公告。

Json

改造它:把 url 设为你关心的页面,并把 schedule 调到你对内容陈旧的容忍度——对变动快的页面用 hourly,其余用 daily。相关阅读:构建一个竞争情报 agent。

其余 16 个模板

剩下的库中条目,按类别分组——每一个都是模板页面上可复制粘贴的配置:

  • 研究: 新闻聚合流水线(11cr)、多来源研究 agent(12cr)、学术论文研究(14cr)。
  • 数据采集: 房产挂牌追踪器(7cr)、PDF 文档处理器(6cr)、政府数据提取器(5cr)。
  • 监控: 合规监控(9cr)、社交媒体监控(12cr)。
  • 电商: 电商产品提取(3cr)。
  • AI 与 LLM: 文档知识库(10cr)。
  • 销售: 技术栈检测器(3cr)。
  • SEO: 外链建设潜客挖掘(7cr)。
  • 内容: 内容迁移工具(7cr)、本地化内容审计(7cr)。
  • 高级 Scraping: 动态 SPA 抓取器(7cr)、隐身数据提取(7cr)。

自定义或自行构建

没有哪个模板开箱即用就完美契合——这正是第三步的意义。当一份配置帮你完成了 80%,替换参数和 schema 就大功告成。当没有任何模板契合时:

  • 从最接近的模板入手,重写它的 schema 和参数。
  • 自己组合工具。 当你掌握稳定的 CSS 选择器时用 scrape_structured,当布局会变动、而你想要由 schema 驱动、抗布局变化的提取时,用 extract_with_llm。
  • 申请一个模板。 如果你想要一套我们尚未提供的套路,去 Discord 提出来——热门请求会被加入模板库。

准备好运行你的第一个模板了吗? 免费开始,赠送 1,000 个 credits——无需信用卡。浏览完整的模板库,为单站点任务取用 scrape_template 工具,或在电商提取指南中看一个模板在生产环境中运行。

标签

web-scraping-templatesMCPtutorialsprice-monitoringlead-enrichmentautomationAI-agents

关于作者

C

CrawlForge Team

工程团队

我们正在打造功能最全面的 Web 抓取 MCP server。我们开发的工具帮助开发者为 AI 应用提取、分析和转换 Web 数据。

本页内容

Frequently Asked Questions

什么是 web scraping 模板?+

web scraping 模板是一份开箱即用的 JSON 配置,它将多个 CrawlForge 工具串联成一个带有特定成果的工作流——价格监控、线索增强、SEO 审计等等。你不必自己接线工具和参数,而是复制配置、换上你的 URL 和 schema,然后从 MCP 客户端、crawlforge CLI 或 REST API 运行它。CrawlForge 提供横跨 9 个类别的 24 个模板。

模板库和 scrape_template 工具有什么区别?+

模板库是一个面向完整工作流的多工具配置链的库(例如一个先运行 batch_scrape 再运行 scrape_structured 的价格监控器),每次运行花费 3 到 19 credits。scrape_template 工具则是一个单一工具,为 10 个热门站点(Amazon、LinkedIn、GitHub 等)内置了 schema,每次调用 1 credit。需要完整工作流时用库中的模板;只想从这十个受支持站点之一获取数据时用 scrape_template。

运行一个模板要花多少 credits?+

一个模板的成本是其各工具每次运行成本之和,范围从 3 credits(电商产品提取、技术栈检测器)到 19 credits(市场情报看板)。例如,竞争对手价格监控运行 batch_scrape(5)加 scrape_structured(2),共 7 credits。乘以你的调度频率来做预算:一个 7 credits 的模板每小时运行一次,就是每天 168 credits。

我可以自定义模板或更改它的 schema 吗?+

可以——这正是预期的用法。每个模板都附带占位值(示例 URL、默认 schema、示例查询),供你替换成真实的目标。schema 定义了你的输出契约,所以把它精简或扩展到你需要的确切字段。如果没有契合的模板,从最接近的那个入手,或用 scrape_structured 或 extract_with_llm 自己组合工具。

我如何运行一个 CrawlForge 模板?+

三种方式,全部共享一个 API key 和 credits 余额:把目标粘贴进 Claude、Cursor 或 Windsurf 这样的 MCP 客户端,让 agent 调用这些工具;用 crawlforge CLI 在终端或 cron 任务中运行它;或直接从应用调用 REST API。同样的配置在这三种方式下都产生同样的结果。

这些模板可以免费使用吗?+

模板本身可以免费复制。你只在运行时消耗 CrawlForge credits。新账户可获得 1,000 个免费 credits 且无需信用卡,这足以把大多数模板测试很多遍——一个 6 credits 的 SEO 站点审计在免费套餐上大约能运行 160 次。

相关文章

如何用 Claude Code 抓取网站(2026 指南)
Tutorials

如何用 Claude Code 抓取网站(2026 指南)

用 Claude Code 和 CrawlForge MCP 从你的终端抓取任何网站。抓取页面、提取数据并绕过反爬虫,全程不到 2 分钟。

C
CrawlForge Team
|
4月14日
|
10 分钟
如何在 Cursor IDE 中使用 CrawlForge MCP 抓取网站
Tutorials

如何在 Cursor IDE 中使用 CrawlForge MCP 抓取网站

把 Cursor IDE 变成网页抓取工作站。接入 CrawlForge MCP,无需离开编辑器即可从任意站点提取结构化数据。

C
CrawlForge Team
|
4月14日
|
9 分钟
如何在 Zed AI 中使用 CrawlForge MCP 进行网页抓取
Tutorials

如何在 Zed AI 中使用 CrawlForge MCP 进行网页抓取

3 分钟为 Zed AI 添加 web scraping 能力。在 Zed 中配置 CrawlForge MCP,让你的编辑器按需抓取、提取并研究实时网页数据。

C
CrawlForge Team
|
4月14日
|
9 分钟

页脚

CrawlForge

面向 AI Agent 的企业级网页抓取。23 个专业 MCP 工具,专为构建智能系统的现代开发者而设计。

产品

  • 功能
  • 价格
  • 应用场景
  • 集成
  • 替代方案
  • 更新日志

资源

  • 快速上手
  • API 参考
  • 模板
  • 指南
  • 博客
  • 术语表
  • 常见问题
  • 网站地图

开发者

  • MCP 协议
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

公司

  • 关于我们
  • 联系我们
  • 隐私政策
  • 服务条款

保持更新

获取新工具和新功能的最新动态。

基于 Next.js 和 MCP 协议构建

© 2025-2026 CrawlForge。保留所有权利。