本页内容
大多数 web scraping 项目并非独一无二。跟踪竞争对手的价格。增强一份线索名单。为 SEO 审计一个站点。为模型抓取训练数据。来来回回,无非就是那么几套固定的套路。web scraping 模板就是其中一套套路的预接线版本:一份开箱即用的 JSON 配置,它以正确的顺序串联起恰当的 CrawlForge 工具,让你可以复制它、指向你的目标,然后运行。CrawlForge 在模板库中提供了 24 个模板。本指南讲的是如何用好它们——不只是复制粘贴,而是在扩大规模之前读懂、改造并核算它们的成本。
目录
什么是 web scraping 模板?
模板是一份已保存的配置,它将两到三个 CrawlForge 工具编排成一个带有业务成果的工作流。你不必自己去接线 search_web、再 scrape_structured、再 analyze_content——也不必猜测每一个参数——而是直接复制一份已经做好这些的配置。
库中的每个模板都附带:
- 一个类别——电商、研究、数据采集、监控、AI 与 LLM、销售、SEO、内容,或高级 Scraping(共九类)。
- 一个难度——初级、中级或高级。
- 它运行的工具链,以及每次运行的固定 credits 成本(3 到 19 credits)。
- 一份带有合理默认参数、可复制粘贴的 JSON 配置。
你可以从任意 MCP 客户端(Claude、Cursor、Windsurf)、crawlforge CLI 或 REST API 运行该配置。同样的配置,同样形态的结果。
模板库 vs scrape_template 工具
这一点常让人混淆,所以我们说清楚。CrawlForge 中有两个名字里都带 "template" 的不同东西:
| 模板库 | scrape_template 工具 | |
|---|---|---|
| 它是什么 | 一个多工具配置链的库 | 一个带 10 个站点 schema 的单一工具 |
| 范围 | 任意工作流(价格、SEO、研究……) | 10 个特定站点(Amazon、LinkedIn、GitHub……) |
| 输出 | 串联工具返回的任何内容 | 针对那一个站点的结构化 JSON |
| 成本 | 3-19 credits/次运行(其工具之和) | 1 credit/次调用 |
| 适用场景 | 你想要一个现成的完整工作流 | 你想要某个热门站点的数据 |
如果你的目标是这十个受支持站点之一,那就用这个工具——在用一个工具抓取 Amazon、LinkedIn 及另外 8 个站点中有深入介绍。对于其他一切——一条完整的价格监控或线索增强流水线——你需要的是库中的模板。本指南讲的就是这个库。
如何正确使用模板
复制粘贴只是第一步。用好一个模板有六步。
1. 按成果选,而不是按工具选。 从任务("监控竞争对手价格")出发,按类别和难度筛选模板库。新手?先从便宜、两个工具、初级的模板入手,再去碰 19 credits 的研究流水线。
2. 运行前先读懂配置。 看清工具顺序、参数,以及它是否带有 schedule(hourly、daily 或 weekly)。顺序很重要:search_web 先找到 URL,然后 scrape_structured 再从中提取。
3. 替换占位符。 每份配置都附带示例值——https://competitor-a.com/pricing、{company_name}、"product name"、一个默认 schema。把它们替换成你真实的目标,以及你想要返回的确切字段。schema 就是你的输出契约;把它精简到你实际会用到的部分。
4. 扩大规模前先算 credits 账。 一个模板的成本就是其各工具成本之和。乘以频率:一个 7 credits 的模板每小时运行一次,就是 168 credits/天。下面是各配置所依据的按工具计费表:
| Credits | 工具 |
|---|---|
| 1 | fetch_url、extract_text、extract_links、extract_metadata、scrape_template |
| 2 | scrape_structured、extract_content、map_site、process_document、localization |
| 3 | analyze_content、track_changes、extract_structured、extract_with_llm |
| 4 | summarize_content、crawl_deep |
| 5 | stealth_mode、scrape_with_actions、batch_scrape、search_web、generate_llms_txt |
| 10 | deep_research |
5. 从你选定的技术栈中运行它。 在 MCP 客户端里,粘贴目标并让 agent 调用这些工具。在终端或 cron 任务里,用 crawlforge CLI。在应用里,调用 REST API。三者共享同一个 API key 和同一份 credits 余额。
6. 调度并监控。 为监控而生的模板带有 schedule。把它们与 track_changes 搭配使用,这样你就能针对差异采取行动,而不是针对每一次完全相同的运行。
最值得先复制的 8 个模板
模板库里有 24 个。下面这八个覆盖了需求最高的任务,从初级跨越到高级。
1. 竞争对手价格监控
电商 · 中级 · 7 credits/次运行 · batch_scrape + scrape_structured
按计划抓取一组竞争对手的价格页面,并把它们规范化为干净的套餐 / 价格 / 功能结构。
改造它:把 urls 换成你竞争对手的价格页面,然后把 selectors 和 schema 调成你要跟踪的字段。大多数价格类工作把 schedule 保持为 daily 即可。完整教程:构建一个 AI 价格监控系统。
2. 联系人增强流水线
销售 · 中级 · 7 credits/次运行 · search_web + extract_metadata + extract_links
把一个干巴巴的公司名变成一条增强后的记录——官网、社交账号和关键链接。
改造它:用你 CRM 导出的数据驱动 {company_name},并把 extract_links 的过滤器扩大到你关心的域名。逐行运行它,就能增强整份名单。完整教程:构建一个线索增强引擎。
3. SEO 站点审计
SEO · 初级 · 6 credits/次运行 · map_site + extract_metadata + analyze_content
爬取一个站点,提取每个页面的元数据,并对内容质量打分——一次快速、可重复的审计。
改造它:把 url 指向你的域名,并调高或调低 max_depth 来控制爬取广度(以及成本)。这是最便宜、适合定期运行的模板之一。完整教程:用 CrawlForge 自动化 SEO 审计。
4. AI 训练数据采集器
AI 与 LLM · 中级 · 7 credits/次运行 · batch_scrape + extract_content
大规模采集并清洗网页,得到模型可直接使用的文本——没有导航,没有样板内容。
改造它:从 sitemap 或 CSV 中喂入 urls,并保持 remove_navigation 开启,这样菜单和页脚就不会污染你的数据集。完整教程:面向 AI 训练数据流水线的 web scraping。
5. 市场情报看板
研究 · 高级 · 19 credits/次运行 · deep_research + batch_scrape + summarize_content
旗舰之作。运行多来源研究,抓取关键的行业信息源,并把它们全部汇总成一份每日简报。
改造它:把 query 改成你的市场,并把 urls 换成你信任的信息源。它以 19 credits/次运行,是这里最贵的模板——按 daily 运行,而不是按小时。相关阅读:用 AI agent 做竞争情报。
6. 评论情感分析器
电商 · 中级 · 10 credits/次运行 · search_web + scrape_structured + analyze_content
跨平台找到评论,把它们结构化,并对情感和主题打分。
改造它:把你的产品放进 query,调高 max_results 以获得更多覆盖,并让 schema 保持精简,这样情感打分才不会失真。相关阅读:规模化电商产品数据提取。
7. 招聘信息抓取器
数据采集 · 中级 · 7 credits/次运行 · search_web + scrape_structured
搜索招聘网站,把招聘信息提取成结构化的数据流——职位、公司、地点、薪资、日期。
改造它:把 query 改成你的职位和地区,并按需添加 schema 字段(远程标记、资历级别)。在招聘信息抓取器模板页面查看实际效果。
8. 网站变化检测器
监控 · 初级 · 6 credits/次运行 · fetch_url + extract_content + analyze_content
盯住单个页面,在其内容发生变动时浮现出来——价格、条款或公告。
改造它:把 url 设为你关心的页面,并把 schedule 调到你对内容陈旧的容忍度——对变动快的页面用 hourly,其余用 daily。相关阅读:构建一个竞争情报 agent。
其余 16 个模板
剩下的库中条目,按类别分组——每一个都是模板页面上可复制粘贴的配置:
- 研究: 新闻聚合流水线(11cr)、多来源研究 agent(12cr)、学术论文研究(14cr)。
- 数据采集: 房产挂牌追踪器(7cr)、PDF 文档处理器(6cr)、政府数据提取器(5cr)。
- 监控: 合规监控(9cr)、社交媒体监控(12cr)。
- 电商: 电商产品提取(3cr)。
- AI 与 LLM: 文档知识库(10cr)。
- 销售: 技术栈检测器(3cr)。
- SEO: 外链建设潜客挖掘(7cr)。
- 内容: 内容迁移工具(7cr)、本地化内容审计(7cr)。
- 高级 Scraping: 动态 SPA 抓取器(7cr)、隐身数据提取(7cr)。
自定义或自行构建
没有哪个模板开箱即用就完美契合——这正是第三步的意义。当一份配置帮你完成了 80%,替换参数和 schema 就大功告成。当没有任何模板契合时:
- 从最接近的模板入手,重写它的 schema 和参数。
- 自己组合工具。 当你掌握稳定的 CSS 选择器时用
scrape_structured,当布局会变动、而你想要由 schema 驱动、抗布局变化的提取时,用extract_with_llm。 - 申请一个模板。 如果你想要一套我们尚未提供的套路,去 Discord 提出来——热门请求会被加入模板库。
准备好运行你的第一个模板了吗? 免费开始,赠送 1,000 个 credits——无需信用卡。浏览完整的模板库,为单站点任务取用 scrape_template 工具,或在电商提取指南中看一个模板在生产环境中运行。