模板库和 scrape_template 工具有什么区别？

模板库是一个面向完整工作流的多工具配置链的库（例如一个先运行 batch_scrape 再运行 scrape_structured 的价格监控器），每次运行花费 3 到 19 credits。scrape_template 工具则是一个单一工具，为 10 个热门站点（Amazon、LinkedIn、GitHub 等）内置了 schema，每次调用 1 credit。需要完整工作流时用库中的模板；只想从这十个受支持站点之一获取数据时用 scrape_template。

运行一个模板要花多少 credits？

一个模板的成本是其各工具每次运行成本之和，范围从 3 credits（电商产品提取、技术栈检测器）到 19 credits（市场情报看板）。例如，竞争对手价格监控运行 batch_scrape（5）加 scrape_structured（2），共 7 credits。乘以你的调度频率来做预算：一个 7 credits 的模板每小时运行一次，就是每天 168 credits。

我可以自定义模板或更改它的 schema 吗？

可以——这正是预期的用法。每个模板都附带占位值（示例 URL、默认 schema、示例查询），供你替换成真实的目标。schema 定义了你的输出契约，所以把它精简或扩展到你需要的确切字段。如果没有契合的模板，从最接近的那个入手，或用 scrape_structured 或 extract_with_llm 自己组合工具。

我如何运行一个 CrawlForge 模板？

三种方式，全部共享一个 API key 和 credits 余额：把目标粘贴进 Claude、Cursor 或 Windsurf 这样的 MCP 客户端，让 agent 调用这些工具；用 crawlforge CLI 在终端或 cron 任务中运行它；或直接从应用调用 REST API。同样的配置在这三种方式下都产生同样的结果。

这些模板可以免费使用吗？

模板本身可以免费复制。你只在运行时消耗 CrawlForge credits。新账户可获得 1,000 个免费 credits 且无需信用卡，这足以把大多数模板测试很多遍——一个 6 credits 的 SEO 站点审计在免费套餐上大约能运行 160 次。

如何正确使用 web scraping 模板

大多数 web scraping 项目并非独一无二。跟踪竞争对手的价格。增强一份线索名单。为 SEO 审计一个站点。为模型抓取训练数据。来来回回，无非就是那么几套固定的套路。web scraping 模板就是其中一套套路的预接线版本：一份开箱即用的 JSON 配置，它以正确的顺序串联起恰当的 CrawlForge 工具，让你可以复制它、指向你的目标，然后运行。CrawlForge 在模板库中提供了 24 个模板。本指南讲的是如何用好它们——不只是复制粘贴，而是在扩大规模之前读懂、改造并核算它们的成本。

什么是 web scraping 模板？

模板是一份已保存的配置，它将两到三个 CrawlForge 工具编排成一个带有业务成果的工作流。你不必自己去接线 search_web、再 scrape_structured、再 analyze_content——也不必猜测每一个参数——而是直接复制一份已经做好这些的配置。

库中的每个模板都附带：

一个类别——电商、研究、数据采集、监控、AI 与 LLM、销售、SEO、内容，或高级 Scraping（共九类）。
一个难度——初级、中级或高级。
它运行的工具链，以及每次运行的固定 credits 成本（3 到 19 credits）。
一份带有合理默认参数、可复制粘贴的 JSON 配置。

你可以从任意 MCP 客户端（Claude、Cursor、Windsurf）、crawlforge CLI 或 REST API 运行该配置。同样的配置，同样形态的结果。

模板库 vs scrape_template 工具

这一点常让人混淆，所以我们说清楚。CrawlForge 中有两个名字里都带 "template" 的不同东西：

	模板库	`scrape_template` 工具
它是什么	一个多工具配置链的库	一个带 10 个站点 schema 的单一工具
范围	任意工作流（价格、SEO、研究……）	10 个特定站点（Amazon、LinkedIn、GitHub……）
输出	串联工具返回的任何内容	针对那一个站点的结构化 JSON
成本	3-19 credits/次运行（其工具之和）	1 credit/次调用
适用场景	你想要一个现成的完整工作流	你想要某个热门站点的数据

如果你的目标是这十个受支持站点之一，那就用这个工具——在用一个工具抓取 Amazon、LinkedIn 及另外 8 个站点中有深入介绍。对于其他一切——一条完整的价格监控或线索增强流水线——你需要的是库中的模板。本指南讲的就是这个库。

如何正确使用模板

复制粘贴只是第一步。用好一个模板有六步。

1. 按成果选，而不是按工具选。 从任务（"监控竞争对手价格"）出发，按类别和难度筛选模板库。新手？先从便宜、两个工具、初级的模板入手，再去碰 19 credits 的研究流水线。

2. 运行前先读懂配置。 看清工具顺序、参数，以及它是否带有 schedule（hourly、daily 或 weekly）。顺序很重要：search_web 先找到 URL，然后 scrape_structured 再从中提取。

3. 替换占位符。 每份配置都附带示例值——https://competitor-a.com/pricing、{company_name}、"product name"、一个默认 schema。把它们替换成你真实的目标，以及你想要返回的确切字段。schema 就是你的输出契约；把它精简到你实际会用到的部分。

4. 扩大规模前先算 credits 账。 一个模板的成本就是其各工具成本之和。乘以频率：一个 7 credits 的模板每小时运行一次，就是 168 credits/天。下面是各配置所依据的按工具计费表：

Credits	工具
1	`fetch_url`、`extract_text`、`extract_links`、`extract_metadata`、`scrape_template`
2	`scrape_structured`、`extract_content`、`map_site`、`process_document`、`localization`
3	`analyze_content`、`track_changes`、`extract_structured`、`extract_with_llm`
4	`summarize_content`、`crawl_deep`
5	`stealth_mode`、`scrape_with_actions`、`batch_scrape`、`search_web`、`generate_llms_txt`
10	`deep_research`

5. 从你选定的技术栈中运行它。 在 MCP 客户端里，粘贴目标并让 agent 调用这些工具。在终端或 cron 任务里，用 crawlforge CLI。在应用里，调用 REST API。三者共享同一个 API key 和同一份 credits 余额。

6. 调度并监控。 为监控而生的模板带有 schedule。把它们与 track_changes 搭配使用，这样你就能针对差异采取行动，而不是针对每一次完全相同的运行。

最值得先复制的 8 个模板

模板库里有 24 个。下面这八个覆盖了需求最高的任务，从初级跨越到高级。

1. 竞争对手价格监控

电商 · 中级 · 7 credits/次运行 · batch_scrape + scrape_structured

按计划抓取一组竞争对手的价格页面，并把它们规范化为干净的套餐 / 价格 / 功能结构。

Json

{
  "tools": [
    {
      "name": "batch_scrape",
      "params": {
        "urls": [
          "https://competitor-a.com/pricing",
          "https://competitor-b.com/pricing"
        ],
        "selectors": { "price": ".price", "name": "h1" }
      }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "plans": [{ "name": "string", "price": "string", "features": ["string"] }]
        }
      }
    }
  ],
  "schedule": "daily"
}

改造它：把 urls 换成你竞争对手的价格页面，然后把 selectors 和 schema 调成你要跟踪的字段。大多数价格类工作把 schedule 保持为 daily 即可。完整教程：构建一个 AI 价格监控系统。

2. 联系人增强流水线

销售 · 中级 · 7 credits/次运行 · search_web + extract_metadata + extract_links

把一个干巴巴的公司名变成一条增强后的记录——官网、社交账号和关键链接。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "{company_name} official website" }
    },
    {
      "name": "extract_metadata",
      "params": { "include": ["og:title", "og:description", "twitter:site"] }
    },
    {
      "name": "extract_links",
      "params": { "filter": ["linkedin.com", "twitter.com", "github.com"] }
    }
  ]
}

改造它：用你 CRM 导出的数据驱动 {company_name}，并把 extract_links 的过滤器扩大到你关心的域名。逐行运行它，就能增强整份名单。完整教程：构建一个线索增强引擎。

3. SEO 站点审计

SEO · 初级 · 6 credits/次运行 · map_site + extract_metadata + analyze_content

爬取一个站点，提取每个页面的元数据，并对内容质量打分——一次快速、可重复的审计。

Json

{
  "tools": [
    {
      "name": "map_site",
      "params": { "url": "https://your-site.com", "max_depth": 3 }
    },
    {
      "name": "extract_metadata",
      "params": {}
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["readability", "topics", "sentiment"] }
    }
  ]
}

改造它：把 url 指向你的域名，并调高或调低 max_depth 来控制爬取广度（以及成本）。这是最便宜、适合定期运行的模板之一。完整教程：用 CrawlForge 自动化 SEO 审计。

4. AI 训练数据采集器

AI 与 LLM · 中级 · 7 credits/次运行 · batch_scrape + extract_content

大规模采集并清洗网页，得到模型可直接使用的文本——没有导航，没有样板内容。

Json

{
  "tools": [
    {
      "name": "batch_scrape",
      "params": {
        "urls": ["https://docs.example.com/page-1", "https://docs.example.com/page-2"],
        "format": "markdown"
      }
    },
    {
      "name": "extract_content",
      "params": { "format": "text", "remove_navigation": true }
    }
  ]
}

改造它：从 sitemap 或 CSV 中喂入 urls，并保持 remove_navigation 开启，这样菜单和页脚就不会污染你的数据集。完整教程：面向 AI 训练数据流水线的 web scraping。

5. 市场情报看板

研究 · 高级 · 19 credits/次运行 · deep_research + batch_scrape + summarize_content

旗舰之作。运行多来源研究，抓取关键的行业信息源，并把它们全部汇总成一份每日简报。

Json

{
  "tools": [
    {
      "name": "deep_research",
      "params": {
        "query": "SaaS market trends and funding rounds",
        "sources": 10,
        "conflict_detection": true
      }
    },
    {
      "name": "batch_scrape",
      "params": {
        "urls": ["https://techcrunch.com", "https://www.saastr.com"],
        "format": "markdown"
      }
    },
    {
      "name": "summarize_content",
      "params": { "max_length": 300, "format": "bullet_points" }
    }
  ],
  "schedule": "daily"
}

改造它：把 query 改成你的市场，并把 urls 换成你信任的信息源。它以 19 credits/次运行，是这里最贵的模板——按 daily 运行，而不是按小时。相关阅读：用 AI agent 做竞争情报。

6. 评论情感分析器

电商 · 中级 · 10 credits/次运行 · search_web + scrape_structured + analyze_content

跨平台找到评论，把它们结构化，并对情感和主题打分。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "\"product name\" reviews", "max_results": 10 }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "reviewer": "string",
          "rating": "number",
          "text": "string",
          "date": "string"
        }
      }
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["sentiment", "topics"] }
    }
  ]
}

改造它：把你的产品放进 query，调高 max_results 以获得更多覆盖，并让 schema 保持精简，这样情感打分才不会失真。相关阅读：规模化电商产品数据提取。

7. 招聘信息抓取器

数据采集 · 中级 · 7 credits/次运行 · search_web + scrape_structured

搜索招聘网站，把招聘信息提取成结构化的数据流——职位、公司、地点、薪资、日期。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "software engineer remote jobs 2026", "max_results": 20 }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "title": "string",
          "company": "string",
          "location": "string",
          "salary": "string",
          "posted_date": "string"
        }
      }
    }
  ]
}

改造它：把 query 改成你的职位和地区，并按需添加 schema 字段（远程标记、资历级别）。在招聘信息抓取器模板页面查看实际效果。

8. 网站变化检测器

监控 · 初级 · 6 credits/次运行 · fetch_url + extract_content + analyze_content

盯住单个页面，在其内容发生变动时浮现出来——价格、条款或公告。

Json

{
  "tools": [
    {
      "name": "fetch_url",
      "params": { "url": "https://example.com/page-to-monitor" }
    },
    {
      "name": "extract_content",
      "params": { "format": "text" }
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["topics"] }
    }
  ],
  "schedule": "hourly"
}

改造它：把 url 设为你关心的页面，并把 schedule 调到你对内容陈旧的容忍度——对变动快的页面用 hourly，其余用 daily。相关阅读：构建一个竞争情报 agent。

其余 16 个模板

剩下的库中条目，按类别分组——每一个都是模板页面上可复制粘贴的配置：

研究： 新闻聚合流水线（11cr）、多来源研究 agent（12cr）、学术论文研究（14cr）。
数据采集： 房产挂牌追踪器（7cr）、PDF 文档处理器（6cr）、政府数据提取器（5cr）。
监控： 合规监控（9cr）、社交媒体监控（12cr）。
电商： 电商产品提取（3cr）。
AI 与 LLM： 文档知识库（10cr）。
销售： 技术栈检测器（3cr）。
SEO： 外链建设潜客挖掘（7cr）。
内容： 内容迁移工具（7cr）、本地化内容审计（7cr）。
高级 Scraping： 动态 SPA 抓取器（7cr）、隐身数据提取（7cr）。

自定义或自行构建

没有哪个模板开箱即用就完美契合——这正是第三步的意义。当一份配置帮你完成了 80%，替换参数和 schema 就大功告成。当没有任何模板契合时：

从最接近的模板入手，重写它的 schema 和参数。
自己组合工具。 当你掌握稳定的 CSS 选择器时用 scrape_structured，当布局会变动、而你想要由 schema 驱动、抗布局变化的提取时，用 extract_with_llm。
申请一个模板。 如果你想要一套我们尚未提供的套路，去 Discord 提出来——热门请求会被加入模板库。

准备好运行你的第一个模板了吗？ 免费开始，赠送 1,000 个 credits——无需信用卡。浏览完整的模板库，为单站点任务取用 scrape_template 工具，或在电商提取指南中看一个模板在生产环境中运行。

什么是 web scraping 模板？

库中的每个模板都附带：

一个类别——电商、研究、数据采集、监控、AI 与 LLM、销售、SEO、内容，或高级 Scraping（共九类）。
一个难度——初级、中级或高级。
它运行的工具链，以及每次运行的固定 credits 成本（3 到 19 credits）。
一份带有合理默认参数、可复制粘贴的 JSON 配置。

你可以从任意 MCP 客户端（Claude、Cursor、Windsurf）、crawlforge CLI 或 REST API 运行该配置。同样的配置，同样形态的结果。

模板库 vs scrape_template 工具

这一点常让人混淆，所以我们说清楚。CrawlForge 中有两个名字里都带 "template" 的不同东西：

	模板库	`scrape_template` 工具
它是什么	一个多工具配置链的库	一个带 10 个站点 schema 的单一工具
范围	任意工作流（价格、SEO、研究……）	10 个特定站点（Amazon、LinkedIn、GitHub……）
输出	串联工具返回的任何内容	针对那一个站点的结构化 JSON
成本	3-19 credits/次运行（其工具之和）	1 credit/次调用
适用场景	你想要一个现成的完整工作流	你想要某个热门站点的数据

如何正确使用模板

复制粘贴只是第一步。用好一个模板有六步。

Credits	工具
1	`fetch_url`、`extract_text`、`extract_links`、`extract_metadata`、`scrape_template`
2	`scrape_structured`、`extract_content`、`map_site`、`process_document`、`localization`
3	`analyze_content`、`track_changes`、`extract_structured`、`extract_with_llm`
4	`summarize_content`、`crawl_deep`
5	`stealth_mode`、`scrape_with_actions`、`batch_scrape`、`search_web`、`generate_llms_txt`
10	`deep_research`

最值得先复制的 8 个模板

模板库里有 24 个。下面这八个覆盖了需求最高的任务，从初级跨越到高级。

1. 竞争对手价格监控

电商 · 中级 · 7 credits/次运行 · batch_scrape + scrape_structured

按计划抓取一组竞争对手的价格页面，并把它们规范化为干净的套餐 / 价格 / 功能结构。

Json

{
  "tools": [
    {
      "name": "batch_scrape",
      "params": {
        "urls": [
          "https://competitor-a.com/pricing",
          "https://competitor-b.com/pricing"
        ],
        "selectors": { "price": ".price", "name": "h1" }
      }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "plans": [{ "name": "string", "price": "string", "features": ["string"] }]
        }
      }
    }
  ],
  "schedule": "daily"
}

2. 联系人增强流水线

销售 · 中级 · 7 credits/次运行 · search_web + extract_metadata + extract_links

把一个干巴巴的公司名变成一条增强后的记录——官网、社交账号和关键链接。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "{company_name} official website" }
    },
    {
      "name": "extract_metadata",
      "params": { "include": ["og:title", "og:description", "twitter:site"] }
    },
    {
      "name": "extract_links",
      "params": { "filter": ["linkedin.com", "twitter.com", "github.com"] }
    }
  ]
}

3. SEO 站点审计

SEO · 初级 · 6 credits/次运行 · map_site + extract_metadata + analyze_content

爬取一个站点，提取每个页面的元数据，并对内容质量打分——一次快速、可重复的审计。

Json

{
  "tools": [
    {
      "name": "map_site",
      "params": { "url": "https://your-site.com", "max_depth": 3 }
    },
    {
      "name": "extract_metadata",
      "params": {}
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["readability", "topics", "sentiment"] }
    }
  ]
}

4. AI 训练数据采集器

AI 与 LLM · 中级 · 7 credits/次运行 · batch_scrape + extract_content

大规模采集并清洗网页，得到模型可直接使用的文本——没有导航，没有样板内容。

Json

{
  "tools": [
    {
      "name": "batch_scrape",
      "params": {
        "urls": ["https://docs.example.com/page-1", "https://docs.example.com/page-2"],
        "format": "markdown"
      }
    },
    {
      "name": "extract_content",
      "params": { "format": "text", "remove_navigation": true }
    }
  ]
}

5. 市场情报看板

研究 · 高级 · 19 credits/次运行 · deep_research + batch_scrape + summarize_content

旗舰之作。运行多来源研究，抓取关键的行业信息源，并把它们全部汇总成一份每日简报。

Json

{
  "tools": [
    {
      "name": "deep_research",
      "params": {
        "query": "SaaS market trends and funding rounds",
        "sources": 10,
        "conflict_detection": true
      }
    },
    {
      "name": "batch_scrape",
      "params": {
        "urls": ["https://techcrunch.com", "https://www.saastr.com"],
        "format": "markdown"
      }
    },
    {
      "name": "summarize_content",
      "params": { "max_length": 300, "format": "bullet_points" }
    }
  ],
  "schedule": "daily"
}

6. 评论情感分析器

电商 · 中级 · 10 credits/次运行 · search_web + scrape_structured + analyze_content

跨平台找到评论，把它们结构化，并对情感和主题打分。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "\"product name\" reviews", "max_results": 10 }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "reviewer": "string",
          "rating": "number",
          "text": "string",
          "date": "string"
        }
      }
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["sentiment", "topics"] }
    }
  ]
}

7. 招聘信息抓取器

数据采集 · 中级 · 7 credits/次运行 · search_web + scrape_structured

搜索招聘网站，把招聘信息提取成结构化的数据流——职位、公司、地点、薪资、日期。

Json

{
  "tools": [
    {
      "name": "search_web",
      "params": { "query": "software engineer remote jobs 2026", "max_results": 20 }
    },
    {
      "name": "scrape_structured",
      "params": {
        "schema": {
          "title": "string",
          "company": "string",
          "location": "string",
          "salary": "string",
          "posted_date": "string"
        }
      }
    }
  ]
}

改造它：把 query 改成你的职位和地区，并按需添加 schema 字段（远程标记、资历级别）。在招聘信息抓取器模板页面查看实际效果。

8. 网站变化检测器

监控 · 初级 · 6 credits/次运行 · fetch_url + extract_content + analyze_content

盯住单个页面，在其内容发生变动时浮现出来——价格、条款或公告。

Json

{
  "tools": [
    {
      "name": "fetch_url",
      "params": { "url": "https://example.com/page-to-monitor" }
    },
    {
      "name": "extract_content",
      "params": { "format": "text" }
    },
    {
      "name": "analyze_content",
      "params": { "metrics": ["topics"] }
    }
  ],
  "schedule": "hourly"
}

其余 16 个模板

剩下的库中条目，按类别分组——每一个都是模板页面上可复制粘贴的配置：

研究： 新闻聚合流水线（11cr）、多来源研究 agent（12cr）、学术论文研究（14cr）。
数据采集： 房产挂牌追踪器（7cr）、PDF 文档处理器（6cr）、政府数据提取器（5cr）。
监控： 合规监控（9cr）、社交媒体监控（12cr）。
电商： 电商产品提取（3cr）。
AI 与 LLM： 文档知识库（10cr）。
销售： 技术栈检测器（3cr）。
SEO： 外链建设潜客挖掘（7cr）。
内容： 内容迁移工具（7cr）、本地化内容审计（7cr）。
高级 Scraping： 动态 SPA 抓取器（7cr）、隐身数据提取（7cr）。

自定义或自行构建

没有哪个模板开箱即用就完美契合——这正是第三步的意义。当一份配置帮你完成了 80%，替换参数和 schema 就大功告成。当没有任何模板契合时：

从最接近的模板入手，重写它的 schema 和参数。
自己组合工具。 当你掌握稳定的 CSS 选择器时用 scrape_structured，当布局会变动、而你想要由 schema 驱动、抗布局变化的提取时，用 extract_with_llm。
申请一个模板。 如果你想要一套我们尚未提供的套路，去 Discord 提出来——热门请求会被加入模板库。

本页内容

目录

什么是 web scraping 模板？

模板库 vs scrape_template 工具

如何正确使用模板

最值得先复制的 8 个模板

1. 竞争对手价格监控

2. 联系人增强流水线

3. SEO 站点审计

4. AI 训练数据采集器

5. 市场情报看板

6. 评论情感分析器

7. 招聘信息抓取器

8. 网站变化检测器

其余 16 个模板

自定义或自行构建

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

如何用 Claude Code 抓取网站（2026 指南）

如何在 Cursor IDE 中使用 CrawlForge MCP 抓取网站

如何在 Zed AI 中使用 CrawlForge MCP 进行网页抓取

本页内容

目录

什么是 web scraping 模板？

模板库 vs scrape_template 工具

如何正确使用模板

最值得先复制的 8 个模板

1. 竞争对手价格监控

2. 联系人增强流水线

3. SEO 站点审计

4. AI 训练数据采集器

5. 市场情报看板

6. 评论情感分析器

7. 招聘信息抓取器

8. 网站变化检测器

其余 16 个模板

自定义或自行构建

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

如何用 Claude Code 抓取网站（2026 指南）

如何在 Cursor IDE 中使用 CrawlForge MCP 抓取网站

如何在 Zed AI 中使用 CrawlForge MCP 进行网页抓取