本页内容
我们在 CrawlForge 看到的抓取请求中,有一半都是这同样的十个站点:Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X。我们厌倦了看着大家一遍又一遍地写相同的 CSS 选择器——也厌倦了看着这些选择器在站点下次更新布局时失效。于是我们把这件事做一次,把它打包成 scrape_template,现在你只需花 1 credit 就能拿到结构化 JSON。
目录
- scrape_template 是什么?
- 支持的 10 个站点
- 快速上手:抓取一个 Amazon 产品
- LinkedIn 个人资料(附法律说明)
- 用于 AI 训练数据的 GitHub 仓库
- 另外七个模板
- scrape_template 对比 scrape_structured 对比 extract_with_llm
- 局限
scrape_template 是什么?
scrape_template 是 CrawlForge 的单个工具,内含十个预制的站点模式。你选择模板、传入一个 URL,就能拿到与该站点天然结构相符的结构化 JSON。没有 CSS 选择器。没有 HTML 解析。没有模式定义。
代价是:你只能用我们维护的这十个站点。如果你需要别的,请用 scrape_structured(CSS 优先)或 extract_with_llm(LLM 优先)。对于那些「我想要 Amazon 的产品数据」这类长尾请求,scrape_template 是最短路径。需要的是多步骤工作流而不是单个站点?请看如何使用模板库。
每次抓取花费 1 credit——和基础的 fetch_url 一样——因为我们已经在上游把模式的活儿做完了。
支持的 10 个站点
| 模板 | 返回内容 | 最适合 | 示例 URL 模式 |
|---|---|---|---|
amazon-product | 标题、价格、评分、评论数、图片、ASIN、库存状态 | 价格监控、产品调研 | /dp/<ASIN> |
linkedin-profile | 姓名、头衔、所在地、简介、当前公司 | 线索补全 | /in/<handle> |
github-repo | Stars、forks、语言、主题、许可证、最后更新 | 仓库分析、AI 训练数据 | /<owner>/<repo> |
youtube-video | 标题、频道、观看数、时长、发布时间、描述 | 内容调研 | /watch?v=<id> |
reddit-thread | 帖子标题、得分、作者、subreddit、正文 | 社区信号 | /r/<sub>/comments/<id> |
hacker-news-front-page | 首页故事:标题、URL、得分、作者、评论 | 技术趋势追踪 | news.ycombinator.com |
stackoverflow-question | 问题、被采纳的回答、投票数、标签 | 开发者问答挖掘 | /questions/<id> |
npm-package | 包元数据、周下载量、版本、维护者 | 依赖分析 | /package/<name> |
producthunt-launch | 产品、标语、点赞、主题、网站 | 发布监控 | /posts/<slug> |
tweet | 文本、作者、URL、图片 | 社交聆听 | /<user>/status/<id> |
快速上手:抓取一个 Amazon 产品
输出:
在像 Claude Code 这样的 MCP 客户端中:
「用 scrape_template 和 amazon 模板获取 ASIN B0CHX1W1XY 的当前价格和评分。」
Claude 会挑选工具、组织好调用并返回数据。一个 credit。
LinkedIn 个人资料(附法律说明)
输出:
关于抓取 LinkedIn 的说明。 LinkedIn 的服务条款限制自动化访问。hiQ Labs 诉 LinkedIn 案(第九巡回法院,2022)确立了抓取公开个人资料数据一般是被允许的,但商业用途、需要登录的抓取以及激进的频率仍可能引发法律行动和违反 ToS 的封禁。请仅将
scrape_template与linkedin-profile模板用于公开、低频、不转售的数据。
用于 AI 训练数据的 GitHub 仓库
输出:
这个模板被大量用于 AI 训练数据流水线——在数千个仓库间大规模拉取 README。把它和 batch_scrape 搭配,用来处理一份仓库 URL 的 CSV。
另外七个模板
YouTube —— 标题、频道、观看数,以及可用时的完整字幕:
Reddit —— 帖子 + 评论树:
Hacker News —— 把首页作为故事列表:
Stack Overflow —— 问题、被采纳的回答、靠前的备选答案:
npm —— 包元数据 + 周下载量:
Product Hunt —— 产品、创作者、点赞:
Twitter/X —— 单条推文,含互动数据和回复:
它们全都返回 JSON。全都花费 1 credit。全都由我们集中维护——当 LinkedIn 或 Amazon 更新布局时,由我们来更新模板。
scrape_template 对比 scrape_structured 对比 extract_with_llm
一棵决策树:
Is your target one of the 10 supported sites?
Yes -> use scrape_template (1 credit, maintained for you)
No
Do you know the CSS selectors and are they stable?
Yes -> use scrape_structured (2 credits, you maintain selectors)
No -> use extract_with_llm (3 credits, schema-based, layout-resilient)
快速对比:
| scrape_template | scrape_structured | extract_with_llm | |
|---|---|---|---|
| Credits | 1 | 2 | 3 |
| 覆盖范围 | 10 个特定站点 | 任何你能写出选择器的站点 | 任何站点 |
| 维护 | 由我们维护 | 由你维护 | LLM 自适应 |
| 速度 | 快(缓存的模式) | 快 | 较慢(LLM 调用) |
| 最适合 | 热门站点、高体量 | 已知的特定结构 | 未知或变动的结构 |
局限
- 只有 10 个站点。 如果你需要 Etsy、eBay、TikTok 或其他站点,你要么等待路线图,要么用
scrape_structured/extract_with_llm自己搞定。在 Discord 上提交模板请求。 - 仅公开数据。 没有任何模板需要登录。设为私密的个人资料、有访问门槛的仓库以及受保护的推文,只会返回公开可见的内容。
- 布局变更时有发生。 当某个站点发布改版时,我们通常会在 24 小时内修补好模板。
- 速率限制适用。 大体量抓取 LinkedIn 或 Amazon 时,应将
scrape_template与stealth_mode(5 credits)搭配,并尊重各站点的 robots.txt。
准备好跳过选择器了吗? 免费开始,赠 1,000 credits——足够进行 1,000 次模板抓取。第一次来?读读 v4.2.2 发布文章了解背景,或读读电商提取指南,看一个围绕这些模板构建的真实工作流。