HTTP 请求头
网页抓取定义
HTTP 请求头是随 HTTP 请求和响应一同发送的键值对,提供有关本次通信的元数据。在抓取中,User-Agent、Accept 和 Cookie 等请求头对请求成功与否至关重要。
与 CrawlForge 的关联
正确的 HTTP 请求头决定了一次抓取是成功还是被拦截。反爬虫系统会将缺失或不一致的请求头视为自动化流量的信号。真实浏览器会发送数十个请求头,而粗糙的抓取器可能只发送寥寥几个。
CrawlForge 会在每个请求中自动发送逼真的请求头集合。fetch_url 和 stealth_mode 等工具包含与真实浏览器行为相匹配的完整请求头配置,从而降低被检测的几率。
相关 CrawlForge 工具
相关术语
User Agent
User Agent 是在 HTTP 请求头中发送的字符串,用于标识发起请求的客户端软件。网站借此检测浏览器、机器人和抓取器。
速率限制
速率限制是网站和 API 用来控制客户端在给定时间段内可发起请求数量的一种技术。它可防止服务器过载,并抵御滥用性抓取。
REST API
REST API(Representational State Transfer,表征状态转移)是一种使用标准 HTTP 方法对资源执行操作的 Web 服务架构。它是 Web 服务最常见的 API 风格。
API 端点
API 端点是 API 接收请求的特定 URL。每个端点执行特定功能,例如获取数据、创建记录或触发操作。