En esta página
Claude es excepcional leyendo, razonando sobre y resumiendo contenido web -- pero de fábrica no puede obtener ni una sola página en vivo. El web scraping con Claude solo es posible cuando cierras esa brecha con el Model Context Protocol (MCP). Conecta CrawlForge MCP y Claude gana 23 herramientas de scraping que puede invocar bajo demanda: obtener una URL, extraer el texto limpio de un artículo, sacar datos estructurados con selectores CSS, eludir sistemas anti-bot o ejecutar investigación profunda multi-fuente. Sin Python, sin código repetitivo de Playwright, sin código de scraping en absoluto.
Esta es la guía central para todos los flujos de web scraping con Claude. Tanto si usas Claude Desktop, Claude Code en tu terminal o la API de Anthropic directamente, esta página te muestra la configuración y enlaza al tutorial detallado de cada vía.
Inicio rápido: configuración en 2 minutos
Solo necesitas tres cosas: Node.js 18+, una superficie de Claude (Desktop, Code o acceso a la API) y una API key gratuita de CrawlForge. Regístrate en crawlforge.dev/signup -- obtienes 1.000 credits sin tarjeta de crédito.
Para Claude Desktop, añade CrawlForge a tu archivo de configuración:
{
"mcpServers": {
"crawlforge": {
"command": "npx",
"args": ["-y", "@crawlforge/mcp-server"],
"env": {
"CRAWLFORGE_API_KEY": "cf_live_YOUR_API_KEY_HERE"
}
}
}
}Para Claude Code, la vía más rápida es el asistente de configuración:
npm install -g crawlforge-mcp-server
npx crawlforge-setup # paste your cf_live_ key when promptedReinicia Claude y ya estás haciendo scraping. Pídeselo sin rodeos: "Obtén https://news.ycombinator.com y dame los títulos de las 5 noticias principales." Claude Desktop admite MCP servers en todos los planes, incluido el gratuito; Claude Code requiere un plan de pago de Claude o facturación por API -- en cualquier caso, no hay una suscripción de scraping aparte. El resto de esta guía explica cómo funciona cada vía y qué puedes construir.
Tabla de contenidos
- Cómo Claude hace scraping de la web
- Configuración de Claude Desktop
- Configuración de Claude Code
- API de Claude: construye tu propio agente
- Qué puedes construir
- Scraping de sitios protegidos y con mucho JavaScript
- Credits y costes
- Preguntas frecuentes
Cómo Claude hace scraping de la web
Claude no tiene acceso nativo a la red. Pídele al modelo que "lea esta página" y te dirá que no puede abrir URL -- su conocimiento termina en su fecha de corte de entrenamiento. El web scraping con Claude funciona dándole al modelo herramientas que puede invocar, y el estándar para esas herramientas es el Model Context Protocol.
MCP es el estándar abierto de Anthropic para conectar asistentes de IA con sistemas externos. Un MCP server anuncia un conjunto de herramientas (cada una con un nombre, una descripción y un esquema de entrada JSON); el cliente (Claude Desktop, Claude Code o tu propio bucle de API) muestra esas herramientas al modelo. Cuando un prompt necesita datos en vivo, Claude emite una llamada a herramienta estructurada, el cliente la ejecuta y el resultado vuelve a la conversación. Si el protocolo es nuevo para ti, empieza por nuestra explicación del protocolo MCP para desarrolladores.
CrawlForge es un MCP server creado específicamente para web scraping. En lugar de una función genérica de "fetch", expone 23 herramientas especializadas -- desde fetch_url (HTML en bruto, 1 credit) hasta deep_research (síntesis multi-fuente, 10 credits). Claude elige la herramienta adecuada para cada petición automáticamente. Para la arquitectura completa y el catálogo de herramientas, lee la guía completa del web scraping con MCP.
El modelo mental clave: tú describes el resultado en lenguaje natural y Claude orquesta las herramientas. Nunca escribes un script de scraping. Claude decide si obtener, extraer, rastrear o investigar -- y encadena herramientas cuando una tarea necesita varios pasos.
Configuración de Claude Desktop
Claude Desktop es la vía sin terminal. Lee los MCP servers de un único archivo JSON y expone sus herramientas a través de la interfaz de chat. Es la mejor opción si quieres hacer scraping de forma conversacional sin escribir nada de código.
El archivo de configuración se encuentra en:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json - Linux:
~/.config/Claude/claude_desktop_config.json
Añade el bloque de CrawlForge del Inicio rápido de arriba, reemplaza el marcador de posición con tu clave cf_live_, luego cierra Claude Desktop por completo (no solo la ventana) y vuelve a abrirlo. Un icono de herramientas aparece en el cuadro de entrada cuando el servidor carga. Pruébalo con:
Extract the main content from https://example.com and summarize it in three bullets.
Claude invoca extract_content (2 credits) y devuelve prosa limpia sin anuncios ni navegación. Para el recorrido completo -- incluida la resolución del error "no tools found" y cinco prompts de ejemplo resueltos -- consulta cómo añadir web scraping a Claude Desktop.
Configuración de Claude Code
Claude Code es el agente de terminal de Anthropic. Puede editar archivos, ejecutar comandos de shell y escribir tests -- pero, igual que Desktop, no puede obtener páginas en vivo hasta que conectas un MCP server. Una vez registrado CrawlForge, Claude Code puede hacer scraping, guardar los resultados en disco y volcarlos directamente en código en una misma sesión.
Instala el servidor globalmente y ejecuta el asistente:
npm install -g crawlforge-mcp-server
crawlforge-mcp-server --version
# crawlforge-mcp-server 3.0.16
npx crawlforge-setup # writes the MCP entry and stores your keyReinicia Claude Code y confirma la conexión:
/mcp
Deberías ver crawlforge listado como conectado y con sus herramientas disponibles. Ahora pídele a Claude Code que haga scraping: "Obtén https://news.ycombinator.com y devuelve las 5 noticias principales como un array JSON." Invoca fetch_url (1 credit), analiza el HTML y escribe JSON válido.
Si Claude Code es totalmente nuevo para ti, la guía de instalación para principiantes cubre paso a paso la configuración de Node, los archivos de configuración manuales y el comando /mcp add. Para un recorrido orientado a tareas -- hacer scraping de una página de precios y luego escalar a sitios renderizados con JavaScript -- lee cómo hacer scraping de sitios web con Claude Code.
API de Claude: construye tu propio agente
Si estás construyendo un producto en lugar de trabajar de forma interactiva, sáltate Desktop y Code por completo y conecta CrawlForge a la API de Claude de Anthropic. La API admite uso nativo de herramientas: le pasas a Claude un conjunto de definiciones de herramientas y el modelo devuelve bloques tool_use estructurados que tu código ejecuta contra la API REST de CrawlForge.
El bucle es sencillo: envía el prompt del usuario junto con las definiciones de herramientas, recibe un bloque tool_use, llama a CrawlForge, devuelve el tool_result y deja que Claude continúe. Este es el núcleo en TypeScript:
import Anthropic from '@anthropic-ai/sdk';
const claude = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });
// Call the CrawlForge REST API for a given tool
async function runCrawlForgeTool(name: string, input: Record<string, unknown>) {
const res = await fetch(`https://crawlforge.dev/api/v1/tools/${name}`, {
method: 'POST',
headers: {
'Authorization': `Bearer ${process.env.CRAWLFORGE_API_KEY}`,
'Content-Type': 'application/json',
},
body: JSON.stringify(input),
});
return res.json();
}
const message = await claude.messages.create({
model: 'claude-sonnet-4-6',
max_tokens: 1024,
tools: [
{
name: 'extract_content',
description: 'Extract clean readable content from a web page. Costs 2 credits.',
input_schema: {
type: 'object',
properties: { url: { type: 'string', description: 'The URL to read' } },
required: ['url'],
},
},
],
messages: [
{ role: 'user', content: 'What is on the Hacker News front page right now?' },
],
});
// When Claude returns a tool_use block, execute it and feed the result back
const toolUse = message.content.find((b) => b.type === 'tool_use');
if (toolUse && toolUse.type === 'tool_use') {
const result = await runCrawlForgeTool(toolUse.name, toolUse.input as Record<string, unknown>);
console.log(result); // feed this back as a tool_result to continue the conversation
}Este patrón escala de una sola herramienta a las 23. La versión completa de producción -- definir varios esquemas de herramientas, gestionar el bucle de uso de herramientas multi-turno y transmitir respuestas en streaming -- está en cómo usar CrawlForge con la API de Claude de Anthropic.
Qué puedes construir
La configuración es la parte aburrida. Esto es lo que el web scraping con Claude desbloquea en realidad, con prompts de ejemplo que puedes pegar hoy mismo.
1. Un asistente de investigación
Apunta a Claude hacia un tema y deja que busque, obtenga y sintetice entre fuentes en lugar de adivinar a partir de datos de entrenamiento desactualizados.
Research "state of WebGPU browser support in 2026". Search the web, read the top
sources, and give me a 5-bullet summary with a citation link after each bullet.
Claude encadena search_web (5 credits) con extract_content (2 credits cada uno) por fuente. El proyecto completo -- diseño de prompts, clasificación de fuentes y formato de citas -- está en cómo construir un asistente de investigación con IA usando Claude y MCP.
2. Un agente de inteligencia competitiva
Monitoriza las páginas de tus competidores -- precios, listas de funciones, changelogs -- y deja que Claude señale qué ha cambiado.
Scrape the pricing pages for these three competitors and build a comparison table
of plan name, monthly price, and included seats. Highlight anything cheaper than ours.
Claude usa scrape_structured (2 credits) para una extracción tabular limpia. Mira la construcción de principio a fin en construye un agente de inteligencia competitiva con Claude y CrawlForge.
3. Investigación profunda sobre una sola pregunta
Cuando una pregunta necesita amplitud y verificación de fuentes en lugar de una consulta rápida, pásasela a deep_research.
Do deep research on "regulatory changes affecting EU AI startups in 2026" and
return a structured report with conflicting viewpoints noted.
Esta única herramienta (10 credits) busca, obtiene, contrasta y sintetiza con citas. Descubre qué hace por dentro en presentamos la investigación profunda.
4. Un monitor de precios automatizado
Combina el scraping con el seguimiento de cambios para que Claude te avise cuando un precio se mueva -- sin tener que releerlo todo tú mismo.
Set up a daily check on this product page. Extract the current price and alert me
only when it drops below $80.
Claude combina scrape_structured (2 credits) con track_changes (3 credits). El sistema completo -- selectores, programación y alertas -- está en construye un sistema de monitorización de precios con IA.
Scraping de sitios protegidos y con mucho JavaScript
Muchos sitios renderizan el contenido con JavaScript del lado del cliente o están detrás de sistemas anti-bot como Cloudflare, DataDome o PerimeterX. Un fetch_url simple devuelve un cascarón vacío o una página de desafío. CrawlForge le da a Claude dos herramientas de escalada para estos casos.
scrape_with_actions (5 credits) controla un navegador real: puede esperar a que cargue el contenido, hacer clic en botones, rellenar formularios y hacer scroll antes de extraer. Úsala para aplicaciones de página única y contenido tras login o que requiere interacción.
stealth_mode (5 credits) añade aleatorización de huella, rotación de proxies residenciales y simulación de comportamiento humano para superar la detección de bots en páginas que por lo demás son públicas.
This pricing page is behind Cloudflare and loads its table with JavaScript. Use
stealth mode to load it, wait for the pricing table to render, then extract the
plan names and prices into JSON.
El orden correcto es: prueba primero fetch_url (1 credit -- muchas páginas "protegidas" sirven contenido a peticiones bien formadas) y luego escala. Los compromisos de la rotación de huella y cuándo gana cada herramienta se tratan en nuestro análisis a fondo del modo sigiloso. Una limitación honesta: CrawlForge no resolverá CAPTCHA interactivos ni hará scraping de contenido tras un paywall que no hayas pagado -- y no deberías pedírselo.
Credits y costes
CrawlForge usa un modelo de credits: cada llamada a herramienta descuenta un número fijo de credits, así que las operaciones baratas siguen siendo baratas. Estos son los costes reales por herramienta.
| Credits | Herramientas |
|---|---|
| 0 | list_ollama_models |
| 1 | fetch_url, extract_text, extract_links, extract_metadata, scrape_template |
| 2 | scrape_structured, extract_content, map_site, process_document, localization |
| 3 | track_changes, analyze_content, extract_structured, extract_with_llm |
| 4 | summarize_content, crawl_deep |
| 5 | stealth_mode, scrape_with_actions, batch_scrape, search_web, generate_llms_txt |
| 10 | deep_research |
Los planes escalan la asignación mensual de credits:
| Plan | Precio | Credits | Ideal para |
|---|---|---|---|
| Free | $0 | 1.000 (una sola vez) | Probarlo, uso personal ligero |
| Hobby | $19/mes | 5.000/mes | Proyectos personales y scraping habitual |
| Professional | $99/mes | 50.000/mes | Agentes en producción y equipos |
| Business | $399/mes | 250.000/mes | Pipelines de alto volumen con SLA |
Dos hábitos mantienen los costes bajos. Primero, prefiere la herramienta más barata que funcione -- fetch_url (1 credit) en lugar de search_web (5 credits) cuando ya conoces la URL. Segundo, usa batch_scrape (5 credits) para muchas URL en lugar de lanzar llamadas individuales. El desglose completo está en la página de precios, y puedes ver el uso en el panel.
¿Listo para empezar?
El web scraping con Claude tarda unos dos minutos en configurarse y cero líneas de código de scraping. Elige tu vía -- Claude Desktop, Claude Code o la API de Claude -- conecta CrawlForge y deja que Claude elija entre 23 herramientas bajo demanda.
Empieza gratis con 1.000 credits -- no se requiere tarjeta de crédito.