En esta página
La mayoría de los proyectos de web scraping no son copos de nieve únicos. Seguir los precios de la competencia. Enriquecer una lista de leads. Auditar un sitio para SEO. Extraer datos de entrenamiento para un modelo. Es el mismo puñado de recetas, una y otra vez. Una plantilla de web scraping es una de esas recetas, ya cableada: una configuración JSON lista para usar que encadena las herramientas de CrawlForge adecuadas en el orden correcto, para que puedas copiarla, apuntarla a tus objetivos y ejecutarla. CrawlForge incluye 24 de ellas en la galería de plantillas. Esta guía trata de usarlas bien -- no solo copiar y pegar, sino leerlas, adaptarlas y calcular su costo antes de escalar.
Tabla de contenidos
- ¿Qué es una plantilla de web scraping?
- La galería de plantillas frente a la herramienta scrape_template
- Cómo usar una plantilla de la forma correcta
- 8 plantillas que vale la pena copiar primero
- Las otras 16 plantillas
- Personalizar o construir la tuya
¿Qué es una plantilla de web scraping?
Una plantilla es una configuración guardada que orquesta dos o tres herramientas de CrawlForge en un solo flujo de trabajo con un resultado de negocio asociado. En lugar de cablear search_web, luego scrape_structured y luego analyze_content tú mismo -- adivinando cada parámetro -- copias una configuración que ya lo hace.
Cada plantilla de la galería incluye:
- Una categoría -- E-commerce, Investigación, Recolección de Datos, Monitoreo, IA y LLM, Ventas, SEO, Contenido o Scraping Avanzado (nueve en total).
- Una dificultad -- principiante, intermedio o avanzado.
- La cadena de herramientas que ejecuta y un costo fijo en credits por ejecución (de 3 a 19 credits).
- Una configuración JSON lista para copiar y pegar con parámetros por defecto sensatos.
Ejecutas esa configuración desde cualquier cliente MCP (Claude, Cursor, Windsurf), la CLI crawlforge o la API REST. Misma configuración, misma forma del resultado.
La galería de plantillas frente a la herramienta scrape_template
Esto confunde a la gente, así que seamos precisos. CrawlForge tiene dos cosas distintas con "template" en el nombre:
| Galería de plantillas | Herramienta scrape_template | |
|---|---|---|
| Qué es | Una librería de cadenas de configuración multiherramienta | Una sola herramienta con 10 esquemas de sitios |
| Alcance | Cualquier flujo de trabajo (precios, SEO, investigación...) | 10 sitios específicos (Amazon, LinkedIn, GitHub...) |
| Salida | Lo que devuelvan las herramientas encadenadas | JSON estructurado para ese único sitio |
| Costo | 3-19 credits/ejecución (suma de sus herramientas) | 1 credit/llamada |
| Cuándo usarla | Quieres un flujo de trabajo completo, ya hecho | Quieres datos de un sitio popular |
Si tu objetivo es uno de los diez sitios soportados, recurre a la herramienta -- se cubre en profundidad en Haz scraping de Amazon, LinkedIn y 8 sitios más con una sola herramienta. Para todo lo demás -- un pipeline completo de monitoreo de precios o enriquecimiento de leads -- quieres una plantilla de la galería. Esta guía trata sobre la galería.
Cómo usar una plantilla de la forma correcta
Copiar y pegar es el paso uno. Usar una plantilla bien son seis.
1. Elige por resultado, no por herramienta. Empieza desde el trabajo ("monitorear los precios de la competencia") y filtra la galería por categoría y dificultad. ¿Nuevo en esto? Empieza con las plantillas baratas, de dos herramientas y para principiantes antes de recurrir a un pipeline de investigación de 19 credits.
2. Lee la configuración antes de ejecutarla. Mira el orden de las herramientas, los parámetros y si incluye un schedule (hourly, daily o weekly). El orden importa: search_web encuentra las URLs, luego scrape_structured extrae de ellas.
3. Cambia los marcadores de posición. Cada configuración viene con valores de ejemplo -- https://competitor-a.com/pricing, {company_name}, "product name", un esquema por defecto. Reemplázalos con tus objetivos reales y los campos exactos que quieres de vuelta. El esquema es tu contrato de salida; recórtalo a lo que realmente vayas a usar.
4. Haz las cuentas de los credits antes de escalar. El costo de una plantilla es solo la suma de los costos de sus herramientas. Multiplica por la frecuencia: una plantilla de 7 credits ejecutada cada hora son 168 credits/día. Aquí está la tabla por herramienta de la que parten las configuraciones:
| Credits | Herramientas |
|---|---|
| 1 | fetch_url, extract_text, extract_links, extract_metadata, scrape_template |
| 2 | scrape_structured, extract_content, map_site, process_document, localization |
| 3 | analyze_content, track_changes, extract_structured, extract_with_llm |
| 4 | summarize_content, crawl_deep |
| 5 | stealth_mode, scrape_with_actions, batch_scrape, search_web, generate_llms_txt |
| 10 | deep_research |
5. Ejecútala desde tu stack preferido. En un cliente MCP, pega el objetivo y deja que el agente llame a las herramientas. Desde una terminal o un cron job, usa la CLI crawlforge. En una aplicación, llama a la API REST. Las tres comparten una API key y un saldo de credits.
6. Programa y monitorea. Las plantillas hechas para monitoreo incluyen un schedule. Combínalas con track_changes para actuar sobre los cambios, no sobre cada ejecución idéntica.
8 plantillas que vale la pena copiar primero
La galería tiene 24. Estas ocho cubren los trabajos de mayor demanda y abarcan desde principiante hasta avanzado.
1. Monitor de precios de la competencia
E-commerce · intermedio · 7 credits/ejecución · batch_scrape + scrape_structured
Haz scraping de un conjunto de páginas de precios de la competencia según un calendario y normalízalas en una estructura limpia de plan / precio / características.
Adáptala: reemplaza urls con las páginas de precios de tus competidores, luego ajusta selectors y schema a los campos que sigues. Mantén schedule en daily para la mayoría del trabajo de precios. Recorrido completo: construye un sistema de monitoreo de precios con IA.
2. Pipeline de enriquecimiento de contactos
Ventas · intermedio · 7 credits/ejecución · search_web + extract_metadata + extract_links
Convierte el nombre desnudo de una empresa en un registro enriquecido -- sitio oficial, handles sociales y enlaces clave.
Adáptala: alimenta {company_name} desde la exportación de tu CRM y amplía el filtro de extract_links a los dominios que te importan. Ejecútala por fila para enriquecer una lista completa. Recorrido completo: construye un motor de enriquecimiento de leads.
3. Auditoría SEO de un sitio
SEO · principiante · 6 credits/ejecución · map_site + extract_metadata + analyze_content
Rastrea un sitio, extrae los metadatos de cada página y puntúa la calidad del contenido -- una auditoría rápida y repetible.
Adáptala: apunta url a tu dominio y sube o baja max_depth para controlar la amplitud del rastreo (y el costo). Una de las plantillas más baratas para ejecutar con regularidad. Recorrido completo: automatizar auditorías SEO con CrawlForge.
4. Recolector de datos de entrenamiento para IA
IA y LLM · intermedio · 7 credits/ejecución · batch_scrape + extract_content
Recolecta y limpia páginas web a escala en texto listo para modelos -- sin navegación, sin relleno.
Adáptala: alimenta urls desde un sitemap o un CSV, y mantén remove_navigation activado para que los menús y pies de página no contaminen tu conjunto de datos. Recorrido completo: web scraping para pipelines de datos de entrenamiento de IA.
5. Dashboard de inteligencia de mercado
Investigación · avanzado · 19 credits/ejecución · deep_research + batch_scrape + summarize_content
La estrella. Ejecuta investigación de múltiples fuentes, haz scraping de las fuentes clave del sector y resúmelo todo en un briefing diario.
Adáptala: cambia la query a tu mercado e intercambia urls por tus fuentes de confianza. Con 19 credits/ejecución es la plantilla más cara aquí -- ejecútala daily, no cada hora. Lectura relacionada: inteligencia competitiva con agentes de IA.
6. Analizador de sentimiento de reseñas
E-commerce · intermedio · 10 credits/ejecución · search_web + scrape_structured + analyze_content
Encuentra reseñas en distintas plataformas, estructúralas y puntúa el sentimiento y los temas.
Adáptala: pon tu producto en la query, sube max_results para más cobertura y mantén el esquema ajustado para que la puntuación de sentimiento se mantenga limpia. Lectura relacionada: extracción de datos de productos de e-commerce a escala.
7. Scraper de ofertas de empleo
Recolección de Datos · intermedio · 7 credits/ejecución · search_web + scrape_structured
Busca en bolsas de empleo y extrae las ofertas en un feed estructurado -- título, empresa, ubicación, salario, fecha.
Adáptala: cambia la query a tu puesto y región, y añade campos al esquema (flag de remoto, seniority) según lo necesites. Míralo en vivo en la página de la plantilla Scraper de ofertas de empleo.
8. Detector de cambios en sitios web
Monitoreo · principiante · 6 credits/ejecución · fetch_url + extract_content + analyze_content
Vigila una sola página y detecta cuándo cambia su contenido -- precios, términos o anuncios.
Adáptala: pon url en la página que te importa y ajusta schedule a tu tolerancia a la desactualización -- hourly para páginas que cambian rápido, daily para el resto. Lectura relacionada: construye un agente de inteligencia competitiva.
Las otras 16 plantillas
Las entradas restantes de la galería, agrupadas por categoría -- cada una es una configuración de copiar y pegar en la página de plantillas:
- Investigación: Pipeline de Agregación de Noticias (11cr), Agente de Investigación Multifuente (12cr), Investigación de Artículos Académicos (14cr).
- Recolección de Datos: Rastreador de Listados Inmobiliarios (7cr), Procesador de Documentos PDF (6cr), Extractor de Datos Gubernamentales (5cr).
- Monitoreo: Monitoreo de Cumplimiento (9cr), Monitoreo de Redes Sociales (12cr).
- E-commerce: Extracción de Productos de E-commerce (3cr).
- IA y LLM: Base de Conocimiento de Documentación (10cr).
- Ventas: Detector de Tech Stack (3cr).
- SEO: Prospector de Link Building (7cr).
- Contenido: Herramienta de Migración de Contenido (7cr), Auditoría de Contenido de Localización (7cr).
- Scraping Avanzado: Scraper de SPA Dinámicas (7cr), Extracción de Datos en Modo Stealth (7cr).
Personalizar o construir la tuya
Ninguna plantilla encaja a la perfección de fábrica -- ese es el propósito del paso tres. Cuando una configuración te lleva al 80%, cambia los parámetros y el esquema y listo. Cuando nada encaja:
- Empieza desde la plantilla más cercana y reescribe su esquema y parámetros.
- Compón las herramientas tú mismo. Usa
scrape_structuredcuando conoces selectores CSS estables, oextract_with_llmcuando el diseño cambia y quieres una extracción guiada por esquema y resistente a los cambios de diseño. - Solicita una plantilla. Si quieres una receta que aún no incluimos, pídela en Discord -- las peticiones populares se añaden a la galería.
¿Listo para ejecutar tu primera plantilla? Empieza gratis con 1.000 credits -- sin tarjeta de crédito. Explora la galería de plantillas completa, usa la herramienta scrape_template para trabajos de un solo sitio, o mira una plantilla ejecutándose en producción en la guía de extracción de e-commerce.