En esta página
Hoy lanzamos CrawlForge v4.2.2, nuestra mayor versión desde el lanzamiento. Trae tres herramientas nuevas, una interfaz de línea de comandos independiente y un cambio silencioso en cómo pensamos sobre el web scraping para IA: la mayor parte debería ejecutarse localmente, en tu propia máquina, sin API keys.
Este artículo es el paraguas de todo lo que hay en 4.2.2. En los próximos nueve días le siguen tres guías en profundidad.
Tabla de contenidos
- Qué incluye esta versión
- La nueva CLI de CrawlForge
- Extract With LLM: extracción con IA local
- Scrape Template: diez sitios, una llamada
- list_ollama_models: descubrimiento de modelos gratis
- Flujo antiguo vs flujo de v4.2.2
- Costes de credits
- Cómo actualizar
- Qué viene a continuación
Qué incluye esta versión
v4.2.2 añade cuatro cosas:
- La CLI crawlforge -- una herramienta de línea de comandos independiente, incluida en el paquete
crawlforge-mcp-server, que expone las 23 herramientas de CrawlForge a tu terminal. No requiere cliente MCP. - extract_with_llm -- extracción estructurada con LLM que por defecto usa Ollama local. No necesita ninguna API key externa.
- scrape_template -- scrapers preconstruidos para Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X.
- list_ollama_models -- una herramienta de descubrimiento gratuita que lista los modelos de tu instancia local de Ollama.
El número de herramientas pasa de 20 a 23. La CLI es completamente nueva -- no es una herramienta, es un canal de distribución.
La nueva CLI de CrawlForge
La CLI es el camino más corto desde la intención hasta los datos extraídos. La instalas una vez, defines una variable de entorno y cada herramienta de CrawlForge se convierte en un comando:
¿Por qué importa esto? Porque MCP es excelente para agentes de IA, pero mucho del trabajo de scraping no es una tarea de un agente de IA. Es un cron job. Un paso de CI. Una extracción puntual desde tu terminal. Para eso quieres JSON en stdout que se canalice hacia jq, no un handshake de JSON-RPC.
Lee la guía completa de la CLI de CrawlForge para la referencia completa de comandos y flujos de trabajo del mundo real.
Extract With LLM: extracción con IA local
extract_with_llm es extracción estructurada impulsada por un modelo de lenguaje. Le pasas una URL y un esquema, y te devuelve JSON. La novedad es que por defecto usa Ollama local en lugar de llamar a OpenAI o Anthropic.
Del valor por defecto local-first se derivan tres cosas:
- Sin costes de API de terceros. El LLM es gratis. Solo pagas 3 credits de CrawlForge por extracción.
- Sin datos que salgan de tu máquina. El contenido extraído se queda en localhost.
- Sin ninguna API key nueva que gestionar. Si Ollama está instalado, ya está.
OpenAI y Anthropic siguen siendo compatibles vía provider: "openai" o provider: "anthropic" para casos en los que quieras un modelo de frontera. Guía detallada: extrae datos con LLM locales.
Scrape Template: diez sitios, una llamada
scrape_template es para la larga cola de solicitudes de scraping que se parecen todas: "consígueme datos de productos de Amazon", "consígueme los metadatos de un repo de GitHub", "consígueme las publicaciones más populares de Hacker News de hoy". No deberías tener que escribir selectores CSS para esto. Lo hicimos una vez, lo mantenemos, tú lo llamas.
Diez plantillas se incluyen en esta versión:
| Plantilla | Qué devuelve | Credits |
|---|---|---|
amazon-product | Título, precio, valoración, reseñas e imágenes del producto | 1 |
linkedin-profile | Nombre del perfil, titular, ubicación y resumen | 1 |
github-repo | Metadatos del repo, estrellas, lenguaje y temas | 1 |
youtube-video | Título del vídeo, visualizaciones, canal y descripción | 1 |
reddit-thread | Título de la publicación, puntuación, autor y cuerpo | 1 |
hacker-news-front-page | Títulos de la portada, puntos, URLs y comentarios | 1 |
stackoverflow-question | Pregunta, respuestas, aceptada y recuento de votos | 1 |
npm-package | Metadatos del paquete, descargas semanales y versión | 1 |
producthunt-launch | Nombre del producto, lema, upvotes y temas | 1 |
tweet | Texto del tweet, autor, URL e imagen | 1 |
Recorrido completo con código: haz scraping de Amazon, LinkedIn y GitHub con una sola herramienta.
list_ollama_models: descubrimiento de modelos gratis
Es más útil como comprobación rápida antes de ejecutar extract_with_llm. Lista cada modelo de tu instancia local de Ollama con nombre, tamaño y fecha de modificación.
Cuesta cero credits. No hace scraping, ni llama a ningún LLM -- solo consulta la API local de Ollama en 127.0.0.1:11434 y devuelve el resultado. Si alguna vez te has preguntado qué modelo tienes realmente instalado, esta es la respuesta.
Flujo antiguo vs flujo de v4.2.2
| Tarea | Antes de 4.2.2 | v4.2.2 |
|---|---|---|
| Hacer scraping desde tu terminal | curl + parser personalizado, o arrancar un REPL de Node | crawlforge scrape <url> |
| Extraer datos estructurados con un LLM | extract_structured (selectores CSS) o hacerlo a mano con Puppeteer + OpenAI | extract_with_llm (Ollama por defecto) |
| Hacer scraping de Amazon, LinkedIn, GitHub | scrape_structured con selectores mantenidos a mano | scrape_template (mantenemos los selectores) |
| Ejecutar scraping en CI/cron | curl con la API key en las cabeceras | crawlforge <cmd> con variable de entorno |
Costes de credits
Las tres herramientas nuevas siguen nuestro modelo de coste de credits existente. Sin sorpresas:
| Herramienta | Credits | Por qué |
|---|---|---|
list_ollama_models | 0 | Asistente de descubrimiento gratuito |
scrape_template | 1 | Una sola página, esquema preconstruido |
extract_with_llm | 3 | Inferencia de LLM (agnóstica del proveedor) |
La CLI en sí es gratis. Usa tu API key existente y factura contra tu saldo de credits habitual.
Cómo actualizar
Los usuarios existentes no tienen que hacer nada. Las nuevas herramientas están disponibles en todos los planes -- Free, Hobby, Professional y Business -- y aparecen automáticamente en tu cliente MCP.
Si quieres la CLI:
Si quieres probar la extracción con Ollama:
Qué viene a continuación
Estamos trabajando en tres cosas para la 4.3:
- Más plantillas -- Etsy, eBay, TikTok, Instagram, Google Maps. Envíanos tus peticiones en Discord.
- Entrega por webhook para batch_scrape -- recibe los resultados enviados a tu endpoint cuando terminen los trabajos de larga duración.
- Modo watch en la CLI --
crawlforge track --watchpara diffs en vivo de las páginas monitorizadas.
¿Listo para probar las nuevas herramientas? Empieza gratis con 1.000 credits -- sin tarjeta de crédito. O ve directo a las guías en profundidad: la guía de la CLI, extracción con LLM local y las diez plantillas de scraping.