En esta página
Dify es una plataforma de código abierto para el desarrollo de apps LLM que te permite crear aplicaciones de IA con un editor visual de flujos de trabajo. Al añadir CrawlForge como herramienta personalizada, tus flujos de trabajo de Dify obtienen la capacidad de hacer scraping de sitios web, buscar en la web y extraer datos estructurados, todo sin escribir código.
Esta guía cubre tanto el enfoque sin código (la configuración visual de herramientas de Dify) como el enfoque basado en API para integraciones avanzadas.
Tabla de contenidos
- ¿Qué es Dify?
- Requisitos previos
- Paso 1: Configura un proveedor de herramientas personalizadas
- Paso 2: Define los esquemas de las herramientas de CrawlForge
- Paso 3: Construye un flujo de trabajo de investigación web
- Paso 4: Construye un pipeline de extracción de contenido
- Paso 5: Maneja la autenticación y los errores
- Referencia de costes en credits
- Herramientas de CrawlForge disponibles en Dify
- Próximos pasos
¿Qué es Dify?
Dify es una plataforma lista para producción para construir aplicaciones LLM. Ofrece un constructor visual de flujos de trabajo, orquestación de agentes, gestión de pipelines RAG y una biblioteca de más de 50 herramientas integradas. Dify admite la integración de herramientas personalizadas mediante especificaciones OpenAPI, lo que significa que cualquier API REST -- incluida CrawlForge -- puede añadirse como herramienta.
La integración MCP nativa de Dify también significa que puedes conectar CrawlForge como un MCP server directamente. Esta guía cubre ambos enfoques.
Requisitos previos
- Instancia de Dify -- ya sea Dify Cloud o autohospedada vía Docker
- Una cuenta de CrawlForge con una API key (1.000 credits gratis)
- Acceso de administrador a tu espacio de trabajo de Dify
Paso 1: Configura un proveedor de herramientas personalizadas
En tu dashboard de Dify, navega a Tools > Custom Tools > Create Custom Tool.
Pega la siguiente especificación OpenAPI para registrar las herramientas principales de CrawlForge:
Configura la autenticación como Bearer Token e introduce tu API key de CrawlForge (cf_live_...).
Paso 2: Define los esquemas de las herramientas de CrawlForge
Tras importar la especificación OpenAPI, Dify genera automáticamente tarjetas de herramienta para cada endpoint. Configura cada herramienta con nombres descriptivos para que el agente LLM pueda seleccionarlas correctamente:
| Nombre de la herramienta en Dify | Endpoint de CrawlForge | Credits | Cuándo debería usarla el agente |
|---|---|---|---|
| Fetch Web Page | /fetch_url | 1 | El usuario proporciona una URL específica para leer |
| Extract Content | /extract_content | 2 | Se necesita texto limpio y legible de una página |
| Search the Web | /search_web | 5 | Se necesita encontrar páginas sobre un tema |
| Extract Structured Data | /scrape_structured | 2 | Se necesitan datos concretos mediante selectores CSS |
Para cada herramienta en Dify, añade una descripción clara que incluya el coste en credits. Esto ayuda al agente LLM a tomar decisiones rentables.
Paso 3: Construye un flujo de trabajo de investigación web
En el editor de flujos de trabajo de Dify, crea un nuevo flujo de trabajo con estos nodos:
El flujo de trabajo visual de Dify convierte esto en una operación de arrastrar y soltar. Cada nodo se conecta con el siguiente, con los datos fluyendo a través de variables de plantilla.
Paso 4: Construye un pipeline de extracción de contenido
Para tareas recurrentes de extracción de datos, construye un flujo de trabajo de pipeline:
Paso 5: Maneja la autenticación y los errores
Autenticación
CrawlForge usa autenticación por Bearer token. En Dify, configúralo una sola vez a nivel del proveedor de herramientas personalizadas:
- Ve a Tools > Custom Tools > CrawlForge
- Haz clic en Configure Authorization
- Selecciona API Key (Bearer)
- Introduce tu API key de CrawlForge
Todas las llamadas a herramientas dentro de los flujos de trabajo incluyen automáticamente la cabecera de autenticación.
Manejo de errores
Añade nodos de manejo de errores en tu flujo de trabajo de Dify para los escenarios habituales:
El mecanismo de reintento integrado de Dify maneja los fallos transitorios automáticamente. Para los errores por agotamiento de credits (HTTP 402), redirige a un nodo de notificación que avise al usuario.
Referencia de costes en credits
| Credits | Herramientas | Caso de uso en el flujo de trabajo de Dify |
|---|---|---|
| 1 | fetch_url, extract_text, extract_links, extract_metadata | Disparadores simples de obtención de páginas |
| 2 | scrape_structured, extract_content, map_site, process_document, localization | Nodos de pipeline de extracción, flujos de auditoría de sitios |
| 3 | track_changes, analyze_content | Detección de cambios, análisis de contenido |
| 4 | summarize_content, crawl_deep | Generación de resúmenes, crawling multipágina |
| 5 | search_web, batch_scrape, scrape_with_actions, stealth_mode | Flujos de investigación y masivos |
| 10 | deep_research | Flujos de análisis exhaustivo |
Herramientas de CrawlForge disponibles en Dify
Las 20 herramientas de CrawlForge pueden registrarse en Dify. Las más usadas en flujos de trabajo visuales son:
| Herramienta | Credits | Por qué funciona bien en Dify |
|---|---|---|
| search_web | 5 | Punto de partida natural para flujos de investigación |
| extract_content | 2 | La salida limpia alimenta directamente los nodos LLM |
| scrape_structured | 2 | Los selectores CSS devuelven JSON predecible y estructurado |
| fetch_url | 1 | La opción más barata para el acceso simple a páginas |
| batch_scrape | 5 | Maneja los bucles de forma más eficiente que las llamadas individuales |
Próximos pasos
- Documentación de Dify -- documentación oficial de la plataforma Dify
- Referencia de la API de CrawlForge -- esquemas de endpoints para las 20 herramientas
- Guía completa de MCP -- entender la integración del protocolo MCP
- Precios de CrawlForge -- packs de credits desde $19/mes
Añade web scraping a tus apps de Dify hoy. Obtén tu API key gratuita con 1.000 credits y registra CrawlForge como herramienta personalizada en Dify. Sin código.