En esta página
Imagina un asistente de investigación con IA capaz de:
- Buscar en la web fuentes relevantes
- Extraer y verificar información de múltiples sitios web
- Cruzar datos para garantizar la precisión
- Sintetizar los hallazgos en un resumen coherente con citas
Con Claude, el Model Context Protocol (MCP) y CrawlForge, puedes construir esto en una tarde. Esta guía te lleva por la arquitectura, la implementación y las consideraciones de producción.
La visión: investigar como un humano
Los LLM tradicionales están limitados a sus datos de entrenamiento. Cuando le haces una pregunta a GPT-4 o a Claude, solo pueden recordar lo que han visto antes. Pero los humanos no funcionamos así: buscamos, leemos, verificamos y sintetizamos información nueva.
Un asistente de investigación con IA debería:
- Entender la intención - Descomponer consultas complejas en temas buscables
- Descubrir fuentes - Encontrar páginas web, documentación y artículos relevantes
- Extraer información - Sacar datos, citas y cifras clave
- Verificar la precisión - Contrastar la información entre varias fuentes
- Sintetizar resultados - Combinar los hallazgos en una respuesta clara y con citas
Vamos a construirlo.
Resumen de la arquitectura
Nuestro asistente de investigación tiene tres capas:
┌─────────────────────────────────────────────────┐
│ LLM Layer (Claude/GPT-4) │
│ - Query understanding │
│ - Source relevance scoring │
│ - Information synthesis │
└─────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ MCP Server (CrawlForge) │
│ - search_web (5 credits) │
│ - extract_content (2 credits) │
│ - deep_research (10 credits) │
└─────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ Web Data Layer │
│ - Google Search results │
│ - Website content │
│ - Structured data │
└─────────────────────────────────────────────────┘
Flujo de datos:
- El usuario envía una consulta de investigación
- El LLM expande la consulta en términos de búsqueda
- CrawlForge busca en la web y extrae el contenido
- El LLM verifica y sintetiza la información
- Devuelve una respuesta estructurada con citas
Configurar el proyecto
Usaremos TypeScript, la API de Claude (u OpenAI) y el MCP server de CrawlForge.
Requisitos previos
Inicializa el proyecto
Configuración del entorno
Crea .env:
Consigue tu API key de CrawlForge en crawlforge.dev/signup (1.000 credits gratis).
Implementar el flujo de investigación
1. Comprensión de la consulta
Primero, necesitamos expandir las consultas del usuario en términos de búsqueda efectivos.
2. Búsqueda web y extracción de contenido
A continuación, buscamos fuentes relevantes y extraemos su contenido.
Coste en credits:
- 3 términos de búsqueda × 5 credits = 15 credits
- 15 fuentes × 2 credits = 30 credits
- Total: 45 credits por consulta de investigación
3. Verificación de la información
Cruza los datos entre fuentes para verificar su precisión.
¿Qué viene ahora?
Ahora que has construido un asistente de investigación básico, puedes:
- Añadir streaming - Transmitir los resultados a medida que se encuentran para mejorar la UX
- Almacenar resultados - Guardar la investigación en una base de datos para recuperarla más tarde
- Construir una interfaz - Crear una interfaz web con Next.js o React
- Añadir webhooks - Recibir notificaciones cuando la investigación finalice
- Afinar los prompts - Optimizarlos para tu caso de uso específico
Recursos
Empieza a construir: consigue 1.000 credits gratis en crawlforge.dev/signup.