¿Qué es la herramienta deep_research en CrawlForge?

deep_research es la herramienta de análisis multifuente impulsada por IA de CrawlForge que ejecuta un pipeline de 5 etapas (expansión de la consulta, descubrimiento de fuentes, extracción de contenido, verificación, síntesis) y devuelve un resumen con citas en segundos. Reemplaza un flujo de investigación manual de 65-95 minutos con una sola llamada a la API por 10 credits.

¿Cómo detecta deep_research los conflictos entre fuentes?

Tras extraer contenido de múltiples fuentes, deep_research compara afirmaciones y señala las contradicciones en el array `conflicts` de la respuesta. Esto es crítico para la diligencia debida, los estudios de mercado y cualquier caso de uso donde la fiabilidad de las fuentes importe.

¿Cuánto tarda una llamada a deep_research?

Las ejecuciones típicas se completan en 15-30 segundos según la profundidad y el número de fuentes. El ejemplo de la publicación devuelve un resumen sintetizado con 10 fuentes verificadas en unos 18 segundos, incluyendo búsqueda, extracción y síntesis con IA.

¿Cuántas consultas de deep_research incluye el plan gratuito?

El plan gratuito de 1.000 credits cubre 100 consultas de deep_research (10 credits cada una). Los planes de pago escalan: Hobby ($19/mes, 5.000 credits) admite 500 consultas, y los niveles superiores escalan proporcionalmente.

¿Puedo filtrar deep_research por tipo de fuente o actualidad?

Sí. Configura el filtrado de fuentes con opciones como fuentes académicas, de noticias o gubernamentales, establece un umbral de credibilidad y activa includeRecentOnly para centrarte en contenido reciente. La herramienta también admite cinco enfoques de investigación: broad, focused, academic, current_events y comparative.

Web scraping para datos de entrenamiento de IA: guía completa 2026

La revolución de la IA funciona con datos. Ya sea que estés haciendo fine-tuning de LLMs, construyendo sistemas RAG o entrenando modelos personalizados, los datos web suelen ser tu fuente más rica de material de entrenamiento.

Pero recopilar datos de entrenamiento de alta calidad de la web no es sencillo. Esta guía cubre todo: consideraciones éticas, pipelines de recopilación, aseguramiento de la calidad e implementación práctica con CrawlForge.

El cuello de botella de los datos

Los modelos de IA son tan buenos como sus datos de entrenamiento. Sin embargo, la mayoría de los equipos se enfrentan a retos críticos:

Cantidad: Los modelos necesitan millones de ejemplos
Calidad: Si entra basura, sale basura
Diversidad: Entrenar con datos limitados crea modelos limitados
Frescura: Los conjuntos de datos estáticos quedan obsoletos
Cumplimiento: Consideraciones legales y éticas

El web scraping resuelve los problemas de cantidad y diversidad -- pero solo si se hace bien.

Tipos de datos web para IA

Contenido de texto

El tipo de dato de entrenamiento más común:

Artículos y publicaciones de blog - Texto narrativo para la comprensión del lenguaje
Documentación - Escritura técnica y explicaciones estructuradas
Foros y preguntas/respuestas - Patrones conversacionales y resolución de problemas
Descripciones de productos - Texto conciso y descriptivo
Reseñas - Contenido rico en sentimiento con opiniones

Datos estructurados

Para clasificación y reconocimiento de entidades:

Catálogos de productos - Artículos con atributos
Listados de negocios - Entidades con relaciones
Datos de eventos - Información temporal y de ubicación
Tablas y conjuntos de datos - Datos numéricos y categóricos

Metadatos

A menudo pasados por alto pero valiosos:

Etiquetas SEO - Resúmenes y palabras clave escritos por humanos
Marcado de Schema.org - Datos de entidades estructurados
Grafos sociales - Datos de relaciones
Marcas de tiempo - Patrones temporales

Multimodal

Para modelos de visión y multimodales:

Imágenes con descripciones - Pares visión-lenguaje
PDFs con texto - Comprensión de documentos
Vídeos con transcripciones - Visión-lenguaje temporal

Principios de web scraping ético

Antes de recopilar datos, comprende el panorama ético y legal.

1. Respeta robots.txt

robots.txt le dice a los crawlers qué está permitido:

# Example robots.txt
User-agent: *
Disallow: /private/
Disallow: /api/
Allow: /public/
Crawl-delay: 10

CrawlForge respeta robots.txt por defecto. Puedes consultar la política de cualquier sitio:

Bash

curl https://example.com/robots.txt

2. Límite de velocidad

No satures los servidores:

Respeta las directivas Crawl-delay
Espacia las peticiones al menos 1-5 segundos
Monitoriza los códigos de respuesta - un 429 significa que vayas más despacio
Reduce la concurrencia en sitios más pequeños

CrawlForge tiene límite de velocidad integrado, pero sé respetuoso.

3. Licencias de datos

Comprende los derechos de contenido:

Creative Commons - Normalmente está bien con atribución
Copyright - Requiere permiso para entrenamiento
Términos de servicio - Algunos sitios prohíben el scraping
RGPD/Privacidad - Los datos personales tienen restricciones

4. El estándar LLMs.txt

Un nuevo estándar para permisos específicos de IA:

# llms.txt example
Allow: training
Allow: inference
Require: attribution
Contact: ai@example.com

Inspecciona el llms.txt (o robots.txt) de cada sitio para descubrir los permisos de IA antes de rastrear.

Construir un pipeline de recopilación de datos

Resumen de la arquitectura

┌──────────────────────────────────────────────────┐
│  1. Source Discovery                              │
│  - Identify target websites                       │
│  - Map site structure                             │
│  - Prioritize high-quality sources                │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  2. Content Extraction                            │
│  - Fetch pages                                    │
│  - Extract main content                           │
│  - Handle pagination                              │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  3. Data Cleaning                                 │
│  - Remove duplicates                              │
│  - Filter low-quality content                     │
│  - Normalize formats                              │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  4. Quality Validation                            │
│  - Language detection                             │
│  - Content scoring                                │
│  - Deduplication                                  │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  5. Storage & Export                              │
│  - Format for training                            │
│  - Version control                                │
│  - Documentation                                  │
└──────────────────────────────────────────────────┘

Paso 1: descubrimiento de fuentes

Empieza mapeando el contenido disponible:

Typescript

// Map a documentation site
const response = await fetch('https://crawlforge.dev/api/v1/tools/map_site', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    url: 'https://docs.example.com',
    maxDepth: 3,
    includePatterns: ['/docs/*', '/guides/*'],
    excludePatterns: ['/api/*', '/admin/*']
  })
});

const { data } = await response.json();
console.log(`Found ${data.urls.length} pages to scrape`);
// Found 847 pages to scrape

Coste: 2 credits por llamada a map_site

Paso 2: extracción de contenido

Extrae contenido de las URLs descubiertas:

Typescript

// Batch scrape all discovered URLs
const urls = data.urls;

// Process in batches of 50
for (let i = 0; i < urls.length; i += 50) {
  const batch = urls.slice(i, i + 50);

  const response = await fetch('https://crawlforge.dev/api/v1/tools/batch_scrape', {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${API_KEY}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      urls: batch,
      extractContent: true,
      includeMetadata: true
    })
  });

  const { data } = await response.json();

  // Store results
  for (const result of data.results) {
    await storeDocument({
      url: result.url,
      content: result.content,
      metadata: result.metadata,
      scrapedAt: new Date()
    });
  }

  // Respect rate limits
  await sleep(1000);
}

Coste: 5 credits por llamada a batch_scrape (hasta 50 URLs)

Paso 3: limpieza de datos

Elimina el ruido y normaliza el contenido:

Typescript

function cleanDocument(doc: ScrapedDocument): CleanedDocument {
  let content = doc.content;

  // Remove boilerplate
  content = removeNavigation(content);
  content = removeFooters(content);
  content = removeAds(content);

  // Normalize whitespace
  content = content.replace(/\s+/g, ' ').trim();

  // Remove very short documents
  if (content.split(' ').length < 50) {
    return null; // Too short
  }

  // Remove documents with too much code
  const codeRatio = countCodeBlocks(content) / content.length;
  if (codeRatio > 0.8) {
    return null; // Mostly code, not useful for text training
  }

  return {
    ...doc,
    content,
    wordCount: content.split(' ').length,
    cleanedAt: new Date()
  };
}

Paso 4: validación de calidad

Usa IA para puntuar la calidad del contenido:

Typescript

// Analyze content quality
const response = await fetch('https://crawlforge.dev/api/v1/tools/analyze_content', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    content: doc.content
  })
});

const { data } = await response.json();

// Filter based on analysis
if (data.language !== 'en') {
  // Skip non-English content (or separate by language)
}

if (data.readability.score < 30) {
  // Skip content that's too technical/unreadable
}

if (data.sentiment.toxic > 0.5) {
  // Skip potentially harmful content
}

Coste: 3 credits por llamada a analyze_content

Paso 5: deduplicación

Elimina los casi-duplicados:

Typescript

import { simhash } from './hashing';

const seen = new Map<string, string>(); // hash -> url

function isDuplicate(doc: CleanedDocument): boolean {
  const hash = simhash(doc.content);

  for (const [existingHash, existingUrl] of seen) {
    const similarity = hammingDistance(hash, existingHash);
    if (similarity > 0.95) {
      console.log(`Duplicate: ${doc.url} ~= ${existingUrl}`);
      return true;
    }
  }

  seen.set(hash, doc.url);
  return false;
}

Calidad de datos para entrenar LLM

Métricas de calidad a seguir

Métrica	Objetivo	Por qué importa
Documentos únicos	>95%	Evita la memorización
Conteo medio de palabras	200-5000	Longitudes de contexto equilibradas
Pureza de idioma	>99%	Señal de entrenamiento consistente
Puntuación de legibilidad	40-80	Texto de calidad humana
Frescura	<1 año	Información actual

Formato para entrenamiento

Para fine-tuning de LLM, exporta JSONL:

Jsonl

{"text": "Document content here...", "source": "docs.example.com", "category": "tutorial"}
{"text": "Another document...", "source": "blog.example.com", "category": "article"}

Para sistemas RAG, incluye embeddings:

Jsonl

{"text": "...", "embedding": [0.123, 0.456, ...], "metadata": {"url": "...", "title": "..."}}

Escalar tu pipeline

Optimización de credits

Para recopilación a gran escala:

Empieza con map_site (2 credits) para descubrir URLs
Usa batch_scrape (5 credits/50 URLs) en lugar de llamadas individuales
Omite analyze_content en fuentes que ya sabes que son buenas
Cachea de forma agresiva - misma URL = mismo contenido

Costes estimados

Tamaño del conjunto de datos	Herramientas	Credits	Coste (plan Pro)
1K docs	map + batch	~500	$1
10K docs	map + batch	~2.500	$5
100K docs	map + batch	~15.000	$30
1M docs	map + batch + análisis	~100.000	$200

Actualizaciones incrementales

No vuelvas a hacer scraping de todo:

Typescript

// Check for changes before re-scraping
const response = await fetch('https://crawlforge.dev/api/v1/tools/track_changes', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    url: doc.url,
    lastHash: doc.contentHash
  })
});

const { data } = await response.json();

if (data.hasChanges) {
  // Re-scrape and update
} else {
  // Skip, content unchanged
}

Coste: 3 credits por llamada a track_changes

Errores comunes

1. Hacer scraping en exceso

Problema: Recopilar demasiados datos de baja calidad Solución: Calidad > cantidad. 100K documentos buenos superan a 1M mediocres.

2. Ignorar la calidad de los datos

Problema: Entrenar con datos ruidosos Solución: Invierte en limpieza y validación. Usa analyze_content.

3. Infracciones de copyright

Problema: Usar contenido con copyright sin permiso Solución: Cíñete a fuentes permisivas. Revisa robots.txt y los ToS.

4. Agotamiento del límite de velocidad

Problema: Que los sitios objetivo te bloqueen Solución: Usa stealth_mode (5 credits) en sitios sensibles. Respeta los crawl delays.

5. Datos obsoletos

Problema: Entrenar con información desactualizada Solución: Configura scrapes recurrentes con track_changes.

Caso práctico: construir un conjunto de datos de documentación

Objetivo: Crear un conjunto de datos de entrenamiento a partir de documentación técnica para un asistente de código.

Fuentes

Documentación oficial de frameworks (React, Vue, Next.js, etc.)
Referencias de API
Sitios de tutoriales con licencias permisivas

Pipeline

Typescript

const SOURCES = [
  'https://react.dev/learn',
  'https://vuejs.org/guide',
  'https://nextjs.org/docs',
  // ... more sources
];

async function buildDataset() {
  const documents = [];

  for (const source of SOURCES) {
    // 1. Map site structure
    const siteMap = await mapSite(source);

    // 2. Filter to documentation pages
    const docUrls = siteMap.urls.filter(url =>
      url.includes('/docs') ||
      url.includes('/guide') ||
      url.includes('/learn')
    );

    // 3. Batch scrape
    const scraped = await batchScrape(docUrls);

    // 4. Clean and validate
    for (const doc of scraped) {
      const cleaned = cleanDocument(doc);
      if (cleaned && !isDuplicate(cleaned)) {
        documents.push(cleaned);
      }
    }
  }

  // 5. Export
  await exportToJSONL(documents, 'training_data.jsonl');

  console.log(`Dataset: ${documents.length} documents`);
}

Resultados

Fuentes: 12 sitios de documentación
Páginas scrapeadas: 15.847
Tras la limpieza: 12.392 documentos
Tras la deduplicación: 11.108 documentos únicos
Total de palabras: 8,2M
Credits usados: ~4.500
Coste: ~$9 (plan Professional)

Conclusión

El web scraping para datos de entrenamiento de IA es un equilibrio entre cantidad, calidad y ética. Los principios clave:

Empieza con objetivos claros - ¿Qué necesita tu modelo?
Prioriza la calidad - Datos limpios superan a más datos
Respeta las fuentes - Sigue robots.txt y los límites de velocidad
Valida a fondo - Usa comprobaciones de calidad automatizadas
Itera de forma continua - Los modelos mejoran con mejores datos

CrawlForge proporciona las herramientas para construir pipelines de datos de nivel de producción. Empieza con 1.000 credits gratis en crawlforge.dev/signup.

Recursos:

API Reference - Documentación completa de las herramientas
Batch Processing Guide - Scraping a gran escala
Credit Optimization - Reduce costes

¿Preguntas? Contáctanos en GitHub o Twitter.

El cuello de botella de los datos

Los modelos de IA son tan buenos como sus datos de entrenamiento. Sin embargo, la mayoría de los equipos se enfrentan a retos críticos:

Cantidad: Los modelos necesitan millones de ejemplos
Calidad: Si entra basura, sale basura
Diversidad: Entrenar con datos limitados crea modelos limitados
Frescura: Los conjuntos de datos estáticos quedan obsoletos
Cumplimiento: Consideraciones legales y éticas

El web scraping resuelve los problemas de cantidad y diversidad -- pero solo si se hace bien.

Tipos de datos web para IA

Contenido de texto

El tipo de dato de entrenamiento más común:

Artículos y publicaciones de blog - Texto narrativo para la comprensión del lenguaje
Documentación - Escritura técnica y explicaciones estructuradas
Foros y preguntas/respuestas - Patrones conversacionales y resolución de problemas
Descripciones de productos - Texto conciso y descriptivo
Reseñas - Contenido rico en sentimiento con opiniones

Datos estructurados

Para clasificación y reconocimiento de entidades:

Catálogos de productos - Artículos con atributos
Listados de negocios - Entidades con relaciones
Datos de eventos - Información temporal y de ubicación
Tablas y conjuntos de datos - Datos numéricos y categóricos

Metadatos

A menudo pasados por alto pero valiosos:

Etiquetas SEO - Resúmenes y palabras clave escritos por humanos
Marcado de Schema.org - Datos de entidades estructurados
Grafos sociales - Datos de relaciones
Marcas de tiempo - Patrones temporales

Multimodal

Para modelos de visión y multimodales:

Imágenes con descripciones - Pares visión-lenguaje
PDFs con texto - Comprensión de documentos
Vídeos con transcripciones - Visión-lenguaje temporal

Principios de web scraping ético

Antes de recopilar datos, comprende el panorama ético y legal.

1. Respeta robots.txt

robots.txt le dice a los crawlers qué está permitido:

# Example robots.txt
User-agent: *
Disallow: /private/
Disallow: /api/
Allow: /public/
Crawl-delay: 10

CrawlForge respeta robots.txt por defecto. Puedes consultar la política de cualquier sitio:

Bash

curl https://example.com/robots.txt

2. Límite de velocidad

No satures los servidores:

Respeta las directivas Crawl-delay
Espacia las peticiones al menos 1-5 segundos
Monitoriza los códigos de respuesta - un 429 significa que vayas más despacio
Reduce la concurrencia en sitios más pequeños

CrawlForge tiene límite de velocidad integrado, pero sé respetuoso.

3. Licencias de datos

Comprende los derechos de contenido:

Creative Commons - Normalmente está bien con atribución
Copyright - Requiere permiso para entrenamiento
Términos de servicio - Algunos sitios prohíben el scraping
RGPD/Privacidad - Los datos personales tienen restricciones

4. El estándar LLMs.txt

Un nuevo estándar para permisos específicos de IA:

# llms.txt example
Allow: training
Allow: inference
Require: attribution
Contact: ai@example.com

Inspecciona el llms.txt (o robots.txt) de cada sitio para descubrir los permisos de IA antes de rastrear.

Construir un pipeline de recopilación de datos

Resumen de la arquitectura

┌──────────────────────────────────────────────────┐
│  1. Source Discovery                              │
│  - Identify target websites                       │
│  - Map site structure                             │
│  - Prioritize high-quality sources                │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  2. Content Extraction                            │
│  - Fetch pages                                    │
│  - Extract main content                           │
│  - Handle pagination                              │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  3. Data Cleaning                                 │
│  - Remove duplicates                              │
│  - Filter low-quality content                     │
│  - Normalize formats                              │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  4. Quality Validation                            │
│  - Language detection                             │
│  - Content scoring                                │
│  - Deduplication                                  │
└──────────────────────────────────────────────────┘
                        ↓
┌──────────────────────────────────────────────────┐
│  5. Storage & Export                              │
│  - Format for training                            │
│  - Version control                                │
│  - Documentation                                  │
└──────────────────────────────────────────────────┘

Paso 1: descubrimiento de fuentes

Empieza mapeando el contenido disponible:

Typescript

// Map a documentation site
const response = await fetch('https://crawlforge.dev/api/v1/tools/map_site', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    url: 'https://docs.example.com',
    maxDepth: 3,
    includePatterns: ['/docs/*', '/guides/*'],
    excludePatterns: ['/api/*', '/admin/*']
  })
});

const { data } = await response.json();
console.log(`Found ${data.urls.length} pages to scrape`);
// Found 847 pages to scrape

Coste: 2 credits por llamada a map_site

Paso 2: extracción de contenido

Extrae contenido de las URLs descubiertas:

Typescript

// Batch scrape all discovered URLs
const urls = data.urls;

// Process in batches of 50
for (let i = 0; i < urls.length; i += 50) {
  const batch = urls.slice(i, i + 50);

  const response = await fetch('https://crawlforge.dev/api/v1/tools/batch_scrape', {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${API_KEY}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      urls: batch,
      extractContent: true,
      includeMetadata: true
    })
  });

  const { data } = await response.json();

  // Store results
  for (const result of data.results) {
    await storeDocument({
      url: result.url,
      content: result.content,
      metadata: result.metadata,
      scrapedAt: new Date()
    });
  }

  // Respect rate limits
  await sleep(1000);
}

Coste: 5 credits por llamada a batch_scrape (hasta 50 URLs)

Paso 3: limpieza de datos

Elimina el ruido y normaliza el contenido:

Typescript

function cleanDocument(doc: ScrapedDocument): CleanedDocument {
  let content = doc.content;

  // Remove boilerplate
  content = removeNavigation(content);
  content = removeFooters(content);
  content = removeAds(content);

  // Normalize whitespace
  content = content.replace(/\s+/g, ' ').trim();

  // Remove very short documents
  if (content.split(' ').length < 50) {
    return null; // Too short
  }

  // Remove documents with too much code
  const codeRatio = countCodeBlocks(content) / content.length;
  if (codeRatio > 0.8) {
    return null; // Mostly code, not useful for text training
  }

  return {
    ...doc,
    content,
    wordCount: content.split(' ').length,
    cleanedAt: new Date()
  };
}

Paso 4: validación de calidad

Usa IA para puntuar la calidad del contenido:

Typescript

// Analyze content quality
const response = await fetch('https://crawlforge.dev/api/v1/tools/analyze_content', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    content: doc.content
  })
});

const { data } = await response.json();

// Filter based on analysis
if (data.language !== 'en') {
  // Skip non-English content (or separate by language)
}

if (data.readability.score < 30) {
  // Skip content that's too technical/unreadable
}

if (data.sentiment.toxic > 0.5) {
  // Skip potentially harmful content
}

Coste: 3 credits por llamada a analyze_content

Paso 5: deduplicación

Elimina los casi-duplicados:

Typescript

import { simhash } from './hashing';

const seen = new Map<string, string>(); // hash -> url

function isDuplicate(doc: CleanedDocument): boolean {
  const hash = simhash(doc.content);

  for (const [existingHash, existingUrl] of seen) {
    const similarity = hammingDistance(hash, existingHash);
    if (similarity > 0.95) {
      console.log(`Duplicate: ${doc.url} ~= ${existingUrl}`);
      return true;
    }
  }

  seen.set(hash, doc.url);
  return false;
}

Calidad de datos para entrenar LLM

Métricas de calidad a seguir

Métrica	Objetivo	Por qué importa
Documentos únicos	>95%	Evita la memorización
Conteo medio de palabras	200-5000	Longitudes de contexto equilibradas
Pureza de idioma	>99%	Señal de entrenamiento consistente
Puntuación de legibilidad	40-80	Texto de calidad humana
Frescura	<1 año	Información actual

Formato para entrenamiento

Para fine-tuning de LLM, exporta JSONL:

Jsonl

{"text": "Document content here...", "source": "docs.example.com", "category": "tutorial"}
{"text": "Another document...", "source": "blog.example.com", "category": "article"}

Para sistemas RAG, incluye embeddings:

Jsonl

{"text": "...", "embedding": [0.123, 0.456, ...], "metadata": {"url": "...", "title": "..."}}

Escalar tu pipeline

Optimización de credits

Para recopilación a gran escala:

Empieza con map_site (2 credits) para descubrir URLs
Usa batch_scrape (5 credits/50 URLs) en lugar de llamadas individuales
Omite analyze_content en fuentes que ya sabes que son buenas
Cachea de forma agresiva - misma URL = mismo contenido

Costes estimados

Tamaño del conjunto de datos	Herramientas	Credits	Coste (plan Pro)
1K docs	map + batch	~500	$1
10K docs	map + batch	~2.500	$5
100K docs	map + batch	~15.000	$30
1M docs	map + batch + análisis	~100.000	$200

Actualizaciones incrementales

No vuelvas a hacer scraping de todo:

Typescript

// Check for changes before re-scraping
const response = await fetch('https://crawlforge.dev/api/v1/tools/track_changes', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    url: doc.url,
    lastHash: doc.contentHash
  })
});

const { data } = await response.json();

if (data.hasChanges) {
  // Re-scrape and update
} else {
  // Skip, content unchanged
}

Coste: 3 credits por llamada a track_changes

Errores comunes

1. Hacer scraping en exceso

Problema: Recopilar demasiados datos de baja calidad Solución: Calidad > cantidad. 100K documentos buenos superan a 1M mediocres.

2. Ignorar la calidad de los datos

Problema: Entrenar con datos ruidosos Solución: Invierte en limpieza y validación. Usa analyze_content.

3. Infracciones de copyright

Problema: Usar contenido con copyright sin permiso Solución: Cíñete a fuentes permisivas. Revisa robots.txt y los ToS.

4. Agotamiento del límite de velocidad

Problema: Que los sitios objetivo te bloqueen Solución: Usa stealth_mode (5 credits) en sitios sensibles. Respeta los crawl delays.

5. Datos obsoletos

Problema: Entrenar con información desactualizada Solución: Configura scrapes recurrentes con track_changes.

Caso práctico: construir un conjunto de datos de documentación

Objetivo: Crear un conjunto de datos de entrenamiento a partir de documentación técnica para un asistente de código.

Fuentes

Documentación oficial de frameworks (React, Vue, Next.js, etc.)
Referencias de API
Sitios de tutoriales con licencias permisivas

Pipeline

Typescript

const SOURCES = [
  'https://react.dev/learn',
  'https://vuejs.org/guide',
  'https://nextjs.org/docs',
  // ... more sources
];

async function buildDataset() {
  const documents = [];

  for (const source of SOURCES) {
    // 1. Map site structure
    const siteMap = await mapSite(source);

    // 2. Filter to documentation pages
    const docUrls = siteMap.urls.filter(url =>
      url.includes('/docs') ||
      url.includes('/guide') ||
      url.includes('/learn')
    );

    // 3. Batch scrape
    const scraped = await batchScrape(docUrls);

    // 4. Clean and validate
    for (const doc of scraped) {
      const cleaned = cleanDocument(doc);
      if (cleaned && !isDuplicate(cleaned)) {
        documents.push(cleaned);
      }
    }
  }

  // 5. Export
  await exportToJSONL(documents, 'training_data.jsonl');

  console.log(`Dataset: ${documents.length} documents`);
}

Resultados

Fuentes: 12 sitios de documentación
Páginas scrapeadas: 15.847
Tras la limpieza: 12.392 documentos
Tras la deduplicación: 11.108 documentos únicos
Total de palabras: 8,2M
Credits usados: ~4.500
Coste: ~$9 (plan Professional)

Conclusión

El web scraping para datos de entrenamiento de IA es un equilibrio entre cantidad, calidad y ética. Los principios clave:

Empieza con objetivos claros - ¿Qué necesita tu modelo?
Prioriza la calidad - Datos limpios superan a más datos
Respeta las fuentes - Sigue robots.txt y los límites de velocidad
Valida a fondo - Usa comprobaciones de calidad automatizadas
Itera de forma continua - Los modelos mejoran con mejores datos

CrawlForge proporciona las herramientas para construir pipelines de datos de nivel de producción. Empieza con 1.000 credits gratis en crawlforge.dev/signup.

Recursos:

API Reference - Documentación completa de las herramientas
Batch Processing Guide - Scraping a gran escala
Credit Optimization - Reduce costes

¿Preguntas? Contáctanos en GitHub o Twitter.

En esta página

El cuello de botella de los datos

Tipos de datos web para IA

Contenido de texto

Datos estructurados

Metadatos

Multimodal

Principios de web scraping ético

1. Respeta robots.txt

2. Límite de velocidad

3. Licencias de datos

4. El estándar LLMs.txt

Construir un pipeline de recopilación de datos

Resumen de la arquitectura

Paso 1: descubrimiento de fuentes

Paso 2: extracción de contenido

Paso 3: limpieza de datos

Paso 4: validación de calidad

Paso 5: deduplicación

Calidad de datos para entrenar LLM

Métricas de calidad a seguir

Formato para entrenamiento

Escalar tu pipeline

Optimización de credits

Costes estimados

Actualizaciones incrementales

Errores comunes

1. Hacer scraping en exceso

2. Ignorar la calidad de los datos

3. Infracciones de copyright

4. Agotamiento del límite de velocidad

5. Datos obsoletos

Caso práctico: construir un conjunto de datos de documentación

Fuentes

Pipeline

Resultados

Conclusión

Pruébalo tú mismo — sin necesidad de registrarte

Etiquetas

Sobre el autor

CrawlForge Team

Mantente al día con los últimos artículos

Frequently Asked Questions

Artículos relacionados

Las mejores herramientas de web scraping para agentes de IA en 2026

Extrae datos web con LLMs locales (Ollama + CrawlForge)

El protocolo MCP explicado: una guía para desarrolladores en 2026

En esta página

El cuello de botella de los datos

Tipos de datos web para IA

Contenido de texto

Datos estructurados

Metadatos

Multimodal

Principios de web scraping ético

1. Respeta robots.txt

2. Límite de velocidad

3. Licencias de datos

4. El estándar LLMs.txt

Construir un pipeline de recopilación de datos

Resumen de la arquitectura

Paso 1: descubrimiento de fuentes

Paso 2: extracción de contenido

Paso 3: limpieza de datos

Paso 4: validación de calidad

Paso 5: deduplicación

Calidad de datos para entrenar LLM

Métricas de calidad a seguir

Formato para entrenamiento

Escalar tu pipeline

Optimización de credits

Costes estimados

Actualizaciones incrementales

Errores comunes

1. Hacer scraping en exceso

2. Ignorar la calidad de los datos

3. Infracciones de copyright

4. Agotamiento del límite de velocidad

5. Datos obsoletos

Caso práctico: construir un conjunto de datos de documentación