batch_scrape
Haga scraping de varias URL en paralelo con gestión de trabajos asíncronos, notificaciones por webhook y concurrencia configurable. Ideal para la recopilación masiva de datos y los flujos de trabajo automatizados.
Casos de uso
Recopilación masiva de datos
Haga scraping de catálogos de productos, artículos de noticias o trabajos de investigación en varias páginas simultáneamente
Análisis de la competencia
Monitoree precios, funciones y contenido en los sitios web de la competencia en un solo lote
Flujos de trabajo automatizados
Integre webhooks para procesar en tiempo real a medida que se completan los trabajos de scraping
Informes programados
Genere informes diarios haciendo scraping por lotes de paneles, analíticas o páginas de estado
Archivado de contenido
Archive varias páginas como screenshots o PDF para fines de cumplimiento o registros históricos
Procesamiento en paralelo
Controle los niveles de concurrencia para optimizar la velocidad respetando los límites de tasa
Endpoint
/api/v1/tools/batch_scrapeParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
urls | string[] | Required | - | Arreglo de URL para hacer scraping (1-50 URL) Example: ["https://example.com", "https://example.org"] |
formats | string[] | Optional | ["markdown"] | Formatos de salida para cada URL: markdown, html, text, screenshot o pdf Example: ["markdown", "screenshot"] |
webhook | string | Optional | - | URL del webhook que recibirá la notificación de finalización del trabajo Example: https://yourapp.com/webhook/scrape-complete |
maxConcurrency | number | Optional | 5 | Cantidad máxima de solicitudes concurrentes (1-10) Example: 10 |
timeout | number | Optional | 30000 | Tiempo de espera por URL en milisegundos Example: 45000 |
onlyMainContent | boolean | Optional | false | Extraer únicamente el contenido principal, eliminando el contenido repetitivo Example: true |
Payload del webhook
Cuando el lote se complete, la URL de su webhook recibirá:
Ejemplos de solicitud
Ejemplo de respuesta
{ "success": true, "data": { "jobId": "batch_1234567890abcdef", "status": "processing", "totalUrls": 3, "completed": 0, "successful": 0, "failed": 0, "startedAt": "2025-10-01T12:00:00Z", "estimatedCompletionAt": "2025-10-01T12:02:00Z", "results": [] }, "credits_used": 5, "credits_remaining": 995, "processing_time": 156}data.jobIdIdentificador único para hacer seguimiento de este trabajo por lotesdata.statusEstado del trabajo: queued, processing, completed o faileddata.totalUrlsCantidad total de URL en el lotedata.completedCantidad de URL procesadas (exitosas + fallidas)data.estimatedCompletionAtTiempo estimado de finalización según la concurrenciacredits_used5 credits por solicitud de lote (tarifa plana)credits_remainingSu saldo de credits restanteManejo de errores
Demasiadas URL (400 Bad Request)
Máximo 50 URL por lote. Divida los lotes grandes en varias solicitudes.
URL de webhook no válida (400 Bad Request)
El webhook debe ser una URL HTTPS válida. Por seguridad, no se admiten webhooks HTTP.
Credits insuficientes (402 Payment Required)
El lote requiere 5 credits por adelantado por cada llamada. Agregue más credits antes de reintentar.
Trabajo no encontrado (404 Not Found)
El ID del trabajo no existe o ha expirado. Los trabajos se conservan durante 7 días tras su finalización.
Costo en credits
Qué incluye:
Hasta 50 URL por lote
Procesamiento en paralelo con concurrencia configurable
Múltiples formatos de salida (markdown, HTML, text, screenshot, PDF)
Notificaciones por webhook al finalizar
Gestión de trabajos asíncronos
Recomendaciones por plan:
Plan Free: 1,000 credits de prueba por única vez = 200 solicitudes por lote
Plan Hobby: 5,000 credits = 1,000 solicitudes por lote ($19/mo)
Plan Professional: 50,000 credits = 10,000 solicitudes por lote ($99/mo)