CrawlForge
Herramienta avanzadaPor página2 credits

process_document

Procese documentos PDF, DOCX y TXT con extracción de texto, extracción de imágenes y soporte opcional de OCR. Ideal para analizar artículos académicos, facturas, formularios y procesar documentos en múltiples formatos.

Casos de uso

Análisis de documentos

Extraiga texto y metadatos de PDF, documentos de Word y archivos de texto

Investigación académica

Procese artículos de investigación, tesis y publicaciones académicas para su análisis

Procesamiento de facturas

Extraiga datos estructurados de facturas, recibos y documentos financieros

Extracción de formularios

Analice formularios de solicitud, encuestas y cuestionarios

Documentos legales

Extraiga texto de contratos, acuerdos y escritos legales

OCR de documentos escaneados

Convierta imágenes y PDF escaneados en texto buscable con OCR

Endpoint

POST/api/v1/tools/process_document
Auth Required
2 req/s en el plan Free
2 credits

Parameters

NameTypeRequiredDefaultDescription
source
stringRequired-
La fuente del documento (URL o ruta de archivo según sourceType)
Example: https://example.com/document.pdf
sourceType
stringRequired-
Tipo de fuente: "url", "pdf_url", "file" o "pdf_file"
Example: pdf_url
options
objectOptional-
Opciones de procesamiento
Example: {"extractImages": true, "ocrEnabled": false}
options.extractImages
booleanOptionalfalse
Si se deben extraer imágenes del documento
Example: true
options.ocrEnabled
booleanOptionalfalse
Habilitar OCR para documentos escaneados (suma 2 credits por página)
Example: false
options.maxPages
numberOptional-
Cantidad máxima de páginas a procesar (predeterminado: todas las páginas)
Example: 10
Costo en credits: 2 credits por página + 2 credits adicionales por página si OCR está habilitado. Un PDF de 10 páginas cuesta 20 credits (o 40 credits con OCR).

Ejemplos de solicitud

terminalBash

Ejemplo de respuesta

200 OK3450ms
{
"success": true,
"data": {
"pages": [
{
"pageNumber": 1,
"text": "Introduction\n\nThis research paper explores the applications of machine learning...",
"wordCount": 523,
"images": [
"image_1_base64..."
]
},
{
"pageNumber": 2,
"text": "Methodology\n\nOur approach involves collecting data from multiple sources...",
"wordCount": 612,
"images": []
}
],
"metadata": {
"title": "Machine Learning Applications in Healthcare",
"author": "Dr. Jane Smith",
"creationDate": "2024-01-15",
"pageCount": 10,
"fileSize": 2456789,
"format": "PDF"
},
"extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...",
"images": [
"image_1_base64..."
],
"totalPages": 10,
"processedPages": 10
},
"credits_used": 20,
"credits_remaining": 980,
"processing_time": 3450
}
Field Descriptions
data.pagesArreglo de objetos de página con texto e imágenes por página
data.metadataMetadatos del documento (título, autor, fechas, formato)
data.extractedTextTexto combinado de todas las páginas
data.imagesArreglo de imágenes extraídas en formato base64 (si extractImages: true)
data.totalPagesCantidad total de páginas del documento
credits_usedCredits descontados (2 por página × 10 páginas = 20 credits)
processing_timeTiempo total de procesamiento en milisegundos

Manejo de errores

Formato no admitido (400 Bad Request)

El formato del documento no es compatible. Formatos admitidos: PDF, DOCX, TXT.

Archivo demasiado grande (413 Payload Too Large)

El documento supera el tamaño máximo de archivo de 50MB. Divida los documentos grandes en archivos más pequeños.

Documento dañado (422 Unprocessable Entity)

El documento está dañado o protegido con contraseña. Asegúrese de que el archivo sea válido y no esté cifrado.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits para este documento (se necesitan {pageCount} × 2 credits). Compre más credits.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Consejo profesional: Use el parámetro maxPages para limitar el uso de credits al procesar documentos grandes. Procese por lotes si solo necesita secciones específicas.

Costo en credits

2 credits
2 credits por página (4 credits con OCR)
Cada página procesada cuesta 2 credits. Habilite OCR por 2 credits adicionales por página.

Ejemplo: PDF de 10 páginas = 20 credits (o 40 credits con OCR)

Plan Free: 1,000 credits de prueba por única vez = 500 páginas (o 250 páginas con OCR)

Plan Hobby: 5,000 credits/mes = 2,500 páginas ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 páginas ($99/mo)

Herramientas relacionadas

summarize_content
Resuma el texto extraído del documento (4 credits)
extract_text
Extraiga texto limpio de documentos HTML (1 credit)
¿Listo para probar process_document? Regístrese gratis y obtenga 1,000 credits para empezar a crear.