process_document
Procese documentos PDF, DOCX y TXT con extracción de texto, extracción de imágenes y soporte opcional de OCR. Ideal para analizar artículos académicos, facturas, formularios y procesar documentos en múltiples formatos.
Casos de uso
Análisis de documentos
Extraiga texto y metadatos de PDF, documentos de Word y archivos de texto
Investigación académica
Procese artículos de investigación, tesis y publicaciones académicas para su análisis
Procesamiento de facturas
Extraiga datos estructurados de facturas, recibos y documentos financieros
Extracción de formularios
Analice formularios de solicitud, encuestas y cuestionarios
Documentos legales
Extraiga texto de contratos, acuerdos y escritos legales
OCR de documentos escaneados
Convierta imágenes y PDF escaneados en texto buscable con OCR
Endpoint
/api/v1/tools/process_documentParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
source | string | Required | - | La fuente del documento (URL o ruta de archivo según sourceType) Example: https://example.com/document.pdf |
sourceType | string | Required | - | Tipo de fuente: "url", "pdf_url", "file" o "pdf_file" Example: pdf_url |
options | object | Optional | - | Opciones de procesamiento Example: {"extractImages": true, "ocrEnabled": false} |
options.extractImages | boolean | Optional | false | Si se deben extraer imágenes del documento Example: true |
options.ocrEnabled | boolean | Optional | false | Habilitar OCR para documentos escaneados (suma 2 credits por página) Example: false |
options.maxPages | number | Optional | - | Cantidad máxima de páginas a procesar (predeterminado: todas las páginas) Example: 10 |
Ejemplos de solicitud
Ejemplo de respuesta
{ "success": true, "data": { "pages": [ { "pageNumber": 1, "text": "Introduction\n\nThis research paper explores the applications of machine learning...", "wordCount": 523, "images": [ "image_1_base64..." ] }, { "pageNumber": 2, "text": "Methodology\n\nOur approach involves collecting data from multiple sources...", "wordCount": 612, "images": [] } ], "metadata": { "title": "Machine Learning Applications in Healthcare", "author": "Dr. Jane Smith", "creationDate": "2024-01-15", "pageCount": 10, "fileSize": 2456789, "format": "PDF" }, "extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...", "images": [ "image_1_base64..." ], "totalPages": 10, "processedPages": 10 }, "credits_used": 20, "credits_remaining": 980, "processing_time": 3450}data.pagesArreglo de objetos de página con texto e imágenes por páginadata.metadataMetadatos del documento (título, autor, fechas, formato)data.extractedTextTexto combinado de todas las páginasdata.imagesArreglo de imágenes extraídas en formato base64 (si extractImages: true)data.totalPagesCantidad total de páginas del documentocredits_usedCredits descontados (2 por página × 10 páginas = 20 credits)processing_timeTiempo total de procesamiento en milisegundosManejo de errores
Formato no admitido (400 Bad Request)
El formato del documento no es compatible. Formatos admitidos: PDF, DOCX, TXT.
Archivo demasiado grande (413 Payload Too Large)
El documento supera el tamaño máximo de archivo de 50MB. Divida los documentos grandes en archivos más pequeños.
Documento dañado (422 Unprocessable Entity)
El documento está dañado o protegido con contraseña. Asegúrese de que el archivo sea válido y no esté cifrado.
Credits insuficientes (402 Payment Required)
Su cuenta no tiene suficientes credits para este documento (se necesitan {pageCount} × 2 credits). Compre más credits.
Límite de tasa superado (429 Too Many Requests)
Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.
Costo en credits
Ejemplo: PDF de 10 páginas = 20 credits (o 40 credits con OCR)
Plan Free: 1,000 credits de prueba por única vez = 500 páginas (o 250 páginas con OCR)
Plan Hobby: 5,000 credits/mes = 2,500 páginas ($19/mo)
Plan Professional: 50,000 credits/mes = 25,000 páginas ($99/mo)