Herramienta avanzadaPor página2 credits

process_document

Procese documentos PDF, DOCX y TXT con extracción de texto, extracción de imágenes y soporte opcional de OCR. Ideal para analizar artículos académicos, facturas, formularios y procesar documentos en múltiples formatos.

Casos de uso

Análisis de documentos

Extraiga texto y metadatos de PDF, documentos de Word y archivos de texto

Investigación académica

Procese artículos de investigación, tesis y publicaciones académicas para su análisis

Procesamiento de facturas

Extraiga datos estructurados de facturas, recibos y documentos financieros

Extracción de formularios

Analice formularios de solicitud, encuestas y cuestionarios

Documentos legales

Extraiga texto de contratos, acuerdos y escritos legales

OCR de documentos escaneados

Convierta imágenes y PDF escaneados en texto buscable con OCR

Endpoint

POST/api/v1/tools/process_document

Auth Required

2 req/s en el plan Free

2 credits

Parameters

Name	Type	Required	Default	Description
source	string	Required	-	La fuente del documento (URL o ruta de archivo según sourceType) Example: https://example.com/document.pdf
sourceType	string	Required	-	Tipo de fuente: "url", "pdf_url", "file" o "pdf_file" Example: pdf_url
options	object	Optional	-	Opciones de procesamiento Example: {"extractImages": true, "ocrEnabled": false}
options.extractImages	boolean	Optional	false	Si se deben extraer imágenes del documento Example: true
options.ocrEnabled	boolean	Optional	false	Habilitar OCR para documentos escaneados (suma 2 credits por página) Example: false
options.maxPages	number	Optional	-	Cantidad máxima de páginas a procesar (predeterminado: todas las páginas) Example: 10

Costo en credits: 2 credits por página + 2 credits adicionales por página si OCR está habilitado. Un PDF de 10 páginas cuesta 20 credits (o 40 credits con OCR).

Ejemplos de solicitud

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/process_document \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "source": "https://example.com/research-paper.pdf",
    "sourceType": "pdf_url",
    "options": {
      "extractImages": true,
      "ocrEnabled": false,
      "maxPages": 10
    }
  }'

Ejemplo de respuesta

200 OK3450ms

{
  "success": true,
  "data": {
    "pages": [
      {
        "pageNumber": 1,
        "text": "Introduction\n\nThis research paper explores the applications of machine learning...",
        "wordCount": 523,
        "images": [
          "image_1_base64..."
        ]
      },
      {
        "pageNumber": 2,
        "text": "Methodology\n\nOur approach involves collecting data from multiple sources...",
        "wordCount": 612,
        "images": []
      }
    ],
    "metadata": {
      "title": "Machine Learning Applications in Healthcare",
      "author": "Dr. Jane Smith",
      "creationDate": "2024-01-15",
      "pageCount": 10,
      "fileSize": 2456789,
      "format": "PDF"
    },
    "extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...",
    "images": [
      "image_1_base64..."
    ],
    "totalPages": 10,
    "processedPages": 10
  },
  "credits_used": 20,
  "credits_remaining": 980,
  "processing_time": 3450
}

Field Descriptions

data.pagesArreglo de objetos de página con texto e imágenes por página

data.metadataMetadatos del documento (título, autor, fechas, formato)

data.extractedTextTexto combinado de todas las páginas

data.imagesArreglo de imágenes extraídas en formato base64 (si extractImages: true)

data.totalPagesCantidad total de páginas del documento

credits_usedCredits descontados (2 por página × 10 páginas = 20 credits)

processing_timeTiempo total de procesamiento en milisegundos

Manejo de errores

Formato no admitido (400 Bad Request)

El formato del documento no es compatible. Formatos admitidos: PDF, DOCX, TXT.

Archivo demasiado grande (413 Payload Too Large)

El documento supera el tamaño máximo de archivo de 50MB. Divida los documentos grandes en archivos más pequeños.

Documento dañado (422 Unprocessable Entity)

El documento está dañado o protegido con contraseña. Asegúrese de que el archivo sea válido y no esté cifrado.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits para este documento (se necesitan {pageCount} × 2 credits). Compre más credits.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Consejo profesional: Use el parámetro maxPages para limitar el uso de credits al procesar documentos grandes. Procese por lotes si solo necesita secciones específicas.

Costo en credits

2 credits

2 credits por página (4 credits con OCR)

Cada página procesada cuesta 2 credits. Habilite OCR por 2 credits adicionales por página.

Ejemplo: PDF de 10 páginas = 20 credits (o 40 credits con OCR)

Plan Free: 1,000 credits de prueba por única vez = 500 páginas (o 250 páginas con OCR)

Plan Hobby: 5,000 credits/mes = 2,500 páginas ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 páginas ($99/mo)

Herramientas relacionadas

summarize_content

Resuma el texto extraído del documento (4 credits)

extract_text

Extraiga texto limpio de documentos HTML (1 credit)

¿Listo para probar process_document? Regístrese gratis y obtenga 1,000 credits para empezar a crear.

Casos de uso

Análisis de documentos

Extraiga texto y metadatos de PDF, documentos de Word y archivos de texto

Investigación académica

Procese artículos de investigación, tesis y publicaciones académicas para su análisis

Procesamiento de facturas

Extraiga datos estructurados de facturas, recibos y documentos financieros

Extracción de formularios

Analice formularios de solicitud, encuestas y cuestionarios

Documentos legales

Extraiga texto de contratos, acuerdos y escritos legales

OCR de documentos escaneados

Convierta imágenes y PDF escaneados en texto buscable con OCR

Parameters

Name	Type	Required	Default	Description
source	string	Required	-	La fuente del documento (URL o ruta de archivo según sourceType) Example: https://example.com/document.pdf
sourceType	string	Required	-	Tipo de fuente: "url", "pdf_url", "file" o "pdf_file" Example: pdf_url
options	object	Optional	-	Opciones de procesamiento Example: {"extractImages": true, "ocrEnabled": false}
options.extractImages	boolean	Optional	false	Si se deben extraer imágenes del documento Example: true
options.ocrEnabled	boolean	Optional	false	Habilitar OCR para documentos escaneados (suma 2 credits por página) Example: false
options.maxPages	number	Optional	-	Cantidad máxima de páginas a procesar (predeterminado: todas las páginas) Example: 10

Ejemplos de solicitud

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/process_document \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "source": "https://example.com/research-paper.pdf",
    "sourceType": "pdf_url",
    "options": {
      "extractImages": true,
      "ocrEnabled": false,
      "maxPages": 10
    }
  }'

Ejemplo de respuesta

200 OK3450ms

{
  "success": true,
  "data": {
    "pages": [
      {
        "pageNumber": 1,
        "text": "Introduction\n\nThis research paper explores the applications of machine learning...",
        "wordCount": 523,
        "images": [
          "image_1_base64..."
        ]
      },
      {
        "pageNumber": 2,
        "text": "Methodology\n\nOur approach involves collecting data from multiple sources...",
        "wordCount": 612,
        "images": []
      }
    ],
    "metadata": {
      "title": "Machine Learning Applications in Healthcare",
      "author": "Dr. Jane Smith",
      "creationDate": "2024-01-15",
      "pageCount": 10,
      "fileSize": 2456789,
      "format": "PDF"
    },
    "extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...",
    "images": [
      "image_1_base64..."
    ],
    "totalPages": 10,
    "processedPages": 10
  },
  "credits_used": 20,
  "credits_remaining": 980,
  "processing_time": 3450
}

Field Descriptions

data.pagesArreglo de objetos de página con texto e imágenes por página

data.metadataMetadatos del documento (título, autor, fechas, formato)

data.extractedTextTexto combinado de todas las páginas

data.imagesArreglo de imágenes extraídas en formato base64 (si extractImages: true)

data.totalPagesCantidad total de páginas del documento

credits_usedCredits descontados (2 por página × 10 páginas = 20 credits)

processing_timeTiempo total de procesamiento en milisegundos

Manejo de errores

Formato no admitido (400 Bad Request)

El formato del documento no es compatible. Formatos admitidos: PDF, DOCX, TXT.

Archivo demasiado grande (413 Payload Too Large)

El documento supera el tamaño máximo de archivo de 50MB. Divida los documentos grandes en archivos más pequeños.

Documento dañado (422 Unprocessable Entity)

El documento está dañado o protegido con contraseña. Asegúrese de que el archivo sea válido y no esté cifrado.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits para este documento (se necesitan {pageCount} × 2 credits). Compre más credits.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Consejo profesional: Use el parámetro maxPages para limitar el uso de credits al procesar documentos grandes. Procese por lotes si solo necesita secciones específicas.

Costo en credits

2 credits

2 credits por página (4 credits con OCR)

Cada página procesada cuesta 2 credits. Habilite OCR por 2 credits adicionales por página.

Ejemplo: PDF de 10 páginas = 20 credits (o 40 credits con OCR)

Plan Free: 1,000 credits de prueba por única vez = 500 páginas (o 250 páginas con OCR)

Plan Hobby: 5,000 credits/mes = 2,500 páginas ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 páginas ($99/mo)