Herramienta básica1 credit

extract_text

Extraiga texto limpio y legible de HTML con análisis inteligente. Elimina automáticamente scripts, estilos y contenido repetitivo mientras conserva el contenido de texto principal.

Casos de uso

Extracción de artículos para LLMs

Extraiga texto limpio de artículos para resumir, analizar o procesar con IA

Análisis de contenido

Obtenga texto plano para conteo de palabras, análisis de legibilidad o detección de sentimiento

Texto limpio para resúmenes

Elimine el ruido HTML antes de pasarlo a los modelos de resumen

Eliminación de contenido repetitivo

Elimine anuncios, navegación y otros elementos que no son contenido

Endpoint

POST/api/v1/tools/extract_text

Auth Required

2 req/s en el plan Free

1 credit

Parameters

Nota: Debe proporcionar html o url. Si proporciona ambos, html tiene prioridad.

Name	Type	Required	Default	Description
html	string	Optional	-	Contenido HTML del que extraer texto (proporcione html o url) Example: <html><body><h1>Hello World</h1></body></html>
url	string	Optional	-	URL para obtener y extraer texto (proporcione html o url) Example: https://example.com/article
selector	string	Optional	-	Selector CSS para apuntar a elementos específicos (predeterminado: toda la página) Example: article, .content, #main
clean	boolean	Optional	true	Eliminar espacios en blanco adicionales y normalizar el formato Example: true
preserve_links	boolean	Optional	false	Incluir los enlaces en el texto extraído junto con sus URLs Example: false
preserve_formatting	boolean	Optional	false	Conservar el formato HTML básico (párrafos, saltos de línea) Example: false
max_length	number	Optional	-	Longitud máxima del texto extraído (se truncará con ...) Example: 5000

Ejemplos de solicitud

cURL - Extraer desde URL

terminalBash

curl -X POST https://www.crawlforge.dev/api/v1/tools/extract_text \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "selector": "article",
    "clean": true,
    "max_length": 5000
  }'

TypeScript - Extraer desde HTML

extractText.tsTypescript

const htmlContent = `
  <html>
    <body>
      <article>
        <h1>Article Title</h1>
        <p>This is the main content of the article.</p>
        <a href="/related">Related Article</a>
      </article>
    </body>
  </html>
`;

const response = await fetch('https://www.crawlforge.dev/api/v1/tools/extract_text', {
  method: 'POST',
  headers: {
    'X-API-Key': process.env.CRAWLFORGE_API_KEY!,
    'Content-Type': 'application/json',
  },
  body: JSON.stringify({
    html: htmlContent,
    selector: 'article',
    clean: true,
    preserve_links: true
  }),
});

const data = await response.json();

if (data.success) {
  console.log('Extracted text:', data.data.text);
  console.log('Word count:', data.data.metadata.word_count);
  console.log('Character count:', data.data.metadata.character_count);
} else {
  console.error('Error:', data.error);
}

Python - Extraer con selector

extract_text.pyPython

import requests
import os

response = requests.post(
    'https://www.crawlforge.dev/api/v1/tools/extract_text',
    headers={
        'X-API-Key': os.environ['CRAWLFORGE_API_KEY'],
        'Content-Type': 'application/json',
    },
    json={
        'url': 'https://example.com/article',
        'selector': 'article, .main-content',
        'clean': True,
        'preserve_formatting': True,
        'max_length': 10000
    }
)

data = response.json()

if data['success']:
    text = data['data']['text']
    metadata = data['data']['metadata']

    print(f"Title: {metadata['title']}")
    print(f"Word count: {metadata['word_count']}")
    print(f"Character count: {metadata['character_count']}")
    print(f"\nExtracted text:\n{text[:500]}...")
else:
    print(f"Error: {data['error']}")

Ejemplo de respuesta

200 OK180ms

{
  "success": true,
  "data": {
    "text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)",
    "metadata": {
      "title": "Article Title - Example Site",
      "description": "Meta description of the article",
      "word_count": 248,
      "character_count": 1432,
      "selector_used": "article",
      "links_preserved": true,
      "formatting_preserved": false
    }
  },
  "credits_used": 1,
  "credits_remaining": 999,
  "processing_time": 180
}

Field Descriptions

data.textEl contenido de texto plano extraído

data.metadata.word_countNúmero total de palabras en el texto extraído

data.metadata.character_countNúmero total de caracteres

data.metadata.selector_usedEl selector CSS que se aplicó

credits_usedCredits descontados por esta solicitud (1 por cada extracción)

Manejo de errores

Entrada faltante (400 Bad Request)

No se proporcionó ni html ni url. Debe proporcionar al menos uno.

Selector no válido (400 Bad Request)

El selector CSS no es válido o no coincide con ningún elemento. Verifique la sintaxis de su selector.

Fallo al obtener la URL (500 Internal Server Error)

No se pudo obtener la URL. Compruebe que la URL sea accesible y devuelva HTML.

Costo en credits