CrawlForge
Herramienta básica1 credit

extract_text

Extraiga texto limpio y legible de HTML con análisis inteligente. Elimina automáticamente scripts, estilos y contenido repetitivo mientras conserva el contenido de texto principal.

Casos de uso

Extracción de artículos para LLMs

Extraiga texto limpio de artículos para resumir, analizar o procesar con IA

Análisis de contenido

Obtenga texto plano para conteo de palabras, análisis de legibilidad o detección de sentimiento

Texto limpio para resúmenes

Elimine el ruido HTML antes de pasarlo a los modelos de resumen

Eliminación de contenido repetitivo

Elimine anuncios, navegación y otros elementos que no son contenido

Endpoint

POST/api/v1/tools/extract_text
Auth Required
2 req/s en el plan Free
1 credit

Parameters

Nota: Debe proporcionar html o url. Si proporciona ambos, html tiene prioridad.
NameTypeRequiredDefaultDescription
html
stringOptional-
Contenido HTML del que extraer texto (proporcione html o url)
Example: <html><body><h1>Hello World</h1></body></html>
url
stringOptional-
URL para obtener y extraer texto (proporcione html o url)
Example: https://example.com/article
selector
stringOptional-
Selector CSS para apuntar a elementos específicos (predeterminado: toda la página)
Example: article, .content, #main
clean
booleanOptionaltrue
Eliminar espacios en blanco adicionales y normalizar el formato
Example: true
preserve_links
booleanOptionalfalse
Incluir los enlaces en el texto extraído junto con sus URLs
Example: false
preserve_formatting
booleanOptionalfalse
Conservar el formato HTML básico (párrafos, saltos de línea)
Example: false
max_length
numberOptional-
Longitud máxima del texto extraído (se truncará con ...)
Example: 5000

Ejemplos de solicitud

cURL - Extraer desde URL

terminalBash

TypeScript - Extraer desde HTML

extractText.tsTypescript

Python - Extraer con selector

extract_text.pyPython

Ejemplo de respuesta

200 OK180ms
{
"success": true,
"data": {
"text": "Article Title\n\nThis is the main content of the article. It contains useful information that has been extracted from the HTML.\n\nLinks:\nRelated Article (/related)",
"metadata": {
"title": "Article Title - Example Site",
"description": "Meta description of the article",
"word_count": 248,
"character_count": 1432,
"selector_used": "article",
"links_preserved": true,
"formatting_preserved": false
}
},
"credits_used": 1,
"credits_remaining": 999,
"processing_time": 180
}
Field Descriptions
data.textEl contenido de texto plano extraído
data.metadata.word_countNúmero total de palabras en el texto extraído
data.metadata.character_countNúmero total de caracteres
data.metadata.selector_usedEl selector CSS que se aplicó
credits_usedCredits descontados por esta solicitud (1 por cada extracción)

Manejo de errores

Entrada faltante (400 Bad Request)

No se proporcionó ni html ni url. Debe proporcionar al menos uno.

Selector no válido (400 Bad Request)

El selector CSS no es válido o no coincide con ningún elemento. Verifique la sintaxis de su selector.

Fallo al obtener la URL (500 Internal Server Error)

No se pudo obtener la URL. Compruebe que la URL sea accesible y devuelva HTML.

Costo en credits

1 credit
1 credit por solicitud
Cada extracción de texto cuesta 1 credit, independientemente del tamaño del contenido o de la complejidad del selector.

Herramientas relacionadas

fetch_url
Obtenga contenido HTML antes de extraer texto (1 credit)
scrape_structured
Extraiga datos estructurados con selectores personalizados (2 credits)
content_analysis
Analice el texto extraído para detectar sentimiento y temas (4 credits)
¿Listo para extraer texto limpio? Regístrese gratis y obtenga 1,000 credits para empezar.