CrawlForge
Herramienta avanzada2 credits

extract_content

Extraiga el contenido principal del artículo con detección de legibilidad, eliminando elementos repetitivos como anuncios, barras de navegación y pies de página. Ideal para una extracción de contenido limpia optimizada para LLM y análisis de contenido.

Casos de uso

Contenido limpio para LLM

Extraiga el contenido del artículo sin anuncios ni navegación para alimentar modelos de IA

Extracción de artículos

Obtenga el texto principal del artículo de sitios de noticias, blogs y plataformas de contenido

Eliminación de contenido repetitivo

Elimine anuncios, ventanas emergentes, encabezados, pies de página y otros elementos ajenos al contenido

Agregación de contenido

Cree lectores de RSS, agregadores de noticias y plataformas de curaduría de contenido

Modo de lectura

Cree experiencias de lectura sin distracciones, como los modos de lectura de los navegadores

Investigación y análisis

Extraiga el texto del artículo para análisis de sentimiento, PLN y proyectos de investigación

Endpoint

POST/api/v1/tools/extract_content
Auth Required
2 req/s en el plan Free
2 credits

Parameters

NameTypeRequiredDefaultDescription
url
stringRequired-
La URL de la página web de la que extraer contenido
Example: https://example.com/article
options
objectOptional-
Opciones de extracción de contenido
Example: {"includeImages": true, "includeLinks": true}
options.includeImages
booleanOptionaltrue
Incluir imágenes en el contenido extraído
Example: true
options.includeLinks
booleanOptionalfalse
Conservar los enlaces en el contenido extraído
Example: false
options.minTextLength
numberOptional100
Longitud mínima de texto (en caracteres) para considerarse contenido principal
Example: 200

Ejemplos de solicitud

terminalBash

Ejemplo de respuesta

200 OK680ms
{
"success": true,
"data": {
"title": "The Future of Web Scraping: AI and Machine Learning",
"content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
"author": "John Doe",
"publishDate": "2024-01-15T10:30:00Z",
"images": [
{
"src": "https://example.com/images/hero.jpg",
"alt": "Web scraping visualization",
"width": 1200,
"height": 630
}
],
"readingTime": 8,
"wordCount": 1847,
"excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
},
"credits_used": 2,
"credits_remaining": 998,
"processing_time": 680
}
Field Descriptions
data.titleTítulo del artículo extraído
data.contentContenido principal del artículo en formato Markdown (limpio, sin anuncios ni barras de navegación)
data.authorAutor del artículo (si está disponible)
data.publishDateFecha de publicación del artículo (formato ISO 8601)
data.imagesArreglo de imágenes con src, texto alternativo y dimensiones
data.readingTimeTiempo de lectura estimado en minutos (basado en 200 ppm)
data.wordCountRecuento total de palabras del contenido extraído
credits_usedCredits descontados por esta solicitud (2 por extracción)

Manejo de errores

No se encontró contenido (422 Unprocessable Entity)

No se pudo extraer el contenido principal de la página. La página puede estar vacía o no tener contenido legible.

URL no válida (400 Bad Request)

El formato de la URL no es válido. Asegúrese de que incluya el protocolo (http:// o https://)

Página no accesible (404 Not Found)

La URL devolvió un error 404. Compruebe que la URL sea correcta y de acceso público.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits (se necesitan 2). Compre más credits o mejore su plan.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Consejo profesional: extract_content usa el algoritmo Readability de Mozilla, la misma tecnología detrás de la Vista de lectura de Firefox. Funciona mejor en páginas de tipo artículo con una estructura de contenido clara.

Costo en credits

2 credits
2 credits por solicitud
Cada solicitud exitosa de extract_content cuesta 2 credits, sin importar la longitud del contenido.

Plan Free: 1,000 credits de prueba por única vez = 500 extracciones

Plan Hobby: 5,000 credits/mes = 2,500 extracciones ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 extracciones ($99/mo)

Plan Business: 250,000 credits/mes = 125,000 extracciones ($399/mo)

Herramientas relacionadas

extract_text
Extraiga todo el texto del HTML (incluye contenido repetitivo) (1 credit)
summarize_content
Resuma el contenido extraído (4 credits)
¿Listo para probar extract_content? Regístrese gratis y obtenga 1,000 credits para empezar a crear.