extract_content
Extraiga el contenido principal del artículo con detección de legibilidad, eliminando elementos repetitivos como anuncios, barras de navegación y pies de página. Ideal para una extracción de contenido limpia optimizada para LLM y análisis de contenido.
Casos de uso
Contenido limpio para LLM
Extraiga el contenido del artículo sin anuncios ni navegación para alimentar modelos de IA
Extracción de artículos
Obtenga el texto principal del artículo de sitios de noticias, blogs y plataformas de contenido
Eliminación de contenido repetitivo
Elimine anuncios, ventanas emergentes, encabezados, pies de página y otros elementos ajenos al contenido
Agregación de contenido
Cree lectores de RSS, agregadores de noticias y plataformas de curaduría de contenido
Modo de lectura
Cree experiencias de lectura sin distracciones, como los modos de lectura de los navegadores
Investigación y análisis
Extraiga el texto del artículo para análisis de sentimiento, PLN y proyectos de investigación
Endpoint
/api/v1/tools/extract_contentParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
url | string | Required | - | La URL de la página web de la que extraer contenido Example: https://example.com/article |
options | object | Optional | - | Opciones de extracción de contenido Example: {"includeImages": true, "includeLinks": true} |
options.includeImages | boolean | Optional | true | Incluir imágenes en el contenido extraído Example: true |
options.includeLinks | boolean | Optional | false | Conservar los enlaces en el contenido extraído Example: false |
options.minTextLength | number | Optional | 100 | Longitud mínima de texto (en caracteres) para considerarse contenido principal Example: 200 |
Ejemplos de solicitud
Ejemplo de respuesta
{ "success": true, "data": { "title": "The Future of Web Scraping: AI and Machine Learning", "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...", "author": "John Doe", "publishDate": "2024-01-15T10:30:00Z", "images": [ { "src": "https://example.com/images/hero.jpg", "alt": "Web scraping visualization", "width": 1200, "height": 630 } ], "readingTime": 8, "wordCount": 1847, "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..." }, "credits_used": 2, "credits_remaining": 998, "processing_time": 680}data.titleTítulo del artículo extraídodata.contentContenido principal del artículo en formato Markdown (limpio, sin anuncios ni barras de navegación)data.authorAutor del artículo (si está disponible)data.publishDateFecha de publicación del artículo (formato ISO 8601)data.imagesArreglo de imágenes con src, texto alternativo y dimensionesdata.readingTimeTiempo de lectura estimado en minutos (basado en 200 ppm)data.wordCountRecuento total de palabras del contenido extraídocredits_usedCredits descontados por esta solicitud (2 por extracción)Manejo de errores
No se encontró contenido (422 Unprocessable Entity)
No se pudo extraer el contenido principal de la página. La página puede estar vacía o no tener contenido legible.
URL no válida (400 Bad Request)
El formato de la URL no es válido. Asegúrese de que incluya el protocolo (http:// o https://)
Página no accesible (404 Not Found)
La URL devolvió un error 404. Compruebe que la URL sea correcta y de acceso público.
Credits insuficientes (402 Payment Required)
Su cuenta no tiene suficientes credits (se necesitan 2). Compre más credits o mejore su plan.
Límite de tasa superado (429 Too Many Requests)
Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.
Costo en credits
Plan Free: 1,000 credits de prueba por única vez = 500 extracciones
Plan Hobby: 5,000 credits/mes = 2,500 extracciones ($19/mo)
Plan Professional: 50,000 credits/mes = 25,000 extracciones ($99/mo)
Plan Business: 250,000 credits/mes = 125,000 extracciones ($399/mo)