Herramienta avanzada2 credits

extract_content

Extraiga el contenido principal del artículo con detección de legibilidad, eliminando elementos repetitivos como anuncios, barras de navegación y pies de página. Ideal para una extracción de contenido limpia optimizada para LLM y análisis de contenido.

Casos de uso

Contenido limpio para LLM

Extraiga el contenido del artículo sin anuncios ni navegación para alimentar modelos de IA

Extracción de artículos

Obtenga el texto principal del artículo de sitios de noticias, blogs y plataformas de contenido

Eliminación de contenido repetitivo

Elimine anuncios, ventanas emergentes, encabezados, pies de página y otros elementos ajenos al contenido

Agregación de contenido

Cree lectores de RSS, agregadores de noticias y plataformas de curaduría de contenido

Modo de lectura

Cree experiencias de lectura sin distracciones, como los modos de lectura de los navegadores

Investigación y análisis

Extraiga el texto del artículo para análisis de sentimiento, PLN y proyectos de investigación

Endpoint

POST/api/v1/tools/extract_content

Auth Required

2 req/s en el plan Free

2 credits

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	La URL de la página web de la que extraer contenido Example: https://example.com/article
options	object	Optional	-	Opciones de extracción de contenido Example: {"includeImages": true, "includeLinks": true}
options.includeImages	boolean	Optional	true	Incluir imágenes en el contenido extraído Example: true
options.includeLinks	boolean	Optional	false	Conservar los enlaces en el contenido extraído Example: false
options.minTextLength	number	Optional	100	Longitud mínima de texto (en caracteres) para considerarse contenido principal Example: 200

Ejemplos de solicitud

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_content \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "options": {
      "includeImages": true,
      "includeLinks": false,
      "minTextLength": 200
    }
  }'

Ejemplo de respuesta

200 OK680ms

{
  "success": true,
  "data": {
    "title": "The Future of Web Scraping: AI and Machine Learning",
    "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
    "author": "John Doe",
    "publishDate": "2024-01-15T10:30:00Z",
    "images": [
      {
        "src": "https://example.com/images/hero.jpg",
        "alt": "Web scraping visualization",
        "width": 1200,
        "height": 630
      }
    ],
    "readingTime": 8,
    "wordCount": 1847,
    "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
  },
  "credits_used": 2,
  "credits_remaining": 998,
  "processing_time": 680
}

Field Descriptions

data.titleTítulo del artículo extraído

data.contentContenido principal del artículo en formato Markdown (limpio, sin anuncios ni barras de navegación)

data.authorAutor del artículo (si está disponible)

data.publishDateFecha de publicación del artículo (formato ISO 8601)

data.imagesArreglo de imágenes con src, texto alternativo y dimensiones

data.readingTimeTiempo de lectura estimado en minutos (basado en 200 ppm)

data.wordCountRecuento total de palabras del contenido extraído

credits_usedCredits descontados por esta solicitud (2 por extracción)

Manejo de errores

No se encontró contenido (422 Unprocessable Entity)

No se pudo extraer el contenido principal de la página. La página puede estar vacía o no tener contenido legible.

URL no válida (400 Bad Request)

El formato de la URL no es válido. Asegúrese de que incluya el protocolo (http:// o https://)

Página no accesible (404 Not Found)

La URL devolvió un error 404. Compruebe que la URL sea correcta y de acceso público.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits (se necesitan 2). Compre más credits o mejore su plan.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Consejo profesional: extract_content usa el algoritmo Readability de Mozilla, la misma tecnología detrás de la Vista de lectura de Firefox. Funciona mejor en páginas de tipo artículo con una estructura de contenido clara.

Costo en credits

2 credits

2 credits por solicitud

Cada solicitud exitosa de extract_content cuesta 2 credits, sin importar la longitud del contenido.

Plan Free: 1,000 credits de prueba por única vez = 500 extracciones

Plan Hobby: 5,000 credits/mes = 2,500 extracciones ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 extracciones ($99/mo)

Plan Business: 250,000 credits/mes = 125,000 extracciones ($399/mo)

Herramientas relacionadas

extract_text

Extraiga todo el texto del HTML (incluye contenido repetitivo) (1 credit)

summarize_content

Resuma el contenido extraído (4 credits)

¿Listo para probar extract_content? Regístrese gratis y obtenga 1,000 credits para empezar a crear.

Casos de uso

Contenido limpio para LLM

Extraiga el contenido del artículo sin anuncios ni navegación para alimentar modelos de IA

Extracción de artículos

Obtenga el texto principal del artículo de sitios de noticias, blogs y plataformas de contenido

Eliminación de contenido repetitivo

Elimine anuncios, ventanas emergentes, encabezados, pies de página y otros elementos ajenos al contenido

Agregación de contenido

Cree lectores de RSS, agregadores de noticias y plataformas de curaduría de contenido

Modo de lectura

Cree experiencias de lectura sin distracciones, como los modos de lectura de los navegadores

Investigación y análisis

Extraiga el texto del artículo para análisis de sentimiento, PLN y proyectos de investigación

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	La URL de la página web de la que extraer contenido Example: https://example.com/article
options	object	Optional	-	Opciones de extracción de contenido Example: {"includeImages": true, "includeLinks": true}
options.includeImages	boolean	Optional	true	Incluir imágenes en el contenido extraído Example: true
options.includeLinks	boolean	Optional	false	Conservar los enlaces en el contenido extraído Example: false
options.minTextLength	number	Optional	100	Longitud mínima de texto (en caracteres) para considerarse contenido principal Example: 200

Ejemplos de solicitud

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_content \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/article",
    "options": {
      "includeImages": true,
      "includeLinks": false,
      "minTextLength": 200
    }
  }'

Ejemplo de respuesta

200 OK680ms

{
  "success": true,
  "data": {
    "title": "The Future of Web Scraping: AI and Machine Learning",
    "content": "# The Future of Web Scraping\n\nWeb scraping has evolved significantly over the past decade...\n\n## Machine Learning Integration\n\nModern scraping tools now leverage AI to adapt to website changes...",
    "author": "John Doe",
    "publishDate": "2024-01-15T10:30:00Z",
    "images": [
      {
        "src": "https://example.com/images/hero.jpg",
        "alt": "Web scraping visualization",
        "width": 1200,
        "height": 630
      }
    ],
    "readingTime": 8,
    "wordCount": 1847,
    "excerpt": "Web scraping has evolved significantly over the past decade with the integration of AI and machine learning..."
  },
  "credits_used": 2,
  "credits_remaining": 998,
  "processing_time": 680
}

Field Descriptions

data.titleTítulo del artículo extraído

data.contentContenido principal del artículo en formato Markdown (limpio, sin anuncios ni barras de navegación)

data.authorAutor del artículo (si está disponible)

data.publishDateFecha de publicación del artículo (formato ISO 8601)

data.imagesArreglo de imágenes con src, texto alternativo y dimensiones

data.readingTimeTiempo de lectura estimado en minutos (basado en 200 ppm)

data.wordCountRecuento total de palabras del contenido extraído

credits_usedCredits descontados por esta solicitud (2 por extracción)

Manejo de errores

No se encontró contenido (422 Unprocessable Entity)

No se pudo extraer el contenido principal de la página. La página puede estar vacía o no tener contenido legible.

URL no válida (400 Bad Request)

El formato de la URL no es válido. Asegúrese de que incluya el protocolo (http:// o https://)

Página no accesible (404 Not Found)

La URL devolvió un error 404. Compruebe que la URL sea correcta y de acceso público.

Credits insuficientes (402 Payment Required)

Su cuenta no tiene suficientes credits (se necesitan 2). Compre más credits o mejore su plan.

Límite de tasa superado (429 Too Many Requests)

Ha superado el límite de tasa de su plan. Espere un momento o mejore su plan para obtener límites más altos.

Costo en credits

2 credits

2 credits por solicitud

Cada solicitud exitosa de extract_content cuesta 2 credits, sin importar la longitud del contenido.

Plan Free: 1,000 credits de prueba por única vez = 500 extracciones

Plan Hobby: 5,000 credits/mes = 2,500 extracciones ($19/mo)

Plan Professional: 50,000 credits/mes = 25,000 extracciones ($99/mo)

Plan Business: 250,000 credits/mes = 125,000 extracciones ($399/mo)