¿Qué sitios admite scrape_template?

Diez sitios en la v4.2.2: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Cada uno tiene un esquema prediseñado que devuelve los campos que normalmente querrías (precio/valoración del producto, nombre/cargo del perfil, stars/README del repo, transcripción del vídeo, etc.). En la v4.3 llegan más plantillas.

¿Es legal hacer scraping de LinkedIn?

El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero los ToS de LinkedIn restringen el acceso automatizado -- y el scraping agresivo o la reventa comercial pueden seguir desencadenando acciones legales y baneos. Usa scrape_template con la plantilla linkedin-profile para casos de uso públicos, de baja frecuencia y no revendidos. Consulta a un abogado si haces scraping a escala o para productos comerciales.

¿Puedo añadir una plantilla personalizada?

Hoy no directamente, pero aceptamos solicitudes de plantillas en Discord y las priorizamos según la demanda. Los sitios con un volumen de solicitudes significativo (Etsy, eBay, TikTok, Instagram, Google Maps) están en la hoja de ruta de la v4.3. Para trabajos personalizados puntuales, usa scrape_structured (selectores CSS) o extract_with_llm (basado en esquemas).

¿Cuál es la diferencia entre scrape_template y scrape_structured?

scrape_template es para diez sitios específicos donde ya mantenemos el esquema -- solo eliges el nombre de la plantilla. scrape_structured es de uso general: proporcionas selectores CSS para cualquier sitio y CrawlForge los ejecuta. La plantilla es más rápida y barata (1 credit vs 2) cuando tu objetivo es uno de los diez sitios admitidos.

¿Cómo de actualizados están los esquemas de scrape_template?

Monitorizamos cada sitio admitido en busca de cambios de diseño y normalmente lanzamos un parche de la plantilla en menos de 24 horas tras cualquier cambio que rompa algo. Las actualizaciones son transparentes para tu código -- sigues llamando al mismo nombre de plantilla y la forma de los datos se mantiene igual. Si detectas una regresión, repórtala en Discord o GitHub.

¿Qué pasa si un sitio admitido cambia su diseño?

Las llamadas siguen devolviendo JSON con la forma documentada, aunque los selectores subyacentes hayan tenido que cambiar. Nosotros absorbemos la carga de mantenimiento para que tú no tengas que hacerlo. Si un cambio de diseño es lo bastante grave como para romper temporalmente un campo, marcamos ese campo como nullable en la respuesta hasta que el parche esté en producción (normalmente en menos de 24 horas).

Haz scraping de Amazon, LinkedIn y 8 sitios más con una sola herramienta

La mitad de las solicitudes de scraping que vemos en CrawlForge son los mismos diez sitios: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Nos cansamos de ver a la gente escribir los mismos selectores CSS una y otra vez -- y de ver cómo esos selectores se rompían la próxima vez que el sitio actualizaba su diseño. Así que hicimos el trabajo una vez, lo empaquetamos como scrape_template y ahora pagas 1 credit y obtienes JSON estructurado.

Tabla de contenidos

¿Qué es scrape_template?
Los 10 sitios admitidos
Inicio rápido: haz scraping de un producto de Amazon
Perfiles de LinkedIn (con notas legales)
Repos de GitHub para datos de entrenamiento de IA
Las otras siete plantillas
scrape_template vs scrape_structured vs extract_with_llm
Limitaciones

¿Qué es scrape_template?

scrape_template es una única herramienta de CrawlForge con diez esquemas de sitios prediseñados. Eliges la plantilla, pasas una URL y recibes JSON estructurado que coincide con la forma natural de ese sitio. Sin selectores CSS. Sin parseo de HTML. Sin definición de esquemas.

El compromiso: solo obtienes los diez sitios que mantenemos. Si necesitas otra cosa, usa scrape_structured (CSS primero) o extract_with_llm (LLM primero). Para la larga cola de solicitudes del tipo "quiero datos de productos de Amazon", scrape_template es el camino más corto. ¿Necesitas un flujo de trabajo multipaso en lugar de un solo sitio? Mira cómo usar la galería de plantillas.

Cuesta 1 credit por scrape -- lo mismo que un fetch_url básico -- porque ya hemos hecho el trabajo de esquemas aguas arriba.

Los 10 sitios admitidos

Plantilla	Devuelve	Mejor para	Patrón de URL de ejemplo
`amazon-product`	Título, precio, valoración, número de reseñas, imágenes, ASIN, disponibilidad	Monitorización de precios, investigación de productos	`/dp/<ASIN>`
`linkedin-profile`	Nombre, titular, ubicación, descripción, empresa actual	Enriquecimiento de leads	`/in/<handle>`
`github-repo`	Stars, forks, lenguaje, temas, licencia, última actualización	Análisis de repos, datos de entrenamiento de IA	`/<owner>/<repo>`
`youtube-video`	Título, canal, visualizaciones, duración, fecha de publicación, descripción	Investigación de contenido	`/watch?v=<id>`
`reddit-thread`	Título del post, puntuación, autor, subreddit, cuerpo	Señales de comunidad	`/r/<sub>/comments/<id>`
`hacker-news-front-page`	Historias de la portada: título, URL, puntuación, autor, comentarios	Seguimiento de tendencias tecnológicas	`news.ycombinator.com`
`stackoverflow-question`	Pregunta, respuesta aceptada, recuento de votos, etiquetas	Minería de preguntas y respuestas de desarrolladores	`/questions/<id>`
`npm-package`	Metadatos del paquete, descargas semanales, versión, mantenedores	Análisis de dependencias	`/package/<name>`
`producthunt-launch`	Producto, eslogan, votos a favor, temas, sitio web	Monitorización de lanzamientos	`/posts/<slug>`
`tweet`	Texto, autor, URL, imagen	Escucha social	`/<user>/status/<id>`

Inicio rápido: haz scraping de un producto de Amazon

Bash

crawlforge template amazon-product "https://www.amazon.com/dp/B0CHX1W1XY"

Salida:

Json

{
  "asin": "B0CHX1W1XY",
  "title": "Logitech MX Master 3S Wireless Performance Mouse",
  "price": { "amount": 99.99, "currency": "USD" },
  "rating": 4.7,
  "review_count": 12483,
  "in_stock": true,
  "images": ["https://m.media-amazon.com/...", "..."],
  "credits_used": 1
}

Desde un cliente MCP como Claude Code:

"Usa scrape_template con la plantilla amazon para obtener el precio actual y la valoración del ASIN B0CHX1W1XY."

Claude elige la herramienta, formatea la llamada y devuelve los datos. Un credit.

Perfiles de LinkedIn (con notas legales)

Bash

crawlforge template linkedin-profile "https://www.linkedin.com/in/satyanadella"

Salida:

Json

{
  "name": "Satya Nadella",
  "headline": "Chairman and CEO at Microsoft",
  "location": "Redmond, Washington",
  "current_role": { "title": "CEO", "company": "Microsoft", "since": "2014-02" },
  "experience_count": 6,
  "skills_top": ["Leadership", "Strategy", "Cloud Computing"],
  "credits_used": 1
}

Una nota sobre el scraping de LinkedIn. Los términos de servicio de LinkedIn restringen el acceso automatizado. El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero el uso comercial, el scraping que requiere inicio de sesión y la frecuencia agresiva pueden seguir desencadenando acciones legales y baneos por ToS. Usa scrape_template con la plantilla linkedin-profile solo para datos públicos, de baja frecuencia y no revendidos.

Repos de GitHub para datos de entrenamiento de IA

Bash

crawlforge template github-repo "https://github.com/anthropics/anthropic-sdk-python"

Salida:

Json

{
  "owner": "anthropics",
  "name": "anthropic-sdk-python",
  "stars": 1842,
  "forks": 287,
  "primary_language": "Python",
  "languages": { "Python": 98.4, "Makefile": 1.6 },
  "license": "MIT",
  "topics": ["claude", "anthropic", "sdk"],
  "readme_markdown": "# Anthropic Python SDK...",
  "last_commit_at": "2026-05-19T14:22:11Z",
  "credits_used": 1
}

Esta plantilla se usa mucho para pipelines de datos de entrenamiento de IA -- extrayendo READMEs a escala a través de miles de repos. Combínala con batch_scrape para procesar un CSV de URLs de repos.

Las otras siete plantillas

YouTube -- título, canal, visualizaciones, transcripción completa cuando está disponible:

Bash

crawlforge template youtube-video "https://www.youtube.com/watch?v=dQw4w9WgXcQ"

Reddit -- post + árbol de comentarios:

Bash

crawlforge template reddit-thread "https://www.reddit.com/r/programming/comments/<id>"

Hacker News -- la portada como una lista de historias:

Bash

crawlforge template hacker-news-front-page "https://news.ycombinator.com"
# returns up to 30 front-page stories; slice the top 10 with jq:
crawlforge template hacker-news-front-page "https://news.ycombinator.com" --json | jq '.stories[:10]'

Stack Overflow -- pregunta, respuesta aceptada, principales alternativas:

Bash

crawlforge template stackoverflow-question "https://stackoverflow.com/questions/12345678"

npm -- metadatos del paquete + descargas semanales:

Bash

crawlforge template npm-package "https://www.npmjs.com/package/next"

Product Hunt -- producto, creadores, votos a favor:

Bash

crawlforge template producthunt-launch "https://www.producthunt.com/posts/crawlforge"

Twitter/X -- un solo tweet con interacciones y respuestas:

Bash

crawlforge template tweet "https://x.com/elonmusk/status/<id>"

Todas devuelven JSON. Todas cuestan 1 credit. Todas se mantienen de forma centralizada -- cuando LinkedIn o Amazon actualizan su diseño, nosotros actualizamos la plantilla.

scrape_template vs scrape_structured vs extract_with_llm

Un árbol de decisión:

Is your target one of the 10 supported sites?
  Yes -> use scrape_template (1 credit, maintained for you)
  No
    Do you know the CSS selectors and are they stable?
      Yes -> use scrape_structured (2 credits, you maintain selectors)
      No  -> use extract_with_llm (3 credits, schema-based, layout-resilient)

Comparación rápida:

	scrape_template	scrape_structured	extract_with_llm
Credits	1	2	3
Cobertura	10 sitios específicos	Cualquier sitio para el que puedas escribir selectores	Cualquier sitio
Mantenimiento	Lo mantenemos nosotros	Lo mantienes tú	El LLM se adapta
Velocidad	Rápida (esquemas cacheados)	Rápida	Más lenta (llamada al LLM)
Mejor para	Sitios populares, alto volumen	Estructura conocida específica	Estructura desconocida o cambiante

Limitaciones

Solo 10 sitios. Si necesitas Etsy, eBay, TikTok u otros, estás esperando a la hoja de ruta o tendrás que hacerlo tú con scrape_structured / extract_with_llm. Solicita plantillas en Discord.
Solo datos públicos. Ninguna plantilla requiere inicio de sesión. Los perfiles configurados como privados, los repos con acceso restringido y los tweets protegidos solo devolverán lo que sea visible públicamente.
Los cambios de diseño ocurren. Cuando un sitio lanza un rediseño, normalmente tenemos la plantilla parcheada en menos de 24 horas.
Se aplican límites de velocidad. El scraping de gran volumen de LinkedIn o Amazon debería combinar scrape_template con stealth_mode (5 credits) y respetar el robots.txt de cada sitio.

¿Listo para saltarte los selectores? Empieza gratis con 1.000 credits -- suficiente para 1.000 scrapes con plantilla. ¿Nuevo por aquí? Lee el post de lanzamiento de la v4.2.2 para tener contexto, o la guía de extracción de comercio electrónico para un flujo de trabajo real construido en torno a estas plantillas.

Tabla de contenidos

¿Qué es scrape_template?
Los 10 sitios admitidos
Inicio rápido: haz scraping de un producto de Amazon
Perfiles de LinkedIn (con notas legales)
Repos de GitHub para datos de entrenamiento de IA
Las otras siete plantillas
scrape_template vs scrape_structured vs extract_with_llm
Limitaciones

¿Qué es scrape_template?

Cuesta 1 credit por scrape -- lo mismo que un fetch_url básico -- porque ya hemos hecho el trabajo de esquemas aguas arriba.

Los 10 sitios admitidos

Plantilla	Devuelve	Mejor para	Patrón de URL de ejemplo
`amazon-product`	Título, precio, valoración, número de reseñas, imágenes, ASIN, disponibilidad	Monitorización de precios, investigación de productos	`/dp/<ASIN>`
`linkedin-profile`	Nombre, titular, ubicación, descripción, empresa actual	Enriquecimiento de leads	`/in/<handle>`
`github-repo`	Stars, forks, lenguaje, temas, licencia, última actualización	Análisis de repos, datos de entrenamiento de IA	`/<owner>/<repo>`
`youtube-video`	Título, canal, visualizaciones, duración, fecha de publicación, descripción	Investigación de contenido	`/watch?v=<id>`
`reddit-thread`	Título del post, puntuación, autor, subreddit, cuerpo	Señales de comunidad	`/r/<sub>/comments/<id>`
`hacker-news-front-page`	Historias de la portada: título, URL, puntuación, autor, comentarios	Seguimiento de tendencias tecnológicas	`news.ycombinator.com`
`stackoverflow-question`	Pregunta, respuesta aceptada, recuento de votos, etiquetas	Minería de preguntas y respuestas de desarrolladores	`/questions/<id>`
`npm-package`	Metadatos del paquete, descargas semanales, versión, mantenedores	Análisis de dependencias	`/package/<name>`
`producthunt-launch`	Producto, eslogan, votos a favor, temas, sitio web	Monitorización de lanzamientos	`/posts/<slug>`
`tweet`	Texto, autor, URL, imagen	Escucha social	`/<user>/status/<id>`

Inicio rápido: haz scraping de un producto de Amazon

Bash

crawlforge template amazon-product "https://www.amazon.com/dp/B0CHX1W1XY"

Salida:

Json

{
  "asin": "B0CHX1W1XY",
  "title": "Logitech MX Master 3S Wireless Performance Mouse",
  "price": { "amount": 99.99, "currency": "USD" },
  "rating": 4.7,
  "review_count": 12483,
  "in_stock": true,
  "images": ["https://m.media-amazon.com/...", "..."],
  "credits_used": 1
}

Desde un cliente MCP como Claude Code:

"Usa scrape_template con la plantilla amazon para obtener el precio actual y la valoración del ASIN B0CHX1W1XY."

Claude elige la herramienta, formatea la llamada y devuelve los datos. Un credit.

Perfiles de LinkedIn (con notas legales)

Bash

crawlforge template linkedin-profile "https://www.linkedin.com/in/satyanadella"

Salida:

Json

{
  "name": "Satya Nadella",
  "headline": "Chairman and CEO at Microsoft",
  "location": "Redmond, Washington",
  "current_role": { "title": "CEO", "company": "Microsoft", "since": "2014-02" },
  "experience_count": 6,
  "skills_top": ["Leadership", "Strategy", "Cloud Computing"],
  "credits_used": 1
}

Una nota sobre el scraping de LinkedIn. Los términos de servicio de LinkedIn restringen el acceso automatizado. El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero el uso comercial, el scraping que requiere inicio de sesión y la frecuencia agresiva pueden seguir desencadenando acciones legales y baneos por ToS. Usa scrape_template con la plantilla linkedin-profile solo para datos públicos, de baja frecuencia y no revendidos.

Repos de GitHub para datos de entrenamiento de IA

Bash

crawlforge template github-repo "https://github.com/anthropics/anthropic-sdk-python"

Salida:

Json

{
  "owner": "anthropics",
  "name": "anthropic-sdk-python",
  "stars": 1842,
  "forks": 287,
  "primary_language": "Python",
  "languages": { "Python": 98.4, "Makefile": 1.6 },
  "license": "MIT",
  "topics": ["claude", "anthropic", "sdk"],
  "readme_markdown": "# Anthropic Python SDK...",
  "last_commit_at": "2026-05-19T14:22:11Z",
  "credits_used": 1
}

Las otras siete plantillas

YouTube -- título, canal, visualizaciones, transcripción completa cuando está disponible:

Bash

crawlforge template youtube-video "https://www.youtube.com/watch?v=dQw4w9WgXcQ"

Reddit -- post + árbol de comentarios:

Bash

crawlforge template reddit-thread "https://www.reddit.com/r/programming/comments/<id>"

Hacker News -- la portada como una lista de historias:

Bash

crawlforge template hacker-news-front-page "https://news.ycombinator.com"
# returns up to 30 front-page stories; slice the top 10 with jq:
crawlforge template hacker-news-front-page "https://news.ycombinator.com" --json | jq '.stories[:10]'

Stack Overflow -- pregunta, respuesta aceptada, principales alternativas:

Bash

crawlforge template stackoverflow-question "https://stackoverflow.com/questions/12345678"

npm -- metadatos del paquete + descargas semanales:

Bash

crawlforge template npm-package "https://www.npmjs.com/package/next"

Product Hunt -- producto, creadores, votos a favor:

Bash

crawlforge template producthunt-launch "https://www.producthunt.com/posts/crawlforge"

Twitter/X -- un solo tweet con interacciones y respuestas:

Bash

crawlforge template tweet "https://x.com/elonmusk/status/<id>"

Todas devuelven JSON. Todas cuestan 1 credit. Todas se mantienen de forma centralizada -- cuando LinkedIn o Amazon actualizan su diseño, nosotros actualizamos la plantilla.

scrape_template vs scrape_structured vs extract_with_llm

Un árbol de decisión:

Is your target one of the 10 supported sites?
  Yes -> use scrape_template (1 credit, maintained for you)
  No
    Do you know the CSS selectors and are they stable?
      Yes -> use scrape_structured (2 credits, you maintain selectors)
      No  -> use extract_with_llm (3 credits, schema-based, layout-resilient)

Comparación rápida:

	scrape_template	scrape_structured	extract_with_llm
Credits	1	2	3
Cobertura	10 sitios específicos	Cualquier sitio para el que puedas escribir selectores	Cualquier sitio
Mantenimiento	Lo mantenemos nosotros	Lo mantienes tú	El LLM se adapta
Velocidad	Rápida (esquemas cacheados)	Rápida	Más lenta (llamada al LLM)
Mejor para	Sitios populares, alto volumen	Estructura conocida específica	Estructura desconocida o cambiante

Limitaciones

Solo 10 sitios. Si necesitas Etsy, eBay, TikTok u otros, estás esperando a la hoja de ruta o tendrás que hacerlo tú con scrape_structured / extract_with_llm. Solicita plantillas en Discord.
Solo datos públicos. Ninguna plantilla requiere inicio de sesión. Los perfiles configurados como privados, los repos con acceso restringido y los tweets protegidos solo devolverán lo que sea visible públicamente.
Los cambios de diseño ocurren. Cuando un sitio lanza un rediseño, normalmente tenemos la plantilla parcheada en menos de 24 horas.
Se aplican límites de velocidad. El scraping de gran volumen de LinkedIn o Amazon debería combinar scrape_template con stealth_mode (5 credits) y respetar el robots.txt de cada sitio.

En esta página

Tabla de contenidos

¿Qué es scrape_template?

Los 10 sitios admitidos

Inicio rápido: haz scraping de un producto de Amazon

Perfiles de LinkedIn (con notas legales)

Repos de GitHub para datos de entrenamiento de IA

Las otras siete plantillas

scrape_template vs scrape_structured vs extract_with_llm

Limitaciones

Pruébalo tú mismo — sin necesidad de registrarte

Etiquetas

Sobre el autor

CrawlForge Team

Mantente al día con los últimos artículos

Frequently Asked Questions

Artículos relacionados

Web scraping por sector: playbook 2026

Extracción de datos de productos de e-commerce a escala

Crea un agente de investigación con CrawlForge Deep Research

En esta página

Tabla de contenidos

¿Qué es scrape_template?

Los 10 sitios admitidos

Inicio rápido: haz scraping de un producto de Amazon

Perfiles de LinkedIn (con notas legales)

Repos de GitHub para datos de entrenamiento de IA

Las otras siete plantillas

scrape_template vs scrape_structured vs extract_with_llm

Limitaciones

Pruébalo tú mismo — sin necesidad de registrarte

Etiquetas

Sobre el autor

CrawlForge Team

Mantente al día con los últimos artículos

Frequently Asked Questions

Artículos relacionados

Web scraping por sector: playbook 2026

Extracción de datos de productos de e-commerce a escala

Crea un agente de investigación con CrawlForge Deep Research