CrawlForge
InicioCasos de usoIntegracionesPreciosDocumentaciónBlog
Haz scraping de Amazon, LinkedIn y 8 sitios más con una sola herramienta
Use Cases
Volver al blog
Casos de uso

Haz scraping de Amazon, LinkedIn y 8 sitios más con una sola herramienta

C
CrawlForge Team
Equipo de Ingeniería
27 de mayo de 2026
8 min de lectura

En esta página

Respuesta rápida

scrape_template es una herramienta de CrawlForge con esquemas prediseñados y mantenidos para diez sitios populares: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Una llamada devuelve JSON estructurado. No requiere selectores CSS. Cuesta 1 credit por scrape.

La mitad de las solicitudes de scraping que vemos en CrawlForge son los mismos diez sitios: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Nos cansamos de ver a la gente escribir los mismos selectores CSS una y otra vez -- y de ver cómo esos selectores se rompían la próxima vez que el sitio actualizaba su diseño. Así que hicimos el trabajo una vez, lo empaquetamos como scrape_template y ahora pagas 1 credit y obtienes JSON estructurado.

Tabla de contenidos

  • ¿Qué es scrape_template?
  • Los 10 sitios admitidos
  • Inicio rápido: haz scraping de un producto de Amazon
  • Perfiles de LinkedIn (con notas legales)
  • Repos de GitHub para datos de entrenamiento de IA
  • Las otras siete plantillas
  • scrape_template vs scrape_structured vs extract_with_llm
  • Limitaciones

¿Qué es scrape_template?

scrape_template es una única herramienta de CrawlForge con diez esquemas de sitios prediseñados. Eliges la plantilla, pasas una URL y recibes JSON estructurado que coincide con la forma natural de ese sitio. Sin selectores CSS. Sin parseo de HTML. Sin definición de esquemas.

El compromiso: solo obtienes los diez sitios que mantenemos. Si necesitas otra cosa, usa scrape_structured (CSS primero) o extract_with_llm (LLM primero). Para la larga cola de solicitudes del tipo "quiero datos de productos de Amazon", scrape_template es el camino más corto. ¿Necesitas un flujo de trabajo multipaso en lugar de un solo sitio? Mira cómo usar la galería de plantillas.

Cuesta 1 credit por scrape -- lo mismo que un fetch_url básico -- porque ya hemos hecho el trabajo de esquemas aguas arriba.

Los 10 sitios admitidos

PlantillaDevuelveMejor paraPatrón de URL de ejemplo
amazon-productTítulo, precio, valoración, número de reseñas, imágenes, ASIN, disponibilidadMonitorización de precios, investigación de productos/dp/<ASIN>
linkedin-profileNombre, titular, ubicación, descripción, empresa actualEnriquecimiento de leads/in/<handle>
github-repoStars, forks, lenguaje, temas, licencia, última actualizaciónAnálisis de repos, datos de entrenamiento de IA/<owner>/<repo>
youtube-videoTítulo, canal, visualizaciones, duración, fecha de publicación, descripciónInvestigación de contenido/watch?v=<id>
reddit-threadTítulo del post, puntuación, autor, subreddit, cuerpoSeñales de comunidad/r/<sub>/comments/<id>
hacker-news-front-pageHistorias de la portada: título, URL, puntuación, autor, comentariosSeguimiento de tendencias tecnológicasnews.ycombinator.com
stackoverflow-questionPregunta, respuesta aceptada, recuento de votos, etiquetasMinería de preguntas y respuestas de desarrolladores/questions/<id>
npm-packageMetadatos del paquete, descargas semanales, versión, mantenedoresAnálisis de dependencias/package/<name>
producthunt-launchProducto, eslogan, votos a favor, temas, sitio webMonitorización de lanzamientos/posts/<slug>
tweetTexto, autor, URL, imagenEscucha social/<user>/status/<id>

Inicio rápido: haz scraping de un producto de Amazon

Bash

Salida:

Json

Desde un cliente MCP como Claude Code:

"Usa scrape_template con la plantilla amazon para obtener el precio actual y la valoración del ASIN B0CHX1W1XY."

Claude elige la herramienta, formatea la llamada y devuelve los datos. Un credit.

Perfiles de LinkedIn (con notas legales)

Bash

Salida:

Json

Una nota sobre el scraping de LinkedIn. Los términos de servicio de LinkedIn restringen el acceso automatizado. El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero el uso comercial, el scraping que requiere inicio de sesión y la frecuencia agresiva pueden seguir desencadenando acciones legales y baneos por ToS. Usa scrape_template con la plantilla linkedin-profile solo para datos públicos, de baja frecuencia y no revendidos.

Repos de GitHub para datos de entrenamiento de IA

Bash

Salida:

Json

Esta plantilla se usa mucho para pipelines de datos de entrenamiento de IA -- extrayendo READMEs a escala a través de miles de repos. Combínala con batch_scrape para procesar un CSV de URLs de repos.

Las otras siete plantillas

YouTube -- título, canal, visualizaciones, transcripción completa cuando está disponible:

Bash

Reddit -- post + árbol de comentarios:

Bash

Hacker News -- la portada como una lista de historias:

Bash

Stack Overflow -- pregunta, respuesta aceptada, principales alternativas:

Bash

npm -- metadatos del paquete + descargas semanales:

Bash

Product Hunt -- producto, creadores, votos a favor:

Bash

Twitter/X -- un solo tweet con interacciones y respuestas:

Bash

Todas devuelven JSON. Todas cuestan 1 credit. Todas se mantienen de forma centralizada -- cuando LinkedIn o Amazon actualizan su diseño, nosotros actualizamos la plantilla.

scrape_template vs scrape_structured vs extract_with_llm

Un árbol de decisión:

Is your target one of the 10 supported sites? Yes -> use scrape_template (1 credit, maintained for you) No Do you know the CSS selectors and are they stable? Yes -> use scrape_structured (2 credits, you maintain selectors) No -> use extract_with_llm (3 credits, schema-based, layout-resilient)

Comparación rápida:

scrape_templatescrape_structuredextract_with_llm
Credits123
Cobertura10 sitios específicosCualquier sitio para el que puedas escribir selectoresCualquier sitio
MantenimientoLo mantenemos nosotrosLo mantienes túEl LLM se adapta
VelocidadRápida (esquemas cacheados)RápidaMás lenta (llamada al LLM)
Mejor paraSitios populares, alto volumenEstructura conocida específicaEstructura desconocida o cambiante

Limitaciones

  • Solo 10 sitios. Si necesitas Etsy, eBay, TikTok u otros, estás esperando a la hoja de ruta o tendrás que hacerlo tú con scrape_structured / extract_with_llm. Solicita plantillas en Discord.
  • Solo datos públicos. Ninguna plantilla requiere inicio de sesión. Los perfiles configurados como privados, los repos con acceso restringido y los tweets protegidos solo devolverán lo que sea visible públicamente.
  • Los cambios de diseño ocurren. Cuando un sitio lanza un rediseño, normalmente tenemos la plantilla parcheada en menos de 24 horas.
  • Se aplican límites de velocidad. El scraping de gran volumen de LinkedIn o Amazon debería combinar scrape_template con stealth_mode (5 credits) y respetar el robots.txt de cada sitio.

¿Listo para saltarte los selectores? Empieza gratis con 1.000 credits -- suficiente para 1.000 scrapes con plantilla. ¿Nuevo por aquí? Lee el post de lanzamiento de la v4.2.2 para tener contexto, o la guía de extracción de comercio electrónico para un flujo de trabajo real construido en torno a estas plantillas.

Etiquetas

scrape-templateAmazonLinkedInGitHubuse-casespre-built-scrapers

Sobre el autor

C

CrawlForge Team

Equipo de Ingeniería

Construimos el MCP server de web scraping más completo. Creamos herramientas que ayudan a los desarrolladores a extraer, analizar y transformar datos web para aplicaciones de IA.

En esta página

Frequently Asked Questions

¿Qué sitios admite scrape_template?+

Diez sitios en la v4.2.2: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Cada uno tiene un esquema prediseñado que devuelve los campos que normalmente querrías (precio/valoración del producto, nombre/cargo del perfil, stars/README del repo, transcripción del vídeo, etc.). En la v4.3 llegan más plantillas.

¿Es legal hacer scraping de LinkedIn?+

El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero los ToS de LinkedIn restringen el acceso automatizado -- y el scraping agresivo o la reventa comercial pueden seguir desencadenando acciones legales y baneos. Usa scrape_template con la plantilla linkedin-profile para casos de uso públicos, de baja frecuencia y no revendidos. Consulta a un abogado si haces scraping a escala o para productos comerciales.

¿Puedo añadir una plantilla personalizada?+

Hoy no directamente, pero aceptamos solicitudes de plantillas en Discord y las priorizamos según la demanda. Los sitios con un volumen de solicitudes significativo (Etsy, eBay, TikTok, Instagram, Google Maps) están en la hoja de ruta de la v4.3. Para trabajos personalizados puntuales, usa scrape_structured (selectores CSS) o extract_with_llm (basado en esquemas).

¿Cuál es la diferencia entre scrape_template y scrape_structured?+

scrape_template es para diez sitios específicos donde ya mantenemos el esquema -- solo eliges el nombre de la plantilla. scrape_structured es de uso general: proporcionas selectores CSS para cualquier sitio y CrawlForge los ejecuta. La plantilla es más rápida y barata (1 credit vs 2) cuando tu objetivo es uno de los diez sitios admitidos.

¿Cómo de actualizados están los esquemas de scrape_template?+

Monitorizamos cada sitio admitido en busca de cambios de diseño y normalmente lanzamos un parche de la plantilla en menos de 24 horas tras cualquier cambio que rompa algo. Las actualizaciones son transparentes para tu código -- sigues llamando al mismo nombre de plantilla y la forma de los datos se mantiene igual. Si detectas una regresión, repórtala en Discord o GitHub.

¿Qué pasa si un sitio admitido cambia su diseño?+

Las llamadas siguen devolviendo JSON con la forma documentada, aunque los selectores subyacentes hayan tenido que cambiar. Nosotros absorbemos la carga de mantenimiento para que tú no tengas que hacerlo. Si un cambio de diseño es lo bastante grave como para romper temporalmente un campo, marcamos ese campo como nullable en la respuesta hasta que el parche esté en producción (normalmente en menos de 24 horas).

Artículos relacionados

Web scraping por sector: playbook 2026
Use Cases

Web scraping por sector: playbook 2026

Estrategias de web scraping específicas por sector para bienes raíces, finanzas, e-commerce, salud y viajes. Objetivos de datos, herramientas de CrawlForge y reglas de cumplimiento.

C
CrawlForge Team
|
14 abr
|
12m
Extracción de datos de productos de e-commerce a escala
Use Cases

Extracción de datos de productos de e-commerce a escala

Extrae datos de productos de miles de páginas de e-commerce con CrawlForge. Construye catálogos, monitorea el inventario y alimenta motores de comparación a escala.

C
CrawlForge Team
|
18 abr
|
10m
Crea un agente de investigación con CrawlForge Deep Research
Use Cases

Crea un agente de investigación con CrawlForge Deep Research

Crea un agente de investigación con IA que recopila, verifica y sintetiza información de decenas de fuentes en minutos usando deep_research de CrawlForge.

C
CrawlForge Team
|
16 abr
|
10m

Pie de página

CrawlForge

Web scraping empresarial para agentes de IA. 23 herramientas MCP especializadas diseñadas para desarrolladores modernos que crean sistemas inteligentes.

Producto

  • Funciones
  • Precios
  • Casos de uso
  • Integraciones
  • Alternativas
  • Registro de cambios

Recursos

  • Primeros pasos
  • Referencia de la API
  • Plantillas
  • Guías
  • Blog
  • Glosario
  • Preguntas frecuentes
  • Mapa del sitio

Desarrolladores

  • Protocolo MCP
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

Empresa

  • Acerca de
  • Contacto
  • Privacidad
  • Términos

Mantente al día

Recibe las últimas novedades sobre nuevas herramientas y funciones.

Creado con Next.js y el protocolo MCP

© 2025-2026 CrawlForge. Todos los derechos reservados.