En esta página
La mitad de las solicitudes de scraping que vemos en CrawlForge son los mismos diez sitios: Amazon, LinkedIn, GitHub, YouTube, Reddit, Hacker News, Stack Overflow, npm, Product Hunt y Twitter/X. Nos cansamos de ver a la gente escribir los mismos selectores CSS una y otra vez -- y de ver cómo esos selectores se rompían la próxima vez que el sitio actualizaba su diseño. Así que hicimos el trabajo una vez, lo empaquetamos como scrape_template y ahora pagas 1 credit y obtienes JSON estructurado.
Tabla de contenidos
- ¿Qué es scrape_template?
- Los 10 sitios admitidos
- Inicio rápido: haz scraping de un producto de Amazon
- Perfiles de LinkedIn (con notas legales)
- Repos de GitHub para datos de entrenamiento de IA
- Las otras siete plantillas
- scrape_template vs scrape_structured vs extract_with_llm
- Limitaciones
¿Qué es scrape_template?
scrape_template es una única herramienta de CrawlForge con diez esquemas de sitios prediseñados. Eliges la plantilla, pasas una URL y recibes JSON estructurado que coincide con la forma natural de ese sitio. Sin selectores CSS. Sin parseo de HTML. Sin definición de esquemas.
El compromiso: solo obtienes los diez sitios que mantenemos. Si necesitas otra cosa, usa scrape_structured (CSS primero) o extract_with_llm (LLM primero). Para la larga cola de solicitudes del tipo "quiero datos de productos de Amazon", scrape_template es el camino más corto. ¿Necesitas un flujo de trabajo multipaso en lugar de un solo sitio? Mira cómo usar la galería de plantillas.
Cuesta 1 credit por scrape -- lo mismo que un fetch_url básico -- porque ya hemos hecho el trabajo de esquemas aguas arriba.
Los 10 sitios admitidos
| Plantilla | Devuelve | Mejor para | Patrón de URL de ejemplo |
|---|---|---|---|
amazon-product | Título, precio, valoración, número de reseñas, imágenes, ASIN, disponibilidad | Monitorización de precios, investigación de productos | /dp/<ASIN> |
linkedin-profile | Nombre, titular, ubicación, descripción, empresa actual | Enriquecimiento de leads | /in/<handle> |
github-repo | Stars, forks, lenguaje, temas, licencia, última actualización | Análisis de repos, datos de entrenamiento de IA | /<owner>/<repo> |
youtube-video | Título, canal, visualizaciones, duración, fecha de publicación, descripción | Investigación de contenido | /watch?v=<id> |
reddit-thread | Título del post, puntuación, autor, subreddit, cuerpo | Señales de comunidad | /r/<sub>/comments/<id> |
hacker-news-front-page | Historias de la portada: título, URL, puntuación, autor, comentarios | Seguimiento de tendencias tecnológicas | news.ycombinator.com |
stackoverflow-question | Pregunta, respuesta aceptada, recuento de votos, etiquetas | Minería de preguntas y respuestas de desarrolladores | /questions/<id> |
npm-package | Metadatos del paquete, descargas semanales, versión, mantenedores | Análisis de dependencias | /package/<name> |
producthunt-launch | Producto, eslogan, votos a favor, temas, sitio web | Monitorización de lanzamientos | /posts/<slug> |
tweet | Texto, autor, URL, imagen | Escucha social | /<user>/status/<id> |
Inicio rápido: haz scraping de un producto de Amazon
Salida:
Desde un cliente MCP como Claude Code:
"Usa scrape_template con la plantilla amazon para obtener el precio actual y la valoración del ASIN B0CHX1W1XY."
Claude elige la herramienta, formatea la llamada y devuelve los datos. Un credit.
Perfiles de LinkedIn (con notas legales)
Salida:
Una nota sobre el scraping de LinkedIn. Los términos de servicio de LinkedIn restringen el acceso automatizado. El caso hiQ Labs v. LinkedIn (9.º Circuito, 2022) estableció que hacer scraping de datos de perfiles públicos es generalmente admisible, pero el uso comercial, el scraping que requiere inicio de sesión y la frecuencia agresiva pueden seguir desencadenando acciones legales y baneos por ToS. Usa
scrape_templatecon la plantillalinkedin-profilesolo para datos públicos, de baja frecuencia y no revendidos.
Repos de GitHub para datos de entrenamiento de IA
Salida:
Esta plantilla se usa mucho para pipelines de datos de entrenamiento de IA -- extrayendo READMEs a escala a través de miles de repos. Combínala con batch_scrape para procesar un CSV de URLs de repos.
Las otras siete plantillas
YouTube -- título, canal, visualizaciones, transcripción completa cuando está disponible:
Reddit -- post + árbol de comentarios:
Hacker News -- la portada como una lista de historias:
Stack Overflow -- pregunta, respuesta aceptada, principales alternativas:
npm -- metadatos del paquete + descargas semanales:
Product Hunt -- producto, creadores, votos a favor:
Twitter/X -- un solo tweet con interacciones y respuestas:
Todas devuelven JSON. Todas cuestan 1 credit. Todas se mantienen de forma centralizada -- cuando LinkedIn o Amazon actualizan su diseño, nosotros actualizamos la plantilla.
scrape_template vs scrape_structured vs extract_with_llm
Un árbol de decisión:
Is your target one of the 10 supported sites?
Yes -> use scrape_template (1 credit, maintained for you)
No
Do you know the CSS selectors and are they stable?
Yes -> use scrape_structured (2 credits, you maintain selectors)
No -> use extract_with_llm (3 credits, schema-based, layout-resilient)
Comparación rápida:
| scrape_template | scrape_structured | extract_with_llm | |
|---|---|---|---|
| Credits | 1 | 2 | 3 |
| Cobertura | 10 sitios específicos | Cualquier sitio para el que puedas escribir selectores | Cualquier sitio |
| Mantenimiento | Lo mantenemos nosotros | Lo mantienes tú | El LLM se adapta |
| Velocidad | Rápida (esquemas cacheados) | Rápida | Más lenta (llamada al LLM) |
| Mejor para | Sitios populares, alto volumen | Estructura conocida específica | Estructura desconocida o cambiante |
Limitaciones
- Solo 10 sitios. Si necesitas Etsy, eBay, TikTok u otros, estás esperando a la hoja de ruta o tendrás que hacerlo tú con
scrape_structured/extract_with_llm. Solicita plantillas en Discord. - Solo datos públicos. Ninguna plantilla requiere inicio de sesión. Los perfiles configurados como privados, los repos con acceso restringido y los tweets protegidos solo devolverán lo que sea visible públicamente.
- Los cambios de diseño ocurren. Cuando un sitio lanza un rediseño, normalmente tenemos la plantilla parcheada en menos de 24 horas.
- Se aplican límites de velocidad. El scraping de gran volumen de LinkedIn o Amazon debería combinar
scrape_templateconstealth_mode(5 credits) y respetar el robots.txt de cada sitio.
¿Listo para saltarte los selectores? Empieza gratis con 1.000 credits -- suficiente para 1.000 scrapes con plantilla. ¿Nuevo por aquí? Lee el post de lanzamiento de la v4.2.2 para tener contexto, o la guía de extracción de comercio electrónico para un flujo de trabajo real construido en torno a estas plantillas.