Técnicas de Scraping Avanzado
Domine escenarios de scraping complejos que incluyen contenido dinámico, páginas protegidas por autenticación, renderizado de JavaScript y gestión de AJAX con CrawlForge MCP.
1. Contenido dinámico y JavaScript
Muchos sitios web modernos renderizan el contenido con JavaScript después de la carga inicial de la página. Use scrape_with_actions para esperar a los elementos dinámicos.
fetch_url en su lugar (5 veces más económico)Ejemplo: scraping de una SPA de React
5 credits
curl -X POST https://crawlforge.dev/api/v1/tools/scrape_with_actions \
-H "X-API-Key: cf_test_YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://spa-example.com/products",
"actions": [
{
"type": "wait",
"selector": ".product-card",
"timeout": 5000
},
{
"type": "scroll",
"direction": "down",
"amount": 1000
},
{
"type": "wait",
"duration": 2000
},
{
"type": "extract",
"selectors": {
"title": "h1.product-title",
"price": "span.price",
"description": "div.product-description"
}
}
]
}'fetch_url primero. Muchas SPA prerrenderizan el contenido en el HTML inicial o exponen endpoints de API que puede llamar directamente.2. Autenticación y sesiones
Haga scraping de páginas detrás de formularios de inicio de sesión o de autenticación de API usando cookies, encabezados o el envío automatizado de formularios.
Estrategia 1: autenticación con cookies
Ideal para sitios en los que puede obtener las cookies de sesión manualmente
Estrategia 2: inicio de sesión automatizado con formularios
Automatice todo el proceso de inicio de sesión con form_submit
curl -X POST https://crawlforge.dev/api/v1/tools/form_submit \
-H "X-API-Key: cf_test_YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/login",
"fields": {
"email": "user@example.com",
"password": "secure_password"
},
"submitButton": "button[type=submit]",
"waitForNavigation": true
}'3. AJAX y scroll infinito
Capture contenido que se carga al desplazarse o al hacer clic en los botones de "Cargar más".
Ejemplo de scroll infinito
5 credits
const response = await fetch('https://crawlforge.dev/api/v1/tools/scrape_with_actions', {
method: 'POST',
headers: {
'X-API-Key': process.env.CRAWLFORGE_API_KEY!,
'Content-Type': 'application/json',
},
body: JSON.stringify({
url: 'https://social-media.com/feed',
actions: [
// Scroll to load more content (repeat 5 times)
{ type: 'scroll', direction: 'down', amount: 1000 },
{ type: 'wait', duration: 1000 },
{ type: 'scroll', direction: 'down', amount: 1000 },
{ type: 'wait', duration: 1000 },
{ type: 'scroll', direction: 'down', amount: 1000 },
{ type: 'wait', duration: 1000 },
{ type: 'scroll', direction: 'down', amount: 1000 },
{ type: 'wait', duration: 1000 },
{ type: 'scroll', direction: 'down', amount: 1000 },
{ type: 'wait', duration: 1000 },
// Extract all posts
{
type: 'extract',
selectors: {
posts: {
selector: 'article.post',
multiple: true,
fields: {
text: '.post-content',
author: '.author-name',
timestamp: 'time'
}
}
}
}
]
}),
});
const data = await response.json();
console.log(`Loaded ${data.data.extracted.posts.length} posts`);4. Gestión de límites de tasa
Implemente retroceso exponencial y lógica de reintentos cuando reciba respuestas 429.
Ejemplo de lógica de reintentos
async function scrapeWithRetry(url: string, maxRetries = 3) {
let retries = 0;
let delay = 1000; // Start with 1 second
while (retries < maxRetries) {
try {
const response = await fetch('https://crawlforge.dev/api/v1/tools/fetch_url', {
method: 'POST',
headers: {
'X-API-Key': process.env.CRAWLFORGE_API_KEY!,
'Content-Type': 'application/json',
},
body: JSON.stringify({ url }),
});
if (response.status === 429) {
// Rate limited - wait and retry
console.log(`Rate limited. Waiting ${delay}ms before retry...`);
await new Promise(resolve => setTimeout(resolve, delay));
delay *= 2; // Exponential backoff
retries++;
continue;
}
if (!response.ok) {
throw new Error(`HTTP ${response.status}: ${response.statusText}`);
}
return await response.json();
} catch (error) {
if (retries === maxRetries - 1) throw error;
retries++;
await new Promise(resolve => setTimeout(resolve, delay));
delay *= 2;
}
}
throw new Error('Max retries exceeded');
}
// Usage
const data = await scrapeWithRetry('https://example.com');