scrape_structured
Extraiga datos estructurados de cualquier página web usando selectores CSS personalizados. Ideal para el scraping de productos de comercio electrónico, la agregación de noticias y cualquier necesidad de extracción de datos personalizada.
Casos de uso
Scraping de productos de comercio electrónico
Extraiga títulos, precios, descripciones e imágenes de productos de tiendas en línea
Extracción de artículos de noticias
Extraiga titulares, autores, fechas y contenido de sitios de noticias
Transformación de datos personalizada
Asigne cualquier estructura HTML al esquema JSON que desee
Anuncios inmobiliarios
Extraiga detalles de propiedades, precios e imágenes de sitios de anuncios
Endpoint
/api/v1/tools/scrape_structuredParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
url | string | Required | - | URL a scrapear Example: https://example.com/product |
selectors | object | Required | - | Selectores CSS que asignan nombres de campos a selectores Example: {"title": "h1.product-title", "price": ".price", "description": ".product-desc"} |
Selectores CSS:
Use cualquier sintaxis de selector CSS válida. Patrones comunes:
.className- Seleccionar por clase#id- Seleccionar por IDtag.class- Combinar etiqueta y clase.parent > .child- Hijo directo[data-id="value"]- Selector de atributo
Ejemplos de solicitud
cURL - Producto de comercio electrónico
curl -X POST https://crawlforge.dev/api/v1/tools/scrape_structured \
-H "X-API-Key: cf_test_YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product/123",
"selectors": {
"title": "h1.product-title",
"price": ".price-value",
"currency": ".price-currency",
"description": ".product-description",
"image": "img.main-image",
"rating": ".rating-value",
"availability": ".stock-status"
}
}'TypeScript - Artículo de noticias
const response = await fetch('https://crawlforge.dev/api/v1/tools/scrape_structured', {
method: 'POST',
headers: {
'X-API-Key': process.env.CRAWLFORGE_API_KEY!,
'Content-Type': 'application/json',
},
body: JSON.stringify({
url: 'https://example.com/news/article-123',
selectors: {
headline: 'h1.article-title',
author: '.author-name',
publishDate: 'time.publish-date',
category: '.category-tag',
content: '.article-body',
image: '.article-image img'
}
}),
});
const data = await response.json();
if (data.success) {
const article = data.data;
console.log(`Article: ${article.headline}`);
console.log(`By: ${article.author}`);
console.log(`Published: ${article.publishDate}`);
}Python - Anuncio inmobiliario
import requests
import os
response = requests.post(
'https://crawlforge.dev/api/v1/tools/scrape_structured',
headers={
'X-API-Key': os.environ['CRAWLFORGE_API_KEY'],
'Content-Type': 'application/json',
},
json={
'url': 'https://example.com/property/456',
'selectors': {
'address': '.property-address',
'price': '.listing-price',
'bedrooms': '.bed-count',
'bathrooms': '.bath-count',
'sqft': '.square-feet',
'description': '.property-description',
'images': '.gallery img'
}
}
)
data = response.json()
if data['success']:
property_data = data['data']
print(f"Property: {property_data['address']}")
print(f"Price: {property_data['price']}")
print(f"Beds: {property_data['bedrooms']}")
print(f"Baths: {property_data['bathrooms']}")Ejemplo de respuesta
{ "success": true, "data": { "title": "Premium Wireless Headphones", "price": "299.99", "currency": "USD", "description": "High-quality wireless headphones with active noise cancellation and 30-hour battery life.", "image": "https://example.com/images/headphones.jpg", "rating": "4.7", "availability": "In Stock" }, "credits_used": 2, "credits_remaining": 998, "processing_time": 320}data.titleExtraído del selector h1.product-titledata.priceExtraído del selector .price-valuedata.descriptionExtraído del selector .product-descriptioncredits_usedCredits descontados por esta solicitud (2 por cada scrape)Costo en credits
Consejo: Para scrapear varias páginas con la misma estructura, use batch_scrape para una mayor eficiencia.