Web Scraping Glosario
50 términos esenciales sobre web scraping, agentes de IA, el Model Context Protocol y la extracción de datos.
A
Agente de IA
IA / MCPUn agente de IA es un sistema autónomo impulsado por un gran modelo de lenguaje que puede razonar sobre tareas, tomar decisiones y ejecutar acciones mediante el uso de herramientas. Los agentes van más allá de los simples chatbots al planificar y ejecutar flujos de trabajo de varios pasos.
Análisis de HTML
DatosEl análisis de HTML es el proceso de analizar el marcado HTML para extraer su estructura y contenido. Los analizadores convierten las cadenas de HTML sin procesar en estructuras de árbol navegables que los programas pueden consultar y manipular.
Análisis del DOM
Web ScrapingEl análisis del DOM es el proceso de convertir HTML sin procesar en un árbol estructurado del Document Object Model. Esta representación en árbol permite a los programas navegar y extraer elementos específicos de una página web.
Auditoría SEO
IndustriaUna auditoría SEO es un análisis exhaustivo del rendimiento de optimización para motores de búsqueda de un sitio web. Evalúa el SEO técnico, el contenido en la página, los metadatos, la estructura del sitio e identifica oportunidades de mejora.
C
Cabeceras HTTP
Web ScrapingLas cabeceras HTTP son pares clave-valor enviados con las peticiones y respuestas HTTP que aportan metadatos sobre la comunicación. En el scraping, cabeceras como User-Agent, Accept y Cookie son fundamentales para que las peticiones tengan éxito.
Calidad de datos
IndustriaLa calidad de datos mide hasta qué punto un conjunto de datos cumple los requisitos del uso para el que está previsto. Las dimensiones clave incluyen la exactitud, la integridad, la coherencia, la actualidad y la validez de los datos.
Contenido dinámico
Web ScrapingEl contenido dinámico es contenido web que se carga o genera mediante JavaScript después de la carga inicial de la página. Esto incluye las aplicaciones de una sola página, los datos cargados por AJAX y el contenido renderizado del lado del cliente.
D
Datos estructurados
DatosLos datos estructurados son información organizada en un formato predefinido que facilita su análisis y comprensión por parte de las máquinas. En la web, normalmente se refiere al marcado de schema.org incrustado en las páginas HTML.
Datos web
IndustriaLos datos web son cualquier información accesible públicamente en internet. Incluyen el contenido de sitios web, las publicaciones en redes sociales, las API públicas, los registros gubernamentales y cualquier otro dato disponible a través de los protocolos web.
E
Embeddings
IA / MCPLos embeddings son representaciones vectoriales numéricas densas de texto, imágenes u otros datos. Capturan el significado semántico en un formato que permite la búsqueda por similitud, el agrupamiento y otras operaciones de aprendizaje automático.
Endpoint de API
DatosUn endpoint de API es una URL específica donde una API recibe peticiones. Cada endpoint realiza una función concreta, como recuperar datos, crear registros o desencadenar acciones.
Enriquecimiento de leads
IndustriaEl enriquecimiento de leads es el proceso de complementar la información básica de un lead con puntos de datos adicionales como el tamaño de la empresa, el sector, el stack tecnológico y los perfiles sociales. Ayuda a los equipos de ventas a priorizar y personalizar su alcance.
ETL (Extraer, Transformar, Cargar)
IndustriaETL es un proceso de integración de datos que extrae datos de las fuentes, los transforma en un formato adecuado y los carga en un sistema de destino. Es el enfoque estándar para mover datos entre sistemas.
F
Fine-Tuning
IA / MCPEl fine-tuning es el proceso de seguir entrenando un modelo de lenguaje preentrenado con un conjunto de datos específico para especializar su comportamiento en una tarea o dominio concreto. Adapta los modelos de uso general a casos de uso específicos.
Function Calling
IA / MCPEl function calling es la capacidad de los modelos de lenguaje de invocar funciones o API externas durante una conversación. El modelo decide cuándo llamar a una función, genera los argumentos apropiados y procesa los resultados devueltos.
G
Generación aumentada por recuperación (RAG)
IA / MCPRAG es una arquitectura de IA que combina la recuperación de información con la generación de texto. Primero recupera documentos relevantes de fuentes externas y luego los usa como contexto para que el modelo de lenguaje genere respuestas precisas y fundamentadas.
Gobernanza de datos
IndustriaLa gobernanza de datos es el marco de políticas, procedimientos y estándares que garantiza que los datos se gestionen correctamente a lo largo de su ciclo de vida. Abarca la privacidad de los datos, el cumplimiento normativo, el control de acceso y los estándares de calidad.
Gran modelo de lenguaje (LLM)
IA / MCPUn gran modelo de lenguaje es una red neuronal entrenada con enormes cantidades de datos de texto que puede comprender y generar lenguaje humano. Los LLM impulsan asistentes de IA, generadores de código y agentes autónomos.
GraphQL
DatosGraphQL es un lenguaje de consulta para API que permite a los clientes solicitar exactamente los datos que necesitan. A diferencia de REST, un único endpoint de GraphQL sirve todas las consultas, y el cliente especifica la forma de los datos.
I
Ingeniería de prompts
IA / MCPLa ingeniería de prompts es la práctica de diseñar y refinar las instrucciones que se dan a los modelos de lenguaje para lograr los resultados deseados. Implica elaborar prompts de sistema, ejemplos de pocos disparos y consultas estructuradas.
Inteligencia competitiva
IndustriaLa inteligencia competitiva es la recolección y el análisis sistemáticos de información sobre los competidores, las tendencias del mercado y la dinámica del sector. Sirve de base para las decisiones estratégicas sobre precios, posicionamiento y desarrollo de productos.
J
JSON
DatosJSON (JavaScript Object Notation) es un formato ligero de intercambio de datos que es fácil de leer para los humanos y de analizar para las máquinas. Es el formato estándar para las respuestas de API y el intercambio de datos estructurados.
JSON-LD
DatosJSON-LD (JSON for Linking Data) es un método para codificar datos estructurados utilizando el formato JSON. Es el formato preferido para incrustar el marcado de schema.org en las páginas web con el fin de que los motores de búsqueda las comprendan.
M
Marcado de Schema
DatosEl marcado de schema es un vocabulario de etiquetas (de schema.org) que añades al HTML para mejorar cómo los motores de búsqueda leen y representan tu página. Define tipos como Product, Article, Organization y sus propiedades.
Markdown
DatosMarkdown es un lenguaje de marcado ligero que utiliza una sintaxis de formato de texto plano. Se usa ampliamente para la documentación, la creación de contenido y como un formato intermedio limpio para el contenido web extraído.
MCP Client
IA / MCPUn MCP client es una aplicación o un modelo de IA que se conecta a los MCP servers para descubrir e invocar herramientas. Envía peticiones de llamada a herramientas y procesa las respuestas estructuradas que devuelve el servidor.
MCP Server
IA / MCPUn MCP server es un servicio que expone herramientas y recursos a través del Model Context Protocol. Registra las funciones disponibles, gestiona las llamadas a herramientas entrantes de los clientes de IA y devuelve resultados estructurados.
Migración de contenido
IndustriaLa migración de contenido es el proceso de mover contenido de una plataforma o sistema a otro. Implica extraer el contenido de la fuente, transformarlo para que coincida con el formato de destino y cargarlo en el nuevo sistema.
Model Context Protocol (MCP)
IA / MCPEl Model Context Protocol es un estándar abierto que permite a los modelos de IA interactuar con herramientas y fuentes de datos externas a través de una interfaz unificada. Ofrece una forma estructurada para que los LLM llamen a funciones, accedan a API y recuperen información en tiempo real.
Monitoreo de precios
IndustriaEl monitoreo de precios es el seguimiento automatizado de los precios de productos y servicios en distintos sitios web a lo largo del tiempo. Permite a las empresas responder a los cambios de precios de la competencia, optimizar sus propios precios e identificar tendencias del mercado.
P
Paginación
Web ScrapingLa paginación es la práctica de dividir el contenido en varias páginas. Manejar la paginación en el web scraping significa navegar automáticamente por todas las páginas para recopilar conjuntos de datos completos.
Pipeline de datos
IndustriaUn pipeline de datos es una secuencia automatizada de pasos que recopila, procesa, transforma y entrega datos desde las fuentes hasta los destinos. Permite un flujo continuo de datos entre sistemas sin intervención manual.
R
Resolución de CAPTCHA
Web ScrapingLa resolución de CAPTCHA se refiere a las técnicas automatizadas para superar los desafíos CAPTCHA que los sitios web utilizan para distinguir a los humanos de los bots. Esto incluye el reconocimiento de imágenes, la resolución basada en tokens y la emulación de huellas digitales del navegador.
REST API
DatosUna REST API (Representational State Transfer) es una arquitectura de servicio web que utiliza métodos HTTP estándar para realizar operaciones sobre recursos. Es el estilo de API más habitual para los servicios web.
Robots.txt
Web ScrapingRobots.txt es un archivo de texto estándar que se coloca en la raíz de un sitio web y que indica a los web crawlers qué páginas tienen permitido o prohibido acceder. Forma parte del Protocolo de Exclusión de Robots.
Rotación de proxies
Web ScrapingLa rotación de proxies es la práctica de alternar entre varias direcciones IP de proxy al realizar peticiones web. Esto distribuye las peticiones entre distintas IP para evitar los límites de tasa y el bloqueo basado en IP.
S
Salida estructurada
IA / MCPLa salida estructurada se refiere a los datos devueltos en un formato predecible y legible por máquina como JSON, en lugar de texto libre. Permite un procesamiento posterior fiable por parte de los agentes de IA y los pipelines de datos.
Selector CSS
Web ScrapingUn selector CSS es un patrón que se utiliza para seleccionar y apuntar a elementos HTML específicos de una página web. En el web scraping, los selectores identifican exactamente qué datos extraer de la estructura de una página.
Sitemap
Web ScrapingUn sitemap es un archivo XML que enumera todas las URL de un sitio web, junto con metadatos como la fecha de última modificación y la prioridad. Ayuda a los motores de búsqueda y a los crawlers a descubrir e indexar todas las páginas de forma eficiente.
U
User Agent
Web ScrapingUn user agent es una cadena enviada en las cabeceras de las peticiones HTTP que identifica el software cliente que realiza la petición. Los sitios web la utilizan para detectar navegadores, bots y scrapers.
Uso de herramientas
IA / MCPEl uso de herramientas es la capacidad de los modelos de IA de interactuar con herramientas, API y servicios externos para realizar tareas que van más allá de la generación de texto. Amplía las capacidades del modelo para incluir la navegación web, la ejecución de código, la recuperación de datos y mucho más.
W
Web Crawler
Web ScrapingUn web crawler es un programa que recorre la web de forma sistemática siguiendo los enlaces de una página a otra. Los crawlers descubren e indexan contenido a lo largo de sitios web o dominios completos.
Web Scraping
Web ScrapingEl web scraping es la extracción automatizada de datos de sitios web. Consiste en obtener páginas web de forma programática y analizar su contenido para recopilar información estructurada.
Webhook
DatosUn webhook es una devolución de llamada HTTP que entrega datos a una URL especificada cuando ocurre un evento. A diferencia del sondeo, los webhooks envían datos en tiempo real, lo que permite arquitecturas basadas en eventos.