Web Scraping <span class="bg-linear-to-r from-blue-600 to-purple-600 bg-clip-text text-transparent">Glosario

El análisis de HTML es el proceso de analizar el marcado HTML para extraer su estructura y contenido. Los analizadores convierten las cadenas de HTML sin procesar en estructuras de árbol navegables que los programas pueden consultar y manipular.

Análisis del DOM

El análisis del DOM es el proceso de convertir HTML sin procesar en un árbol estructurado del Document Object Model. Esta representación en árbol permite a los programas navegar y extraer elementos específicos de una página web.

Auditoría SEO

Una auditoría SEO es un análisis exhaustivo del rendimiento de optimización para motores de búsqueda de un sitio web. Evalúa el SEO técnico, el contenido en la página, los metadatos, la estructura del sitio e identifica oportunidades de mejora.

B

Base de datos vectorial

Una base de datos vectorial es una base de datos especializada diseñada para almacenar y consultar de forma eficiente embeddings vectoriales de alta dimensión. Permite una búsqueda por similitud rápida a través de millones de documentos integrados.

C

Cabeceras HTTP

Las cabeceras HTTP son pares clave-valor enviados con las peticiones y respuestas HTTP que aportan metadatos sobre la comunicación. En el scraping, cabeceras como User-Agent, Accept y Cookie son fundamentales para que las peticiones tengan éxito.

Calidad de datos

La calidad de datos mide hasta qué punto un conjunto de datos cumple los requisitos del uso para el que está previsto. Las dimensiones clave incluyen la exactitud, la integridad, la coherencia, la actualidad y la validez de los datos.

Contenido dinámico

El contenido dinámico es contenido web que se carga o genera mediante JavaScript después de la carga inicial de la página. Esto incluye las aplicaciones de una sola página, los datos cargados por AJAX y el contenido renderizado del lado del cliente.

D

Datos estructurados

Los datos estructurados son información organizada en un formato predefinido que facilita su análisis y comprensión por parte de las máquinas. En la web, normalmente se refiere al marcado de schema.org incrustado en las páginas HTML.

Datos web

Los datos web son cualquier información accesible públicamente en internet. Incluyen el contenido de sitios web, las publicaciones en redes sociales, las API públicas, los registros gubernamentales y cualquier otro dato disponible a través de los protocolos web.

E

Embeddings

Los embeddings son representaciones vectoriales numéricas densas de texto, imágenes u otros datos. Capturan el significado semántico en un formato que permite la búsqueda por similitud, el agrupamiento y otras operaciones de aprendizaje automático.

Endpoint de API

Un endpoint de API es una URL específica donde una API recibe peticiones. Cada endpoint realiza una función concreta, como recuperar datos, crear registros o desencadenar acciones.

Enriquecimiento de leads

El enriquecimiento de leads es el proceso de complementar la información básica de un lead con puntos de datos adicionales como el tamaño de la empresa, el sector, el stack tecnológico y los perfiles sociales. Ayuda a los equipos de ventas a priorizar y personalizar su alcance.

ETL (Extraer, Transformar, Cargar)

ETL es un proceso de integración de datos que extrae datos de las fuentes, los transforma en un formato adecuado y los carga en un sistema de destino. Es el enfoque estándar para mover datos entre sistemas.

F

Fine-Tuning

El fine-tuning es el proceso de seguir entrenando un modelo de lenguaje preentrenado con un conjunto de datos específico para especializar su comportamiento en una tarea o dominio concreto. Adapta los modelos de uso general a casos de uso específicos.

Function Calling

El function calling es la capacidad de los modelos de lenguaje de invocar funciones o API externas durante una conversación. El modelo decide cuándo llamar a una función, genera los argumentos apropiados y procesa los resultados devueltos.

G

Generación aumentada por recuperación (RAG)

RAG es una arquitectura de IA que combina la recuperación de información con la generación de texto. Primero recupera documentos relevantes de fuentes externas y luego los usa como contexto para que el modelo de lenguaje genere respuestas precisas y fundamentadas.

Gobernanza de datos

La gobernanza de datos es el marco de políticas, procedimientos y estándares que garantiza que los datos se gestionen correctamente a lo largo de su ciclo de vida. Abarca la privacidad de los datos, el cumplimiento normativo, el control de acceso y los estándares de calidad.

Gran modelo de lenguaje (LLM)

Un gran modelo de lenguaje es una red neuronal entrenada con enormes cantidades de datos de texto que puede comprender y generar lenguaje humano. Los LLM impulsan asistentes de IA, generadores de código y agentes autónomos.

GraphQL

GraphQL es un lenguaje de consulta para API que permite a los clientes solicitar exactamente los datos que necesitan. A diferencia de REST, un único endpoint de GraphQL sirve todas las consultas, y el cliente especifica la forma de los datos.

I

Ingeniería de prompts

La ingeniería de prompts es la práctica de diseñar y refinar las instrucciones que se dan a los modelos de lenguaje para lograr los resultados deseados. Implica elaborar prompts de sistema, ejemplos de pocos disparos y consultas estructuradas.

Inteligencia competitiva

La inteligencia competitiva es la recolección y el análisis sistemáticos de información sobre los competidores, las tendencias del mercado y la dinámica del sector. Sirve de base para las decisiones estratégicas sobre precios, posicionamiento y desarrollo de productos.

J

JSON

JSON (JavaScript Object Notation) es un formato ligero de intercambio de datos que es fácil de leer para los humanos y de analizar para las máquinas. Es el formato estándar para las respuestas de API y el intercambio de datos estructurados.

JSON-LD

JSON-LD (JSON for Linking Data) es un método para codificar datos estructurados utilizando el formato JSON. Es el formato preferido para incrustar el marcado de schema.org en las páginas web con el fin de que los motores de búsqueda las comprendan.

L

Límite de tasa

El límite de tasa es una técnica que utilizan los sitios web y las API para controlar la cantidad de peticiones que un cliente puede realizar dentro de un periodo de tiempo determinado. Evita la sobrecarga del servidor y protege contra el scraping abusivo.

M

Marcado de Schema

El marcado de schema es un vocabulario de etiquetas (de schema.org) que añades al HTML para mejorar cómo los motores de búsqueda leen y representan tu página. Define tipos como Product, Article, Organization y sus propiedades.

Markdown

Markdown es un lenguaje de marcado ligero que utiliza una sintaxis de formato de texto plano. Se usa ampliamente para la documentación, la creación de contenido y como un formato intermedio limpio para el contenido web extraído.

MCP Client

Un MCP client es una aplicación o un modelo de IA que se conecta a los MCP servers para descubrir e invocar herramientas. Envía peticiones de llamada a herramientas y procesa las respuestas estructuradas que devuelve el servidor.

MCP Server

Un MCP server es un servicio que expone herramientas y recursos a través del Model Context Protocol. Registra las funciones disponibles, gestiona las llamadas a herramientas entrantes de los clientes de IA y devuelve resultados estructurados.

Migración de contenido

La migración de contenido es el proceso de mover contenido de una plataforma o sistema a otro. Implica extraer el contenido de la fuente, transformarlo para que coincida con el formato de destino y cargarlo en el nuevo sistema.

Model Context Protocol (MCP)

El Model Context Protocol es un estándar abierto que permite a los modelos de IA interactuar con herramientas y fuentes de datos externas a través de una interfaz unificada. Ofrece una forma estructurada para que los LLM llamen a funciones, accedan a API y recuperen información en tiempo real.

Monitoreo de precios

El monitoreo de precios es el seguimiento automatizado de los precios de productos y servicios en distintos sitios web a lo largo del tiempo. Permite a las empresas responder a los cambios de precios de la competencia, optimizar sus propios precios e identificar tendencias del mercado.

N

Navegador headless

Un navegador headless es un navegador web sin interfaz gráfica de usuario que se puede controlar de forma programática. Ejecuta JavaScript y renderiza las páginas exactamente igual que un navegador normal, pero se ejecuta en segundo plano.

P

Paginación

La paginación es la práctica de dividir el contenido en varias páginas. Manejar la paginación en el web scraping significa navegar automáticamente por todas las páginas para recopilar conjuntos de datos completos.

Pipeline de datos

Un pipeline de datos es una secuencia automatizada de pasos que recopila, procesa, transforma y entrega datos desde las fuentes hasta los destinos. Permite un flujo continuo de datos entre sistemas sin intervención manual.

R

Resolución de CAPTCHA

La resolución de CAPTCHA se refiere a las técnicas automatizadas para superar los desafíos CAPTCHA que los sitios web utilizan para distinguir a los humanos de los bots. Esto incluye el reconocimiento de imágenes, la resolución basada en tokens y la emulación de huellas digitales del navegador.

REST API

Una REST API (Representational State Transfer) es una arquitectura de servicio web que utiliza métodos HTTP estándar para realizar operaciones sobre recursos. Es el estilo de API más habitual para los servicios web.

Robots.txt

Robots.txt es un archivo de texto estándar que se coloca en la raíz de un sitio web y que indica a los web crawlers qué páginas tienen permitido o prohibido acceder. Forma parte del Protocolo de Exclusión de Robots.

Rotación de proxies

La rotación de proxies es la práctica de alternar entre varias direcciones IP de proxy al realizar peticiones web. Esto distribuye las peticiones entre distintas IP para evitar los límites de tasa y el bloqueo basado en IP.

S

Salida estructurada

La salida estructurada se refiere a los datos devueltos en un formato predecible y legible por máquina como JSON, en lugar de texto libre. Permite un procesamiento posterior fiable por parte de los agentes de IA y los pipelines de datos.

Selector CSS

Un selector CSS es un patrón que se utiliza para seleccionar y apuntar a elementos HTML específicos de una página web. En el web scraping, los selectores identifican exactamente qué datos extraer de la estructura de una página.

Sitemap

Un sitemap es un archivo XML que enumera todas las URL de un sitio web, junto con metadatos como la fecha de última modificación y la prioridad. Ayuda a los motores de búsqueda y a los crawlers a descubrir e indexar todas las páginas de forma eficiente.

T

Token

Un token es la unidad básica de texto que procesan los modelos de lenguaje. El texto se divide en tokens (aproximadamente 4 caracteres o 0.75 palabras cada uno) antes de ser procesado por el modelo. El recuento de tokens determina los costos y los límites de contexto.

U

User Agent

Un user agent es una cadena enviada en las cabeceras de las peticiones HTTP que identifica el software cliente que realiza la petición. Los sitios web la utilizan para detectar navegadores, bots y scrapers.

Uso de herramientas

El uso de herramientas es la capacidad de los modelos de IA de interactuar con herramientas, API y servicios externos para realizar tareas que van más allá de la generación de texto. Amplía las capacidades del modelo para incluir la navegación web, la ejecución de código, la recuperación de datos y mucho más.

V

Ventana de contexto

La ventana de contexto es la cantidad máxima de texto (medida en tokens) que un modelo de lenguaje puede procesar en una sola petición. Incluye tanto el prompt de entrada como la salida generada.

W

Web Crawler

Un web crawler es un programa que recorre la web de forma sistemática siguiendo los enlaces de una página a otra. Los crawlers descubren e indexan contenido a lo largo de sitios web o dominios completos.

Web Scraping

El web scraping es la extracción automatizada de datos de sitios web. Consiste en obtener páginas web de forma programática y analizar su contenido para recopilar información estructurada.

Webhook

Un webhook es una devolución de llamada HTTP que entrega datos a una URL especificada cuando ocurre un evento. A diferencia del sondeo, los webhooks envían datos en tiempo real, lo que permite arquitecturas basadas en eventos.

X

XPath