Volver al blog
Explicación4 min de lectura
Qué cambia MCP para la automatización de navegadores con IA
MCP ofrece a los agentes una capa estructurada de herramientas. Eso permite que Claude Code, Codex, Cursor y otros controlen navegadores reales con una semántica compartida.
20 mar 2026El problema antes de MCP
Antes de MCP, conectar un agente de IA a herramientas externas significaba integraciones personalizadas para cada combinación. ¿Quieres que Claude Code controle un navegador? Escribe un complemento. ¿Quieres que Cursor haga lo mismo? Escribe un complemento diferente. Cada agente de IA tenía su propio formato de extensión, su propia superficie de API y su propia forma de descubrir herramientas.
Para la automatización del navegador específicamente, esto significaba construir y mantener integraciones separadas para cada agente de IA, aunque los comandos del navegador subyacentes (navigate, click, fill, screenshot) son idénticos.
Qué es realmente MCP
MCP (Model Context Protocol) es un estándar que define cómo los agentes de IA descubren y utilizan herramientas externas. Piénsalo como un puerto USB-C para IA: un conector, muchos dispositivos. Un servidor MCP expone un conjunto de herramientas con entradas y salidas tipificadas. Cualquier agente de IA compatible con MCP puede conectarse a él y usar esas herramientas inmediatamente.
El protocolo define tres cosas:
- Descubrimiento de herramientas — El agente pregunta "¿qué herramientas tienes?" y obtiene una lista con nombres, descripciones y esquemas de parámetros.
- Ejecución de herramientas — El agente llama a una herramienta con parámetros específicos y obtiene un resultado estructurado.
- Transporte — Cómo se comunican el agente y el servidor. Generalmente stdio (proceso local) o HTTP (servidor remoto).
// El servidor MCP expone herramientas así:
{
"name": "browser_parallel_navigate",
"description": "Navigate all active browser sessions to a URL",
"parameters": {
"url": { "type": "string", "description": "Target URL" }
}
}
// El agente de IA lo llama como cualquier otra herramienta:
> "Open google.com in all browsers"
// El agente automáticamente lo asigna a:
browser_parallel_navigate({ url: "https://google.com" })
Por qué esto importa para la automatización del navegador
La automatización del navegador a través de MCP cambia fundamentalmente el modelo de interacción. En lugar de escribir scripts que se rompen cuando las páginas cambian, describes lo que quieres en lenguaje natural y el agente de IA descubre qué herramientas usar.
Esto funciona porque MCP proporciona al agente contratos de herramientas estructurados:
- El agente sabe exactamente qué hace cada herramienta, qué parámetros acepta y qué devuelve
- Las descripciones de herramientas ayudan al agente a elegir la herramienta correcta para cada situación
- Los parámetros tipificados previenen solicitudes mal formadas
- Las respuestas estructuradas permiten al agente razonar sobre los resultados y decidir los próximos pasos
Compáralo con la automatización basada en indicaciones donde pegas un script de Playwright en ChatGPT y esperas que funcione. Las herramientas MCP son deterministas — `browser_parallel_click({ ref: "submit" })` siempre hace clic en el botón enviar. La IA maneja la planificación; las herramientas manejan la ejecución.
Un servidor, muchos agentes
El mayor beneficio práctico de MCP es escribir una vez, usar en todas partes. Ornold MCP expone 40+ herramientas de automatización del navegador a través de un único servidor. Cualquier agente compatible con MCP puede usarlas:
- Claude Code — Agente de IA basado en terminal de Anthropic
- Codex — Agente de codificación de OpenAI (CLI y aplicación de escritorio)
- Cursor — Editor de código impulsado por IA
- Windsurf — IDE de IA de Codeium
- Cline — Asistente de codificación de IA de código abierto para VS Code
- VS Code Copilot — Asistente de IA de GitHub con soporte MCP
La configuración es casi idéntica para cada agente — instala el servidor MCP, proporciona tu token, y el agente obtiene acceso a todas las herramientas del navegador. No se necesitan complementos o extensiones específicos del agente.
// La misma configuración del servidor MCP funciona en todos los agentes:
{
"mcpServers": {
"ornold-browser": {
"command": "npx",
"args": ["ornold-mcp", "--token", "YOUR_TOKEN", "--linken-port", "40080"]
}
}
}
El formato de configuración varía ligeramente entre agentes (JSON para Claude Code, TOML para Codex, JSON para Cursor), pero el comando del servidor MCP y los argumentos siempre son los mismos.
Cómo MCP habilita la planificación y los reintentos
Porque las herramientas MCP tienen entradas y salidas estructuradas, los agentes de IA pueden planificar flujos de trabajo de varios pasos y manejar fallos de manera inteligente. El agente no solo ejecuta un script fijo — observa resultados y se adapta.
Ejemplo: el agente navega a una página de registro, completa el formulario y encuentra un CAPTCHA. Sin MCP, un script se bloquearía o necesitaría un manejador CAPTCHA codificado. Con MCP, el agente:
- Ve el CAPTCHA en la instantánea de la página o captura de pantalla
- Reconoce que necesita la herramienta `browser_solve_captcha`
- Llama al solucionador y espera el resultado
- Verifica si la solución fue exitosa
- Reintenta si es necesario, o continúa con el envío del formulario
Este comportamiento adaptativo proviene de la combinación de herramientas estructuradas (MCP) y razonamiento del modelo de lenguaje. El agente entiende qué hace cada herramienta y puede encadenarlas basándose en lo que observa.
MCP vs marcos de automatización del navegador
MCP no reemplaza Playwright, Puppeteer o Selenium. Se sitúa encima de ellos. Ornold usa CDP (Chrome DevTools Protocol) bajo el capó — el mismo protocolo que usan Playwright y Puppeteer. La diferencia está en quién escribe la lógica de automatización.
- Playwright/Puppeteer — Escribes el script. Manejas selectores, esperas, reintentos y casos de error. El script es determinista pero frágil.
- MCP + agente de IA — La IA escribe la lógica sobre la marcha. Describes el objetivo en lenguaje natural. El agente elige herramientas, maneja errores y se adapta a los cambios de página. Más resiliente pero menos predecible.
Para flujos de trabajo antidetección donde las páginas varían entre perfiles y sesiones, el enfoque adaptativo a menudo gana. No necesitas anticipar cada estado de página posible — la IA maneja la divergencia naturalmente.
Comenzar
Configurar la automatización del navegador MCP toma alrededor de 5 minutos:
- Instala Node.js 20+ si no lo tienes
- Crea una cuenta en mcp.ornold.com y obtén un token de API
- Agrega el servidor Ornold MCP a la configuración de tu agente de IA
- Inicia tu navegador antidetección y habla con la IA
Para instrucciones de configuración detalladas, consulta las guías específicas del agente:
- Claude Code + Ornold MCP — Guía de configuración completa para Claude Code
- Codex + Ornold MCP — Guía de configuración para OpenAI Codex CLI y aplicación de escritorio
- Dolphin Anty MCP Setup — Conectando Dolphin Anty específicamente
- Linken Sphere MCP Setup — Conectando Linken Sphere específicamente