解析4 分钟阅读

MCP 为 AI 浏览器自动化带来了什么变化

MCP 为代理提供了结构化的工具层，因此 Claude Code、Codex、Cursor 等可以用统一语义驱动真实浏览器。

2026年3月20日

MCP 之前的问题

在 MCP 出现之前，将 AI 代理连接到外部工具需要为每种组合进行自定义集成。想让 Claude Code 控制浏览器？编写一个插件。想让 Cursor 做同样的事情？编写另一个插件。每个 AI 代理都有自己的扩展格式、自己的 API 表面和自己的工具发现方式。

对于浏览器自动化，这意味着为每个 AI 代理构建和维护单独的集成——尽管底层浏览器命令（navigate、click、fill、screenshot）是相同的。

MCP 实际上是什么

MCP（Model Context Protocol）是一个标准，定义了 AI 代理如何发现和使用外部工具。可以把它看作是 AI 的 USB-C 端口：一个连接器，多个设备。MCP 服务器公开一组具有类型化输入和输出的工具。任何兼容 MCP 的 AI 代理都可以连接到它并立即使用这些工具。

该协议定义了三件事：

工具发现——代理询问"你有什么工具？"并获得一个包含名称、描述和参数模式的列表。
工具执行——代理使用特定参数调用工具并获得结构化结果。
传输——代理和服务器如何通信。通常是 stdio（本地进程）或 HTTP（远程服务器）。

// MCP 服务器这样公开工具：
{
  "name": "browser_parallel_navigate",
  "description": "Navigate all active browser sessions to a URL",
  "parameters": {
    "url": { "type": "string", "description": "Target URL" }
  }
}

// AI 代理像调用任何其他工具一样调用它：
> "Open google.com in all browsers"
// 代理自动将其映射到：
browser_parallel_navigate({ url: "https://google.com" })

为什么这对浏览器自动化很重要

通过 MCP 进行浏览器自动化从根本上改变了交互模型。与其编写在页面更改时会中断的脚本，不如用自然语言描述你想要的内容，让 AI 代理找出要使用的工具。

这之所以有效，是因为 MCP 为代理提供了结构化的工具契约：

代理确切知道每个工具做什么、它接受什么参数以及它返回什么
工具描述帮助代理为每种情况选择正确的工具
类型化参数防止格式错误的请求
结构化响应让代理能够推理结果并决定后续步骤

将其与基于提示的自动化进行比较，在基于提示的自动化中，你将 Playwright 脚本粘贴到 ChatGPT 中并希望它能工作。MCP 工具是确定性的——`browser_parallel_click({ ref: "submit" })` 总是点击提交按钮。AI 处理规划；工具处理执行。

一个服务器，多个代理

MCP 最大的实际优势是一次编写，到处使用。Ornold MCP 通过单个服务器公开 40+ 个浏览器自动化工具。任何兼容 MCP 的代理都可以使用它们：

Claude Code——Anthropic 的基于终端的 AI 代理
Codex——OpenAI 的编码代理（CLI 和桌面应用）
Cursor——AI 驱动的代码编辑器
Windsurf——Codeium 的 AI IDE
Cline——VS Code 的开源 AI 编码助手
VS Code Copilot——GitHub 的 AI 助手，支持 MCP

每个代理的设置几乎相同——安装 MCP 服务器，提供你的令牌，代理就可以访问所有浏览器工具。不需要特定于代理的插件或扩展。

// 相同的 MCP 服务器配置适用于所有代理：
{
  "mcpServers": {
    "ornold-browser": {
      "command": "npx",
      "args": ["ornold-mcp", "--token", "YOUR_TOKEN", "--linken-port", "40080"]
    }
  }
}

配置格式在代理之间略有不同（Claude Code 使用 JSON，Codex 使用 TOML，Cursor 使用 JSON），但 MCP 服务器命令和参数始终相同。

MCP 如何启用规划和重试

因为 MCP 工具具有结构化的输入和输出，AI 代理可以规划多步工作流并智能地处理故障。代理不仅仅执行固定脚本——它观察结果并进行调整。

示例：代理导航到注册页面，填写表单，然后遇到 CAPTCHA。没有 MCP，脚本会崩溃或需要硬编码的 CAPTCHA 处理程序。使用 MCP，代理：

在页面快照或屏幕截图中看到 CAPTCHA
识别它需要 `browser_solve_captcha` 工具
调用求解器并等待结果
检查求解是否成功
如果需要重试，或继续提交表单

这种自适应行为来自结构化工具（MCP）和语言模型推理的组合。代理理解每个工具的作用，并可以根据它观察到的内容将它们链接在一起。

MCP vs 浏览器自动化框架

MCP 不会替代 Playwright、Puppeteer 或 Selenium。它位于它们之上。Ornold 在底层使用 CDP（Chrome DevTools Protocol）——Playwright 和 Puppeteer 使用的相同协议。区别在于谁编写自动化逻辑。

Playwright/Puppeteer——你编写脚本。你处理选择器、等待、重试和错误情况。脚本是确定性的但很脆弱。
MCP + AI 代理——AI 即时编写逻辑。你用自然语言描述目标。代理选择工具、处理错误并适应页面更改。更有弹性但不太可预测。

对于页面在配置文件和会话之间变化的反检测工作流，自适应方法通常会赢。你不需要预测每个可能的页面状态——AI 自然地处理差异。

入门

设置 MCP 浏览器自动化大约需要 5 分钟：

如果你还没有 Node.js 20+，请安装它
在 mcp.ornold.com 创建账户并获取 API 令牌
将 Ornold MCP 服务器添加到你的 AI 代理配置中
启动你的反检测浏览器并与 AI 交谈

有关详细的设置说明，请查看特定于代理的指南：

Claude Code + Ornold MCP——Claude Code 的完整设置指南
Codex + Ornold MCP——OpenAI Codex CLI 和桌面应用的设置指南
Dolphin Anty MCP Setup——特别连接 Dolphin Anty
Linken Sphere MCP Setup——特别连接 Linken Sphere

解析

MCP 为 AI 浏览器自动化带来了什么变化

MCP 之前的问题

MCP 实际上是什么

为什么这对浏览器自动化很重要

一个服务器，多个代理

MCP 如何启用规划和重试

MCP vs 浏览器自动化框架

入门

相关文章

什么是 MCP（模型上下文协议），它是如何工作的？

Cursor + Ornold MCP：浏览器自动化完整配置指南

Linken Sphere MCP 配置：将 AI 代理连接到指纹浏览器