返回博客
解析4 分钟阅读
MCP 为 AI 浏览器自动化带来了什么变化
MCP 为代理提供了结构化的工具层,因此 Claude Code、Codex、Cursor 等可以用统一语义驱动真实浏览器。
2026年3月20日MCP 之前的问题
在 MCP 出现之前,将 AI 代理连接到外部工具需要为每种组合进行自定义集成。想让 Claude Code 控制浏览器?编写一个插件。想让 Cursor 做同样的事情?编写另一个插件。每个 AI 代理都有自己的扩展格式、自己的 API 表面和自己的工具发现方式。
对于浏览器自动化,这意味着为每个 AI 代理构建和维护单独的集成——尽管底层浏览器命令(navigate、click、fill、screenshot)是相同的。
MCP 实际上是什么
MCP(Model Context Protocol)是一个标准,定义了 AI 代理如何发现和使用外部工具。可以把它看作是 AI 的 USB-C 端口:一个连接器,多个设备。MCP 服务器公开一组具有类型化输入和输出的工具。任何兼容 MCP 的 AI 代理都可以连接到它并立即使用这些工具。
该协议定义了三件事:
- 工具发现——代理询问"你有什么工具?"并获得一个包含名称、描述和参数模式的列表。
- 工具执行——代理使用特定参数调用工具并获得结构化结果。
- 传输——代理和服务器如何通信。通常是 stdio(本地进程)或 HTTP(远程服务器)。
// MCP 服务器这样公开工具:
{
"name": "browser_parallel_navigate",
"description": "Navigate all active browser sessions to a URL",
"parameters": {
"url": { "type": "string", "description": "Target URL" }
}
}
// AI 代理像调用任何其他工具一样调用它:
> "Open google.com in all browsers"
// 代理自动将其映射到:
browser_parallel_navigate({ url: "https://google.com" })
为什么这对浏览器自动化很重要
通过 MCP 进行浏览器自动化从根本上改变了交互模型。与其编写在页面更改时会中断的脚本,不如用自然语言描述你想要的内容,让 AI 代理找出要使用的工具。
这之所以有效,是因为 MCP 为代理提供了结构化的工具契约:
- 代理确切知道每个工具做什么、它接受什么参数以及它返回什么
- 工具描述帮助代理为每种情况选择正确的工具
- 类型化参数防止格式错误的请求
- 结构化响应让代理能够推理结果并决定后续步骤
将其与基于提示的自动化进行比较,在基于提示的自动化中,你将 Playwright 脚本粘贴到 ChatGPT 中并希望它能工作。MCP 工具是确定性的——`browser_parallel_click({ ref: "submit" })` 总是点击提交按钮。AI 处理规划;工具处理执行。
一个服务器,多个代理
MCP 最大的实际优势是一次编写,到处使用。Ornold MCP 通过单个服务器公开 40+ 个浏览器自动化工具。任何兼容 MCP 的代理都可以使用它们:
- Claude Code——Anthropic 的基于终端的 AI 代理
- Codex——OpenAI 的编码代理(CLI 和桌面应用)
- Cursor——AI 驱动的代码编辑器
- Windsurf——Codeium 的 AI IDE
- Cline——VS Code 的开源 AI 编码助手
- VS Code Copilot——GitHub 的 AI 助手,支持 MCP
每个代理的设置几乎相同——安装 MCP 服务器,提供你的令牌,代理就可以访问所有浏览器工具。不需要特定于代理的插件或扩展。
// 相同的 MCP 服务器配置适用于所有代理:
{
"mcpServers": {
"ornold-browser": {
"command": "npx",
"args": ["ornold-mcp", "--token", "YOUR_TOKEN", "--linken-port", "40080"]
}
}
}
配置格式在代理之间略有不同(Claude Code 使用 JSON,Codex 使用 TOML,Cursor 使用 JSON),但 MCP 服务器命令和参数始终相同。
MCP 如何启用规划和重试
因为 MCP 工具具有结构化的输入和输出,AI 代理可以规划多步工作流并智能地处理故障。代理不仅仅执行固定脚本——它观察结果并进行调整。
示例:代理导航到注册页面,填写表单,然后遇到 CAPTCHA。没有 MCP,脚本会崩溃或需要硬编码的 CAPTCHA 处理程序。使用 MCP,代理:
- 在页面快照或屏幕截图中看到 CAPTCHA
- 识别它需要 `browser_solve_captcha` 工具
- 调用求解器并等待结果
- 检查求解是否成功
- 如果需要重试,或继续提交表单
这种自适应行为来自结构化工具(MCP)和语言模型推理的组合。代理理解每个工具的作用,并可以根据它观察到的内容将它们链接在一起。
MCP vs 浏览器自动化框架
MCP 不会替代 Playwright、Puppeteer 或 Selenium。它位于它们之上。Ornold 在底层使用 CDP(Chrome DevTools Protocol)——Playwright 和 Puppeteer 使用的相同协议。区别在于谁编写自动化逻辑。
- Playwright/Puppeteer——你编写脚本。你处理选择器、等待、重试和错误情况。脚本是确定性的但很脆弱。
- MCP + AI 代理——AI 即时编写逻辑。你用自然语言描述目标。代理选择工具、处理错误并适应页面更改。更有弹性但不太可预测。
对于页面在配置文件和会话之间变化的反检测工作流,自适应方法通常会赢。你不需要预测每个可能的页面状态——AI 自然地处理差异。
入门
设置 MCP 浏览器自动化大约需要 5 分钟:
- 如果你还没有 Node.js 20+,请安装它
- 在 mcp.ornold.com 创建账户并获取 API 令牌
- 将 Ornold MCP 服务器添加到你的 AI 代理配置中
- 启动你的反检测浏览器并与 AI 交谈
有关详细的设置说明,请查看特定于代理的指南:
- Claude Code + Ornold MCP——Claude Code 的完整设置指南
- Codex + Ornold MCP——OpenAI Codex CLI 和桌面应用的设置指南
- Dolphin Anty MCP Setup——特别连接 Dolphin Anty
- Linken Sphere MCP Setup——特别连接 Linken Sphere