Ornold
Zurück zum Blog
Erklärung4 Min. Lesezeit

Was MCP für KI-Browser-Automatisierung verändert

MCP gibt Agenten eine strukturierte Werkzeugebene. Dadurch können Claude Code, Codex, Cursor und andere reale Browser mit gemeinsamer Semantik steuern.
20. März 2026

Das Problem vor MCP

Vor MCP bedeutete das Verbinden eines KI-Agenten mit externen Tools benutzerdefinierte Integrationen für jede Kombination. Möchtest du, dass Claude Code einen Browser steuert? Schreibe ein Plugin. Möchtest du, dass Cursor dasselbe tut? Schreibe ein anderes Plugin. Jeder KI-Agent hatte sein eigenes Erweiterungsformat, seine eigene API-Oberfläche und seine eigene Art, Tools zu entdecken.
Für die Browser-Automatisierung speziell bedeutete dies, separate Integrationen für jeden KI-Agenten zu erstellen und zu warten — obwohl die zugrunde liegenden Browser-Befehle (navigate, click, fill, screenshot) identisch sind.

Was MCP wirklich ist

MCP (Model Context Protocol) ist ein Standard, der definiert, wie KI-Agenten externe Tools entdecken und nutzen. Denk daran wie an einen USB-C-Anschluss für KI: ein Stecker, viele Geräte. Ein MCP-Server stellt eine Reihe von Tools mit typisierten Ein- und Ausgaben bereit. Jeder mit MCP kompatible KI-Agent kann sich damit verbinden und diese Tools sofort nutzen.
Das Protokoll definiert drei Dinge:
  • Tool-Erkennung — Der Agent fragt "welche Tools hast du?" und erhält eine Liste mit Namen, Beschreibungen und Parameterschemas.
  • Tool-Ausführung — Der Agent ruft ein Tool mit spezifischen Parametern auf und erhält ein strukturiertes Ergebnis.
  • Transport — Wie Agent und Server kommunizieren. Normalerweise stdio (lokaler Prozess) oder HTTP (Remote-Server).
// MCP-Server stellen Tools so bereit: { "name": "browser_parallel_navigate", "description": "Navigate all active browser sessions to a URL", "parameters": { "url": { "type": "string", "description": "Target URL" } } } // Der KI-Agent ruft es wie jedes andere Tool auf: > "Open google.com in all browsers" // Der Agent ordnet dies automatisch zu: browser_parallel_navigate({ url: "https://google.com" })

Warum das für die Browser-Automatisierung wichtig ist

Browser-Automatisierung über MCP ändert das Interaktionsmodell grundlegend. Anstatt Scripts zu schreiben, die brechen, wenn sich Seiten ändern, beschreibst du in natürlicher Sprache, was du möchtest, und der KI-Agent findet heraus, welche Tools zu verwenden sind.
Das funktioniert, weil MCP dem Agent strukturierte Tool-Verträge bietet:
  • Der Agent weiß genau, was jedes Tool tut, welche Parameter es akzeptiert und was es zurückgibt
  • Tool-Beschreibungen helfen dem Agent, das richtige Tool für jede Situation auszuwählen
  • Typisierte Parameter verhindern falsch formatierte Anfragen
  • Strukturierte Antworten ermöglichen es dem Agent, über Ergebnisse nachzudenken und nächste Schritte zu entscheiden
Vergleiche das mit prompt-basierter Automatisierung, bei der du ein Playwright-Script in ChatGPT einfügst und hoffst, dass es funktioniert. MCP-Tools sind deterministisch — `browser_parallel_click({ ref: "submit" })` klickt immer auf die Submit-Schaltfläche. Die KI kümmert sich um die Planung; die Tools kümmern sich um die Ausführung.

Ein Server, viele Agenten

Der größte praktische Vorteil von MCP ist einmal schreiben, überall verwenden. Ornold MCP stellt 40+ Browser-Automatisierungstools über einen einzigen Server bereit. Jeder mit MCP kompatible Agent kann sie verwenden:
  • Claude Code — Terminalbasierter KI-Agent von Anthropic
  • Codex — Coding-Agent von OpenAI (CLI und Desktop-App)
  • Cursor — KI-gestützter Code-Editor
  • Windsurf — KI-IDE von Codeium
  • Cline — Open-Source-KI-Coding-Assistent für VS Code
  • VS Code Copilot — KI-Assistent von GitHub mit MCP-Unterstützung
Das Setup ist für jeden Agent fast identisch — installiere den MCP-Server, gib dein Token an, und der Agent erhält Zugriff auf alle Browser-Tools. Keine agentspezifischen Plugins oder Erweiterungen erforderlich.
// Dieselbe MCP-Server-Konfiguration funktioniert für alle Agenten: { "mcpServers": { "ornold-browser": { "command": "npx", "args": ["ornold-mcp", "--token", "YOUR_TOKEN", "--linken-port", "40080"] } } }
Das Konfigurationsformat unterscheidet sich leicht zwischen Agenten (JSON für Claude Code, TOML für Codex, JSON für Cursor), aber der MCP-Server-Befehl und die Argumente sind immer gleich.

Wie MCP Planung und Wiederholungen ermöglicht

Da MCP-Tools strukturierte Ein- und Ausgaben haben, können KI-Agenten mehrstufige Workflows planen und Fehler intelligent behandeln. Der Agent führt nicht einfach ein festes Script aus — er beobachtet Ergebnisse und passt sich an.
Beispiel: Der Agent navigiert zu einer Registrierungsseite, füllt das Formular aus und trifft auf ein CAPTCHA. Ohne MCP würde ein Script abstürzen oder einen hartcodierten CAPTCHA-Handler benötigen. Mit MCP:
  • Sieht das CAPTCHA im Seiten-Snapshot oder Screenshot
  • Erkennt, dass es das Tool `browser_solve_captcha` benötigt
  • Ruft den Solver auf und wartet auf das Ergebnis
  • Prüft, ob die Lösung erfolgreich war
  • Versucht es erneut, falls nötig, oder setzt die Formularübermittlung fort
Dieses adaptive Verhalten ergibt sich aus der Kombination strukturierter Tools (MCP) und Sprachmodell-Reasoning. Der Agent versteht, was jedes Tool tut, und kann sie basierend auf seinen Beobachtungen verketten.

MCP vs Browser-Automatisierungs-Frameworks

MCP ersetzt nicht Playwright, Puppeteer oder Selenium. Es sitzt auf ihnen auf. Ornold verwendet unter der Haube CDP (Chrome DevTools Protocol) — das gleiche Protokoll, das Playwright und Puppeteer verwenden. Der Unterschied liegt darin, wer die Automatisierungslogik schreibt.
  • Playwright/Puppeteer — Du schreibst das Script. Du behandelst Selektoren, Wartezeiten, Wiederholungen und Fehlerfälle. Das Script ist deterministisch, aber zerbrechlich.
  • MCP + KI-Agent — Die KI schreibt die Logik spontan. Du beschreibst das Ziel in natürlicher Sprache. Der Agent wählt Tools, behandelt Fehler und passt sich an Seitenänderungen an. Widerstandsfähiger, aber weniger vorhersehbar.
Für Anti-Detect-Workflows, bei denen sich Seiten zwischen Profilen und Sitzungen unterscheiden, gewinnt der adaptive Ansatz oft. Du musst nicht jeden möglichen Seitenzustand vorhersehen — die KI behandelt Abweichungen natürlich.

Erste Schritte

Das Einrichten der MCP-Browser-Automatisierung dauert etwa 5 Minuten:
  • Installiere Node.js 20+, falls du es noch nicht hast
  • Erstelle ein Konto auf mcp.ornold.com und erhalte ein API-Token
  • Füge den Ornold MCP-Server zur Konfiguration deines KI-Agenten hinzu
  • Starte deinen Anti-Detect-Browser und sprich mit der KI
Für detaillierte Setupanweisungen siehe die agentspezifischen Leitfäden:

Ähnliche Beiträge