Microsoft lässt Claude die Arbeit von GPT kontrollieren

Das ist eine dieser Meldungen, bei denen man kurz stutzt: Microsoft hat am Montag ein neues Feature für seinen Copilot Researcher vorgestellt, das Anthropics Claude als Qualitätskontrolle für OpenAIs GPT einsetzt. Ja, richtig gelesen — die beiden größten KI-Rivalen arbeiten jetzt in einem Microsoft-Produkt zusammen.

Wie funktioniert Critique?

Das Prinzip ist elegant simpel. Wenn du eine Recherche-Anfrage in Copilot stellst, übernimmt GPT den ersten Schritt: Es durchsucht Web-Quellen und Unternehmensdaten aus Salesforce, ServiceNow oder Confluence und erstellt einen Entwurf. Bevor du diesen Entwurf aber zu sehen bekommst, schaltet sich Claude ein. Das Anthropic-Modell prüft den Text auf faktische Richtigkeit, Vollständigkeit der Analyse und korrekte Quellenangaben.

Erst wenn Claude grünes Licht gibt, landet die Antwort bei dir.

13,8 Prozent besser

Microsoft behauptet, dass dieser Multi-Modell-Ansatz zu einer Verbesserung von 13,8 Prozent auf dem DRACO-Benchmark führt — einem Industriemaß für die Qualität von Deep Research. Damit liege man vor den eigenständigen Tools von OpenAI, Google, Perplexity und auch Anthropic selbst.

Das ist ein cleverer Schachzug. Statt sich auf ein einziges Modell zu verlassen, nutzt Microsoft die jeweiligen Stärken beider Systeme. GPT ist stark beim Zusammenfassen und Verarbeiten großer Datenmengen, Claude hat einen guten Ruf bei der Erkennung von Fehlern und der Bewertung von Quellenqualität.

Copilot Cowork startet für Early Access

Gleichzeitig hat Microsoft auch Copilot Cowork in sein Frontier Early Access Programm aufgenommen. Ja, der Name erinnert nicht zufällig an Claudes Cowork-Modus — das Feature basiert tatsächlich auf Anthropics Technologie. Copilot Cowork ermöglicht es, langwierige, mehrstufige Aufgaben innerhalb von Microsoft 365 an KI zu delegieren.

Was das bedeutet

Die Zeiten, in denen sich KI-Unternehmen strikt voneinander abgrenzen, scheinen vorbei. Microsoft zeigt hier, dass die Zukunft der Enterprise-KI wahrscheinlich Multi-Modell ist. Nicht ein einzelnes Modell für alles, sondern spezialisierte Modelle, die sich gegenseitig kontrollieren.

Für Claude-Nutzer ist das eine interessante Entwicklung: Anthropics Modell wird zunehmend als Qualitätsstandard wahrgenommen — selbst von Unternehmen, die eigentlich auf OpenAI setzen. Microsoft plant übrigens, den Workflow in Zukunft auch umzukehren: Dann soll GPT die Entwürfe von Claude überprüfen.

Quellen: