OpenAI-Agent hat mir beim Umzug geholfen, aber ich musste ihm auch helfen

Polare Sicht

Sunday, April 20 2025

OpenAI gab mir eine Woche Zeit, um ihren neuen KI-Agenten, Operator, auszuprobieren, ein System, das eigenständig Aufgaben für Sie im Internet erledigen kann.

Operator ist das Beste, was ich im tech-Bereich gesehen habe, wenn es um KI-Agenten geht - Systeme, die die langweiligen Teile des Lebens automatisieren können und uns so Zeit für die Dinge geben, die wir wirklich lieben. Allerdings zeigt meine Erfahrung mit OpenAI's Agent, dass wirklich 'autonome' KI-Systeme noch außer Reichweite sind.

OpenAI hat ein neues Modell trainiert, um Operator zu steuern, das die visuelle Erfassung von GPT-40 mit den Denkfähigkeiten von o1 kombiniert.

Dieses Modell scheint gut für grundlegende Aufgaben zu funktionieren; ich habe beobachtet, wie Operator Knöpfe klickt, Menüs auf Websites navigiert und Formulare ausfüllt. Die KI war gelegentlich erfolgreich dabei, eigenständig Aktionen durchzuführen, und sie arbeitet viel schneller als webbasierte Agenten, die ich von Anthropic und Google gesehen habe.

Aber während meines Tests musste ich OpenAI's Agenten öfter unterstützen, als ich es gerne gehabt hätte. Es fühlte sich an, als würde ich Operator bei jedem Problem coachen, während ich bestimmte Aufgaben lieber ganz von meinem Teller schieben wollte.

Zu oft während meines Tests musste ich mehrere Fragen beantworten, Berechtigungen erteilen, persönliche Informationen ausfüllen und dem Agenten helfen, wenn er stecken geblieben ist.

Im Autobahnverkehr ist Operator wie das Fahren eines Autos mit Tempomat - gelegentlich den Fuß von den Pedalen nehmen und das Auto selbst fahren lassen - aber es ist weit entfernt von einem vollautomatischen Autopiloten.

Tatsächlich sagt OpenAI, dass die häufigen Pausen von Operator absichtlich sind.

Die KI, die Operator antreibt, kann, ähnlich wie die KI von Chatbots wie OpenAI's ChatGPT, nicht zuverlässig für längere Zeit eigenständig arbeiten und ist anfällig für die gleiche Art von Halluzinationen. Deshalb will OpenAI dem System nicht zu viel Entscheidungsbefugnis oder sensitive Nutzerinformationen geben. Das ist vielleicht eine sichere Wahl von OpenAI, aber es reduziert die Praktikabilität von Operator.

Dennoch ist OpenAI's erster Agent ein beeindruckender Beweis für ein Konzept - und eine Schnittstelle - für eine KI, die die Vorderseite jeder Website nutzen kann. Um jedoch wirklich unabhängige KI-Systeme zu schaffen, müssen Tech-Unternehmen zuverlässigere KI-Modelle entwickeln, die nicht so viel Unterstützung benötigen.

Ein wenig zu 'hands on'

Mein Operator-Test fiel mit der Woche zusammen, in der ich umgezogen bin, also habe ich OpenAI's Agenten bei den Umzugslogistik geholfen.

Ich bat Operator, mir eine neue Parkgenehmigung zu besorgen. OpenAI's Agent sagte mir: 'Sicher', und öffnete dann ein Fenster in seinem Browser auf dem Bildschirm meines PCs.

Operator führte dann im Browser eine Suche nach einer Parkgenehmigung in San Francisco durch, brachte mich zur richtigen Stadtwebsite und sogar zur richtigen Seite.

Operator lässt Sie immer noch den Rest Ihres Computers benutzen, während es arbeitet, was man von Googles Projekt Mariner nicht behaupten kann. Das liegt daran, dass OpenAI's Agent nicht wirklich auf dem Computer arbeitet, sondern irgendwo in der Cloud.

Die Betriebsoberfläche (Credit: Maxwell Zeff/OpenAI)

Bei meiner Parkgenehmigung musste ich Operator mehrmals die Berechtigung geben, verschiedene Prozesse zu starten. Es hielt auch an, um mich aufzufordern, Formulare mit persönlichen Informationen auszufüllen - wie meinen Namen, Telefonnummer und E-Mail-Adresse. Manchmal verirrte sich Operator auch, was mich dazu zwang, die Kontrolle über den Browser zu übernehmen und den Agenten wieder auf Kurs zu bringen.

In einem anderen Test bat ich Operator, mir eine Reservierung in einem griechischen Restaurant zu machen. Zu seiner Ehre fand Operator für mich ein schönes Restaurant in meiner Gegend mit vernünftigen Preisen. Aber ich musste während des Ablaufs mehr als ein halbes Dutzend Fragen beantworten.

Einige Schritte zur Reservierung mit Operator (Credit: Maxwell Zeff/OpenAI)

Wenn Sie sechs oder mehr Mal eingreifen müssen, nur um eine Reservierung über einen KI-Agenten zu buchen, wann ist es einfacher, es einfach selbst zu machen? Diese Frage habe ich mir oft gestellt beim Testen von Operator.

Agent-als-Plattform

In einigen meiner Tests stieß ich auf Websites, die Operator aus irgendeinem Grund blockierten. Zum Beispiel versuchte ich, einen Elektriker über TaskRabbit zu buchen, aber OpenAI's Agent teilte mir mit, dass es zu einem Fehler gekommen sei, und fragte, ob es stattdessen einen alternativen Service verwenden könnte. Auch Expedia, Reddit und YouTube blockierten den KI-Agenten vom Zugriff auf ihre Plattformen.

Andere Dienste hingegen heißen Operator herzlich willkommen. Instacart, Uber und eBay haben mit OpenAI für den Start von Operator zusammengearbeitet und erlauben es dem Agenten, ihre Websites im Auftrag von Menschen zu navigieren.

Diese Unternehmen bereiten sich auf eine Zukunft vor, in der ein Teil der Benutzerinteraktionen von einem KI-Agenten erleichtert wird.

'Kunden nutzen Instacart über verschiedene Einstiegspunkte hinweg', sagte Daniel Danker, Chief Product Officer bei Instacart, in einem Interview mit TechCrunch. 'Wir sehen Operator als potenziell einen weiteren dieser Einstiegspunkte.'

Die Zulassung von OpenAI's Agent zur Nutzung der Instacart-Website im Auftrag einer Person scheint Instacart von seinen Kunden zu entfernen. Allerdings möchte Instacart, wie Danker sagt, die Kunden dort abholen, wo sie sind.

'Wir sind wirklich optimistisch in unserer Überzeugung, ähnlich wie OpenAI, dass agenische Systeme einen großen Einfluss darauf haben werden, wie Verbraucher mit digitalen Eigenschaften interagieren', sagte Nitzan Mekel-Bobrov, Chief AI Officer von eBay, in einem Interview mit TechCrunch.

Auch wenn KI-Agenten an Popularität gewinnen, erwartet Mekel-Bobrov, dass die Nutzer immer auf die eBay-Website kommen werden, und merkt an, dass 'Online-Ziele nirgendwohin gehen'.

Vertrauensfragen

Nachdem Operator einige Male gehalluziniert hatte und mir fast mehrere hundert Dollar gekostet hätte, hatte ich Probleme, ihm zu vertrauen.

Zum Beispiel bat ich den Agenten, mir einen Parkplatz in der Nähe meiner neuen Wohnung zu finden. Er schlug schließlich zwei Parkhäuser vor, von denen er sagte, dass sie nur ein paar Minuten zu Fuß entfernt seien.

Halluzination über Parkplatzabstände (Credit: Maxwell Zeff/OpenAI)

Abgesehen davon, dass sie weit über meinem Budget lagen, waren die Parkhäuser tatsächlich sehr weit von meiner Wohnung entfernt. Eins war 20 Minuten zu Fuß entfernt, das andere 30 Minuten. Es stellte sich heraus, dass Operator die falsche Adresse eingegeben hatte.

Genau aus diesem Grund gibt OpenAI seinem Agenten nicht Ihre Kreditkartennummer, Passwörter oder Zugriff auf E-Mails. Wenn OpenAI mir hier nicht intervenieren lassen hätte, hätte Operator Hunderte von Dollar für einen Parkplatz verschwendet, den ich nicht brauchte.

Halluzinationen wie diese sind ein wichtiger Stolperstein für tatsächlich nützliche autonome Agenten - solche, die lästige Aufgaben von Ihrem Teller nehmen können. Niemand wird Agenten vertrauen, wenn sie dazu neigen, grundlegende Fehler zu machen, insbesondere solche mit realen Konsequenzen.

Mit Operator hat OpenAI anscheinend einige beeindruckende Werkzeuge geschaffen, um KI-Systemen das Surfen im Web zu ermöglichen. Aber diese Werkzeuge werden nicht viel bringen, bis die zugrunde liegende KI zuverlässig das tun kann, was die Benutzer von ihr verlangen. Bis dahin werden Menschen gezwungen sein, Agenten zu unterstützen - nicht andersherum. Und das macht irgendwie den Punkt zunichte.

Polare Sicht

OpenAI-Agent hat mir beim Umzug geholfen, aber ich musste ihm auch helfen

Ein wenig zu 'hands on'

Agent-als-Plattform

Vertrauensfragen

Recent Posts

Wie man sich vor Betrügern schützt, die gefälschte Arbeitsplätze anbieten

Journalist, der von Paragon-Spionagesoftware auf WhatsApp ins Visier genommen wurde: 'Ich fühle mich verletzt'

Jury unterstützt Bungie in Klage gegen Cheat-Hersteller Aimjunkies

Trump wählt Apple-Manager aus, um Verkehrsbehörde zu leiten

De Jong kehrt nach fast 5 Monaten nach Knöchelverletzung ins Barcelona-Team zurück