KI-Systeme werden zunehmend als vollwertige digitale Mitarbeiter vermarktet, doch ihre tatsächliche Leistung kann je nach Aufgabe, Tools und Einsatzumgebung stark variieren. Um zu verstehen, was diese Systeme heute wirklich leisten können, haben wir praxisnahe Benchmarks in verschiedenen Geschäftsszenarien durchgeführt.
Wir haben über 40 Stunden damit verbracht, die fünf besten KI-Agenten zu testen, um zu sehen, ob sie uns helfen können.
Ergebnisse des Benchmarks für Geschäftsprozesse
Der ChatGPT-Agent ist der erfolgreichste Agent in diesem Benchmark und hat 80 % der Benchmark-Aufgabe abgeschlossen.
ChatGPT-Agent
Der ChatGPT-Agent verbindet den OpenAI-Operator mit komplexer Forschung, indem er dem Agenten die Ausführung umfangreicher Aufgaben mit analytischen Anforderungen ermöglicht. Mit der Veröffentlichung des ChatGPT-Agenten wird der OpenAI-Operator nicht mehr unterstützt.
Es ermöglicht dem Benutzer, die Kontrolle über das Einloggen in Konten oder die Ausführung von Aufgaben zu übernehmen, die für den Agenten schwierig sind.
Es zeigt den verwendeten Browser in Echtzeit an und erläutert die von ihm durchgeführten Aktionen.
Der Agent hat die Navigation, die Verzweigungen und die Aktualisierungen des Diagramms erfolgreich durchgeführt, konnte jedoch die Schaltflächenkonfiguration nicht wie angewiesen aktualisieren, insbesondere keine Schaltflächen für jede Datenkategorie erstellen und dabei das bestehende Styling und die Funktionalität beibehalten.
Google Project Mariner
Google Project Mariner ist noch nicht öffentlich verfügbar, kann aber nach Eintragung in die Warteliste und mit entsprechender Genehmigung getestet werden. Es funktioniert direkt im Browser als Chrome-Erweiterung und kann als interaktiver Prozess eingesetzt werden. Erscheint beispielsweise ein CAPTCHA auf dem Bildschirm, fordert Mariner den Nutzer auf, die Eingabe zu übernehmen und das CAPTCHA zu lösen.
Browsernutzung
Browser Use ist ein Open-Source-KI-Agent , den Sie mit Ihren API-Schlüsseln verwenden können.
Sie können die Aktionen des Agenten in dem von ihm geöffneten Browser-Tab beobachten und außerdem einige Ausgaben seiner Aktionen in Ihrem Terminal lesen. 1
Es meldete sich bei observablehq.com an und erstellte erfolgreich eine Kopie der Vorlage. Anschließend löschte es jedoch die Originalvorlage. Es konnte das kopierte Notebook nicht korrekt benennen. Wir forderten es auf, die Stilzelle beizubehalten, was jedoch nicht gelang, und es konnte keinen Datencode in diese Zelle einfügen. Der Code für Diagramme und Schaltflächen konnte nicht geändert werden.
Wir haben die Browsernutzung mit dem ChatGPT-4o API-Schlüssel verwendet.
Browser Use kann auch in einer WebUI verwendet werden, aber in dieser Aufgabe haben wir das nicht getan. 2
Anthropische Computernutzung
Anthropic legt Wert auf KI-Sicherheit, und wir konnten diese Bemühungen in ihrem Agenten beobachten. Wir haben alle möglichen Wege versucht, aber der Agent konnte sich nicht in unserem ObservableHQ-Konto anmelden. Die Anmeldung wurde aus Sicherheitsgründen verweigert.
Außerdem ist es nicht möglich, den Prozess vom Agenten zu übernehmen und ihn dann weiterlaufen zu lassen, da wir die von Anthropic empfohlene virtuelle Umgebung verwendet haben.
Da der Agent nicht fortfahren konnte, erhielt er daher 0 Punkte für unsere Aufgabe.
Benchmark für Geschäftsprozesse und Preisgestaltung für KI-Agenten
Anthropic Computer Use benötigt API-Schlüssel, wodurch es bei längeren Aufgaben potenziell teurer sein kann als andere Optionen.
Der ChatGPT-Agent kann mit einem ChatGPT-Konto verwendet werden.
Browser Use ist ein Open-Source-Tool, dessen einziger Aufwand API-Aufrufe erfordert.
Methodik für das Benchmarking von Geschäftsprozessen
Wir wollten testen, ob Agenten unseren Geschäftsprozess unterstützen können. Um ein reales Beispiel aus unserem Unternehmen zu untersuchen, entschieden wir uns zu testen, ob sie die interaktiven Diagramme erstellen können, die wir auf observablehq.com erstellt hatten.
Mit dieser Aufgabe wollten wir ihre Werkzeugnutzung und ihre Programmierkenntnisse überprüfen.
Obwohl wir einige Diagrammvorlagen haben, erfordert die Änderung von Daten eine Änderung der Code-Snippets sowohl für Diagramme als auch für Schaltflächen.
Wir haben ihnen folgende Aufforderung gegeben:
# Anweisungen zur Aktualisierung der Observable-Vorlage
Ich habe eine Diagrammvorlage auf observablehq.com. Mithilfe dieser Vorlage sollen Sie neue Diagramme mit den von mir bereitgestellten Daten erstellen. Hier die Anleitung:
1. Zugriff und Einrichtung
– Gehen Sie zu observablehq.com
– Suchen Sie die Vorlage mit dem Namen „vis_template“, forken Sie sie und benennen Sie den Fork unter dem Abschnitt Notebooks „new_graph1“.
2. Vorlagenstruktur
– Stilzelle: Nicht ändern (enthält Schrifteinstellungen)
– Schaltflächenzelle: Muss anhand neuer Daten aktualisiert werden
– Diagrammzelle: Muss anhand neuer Daten aktualisiert werden.
3. Datenverarbeitung
– Sie erhalten Daten zu den Plattformen und deren Bewertungen für verschiedene Kategorien.
– Sowohl Plattformnamen als auch Kategorienamen in den Daten können von der Vorlage abweichen.
Die Datenstruktur wird immer wie folgt aussehen: Plattformen mit Bewertungen (0-1) für jede Kategorie.
4. Erforderliche Aktualisierungen
– Schaltflächen:
* Erstellen Sie für jede Kategorie in den neuen Daten eine Schaltfläche.
* „Übersicht“ als erste Schaltfläche beibehalten
* Beibehaltung des bestehenden Button-Stils und des responsiven Designs
– Grafik:
* Plattformnamen auf der y-Achse aktualisieren
* Alle Punktzahlen und Berechnungen aktualisieren
* Bestehende Farbgebung und Animationen beibehalten
* Mobile Responsive Design beibehalten (Breakpoint < 500px)
5. Testanforderungen
– Überprüfen Sie, ob alle Tasten einwandfrei funktionieren.
– Überprüfen Sie, ob sich die Diagramme aktualisieren, wenn Kategorien ausgewählt sind.
– Responsives Layout in der Mobil- und Desktop-Ansicht testen
– Sicherstellen, dass die Logoplatzierung bei neuen Daten korrekt bleibt.
Wichtig: Struktur und Gestaltung der Vorlage sollten unverändert bleiben – aktualisieren Sie nur die Daten und die notwendigen kategoriebezogenen Elemente.
Hier sind die neuen Daten, die verwendet werden sollen: data = [
{ platform: “AcmeOCR”, Scanned_docs: 0.95, Digital_text: 0.99 },
{ platform: “TextPro”, Scanned_docs: 0.92, Digital_text: 0.97 },
{ platform: “DocReader”, Scanned_docs: 0.88, Digital_text: 0.96 },
{ platform: “SmartScan”, Scanned_docs: 0.85, Digital_text: 0.94 }
]
Um Objektivität zu wahren, haben wir keine weiteren Nachfragen gestellt. Wir antworteten lediglich mit „ Ja “, wenn wir gefragt wurden, ob wir fortfahren möchten, und gaben unsere Zugangsdaten für observablehq.com ein.
Bewertungskriterien :
- Melden Sie sich an – oder lassen Sie den Benutzer sich bei unserem Konto auf observablehq.com anmelden. (10 Punkte)
- Die Vorlage finden (10 Punkte)
- Gabeln (10 Punkte)
- Ändern Sie den Namen (10 Punkte)
- Die Stylingzelle wird nicht berührt. (5 Punkte)
- Aktualisierung der Daten im Code (15 Punkte)
- Aktualisierung des Grafikcodes (20 Punkte)
- Aktualisierung des Button-Codes (20 Punkte)
Bitte seien Sie vorsichtig bei der Verwendung von KI-Agenten auf Ihren eigenen Konten. Dies kann zu Sicherheitsproblemen oder unerwünschten Aktivitäten führen.
Ergebnisse der Web-Suche-Benchmark
Um die Anwendungsfälle von KI-Agenten im Geschäftsleben zu untersuchen, führten wir zwei verschiedene Web-Scraping-Aufgaben durch. Alle Agenten scheiterten bei den meisten Aufgaben. Anthropic Computer und Dendrite schnitten etwas besser ab als Phidata.
Um mehr über Web Scraping zu erfahren, können Sie Roadmap to Web Scraping: Use Cases, Methods & Tools und RPA Web Scraping lesen.
Aufgabe 1:
Aufgabe: Geben Sie alle Cloud-GPU-Anbieter an, die H100 anbieten. Wir benötigen jedes H100-Angebot jedes Anbieters. Daher kann ein GPU-Anbieter in mehreren Zeilen erscheinen, wenn er mehrere H100-GPU-Angebote anbietet (z. B. ein Angebot mit einer einzelnen H100 und ein weiteres mit zwei H100-GPUs). Für jede Zeile benötigen wir folgende Daten: URL, unter der das Angebot geteilt wird, Anzahl der GPUs als Ganzzahl und Preis pro Stunde als Dezimalzahl in US-Dollar. Ausgabe im JSON-Format.
Wir bewerteten ihre Fähigkeiten,
Finden Sie alle korrekten Quellen (Abbildung 1).
Stellen Sie korrekte Informationen bereit (Abbildung 2).
Aufgabe 2:
Aufgabe: Finden Sie private B2B-Tech-Unternehmen, die im Oktober 2024 Finanzmittel erhalten haben. Formatieren Sie jedes Ergebnis wie folgt: [Company name] hat [amount] in [Sektor/Branche] erhalten.
Bei dieser Aufgabe konnten weder Anthropic Computer use (Abbildung 3) noch Phidata (Abbildung 4) Antworten liefern.
Die Suche von ChatGPT ergab 7 Unternehmen, von denen 6 korrekt sind. Ein Unternehmen wurde jedoch mit einer Finanzierungsrunde im August 2024 gelistet, was nicht unserer Anforderung für Unternehmen entspricht, die im Oktober 2024 eine Finanzierungsrunde abgeschlossen haben. Daher ist diese Information fehlerhaft.
Dendrite hat korrekterweise zwei Unternehmen angegeben, obwohl es deutlich mehr gibt. Dies liegt daran, dass die Suchergebnisse unvollständig waren.
Perplexity hat 6 Unternehmen genannt, und obwohl deren Namen, eingeworbene Summen und Branchen korrekt sind, hat keines dieser Unternehmen die Finanzierungsrunde im Oktober 2024 abgeschlossen. Daher erfüllen diese Informationen nicht unsere Anforderungen.
Die führenden Köpfe dieser Aufgabe sind also ChatGPT search und Dendrite.
Anthropische Computernutzung
Die Nutzung eines Computers erfordert zahlreiche API-Aufrufe für eine einzelne Aufgabe. Die Ausführung eines Agenten mit Computernutzung ist langsam.
Anfangs traten Probleme aufgrund der Ratenbegrenzungen von Anthropic auf. In Tier 1 erlaubt Anthropic Nutzern 50 API-Anfragen pro Minute. Dies reichte nicht aus, um unsere Aufgaben abzuschließen, weshalb wir die Eingabeaufforderung mehrmals ausführen mussten.
Daraufhin beantragten wir ein höheres API-Limit und erhielten dieses innerhalb weniger Stunden, was Benchmarking ermöglichte.
Verwirrung
Das Suchtool von Perplexity ist direkt auf der Website zugänglich. Wie die ChatGPT-Suche handelt es sich nicht um eine agentenbasierte KI, wir haben es aber dennoch in unsere Tests einbezogen, da unsere Benchmark-Aufgabe Web-Scraping beinhaltet.
ChatGPT-Suche
Die Suchfunktion von ChatGPT steht Pro- und Team-Nutzern direkt in der ChatGPT-Oberfläche zur Verfügung. Obwohl es sich nicht um eine agentenbasierte KI handelt, haben wir sie in unsere Tests einbezogen, da der Fokus dieses Benchmarks auf Web-Scraping liegt.
Dendrit
Dendrite stellt auf seiner Website Beispiele für Agenten bereit, wie etwa Datenextraktionsagenten, was die Entwicklung neuer Agenten erleichtert.
Die Agenten von Dendrite laufen langsamer als die meisten anderen Agenten in diesem Benchmark.
Im Gegensatz zu anderen Suchagenten müssen die Nutzer hier die Suchanfrage selbst eingeben.
Phidata
Phidata stellt auf seiner Website Beispiele wie Web-Suchagenten bereit, um die Entwicklung neuer Agenten zu vereinfachen. Wir haben innerhalb weniger Minuten einen Agenten entwickelt.
Die von den Agenten von Phidata in unserem Benchmark erzeugten, halluzinierten Ergebnisse enthielten Links zu Seiten und Preisinformationen, die nicht existieren.
Web-Suchvergleich KI-Agenten Preisgestaltung
Die Kosten für die Nutzung des Anthropic-Computers basieren auf API-Anfragen. Beispielsweise haben wir ca. 2,50 $ für die Ausführung dieser beiden Aufgaben ausgegeben, wobei wir jede Aufgabe mehrmals ausgeführt haben. 0,50 $ pro Aufgabenausführung sind teuer. Wenn Sie agentenbasierte Prozessautomatisierung nutzen möchten, finden Sie kostengünstigere Alternativen.
Die Suchfunktion von ChatGPT steht Nutzern zur Verfügung, die den Plus-Tarif bzw. den Team-Tarif abonniert haben. Die Preise betragen 20 US-Dollar pro Monat bzw. 25 US-Dollar pro Nutzer und Monat (jährliche Abrechnung).
Dendrite bietet einen eingeschränkten Gratis-Tarif und einen Entwickler-Tarif zum Preis von 30 US-Dollar an. Genauere Informationen zu den Einschränkungen des Gratis-Tarifs werden aktualisiert, sobald sie offiziell veröffentlicht sind.
Phidata bietet kostenlose, Pro- und Enterprise-Tarife an. Andere Tarife als der kostenlose sind derzeit nicht verfügbar. Das Unternehmen gibt außerdem an, einen kostenlosen Pro-Tarif für Studierende, Lehrkräfte und Start-ups anzubieten.
Unsere Methodik für Web-Such-Benchmarks
Versionen : Die neueste Version ist ab dem 1. November 2024 verfügbar.
Bereitstellungsumgebung:
Dendrite und Phidata wurden auf unserem Laptop ausgeführt.
Die Nutzung von Anthropic Computer erfolgte auf einer Cloud-VM, da von einer Installation auf Benutzergeräten abgeraten wurde.
Die ChatGPT-Suchfunktion und Perplexity sind direkt auf den jeweiligen Webseiten verfügbar.
Verfahren:
Um die Web-Suchfähigkeiten der Anbieter zu bewerten, haben wir zunächst eine Referenzliste der Cloud-H100-Anbieter zusammengestellt. Anschließend haben wir diese mit den Ergebnissen der KI-Agenten verglichen.
Um die Richtigkeit der Informationen zu beurteilen, haben wir alle von ihnen angegebenen Links überprüft, um festzustellen, ob die von ihnen bereitgestellten Informationen korrekt waren oder nicht.
Wir haben keine umgehenden technischen Maßnahmen ergriffen, um genauere Ergebnisse zu erzielen.
Punktevergabe:
Da die Anzahl der Ergebnisse variiert, haben wir das Bewertungssystem so einfach wie möglich gestaltet. Bei Aufgabe 1 erhält ein Produkt, das eine URL aus einer unzuverlässigen Quelle zurückgibt, 0 Punkte.
Darüber hinaus variiert die Anzahl der Ausgaben zwischen 6 und 28. Daher ist zu beachten, dass ein Produkt mit 3 richtigen Antworten bei 6 Ausgaben und ein anderes mit 14 richtigen Antworten bei 24 Ausgaben in Abbildung 2 die gleiche Punktzahl erhalten.
Wir haben die Produkte für Aufgabe 2 nicht bewertet, da die Suchergebnisse je nach verwendetem Browser und Standort des Nutzers stark variieren und die Produkte die Daten entsprechend aus diesen Quellen extrahieren. Da ChatGPT und Dendrite jedoch genaue Ergebnisse lieferten, gelten sie als führend in dieser Aufgabe.
Haftungsausschluss
Da die Agenten unterschiedliche Browser und Standorte verwenden, können diese Modelle beim Web-Scraping auf verschiedene Quellen stoßen. Um alle Agenten gleich zu behandeln, wurden alle potenziellen Quellen in unsere Referenzdaten aufgenommen.
Da sich diese Produkte in Version 1 oder der Beta-Phase befinden, weisen sie verschiedene Einschränkungen auf. Wir werden weiterhin Benchmarks durchführen und die Ergebnisse aktualisieren, sobald sich neue Entwicklungen ergeben.
Da diese Modelle neu entwickelt wurden, können sie Sicherheitslücken aufweisen. Daher empfehlen wir, sie in einer virtuellen Maschine oder einem Container zu verwenden. Anthropic weist ebenfalls auf die Notwendigkeit hin, diese Vorsichtsmaßnahme bei der Computernutzung zu beachten. 3
FAQs
KI-Agenten können komplexe Arbeitsabläufe automatisieren, wodurch der Bedarf an menschlichen Eingriffen reduziert und die Effizienz gesteigert wird. Sie können Ausnahmen und Sonderfälle bewältigen und sind daher zuverlässiger als herkömmliche Automatisierungslösungen.
KI-Agenten können Aufgaben übernehmen, die für Menschen schwierig oder langweilig wären. Sie können auch für die Verarbeitung natürlicher Sprache, die Datenverarbeitung und die Datenanalyse eingesetzt werden.
Wählen Sie einen Anbieter unter Berücksichtigung Ihrer Bedürfnisse, Fähigkeiten und Preise.
Sie lassen sich über API-Aufrufe in externe Systeme integrieren und können auf eine Vielzahl von Datenquellen zugreifen.
Entwerfen Sie die Aufgabe für Ihren KI-Agenten. Sie sollten in der Lage sein, eine zielorientierte und für das Modell nicht verwirrende Aufforderung zu geben.
KI-Systeme müssen unter Berücksichtigung von Datenschutz und Datensicherheit entwickelt werden, beispielsweise durch Verschlüsselung und Zugriffskontrollen. Im aktuellen Entwicklungsstadium raten wir Ihnen davon ab, sensible Daten mit KI-Systemen zu teilen.
KI-Agenten können Effizienz und Produktivität steigern, indem sie sich wiederholende Aufgaben automatisieren und menschliche Agenten für komplexere Aufgaben freistellen.
Sie können Unternehmensdaten analysieren und Geschäftsprozesse automatisieren. Weitere Informationen finden Sie unter agentenbasierte Prozessautomatisierung. Durch die Entwicklung autonomer Agenten können Sie Prozesse automatisieren und mehr Aufgaben erledigen lassen.
Wenn Sie in Ihrem Unternehmen einen Agenten einsetzen, verwenden Sie Kennzahlen wie Effizienz, Produktivität und Kundenzufriedenheit, um den Erfolg von KI-Agenten zu messen.
Überwachen Sie die Leistung der KI-Agenten im Laufe der Zeit und nehmen Sie bei Bedarf Anpassungen vor.
Nutzen Sie Daten und Analysen, um Einblicke in die Entscheidungsprozesse und die Zuverlässigkeit von KI-Agenten zu gewinnen.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.