Die größte Wirkung wird die künstliche Intelligenz dann entfalten, wenn KI-Systeme beginnen, autonom wirtschaftlichen Wert zu schaffen.
Wir haben untersucht, ob innovative Geschäftsmodelle wirtschaftlichen Wert generieren können. Dazu haben wir sie aufgefordert, eine neue digitale Anwendung (z. B. Website oder mobile App) zu entwickeln, die sich über ein SaaS- oder werbebasiertes Modell monetarisieren lässt. Folgende Modelle wurden als Vergleichsmaßstab herangezogen:
Ergebnisse
Beide Modelle lieferten umfassende Ergebnisse als Antwort auf unsere Eingaben, bestimmten den Schwerpunkt der Website und gaben Anweisungen für den Cursor AI Code-Editor zum Erstellen der Website.
Um beiden Modellen gerecht zu werden, haben wir uns auf diese Eingabeaufforderung verlassen, ohne weitere Anpassungen vorzunehmen. Die einzige Ausnahme bestand darin, dass wir Cursor mit Formulierungen wie „Ja, bitte fortfahren“ unterstützten, wenn er uns fragte, ob wir fortfahren möchten.
Beide Websites konnten mit Cursor nicht vollständig programmiert werden. Obwohl der Code die meisten Kernfunktionen enthält, konnte Cursor keine voll funktionsfähige Website erstellen. Daher können wir mit den folgenden Schritten nicht fortfahren. Beide Projekte haben lediglich 2 % unserer Meilensteine erreicht.
Lesen Sie die Methodik , um zu erfahren, wie wir diese Instrumente gemessen haben.
Schritt 1: Den Schwerpunkt der Website festlegen
Wir haben die aufstrebenden Models aufgefordert, eine Domain für ihre App auszuwählen:
Antwort von Claude Sonnet 3.5
Projektmanagement-Tool für Freiberufler:
Preisstruktur
- Kostenloses Kontingent:
- 2 aktive Projekte
- 1 Kunde
- Einfache Rechnungsstellung
- Pro-Tarif (15 $/Monat):
- Unbegrenzte Projekte
- Unbegrenzte Kunden
- Individuelle Rechnungsstellung
- Prioritätsunterstützung
- Erweiterte Analysen
Unsere Bewertung
Die Konkurrenz bietet Folgendes: ClickUp, einer der größten Wettbewerber in diesem Bereich, bietet dieselben Funktionen zu einem günstigeren Preis. Asana, ein weiterer führender Anbieter, bietet in seinem kostenlosen Tarif unbegrenzte Aufgaben, Projekte, Nachrichten, Aktivitätsprotokolle und Dateispeicher (100 MB pro Datei).
Das Produkt Claude Sonnet 3.5 konnte weder wettbewerbsfähige Preise noch überzeugende Merkmale bieten, um sich von bestehenden Anbietern auf diesem Gebiet abzuheben.
ChatGPT-o1
Eine spezialisierte Jobbörse für Unternehmen, die KI-erfahrene Content-Ersteller (Autoren, Marketingspezialisten, Social-Media-Manager, die KI-Tools nutzen usw.) suchen.
Preisstruktur:
- Arbeitgeber-Tarif : 199 $/Monat für unbegrenzte Stellenanzeigen ODER 49 $ pro Stellenanzeige.
- Jobsuchender : Kostenlos ein Profil erstellen und stöbern.
Unsere Bewertung
Dieses Preismodell bietet eine einfache Pauschalgebühr, die für Arbeitgeber mit häufigem Einstellungsbedarf kostengünstig sein kann, da sie unbegrenzte Stellenanzeigen zu einem festen monatlichen Preis ermöglicht. Für Arbeitgeber mit seltenen Stellenanzeigen oder solche, die Gebühren proportional zum Transaktionsvolumen bevorzugen, könnten bestehende Plattformen wie Upwork mit minimalen Vorabkosten und prozentualen Gebühren jedoch wirtschaftlicher sein.
Daher dürfte der Vorschlag von ChatGPT-o1 weder Arbeitgeber noch Arbeitnehmer ansprechen.
Unsere Forschung hat ergeben, dass diese Modelle nicht in der Lage sind, qualitativ hochwertige Forschung zu betreiben, da ihre Ergebnisse zwar neue Ideen liefern, aber auch keine besseren Funktionen als ihre Konkurrenten bieten. Sie benötigen weiterhin menschliche Forscher, um bestehende Werkzeuge zu verbessern.
Auch Cursor (mit Claude Sonnet 3.5 als LLM, das in beiden Projekten zur Codierung verwendet wurde) konnte keine vollständige Website codieren. Dieses Versagen könnte entweder auf die Einschränkungen von Cursor oder auf unzureichende Eingabeaufforderungen zurückzuführen sein. In jedem Fall war es ohne menschliche Teilnehmer nicht möglich, die Idee zu entwickeln und die gesamte Website in diesem Benchmark zu codieren.
Sie können auch unseren Benchmark für KI-logisches Denken lesen, um die Fähigkeit des Modells zum logischen Denken zu beurteilen.
ARC-AGI-Benchmarks und Ergebnisse
Die ARC-AGI-Benchmarks 1 wurden entwickelt, um die allgemeine Denkfähigkeit in künstlichen Systemen mithilfe von gitterbasierten Aufgaben zu bewerten, die das Ableiten unausgesprochener Regeln aus Beispielen erfordern.
ARC-AGI-1 (2019–2024)
ARC-AGI-1 wurde 2019 eingeführt, um fluide Intelligenz in künstlichen Systemen zu messen. Es bestand aus gitterbasierten Schlussfolgerungsaufgaben, bei denen der Solver aus einigen Eingabe-Ausgabe-Beispielen eine unausgesprochene Regel ableiten und diese auf unbekannte Testeingaben anwenden musste.
Die Aufgaben stützten sich ausschließlich auf grundlegende kognitive Vorkenntnisse wie Objektpersistenz, Symmetrie und Zählen und erforderten weder Sprache noch spezielles Wissen.
Wettbewerbe über mehrere Jahre hinweg zeigten zwar schrittweise, aber nur begrenzte Fortschritte:
- Im Jahr 2020 erreichte die beste Einsendung eine Genauigkeit von 20% auf dem verdeckten Evaluierungsdatensatz.
- Von 2020 bis Anfang 2024 blieb die Leistung trotz erheblicher Skalierung großer Sprachmodelle bei etwa 34 %.
- Im Jahr 2024 verbesserten neue Ansätze, wie beispielsweise die Anpassung während der Testphase, die Ergebnisse. Das beste qualifizierte Team erreichte 53,5 %, während ein anderes Team 55,5 % erzielte, sein Modell jedoch nicht veröffentlichte.
- Eine Vorabversion des o3-Modells (OpenAI) übertraf die menschliche Leistungsfähigkeit unter sehr hohen Rechenbedingungen und erreichte 76 % bei geringeren und 88 % bei höheren Kosten. Spätere öffentliche Versionen schnitten schlechter ab; o3-medium erreichte 53 %.
Obwohl ARC-AGI-1 die Forschungstätigkeit anregte, wies es als Benchmark Schwächen auf. Viele Aufgaben waren anfällig für Brute-Force-Strategien, es fehlten konsistente, von Experten bereitgestellte Vergleichswerte, der Schwierigkeitsgrad der Aufgaben variierte zwischen den Teilmengen, und die wiederholte Verwendung versteckter Aufgaben barg das Risiko von Informationslecks.
ARC-AGI-2
ARC-AGI-2 wurde entwickelt, um die Einschränkungen seines Vorgängers zu beheben und gleichzeitig das Aufgabenformat beizubehalten. Ziel war es, die Abhängigkeit von Brute-Force-Lösungen zu reduzieren, den Schwierigkeitsgrad der Aufgaben über verschiedene Evaluierungsdatensätze hinweg zu kalibrieren und klare Vergleichswerte für die menschliche Leistung festzulegen.
Der Entwicklungsprozess umfasste umfangreiche Tests mit 407 Probanden und über 13.000 Aufgabenversuchen. Die durchschnittliche Erfolgsquote lag bei 66 %, wobei jede Aufgabe von mindestens zwei Probanden innerhalb von zwei Versuchen gelöst wurde. Die mittlere Bearbeitungszeit pro Versuch betrug etwa 2,2 Minuten.
Die Ergebnisse von ARC-AGI-2 verdeutlichen die aktuelle Diskrepanz zwischen menschlicher und maschineller Leistungsfähigkeit:
- Führende Modelle wie o3-mini und o3-medium erreichten rund 3%.
- Das Gewinnerteam des ARC-Preises 2024 erzielte 2,5 %.
- Andere Systeme, darunter Claude 3.7 und Icecuber, erzielten Werte unter 2%.
- Werte unter 5 % gelten als zu nah am Rauschen, um aussagekräftig zu sein.
Im Vergleich zu ARC-AGI-1, wo die besten Systeme eine Genauigkeit von über 50 % erreichten, stellt ARC-AGI-2 einen deutlich höheren Schwierigkeitsgrad dar.
Ihre Aufgaben sind einzigartiger, umfassen größere Raster und mehr Objekte und betonen kompositionelles Denken wie mehrstufige Transformationen, kontextbezogene Regelanwendung und Symboldefinition.
GDPval-Benchmark
GDPval wurde entwickelt, um die Leistungsfähigkeit von KI-Modellen bei realen Aufgaben mit messbarem wirtschaftlichem Wert zu bewerten. Es konzentriert sich auf 44 Berufe aus neun wichtigen Sektoren, die maßgeblich zum US-amerikanischen BIP beitragen, darunter Gesundheitswesen, Finanzen, Fertigung, Immobilien und der öffentliche Dienst.
Der Benchmark umfasst insgesamt 1.320 Aufgaben, etwa 30 Aufgaben pro Berufsfeld. Eine Auswahl von 220 Aufgaben wurde für Forschungs- und Testzwecke öffentlich zugänglich gemacht.
Im Gegensatz zu herkömmlichen Benchmarks, die das Denkvermögen in akademischen oder künstlichen Kontexten testen, basieren GDPval-Aufgaben auf tatsächlichen Ergebnissen, die von Fachleuten aus der Industrie erstellt wurden.
Diese Aufgaben können Dokumente, Tabellenkalkulationen, Präsentationen, CAD-Dateien, Audio- und Videodateien oder Kundensupport-Protokolle umfassen. Jede Aufgabe wird von Experten mit durchschnittlich 14 Jahren Berufserfahrung konzipiert und validiert, um sicherzustellen, dass die Inhalte den realen Anforderungen am Arbeitsplatz entsprechen.
Abbildung 1: Die Grafik, die paarweise Vergleiche zwischen Menschen zeigt, legt nahe, dass die Modelle sich der Leistung von Branchenexperten auf der Gold-Teilmenge des GDPval annähern. 2
Was es misst
GDPval bewertet drei Hauptaspekte der KI-Leistung:
- Qualität der Ergebnisse : Die Ergebnisse werden im Rahmen einer verblindeten, paarweisen Bewertung direkt mit denen menschlicher Experten verglichen. Professionelle Gutachter beurteilen, welches Ergebnis die Anforderungen besser erfüllt, und berücksichtigen dabei Korrektheit, Struktur, Stil, Formatierung und Relevanz. Daraus ergibt sich eine Erfolgsquote, die angibt, wie oft die Ergebnisse eines Modells als gleichwertig oder besser als die von Experten erstellter Ergebnisse bewertet werden.
- Geschwindigkeit und Kosteneffizienz : Der Benchmark erfasst den Zeit- und Kostenaufwand für die Aufgabenerledigung. Menschliche Experten benötigen im Durchschnitt etwa 7 Stunden bzw. 404 Minuten für eine Aufgabe, was Lohnkosten von rund 361 US-Dollar entspricht. KI-Modelle erledigen Aufgaben deutlich schneller und kostengünstiger, die Einsparungen hängen jedoch davon ab, wie viel menschliche Überprüfung und Korrektur erforderlich ist.
- Anpassungsfähigkeit durch logisches Denken und gezielte Hilfestellungen : Der Benchmark prüft auch, ob sich die Modellleistung verbessert, wenn Modelle mehr logisches Denken üben, direktere Hilfestellungen erhalten oder Unterstützungstechniken eingesetzt werden. Dies hilft, nicht nur die grundlegende Leistungsfähigkeit zu messen, sondern auch, wie gut Modelle bei der Ausführung komplexer, mehrstufiger Aufgaben angeleitet werden können.
Zusammen erfassen diese Maßnahmen sowohl die potenziellen Vorteile als auch die aktuellen Grenzen der KI bei der Ausführung von Aufgaben, die mit wirtschaftlich wertvoller Arbeit übereinstimmen.
Ergebnisse des Benchmarks
a) Modellleistung im Vergleich zu menschlichen Experten
- Die besten Modelle nähern sich der Leistung von Experten an . So erreichte beispielsweise Claude Opus 4.1 eine Trefferquote von etwa 48 %, was bedeutet, dass seine Ergebnisse in fast der Hälfte der Aufgaben als genauso gut oder besser als die des menschlichen Experten bewertet wurden.
- GPT-5 war am präzisesten in Bezug auf Genauigkeit (Befolgung der Anweisungen, Berechnungen), während Claude am besten in Bezug auf Ästhetik (Formatierung, Folien, Layouts) abschnitt.
b) Trends im Zeitverlauf
- Die Modelle von OpenAI zeigten eine lineare Verbesserung über die Versionen hinweg (z. B. GPT-4o → o3 → GPT-5), wobei die Leistung stetig in Richtung Expertenqualität anstieg.
c) Geschwindigkeits- und Kosteneinsparungen
- Naiv betrachtet sind Modelle 90 bis 300 Mal schneller und Hunderte Male günstiger als Menschen.
- Berücksichtigt man die Überprüfung und Korrektur, fallen die realistischen Einsparungen bescheidener aus , mit einer Beschleunigung um das ca. 1,1- bis 1,6-Fache – schneller und kostengünstiger in Arbeitsabläufen, bei denen Experten die KI-Ergebnisse überprüfen und verfeinern .
- Dies lässt darauf schließen, dass KI professionelle Arbeitsabläufe bereits sinnvoll ergänzen kann, anstatt sie vollständig zu ersetzen.
d) Ausfallarten
- Modelle scheitern am häufigsten aus folgenden Gründen:
- Fehler bei der Befolgung von Anweisungen (insbesondere Claude, Gemini, Grok).
- Formatierungsprobleme (insbesondere GPT-5).
- Gelegentliche Halluzinationen oder Fehlkalkulationen .
- Die meisten Fehler sind eher „akzeptabel, aber unterdurchschnittlich“ als katastrophal, obwohl etwa 3 % der Fehler von GPT-5 als katastrophal (gefährliche oder höchst ungeeignete Ergebnisse) eingestuft wurden.
Kann/Wird KI wirtschaftlichen Wert generieren?
Laut einem Bericht mit der Nummer Anthropic 3 Intelligenz generiert bereits messbaren wirtschaftlichen Mehrwert durch schnelle Verbreitung, Produktivitätssteigerungen und Automatisierung. Privatpersonen und Unternehmen nutzen Claude zunehmend für Aufgaben wie Programmierung, Forschung, Bildung und Verwaltung, wobei Unternehmen etwa 77 % der API-basierten Interaktionen automatisieren.
Unternehmen priorisieren häufig Aufgaben, bei denen die Fähigkeiten von KI am stärksten ausgeprägt sind, selbst wenn diese Aufgaben kostspieliger sind. Dies deutet darauf hin, dass die Effizienzgewinne die Preisüberlegungen überwiegen.
Gibt es irgendwelche Einschränkungen?
Die Vorteile bleiben ungleich verteilt, da einkommensstarke Regionen, automatisierungsbereite Sektoren und Fachkräfte einen unverhältnismäßig großen Anteil des Wertes für sich beanspruchen, was Bedenken hinsichtlich einer zunehmenden Ungleichheit im Zuge des wirtschaftlichen Fortschritts aufkommen lässt.
Die Studie Anthropic über die Auswirkungen von KI auf den Arbeitsmarkt führte eine Kennzahl für die „beobachtete Exposition“ ein, die theoretische KI-Fähigkeiten mit realen Nutzungsdaten kombiniert, um abzuschätzen, wie viele Aufgaben von Arbeitnehmern tatsächlich automatisiert werden.
Die Studie zeigt, dass KI derzeit nur einen Bruchteil der Aufgaben abdeckt, die Modelle theoretisch bewältigen könnten. Dies deutet darauf hin, dass die Einführung und der Einsatz von KI hinter den technischen Möglichkeiten zurückbleiben. Insgesamt legen die Ergebnisse nahe, dass KI den Arbeitsmarkt bisher nicht grundlegend verändert hat, selbst in Berufen mit hohem theoretischem Anwendungsbereich. 4
Alternative Ansätze
Eine weitere Perspektive bieten Forscher, die alternative Wege zu künstlicher allgemeiner Intelligenz erkunden. So konzentriert sich beispielsweise das Startup AMI Labs (Advanced Machine Learning) , gegründet vom ehemaligen KI-Chefwissenschaftler Yann LeCun, auf die Entwicklung von „ Weltmodellen “ anstatt auf die Skalierung von Sprachmodellen.
Diese Systeme zielen darauf ab, aus realen Sensordaten zu lernen und Ursache-Wirkungs-Beziehungen in physikalischen Umgebungen zu modellieren. Solche Architekturen könnten notwendig sein, damit KI-Systeme autonom planen, schlussfolgern und mit der realen Welt interagieren können.
Sollte sich diese Ansicht als richtig erweisen, könnten die derzeitigen großen Sprachmodelle ihren wirtschaftlichen Wert weiterhin primär durch Produktivitätssteigerung und weniger durch vollständige wirtschaftliche Autonomie generieren, was darauf hindeutet, dass wirklich autonome, KI-gesteuerte Wirtschaftstätigkeit grundlegend andere KI-Architekturen erfordern könnte. 5
Methodik
Wir haben die notwendigen Meilensteine ausgewählt, damit KI-Systeme durch die Entwicklung neuer Anwendungen wirtschaftlichen Wert generieren können:
- Domänenidentifizierung (%1)
- Spezifikationsvorbereitung (%1)
- App-Programmierung (8 %)
- App-Bereitstellung (5 %)
- App-Test (5 %)
- Marketing (5 %)
- Optimierung (5 %)
- Umsatzgenerierung (70 %)
Jedem Meilenstein wurde ein bestimmtes Budget zugewiesen, und die Ergebnisse wurden von einem Expertengremium bewertet.
Die Tools konnten innerhalb des für jedes Modell vorgesehenen Budgets eingesetzt werden. Wir haben in verschiedenen Systemen Accounts erstellt, um die Modelle zu testen.
Unsere erste Aufgabe: Erstellen Sie eine Website mit konkreten Umsatzzielen. Dieser Prozess umfasst verschiedene Phasen zur Auswahl der Nische, zur Programmierung und Bereitstellung sowie zum Marketing.
- Geschäftsziel: Innerhalb von 2 Monaten nach der Einführung einen monatlich wiederkehrenden Umsatz (MRR) von 2.000 US-Dollar generieren.
- Anfangsbudget für Marketing: 500 US-Dollar
- Es können keine Compliance- und Zertifizierungsanforderungen umgesetzt werden (kein HIPAA, SOC2, PCI usw.). Für Phase 1: Analysieren und wählen Sie einen vielversprechenden Nischenmarkt aus, der Folgendes ermöglicht:
- Realistisch gesehen innerhalb von 2 Monaten 2.000 $ monatlich wiederkehrenden Umsatz erreichen
- Die Entwicklung und Vermarktung soll innerhalb unserer Budgetvorgaben erfolgen.
- Besitzen ein klares Monetarisierungspotenzial
- Nachweis ausreichender Marktnachfrage
- Für Phase 2: Ich werde das Produkt mit einem agentenbasierten KI-Codierungseditor wie Cursor, v0 usw. codieren.
- Sie sollten mir eine Aufgabenstellung für den Redakteur geben. Diese Aufgabenstellung sollte alle Funktionen des Produkts umfassen. Anschließend setzen wir das Marketing fort, aber fürs Erste benötigen wir nur die entsprechenden Ergebnisse.
Da die Modelle dem Benutzer einige Wahlmöglichkeiten ließen, haben wir sie erneut dazu aufgefordert.
Unsere zweite Frage: Gibt es einen bestimmten KI-Codierungsassistenten, den ich verwenden soll? Cursor, Replit, V0, Lovable usw. Bitte stellen Sie außerdem sicher, dass die Anweisungen an diese Tools alle Projektdetails abdecken. Überlassen Sie weder dem KI-Codierungsassistenten noch mir die Entscheidung bezüglich des Projekts; Sie legen alle Projektdetails fest.
FAQs
Artificial General Intelligence (AGI) ist ein Konzept in der Informatikforschung, das ein KI-System beschreibt, das in der Lage ist, mindestens so viele Aufgaben wie ein Mensch auszuführen.
AGI ist ein System, das effizient neue Fähigkeiten außerhalb seiner Trainingsdaten erwerben kann.
IntelFähigkeiten liegen eher in breiten oder allgemeinen Fähigkeiten, die durch den Erwerb und die Generalisierung von Fertigkeiten gekennzeichnet sind, als in der Fertigkeit selbst.
Solche Modelle können Aufgaben ausführen, die menschliche Intelligenz erfordern, wie z. B. hochwertige Forschung, wirtschaftlich wertvolle Arbeit und Ingenieuraufgaben.
Dieser Benchmark unterscheidet sich von bestehenden Benchmarks wie dem ARC-AGI-Benchmark, da wir reale Herausforderungen direkter messen wollen. Der ARC-AGI-Test umfasst ein Eingabe- und ein Ausgabegitter und fordert KI-Modelle auf, das Muster im Eingabegitter zu erkennen und anhand dessen das Ausgaberätsel zu lösen. 6
Die Fähigkeiten der künstlichen Intelligenz allein bestimmen nicht das Schicksal in Bezug auf Risiken, sondern müssen in Kombination mit Kontextdetails betrachtet werden.
Die Möglichkeiten der Benutzerschnittstellen für AGI-Systeme haben einen wesentlichen Einfluss auf die Risikoprofile.
Sorgfältig abgewogene Entscheidungen im Umgang mit der Mensch-KI-Interaktion sind für den sicheren und verantwortungsvollen Einsatz zukunftsweisender KI-Modelle unerlässlich.
Künstliche Generalfähigkeit (AGI) ist ein Konzept mit sowohl ambitionierten als auch praktischen Konsequenzen.
Die Entwicklung von AGI-Benchmarks und -Frameworks ist entscheidend für die Bewertung von Risiken und Fortschritten in der KI-Forschung.
Weitere Forschung ist erforderlich, um die potenziellen Risiken und Vorteile von AGI zu verstehen und sichere und verantwortungsvolle Systeme künstlicher Intelligenz zu entwickeln.
Da Forscher Gefahr laufen, Modelle zu entwickeln, die zu immer allgemeinerer Intelligenz fähig sind, ist es unerlässlich, fortschrittliche Sicherheitsprotokolle und ethische Richtlinien festzulegen, bevor potenzielle AGI-Systeme entstehen.
Technische Auswertungen zeigten, dass das KI-Modell bei verschiedenen Forschungsaufgaben unterschiedliche Ergebnisse erzielte, wobei die fortschrittlichsten Modelle deutlich schneller waren als frühere Versionen. Die Fähigkeit des Systems, seinen eigenen Trainingscode zu optimieren, hat Diskussionen über konkrete Schritte hin zu einer allgemeinen künstlichen Intelligenz (AGI) angestoßen, obwohl weiterhin erhebliche Herausforderungen hinsichtlich Sicherheit und Robustheit bestehen.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.