Dienstleistungen
Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Große Actionmodelle: Hype oder Realität?

Cem Dilmegani
Cem Dilmegani
aktualisiert am Apr 1, 2026
Siehe unsere ethischen Normen

Nach dem Start von Rabbit, einem KI-Gerät, das mobile Apps nutzen kann, gewinnt der Begriff „Large Action Models“ (LAMs) an Bedeutung. Diese Modelle gehen über die reine Konversation hinaus, indem sie LLMs in „Agenten“ verwandeln, die die isolierte, app-gesteuerte Welt miteinander verbinden können, ohne dass ein Nutzer Apps öffnen oder eine API integrieren muss.

Die Grenze zwischen Hype und Realität von LAMs ist verschwommen, aber kurz gesagt: Ein LAM ist ein großes Sprachmodell (LLM), das speziell darauf trainiert wurde, Aktionen auszuführen (z. B. API-Anfragen zu senden). 1

Was ist ein Large Action Model (LAM)?

Ein Large Action Model ist eine künstliche Intelligenz, die komplexe Aufgaben durch die Umwandlung in Aktionen logisch lösen und ausführen kann.

Wie funktionieren Large Action Models (LAM)?

LAMs interagieren mit Anwendungen über deren Benutzeroberflächen oder, häufiger, über APIs. Beispielsweise können sie die Bilder und den Code einer Website oder Anwendung verarbeiten, um die nächsten Schritte festzulegen und Aktionen auszuführen.

Dies ermöglicht es LAMs, Benutzer- und Anwendungsschnittstellen zu navigieren. Wenn die Informationen beispielsweise bereits vorhanden oder über eine andere Anwendung zugänglich sind, werden sie von dieser Anwendung abgerufen, anstatt den Benutzer zu fragen.

Innerhalb von LAMs verwandeln solche Grade an Autonomie und Verständnis generative KI in einen aktiven Assistenten, der Aufgaben wie die folgenden ausführen kann:

  • Verwaltung von Social-Media-Plattformen
  • Wetterinformationen abrufen
  • Reservierungen vornehmen
  • Verarbeitung von Finanztransaktionen
  • Verbindung zu IoT-Geräten herstellen, um Befehle an diese senden zu können (z. B. ein Uber bestellen).

Quelle: Salesforce 2

LAMs und LLMs – den Unterschied verstehen

Obwohl LAMs und große Sprachmodelle einige Gemeinsamkeiten aufweisen, wie beispielsweise ihre Fähigkeit, menschliche Absichten zu erfassen, unterscheiden sich ihre Kernziele erheblich.

LAMs sind darauf ausgelegt, aktiv zu werden, während LLMs sich durch ihre Fähigkeit auszeichnen, Sprache zu verarbeiten und zu generieren. Ein LLM kann zwar Ideen vorschlagen oder Texte basierend auf Ihren Eingaben erstellen, ein LAM geht jedoch noch einen Schritt weiter und führt Aufgaben wie Terminvereinbarungen, Produktbestellungen oder das Ausfüllen von Formularen selbstständig aus.

Große agentenbasierte Modelle (LAM): Hype oder Realität?

Während einige Unternehmen LAMs als eine neue Architektur darstellen, werden die ihnen zugewiesenen Funktionalitäten schon seit einiger Zeit mit Hilfe von LLM-Agenten implementiert. 3

Darüber hinaus haben LLM-Agenten bereits Aufgaben ausgeführt, die auch LAMs übernehmen sollen. Die beiden Konzepte weisen gemeinsame Funktionalitäten auf (siehe Abbildung):

  • Kontextbasierte Analyse
  • Schnelle Entwicklung
  • Nutzung von Werkzeugen
  • Argumentation 4

Abbildung: Workflow eines sprachbasierten KI-Agenten

Quelle: ICLR 5

Darüber hinaus können LAMs als sprachbasierte Agentendesigns beschrieben werden, wie z. B. (1) auf Vorlagen basierende KI-Agenten ; (2) lernbare KI-Agenten mit vorgegebenen Anweisungen; und (3) große Aktionsmodelle (LAMs); wobei man sich ein LAM als ein LLM vorstellen kann, das speziell darauf trainiert wurde, menschliche Aktionen aus Daten auszuführen. 6

LAM-Beispiele aus der Praxis

1. Automatisches Ausfüllen von Formularen oder Tabellenkalkulationen auf Websites

Ein LAM kann die benötigten Felder auf einem Formular erkennen, die erforderlichen Daten (z. B. Adressen, Namen, Passwörter und Kreditkartennummern) aus einer Datenbank oder einem Benutzerprofil abrufen und in die entsprechenden Felder eingeben.

Video: Formulare oder Tabellenkalkulationen mit LAM automatisch ausfüllen

7

2. Online-Transaktionen abschließen

  Ein LAM (Lineary Application Manager) kann mit Schaltflächen, Links und Dropdown-Menüs arbeiten. Er kann außerdem spezifischen Text in Textfelder und Suchleisten einfügen. Genau das beinhaltet die Online-Bestellung von Pizza: Textformulare ausfüllen, Schaltflächen anklicken und Menüoptionen auswählen.

Video: HyperWriteAI Assistant Studio nutzt den Browser, um eine Online-Bestellung aufzugeben

Quelle: HyperWriteAI 8

Technologien in LAMs

Ein LAM kann folgende Techniken anwenden:

  • Verbindungen: Stellen Sie Verbindungen zu verschiedenen Apps und APIs her.
  • Neuro-symbolischer Ansatz: Neuro-symbolische Programmierung ist eine Methode, die es LAMs ermöglicht, neuronale Netze, die mit großen Datensätzen trainiert wurden, mit integrierten symbolischen logischen Schlussfolgerungsfähigkeiten zu kombinieren. Dadurch können sie Muster erkennen und gleichzeitig die zugrunde liegende Logik verstehen. Dies macht sie anpassungsfähiger und ermöglicht es ihnen, je nach dem „Warum“ der Benutzeranfragen sinnvolle Antworten zu geben.
  • Anweisungsabstraktion: Erstellen Sie Anweisungen, die eine modulare und hierarchische Abstraktion für die Modellierung über eine Schnittstelle ermöglichen.
  • Direkte menschliche Modellierung: Identifizieren Sie die Absichten, Gewohnheiten und Routinen eines Nutzers über verschiedene Anwendungen hinweg, um eine Handlungsvorlage zu entwickeln.
  • Aufgabenanalyse: Die Beziehungen zwischen Aufgaben werden analysiert, Abhängigkeiten identifiziert und die optimale Ausführungsreihenfolge bestimmt. Dadurch wird sichergestellt, dass Voraufgaben abgeschlossen sind, bevor abhängige Aufgaben beginnen. Dies ermöglicht es dem LAM, Arbeitsabläufe auf Basis vergangener Interaktionen zu verbessern.
  • Kontinuierliches Lernen: LAMs LAM-Systeme erledigen nicht nur Aufgaben, sondern verbessern ihre Leistung durch kontinuierliches Lernen stetig. So könnten sie beispielsweise Kundenanfragen zu Bestellungen, Retouren und Produktinformationen bearbeiten. Mit der Zeit würden sie Probleme immer schneller lösen und sogar potenzielle Probleme vorhersehen und beheben, bevor Kunden sich melden.

Weiterführende Literatur

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450