Nach dem Start von Rabbit, einem KI-Gerät, das mobile Apps nutzen kann, gewinnt der Begriff „Large Action Models“ (LAMs) an Bedeutung. Diese Modelle gehen über die reine Konversation hinaus, indem sie LLMs in „Agenten“ verwandeln, die die isolierte, app-gesteuerte Welt miteinander verbinden können, ohne dass ein Nutzer Apps öffnen oder eine API integrieren muss.
Die Grenze zwischen Hype und Realität von LAMs ist verschwommen, aber kurz gesagt: Ein LAM ist ein großes Sprachmodell (LLM), das speziell darauf trainiert wurde, Aktionen auszuführen (z. B. API-Anfragen zu senden). 1
Was ist ein Large Action Model (LAM)?
Ein Large Action Model ist eine künstliche Intelligenz, die komplexe Aufgaben durch die Umwandlung in Aktionen logisch lösen und ausführen kann.
Wie funktionieren Large Action Models (LAM)?
LAMs interagieren mit Anwendungen über deren Benutzeroberflächen oder, häufiger, über APIs. Beispielsweise können sie die Bilder und den Code einer Website oder Anwendung verarbeiten, um die nächsten Schritte festzulegen und Aktionen auszuführen.
Dies ermöglicht es LAMs, Benutzer- und Anwendungsschnittstellen zu navigieren. Wenn die Informationen beispielsweise bereits vorhanden oder über eine andere Anwendung zugänglich sind, werden sie von dieser Anwendung abgerufen, anstatt den Benutzer zu fragen.
Innerhalb von LAMs verwandeln solche Grade an Autonomie und Verständnis generative KI in einen aktiven Assistenten, der Aufgaben wie die folgenden ausführen kann:
- Verwaltung von Social-Media-Plattformen
- Wetterinformationen abrufen
- Reservierungen vornehmen
- Verarbeitung von Finanztransaktionen
- Verbindung zu IoT-Geräten herstellen, um Befehle an diese senden zu können (z. B. ein Uber bestellen).
Quelle: Salesforce 2
LAMs und LLMs – den Unterschied verstehen
Obwohl LAMs und große Sprachmodelle einige Gemeinsamkeiten aufweisen, wie beispielsweise ihre Fähigkeit, menschliche Absichten zu erfassen, unterscheiden sich ihre Kernziele erheblich.
LAMs sind darauf ausgelegt, aktiv zu werden, während LLMs sich durch ihre Fähigkeit auszeichnen, Sprache zu verarbeiten und zu generieren. Ein LLM kann zwar Ideen vorschlagen oder Texte basierend auf Ihren Eingaben erstellen, ein LAM geht jedoch noch einen Schritt weiter und führt Aufgaben wie Terminvereinbarungen, Produktbestellungen oder das Ausfüllen von Formularen selbstständig aus.
Große agentenbasierte Modelle (LAM): Hype oder Realität?
Während einige Unternehmen LAMs als eine neue Architektur darstellen, werden die ihnen zugewiesenen Funktionalitäten schon seit einiger Zeit mit Hilfe von LLM-Agenten implementiert. 3
Darüber hinaus haben LLM-Agenten bereits Aufgaben ausgeführt, die auch LAMs übernehmen sollen. Die beiden Konzepte weisen gemeinsame Funktionalitäten auf (siehe Abbildung):
- Kontextbasierte Analyse
- Schnelle Entwicklung
- Nutzung von Werkzeugen
- Argumentation 4
Abbildung: Workflow eines sprachbasierten KI-Agenten
Quelle: ICLR 5
Darüber hinaus können LAMs als sprachbasierte Agentendesigns beschrieben werden, wie z. B. (1) auf Vorlagen basierende KI-Agenten ; (2) lernbare KI-Agenten mit vorgegebenen Anweisungen; und (3) große Aktionsmodelle (LAMs); wobei man sich ein LAM als ein LLM vorstellen kann, das speziell darauf trainiert wurde, menschliche Aktionen aus Daten auszuführen. 6
Weitere Details zu KI-Modellen finden Sie in unserer datengestützten Forschung zu folgenden Themen:
LAM-Beispiele aus der Praxis
1. Automatisches Ausfüllen von Formularen oder Tabellenkalkulationen auf Websites
Ein LAM kann die benötigten Felder auf einem Formular erkennen, die erforderlichen Daten (z. B. Adressen, Namen, Passwörter und Kreditkartennummern) aus einer Datenbank oder einem Benutzerprofil abrufen und in die entsprechenden Felder eingeben.
Video: Formulare oder Tabellenkalkulationen mit LAM automatisch ausfüllen
2. Online-Transaktionen abschließen
Ein LAM (Lineary Application Manager) kann mit Schaltflächen, Links und Dropdown-Menüs arbeiten. Er kann außerdem spezifischen Text in Textfelder und Suchleisten einfügen. Genau das beinhaltet die Online-Bestellung von Pizza: Textformulare ausfüllen, Schaltflächen anklicken und Menüoptionen auswählen.
Video: HyperWriteAI Assistant Studio nutzt den Browser, um eine Online-Bestellung aufzugeben
Quelle: HyperWriteAI 8
Technologien in LAMs
Ein LAM kann folgende Techniken anwenden:
- Verbindungen: Stellen Sie Verbindungen zu verschiedenen Apps und APIs her.
- Neuro-symbolischer Ansatz: Neuro-symbolische Programmierung ist eine Methode, die es LAMs ermöglicht, neuronale Netze, die mit großen Datensätzen trainiert wurden, mit integrierten symbolischen logischen Schlussfolgerungsfähigkeiten zu kombinieren. Dadurch können sie Muster erkennen und gleichzeitig die zugrunde liegende Logik verstehen. Dies macht sie anpassungsfähiger und ermöglicht es ihnen, je nach dem „Warum“ der Benutzeranfragen sinnvolle Antworten zu geben.
- Anweisungsabstraktion: Erstellen Sie Anweisungen, die eine modulare und hierarchische Abstraktion für die Modellierung über eine Schnittstelle ermöglichen.
- Direkte menschliche Modellierung: Identifizieren Sie die Absichten, Gewohnheiten und Routinen eines Nutzers über verschiedene Anwendungen hinweg, um eine Handlungsvorlage zu entwickeln.
- Aufgabenanalyse: Die Beziehungen zwischen Aufgaben werden analysiert, Abhängigkeiten identifiziert und die optimale Ausführungsreihenfolge bestimmt. Dadurch wird sichergestellt, dass Voraufgaben abgeschlossen sind, bevor abhängige Aufgaben beginnen. Dies ermöglicht es dem LAM, Arbeitsabläufe auf Basis vergangener Interaktionen zu verbessern.
- Kontinuierliches Lernen: LAMs LAM-Systeme erledigen nicht nur Aufgaben, sondern verbessern ihre Leistung durch kontinuierliches Lernen stetig. So könnten sie beispielsweise Kundenanfragen zu Bestellungen, Retouren und Produktinformationen bearbeiten. Mit der Zeit würden sie Probleme immer schneller lösen und sogar potenzielle Probleme vorhersehen und beheben, bevor Kunden sich melden.
Weiterführende Literatur
- Vergleich von 20 LLM-Sicherheitstools und Open-Source-Frameworks
- Was sind die 10 größten Sicherheitsrisiken im LLM-Studium?
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.