What is a mobile AI agent?

Mobile AI agents are software systems that interact autonomously with users and mobile applications by using natural language inputs and goal-driven reasoning to complete tasks on behalf of users. Unlike traditional automation tools or early personal assistants, these agents are powered by AI. Some of its use cases include:Mobile QA automation without test scriptsAutomating mobile workflows like uploading ID documents or changing profile settingsAI assistants that operate apps for the visually impaired, elderly, or anyone else.Daily general tasks such as creating events on the calendar or even completing Duolingo lessons.

KI-Agent KI-Agenten

Mobile KI-Agenten in 65 realen Aufgaben getestet

Cem Dilmegani

aktualisiert am Jan 23, 2026

Siehe unsere ethischen Normen

Wir haben drei Tage lang vier mobile KI-Agenten ( DroidRun, Mobile-Agent, AutoDroid und AppAgent ) anhand von 65 realen Aufgaben mit einem Android-Emulator und Anwendungen wie Kalenderverwaltung, Kontakterstellung, Fotoaufnahme, Audioaufzeichnung und Dateibearbeitung getestet.

Sehen Sie sich die Benchmark-Ergebnisse inklusive eines Vergleichs der realen Leistung , der Kosten und der Ausführungszeiten an :

Leistungsvergleich mobiler KI-Agenten

Loading Chart

DroidRun

Höchste Erfolgsquote (43 %) bei hohen Kosten pro erfolgreicher Aufgabe (0,075 $, ~3.225 Tokens)

DroidRun erzielte mit einer Erfolgsquote von 43 % bei allen 65 Aufgaben die beste Leistung. Betrachtet man nur die Aufgaben, die alle Agenten erfolgreich abgeschlossen haben, verbrauchte DroidRun durchschnittlich 3.225 Tokens zu Kosten von 0,075 $ pro Aufgabe.

Dieser erhebliche Ressourcenverbrauch spiegelt die mehrstufige Argumentationsarchitektur von DroidRun wider, bei der der Agent detaillierte Zustandsverfolgung betreibt, explizite Aktionspläne generiert und jede Entscheidung begründet. Obwohl dieser umfassende Ansatz aufwändig ist, erzielt er die höchste Erfolgsquote im Benchmark.

Mobile-Agent

Starke Performance (29 %) und kosteneffizient (0,025 $, ~1.130 Token)

Mobile-Agent erzielte mit 29 % die zweithöchste Erfolgsquote bei gleichzeitig angemessener Kosteneffizienz. Bei häufig erfolgreich ausgeführten Aufgaben aller Agenten beliefen sich die durchschnittlichen Kosten für Mobile-Agent auf 0,025 US-Dollar und den durchschnittlichen Token-Verbrauch pro Aufgabe.

Dies entspricht ungefähr einem Drittel der Kosten pro Aufgabe bei DroidRun, während gleichzeitig etwa zwei Drittel der Erfolgsquote erreicht werden. Damit ist Mobile-Agent eine attraktive Option für Implementierungen, bei denen Budgetbeschränkungen eine wichtige Rolle spielen.

Der Unterschied von 14 Prozentpunkten in der Erfolgsquote lässt jedoch vermuten, dass die zusätzlichen Analysefunktionen von DroidRun einen echten Mehrwert für unternehmenskritische Anwendungen bieten.

AutoDroid

Höchste Kosteneffizienz (14 % Erfolg, 0,017 $, ~765 Token), aber begrenzte Effektivität

AutoDroid wies bei üblicherweise erfolgreichen Aufgaben die niedrigsten Kosten mit nur 0,017 US-Dollar und 765 Token pro Aufgabe auf und war damit die wirtschaftlichste Option im Vergleichstest.

Die Erfolgsquote von 14 %, also weniger als die Hälfte der Leistung von Mobile-Agent und etwa ein Drittel der von DroidRun, deutet jedoch darauf hin, dass dieser Kostenvorteil mit erheblichen Einbußen bei der Zuverlässigkeit einhergeht.

Obwohl AutoDroid einen aktionsbasierten Ansatz ähnlich wie DroidRun verwendet, führt der geringe Aufwand für logisches Denken zu erheblichen Kosteneinsparungen, jedoch zu einer begrenzten Fähigkeit zur Aufgabenerledigung.

AppAgent

Schlechteste Performance (7 % Erfolg) bei höchsten Kosten (0,90 $, ~2.346 Token)

AppAgent verzeichnete sowohl die niedrigste Erfolgsquote mit 7 % als auch die höchsten Kosten bei üblicherweise erfolgreichen Aufgaben mit 0,90 $ und 2.346 Tokens pro Aufgabe. Das ist zwölfmal teurer als DroidRun und über fünfzigmal teurer als AutoDroid.

Das ungünstige Kosten-Nutzen-Verhältnis resultiert aus dem bildbasierten Ansatz von AppAgent, der für jede Interaktion annotierte Screenshots mithilfe multimodaler Sprachverarbeitungsmechanismen (LLMs) verarbeitet. Jeder an den multimodalen LLM gesendete Screenshot verbraucht eine beträchtliche Anzahl an Eingabe-Tokens für die Bildverarbeitung, während die eigentlichen Textantworten (Vervollständigungs-Tokens) vergleichsweise gering bleiben.

Dadurch entsteht eine stark unausgewogene Token-Verteilung, bei der der Aufwand für die Bildverarbeitung die Kosten dominiert, ohne dass sich die Aufgabenerfüllung entsprechend verbessert, da der Agent mit Koordinatenberechnungen und der Identifizierung von UI-Elementen auf mobilen Oberflächen zu kämpfen hat.

Vergleich der Ausführungszeit mobiler KI-Agenten

Bei der einzigen Aufgabe, die alle Agenten erfolgreich bewältigten, war AutoDroid mit 57 Sekunden am schnellsten, dicht gefolgt von Mobile-Agent mit 66 Sekunden. DroidRun erledigte die Aufgabe in 78 Sekunden und demonstrierte damit, dass seine mehrstufige Argumentationsarchitektur trotz des höheren Tokenverbrauchs weiterhin eine effiziente Ausführung ermöglicht.

AppAgent wies eine deutlich höhere Latenz von 180 Sekunden auf, da sein bildbasierter Ansatz für jede Interaktion eine umfangreiche Screenshot-Verarbeitung mittels multimodaler LLMs erforderte.

Unsere Benchmark-Methodik können Sie hier einsehen.

Überblick über mobile KI-Agenten

Die Anzahl der Sterne auf GitHub ändert sich schnell, und wir werden die Tabelle entsprechend aktualisieren.

DroidRun

DroidRun ist ein Open-Source-Framework zur Entwicklung von KI-Agenten für mobile Endgeräte, die mobile Apps und Smartphones autonom steuern können. Es dient als Grundlage, um Benutzeroberflächen in strukturierte Daten umzuwandeln, mit denen große Sprachmodelle interagieren können. Dadurch wird eine komplexe Automatisierung direkt auf mobilen Geräten ermöglicht.

DroidRun gewann schnell an Zugkraft: Über 900 Entwickler meldeten sich innerhalb von 24 Stunden an, und das Projekt erreichte auf GitHub 3.800 Sterne und zählt damit zu den am schnellsten wachsenden Frameworks für mobile KI-Agenten.

Sehen Sie es in Aktion:

AutoDroid

AutoDroid ist ein mobiles Aufgabenautomatisierungssystem, das beliebige Aufgaben in jeder Android-App ohne manuelle Einrichtung ausführen kann. Es nutzt die Logik großer Sprachmodelle wie GPT-4 und Vicuna in Kombination mit automatisierter app-spezifischer Analyse.

AutoDroid verwendet eine funktionsorientierte UI-Repräsentation, um App-Oberflächen mit LLMs zu verbinden, nutzt exploratives Memory Injection, um dem Modell app-spezifische Verhaltensweisen beizubringen, und optimiert Abfragen, um die Inferenzkosten zu senken. In einem Benchmark mit 158 Aufgaben erreichte es eine Aktionsgenauigkeit von 90,9 % und eine Erfolgsquote von 71,3 % und übertraf damit GPT-4-basierte Vergleichsmodelle. ¹

Mobile-Agent

Das GitHub-Repository X-PLUG/MobileAgent ist die offizielle Implementierung von Mobile-Agent, einem KI-Agenten-Framework, das mobile Anwendungen autonom steuern soll, indem es deren visuelle UI-Darstellungen wahrnimmt und analysiert.

Dieses Projekt stammt von der X-PLUG-Gruppe der Tsinghua-Universität und wurde auf der ICLR 2024 vorgestellt. Ziel ist es, die Grenzen mobiler Agenten durch multimodales Lernen, insbesondere visuelle Wahrnehmung und das Befolgen von Anweisungen, zu erweitern. Im Video können Sie das Projekt in Aktion sehen.

AppAgent

Das GitHub-Repository TencentQQGYLab/AppAgent ist ein Open-Source-Forschungsprojekt des QQG Y-Lab von Tencent. Es stellt AppAgent vor, ein Framework für mobile KI-Agenten, das entwickelt wurde, um Android-Apps autonom auszuführen und zu analysieren, ohne dass für jede einzelne App manuell Code geschrieben werden muss.

Quelle: AppAgent ²

Merkmale eines mobilen KI-Agenten

Zielorientierte Befehlsverarbeitung

Der Agent bestimmt, welche Apps geöffnet, welche Aktionen ausgeführt und in welcher Reihenfolge diese ablaufen. Nutzer geben beispielsweise an, was sie tun möchten (z. B. „Eine Fahrt zum Flughafen buchen“), nicht die einzelnen Schritte.

LLM-gestütztes Denken

Mithilfe großer Sprachmodelle (z. B. GPT-4, Claude, Gemini) können diese Agenten Folgendes:

Nutzerabsicht erkennen und Bildschirminhalte anzeigen
Logische, schrittweise Aktionspläne erstellen
Anpassung an dynamische UI-Änderungen in verschiedenen App-Zuständen

Strukturierte, native App-Steuerung

Statt sich auf Screen-Scraping zu verlassen:

Agenten extrahieren strukturierte UI-Hierarchien (z. B. XML-basierte Bäume von Schaltflächen und Feldern).
Sie interagieren direkt mit UI-Elementen und behandeln diese wie erstklassige APIs.
- Beispiel: DroidRun verwendet die Android Accessibility APIs, um reale UI-Elemente auszulesen und darauf zu reagieren.

Anwendungsübergreifende Workflow-Ausführung

Agenten arbeiten mit mehreren Apps und mehrstufigen Arbeitsabläufen. Sie können ihren Plan anpassen, wenn ein Zwischenschritt fehlschlägt. Zum Beispiel: „Datei aus E-Mail herunterladen → in Google Drive hochladen → Bestätigung senden.“

Cloud- und gerätebasierte Ausführung für mobile KI-Agenten

Mobile KI-Agenten können in der Cloud, auf dem Gerät oder in einer Hybridlösung ausgeführt werden.

Cloudbasierte Agenten verbinden sich über API-Aufrufe mit Modellen wie GPT-4, Claude oder Gemini. Dies ermöglicht komplexes Schließen und die Ausführung mehrstufiger Aufgaben. Allerdings erfordert dies die Übertragung von Bildschirmdaten und Benutzerkontext an externe Server, was insbesondere bei sensiblen Anwendungen Bedenken hinsichtlich des Datenschutzes aufwirft. Die Leistungsfähigkeit hängt zudem von einer stabilen Netzwerkverbindung ab.

On-Device-Agenten führen Modelle direkt auf der mobilen Hardware aus und speichern alle Daten lokal. Dadurch werden Übertragungsrisiken eliminiert und die Offline-Funktionalität ermöglicht. Der Nachteil besteht in der begrenzten Modellkapazität: Aktuelle mobile NPUs und GPUs beschränken die Modellgröße, was die Genauigkeit bei komplexen Schlussfolgerungsaufgaben beeinträchtigen kann.

Hybridarchitekturen kombinieren beide Ansätze. Leichtgewichtige, geräteinterne Modelle übernehmen Routineaufgaben und die erste Absichtserkennung, während komplexe Operationen an Cloud-basierte LLMs weitergeleitet werden. Apple Intelligence und Gemini Nano folgen diesem Muster: Sie verarbeiten einfache Anfragen lokal und eskalieren diese bei Bedarf. Das optimale Verhältnis zwischen lokaler und Cloud-Verarbeitung entwickelt sich mit der Verbesserung von Edge-KI-Hardware stetig weiter.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

Sicherheits- und Datenschutzrisiken bei mobilen KI-Agenten

Mobile KI-Agenten lesen Bildschirminhalte, navigieren durch Apps und führen Aktionen aus, wodurch sie tiefgreifenden Zugriff auf sensible Nutzerdaten erhalten. Dies wirft mehrere Bedenken auf:

Offenlegung von Bildschirminhalten: Agenten können Passwörter, Nachrichten und Finanzdaten zur Verarbeitung an Cloud-basierte LLMs übermitteln.
Datenleck: Automatische Anmeldeprozesse können unbeabsichtigt gespeicherte Passwörter und Authentifizierungstoken offenlegen.
Unklare Datenspeicherung: Oft ist unklar, wie Agentenprotokolle und erstellte Screenshots gespeichert oder weitergegeben werden.
Risiko der Prompt-Injection: Schadsoftware könnte das Verhalten von Agenten durch manipulierten UI-Text beeinflussen.

Die Bewältigung dieser Risiken erfordert einen mehrstufigen Ansatz:

Verarbeitung auf dem Gerät: Durch die lokale Ausführung von Modellen verringert sich die Notwendigkeit, sensible Daten an externe Server zu übertragen.
PII-Maskierung: Automatische Erkennung und Schwärzung personenbezogener Daten vor API-Aufrufen begrenzt die Offenlegung von Informationen.
Berechtigungsgrenzen: Die Beschränkung des Agentenzugriffs auf sensible App-Kategorien (Banking, Gesundheit, Messaging) verhindert unbeabsichtigten Datenzugriff.
Transparente API-Richtlinien: Die Wahl von Anbietern mit klaren Richtlinien zur Datenverarbeitung und -aufbewahrung trägt zur Sicherstellung der Compliance bei.

Benchmark-Methodik

Wir führten eine Benchmark-Evaluierung durch, um die Leistung von KI-basierten mobilen Agenten unter dem Android-Betriebssystem in realen Anwendungsszenarien zu bewerten. Wir nutzten das AndroidWorld-Framework und testeten alle Agenten anhand derselben standardisierten Aufgaben.

AndroidWorld Framework

AndroidWorld ist eine Open-Source-Benchmark-Plattform, die von Google Research speziell zur Evaluierung mobiler Agenten entwickelt wurde. Ziel dieser Plattform ist es, die Leistung von Agenten in realen Android-Anwendungen anhand standardisierter Aufgaben zu messen.

Das wichtigste Merkmal von AndroidWorld ist, dass es echte Android-Anwendungen anstelle künstlicher Testumgebungen verwendet und die Leistung von Agenten automatisch bewerten kann. In dieser Studie verwendeten wir 65 Aufgaben. Diese Aufgaben decken alltägliche Nutzungsszenarien mobiler Geräte ab, wie z. B. Kalenderverwaltung, Hinzufügen von Kontakten, Sprachaufzeichnung, Fotografieren und Dateiverwaltung.

Umgebungseinrichtung

Systemkonfiguration: Um die Benchmark-Umgebung einzurichten, haben wir zunächst Android Studio auf dem Betriebssystem Windows 11 installiert und den offiziellen Android-Emulator von Google konfiguriert.

Einrichtung des virtuellen Geräts: Wir haben ein virtuelles Gerät erstellt, das ein Pixel 6-Gerät simuliert. Die Spezifikationen dieses virtuellen Geräts wurden wie folgt festgelegt: Betriebssystem Android 13 (API-Level 33), Auflösung 1080×2400, 8 GB RAM und 20 GB Speicherplatz.

Emulatorkonfiguration: Um den Emulator in AndroidWorld zu integrieren, haben wir den gRPC-Port auf 8554 konfiguriert, da AndroidWorld über diesen Port mit dem Emulator kommuniziert.

Python-Umgebung einrichten: Zur Vorbereitung der Python-Umgebung erstellten wir mit Miniconda eine neue Conda-Umgebung mit Python 3.11. Nach dem Klonen des AndroidWorld-Repositorys von GitHub installierten wir alle Abhängigkeiten mit pip. Einer der wichtigsten Schritte bei AndroidWorld ist die Einrichtung des Emulators.

Der Einrichtungsvorgang dauerte etwa 45–60 Minuten. Währenddessen installierte AndroidWorld automatisch alle Android-Anwendungen, die auf dem Emulator getestet werden sollten.

Erstellung der Ausgangsdaten : Für jede Anwendung wurden Ausgangsdaten erstellt, beispielsweise wurden dem Kalender Termine, der Kontakte-App Kontakte und der Podcast-App ein Podcast namens „Banane“ hinzugefügt. Außerdem wurden für jede Aufgabe Momentaufnahmen gespeichert, sodass jede Aufgabe mit einem sauberen Ausgangszustand beginnen kann.

Agentenintegrationen

AutoDroid

AutoDroid-Integration: Zur Integration von AutoDroid haben wir zunächst das Repository von GitHub geklont und die benötigten Python-Pakete installiert. Die Hauptfunktion von AutoDroid besteht darin, UI-Elemente durch das Parsen von XML zu identifizieren und Aufgaben aktionsbasiert auszuführen.

Der Agent weist jedem anklickbaren oder fokussierbaren Element auf dem Bildschirm eine Indexnummer zu und empfängt Befehle vom LLM wie „tap(5)“ oder „text('hello')“.

AutoDroid-Wrapper: Zur Integration mit AndroidWorld haben wir eine Wrapper-Klasse namens autodroid_agent.py erstellt. Dieser Wrapper führt die notwendigen Konfigurationen in der Initialisierungsmethode von AutoDroid durch, konvertiert das von AndroidWorld kommende Task-Ziel in ein Prompt-Format, das AutoDroid ausführen kann, und wandelt die von AutoDroid generierten Aktionen mithilfe der execute_adb_call-Funktionen von AndroidWorld in echte ADB-Befehle um.

Ablauf der Ausführung: In der Schrittmethode von AutoDroid erstellt der Agent zunächst einen Screenshot und einen XML-Dump des Bildschirms, analysiert die UI-Elemente, sendet diese Informationen an den LLM und führt dann je nach der erhaltenen Antwort Aktionen wie Tippen, Wischen oder Texteingabe aus.

DroidRun

DroidRun-Integration: Wir sind bei der Integration von DroidRun ähnlich vorgegangen. Nachdem wir das DroidRun-Repository von GitHub geklont hatten, installierten wir die Abhängigkeiten aus der requirements.txt-Datei.

Die Architektur von DroidRun ist komplexer, da es über ein mehrstufiges Logik- und Zustandsverfolgungssystem verfügt. DroidRun kann nicht nur erklären, was in jedem Schritt geschieht, sondern auch warum, und die Ergebnisse vorheriger Schritte im nächsten Schritt nutzen.

DroidRun-Wrapper: Wir haben den droidrun_agent.py-Wrapper für die AndroidWorld-Integration erstellt. Der wichtigste Aspekt dieses Wrappers war die Kompatibilität der DroidRun-eigenen Klasse CodeActAgent mit der Basis-Agent-Schnittstelle von AndroidWorld.

Ausführungsprozess: Beim Aufruf der `execute_task`-Methode von DroidRun durchläuft der Agent eine Aufgabenplanungsphase, führt anschließend jeden Schritt aus und wertet die Ergebnisse aus. Wir haben diesen Prozess an das schrittweise Ausführungsmodell von AndroidWorld angepasst. Außerdem haben wir die von DroidRun verwendeten Tools (`tap_by_index`, `start_app`, `list_packages` usw.) mithilfe der ADB-Befehle von AndroidWorld implementiert.

AppAgent

AppAgent-Integration: Die Integration von AppAgent unterschied sich von den anderen, da sie einen bildbasierten Ansatz verwendet. Nach dem Klonen des AppAgent-Repositorys integrierten wir die Python-Dateien im Skriptordner in AndroidWorld.

Bildbasierter Ansatz: AppAgent funktioniert folgendermaßen: Zuerst erstellt es einen Screenshot, berechnet dann die Begrenzungsrahmen der UI-Elemente, zeichnet diese Rahmen auf den Screenshot, nummeriert jeden Rahmen und sendet diesen beschrifteten Screenshot an ein multimodales LLM (Learning Level Management). Das LLM ermittelt visuell, welches Element angeklickt werden soll.

Wrapper-Konfiguration: Der wichtigste Schritt bei der Integration von AppAgent war die Umleitung der Kommunikation zwischen AppAgent und Android-Gerät über das Modul `and_controller.py` auf den Emulator von AndroidWorld. Im Wrapper `appagent_agent.py` wurden die Methoden `get_screenshot` und `get_xml` von AppAgent für die Verwendung mit den APIs von AndroidWorld neu implementiert. Außerdem wurde die Datei `model.py` von AppAgent, die das OpenAI-API-Format verwendet, mit der OpenRouter-API kompatibel gemacht.

Mobile-Agent (M3A)

Mobile-Agent (M3A)-Integration : Die Integration von M3A war der aufwendigste Prozess, da es vollständig bildbasiert arbeitet und über ein sehr detailliertes UI-Analysesystem verfügt. Nach dem Klonen des M3A-Repositorys installierten wir außerdem das Mobile-Env Android-Interaktionsframework, da M3A von diesem Framework abhängt.

Mehrstufige Analyse: Das Funktionsprinzip von M3A basiert auf der Aufteilung des Bildschirms in Raster, der separaten Analyse jedes Rasters und der Durchführung einer mehrstufigen Planung. Bei der Erstellung des Wrappers m3a_agent.py war es notwendig, das eigene Umgebungssystem von M3A mit der Umgebung von AndroidWorld zu integrieren. Normalerweise verwendet M3A seine eigene Mobile-Env, wir haben diese jedoch auf die Umgebung von AndroidWorld umgeleitet.

Mehrere LLM-Aufrufe: Wir haben festgestellt, dass M3A in jedem Schritt (z. B. Planung, Aktionsauswahl, Verifizierung) mehrere LLM-Aufrufe durchführt und diese mit den Schrittbeschränkungen von AndroidWorld kompatibel gemacht.

Testverfahren und Datenerfassung

Testablauf: Die Testprozedur für jeden Agenten verlief wie folgt: Zuerst starteten wir den Emulator mit einem sauberen Snapshot. Nach dem vollständigen Öffnen des Emulators führten wir die Datei `run.py` von AndroidWorld aus. Wir führten sequenziell 65 Aufgaben für jeden Agenten aus und verwendeten für alle Agenten Claude 4.5 Sonnet.

Aufgabenausführung: AndroidWorld führte für jede Aufgabe automatisch die folgenden Schritte aus: Laden des Anfangszustands der Aufgabe, Starten des Agenten, Senden des Aufgabenziels an den Agenten, Verfolgen der Schritte des Agenten, Stoppen, wenn die maximale Anzahl von Schritten erreicht ist oder wenn der Agent „Aufgabe abgeschlossen“ meldet, und Überprüfen, ob die Aufgabe erfolgreich war.

Erfolgskriterien: Das Aufgabenbewertungssystem von AndroidWorld beinhaltet vordefinierte Erfolgskriterien. Beispielsweise fragt AndroidWorld für die Aufgabe „Kontakt mit dem Namen John Doe hinzufügen“ die Kontaktdatenbank ab, um zu bestätigen, dass der Kontakt hinzugefügt wurde.

Bei Kalenderaufgaben prüft das System anhand der Datenbank, ob das Ereignis mit dem korrekten Datum, der korrekten Uhrzeit, dem korrekten Titel und der korrekten Beschreibung erstellt wurde. Nach Abschluss jeder Aufgabenausführung übermittelte AndroidWorld die Ausführungszeit und den Erfolgsstatus (True/False). Diese Daten wurden automatisch erfasst und für die Analyse verwendet.

Datenerfassung: Nach Abschluss des gesamten Benchmarks wurde die Aufgabe identifiziert, die alle Agenten erfolgreich abgeschlossen hatten. Jede dieser Aufgaben wurde anschließend von jedem Agenten zehnmal ausgeführt, und die durchschnittliche Ausführungszeit, die Kosten und der Tokenverbrauch wurden berechnet, um zuverlässigere Leistungskennzahlen zu erhalten.

Mögliche Gründe für die Leistungsunterschiede bei mobilen KI-Agenten

Die beobachteten Unterschiede beruhen hauptsächlich auf architektonischen Entscheidungen und Interaktionsmethoden.

DroidRun priorisiert Zuverlässigkeit durch mehrstufiges Schließen, explizite Planung und Zustandsverfolgung. Dies verbessert die Erfolgsquote von Aufgaben, erhöht aber den Tokenverbrauch und die Kosten.

Mobile-Agent bietet ein ausgewogenes Verhältnis zwischen Leistung und Effizienz. Durch seine einfachere Logik und visuelle Verarbeitung werden die Kosten gesenkt, während gleichzeitig moderate Erfolgsquoten beibehalten werden, wodurch es sich für budgetbewusste Anwendungsfälle eignet.

AutoDroid konzentriert sich auf aktionsbasierte Ausführung mit minimalem Denkaufwand. Dies führt zu geringsten Kosten und schnellsten Ausführungszeiten, schränkt aber gleichzeitig die Fähigkeit ein, komplexe oder mehrdeutige Aufgaben zu bewältigen.

AppAgent setzt stark auf visuelle Interaktion mithilfe multimodaler LLMs. Häufige Screenshot-Verarbeitung erhöht Latenz und Kosten, während Herausforderungen bei der UI-Koordination den Erfolg von Aufgaben beeinträchtigen.

FAQs

Mobile KI-Agenten sind Softwaresysteme, die autonom mit Nutzern und mobilen Anwendungen interagieren, indem sie mithilfe von natürlicher Sprache und zielorientiertem Denken Aufgaben im Auftrag der Nutzer erledigen. Im Gegensatz zu herkömmlichen Automatisierungstools oder frühen persönlichen Assistenten basieren diese Agenten auf künstlicher Intelligenz. Einige Anwendungsfälle sind:

Mobile QA-Automatisierung ohne Testskripte
Automatisierung mobiler Arbeitsabläufe wie das Hochladen von Ausweisdokumenten oder das Ändern von Profileinstellungen
KI-Assistenten , die Apps für Sehbehinderte, ältere Menschen oder andere Nutzer bedienen.
Tägliche allgemeine Aufgaben wie das Erstellen von Terminen im Kalender oder auch das Absolvieren von Duolingo-Lektionen.

Referenzlinks

https://arxiv.org/pdf/2308.15272

GitHub - TencentQQGYLab/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. · GitHub

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Als nächstes lesen

KI-AgentenMai 5

Mobile KI-Agenten in 65 realen Aufgaben getestet

Leistungsvergleich mobiler KI-Agenten

DroidRun

Mobile-Agent

AutoDroid

AppAgent

Vergleich der Ausführungszeit mobiler KI-Agenten

Überblick über mobile KI-Agenten

DroidRun

AutoDroid

Mobile-Agent

AppAgent

Merkmale eines mobilen KI-Agenten

Zielorientierte Befehlsverarbeitung

LLM-gestütztes Denken

Strukturierte, native App-Steuerung

Anwendungsübergreifende Workflow-Ausführung

Cloud- und gerätebasierte Ausführung für mobile KI-Agenten

Sicherheits- und Datenschutzrisiken bei mobilen KI-Agenten

Benchmark-Methodik

AndroidWorld Framework

Umgebungseinrichtung

Agentenintegrationen

AutoDroid

DroidRun

AppAgent

Mobile-Agent (M3A)

Testverfahren und Datenerfassung

Mögliche Gründe für die Leistungsunterschiede bei mobilen KI-Agenten

FAQs

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Benchmark für KI-Agentenplattformen: Claude Managed Agents vs. Vertex Agent Engine (Google)

Lokale KI-Agenten: Goose, Observer AI, AnythingLLM

Entwicklung persönlicher KI-Agenten + 18 Agentenplattformen und -tools

KI-Agenten mit zusammensetzbaren Mustern erstellen

15 KI-Agenten in Marketing-Tools & Beispiele

Die Top 30+ der wichtigsten KI-Agenten für die Industrie – eine Landschaft, die man im Auge behalten sollte

Mobile KI-Agenten in 65 realen Aufgaben getestet

Leistungsvergleich mobiler KI-Agenten

DroidRun

Mobile-Agent

AutoDroid

AppAgent

Vergleich der Ausführungszeit mobiler KI-Agenten

Überblick über mobile KI-Agenten

DroidRun

AutoDroid

Mobile-Agent

AppAgent

Merkmale eines mobilen KI-Agenten

Zielorientierte Befehlsverarbeitung

LLM-gestütztes Denken

Strukturierte, native App-Steuerung

Anwendungsübergreifende Workflow-Ausführung

Cloud- und gerätebasierte Ausführung für mobile KI-Agenten

Sicherheits- und Datenschutzrisiken bei mobilen KI-Agenten

Benchmark-Methodik

AndroidWorld Framework

Umgebungseinrichtung

Agentenintegrationen

AutoDroid

DroidRun

AppAgent

Mobile-Agent (M3A)

Testverfahren und Datenerfassung

Mögliche Gründe für die Leistungsunterschiede bei mobilen KI-Agenten

FAQs

Was ist ein mobiler KI-Agent?

Referenzlinks

Seien Sie der Erste, der kommentiert

Als nächstes lesen

Benchmark für KI-Agentenplattformen: Claude Managed Agents vs. Vertex Agent Engine (Google)

Lokale KI-Agenten: Goose, Observer AI, AnythingLLM

Entwicklung persönlicher KI-Agenten + 18 Agentenplattformen und -tools

KI-Agenten mit zusammensetzbaren Mustern erstellen

15 KI-Agenten in Marketing-Tools & Beispiele

Die Top 30+ der wichtigsten KI-Agenten für die Industrie – eine Landschaft, die man im Auge behalten sollte