Bize Ulaşın
Sonuç bulunamadı.

Mobil Yapay Zeka Ajanları 65 Gerçek Dünya Görevinde Test Edildi

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 23, 2026
Bakınız etik normlar

Üç gün boyunca, takvim yönetimi, kişi oluşturma, fotoğraf çekme, ses kaydı ve dosya işlemleri gibi uygulamaları içeren bir Android emülatörü kullanarak 65 gerçek dünya görevinde dört mobil yapay zeka ajanını ( DroidRun, Mobile-Agent, AutoDroid ve AppAgent ) performans testine tabi tuttuk.

Gerçek dünya performans karşılaştırması , maliyetler ve yürütme süreleri de dahil olmak üzere kıyaslama sonuçlarına bakın:

Mobil yapay zeka ajanlarının performans karşılaştırması

Loading Chart

DroidRun

En yüksek başarı oranı (%43), başarılı görev başına yüksek maliyetle (0,075 $, ~3.225 jeton).

DroidRun, 65 görevin tamamında %43'lük başarı oranıyla en güçlü performansı sergiledi. Tüm ajanların başarıyla tamamladığı görevlere bakıldığında, DroidRun'ın görev başına ortalama 0,075$ maliyetle 3.225 jeton tükettiği görüldü.

Bu önemli kaynak tüketimi, DroidRun'ın çok adımlı akıl yürütme mimarisini yansıtmaktadır; burada ajan ayrıntılı durum takibi yapar, açık eylem planları oluşturur ve her karar için açıklamalar sunar. Maliyetli olmasına rağmen, bu kapsamlı yaklaşım, kıyaslamada en yüksek başarı oranını sağlamaktadır.

Mobil Ajan

Güçlü performans (%29) ve maliyet etkinliği (0,025 $, ~1.130 token)

Mobile-Agent, makul maliyet verimliliğini korurken %29 ile ikinci en yüksek başarı oranına ulaştı. Tüm ajanlar genelinde yaygın olarak başarılı olan görevlerde, Mobile-Agent görev başına ortalama 0,025 dolar ve 1.130 jeton elde etti.

Bu, DroidRun'ın görev başına maliyetinin yaklaşık üçte birini temsil ederken, başarı oranının yaklaşık üçte ikisine ulaşarak, bütçe kısıtlamalarının önemli olduğu dağıtımlar için Mobile-Agent'ı cazip bir seçenek haline getiriyor.

Ancak, başarı oranındaki 14 puanlık fark, DroidRun'ın ek mantıksal çıkarım yeteneklerinin, görev açısından kritik uygulamalar için anlamlı bir değer sağladığını göstermektedir.

AutoDroid

En iyi maliyet etkinliği (%14 başarı, 0,017 $, ~765 token) ancak sınırlı etkinlik

AutoDroid, yaygın olarak başarılı olan görevlerde en düşük maliyeti göstererek görev başına yalnızca 0,017 dolar ve 765 jetonla, karşılaştırma testindeki en ekonomik seçenek oldu.

Ancak, %14'lük başarı oranı, Mobile-Agent'ın performansının yarısından az ve DroidRun'ın performansının yaklaşık üçte biri kadar olması, bu maliyet avantajının güvenilirlik açısından önemli ödünler gerektirdiğini gösteriyor.

DroidRun'a benzer eylem tabanlı bir yaklaşım kullanmasına rağmen, AutoDroid'in minimum mantıksal işlem yükü önemli maliyet tasarrufu sağlarken, görev tamamlama yeteneği sınırlıdır.

AppAgent

En düşük performans (%7 başarı) ve en yüksek maliyet (0,90 $, ~2.346 token)

AppAgent, %7 ile en düşük başarı oranını ve yaygın olarak başarılı olan görevlerde görev başına 0,90 dolar ve 2.346 jeton ile en yüksek maliyeti kaydetti. DroidRun'dan on iki kat, AutoDroid'den ise elli kattan fazla daha pahalı.

Bu düşük maliyet-performans oranı, AppAgent'ın her etkileşim için etiketlenmiş ekran görüntülerini çok modlu LLM'ler aracılığıyla işleyen görsel tabanlı yaklaşımından kaynaklanmaktadır. Çok modlu LLM'ye gönderilen her ekran görüntüsü, görüntü işleme için önemli miktarda girdi belirteci tüketirken, gerçek metin yanıtları (tamamlama belirteçleri) nispeten mütevazı kalmaktadır.

Bu durum, görüntü işleme yükünün maliyeti domine ettiği ancak görev tamamlama oranında karşılık gelen bir iyileşme olmadığı, oldukça dengesiz bir belirteç dağılımı yaratır; çünkü ajan, mobil arayüzlerde koordinat hesaplamaları ve kullanıcı arayüzü öğesi tanımlamasıyla mücadele eder.

Mobil yapay zeka ajanlarının çalışma sürelerinin karşılaştırılması

Tüm ajanların başarıyla tamamladığı tek görevde, AutoDroid 57 saniye ile en hızlısı olurken, onu 66 saniye ile Mobile-Agent yakından takip etti. DroidRun görevi 78 saniyede tamamlayarak, çok adımlı mantık mimarisinin daha yüksek token tüketimine rağmen verimli yürütmeyi mümkün kıldığını gösterdi.

AppAgent, her etkileşim için çok modlu LLM'ler aracılığıyla kapsamlı ekran görüntüsü işleme gerektiren görsel tabanlı yaklaşımı nedeniyle 180 saniyelik önemli ölçüde daha yüksek bir gecikme süresi sergiledi.

Kıyaslama metodolojimizi buradan inceleyebilirsiniz.

Mobil yapay zeka ajanlarına genel bakış

GitHub yıldız sayıları hızla değişiyor ve tabloyu buna göre güncelleyeceğiz.

DroidRun

DroidRun, mobil uygulamaları ve telefonları otonom olarak kontrol edebilen mobil tabanlı yapay zeka ajanları oluşturan açık kaynaklı bir çerçevedir. Kullanıcı arayüzlerini, büyük dil modellerinin etkileşim kurabileceği yapılandırılmış verilere dönüştüren ve karmaşık otomasyonu doğrudan mobil cihazlarda mümkün kılan temel bir çerçevedir.

DroidRun hızla ilgi gördü: 24 saat içinde 900'den fazla geliştirici kaydoldu ve proje GitHub'da 3,8 bin yıldıza ulaşarak mobil yapay zeka ajanları için en hızlı büyüyen çerçevelerden biri oldu.

İşte nasıl çalıştığını görün:

AutoDroid

AutoDroid, herhangi bir Android uygulamasında manuel kurulum gerektirmeden rastgele görevleri gerçekleştirmek üzere tasarlanmış bir mobil görev otomasyon sistemidir. GPT-4 ve Vicuna gibi büyük dil modellerinin sağduyulu mantığını, otomatikleştirilmiş uygulamaya özgü analizle birleştirir.

AutoDroid, uygulama arayüzlerini LLM'lerle bağlamak için işlevselliğe duyarlı bir kullanıcı arayüzü temsili sunar, modele uygulamaya özgü davranışları öğretmek için keşif tabanlı bellek enjeksiyonu kullanır ve çıkarım maliyetlerini azaltmak için sorgu optimizasyonu içerir. 158 görevden oluşan bir kıyaslama testinde, %90,9 eylem doğruluğu ve %71,3 görev başarısı elde ederek yalnızca GPT-4 kullanan temel modellerden daha iyi performans göstermiştir. 1

Mobil Ajan

GitHub deposu X-PLUG/MobileAgent, mobil uygulamaların görsel kullanıcı arayüzü temsillerini algılayarak ve bunlar üzerinde akıl yürüterek uygulamaları otonom olarak kontrol etmek üzere tasarlanmış bir yapay zeka ajanı çerçevesi olan Mobile-Agent'ın resmi uygulamasıdır.

Bu proje, Tsinghua Üniversitesi'ndeki X-PLUG grubundan geliyor ve ICLR 2024'te sunuldu. Projenin amacı, özellikle görsel algılama ve talimat izleme olmak üzere çok modlu öğrenmeyi kullanarak mobil ajanların sınırlarını zorlamaktır. Çalışma şeklini görmek için videoyu izleyin.

AppAgent

TencentQQGYLab/AppAgent GitHub deposu, Tencent'in QQG Y-Lab'ından açık kaynaklı bir araştırma projesidir. Bu proje, her bir uygulama için insan tarafından yazılmış koda gerek kalmadan Android uygulamalarını otonom olarak çalıştırabilen ve mantık yürütebilen bir mobil yapay zeka ajanı çerçevesi olan AppAgent'ı tanıtmaktadır.

Kaynak: AppAgent 2

Mobil yapay zeka ajanlarının özellikleri

Hedef odaklı komuta yönetimi

Aracı, hangi uygulamaların açılacağını, hangi işlemlerin yapılacağını ve bunların nasıl sıralanacağını belirler. Örneğin, kullanıcılar bireysel adımları değil, ne yapılmasını istediklerini belirtirler (örneğin, "Havaalanına araç çağır").

LLM destekli akıl yürütme

Büyük dil modelleriyle (örneğin, GPT-4, Claude, Gemini) desteklenen bu ajanlar şunları yapabilir:

  • Kullanıcı amacını ve ekran içeriğini belirleyin.
  • Mantıklı, adım adım eylem planları oluşturun.
  • Farklı uygulama durumlarında dinamik kullanıcı arayüzü değişikliklerine uyum sağlayın.

Yapılandırılmış, yerel uygulama kontrolü

Ekrandan veri çekmeye güvenmek yerine:

  • Aracılar , yapılandırılmış kullanıcı arayüzü hiyerarşilerini (örneğin, XML tabanlı düğme ve alan ağaçları) çıkarır.
  • Kullanıcı arayüzü öğeleriyle doğrudan etkileşime girerler ve bunları birinci sınıf API'ler olarak ele alırlar.
    • Örnek: DroidRun, gerçek kullanıcı arayüzü öğelerini okumak ve bunlara göre işlem yapmak için Android Erişilebilirlik API'lerini kullanır.

Uygulamalar arası iş akışı yürütme

Temsilciler birden fazla uygulama ve çok adımlı iş akışında çalışırlar. Ara adımlardan biri başarısız olursa yeniden planlama yapabilirler. Örneğin, "E-postadan dosya indir → Google Drive'a yükle → onay gönder."

Mobil yapay zeka ajanları için bulut ve cihaz üzerinde yürütme

Mobil yapay zeka ajanları bulutta, cihaz üzerinde veya hibrit bir yaklaşımla çalışabilir.

Bulut tabanlı ajanlar, API çağrıları aracılığıyla GPT-4, Claude veya Gemini gibi modellere bağlanır. Bu, gelişmiş mantıksal çıkarım ve çok adımlı görev tamamlama olanağı sağlar. Bununla birlikte, ekran verilerinin ve kullanıcı bağlamının harici sunuculara iletilmesini gerektirir; bu da özellikle hassas uygulamalar için gizlilik endişelerini artırır. Performans ayrıca istikrarlı ağ bağlantısına da bağlıdır.

Cihaz içi aracılar, modelleri doğrudan mobil donanım üzerinde çalıştırarak tüm verileri yerel tutar. Bu, iletim risklerini ortadan kaldırır ve çevrimdışı işlevselliği mümkün kılar. Dezavantajı ise sınırlı model kapasitesidir: mevcut mobil NPU'lar ve GPU'lar model boyutunu kısıtlar ve bu da karmaşık mantıksal çıkarım görevlerinde doğruluğu azaltabilir.

Hibrit mimariler her iki yaklaşımı da birleştirir. Hafif, cihaz içi modeller rutin görevleri ve ilk niyet sınıflandırmasını ele alırken, karmaşık işlemler bulut tabanlı LLM'lere yönlendirilir. Apple Intelligence ve Gemini Nano bu modeli izleyerek basit istekleri yerel olarak işler ve gerektiğinde buluta aktarır. Yerel ve bulut işleme arasındaki en uygun denge, uç yapay zeka donanımı geliştikçe evrim geçirmeye devam etmektedir.

Mobil yapay zeka ajanlarında güvenlik ve gizlilik riskleri

Mobil yapay zeka ajanları ekran içeriğini okuyor, uygulamalarda geziniyor ve eylemler gerçekleştiriyor; bu sayede hassas kullanıcı verilerine derinlemesine erişim sağlıyor. Bu durum çeşitli endişeleri beraberinde getiriyor:

  • Ekran içeriğine maruz kalma: Temsilciler, şifreleri, mesajları ve finansal verileri işlenmek üzere bulut tabanlı LLM'lere iletebilirler.
  • Kimlik bilgilerinin sızması: Otomatik giriş iş akışları, istemeden kaydedilmiş parolaları ve kimlik doğrulama belirteçlerini ifşa edebilir.
  • Veri saklama süresi belirsiz: Temsilci günlüklerinin ve yakalanan ekran görüntülerinin nasıl saklandığı veya paylaşıldığı genellikle belirsizdir.
  • Hızlı enjeksiyon riski: Kötü amaçlı uygulama içeriği, özel olarak hazırlanmış kullanıcı arayüzü metni aracılığıyla ajan davranışını manipüle edebilir.

Bu risklerle başa çıkmak çok yönlü bir yaklaşım gerektirir:

  • Cihaz üzerinde işlem: Modelleri yerel olarak çalıştırmak, hassas verilerin harici sunuculara iletilmesi ihtiyacını azaltır.
  • Kişisel bilgilerin gizlenmesi: API çağrılarından önce kişisel bilgilerin otomatik olarak algılanması ve gizlenmesi, veri ifşasını sınırlandırır.
  • İzin sınırları: Temsilci erişimini hassas uygulama kategorileriyle (bankacılık, sağlık, mesajlaşma) sınırlandırmak, istenmeyen veri erişimini önler.
  • Şeffaf API politikaları: Açık veri işleme ve saklama politikalarına sahip sağlayıcıları seçmek, uyumluluğu sağlamaya yardımcı olur.

Kıyaslama metodolojisi

Android işletim sisteminde çalışan yapay zeka mobil ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için bir kıyaslama değerlendirmesi gerçekleştirdik. AndroidWorld çerçevesini kullandık ve tüm ajanları aynı standart görevler üzerinde test ettik.

AndroidWorld Çerçevesi

AndroidWorld, Google Araştırma tarafından mobil ajanları değerlendirmek için özel olarak geliştirilmiş açık kaynaklı bir kıyaslama platformudur. Bu platform, standartlaştırılmış görevler aracılığıyla gerçek Android uygulamalarında çalışan ajanların performansını ölçmeyi amaçlamaktadır.

AndroidWorld'ün en önemli özelliği, yapay test ortamları yerine gerçek Android uygulamalarını kullanması ve ajanların performansını otomatik olarak değerlendirebilmesidir. Bu çalışmada 65 görev kullandık. Bu görevler, takvim yönetimi, kişi ekleme, ses kaydı, fotoğraf çekme ve dosya işlemleri gibi günlük mobil cihaz kullanım senaryolarını kapsamaktadır.

Ortam Kurulumu

Sistem yapılandırması: Performans test ortamını kurmak için öncelikle Windows 11 işletim sistemine Android Studio'yu kurduk ve Google'ın resmi Android Emülatörünü yapılandırdık.

Sanal cihaz kurulumu: Pixel 6 cihazını simüle eden bir sanal cihaz oluşturduk. Bu sanal cihazın özellikleri Android 13 (API Seviyesi 33) işletim sistemi, 1080×2400 çözünürlük, 8 GB RAM ve 20 GB depolama alanı olarak ayarlandı.

Emülatör yapılandırması: Emülatörü AndroidWorld ile entegre etmek için, AndroidWorld'ün emülatörle bu port üzerinden iletişim kurması nedeniyle gRPC portunu 8554 olarak yapılandırdık.

Python ortamı kurulumu: Python ortamını hazırlamak için Miniconda kullanarak Python 3.11 ile yeni bir conda ortamı oluşturduk. GitHub'dan AndroidWorld deposunu klonladıktan sonra, pip kullanarak tüm bağımlılıkları yükledik. AndroidWorld'ün en kritik adımlarından biri de emülatör kurulum sürecidir.

Kurulum komutu yaklaşık 45-60 dakika sürdü. Bu süreçte AndroidWorld, emülatörde test edilecek tüm Android uygulamalarını otomatik olarak yükledi.

Başlangıç durum verisi oluşturma : Her uygulama için başlangıç durum verisi oluşturdu; örneğin, takvim uygulamasına bazı etkinlikler ekledi, kişiler uygulamasına kişiler ekledi ve podcast uygulamasına "banana" adlı bir podcast ekledi. Ayrıca her görev için anlık görüntüler kaydetti, böylece her görev temiz bir başlangıç durumundan başlayabildi.

Ajan entegrasyonları

AutoDroid

AutoDroid Entegrasyonu: AutoDroid'i entegre etmek için öncelikle GitHub'dan depoyu klonladık ve gerekli Python paketlerini kurduk. AutoDroid'in ana özelliği, XML'i ayrıştırarak kullanıcı arayüzü öğelerini tanımlamak ve eylem tabanlı bir yaklaşımla görevleri tamamlamaktır.

Aracı, ekrandaki tıklanabilir veya odaklanılabilir her öğeye bir indeks numarası atar ve LLM'den "tap(5)" veya "text('hello')" gibi komutlar alır.

AutoDroid sarmalayıcı: AndroidWorld ile entegrasyon için, autodroid_agent.py adında bir sarmalayıcı sınıf oluşturduk. Bu sarmalayıcı, AutoDroid'in başlatma yönteminde gerekli yapılandırmaları gerçekleştirir, AndroidWorld'den gelen görev hedefini AutoDroid'in oluşturabileceği bir komut istemi biçimine dönüştürür ve AutoDroid tarafından oluşturulan eylemleri AndroidWorld'ün execute_adb_call fonksiyonlarını kullanarak gerçek ADB komutlarına dönüştürür.

Yürütme akışı: AutoDroid'in adım yönteminde, ajan önce ekranın ekran görüntüsünü ve XML dökümünü alır, kullanıcı arayüzü öğelerini ayrıştırır, bu bilgiyi LLM'ye gönderir ve alınan yanıta göre dokunma, kaydırma veya metin girişi eylemlerini gerçekleştirir.

DroidRun

DroidRun entegrasyonu: DroidRun için de benzer bir entegrasyon süreci izledik. GitHub'dan DroidRun deposunu klonladıktan sonra, requirements.txt dosyasındaki bağımlılıkları yükledik.

DroidRun'ın mimari yapısı, çok adımlı bir mantık yürütme ve durum izleme sistemine sahip olması nedeniyle daha karmaşıktır. DroidRun, her adımda ne yapacağını değil, neden yapacağını da açıklayabilir ve önceki adımların sonuçlarını bir sonraki adımda kullanabilir.

DroidRun sarmalayıcısı: AndroidWorld entegrasyonu için droidrun_agent.py sarmalayıcısını oluşturduk. Bu sarmalayıcının en önemli kısmı, DroidRun'ın kendi CodeActAgent sınıfını AndroidWorld'ün temel ajan arayüzüyle uyumlu hale getirmekti.

Yürütme süreci: DroidRun'ın execute_task yöntemini çağırdığımızda, ajan bir görev planlama aşamasından geçer, ardından her adımı yürütür ve sonuçları değerlendirir. Bu süreci AndroidWorld'ün adım adım yürütme modeline uyarladık. Ayrıca DroidRun tarafından kullanılan araçları (tap_by_index, start_app, list_packages, vb.) AndroidWorld'ün ADB komutlarıyla uyguladık.

AppAgent

AppAgent entegrasyonu: AppAgent entegrasyonu, görsel tabanlı bir yaklaşım kullandığı için diğerlerinden farklıydı. AppAgent deposunu klonladıktan sonra, scripts klasöründeki Python dosyalarını AndroidWorld'e entegre ettik.

Görsel tabanlı yaklaşım: AppAgent'ın çalışma prensibi şu şekildedir: önce ekranın ekran görüntüsünü alır, ardından kullanıcı arayüzü öğelerinin sınırlayıcı kutularını hesaplar, bu kutuları ekran görüntüsüne çizer, her birine bir numara atar ve bu etiketlenmiş ekran görüntüsünü çok modlu bir LLM'ye gönderir. LLM, hangi öğeye tıklanması gerektiğini görsel olarak belirler.

Sarmalayıcı yapılandırması: AppAgent'ı entegre etmenin en önemli adımı, AppAgent'ın `and_controller.py` modülünü kullanarak Android cihazla iletişim kuran kısmı AndroidWorld'ün emülatörüne yönlendirmekti. `appagent_agent.py` sarmalayıcısında, AppAgent'ın `get_screenshot` ve `get_xml` yöntemlerini AndroidWorld'ün API'leriyle çalışacak şekilde yeniden uyguladık. Ayrıca, OpenAI API formatını kullanan AppAgent'ın `model.py` dosyasını da OpenRouter API ile uyumlu hale getirdik.

Mobil Ajan (M3A)

Mobile-Agent (M3A) entegrasyonu : M3A entegrasyonu, tamamen görsel tabanlı çalışması ve çok detaylı bir kullanıcı arayüzü analiz sistemine sahip olması nedeniyle en kapsamlı süreçti. M3A deposunu klonladıktan sonra, M3A'nın bu çerçeveye bağımlı olması nedeniyle Mobile-Env Android etkileşim çerçevesini de kurduk.

Çok adımlı analiz: M3A'nın çalışma prensibi, ekranı ızgaralara bölmeye, her ızgarayı ayrı ayrı analiz etmeye ve çok adımlı planlama yapmaya dayanmaktadır. m3a_agent.py sarmalayıcısını oluştururken, M3A'nın kendi ortam sistemini AndroidWorld'ün ortamıyla entegre etmemiz gerekiyordu. M3A normalde kendi Mobile-Env'ini kullanır, ancak biz onu AndroidWorld'ün ortamına yönlendirdik.

Çoklu LLM çağrıları: M3A'nın her adımda (planlama, eylem seçimi, doğrulama gibi) birden fazla LLM çağrısı yaptığını gözlemledik ve bunları AndroidWorld'ün adım sınırlarıyla uyumlu hale getirdik.

Test prosedürü ve veri toplama

Test akışı: Her bir ajan için test prosedürü şu şekildeydi: Öncelikle, emülatörü temiz bir anlık görüntüyle başlattık. Emülatör tamamen açıldıktan sonra, AndroidWorld'ün run.py dosyasını çalıştırdık. Her ajan için sırayla 65 görev çalıştırdık ve tüm ajanlar için Claude 4.5 Sonnet kullandık.

Görev yürütme: AndroidWorld, her görev için otomatik olarak şu adımları gerçekleştirdi: görevin başlangıç durumunu yükleme, aracıyı başlatma, görev hedefini aracıya gönderme, aracının adımlarını izleme, maksimum adım sayısına ulaşıldığında veya aracı "görev tamamlandı" dediğinde durma ve görevin başarılı olup olmadığını kontrol etme.

Başarı kriterleri: AndroidWorld'ün görev değerlendirme sistemi, önceden tanımlanmış başarı kriterleri içerir. Örneğin, "John Doe adlı kişiyi ekle" görevi için AndroidWorld, kişinin eklendiğini doğrulamak için kişi veritabanını sorgular.

Takvim görevleri için, veritabanından etkinliğin doğru tarih, saat, başlık ve açıklama ile oluşturulup oluşturulmadığını kontrol eder. Her görev yürütmesinin sonunda, AndroidWorld bize yürütme süresini ve başarı durumunu (Doğru/Yanlış) sağladı. Bu veriler otomatik olarak kaydedildi ve analiz için kullanıldı.

Veri toplama: Tüm kıyaslama testleri tamamlandıktan sonra, tüm ajanların başarıyla tamamladığı görevi belirledik. Daha sonra bu görevlerin her biri her ajan tarafından 10 kez yürütüldü ve daha güvenilir performans ölçütleri için ortalama yürütme süresi, maliyet ve token tüketimi hesaplandı.

Mobil yapay zeka ajanlarındaki performans farklılıklarının ardındaki olası nedenler

Gözlemlenen farklılıklar esas olarak mimari tercihlerden ve etkileşim yöntemlerinden kaynaklanmaktadır.

DroidRun, çok adımlı mantık yürütme, açık planlama ve durum takibi yoluyla güvenilirliğe öncelik verir. Bu, görev başarısını artırır ancak jeton kullanımını ve maliyeti yükseltir.

Mobile-Agent, performans ve verimlilik arasında denge kurar. Daha hafif mantığı ve görsel anlayışı, maliyetleri düşürürken orta düzeyde başarı oranlarını korur ve bu da onu bütçe hassasiyeti olan kullanım durumları için uygun hale getirir.

AutoDroid, minimum mantıksal işlem yüküyle eylem tabanlı yürütmeye odaklanır. Bu, en düşük maliyet ve en hızlı yürütme sürelerini sağlar, ancak aynı zamanda karmaşık veya belirsiz görevleri ele alma yeteneğini de sınırlar.

AppAgent, çok modlu LLM'ler kullanan görsel tabanlı etkileşime büyük ölçüde bağımlıdır. Sık ekran görüntüsü işleme, gecikmeyi ve maliyeti artırırken, kullanıcı arayüzü koordinasyon zorlukları görev başarısını azaltır.

SSS'ler

Mobil yapay zeka ajanları, kullanıcılar ve mobil uygulamalarla otonom olarak etkileşim kuran, doğal dil girdilerini ve hedef odaklı akıl yürütmeyi kullanarak kullanıcılar adına görevleri tamamlayan yazılım sistemleridir. Geleneksel otomasyon araçlarından veya ilk kişisel asistanlardan farklı olarak, bu ajanlar yapay zeka ile çalışır. Kullanım alanlarından bazıları şunlardır:

Test senaryoları olmadan mobil QA otomasyonu
Kimlik belgelerini yükleme veya profil ayarlarını değiştirme gibi mobil iş akışlarını otomatikleştirme
Görme engelliler, yaşlılar veya diğer herkes için uygulamaları çalıştıran yapay zeka asistanları .
Takvime etkinlik eklemek veya Duolingo derslerini tamamlamak gibi günlük genel görevler .

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450