Benchmark

Zielgruppensimulation: Können LLMs menschliches Verhalten vorhersagen?

aktualisiert am 28. Apr. 2026

Im Marketing ist die Frage, wie genau LLMs menschliches Verhalten vorhersagen, entscheidend, um ihre Wirksamkeit bei der Antizipation von Zielgruppenbedürfnissen zu beurteilen und die Risiken von Fehlausrichtungen, ineffektiver Kommunikation oder unbeabsichtigter Beeinflussung zu erkennen.

Die Zielgruppensimulation mit LLMs ermöglicht die Modellierung virtueller Zielgruppen und hilft Organisationen dabei, Reaktionen auf Inhalte oder Produkte vorherzusehen, ohne auf teure Umfragen oder Fokusgruppen angewiesen zu sein.

Wir haben getestet, wie gut KI-Modelle vorhersagen können, welcher von zwei LinkedIn-Beiträgen desselben Autors höheres Engagement (Likes, Kommentare, Shares) erzielt, und simulieren so im Wesentlichen menschliches Zielgruppenverhalten.

Benchmark-Ergebnisse der Zielgruppensimulation

Loading Chart

Gründe für Leistungsunterschiede bei LLMs

LLM zeigen unterschiedliche Genauigkeit bei der Vorhersage, welcher von zwei LinkedIn-Beiträgen desselben Autors höheres Engagement erhält. Diese Unterschiede ergeben sich daraus, wie gut jedes Modell die im Benchmark beschriebenen Eingaben verarbeitet und wie effektiv es die Faktoren identifiziert, die Zielgruppenreaktionen beeinflussen.

Verständnis von Engagement-Signalen

Der Benchmark erfordert von den Modellen, subtile Hinweise zu bewerten, die Engagement vorhersagen. Leistungsstärkere Modelle erkennen diese Hinweise tendenziell genauer. Dazu gehört, ob der Beitrag:

Eine persönliche Einsicht oder eine Lektion vermittelt
Eine direkte Frage stellt
Für ein breites Publikum nachvollziehbar ist
Werbend wirkt
Die Struktur die Aufmerksamkeit der Leser beeinflusst

Modelle wie DeepSeek Chat V3 und Claude Opus 4 schneiden gut ab, weil sie diese Hinweise mit größerer Konsistenz identifizieren.

Nutzung von Kontextinformationen

Die Auswertung umfasst mehrere kontextbezogene Daten für jeden Beitrag, und die Modelle unterscheiden sich darin, wie gut sie diese nutzen. Jedes Modell erhält:

Beitragstext
Medientyp wie Text, Bild, Video oder Link
Follower-Bereich des Autors

Eine genaue Vorhersage erfordert, dass das Modell diese Eingaben kombiniert. Leistungsstärkere Modelle erkennen Muster, wie geringeres Engagement bei Linkbeiträgen und höheres Engagement bei reflektierenden Erzählungen. Schwächere Modelle behandeln Eingaben oft isoliert oder übersehen deren Wechselwirkungen.

Interpretation menschlichen Verhaltens

Die Vorhersage von Engagement erfordert Überlegungen zu Zielgruppenpräferenzen. Einige Modelle zeigen eine starke Fähigkeit in diesem Bereich. Viele Modelle bleiben nahe der 50%-Basislinie, weil Zielgruppenverhalten variabel ist und von psychologischen Faktoren abhängt, die allein aus Text schwer abzuleiten sind.

Modelle, die um 52% liegen, zeigen ein teilweises Verständnis dieser Hinweise. Sie können allgemeine Muster erkennen, haben aber in Grenzfällen Schwierigkeiten. Modelle mit niedrigen Werten, wie o1, scheinen Standard-Engagement-Treiber falsch einzuschätzen und bevorzugen oft die weniger engagierende Option.

Einfluss der Trainingsdaten

Es wird festgestellt, dass die Modellausgaben die Daten widerspiegeln, auf denen sie trainiert wurden. Wenn die Trainingsdaten keine breite Palette von Kommunikationsstilen oder demografischen Gruppen repräsentieren, kann das Modell bestimmte Arten von Inhalten falsch interpretieren. Diese Trainingsunterschiede tragen direkt zur Streuung der Ergebnisse im Benchmark bei.

Modelle, die auf breiteren oder dialogorientierteren Datensätzen trainiert wurden, neigen dazu, Nutzerreaktionen besser zu approximieren. Modelle, die auf engeren Datensätzen trainiert wurden, verlassen sich oft auf oberflächliche Merkmale, die nicht gut mit tatsächlichem Engagement korrelieren.

Generalisierung über Autoren hinweg

Der Datensatz enthält Beiträge von 50 Autoren mit unterschiedlichen Follower-Zahlen, Medienpräferenzen und Schreibstilen. Modelle müssen über diese Unterschiede hinweg generalisieren. Stärkere Modelle bilden konsistente Erwartungen darüber, was Engagement antreibt, unabhängig vom Autor.

Schwächere Modelle wenden bei verschiedenen Autoren und Beiträgen inkonsistente Kriterien an.

Siehe unsere Methodik, um zu verstehen, wie wir diese Messungen berechnen.

Was ist Zielgruppensimulation?

Zielgruppensimulation ist die Praxis, synthetische, modellgesteuerte Populationen – manchmal als virtuelle Zielgruppen bezeichnet – zu nutzen, um vorherzusagen, wie echte Menschen auf Inhalte, Produkte oder politische Ideen reagieren könnten, bevor diese veröffentlicht werden. Anstatt Live-Tests mit teuren Umfragen oder Fokusgruppen durchzuführen, können Organisationen Personas erstellen, die ihre Zielgruppe repräsentieren, und deren simulierte Reaktionen beobachten.

Die Technik baut auf Methoden der agentenbasierten Modellierung, großer Sprachmodelle und Persona-Simulation auf. Jeder simulierte Agent oder jede Persona ist mit Attributen wie Demografie, Präferenzen oder Verhaltenstendenzen ausgestattet. Zusammen interagieren diese Personas und erzeugen synthetische Daten, die das Verhalten einer Gruppe echter Kunden oder Bürger in derselben Situation annähern.

Wie funktionieren Tools zur Zielgruppensimulation?

Die Mechanik der Zielgruppensimulation hängt von den verwendeten Tools ab, aber die meisten Ansätze teilen gemeinsame Komponenten:

Persona-Design: Forscher definieren Personas basierend auf spezifischen demografischen Merkmalen, psychografischen Profilen oder Marktsegmenten. Diese Personas können von einfachen regelbasierten Agenten bis hin zu detaillierten KI-Personas reichen, die mit Biografien und Konversationsfähigkeiten angereichert sind.
Synthetische Datengenerierung: LLM helfen, Dialoge, Umfrageantworten oder Posting-Verhalten zu simulieren. Zum Beispiel betreibt Artificial Societies 100–300 KI-Personas, die LinkedIn-Beiträge lesen, darauf reagieren und sie erneut teilen, um Netzwerkdynamiken zu simulieren.
Interaktionsmodellierung: Personas handeln nicht isoliert. Sie interagieren, beeinflussen sich gegenseitig und bilden Muster wie Echokammern, Kaskaden von Reposts oder Verschiebungen in der öffentlichen Meinung. Dies ermöglicht es Simulationen, sowohl individuelle Reaktionen als auch Phänomene auf Gruppenebene zu erfassen.
Szenario-Tests: Durch Variation von Eingaben wie Nachrichten-Framing, Medientyp oder Umfragefragen können Organisationen beobachten, wie simulierte Zielgruppen auf diese Variationen reagieren. Diese Szenarien helfen, Hypothesen zu generieren und Ideen in einer sicheren Praxisphase zu testen, bevor echte Menschen einbezogen werden.
Datenanalyse: Die Ergebnisse werden mit Techniken wie Wortwolken, Sentimentanalyse und Genauigkeitsbewertung analysiert. Die Ergebnisse können wahrscheinliche Gewinner zwischen zwei Beitragsvarianten, gemeinsame Themen im Feedback oder die Perspektive einer Persona darauf aufzeigen, warum eine Idee mehr Anklang findet als eine andere.

Praxisbeispiel: Generative Agent Simulationen der Stanford University

Ein Forschungsteam der Stanford University entwickelte eine Agentenarchitektur, die qualitative Interviewdaten in LLM-gestützte Repräsentationen realer Individuen umwandelt.

Anstatt Personas allein aus demografischen Labels zu erstellen, ist jeder Agent in einem zweistündigen Interview mit der Person verankert, die er repräsentiert. Getestet anhand der General Social Survey stimmten die Agenten fast so gut mit den Antworten ihrer Quellpersonen überein wie diese Personen selbst bei einer erneuten Befragung im Abstand von zwei Wochen.

Die Architektur zeigte auch eine geringere Vorhersageverzerrung über rassische und ideologische Gruppen hinweg im Vergleich zu demografiespezifischen Persona-Ansätzen, was darauf hindeutet, dass sie vielfältige Populationen getreuer modellieren kann als einfachere Methoden.¹

Anwendungsfälle der Zielgruppensimulation

Marketing und Werbung

Marken können Kampagnenslogans, visuelle Elemente oder Produktpositionierungen mit einer virtuellen Zielgruppe testen, bevor sie Geld für groß angelegte Verbreitung ausgeben. Anstatt sich ausschließlich auf traditionelle Umfrageantworten zu verlassen, können sie synthetische Daten von KI-Personas generieren und die Leistung über Gruppen hinweg vergleichen.

Zum Beispiel können Vermarkter feststellen, ob ein Produkt mehr bei Gen Z als bei älteren Fachleuten ankommt, und ihre kreative Strategie entsprechend anpassen. Diese Fähigkeit, Kampagnen in der Testphase zu validieren, führt zu Kosteneinsparungen und präziserem Targeting.

Praxisbeispiel: Focus Agent

Forscher der KU Leuven bauten ein Multi-Agenten-System, das die Struktur einer traditionellen Fokusgruppe vollständig in Software nachbildet, einschließlich der Teilnehmer und der Moderatorenrolle.

Das System wurde validiert, indem fünf echte Fokusgruppensitzungen mit 23 menschlichen Teilnehmern zu denselben Diskussionsthemen durchgeführt und die Ergebnisse dann mit denen verglichen wurden, die allein von KI-Teilnehmern erzeugt wurden. Die von der KI generierten Meinungen stimmten eng mit denen der menschlichen Befragten überein.

Über den Ersatz von Teilnehmern hinaus bot der LLM-Moderator auch praktische Vorteile gegenüber menschlicher Moderation, wie konsistentere Themenlenkung und Zeitmanagement.²

Medien und Verlagswesen

Medienunternehmen können simulieren, wie verschiedene Inhaltsformate (z. B. kurze Beiträge, lange Artikel, Video-Erklärungen) bei ihren Zielgruppen ankommen.

Persona-Simulation ermöglicht es auch zu testen, wie Schlagzeilen die Klickraten beeinflussen oder wie der Ton die Shares beeinflusst. Durch die Antizipation von Reaktionen können Redakteure Geschichten priorisieren, die sich eher verbreiten, anstatt auf Metriken nach der Veröffentlichung zu warten.

Öffentliche Politik und Forschung

Regierungen und Thinktanks können die Zielgruppensimulation nutzen, um politische Forschungsideen zu testen. Synthetische Populationen, die nach bestimmten demografischen Merkmalen modelliert sind, können veranschaulichen, wie verschiedene Gemeinschaften auf eine neue Steuer, eine Gesundheitsregulierung oder eine Klimainitiative reagieren könnten. Forscher haben generative Simulationen eingesetzt, um Themen wie Polarisierung und Fehlinformationen zu untersuchen.

Dieser Ansatz erleichtert die Hypothesengenerierung und bietet eine sicherere Umgebung, um unbeabsichtigte Folgen zu antizipieren, bevor echte Menschen einbezogen werden.

Produktentwicklung

Unternehmen können simulieren, wie Personas, die bestimmte demografische Gruppen repräsentieren, über eine neue Funktion oder ein neues Gerät sprechen. Beispielsweise könnte ein Technologieunternehmen vergleichen, ob Kleinunternehmer, Studenten oder Unternehmensmanager mehr Nutzen in einem neuen Software-Update sehen.

Erkenntnisse aus der Simulation können Designentscheidungen beeinflussen und das Risiko mindern, Funktionen zu veröffentlichen, die bei der beabsichtigten Zielgruppe nicht ankommen.

Schulung und Bildung

Universitäten und Unternehmen können Simulationen nutzen, um Übungsumgebungen zu schaffen, in denen Lernende mit KI-Personas interagieren. Ein angehender Verhandlungsführer könnte mit simulierten Gegenübern üben, oder ein Medizinstudent könnte Kommunikationsstrategien mit synthetischen Patienten testen.

Diese Trainingsszenarien bieten eine realistische Bandbreite an Reaktionen und ermöglichen es den Lernenden, ihre Fähigkeiten zu verfeinern, bevor sie echten Individuen begegnen.

Marktforschungsagenturen

Traditionelle Umfragefragen und Fokusgruppen können kostspielig und langsam sein. Marktforschungsagenturen können sie mit Zielgruppensimulation ergänzen, um synthetische Daten zu generieren, die schnelle richtungsweisende Einblicke liefern.

Obwohl Simulationen die Interaktion mit echten Kunden nicht ersetzen, können sie die Abhängigkeit von teuren Panels verringern und frühe Testphasen beschleunigen.

Lassen Sie unser Team einen Ihrer Geschäftsprozesse kostenlos mit KI-Agenten automatisieren.

Einen Prozess automatisieren

Tools zur Zielgruppensimulation

Wenn Sie ein spezielles Tool für die Zielgruppensimulation suchen, anstatt LLMs zu verwenden, finden Sie hier einige Optionen:

Artificial Societies

Artificial Societies ermöglicht es Nutzern, eine Zielgruppe in einfacher Sprache zu beschreiben oder eine basierend auf Social-Media-Interaktionen zu generieren. Anschließend konstruiert es eine „Gesellschaft“ von Personas und führt KI-gesteuerte Simulationen durch.

Jede Simulation umfasst automatisches A/B-Testing, das Variationen einer Nachricht im Stil des Nutzers generiert und gegen die Zielgruppe testet. Die Ergebnisse werden mit Bewertungen, Kommentaren und Zusammenfassungen präsentiert, was eine schnelle Interpretation ermöglicht. Die Anwendungsfälle umfassen PR, Produktentwicklung, Branding, Marketing, Journalismus und soziale Medien.

Abbildung 1: Artificial Societies Dashboard zur Zielgruppensimulation.

Abbildung 1: Artificial Societies Simulations-Dashboard.

Praxisbeispiel: Teneo

Teneo, eine PR-Agentur, bereitete die Einführung einer neuen Technologiestrategie vor und musste testen, ob ihre Botschaften bei wichtigen Stakeholdern ankommen würden, bevor sie öffentlich bekannt gegeben wurden. Das Unternehmen sah sich jedoch mehreren Einschränkungen gegenüber:

Die Strategie war vertraulich, was traditionelle Forschungsmethoden einschränkte.
Der Zeitplan war knapp, was groß angelegte Umfragen erschwerte.
Wichtige Zielgruppen wie politische Entscheidungsträger, Branchenführer und spezialisierte Stakeholder waren über herkömmliche Marktforschungspanels kaum erreichbar.

Um diese Herausforderungen zu bewältigen, ging Teneo eine Partnerschaft mit Artificial Societies ein. Der Prozess umfasste:

Erstellung von KI-Personas: Über 5.000 KI-Personas wurden generiert. Diese Personas basierten auf realen demografischen und psychografischen Profilen, die durch Social Listening und qualitative Forschung gewonnen wurden.
Aufbau spezialisierter „Gesellschaften“: Getrennte KI-Gesellschaften repräsentierten verschiedene Stakeholder-Gruppen, darunter:
- Verbraucher
- Branchenkollegen
- Politiker, Lobbyisten und politische Influencer.
Testen von Botschaftsnarrativen: Die Forscher testeten sechs konkurrierende Technologienarrative mithilfe von Umfragen und Experimenten innerhalb jeder KI-Gesellschaft.
Analyse der Reaktionen: Die Reaktionen wurden sowohl auf aggregierter als auch auf individueller Persona-Ebene analysiert, sodass das Team die Reaktionen über Zielgruppensegmente hinweg vergleichen konnte.

Die Simulation lieferte groß angelegte Einblicke schneller als traditionelle Forschungsmethoden. Zu den wichtigsten Ergebnissen gehörten:

189.756 einzigartige Antworten, die aus den KI-Simulationen generiert wurden.
Einblicke basierend auf 30 tiefgehenden Forschungsfragen zu sechs Narrativen.
Identifizierung des effektivsten Narrativs und maßgeschneiderte Botschaften für jedes Zielgruppensegment.
Bereitstellung der Ergebnisse über eine interaktive Analyseplattform und einen schriftlichen Bericht.³

Ask rally

Ask Rally ist ein virtueller Zielgruppensimulator, mit dem Nutzer Fragen, Inhalte und Ideen mit KI-Personas testen können, die echten Zielgruppen ähneln sollen.

Nutzer erstellen oder bearbeiten Personas oder klonen sie aus vorhandenen Daten wie Interviews oder Umfragen. Nach der Definition einer Zielgruppe können sie Fragen stellen und Antworten erhalten, die von Personas generiert werden, in einem Bereich von 5 bis 100. Die Plattform aggregiert Antworten, liefert wichtige Einblicke und ermöglicht es Agenten, über Optionen abzustimmen.

Zu den wichtigsten Funktionen gehören:

Multi-Agenten-Antworten mit aggregierten Zusammenfassungen und Einblicken.
Mem0-gestütztes Persona-Gedächtnis ermöglicht es Personas, Kontext und Verhaltensmuster beizubehalten, was hilft, konsistentere und realistischere Zielgruppenreaktionen zu simulieren.
Vierstufige Zielgruppensophistikation ermöglicht es Nutzern, Zielgruppen mit unterschiedlichem Fachwissen oder Vertrautheit mit einem Thema zu modellieren.
Video-Reaktionssimulation ermöglicht es Teams zu testen, wie Zielgruppen auf Videoinhalte wie Werbung, Kampagnenmaterial oder Präsentationen reagieren könnten.
API-Zugang ermöglicht es Teams, den Simulator in Forschungsworkflows, interne Tools oder automatisierte Test-Pipelines zu integrieren.
Testumgebungen für Websites, Kampagnen und Medien.
Zusätzliche Funktionen wie digitale Zwillinge, Simulatorumgebungen und Kalibrierung anhand realer Daten.
Kostenloser Tarif für Experimente und frühes Testen.

Generative Audiences von Dentsu

Generative Audiences ist ein KI-gestütztes Marketing-Intelligence-Tool, das simulierte Verbraucherzielgruppen aus realen Daten erstellt. Es hilft Marken, die Zielgruppenansprache, Medienplanung und Kampagnenleistung zu verbessern, indem es Marketingfachleuten ermöglicht, mit diesen KI-Personas zu interagieren und ihre Antworten zu analysieren.⁴

Deterministische und KI-gesteuerte Daten: Kombiniert personenbasierte deterministische Daten mit KI-gesteuerten Verhaltenssignalen, um Zielgruppenverhalten präzise zu modellieren.
Interaktive Verbrauchereinblicke: Marketingfachleute können mit simulierten Personas interagieren, um Motivationen und Verhaltensweisen zu erforschen, z. B. um zu testen, wie Zielgruppen auf neue Botschaften, Produktideen oder aktuelle Ereignisse reagieren könnten.
Multi-Source-Datenintegration: Synthetisiert mehrere Datenquellen (statisch und in Echtzeit) und integriert sich mit vorhandenen Kundendaten.
Medienplanung und -aktivierung: Einblicke aus den KI-Zielgruppen können genutzt werden, um gezielte Medienstrategien zu entwickeln und Kampagnen zu aktivieren.
Datenschutzbewusste Zielgruppenmodellierung: Da es statistische Simulationen nutzt, anstatt sich stark auf persönliche Identifikatoren zu stützen, kann die Lösung die Zielgruppenansprache skalieren und dabei datenschutzkonformer bleiben.

Electric Twin

Electric Twin ist eine synthetische Zielgruppenplattform, die digitale Populationen aus realen Daten erstellt.⁵

Synthetische Zielgruppenmodellierung: Erstellt digitale Populationen, die reale demografische Gruppen repräsentieren und menschliches Verhalten simulieren.
Echtzeit-Zielgruppenfeedback: Nutzer können Fragen stellen und sofortige Antworten von simulierten Personas erhalten, anstatt Umfragen durchzuführen.
Szenario- und Botschaftstests: Teams können Produktkonzepte, Kampagnen, Preisstrategien und politische Vorschläge bewerten, bevor sie eingeführt werden.
Umfragen und simulierte Fokusgruppen: Unterstützt schnelle Umfragen, Interviews und fokusgruppenartige Diskussionen mit KI-Personas.
Benutzerdefinierte und vorgefertigte Zielgruppen: Organisationen können Zielgruppen mit ihren eigenen Umfragedaten erstellen oder fertige demografische Populationen aus mehreren Ländern nutzen.
Vorhersage-Engine: Vergleicht Ergebnisse mit realen Umfragedaten, um wahrscheinliche Verbraucherreaktionen abzuschätzen.
Datenschutzfreundliche Forschungsumgebung: Synthetische Populationen ermöglichen das Testen von Ideen, ohne sensible oder personenbezogene Daten preiszugeben.

Simile KI

Entwickelt von Forschern aus Stanford, zielt Simile darauf ab, große Gruppen oder sogar ganze Gesellschaften zu simulieren, um vorherzusagen, wie Menschen auf Produkte, Richtlinien oder Unternehmensentscheidungen reagieren könnten.⁶

Digitale Zwillings-Personas: Erstellt KI-Agenten, die reale Individuen basierend auf Verhaltensdaten und Interviews repräsentieren.
Groß angelegte Simulationen menschlichen Verhaltens: Modelliert Interaktionen zwischen Tausenden von Agenten, um Verbraucherentscheidungen oder soziale Ergebnisse vorherzusagen.
Szenario-Vorhersage: Unternehmen können Ereignisse wie Änderungen der Verbrauchernachfrage oder Analystenfragen bei Gewinnmitteilungen antizipieren.
Generative Agentenarchitektur: KI-Agenten planen Aktionen, bilden Meinungen und interagieren miteinander, um realistische Verhaltensdynamiken zu erzeugen.

Methodik des Benchmarks zur Zielgruppensimulation

Unsere Forschungsfrage für diesen Benchmark war: „Können KI-Modelle vorhersagen, welcher LinkedIn-Beitrag mehr Engagement erzielt, bevor er veröffentlicht wird?“ Aus diesem Grund haben wir bewertet, wie gut KI-Modelle vorhersagen können, welcher von zwei LinkedIn-Beiträgen desselben Autors innerhalb von 7 Tagen nach der Veröffentlichung ein höheres Gesamtengagement (Likes + Kommentare + Shares) erzielt.

Wir verwendeten Beiträge von 50 Autoren für unseren Datensatz. Jede Zeile enthält ein Paar von Beiträgen desselben Autors mit diesen Merkmalen:

Beitragsinhalt: Rohtext beider Beiträge
Medientyp: Text/Bild/Video/Link für jeden Beitrag
Autorenkontext: Follower-Bereich (z. B. „1k-5k“, „5k-20k“)
Ground Truth: Tatsächliche Engagement-Zahlen und Gewinner-Label (A oder B)

Beispieldaten:

Beitrag A (Gewinner – 156 Engagement): „Nach drei gescheiterten Startups, hier ist, was ich mir gewünscht hätte, dass mir jemand über Product-Market-Fit sagt: Hör auf, Funktionen zu bauen, die deine fünf Beta-Nutzer angefordert haben. Fang an, dich auf das Problem zu konzentrieren, mit dem 95% deines Zielmarktes tatsächlich konfrontiert sind. Ich habe diesen Fehler 2 Jahre lang gemacht. Wiederhole ihn nicht. Was ist die größte Produktlektion, die du auf die harte Tour gelernt hast?“

Medien: Text
Follower: 5k-20k

Beitrag B (84 Engagement): „Freue mich, unser neues KI-gestütztes Analyse-Dashboard vorzustellen! Schaut euch die Demo an und lasst uns wissen, was ihr denkt.“

Medien: Link
Follower: 5k-20k

Analyse: Beitrag A hat gewonnen, weil er spezifische, umsetzbare Ratschläge aus persönlichem Scheitern liefert, eine ansprechende Frage stellt und nachvollziehbaren Inhalt bietet. Beitrag B ist eine generische Werbung mit geringerem Engagement-Potenzial.

Evaluierung des Benchmarks zur Zielgruppensimulation

Bei der Evaluierung erhält jedes Modell diese Informationen für beide Beiträge:

Beitragstext
Medientyp
Follower-Anzahl-Bereich des Autors

Mit diesen Informationen sollen die Modelle vorhersagen, ob Beitrag A oder B der bessere Performer ist. Sie können uns ihre Begründung zeigen, aber wir haben ihre Begründung in diesem Benchmark nicht bewertet.

Da die Modelle eine 50%-Chance haben, beim besten Performer richtig zu liegen (es gibt zwei Auswahlmöglichkeiten), ziehen wir in Betracht, in Zukunft eine „Leistung über Zufall (Genauigkeit minus 50%, was der Basislinie für zufälliges Raten entspricht)“-Basislinie zu betrachten.

Dennoch haben wir in diesem Datensatz kein zufälliges Raten beobachtet; alle Modelle haben ihre Argumentation dargelegt, unabhängig davon, ob ihre Antworten richtig oder falsch waren.

Entdecken Sie weitere unserer Benchmarks und datengestützten Erkenntnisse in der Google-Suche.

Als bevorzugte Quelle hinzufügen

Was sind die potenziellen Herausforderungen der Zielgruppensimulation?

Trotz ihres Potenzials muss die Zielgruppensimulation mit Vorsicht angegangen werden.

Validierung anhand echter Kunden

Vorhersagen aus virtuellen Zielgruppen müssen mit tatsächlichen Ergebnissen verglichen werden. Ohne Benchmarks können Ergebnisse falsches Vertrauen erzeugen. Die Validierung ist entscheidend, um sicherzustellen, dass synthetische Personas das Verhalten realer Menschen genau widerspiegeln.

Verzerrung in Sprachmodellen

KI-Personas werden durch die Daten geprägt, die zugrunde liegenden Sprachmodelle trainiert haben. Wenn diese Daten bestimmte Gruppen unterrepräsentieren, können die resultierenden Personas die Darstellung bestimmter demografischer Gruppen verzerren. Dies kann beeinflussen, wie Umfrageantworten oder die öffentliche Meinung simuliert werden.

Interpretierbarkeit

Obwohl Persona-Gespräche oder Wortwolken gemeinsame Themen aufzeigen können, ist nicht immer klar, warum bestimmte Ergebnisse entstehen. Die Komplexität der LLM-Antworten kann es schwierig machen, Zielgruppenverhalten zu erklären oder zu validieren.

Ethische Richtlinien

Die Verwendung synthetischer Daten für Kunden- oder Politikforschung erfordert Transparenz. Organisationen müssen sicherstellen, dass sie Simulationen nicht als Ersatz für echte Kunden darstellen und sollten ethische Grenzen bei der Definition von Personas respektieren.

Generalisierbarkeit

Simulationen sind stark vom Umfang des Persona-Designs abhängig. Ein Modell, das auf US-amerikanischen Tech-Gründern trainiert wurde, kann nicht automatisch Antworten von Gen Z in Asien vorhersagen. Übergeneralisierung ist ein Risiko, wenn Ergebnisse auf Populationen übertragen werden, die in der Simulation nicht repräsentiert waren.

Rechenaufwand

Die Durchführung detaillierter Simulationen mit Tausenden von Personas kann erhebliche Ressourcen erfordern. Obwohl KI-Tools die Effizienz verbessern, erfordern groß angelegte Experimente immer noch Zeit, technisches Wissen und Infrastruktur.

Diese Forschung zitieren

Wählen Sie das Format, das zu Ihrem Veröffentlichungsort passt. Wenn Sie die Link-Version in Ihr CMS einfügen, bleibt der Backlink erhalten.

Sıla Ermut (2026) - "Zielgruppensimulation: Können LLMs menschliches Verhalten vorhersagen?". Online veröffentlicht auf AIMultiple.com. Abgerufen am 28. April 2026, von: https://aimultiple.com/audience-simulation [Online-Ressource]

Ermut, S. (2026, 28. April). Zielgruppensimulation: Können LLMs menschliches Verhalten vorhersagen?. AIMultiple. https://aimultiple.com/audience-simulation

@misc{ermut2026,
  author = {Ermut, Sıla},
  title  = {{Zielgruppensimulation: Können LLMs menschliches Verhalten vorhersagen?}},
  year   = {2026},
  month  = apr,
  howpublished    = {\url{https://aimultiple.com/audience-simulation}},
  note   = {AIMultiple. Abgerufen am 28. April 2026}
}

Referenzlinks

https://arxiv.org/pdf/2411.10109

https://arxiv.org/pdf/2409.01907

Artificial Societies

Dentsu Launches Generative Audiences: AI-Powered Growth Intelligence That Thinks Like Consumers | News | dentsu

Electric Twin - Synthetic Audiences for Instant Consumer Insights

Electric Twin

Home | Simile

Sıla Ermut

Branchenanalystin

Folgen auf

Sıla Ermut ist Branchenanalystin bei AIMultiple mit Schwerpunkt auf E-Mail-Marketing und Verkaufsvideos. Sie arbeitete zuvor als Personalvermittlerin in Projektmanagement- und Beratungsfirmen. Sıla hat einen Master of Science in Sozialpsychologie und einen Bachelor of Arts in Internationale Beziehungen.

Vollständiges Profil anzeigen