wie wir testen

40.000 Ingenieurstunden pro Jahr für die Prüfung von AI und Unternehmenssoftware

Erfahren Sie mehr über unsere Investitionen in Benchmarking, um eine realistische Testumgebung für verschiedene B2B-Technologielösungen zu schaffen.

Ansatz

Benchmarking ist schwierig. Jedes Unternehmen hat unterschiedliche Bedürfnisse, die sich außerhalb dieser Unternehmen nicht perfekt simulieren lassen. Unser Benchmarking-Ansatz basiert auf folgenden Säulen:

Kontinuierliche Verbesserung: Mit zunehmender Reife der Produkte entwickeln sich auch deren Anwendungsfälle weiter, und damit auch die Art und Weise, wie wir unsere Benchmarks durchführen.
Gleicher Zugang: Jede Marke und unsere Leser haben Zugriff auf die gleichen Datenpunkte zu unseren Tests.
Relevante Anwendungsfälle: Es gibt unzählige Möglichkeiten, jede Technologielösung einzusetzen. Wir bemühen uns, möglichst realistische Benchmarks zu erstellen.
- Wir werden zu langfristigen Nutzern der Produkte, die wir bewerten
- Experten befragen
- Analyse von Fallstudien und Rezensionen, um die Erfahrungen anderer Nutzer zu verstehen
Transparenz:
- Wir wenden die wissenschaftliche Methode an und veröffentlichen unsere Vorgehensweise inklusive des Zeitpunkts jedes Benchmarks. Unser Ziel ist es, anderen zu helfen, unsere Messungen zu verstehen und unsere Ergebnisse bei Bedarf zu reproduzieren.
- Wir möchten in jedem Benchmark Testdaten veröffentlichen. Dies kann jedoch zu Datenverfälschungen führen, da manche Produkte in den Testdaten besser abschneiden als in der Realität. Um dies zu vermeiden, führen wir die meisten unserer Tests mit separaten Testdatensätzen durch. Wir bemühen uns, diese separaten Testdatensätze nach Möglichkeit durch Open-Source-Datensätze zu ergänzen.
Reproduzierbarkeit: Die Leistung schwankt im Zeitverlauf. Daher führen wir für jede Metrik mehrere Messungen über einen längeren Zeitraum durch. In Fällen, in denen dies nicht erreicht wurde, werden wir diesen Punkt im Rahmen des Benchmarks hervorheben.

Benchmarks in Zahlen

AI:

Die Halluzinationsraten von mehr als einem Dutzend LLMs werden aufgelistet.
Mehr als 10 agentische RAG-Lösungen werden hinsichtlich ihrer korrekten Datenbankauswahlraten bewertet.
Die Top 10 LLMs werden hinsichtlich ihrer Genauigkeit bei der SQL-Codegenerierung bewertet.
All Hyperscaler' AI Bilderkennungslösungen wurden anhand von 100 Bildern verglichen.
Die beste Avatar-Software AI im Vergleich anhand von mehr als 10 Kriterien.
Die Top 10 der mehrsprachigen Einbettungsmodelle, evaluiert für die Genauigkeit des Abrufs von RAG in 6 Sprachen.
Die Top 13 LLMs wurden hinsichtlich ihrer visuellen Denkfähigkeiten getestet.

Webdaten:

Proxies: Im Rahmen unseres Benchmarks zur Webdatenerfassung im Unternehmensmaßstab wurden 6 Millionen Webseitenanfragen für den Lasttest gesendet.
Web Scraping APIs: Mehr als 40 Web-Scraping-Methoden APIs wurden auf einer Reihe von Websites getestet, darunter E-Commerce-Plattformen und Suchmaschinen.
Getestete Web-Scraper für TikTok-Scraping : 500 Videos URLs pro Anbieter

Anwendungssicherheit: 10 Web-Scans wurden für unseren DAST-Benchmark analysiert.

Datensicherheit: 5 DLP-Tools wurden anhand von über 10 Metriken in unserem DLP-Benchmark bewertet.

IT-Automatisierung:

Im Rahmen unseres Benchmarks für verwaltete Dateiübertragungen wurden die Datenübertragungsraten von drei Anbietern in fünf Regionen verglichen.
In unserem RMM-Benchmark wurden 7 Produkte anhand von 8 Kennzahlen verglichen.
Die führenden Anbieter wurden anhand von über 10 Kennzahlen in unserem ITSM-Benchmark bewertet.

Agentic AI:

Die Leistungsfähigkeit führender Agentic CLI-Tools im Einzelfall wurde anhand von 10 realen Problemstellungen evaluiert.

Hinter unseren Benchmarks

AIMultiple-Branchenanalysten arbeiten mit unserem Netzwerk von Geschäftsexperten und Hauptanalysten zusammen, um AIMultiple-Artikel zu schreiben und zu aktualisieren.

AIMultiple Akademie

Wir haben die AI Multiple Academy als strukturiertes Trainingsprogramm ins Leben gerufen, um die technischen Kompetenzen unseres Teams zu stärken. Unser CTO leitet diese praxisorientierten Schulungen und kombiniert theoretische Inhalte mit praktischen Aufgaben, die wertvolle Praxiserfahrung vermitteln. Mit dieser Initiative entwickeln wir unsere Analysten zu AI-kompetenten Entwicklern, die komplexe Produkte souverän bewerten und vergleichen können. Diese technische Weiterbildung ist eine strategische Investition in die Fähigkeit unseres Teams, fundiertere und aussagekräftigere Produktbewertungen und Benchmarks zu erstellen.

Warum also nicht einfach unsere Benchmarks per Vibe-Code erstellen?

Konstanz im Zeitverlauf: Unsere Benchmarks müssen wiederholt durchgeführt werden, um Leistungsverbesserungen zu messen. Auch wenn moderne Codierungswerkzeuge wie Cursor und Windsurf bei der Erstellung funktionsfähiger MVPs helfen können, erfordert die Bereitstellung dieser Anwendungen weiterhin fundierte Entwicklerkenntnisse, die über die reine Codegenerierung hinausgehen. Ohne entsprechende DevOps- und Infrastrukturexpertise fällt es Teams schwer, den Übergang vom Prototyp zur Produktionsumgebung zu meistern.
Sicherheit: Ohne angemessene Prüfung und Verständnis des im Rahmen von AI generierten Codes sind Systeme anfällig für Sicherheitslücken. Unsere Schulung legt Wert auf die Identifizierung und Minderung dieser potenziellen Angriffsvektoren, um die Sicherheit und Zuverlässigkeit der Benchmarks zu gewährleisten.
Hinweis: Obwohl AI Code generieren kann, benötigen unsere Analysten dennoch grundlegende Softwarekenntnisse, um diese Benchmarks korrekt zu interpretieren.

Gängige Konfidenzintervalle

Da wir nur eine begrenzte Anzahl von Tests durchführen, ist es notwendig, Konfidenzintervalle zu berechnen. Wir haben hierfür diese Formel und 95%-Konfidenzintervalle im gesamten Bericht verwendet.

Teilnehmer

Aufgrund begrenzter Zeit und Ressourcen führen wir Benchmarks üblicherweise mit den größten Anbietern eines bestimmten Bereichs durch. Kennzahlen wie die Mitarbeiterzahl helfen uns, die größten Marken zu identifizieren. Die spezifischen Kriterien für die Auswahl der zu vergleichenden Produkte werden in jedem Benchmark erläutert.

Wir danken Hunderten von Marken, die uns Zugang zu ihren Produkten gewähren, sei es durch die Bereitstellung von Guthaben oder großzügigen kostenlosen Testzeiträumen, die es uns ermöglichen, Lösungen zu vergleichen.

In seltenen Fällen entscheiden sich einige Marken gegen eine Teilnahme an bestimmten Benchmarks. In solchen Fällen greifen wir auf öffentlich zugängliche Daten zurück, um ihre Produkte zu bewerten.

Warum Benchmarking in der B2B-Technologie wichtig ist

Transparente, datengestützte Benchmarks zur Produktleistung sind selten. Herkömmliche Branchenanalysten stützen sich auf intransparente und potenziell voreingenommene Bewertungen, bei denen ausschließlich folgende Daten veröffentlicht werden:

Qualitative (d. h. Marktverständnis) und quantitative Kriterien auf High-Niveau, anhand derer Produkte bewertet werden
High-Niveau-Bewertungen dieser Kriterien ohne Offenlegung der der Bewertung zugrunde liegenden Werte

Analystenbias: Analysten bewerten die Antworten der Anbietervertreter, einschließlich qualitativer Aspekte. Anbietervertreter mit Geschäftsbeziehungen zu Branchenanalysten haben die Möglichkeit, diese Beziehungen durch regelmäßige Telefonate über das Jahr hinweg auszubauen. Anbietervertreter ohne solche Geschäftsbeziehungen präsentieren ihr Produkt hingegen in einem einzigen Telefonat.
Interessenkonflikt: Im Rahmen dieser Bewertungen werden die Vertreter der Anbieter nach ihren vertraulichen Daten (z. B. Umsatz, Funktionen, Roadmap usw.) befragt. Da offensichtlich ist, welche Antworten zu besseren Ergebnissen für den Anbieter führen (z. B. führt ein höherer Produktumsatz wahrscheinlich zu einer besseren Platzierung), besteht für die Anbieter ein Interessenkonflikt.

Unternehmen können bessere Technologieentscheidungen treffen, nachdem sie objektive und datengestützte Benchmarks geprüft haben.