KI-Modelle
KI-Modelle machen Vorhersagen auf Basis ihrer Trainingsdaten. Sie können in jedem Bereich eingesetzt werden, beispielsweise in Zahlen, Texten oder Multimedia-Inhalten.
KI-Gateways für OpenAI: OpenRouter Alternativen
Wir haben OpenRouter, SambaNova, TogetherAI, Groq und AI/ML API anhand von drei Indikatoren (Latenz bis zum ersten Token, Gesamtlatenz und Anzahl der ausgegebenen Token) mit 300 Tests verglichen. Dabei verwendeten wir kurze (ca. 18 Token) und lange (ca. 203 Token) Aufforderungen zur Ermittlung der Gesamtlatenz.
Grundlagenmodelle für Zeitreihen: Anwendungsfälle und Vorteile
Time Series Foundation Models (TSFMs) bauen auf Fortschritten in Basismodellen aus der Verarbeitung natürlicher Sprache und der Bildverarbeitung auf. Mithilfe von Transformer-basierten Architekturen und umfangreichen Trainingsdaten erreichen sie Zero-Shot-Performance und sind branchenübergreifend einsetzbar, beispielsweise in den Bereichen Finanzen, Einzelhandel, Energie und Gesundheitswesen.
Text-zu-SQL: Vergleich der LLM-Genauigkeit
Ich nutze SQL seit 18 Jahren für die Datenanalyse, angefangen in meiner Zeit als Berater. Die Übersetzung von natürlichsprachlichen Anfragen in SQL macht Daten zugänglicher und ermöglicht es jedem, auch ohne technische Vorkenntnisse, direkt mit Datenbanken zu arbeiten.
LLM-Latenz-Benchmark nach Anwendungsfällen im Jahr
Die Effektivität großer Sprachmodelle (LLMs) hängt nicht nur von ihrer Genauigkeit und ihren Fähigkeiten ab, sondern auch von ihrer Reaktionsgeschwindigkeit auf Nutzereingaben. Wir haben die Leistung führender Sprachmodelle in verschiedenen Anwendungsfällen verglichen und ihre Reaktionszeiten auf Nutzereingaben gemessen.
Benchmark von 38 LLM-Studiengängen im Bereich Finanzen: Claude Opus 4.6, Gemini 3.1 Pro & mehr
Wir evaluierten 38 LLM-Studiengänge im Bereich Finanzen anhand von 238 anspruchsvollen Fragen des FinanceReasoning-Benchmarks, um diejenigen Modelle zu identifizieren, die sich bei komplexen Aufgaben des finanziellen Denkens wie Bilanzanalyse, Prognosen und Kennzahlenberechnungen besonders gut eignen. Überblick über den LLM-Benchmark im Bereich Finanzen: Wir evaluierten LLM-Studiengänge anhand von 238 anspruchsvollen Fragen des FinanceReasoning-Benchmarks (Tang et al.).
Vergleich multimodaler KI-Modelle zum visuellen Denken
Wir haben 15 führende multimodale KI-Modelle hinsichtlich ihres visuellen Denkvermögens anhand von 200 visuellen Aufgaben getestet. Die Evaluierung umfasste zwei Teile: 100 Aufgaben zum Verständnis von Diagrammen, die die Interpretation von Datenvisualisierungen prüften, und 100 Aufgaben zur visuellen Logik, die Mustererkennung und räumliches Denken bewerteten. Jede Aufgabe wurde fünfmal gestellt, um konsistente und zuverlässige Ergebnisse zu gewährleisten.
Vergleich der Modelle mit großer Sicht: GPT-4o vs YOLOv8n
Große Bildverarbeitungsmodelle (LVMs) können visuelle Aufgaben wie Fehlererkennung, medizinische Diagnostik und Umweltüberwachung automatisieren und verbessern. Wir haben drei Objekterkennungsmodelle – YOLOv8n, DETR und GPT-4o Vision – anhand von jeweils 1000 Bildern verglichen und dabei Metriken wie mAP@0,5, Inferenzgeschwindigkeit, FLOPs und Parameteranzahl gemessen. Um einen fairen Vergleich zu gewährleisten, wurden alle Bilder auf […] skaliert.
LLM Observability Tools: Weights & Biases, Langsmith
LLM-basierte Anwendungen werden immer leistungsfähiger und komplexer, wodurch ihr Verhalten schwerer zu interpretieren ist. Jede Modellausgabe resultiert aus Eingabeaufforderungen, Werkzeuginteraktionen, Abrufschritten und probabilistischen Schlussfolgerungen, die nicht direkt einsehbar sind. Die Beobachtbarkeit von LLM begegnet dieser Herausforderung, indem sie kontinuierliche Einblicke in die Funktionsweise von Modellen unter realen Bedingungen ermöglicht.
Große Sprachmodelle in der Cybersicherheit
Wir evaluierten sieben große Sprachmodelle in neun Bereichen der Cybersicherheit mithilfe von SecBench, einem umfangreichen und formatübergreifenden Benchmark für Sicherheitsaufgaben. Jedes Modell wurde anhand von 44.823 Multiple-Choice-Fragen (MCQs) und 3.087 Kurzfragen (SAQs) getestet, die Bereiche wie Datensicherheit, Identitäts- und Zugriffsmanagement, Netzwerksicherheit, Schwachstellenmanagement und Cloud-Sicherheit abdeckten.
KI-Halluzination: Vergleiche Top-LLMs wie GPT-5.2
KI-Modelle können Antworten generieren, die plausibel erscheinen, aber falsch oder irreführend sind – sogenannte KI-Halluzinationen. 77 % der Unternehmen sind besorgt über KI-Halluzinationen. Wir haben 37 verschiedene Lernmodelle mit 60 Fragen verglichen, um ihre Halluzinationsraten zu messen: Ergebnisse des KI-Halluzinations-Benchmarks.