Dienstleistungen
Jetzt kontaktieren

KI-Modelle

KI-Modelle machen Vorhersagen auf Basis ihrer Trainingsdaten. Sie können in jedem Bereich eingesetzt werden, beispielsweise in Zahlen, Texten oder Multimedia-Inhalten.

Erkunden Sie KI-Modelle

Intelligence Density of 69 LLMs: Smarter or More Efficient?

LLMJun 15

We tracked 69 LLMs released between February 2023 and May 2026 and collected 10 public benchmarks to measure intelligence density. We divided the capability score by the resource the model consumes (active parameters, training compute, and inference price).

Mehr lesen
LLMJun 15

KI-Gateways für OpenAI: OpenRouter Alternativen

Wir haben OpenRouter, SambaNova, TogetherAI, Groq und AI/ML API anhand von drei Indikatoren (Latenz bis zum ersten Token, Gesamtlatenz und Anzahl der ausgegebenen Token) mit 300 Tests verglichen. Dabei verwendeten wir kurze (ca. 18 Token) und lange (ca. 203 Token) Aufforderungen zur Ermittlung der Gesamtlatenz.

AI ModelsJun 12

Grundlagenmodelle für Zeitreihen: Anwendungsfälle und Vorteile

Time Series Foundation Models (TSFMs) bauen auf Fortschritten in Basismodellen aus der Verarbeitung natürlicher Sprache und der Bildverarbeitung auf. Mithilfe von Transformer-basierten Architekturen und umfangreichen Trainingsdaten erreichen sie Zero-Shot-Performance und sind branchenübergreifend einsetzbar, beispielsweise in den Bereichen Finanzen, Einzelhandel, Energie und Gesundheitswesen.

LLMJun 11

Text-zu-SQL: Vergleich der LLM-Genauigkeit

Ich nutze SQL seit 18 Jahren für die Datenanalyse, angefangen in meiner Zeit als Berater. Die Übersetzung von natürlichsprachlichen Anfragen in SQL macht Daten zugänglicher und ermöglicht es jedem, auch ohne technische Vorkenntnisse, direkt mit Datenbanken zu arbeiten.

LLMJun 10

LLM-Latenz-Benchmark nach Anwendungsfällen im Jahr

Die Effektivität großer Sprachmodelle (LLMs) hängt nicht nur von ihrer Genauigkeit und ihren Fähigkeiten ab, sondern auch von ihrer Reaktionsgeschwindigkeit auf Nutzereingaben. Wir haben die Leistung führender Sprachmodelle in verschiedenen Anwendungsfällen verglichen und ihre Reaktionszeiten auf Nutzereingaben gemessen.

LLMJun 10

Benchmark von 38 LLM-Studiengängen im Bereich Finanzen: Claude Opus 4.6, Gemini 3.1 Pro & mehr

Wir evaluierten 38 LLM-Studiengänge im Bereich Finanzen anhand von 238 anspruchsvollen Fragen des FinanceReasoning-Benchmarks, um diejenigen Modelle zu identifizieren, die sich bei komplexen Aufgaben des finanziellen Denkens wie Bilanzanalyse, Prognosen und Kennzahlenberechnungen besonders gut eignen. Überblick über den LLM-Benchmark im Bereich Finanzen: Wir evaluierten LLM-Studiengänge anhand von 238 anspruchsvollen Fragen des FinanceReasoning-Benchmarks (Tang et al.).

LLMJun 10

Vergleich multimodaler KI-Modelle zum visuellen Denken

Wir haben 15 führende multimodale KI-Modelle hinsichtlich ihres visuellen Denkvermögens anhand von 200 visuellen Aufgaben getestet. Die Evaluierung umfasste zwei Teile: 100 Aufgaben zum Verständnis von Diagrammen, die die Interpretation von Datenvisualisierungen prüften, und 100 Aufgaben zur visuellen Logik, die Mustererkennung und räumliches Denken bewerteten. Jede Aufgabe wurde fünfmal gestellt, um konsistente und zuverlässige Ergebnisse zu gewährleisten.

AI ModelsJun 10

Vergleich der Modelle mit großer Sicht: GPT-4o vs YOLOv8n

Große Bildverarbeitungsmodelle (LVMs) können visuelle Aufgaben wie Fehlererkennung, medizinische Diagnostik und Umweltüberwachung automatisieren und verbessern. Wir haben drei Objekterkennungsmodelle – YOLOv8n, DETR und GPT-4o Vision – anhand von jeweils 1000 Bildern verglichen und dabei Metriken wie mAP@0,5, Inferenzgeschwindigkeit, FLOPs und Parameteranzahl gemessen. Um einen fairen Vergleich zu gewährleisten, wurden alle Bilder auf […] skaliert.

LLMJun 9

LLM Observability Tools: Weights & Biases, Langsmith

LLM-basierte Anwendungen werden immer leistungsfähiger und komplexer, wodurch ihr Verhalten schwerer zu interpretieren ist. Jede Modellausgabe resultiert aus Eingabeaufforderungen, Werkzeuginteraktionen, Abrufschritten und probabilistischen Schlussfolgerungen, die nicht direkt einsehbar sind. Die Beobachtbarkeit von LLM begegnet dieser Herausforderung, indem sie kontinuierliche Einblicke in die Funktionsweise von Modellen unter realen Bedingungen ermöglicht.

LLMJun 5

Große Sprachmodelle in der Cybersicherheit

Wir evaluierten sieben große Sprachmodelle in neun Bereichen der Cybersicherheit mithilfe von SecBench, einem umfangreichen und formatübergreifenden Benchmark für Sicherheitsaufgaben. Jedes Modell wurde anhand von 44.823 Multiple-Choice-Fragen (MCQs) und 3.087 Kurzfragen (SAQs) getestet, die Bereiche wie Datensicherheit, Identitäts- und Zugriffsmanagement, Netzwerksicherheit, Schwachstellenmanagement und Cloud-Sicherheit abdeckten.

LLMJun 5

KI-Halluzination: Vergleiche Top-LLMs wie GPT-5.2

KI-Modelle können Antworten generieren, die plausibel erscheinen, aber falsch oder irreführend sind – sogenannte KI-Halluzinationen. 77 % der Unternehmen sind besorgt über KI-Halluzinationen. Wir haben 37 verschiedene Lernmodelle mit 60 Fragen verglichen, um ihre Halluzinationsraten zu messen: Ergebnisse des KI-Halluzinations-Benchmarks.