Contáctanos
No se encontraron resultados.
Nazlı Şipi

Nazlı Şipi

Investigador de IA
26 Artículos
Mantente al día sobre tecnología B2B.
Nazlı es analista de datos en AIMultiple. Cuenta con experiencia previa en análisis de datos en diversos sectores, donde se dedicó a transformar conjuntos de datos complejos en información útil. También forma parte del equipo de evaluación comparativa, donde se centra en modelos de lenguaje a gran escala (LLM), agentes de IA y marcos de trabajo basados en agentes. Nazlı posee una maestría en Análisis de Negocios por la Universidad de Denver.

Últimos artículos de Nazlı

AIFeb 25

Comparación de modelos de IA multimodales en razonamiento visual

Realizamos una evaluación comparativa de 15 modelos líderes de IA multimodal en razonamiento visual utilizando 200 preguntas basadas en imágenes. La evaluación constó de dos partes: 100 preguntas de comprensión de gráficos que evaluaban la interpretación de la visualización de datos y 100 preguntas de lógica visual que evaluaban el reconocimiento de patrones y el razonamiento espacial. Cada pregunta se ejecutó 5 veces para garantizar resultados consistentes y fiables.

AIFeb 2

Herramientas de observabilidad LLM: ponderaciones y sesgos, Langsmith

Las aplicaciones basadas en LLM son cada vez más potentes y complejas, lo que dificulta la interpretación de su comportamiento. Cada resultado del modelo se deriva de indicaciones, interacciones con herramientas, pasos de recuperación y razonamiento probabilístico que no pueden inspeccionarse directamente. La observabilidad de LLM aborda este desafío al proporcionar visibilidad continua sobre cómo operan los modelos en condiciones reales.

AIEne 28

Herramientas de detección de alucinaciones mediante IA: W&B Weave y Comet

Comparamos tres herramientas de detección de alucinaciones: Weights & Biases (W&B) Weave HallucinationFree Scorer, Arize Phoenix HallucinationEvaluator y Comet Opik Hallucination Metric, en 100 casos de prueba. Cada herramienta se evaluó en función de su precisión, exactitud, exhaustividad y latencia para ofrecer una comparación justa de su rendimiento en el mundo real.

Agente de IAEne 26

Evaluación comparativa de marcos de IA agencial en flujos de trabajo analíticos

Los marcos de trabajo para la creación de flujos de trabajo basados en agentes difieren sustancialmente en la forma en que manejan las decisiones y los errores; sin embargo, su rendimiento con datos reales imperfectos aún no se ha probado en gran medida.

AIEne 23

Comparativa de los 9 principales proveedores de IA

El ecosistema de infraestructura de IA está creciendo rápidamente, con proveedores que ofrecen diversos enfoques para construir, alojar y acelerar modelos. Si bien todos buscan impulsar las aplicaciones de IA, cada uno se centra en una capa diferente de la pila.

AIEne 22

Evaluación comparativa de latencia de LLM por casos de uso en 2026

La eficacia de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) no solo depende de su precisión y capacidades, sino también de la velocidad con la que interactúan con los usuarios. Evaluamos el rendimiento de los principales modelos de lenguaje en diversos casos de uso, midiendo sus tiempos de respuesta a la entrada del usuario.