La investigación profunda mediante IA es una función presente en algunos programas de maestría en derecho (LLM) que ofrece a los usuarios una gama más amplia de resultados de búsqueda que los motores de búsqueda basados en IA . Para evaluar el rendimiento de diferentes herramientas de investigación profunda mediante IA, presentamos tres nuevos puntos de referencia:
DR-50 (Deep Research 50) Bench , que evalúa herramientas a través de 50 preguntas que abarcan seis tipos de preguntas, DR-2T (Deep Research 2 Task) Bench , que evalúa herramientas a través de dos tareas de investigación del mundo real centradas en la calidad de la generación de informes, la cobertura de fuentes y la presentación de datos estructurados, y Agent vs Deep Research Models , que evalúa si los agentes son mejores para fines de investigación.
Resultados de la prueba de laboratorio DR-50
Comparación de precisión y latencia
Probamos herramientas de investigación profunda basadas en IA con 50 preguntas de 6 tipos distintos. Consulte nuestra metodología de evaluación comparativa.
Perplexity Sonar Deep Research muestra la mayor precisión, con un 34% y una latencia moderada. Parallel Ultra y o4 mini deep research demuestran niveles de precisión similares, alrededor del 22-24%, aunque Parallel Ultra requiere mucho más tiempo. o3-deep-research presenta la menor precisión con una latencia prolongada.
Costo y latencia en la única tarea exitosa
Medimos el costo y la latencia en una sola pregunta donde todas las herramientas tuvieron éxito. o4 mini deep research y Perplexity Ultra se ubican en la región eficiente con bajos costos y tiempos de finalización más rápidos. o3 deep research opera con un costo más alto y mayor latencia. Parallel muestra la latencia más larga a pesar de un costo moderado.
Citas
La cantidad de citas varía independientemente del costo y la latencia. o4 mini deep research proporciona significativamente más citas manteniendo la eficiencia, lo que sugiere diferentes enfoques para obtener y referenciar información. Las escasas citas en o3 deep research, a pesar de su elevado costo, indican que el número de citas no está ligado al consumo de recursos.
Resultados de pruebas de laboratorio del DR-2T
También realizamos una segunda evaluación comparativa de las 7 mejores herramientas de investigación profunda de IA con dos tareas y las evaluamos en cinco dimensiones.
Las evaluamos en función de su precisión y la cantidad de fuentes. Consulta la metodología para ver cómo evaluamos estas soluciones.
Géminis destaca por la precisión de los datos proporcionados:
Claude es el líder según el número de fuentes indexadas:
Tarea 1:
Les pedimos que crearan tablas sobre software de gestión de contraseñas empresariales según nuestras indicaciones. Consulte las indicaciones completas.
Casi todas las herramientas proporcionaban tablas detalladas con la información solicitada, aunque sus métodos de presentación de datos variaban significativamente.
Para la generación de informes completos:
- Gemini y Claude se consolidaron como las soluciones líderes, ofreciendo informes analíticos exhaustivos con información sintetizada y análisis contextual.
- En cambio, Bright Data Deep Lookup* se centró principalmente en la extracción de datos, proporcionando tablas estructuradas con contenido narrativo limitado.
Los investigadores deben seleccionar las herramientas que mejor se adapten a sus necesidades específicas. Quienes requieran análisis exhaustivos y soluciones centradas en la elaboración de informes encontrarán en Gemini y Claude las más adecuadas, ya que estas herramientas se centran en sintetizar la información para generar informes detallados.
Por el contrario, los investigadores que priorizan la recopilación de datos brutos y requieren búsquedas web a gran escala se beneficiarán más de Bright Data , que proporciona una amplia cobertura de datos web con niveles de confianza y explicaciones detalladas sobre la relevancia y fiabilidad de las fuentes.
Este enfoque centrado en los datos hace que Bright Data sea valioso para las revisiones sistemáticas que requieren una verificación de fuentes de gran volumen.
Kimi emplea una metodología distintiva para la generación de informes, produciendo un informe interactivo que incorpora resúmenes ejecutivos, secciones específicas de "mejor para" y recomendaciones estratégicas.
El informe incluye visualizaciones de datos integradas y atribución de fuentes, lo que da como resultado un producto final completo apto para su implementación inmediata sin necesidad de modificaciones adicionales.
Nota: Perplexity proporcionó un informe detallado, pero no logró crear una tabla con la información recopilada. Dado que la solicitud pedía específicamente la presentación de tablas, recibió cero puntos por esa tarea.
*Actualizaremos Bright Data Deep Lookup cuando el producto salga de la fase beta.
Tarea 2:
El objetivo de esta tarea es evaluar su velocidad y cobertura en la investigación. Solicitamos un informe detallado sobre la adopción de RPA para determinar el número de páginas indexadas y el tiempo que tarda en generarse un informe.
Por supuesto, el número de fuentes no tiene por qué correlacionarse con la calidad de la investigación. Sin embargo, dado que estas herramientas están diseñadas para agilizar la investigación, lo consideramos un indicador importante.
Cabe destacar también que los tiempos de búsqueda varían significativamente entre estas herramientas. Grok Deep Search es aproximadamente 10 veces más rápido que ChatGPT Deep Research y busca aproximadamente 3 veces más páginas web.
Claude Deep Search también es muy eficiente, ya que analizó 261 fuentes en poco más de 6 minutos. Sin embargo, Gemini podría no ser la opción ideal para quienes buscan una solución rápida y eficiente, puesto que analizó 62 fuentes en más de 15 minutos.
Comparativa entre agentes y modelos de investigación profunda
Agentes de IA como Claude Code y OpenAI Codex pueden buscar en la web, obtener páginas específicas y extraer datos mediante llamadas a herramientas dirigidas. Probamos si este enfoque basado en agentes iguala el rendimiento de los modelos de investigación profunda diseñados específicamente para tareas de investigación fáctica. Se evaluaron seis herramientas en cinco tareas con 33 puntos de control de referencia que abarcan eventos corporativos, fusiones y adquisiciones, documentación de software e investigación de IA. Consulte nuestra metodología .
Parallel Ultra y Claude Code empataron en el primer lugar con una precisión del 97%. Codex les siguió con un 93,9%. Perplexity Sonar obtuvo una puntuación del 87,9%. Los modelos de investigación profunda OpenAI (o3 y o4-mini) obtuvieron puntuaciones entre el 75,8% y el 81,8%, a pesar de ejecutar entre 27 y 125 búsquedas web por tarea y costar entre 2 y 6 veces más que Sonar.
Las herramientas con mejor desempeño comparten un patrón: acceden a fuentes primarias y las leen detenidamente. Codex consultó el informe 8-K de la SEC para la Tarea 2 y la declaración de representación de la SEC para la Tarea 3. Claude Code obtuvo directamente las páginas de documentación de Unity en la Tarea 1. Parallel encontró la cifra específica del pago a Zaslav (886,8 millones de dólares) que otras tres herramientas pasaron por alto. o3 y o4-mini realizaron búsquedas amplias, pero extrajeron información menos precisa de las páginas encontradas.
Claude Code y Codex ocupan la esquina superior derecha: alta precisión a bajo costo ($1.54 y $1.30, respectivamente). Parallel logra la misma precisión por $2.10. o3 cuesta $10.92 con una precisión del 75.8%. En la pestaña de latencia, Claude Code es el más rápido con un promedio de 1.7 minutos por tarea. Parallel es el más lento con 16.7 minutos, pero iguala la mayor precisión. Sonar se ubica en una sólida posición intermedia con 2.3 minutos y 87.9%.
Sonar produce un promedio de 5253 palabras por tarea. Los agentes producen entre 398 y 483. Sonar escribió 4509 palabras sobre la estructura Unity EntityId, pero solo pudo nombrar uno de sus cinco métodos públicos. Codex escribió 248 palabras y nombró los cinco. Parallel escribió 1037 palabras y las acertó. Un mayor número de palabras y citas no predijo una mayor precisión.
Análisis en profundidad: Migración de Unity 2022.3 a Unity 6 (Tarea 5)
La tarea 5 es la más compleja de la prueba comparativa. Consiste en que cada herramienta cree una guía de transición de Unity 2022.3 LTS a Unity 6.3 LTS. Las instrucciones especifican los números de versión exactos: 2022.3.62f3, 2022.3.74f1 y 6000.3.12f1. Para responder correctamente, es necesario consultar la página de requisitos del sistema de Unity 6.3, la página del ciclo de vida de soporte y cuatro guías de actualización independientes (6.0, 6.1, 6.2 y 6.3).
Tres de las seis herramientas mostraron requisitos del sistema para Unity 6.0 en lugar de Unity 6.3.
o3, o4-mini y Claude Code hicieron referencia a la página de documentación de Unity 6.0 en lugar de la página de 6.3, a pesar de que el mensaje especificaba "Unity 6.3" y el número de compilación "6000.3.12f1".
Un equipo que siga la guía de o3 debería usar la API 23 de Android (Android 6.0). Unity 6.3 requiere la API 25 (Android 7.1). La compilación fallaría o se lanzaría para una plataforma no compatible. La guía en sí parece profesional: tablas claras, estructura lógica, tono adecuado. Sin embargo, los números son incorrectos.
Tanto Codex como Parallel acertaron con todos los datos. Codex accedió directamente a la página de requisitos del sistema de la versión 6.3 y la comparó línea por línea con la de la versión 2022.3. Incluso identificó que el mínimo de iOS pasó de 12 a 13 en la versión 2022.3, en la compilación 2022.3.72f1, antes de subir a 15 en la versión 6.3. Parallel elaboró una guía completa con datos correctos y 35 fuentes citadas.
Cómo lo abordó cada herramienta:
Claude Code generó cuatro subagentes paralelos, cada uno encargado de una parte diferente de la pregunta: fechas de soporte, ruta de actualización, cambios incompatibles y requisitos del sistema. Fue rápido (3 minutos y 59 segundos), pero el subagente de requisitos del sistema obtuvo la página de documentación incorrecta.
Codex realizó 90 búsquedas web consecutivas durante 6 minutos y 17 segundos. Obtuvo individualmente la guía de actualización 6.3, la página de requisitos del sistema 6.3 y la página de requisitos del sistema 2022.3. Lento, pero metódico. Todos los datos eran correctos.
o3 dedicó 8 minutos y 32 búsquedas web. Generó 2132 palabras de consejos generales sobre migración, pero extrajo los plazos de soporte y los requisitos del sistema de la documentación de la versión 6.0. No mencionó ningún cambio incompatible específico de la versión 6.3 (eliminación del modo de compatibilidad URP, descontinuación de Netcode 1.x, descontinuación de Relay/Lobby).
Ninguna herramienta leyó las cuatro guías de actualización (6.0, 6.1, 6.2 y 6.3) en secuencia. La documentación de Unity indica que los desarrolladores deben seguirlas en orden, ya que cada una contiene cambios incompatibles únicos. Todas las herramientas seleccionaron la página más destacada y extrajeron la información de allí. Esto representa una limitación estructural para cualquier tarea de investigación que requiera analizar una serie de documentos relacionados en lugar de encontrar una única respuesta.
Avances en herramientas de investigación profunda de IA
Kimi K2.5
Kimi K2.5 puede procesar texto, imágenes y vídeo, generar código listo para producción y ejecutar flujos de trabajo complejos utilizando una arquitectura de enjambre de agentes.
Agent Swarm es el mecanismo de Kimi K2.5 para gestionar tareas complejas, transformando un único modelo en un equipo coordinado de agentes de IA. En lugar de ejecutar una tarea secuencialmente, Kimi crea múltiples subagentes especializados, cada uno con una función específica, como investigación, análisis, codificación, verificación o estructuración de contenido. Estos agentes operan en paralelo, utilizan herramientas de forma independiente y comparten resultados intermedios, lo que reduce significativamente el tiempo de ejecución en flujos de trabajo a largo plazo.
El enjambre descompone un objetivo de alto nivel en subtareas, las asigna a agentes, supervisa el progreso e integra los resultados en un resultado final coherente. Este enfoque es especialmente útil para la investigación profunda, la creación de documentos a gran escala, el procesamiento por lotes y la resolución de problemas en varias etapas, donde diferentes partes del trabajo pueden desarrollarse simultáneamente.
Investigación profunda de Kimi K2.5
Kimi K2.5 Deep Research ofrece soporte integral para la investigación y la generación de informes sobre cuestiones complejas. Recopila información de múltiples fuentes, analiza los temas desde diversas perspectivas y sintetiza los resultados en informes visuales.
La investigación exhaustiva está diseñada principalmente para el análisis de inversiones, la investigación de la industria, el trabajo académico y la planificación estratégica, donde se requiere un análisis orientado a la toma de decisiones.
Figura 1: Un ejemplo de investigación de Kimi K2.5 Deep Research sobre métricas ESG y rentabilidad de las inversiones. 1
Claude para las ciencias de la vida
Claude for Life Sciences está diseñado para respaldar el trabajo científico a lo largo del ciclo de vida del desarrollo de fármacos y dispositivos para organizaciones de biotecnología, farmacéuticas y de investigación. Las actualizaciones recientes amplían su alcance más allá de la investigación preclínica, abarcando las operaciones de ensayos clínicos y los flujos de trabajo regulatorios, e incorporando nuevos conectores de datos y funcionalidades adaptadas a casos de uso reales en el ámbito de las ciencias de la vida.
Características y capacidades clave:
- Conectores científicos ampliados: Acceso a plataformas como Medidata, ClinicalTrials.gov, bioRxiv/medRxiv, Open Targets, ChEMBL, ToolUniverse y Owkin, junto con las integraciones existentes con Benchling, PubMed, 10x Genomics, BioRender, Synapse.org y Wiley.
- Inteligencia sobre ensayos clínicos: Uso seguro de datos históricos de inscripción en ensayos y rendimiento de los centros para respaldar el análisis de viabilidad, la planificación del reclutamiento de pacientes y el seguimiento de los ensayos.
- Apoyo en la fase inicial de descubrimiento: Herramientas para facilitar la identificación de objetivos, el análisis de compuestos y la comprobación de hipótesis mediante bases de datos científicas seleccionadas y herramientas computacionales.
- Flujos de trabajo bioinformáticos: Habilidades de agentes y conjuntos de herramientas que dan soporte a los procesos de análisis y procesamiento de datos, incluidas las implementaciones de scVI-tools y Nextflow.
- Elaboración y planificación de protocolos: Una habilidad para la elaboración de protocolos de ensayos clínicos que incorpora vías regulatorias, contexto competitivo, recomendaciones sobre criterios de valoración y directrices pertinentes de la FDA.
- Preparación regulatoria: Asistencia para identificar lagunas en los documentos regulatorios, redactar respuestas a las preguntas de las agencias y comprender las directrices aplicables. 2
Integración de Gemini Deep Research con Gmail, Docs, Drive y Chat.
Gemini Deep Research ha introducido una importante actualización que amplía su capacidad para acceder a datos de todo el ecosistema. Ahora, la herramienta puede conectarse a Gmail, Drive (incluidos Docs, Slides, Sheets y PDFs) y Chat, lo que permite a los usuarios incluir fuentes privadas y compartidas directamente en su proceso de investigación.
Con esta actualización, los usuarios podrán:
- Elabore informes completos combinando datos de correos electrónicos, documentos y chats con información web.
- Realizar un análisis de la competencia que integre planes de proyecto, hojas de cálculo comparativas y debates en equipo.
- Ponga en marcha un plan de investigación por etapas para un nuevo producto analizando los materiales iniciales de lluvia de ideas y los hilos de comunicación relacionados.
Esta función permite a Gemini Deep Research respaldar tanto las revisiones de literatura académica como la investigación de mercado. Al combinar múltiples fuentes de datos, los usuarios pueden generar análisis más detallados y descubrir información clave de manera más eficiente. 3
Gemini en Chrome: Navegación automática
Google está actualizando Gemini en Chrome en macOS, Windows y Chromebook Plus con Gemini 3, agregando un panel lateral, soporte de aplicaciones Google más integrado y funciones de agente como la navegación automática:
- Navegación y acciones multipaso con agentes: la nueva función Auto Browse de Chrome utiliza Gemini 3 para actuar como un agente web que puede llevar a cabo de forma autónoma tareas complejas de varios pasos, como investigar opciones de viaje, rellenar formularios, comparar productos y navegar entre sitios web interpretando instrucciones e interactuando con las páginas en nombre del usuario.
- Disponibilidad: La función de navegación automática se está implementando actualmente en versión preliminar para los suscriptores de AI Pro y AI Ultra en los Estados Unidos (Google) y requiere Chrome en plataformas como Windows, macOS o Chromebook Plus.
- Cobertura de aplicaciones conectadas: La versión actualizada de Gemini en Chrome admite integraciones de aplicaciones conectadas con servicios como Gmail, Calendar, YouTube, Maps, Google Shopping y Flights.
- Para acciones que impliquen pasos delicados o de alto riesgo, como completar una compra o publicar en redes sociales, el sistema se detiene y solicita la confirmación explícita del usuario antes de continuar. 4
Microsoft presenta la investigación profunda en el servicio de agentes de Azure AI Foundry.
Azure AI Foundry Agent Service ha lanzado la versión preliminar pública de Deep Research, que ofrece la tecnología de investigación basada en agentes de Azure AI Foundry Agent Service a través de la plataforma empresarial de Azure. Este servicio permite automatizar tareas de investigación complejas, integrarse con los sistemas empresariales y generar resultados de investigación transparentes y auditables. 5
Las características principales son:
- Investigación automatizada en múltiples pasos: Utiliza el modelo o3-deep-research para planificar, analizar y sintetizar datos de la web y de los sistemas empresariales.
- La vinculación web con Bing Search garantiza que la información se base en fuentes verificadas y actualizadas.
- Resultados transparentes: Cada informe incluye las fuentes citadas, los pasos de razonamiento y las aclaraciones.
- Integración con herramientas de Azure: Funciona con Logic Apps, Azure Functions y otros conectores para la generación de informes y la automatización de flujos de trabajo.
- Flexibilidad programática: Disponible a través de API y SDK, lo que permite a los desarrolladores integrar herramientas de investigación profunda de IA en aplicaciones y flujos de trabajo.
Cómo funciona
- Aclaración de la intención de la investigación: El sistema utiliza GPT-4o y GPT-4.1 para definir la pregunta de investigación.
- Recopilación de datos: Bing Search recopila datos web fiables para su análisis.
- Análisis de resultados: El modelo de investigación profunda realiza razonamientos y síntesis para producir informes completos con información clave.
- Garantizar el cumplimiento: Cada resultado es rastreable y auditable para uso empresarial.
Beneficios de las herramientas de investigación profunda de IA
Mayor eficiencia y productividad
- Revisiones bibliográficas: Las herramientas de investigación basadas en IA actúan como asistentes de investigación, realizando búsquedas exhaustivas en vastas bases de datos de artículos científicos. Identifican artículos relevantes y sintetizan la información para generar resúmenes concisos, reduciendo significativamente el tiempo y el esfuerzo necesarios para una revisión bibliográfica manual.
- Recopilación y análisis de datos: Un asistente de investigación con IA puede automatizar la recopilación de datos mediante la minería de grandes bases de datos y páginas web. Estas herramientas poseen capacidades de investigación avanzadas que les permiten procesar y analizar conjuntos de datos masivos mucho más rápido que los métodos tradicionales. Pueden identificar patrones y tendencias que podrían pasar desapercibidos en una revisión manual, lo cual es crucial para tareas de investigación complejas como el análisis de mercado o la elaboración de un informe de investigación exhaustivo.
- Automatización de tareas repetitivas: La IA puede gestionar tareas repetitivas como la introducción de datos y el formato de las citas bibliográficas. Al automatizar estos procesos que consumen mucho tiempo, los investigadores pueden centrarse en temas más complejos y en los aspectos creativos de su trabajo.
Perspectivas y descubrimientos más profundos
- Identificación de lagunas en la investigación: Mediante el análisis de la literatura académica existente, las herramientas de IA pueden ayudar a los investigadores a identificar las lagunas en el conocimiento actual. Este es un paso fundamental para formular una nueva pregunta de investigación o desarrollar un plan de investigación con múltiples etapas. Estas herramientas proporcionan información clara y concisa en un formato estructurado y organizado.
- Síntesis de información: Los asistentes de investigación con IA pueden sintetizar información de múltiples fuentes, generando un informe completo y destacando los hallazgos clave. Esto proporciona a los investigadores una visión general sin necesidad de leer cada artículo completo, lo que ahorra tiempo y, al mismo tiempo, ofrece información exhaustiva.
- Por ejemplo, la herramienta de investigación avanzada de Claude generó un informe detallado. Este informe puede publicarse como un artefacto, accesible en línea y visible en los motores de búsqueda.
- Explorando conexiones: Las herramientas que visualizan redes de citas pueden ayudar a los investigadores a comprender cómo se interconectan los diferentes artículos científicos. Esto puede conducir a descubrimientos y a una comprensión más completa de un campo de investigación.
Por ejemplo, en nuestra segunda tarea, Grok indexó más de 100 páginas diferentes. Normalmente, a un humano le llevaría horas leer y recopilar información de todas esas páginas, pero a Grok le tomó aproximadamente 2 minutos.
Por lo tanto, estas herramientas pueden acelerar el proceso de investigación. Sin embargo, los usuarios siempre deben recordar que estas herramientas pueden generar información errónea , así que tengan cuidado al usar información extraída directamente de un LLM .
Desafíos y limitaciones de las herramientas de investigación profunda basadas en IA
Precisión y fiabilidad
La mayoría de las personas desconfían de la exactitud de la información generada por los LLM y la verifican personalmente, ya que saben que estos pueden tener alucinaciones. El problema con la investigación exhaustiva es que, al realizar una investigación más completa que un chat estándar y proporcionar fuentes, los usuarios pueden asumir erróneamente que siempre ofrece información precisa. Los LLM (incluso con una investigación exhaustiva) tienden a tener alucinaciones, lo que puede dar lugar a graves malentendidos.
- Falta de contexto y matices: Un asistente de investigación con IA puede tener dificultades para comprender el contexto completo de una tarea de investigación, lo que podría llevar a resumir la información sin entender su significado más profundo. Esto puede conducir a conclusiones incompletas o incorrectas.
- Información desactualizada: Es posible que los datos de entrenamiento de algunos modelos de IA no estén actualizados, lo que provoca que no incluyan los últimos avances en artículos científicos u otra literatura académica.
- Credibilidad de las fuentes: Las herramientas de IA a menudo tienen dificultades para diferenciar entre fuentes autorizadas y no fiables, tratando toda la información de la web abierta como igualmente válida. El criterio humano es esencial para verificar la credibilidad de las fuentes en un informe de investigación exhaustivo.
Prejuicios y preocupaciones éticas
- Sesgo algorítmico: Si los conjuntos de datos utilizados para entrenar los modelos de IA contienen sesgos sociales, la IA los aprenderá y los perpetuará. Esto puede generar resultados sesgados contra grupos demográficos específicos, lo que afecta la integridad de la investigación exhaustiva.
- Privacidad de datos: El uso de herramientas de IA implica el procesamiento de grandes cantidades de datos, lo que plantea importantes preocupaciones en materia de privacidad y seguridad. Los datos confidenciales o de propiedad exclusiva introducidos por un investigador podrían utilizarse para entrenar modelos futuros, lo que conlleva el riesgo de fuga de datos.
- Propiedad y derechos de autor: Cuando una herramienta de IA sintetiza información de múltiples fuentes, surgen interrogantes sobre la propiedad intelectual y la correcta atribución. A menudo resulta difícil determinar la titularidad del resultado final y garantizar que todas las citas de las fuentes sean correctas.
Habilidad humana y excesiva dependencia
- La ilusión de la pericia: Las herramientas de IA pueden generar informes pulidos y estructurados, creando la falsa impresión de un análisis exhaustivo y experto. La herramienta es un asistente de investigación, no un sustituto del criterio, la experiencia y el rigor que un investigador humano aporta a las tareas de investigación complejas. Esto es especialmente relevante para quienes toman decisiones trascendentales.
- Erosión del pensamiento crítico: Una dependencia excesiva de las herramientas de investigación basadas en IA puede mermar las habilidades analíticas y de pensamiento crítico del investigador. Proporcionar todas las respuestas puede reducir la implicación del usuario en los complejos procesos de investigación esenciales para la elaboración de artículos académicos de alta calidad.
- Curva de aprendizaje pronunciada: A pesar de su diseño intuitivo, muchas herramientas de investigación presentan una ligera curva de aprendizaje, especialmente en lo que respecta a sus funciones avanzadas. Es posible que los investigadores deban invertir tiempo para aprovechar al máximo las capacidades de investigación avanzadas de la herramienta.
Gary Marcus también advirtió que esto puede provocar una disminución en la calidad de los artículos científicos. 6
Metodología
En nuestra prueba de referencia DR-50, evaluamos herramientas de investigación de IA utilizando 50 preguntas de seis tipos diferentes:
1. Búsqueda de información simple
Las consultas de un solo salto requieren una recuperación de datos sencilla desde una única fuente.
Ejemplo: "¿Cuál es el precio de entrada de 1 millón de tokens para el modelo llama-3-70b de DeepInfra?"
2. Análisis comparativo
La evaluación entre diferentes fuentes requiere la recopilación de datos de múltiples proveedores para comparar productos o servicios.
Ejemplo: “¿Qué proveedor ofrece llama-3.2-1b al precio combinado más económico?”
3. Razonamiento de múltiples saltos
Las cadenas de razonamiento secuencial requieren múltiples pasos dependientes de recuperación de información.
Ejemplo: "¿Cuál es el precio de entrada por cada millón de tokens en OpenRouter para el modelo que ocupó el primer lugar en la prueba comparativa de razonamiento financiero múltiple con IA?"
4. Basado en cálculos
Se realizan operaciones matemáticas sobre los datos numéricos recuperados.
Ejemplo: "¿Cuál es la diferencia en el precio combinado entre los dos modelos Mistral AI más baratos?"
5. Extracción de JSON estructurado
La recopilación de datos requiere un formato JSON estricto con múltiples valores estructurados.
Ejemplo: “¿Cuáles son la arquitectura, la memoria y el ancho de banda del NVIDIA H200 SXM? Formato: {“arquitectura”: “…”, “memoria”: “…”, “ancho de banda”: “…”}”
6. Listado categórico
Enumeración completa de todos los artículos dentro de una categoría específica.
Ejemplo: “Proporcione todos los servidores MCP en la categoría blockchain.”
Métricas de evaluación
Exactitud
Comparamos cada respuesta con respuestas de referencia predefinidas utilizando GPT-4o-mini como juez automatizado a través de OpenRouter. La puntuación de precisión final representa el porcentaje de respuestas correctas en las 50 consultas.
Conteo de fichas
Utilizamos la biblioteca tiktoken para medir los tokens del lado del cliente y validamos estas mediciones comparándolas con los recuentos de tokens informados por las API y las interfaces de usuario de los proveedores, cuando estaban disponibles.
Estado latente
Medimos la latencia como el tiempo transcurrido desde el inicio de la solicitud hasta la recepción de la respuesta completa, expresado en segundos. Validamos estas mediciones comparándolas con las métricas de latencia proporcionadas por las API y las interfaces de usuario de los proveedores, cuando estaban disponibles.
Costo
Realizamos el seguimiento de los costes manualmente a través del panel de facturación de cada proveedor.
Citas
Extrajimos automáticamente las citas de los metadatos de respuesta de cada API y contamos las URL únicas citadas por respuesta.
Configuración técnica
Ejecutamos la prueba de rendimiento de forma secuencial, de modo que cada API completaba las 50 consultas antes de que comenzara la siguiente. Implementamos un retraso de 5 segundos entre consultas consecutivas para evitar la limitación de velocidad y no impusimos ningún límite de tiempo de espera, lo que permitió que las solicitudes esperaran indefinidamente a que se completaran.
En la prueba de rendimiento DR-2T, basada en diferentes tareas, cada dato del mensaje valía 1 punto. Si el resultado no estaba en formato de tabla, se le asignaba un valor de 0.
Indicación de la Tarea 1
Investigar y evaluar las 5 mejores soluciones de gestión de contraseñas empresariales según los siguientes criterios para identificar la solución más eficaz para su implementación en la empresa.
Criterios
1. Características de seguridad
- Estándar de cifrado utilizado
- Implementación de arquitectura de conocimiento cero
- Opciones de MFA compatibles
- Certificaciones de seguridad de terceros
- Funciones de monitoreo del estado de la contraseña
2. Despliegue e integración
- Opciones de implementación
- Capacidades de integración de directorios
- Disponibilidad y funcionalidad de la API
- Integración de SSO
3. Experiencia de usuario
- Compatibilidad con extensiones de navegador
- Disponibilidad y valoración de la aplicación móvil
- Capacidades de acceso sin conexión
- Funcionalidad para compartir contraseñas
4. Administración
- Opciones de aplicación de la política de contraseñas
- Automatización del aprovisionamiento/desaprovisionamiento de usuarios
- Funciones de informes y cumplimiento
- protocolos de acceso de emergencia
5. Costo y escalabilidad
- Compare precios utilizando escenarios empresariales estandarizados (100 usuarios, 500 usuarios, más de 1000 usuarios).
Formato de entrega
- Tabla detallada para cada criterio
- Tabla comparativa de costes con escenarios estandarizados
Indicación para la Tarea 2
En nuestra segunda tarea, nos propusimos determinar el alcance de la investigación realizada. Para ello, comparamos el número de referencias citadas. Comparar artículos no es un método objetivo en este caso, ya que no es factible establecer una verdad absoluta.
Sin embargo, el número de referencias puede darnos una idea de su capacidad para proporcionar información, ya que la principal ventaja de estas herramientas es su capacidad para indexar cientos de páginas web en minutos.
Metodología de referencia de Agente vs. Investigación Profunda
Creamos cinco tareas de investigación en diferentes ámbitos. Cada tarea plantea preguntas directas con respuestas fácticas y verificables. Cada punto de control se califica de forma binaria: correcto o incorrecto.
Cada pregunta se centra en información publicada después de las fechas límite de los datos de entrenamiento de los modelos. La prueba comparativa se realizó durante la primera semana de abril de 2026.
La información de referencia se obtuvo de fuentes primarias: la documentación oficial de Unity 6.4, el informe 8-K de Atlassian ante la SEC, los comunicados de prensa de Paramount, el artículo de arXiv ARC-AGI-3 y las guías de actualización de Unity. Cada herramienta recibió las mismas indicaciones. Todas las indicaciones finalizaban con «Cite todas las fuentes que utilizó con sus URL».
Puntuación: comparación automatizada de patrones para números, fechas y nombres. Juez LLM (GPT-4o) para puntos de control de calidad de la explicación. Un revisor humano validó todos los resultados.
Los modelos de investigación profunda se invocaron mediante la API OpenRouter (o3, o4-mini, Sonar) y la API Parallel. Los agentes se ejecutaron a través de sus interfaces de línea de comandos con la búsqueda web habilitada, sin herramientas MCP.
En Claude Code, utilizamos Opus 4.6, y en Codex, utilizamos GPT 5.4. Ambos con un esfuerzo medio, y el cálculo del coste se realiza mediante el uso de tokens para ambos agentes.
Preguntas frecuentes
Las herramientas de investigación basadas en IA transforman la forma en que los científicos investigan, haciéndola más rápida y eficiente. Las herramientas de investigación avanzada, en particular, tienen el potencial de impactar significativamente a la comunidad científica. Pueden ayudar a acelerar el proceso, pero los usuarios deben tener cuidado con los errores antes de publicar la información.
Los informes y estudios del sector han demostrado que las herramientas de IA pueden ser muy eficaces en ciertas áreas, como el análisis de datos y las revisiones bibliográficas. Estas herramientas utilizan modelos de IA avanzados para sintetizar información de múltiples fuentes, proporcionando hallazgos y perspectivas clave.
Estos modelos utilizan modelos de razonamiento e IA generativa para sintetizar información y ofrecer perspectivas valiosas. También pueden abordar temas complejos y proporcionar respuestas detalladas. Los usuarios profesionales pueden aprovechar las herramientas de IA para obtener una ventaja competitiva en sus investigaciones.
Al igual que ocurre con la Investigación Profunda, están surgiendo nuevos modelos y tecnologías, como las herramientas de IA en Python y los subconjuntos basados únicamente en texto, y la integración de todas estas herramientas aumentará el alcance y la fiabilidad de la Investigación Profunda.
Las herramientas de IA pueden ayudar en diversos aspectos de las revisiones bibliográficas, como la identificación de artículos relevantes, la síntesis de hallazgos clave y la organización de temas de investigación. Estas herramientas pueden procesar grandes volúmenes de literatura académica rápidamente y ayudar a los investigadores a identificar lagunas o patrones en los estudios. Sin embargo, la IA no puede reemplazar por completo el juicio humano a la hora de evaluar la calidad de las fuentes, sintetizar argumentos complejos o proporcionar análisis críticos. Los investigadores deben seguir revisando, verificando e interpretando el contenido generado por la IA para garantizar la precisión y mantener el rigor académico en sus revisiones bibliográficas.
Las herramientas de IA pueden ayudar en el análisis de datos y el trabajo estadístico mediante la limpieza de conjuntos de datos, la realización de pruebas estadísticas, la creación de visualizaciones y la identificación de patrones en grandes conjuntos de datos. Estas herramientas pueden sugerir métodos estadísticos apropiados según el tipo de datos y las preguntas de investigación. Sin embargo, los investigadores deben comprender el contexto de sus datos y validar los resultados, ya que la IA puede pasar por alto matices específicos del dominio o realizar suposiciones inapropiadas.
La mayoría de las herramientas modernas de investigación en IA utilizan interfaces de lenguaje natural que no requieren conocimientos de programación. Sin embargo, una alfabetización digital básica y la comprensión de conceptos fundamentales de investigación ayudan a los usuarios a formular mejores consultas e interpretar los resultados con mayor eficacia. Las aplicaciones avanzadas pueden beneficiarse de conocimientos técnicos para análisis personalizados o flujos de trabajo especializados.
Los investigadores deben contrastar los resultados de la IA con las fuentes originales y la literatura revisada por pares. Las citas y referencias proporcionadas por la IA requieren verificación, ya que pueden ser inexactas o falsas. Los hallazgos clave deben confirmarse utilizando múltiples fuentes, con especial precaución en el caso de desarrollos recientes o temas especializados. Los análisis estadísticos se benefician de la validación mediante múltiples herramientas, y los expertos en la materia deben revisar los resultados complejos siempre que sea posible.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.