La IA tendrá su mayor impacto cuando los sistemas de IA comiencen a crear valor económico de forma autónoma.
Evaluamos si los modelos de vanguardia pueden generar valor económico. Les pedimos que crearan una nueva aplicación digital (por ejemplo, un sitio web o una aplicación móvil) que pudiera monetizarse con un modelo SaaS o basado en publicidad. Los modelos evaluados son:
Resultados
Ambos modelos proporcionaron resultados completos en respuesta a nuestras indicaciones, determinaron el área de enfoque del sitio web y proporcionaron instrucciones para que el editor de código Cursor AI construyera el sitio web.
Para ser justos con ambos modelos, nos basamos en esta indicación sin realizar ajustes adicionales. La única excepción fue que, cuando Cursor nos preguntó si queríamos continuar, le respondimos con frases como «sí, por favor, continúe».
Ninguno de los dos sitios web pudo ser codificado completamente con Cursor. Si bien el código incluye la mayoría de las funcionalidades principales, Cursor no logró crear un sitio web completamente funcional. Por lo tanto, no podemos continuar con los siguientes pasos. Ambos sitios web alcanzaron el 2 % de nuestros objetivos.
Lea la metodología para ver cómo medimos estas herramientas.
Paso 1: Elegir el enfoque del sitio web
Solicitamos a los modelos de vanguardia que eligieran un dominio para su aplicación:
Respuesta de Claude Sonnet 3.5
Herramienta de gestión de proyectos para autónomos:
Estructura de precios
- Nivel gratuito:
- 2 proyectos activos
- 1 cliente
- Facturación básica
- Nivel Pro (15 $/mes):
- Proyectos ilimitados
- Clientes ilimitados
- Facturación personalizada
- Apoyo prioritario
- Análisis avanzado
Nuestra evaluación
La competencia ofrece: ClickUp, uno de los principales competidores del sector, ofrece las mismas funciones a un precio más económico. Asana, otro proveedor líder en la zona, ofrece tareas, proyectos, mensajes, registros de actividad y almacenamiento de archivos ilimitados (100 MB por archivo) en su plan gratuito.
El producto Claude Sonnet 3.5 no ofreció precios competitivos ni ninguna característica atractiva que lo diferenciara de los proveedores existentes en el sector.
ChatGPT-o1
Un portal de empleo especializado para empresas que buscan creadores de contenido con conocimientos de IA (redactores, especialistas en marketing, gestores de redes sociales que utilicen herramientas de IA, etc.).
Estructura de precios:
- Plan para empleadores : $199 al mes para publicaciones ilimitadas O $49 por anuncio de empleo.
- Buscador de empleo : Crea un perfil y navega libremente.
Nuestra evaluación
Este modelo de precios presenta una estructura sencilla de tarifa plana que podría resultar rentable para empleadores con necesidades frecuentes de contratación, ofreciendo publicaciones ilimitadas por una tarifa mensual fija. Sin embargo, para empleadores con publicaciones poco frecuentes o aquellos que prefieren pagar comisiones proporcionales al monto de las transacciones, plataformas existentes como Upwork, con costos iniciales mínimos y comisiones basadas en porcentajes, podrían parecer más económicas.
Por lo tanto, la sugerencia de ChatGPT-o1 puede no resultar atractiva ni para los empleadores ni para los empleados.
Nuestra investigación reveló que estos modelos carecen de la capacidad para realizar investigaciones de alta calidad, ya que sus resultados no solo no son novedosos, sino que tampoco ofrecen mejores prestaciones que sus competidores. Todavía requieren la intervención de investigadores humanos para mejorar las herramientas existentes.
Además, Cursor (con Claude Sonnet 3.5 como LLM utilizado en la codificación para ambos proyectos) no pudo codificar un sitio web completo. Este fallo podría atribuirse a las limitaciones de Cursor o a una ayuda insuficiente. En cualquier caso, sin participantes humanos, no fue posible generar la idea y codificar el sitio web completo en esta prueba de rendimiento.
También puedes consultar nuestra evaluación comparativa de razonamiento de IA para comprobar la capacidad de razonamiento del modelo.
Puntos de referencia y resultados de ARC-AGI
Los puntos de referencia ARC-AGI Se crearon 1 para evaluar la capacidad de razonamiento general en sistemas artificiales mediante tareas basadas en cuadrículas que requieren inferir reglas no explícitas a partir de ejemplos.
ARC-AGI-1 (2019–2024)
ARC-AGI-1 se presentó en 2019 para medir la inteligencia fluida en sistemas artificiales. Consistía en tareas de razonamiento basadas en cuadrículas, donde el solucionador debía inferir una regla implícita a partir de algunos ejemplos de entrada-salida y aplicarla a entradas de prueba desconocidas.
Las tareas se basaban únicamente en conocimientos cognitivos básicos, como la persistencia de objetos, la simetría y el conteo, y no requerían lenguaje ni conocimientos especializados.
Las competiciones celebradas a lo largo de varios años demostraron un progreso gradual pero limitado:
- En 2020, la mejor propuesta alcanzó un 20 % de precisión en el conjunto de evaluación oculto.
- Desde 2020 hasta principios de 2024, el rendimiento se mantuvo en torno al 34%, a pesar del importante aumento de la escala de los modelos de lenguaje a gran escala.
- En 2024, nuevos enfoques, como la adaptación en tiempo de prueba, mejoraron los resultados. El equipo mejor clasificado alcanzó el 53,5 %, mientras que otro equipo logró el 55,5 %, pero no publicó su modelo.
- Una vista previa del modelo o3 de OpenAI superó el rendimiento humano en condiciones de computación muy exigentes, obteniendo un 76 % a menor coste y un 88 % a mayor coste. Las versiones públicas posteriores obtuvieron puntuaciones más bajas, llegando o3-medium al 53 %.
Si bien ARC-AGI-1 impulsó la investigación, mostró deficiencias como referencia. Muchas tareas eran vulnerables a estrategias de fuerza bruta, carecía de datos de referencia humanos consistentes, la dificultad de las tareas variaba entre los subconjuntos y la reutilización repetida de tareas ocultas generaba riesgos de fuga de información.
ARC-AGI-2
ARC-AGI-2 se creó para superar las limitaciones de su predecesor, manteniendo el mismo formato de tarea. Su objetivo era reducir la dependencia de soluciones de fuerza bruta, calibrar la dificultad de las tareas en diferentes conjuntos de evaluación y establecer parámetros de referencia claros para el rendimiento humano.
El proceso de desarrollo incluyó extensas pruebas con 407 participantes, que abarcaron más de 13 000 intentos. La tasa de éxito promedio fue del 66 %, y cada tarea fue resuelta por al menos dos participantes en dos intentos. El tiempo medio de finalización por intento fue de aproximadamente 2,2 minutos.
Los resultados obtenidos con ARC-AGI-2 ponen de manifiesto la brecha actual entre el rendimiento humano y el de las máquinas:
- Los modelos líderes, como el o3-mini y el o3-medium, obtuvieron una puntuación de alrededor del 3%.
- El equipo ganador del Premio ARC 2024 obtuvo un 2,5%.
- Otros sistemas, incluidos Claude 3.7 e Icecuber, obtuvieron una puntuación inferior al 2%.
- Las puntuaciones inferiores al 5% se consideran demasiado cercanas al ruido como para ser significativas.
En comparación con ARC-AGI-1, donde los mejores sistemas superaron el 50 % de precisión, ARC-AGI-2 representa un nivel de dificultad significativamente mayor.
Sus tareas son más singulares, presentan cuadrículas más grandes y más objetos, y hacen hincapié en el razonamiento compositivo, como las transformaciones de varios pasos, la aplicación de reglas contextuales y la definición de símbolos.
Referencia GDPval
GDPval se creó para evaluar el rendimiento de los modelos de IA en tareas del mundo real con un valor económico cuantificable. Se centra en 44 ocupaciones de nueve sectores principales que contribuyen significativamente al PIB de EE. UU., entre ellos la sanidad, las finanzas, la industria manufacturera, el sector inmobiliario y el gobierno.
El conjunto de referencia incluye 1320 tareas en su totalidad, con aproximadamente 30 tareas por ocupación. Se ha publicado un subconjunto de referencia de 220 tareas para investigación y pruebas.
A diferencia de las pruebas de referencia tradicionales que evalúan el razonamiento en contextos académicos o artificiales, las tareas de GDPval se basan en resultados reales producidos por profesionales de la industria.
Estas tareas pueden incluir documentos, hojas de cálculo, presentaciones, archivos CAD, audio, vídeo o registros de atención al cliente. Cada tarea es diseñada y validada por expertos con un promedio de 14 años de experiencia profesional, lo que garantiza que el contenido refleje las exigencias reales del entorno laboral.
Figura 1: El gráfico que muestra las comparaciones por pares realizadas por humanos sugiere que los modelos se están acercando al rendimiento de los expertos de la industria en el subconjunto de oro de GDPval. 2
Lo que mide
GDPval evalúa tres aspectos principales del rendimiento de la IA:
- Calidad de los entregables : Los resultados se comparan directamente con los de expertos humanos mediante una evaluación comparativa a ciegas. Evaluadores profesionales determinan qué entregable cumple mejor con los requisitos, considerando la corrección, la estructura, el estilo, el formato y la relevancia. Esto genera una tasa de éxito, que indica con qué frecuencia el resultado de un modelo se califica como igual o mejor que el de un entregable elaborado por un experto.
- Velocidad y eficiencia de costos : El indicador registra el tiempo y el costo necesarios para completar las tareas. Los expertos humanos suelen dedicar unas 7 horas, o 404 minutos, a una tarea, lo que equivale a unos 361 dólares en salarios. Los modelos de IA completan las tareas mucho más rápido y a menor costo, pero el ahorro depende de la cantidad de revisión y corrección que se requiera por parte de los humanos.
- Adaptabilidad mediante razonamiento y orientación : La prueba de rendimiento también evalúa si el desempeño del modelo mejora cuando se le exige mayor razonamiento, se le proporcionan indicaciones más directas o se utilizan técnicas de andamiaje. Esto ayuda a medir no solo la capacidad bruta, sino también la eficacia con la que se puede guiar a los modelos para realizar tareas complejas de varios pasos.
En conjunto, estas medidas reflejan tanto los beneficios potenciales como las limitaciones actuales de la IA en la realización de tareas que se alinean con un trabajo económicamente valioso.
Resultados de la prueba de referencia
a) Rendimiento del modelo frente al de los expertos humanos
- Los mejores modelos se acercan a la paridad con los expertos . Por ejemplo, Claude Opus 4.1 logró una tasa de victorias y empates aproximada del 48 %, lo que significa que en casi la mitad de las tareas, sus resultados fueron calificados como iguales o mejores que los del experto humano.
- GPT-5 destacó por su precisión (seguimiento de instrucciones, cálculos), mientras que Claude destacó por su estética (formato, diapositivas, diseño).
b) Tendencias a lo largo del tiempo
- Los modelos de OpenAI mostraron una mejora lineal entre versiones (por ejemplo, GPT-4o → o3 → GPT-5), con un rendimiento que aumentaba constantemente hacia la calidad de un experto.
c) Rapidez y ahorro de costes
- Ingenuamente, los modelos son entre 90 y 300 veces más rápidos y cientos de veces más baratos que los humanos.
- Si se tienen en cuenta la revisión y las correcciones, el ahorro real es más modesto , con una aceleración de entre 1,1 y 1,6 veces más rápida y económica en los flujos de trabajo donde los expertos revisan y perfeccionan los resultados de la IA.
- Esto sugiere que la IA ya puede complementar de forma significativa los flujos de trabajo profesionales, en lugar de reemplazarlos por completo.
d) Modos de fallo
- Los modelos suelen fallar debido a:
- Errores de seguimiento de instrucciones (especialmente Claude, Gemini, Grok).
- Problemas de formato (especialmente GPT-5).
- Alucinaciones o errores de cálculo ocasionales .
- La mayoría de los fallos son "aceptables pero deficientes" en lugar de catastróficos, aunque aproximadamente el 3% de los fallos de GPT-5 se consideraron catastróficos (resultados peligrosos o altamente inapropiados).
¿Puede/generará la IA valor económico?
Según un informe Anthropic, 3 inteligencia artificial ya está generando un valor económico cuantificable gracias a su rápida adopción, la mejora de la productividad y la automatización. Tanto particulares como empresas utilizan cada vez más Claude para tareas como la programación, la investigación, la formación y la administración, y las empresas automatizan aproximadamente el 77 % de las interacciones basadas en API.
Las empresas suelen priorizar las tareas en las que las capacidades de la IA son más sólidas, incluso cuando estas tareas son más costosas, lo que sugiere que las ganancias en eficiencia compensan las consideraciones de precio.
¿Existe alguna limitación?
Los beneficios siguen distribuyéndose de forma desigual, ya que las regiones de altos ingresos, los sectores preparados para la automatización y los trabajadores con conocimientos especializados se llevan una parte desproporcionada del valor, lo que suscita preocupación por el aumento de las desigualdades a la par del progreso económico.
El estudio sobre el impacto de la IA en el mercado laboral (Anthropic) introdujo una métrica de "exposición observada" que combina las capacidades teóricas de la IA con datos de uso del mundo real para estimar cuántas tareas de los trabajadores están realmente automatizadas.
El estudio revela que el uso de la IA actualmente solo abarca una fracción de las tareas que los modelos podrían realizar teóricamente, lo que indica que su adopción e implementación están rezagadas con respecto a las capacidades técnicas. En general, la evidencia sugiere que la IA aún no ha provocado una disrupción importante en el mercado laboral, incluso en ocupaciones con un alto grado de exposición teórica. 4
Enfoques alternativos
Otra perspectiva proviene de investigadores que exploran caminos alternativos hacia la inteligencia artificial general. Por ejemplo, la startup AMI Labs (Advanced Machine Intelligence) , fundada por Yann LeCun, ex científico jefe de IA de Meta, se centra en el desarrollo de " modelos del mundo " en lugar de escalar modelos de lenguaje.
Estos sistemas buscan aprender de datos sensoriales del mundo real y modelar relaciones de causa y efecto en entornos físicos. Dichas arquitecturas podrían ser necesarias para que los sistemas de IA planifiquen, razonen e interactúen con el mundo real de forma autónoma.
Si esta perspectiva resulta ser correcta, los grandes modelos de lenguaje actuales podrían seguir generando valor económico principalmente a través del aumento de la productividad en lugar de una autonomía económica total, lo que sugiere que una actividad económica verdaderamente autónoma impulsada por la IA podría requerir arquitecturas de IA fundamentalmente diferentes. 5
Metodología
Seleccionamos los hitos necesarios para que los sistemas de IA generen valor económico mediante la creación de nuevas aplicaciones:
- Identificación de dominio (%1)
- Preparación de especificaciones (%1)
- Codificación de aplicaciones (8%)
- Implementación de la aplicación (5%)
- Pruebas de aplicaciones (5%)
- Marketing (5%)
- Optimización (5%)
- Generación de ingresos (70%)
A cada hito se le asignó un presupuesto específico y los resultados fueron evaluados por un panel de expertos humanos.
Se podían utilizar herramientas dentro del presupuesto asignado para cada modelo. Creamos cuentas en varios sistemas para probar los modelos.
Nuestra primera consigna: Crear un sitio web con objetivos de ingresos específicos. Este proceso incluirá diferentes fases para seleccionar el nicho de mercado, programar e implementar el sitio, y realizar el marketing.
- Objetivo comercial: Generar ingresos recurrentes mensuales (MRR) de $2,000 dentro de los 2 meses posteriores a la implementación.
- Presupuesto inicial de marketing: $500
- No se pueden implementar requisitos de cumplimiento y certificación (sin HIPAA, SOC2, PCI, etc.). Para la Fase 1: Analizar y seleccionar un nicho de mercado prometedor que pueda:
- Alcanzar los 2000 dólares de ingresos mensuales recurrentes en un plazo de 2 meses, de forma realista.
- Construir y comercializar dentro de nuestras limitaciones presupuestarias.
- Tienen un claro potencial de monetización.
- Demuestra una demanda de mercado suficiente.
- Para la Fase 2: Codificaré el producto con un editor de código de IA agente, como Cursor, v0, etc.
- Debes proporcionarme una descripción para el editor. Esta descripción debe incluir todas las funciones del producto. Después, continuaremos con el marketing, pero por ahora, solo proporciona resultados para estas funciones.
Dado que los modelos dejaban algunas opciones al usuario, volvimos a solicitarle que las tomara.
Nuestra segunda pregunta: ¿Hay algún asistente de programación con IA específico que quieras que use? Cursor, Replit, V0, Lovable, etc. Además, asegúrate de que la información que les demos a estas herramientas abarque todos los detalles del proyecto. No dejes que el asistente de programación con IA ni yo tomemos decisiones sobre el proyecto; tú decidirás todos los detalles.
Preguntas frecuentes
La Inteligencia Artificial General (IAG) es un concepto en la investigación informática que describe un sistema de IA capaz de realizar al menos tantas tareas como un ser humano.
La IAG es un sistema que puede adquirir nuevas habilidades de manera eficiente fuera de sus datos de entrenamiento.
La competencia reside en habilidades amplias o de propósito general, marcadas por la adquisición y generalización de habilidades, más que en la habilidad en sí misma.
Estos modelos pueden realizar tareas que requieren inteligencia humana, como investigación de alta calidad, trabajo económicamente valioso y tareas de ingeniería.
Este benchmark se diferencia de los benchmarks existentes, como el ARC-AGI, ya que busca medir desafíos del mundo real de forma más directa. La prueba ARC-AGI incluye una cuadrícula de entrada y una de salida, y requiere que los modelos de IA detecten el patrón en la cuadrícula de entrada y, a partir de ahí, resuelvan el rompecabezas de salida. 6
Las capacidades de la IA general por sí solas no determinan el destino en cuanto al riesgo, sino que deben considerarse en combinación con los detalles contextuales.
Las funcionalidades que ofrecen las interfaces de usuario para los sistemas de IA general tienen una influencia sustancial en los perfiles de riesgo.
Las decisiones cuidadosamente meditadas en torno a la interacción entre humanos e IA son vitales para el despliegue seguro y responsable de los modelos de IA de vanguardia.
La Inteligencia General Artificial (IGA) es un concepto con consecuencias tanto aspiracionales como prácticas.
El desarrollo de parámetros y marcos de referencia para la IA general es crucial para evaluar los riesgos y el progreso en la investigación de la IA.
Es necesario seguir investigando para comprender los riesgos y beneficios potenciales de la IAG y para desarrollar sistemas de inteligencia artificial seguros y responsables.
A medida que los investigadores corren el riesgo de desarrollar modelos capaces de una inteligencia cada vez más general, resulta crucial establecer protocolos de seguridad avanzados y directrices éticas antes de que surjan posibles sistemas de IA general.
Las evaluaciones técnicas demostraron que el modelo de IA obtuvo resultados variables en diferentes tareas de investigación, siendo los modelos más avanzados significativamente más rápidos que las versiones anteriores. La capacidad del sistema para iterar sobre su propio código de entrenamiento ha suscitado debates sobre pasos concretos hacia la IA general, aunque persisten importantes desafíos para garantizar su seguridad y robustez.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.