Los agentes de IA se promocionan cada vez más como trabajadores digitales integrales, pero su rendimiento en el mundo real puede variar considerablemente según la tarea, las herramientas y el entorno de ejecución. Para comprender qué pueden ofrecer realmente estos sistemas hoy en día, realizamos pruebas comparativas prácticas en escenarios empresariales reales.
Pasamos más de 40 horas probando los 5 mejores agentes de IA para ver si pueden ayudarnos en
Resultados de referencia del flujo de trabajo empresarial
El agente de ChatGPT es el más exitoso en esta prueba comparativa y completó el 80% de la tarea.
Agente de ChatGPT
El agente ChatGPT está diseñado para conectar el operador OpenAI con la investigación profunda, permitiendo que el agente realice tareas largas que requieren capacidades analíticas. El operador OpenAI queda obsoleto con el lanzamiento del agente ChatGPT.
Permite al usuario tomar el control del inicio de sesión en las cuentas o de la realización de tareas que resultan difíciles para el agente.
Muestra el navegador que está utilizando en tiempo real y explica las acciones que está realizando.
El agente gestionó correctamente la navegación, la bifurcación y las actualizaciones del gráfico, pero no logró actualizar la configuración de los botones según las instrucciones, específicamente creando botones para cada categoría de datos manteniendo el estilo y la funcionalidad existentes.
Proyecto Mariner Google
El proyecto Mariner aún no está disponible públicamente, pero se puede probar con autorización tras completar la lista de espera. Funciona directamente en el navegador como una extensión de Chrome. Se puede utilizar para procesos con intervención humana. Por ejemplo, cuando aparece un CAPTCHA en pantalla, Mariner solicita al usuario que lo resuelva.
Uso del navegador
Browser Use es un agente de IA de código abierto que puedes usar con tus claves API.
Puedes observar las acciones del agente en la pestaña del navegador que abre, y también puedes leer algunos de los resultados de sus acciones en tu terminal. 1
Inició sesión en observablehq.com y bifurcó la plantilla correctamente. Sin embargo, después eliminó la plantilla original. No logró nombrar correctamente el cuaderno bifurcado. Le pedimos que mantuviera la celda de estilo tal como estaba, pero no lo consiguió y escribió código de datos en esa celda. No pudo modificar el código del gráfico ni el código del botón.
Utilizamos Browser Use con la clave API ChatGPT-4o.
El uso del navegador también se puede utilizar en una interfaz web, pero en esta tarea no lo utilizamos. 2
Uso de la computadora Anthropic
Anthropic se centra en la seguridad de la IA, y observamos estos esfuerzos en su agente. Intentamos de todas las maneras posibles, pero el agente no pudo iniciar sesión en nuestra cuenta de observablehq. Rechazó el inicio de sesión por motivos de seguridad.
Además, no es posible tomar el control del proceso del agente y luego dejar que continúe ya que utilizamos el entorno virtual recomendado por Anthropic.
Por lo tanto, el agente obtuvo 0 puntos de nuestra tarea ya que no pudo avanzar.
Precios de agentes de IA para puntos de referencia en flujos de trabajo empresariales
Anthropic El uso de computadoras requiere claves API, lo que potencialmente lo hace más caro para tareas largas que otras opciones.
ChatGPT Agent se puede utilizar con una cuenta de ChatGPT.
Browser Use es una herramienta de código abierto cuyo único coste son las llamadas a la API.
Metodología para la evaluación comparativa del flujo de trabajo empresarial
Nuestro objetivo era comprobar si los agentes podían ayudarnos en nuestro flujo de trabajo empresarial. Queríamos probar un ejemplo real de nuestra empresa, así que decidimos comprobar si podían preparar los gráficos interactivos que creamos en observablehq.com.
Con esa tarea, nuestro objetivo era observar su uso de las herramientas y sus habilidades de programación.
Aunque disponemos de algunas plantillas de gráficos, cambiar los datos requiere modificar los fragmentos de código tanto para los gráficos como para los botones.
Les proporcionamos la siguiente indicación:
# Instrucciones para actualizar la plantilla de Observable
Tengo una plantilla de gráficos en observablehq.com y, usando esa plantilla, quiero que crees nuevos gráficos con los nuevos datos que te proporcionaré. Aquí están las instrucciones:
1. Acceso y configuración
– Visita observablehq.com
– Busca la plantilla llamada “vis_template” y crea una bifurcación, nombra la bifurcación como “new_graph1”, en la sección de notebooks.
2. Estructura de la plantilla
– Estilo de celda: No modificar (contiene la configuración de fuente)
– Botones de celda: Deben actualizarse en función de los nuevos datos.
– Celda del gráfico: Debe actualizarse en función de los nuevos datos.
3. Manejo de datos
– Recibirás datos con plataformas y sus puntuaciones para diferentes categorías.
– Tanto los nombres de las plataformas como los nombres de las categorías en los datos pueden ser diferentes a los de la plantilla.
– La estructura de datos siempre será: plataformas con puntuaciones (0-1) para cada categoría.
4. Actualizaciones requeridas
– Botones:
* Crea un botón para cada categoría en los nuevos datos.
* Mantén “General” como primer botón.
* Mantener el estilo de los botones y el diseño adaptable existentes.
– Gráfico:
* Actualizar los nombres de las plataformas en el eje Y.
* Actualizar todos los valores de puntuación y cálculos.
* Mantener la combinación de colores y las animaciones existentes.
* Mantener la adaptabilidad a dispositivos móviles (< 500px punto de interrupción)
5. Requisitos de prueba
– Verifica que todos los botones funcionen correctamente.
– Compruebe las actualizaciones del gráfico cuando se seleccionen categorías.
– Prueba el diseño adaptable en vistas móviles y de escritorio.
– Asegúrese de que la ubicación del logotipo siga siendo correcta con los nuevos datos.
Recuerda: La estructura y el estilo de la plantilla deben permanecer sin cambios; solo actualiza los datos y los elementos necesarios relacionados con la categoría.
Aquí están los nuevos datos a utilizar: datos = [
{ plataforma: “AcmeOCR”, Documentos escaneados: 0,95, Texto digital: 0,99 },
{ plataforma: “TextPro”, Documentos escaneados: 0,92, Texto digital: 0,97 },
{ plataforma: “DocReader”, Documentos escaneados: 0,88, Texto digital: 0,96 },
{ plataforma: “SmartScan”, Documentos escaneados: 0,85, Texto digital: 0,94 }
]
Para mantener la objetividad, no proporcionamos más indicaciones. Simplemente respondimos " Sí " cuando se nos preguntó si deseábamos continuar e ingresamos nuestras credenciales para iniciar sesión en observablehq.com.
Criterios de evaluación :
- Inicia sesión o haz que el usuario inicie sesión en nuestra cuenta de observablehq.com. (10 puntos)
- Encontrar la plantilla (10 puntos)
- Bifurcarlo (10 puntos)
- Cambiarle el nombre (10 puntos)
- No modificar la celda de estilo. (5 puntos)
- Actualización de datos en el código (15 puntos)
- Actualización del código del gráfico (20 puntos)
- Actualizar el código del botón (20 puntos)
Tenga cuidado al usar agentes de IA en sus propias cuentas. Esto podría causar problemas de seguridad o actividades no deseadas.
Resultados de referencia de búsqueda web
Para investigar los casos de uso empresarial de los agentes de IA, utilizamos dos tareas diferentes de web scraping. Todos los agentes fallaron en la mayoría de las tareas. Anthropic Computer use y Dendrite tuvieron un rendimiento ligeramente mejor que Phidata.
Para obtener más información sobre el web scraping, puede leer "Hoja de ruta para el web scraping: casos de uso, métodos y herramientas" y "RPA Web Scraping" .
Tarea 1:
Indicación: Proporcione todos los proveedores de GPU en la nube que ofrecen H100. Necesitamos todas las ofertas de H100 de cada proveedor. Por lo tanto, un proveedor de GPU puede aparecer en varias filas si ofrece varias ofertas de GPU H100 (por ejemplo, una oferta con una sola GPU H100 y otra con dos). Para cada fila, necesitamos los siguientes datos: URL donde se comparte la oferta, número de GPU como un número entero y precio por hora como un número decimal en dólares. La salida debe ser en formato JSON.
Evaluamos sus capacidades para
Encuentra todas las fuentes correctas (Figura 1)
Proporcione la información correcta (Figura 2).
Tarea 2:
Indicación: Encuentra empresas privadas de tecnología B2B que recaudaron fondos en octubre de 2024. Formatea cada resultado como: [Company name] recaudó [amount] en [sector/industria].
En esta tarea, el uso de la computadora (Figura 3) y Phidata (Figura 4) no proporcionaron respuestas.
La búsqueda de ChatGPT arrojó 7 empresas, de las cuales 6 son correctas. Sin embargo, una empresa figuraba como si hubiera recaudado fondos en agosto de 2024, lo cual no cumple con nuestro requisito de que las empresas hayan recaudado fondos en octubre de 2024. Por lo tanto, esta información es incorrecta.
Dendrite proporcionó correctamente dos empresas, aunque existen muchas más. Esto se debe a que se basó en resultados de búsqueda incompletos.
El código Perplexity proporcionó información sobre 6 empresas, y si bien sus nombres, montos recaudados e industrias son correctos, ninguna de ellas completó su recaudación de fondos en octubre de 2024. Por lo tanto, esta información no cumple con nuestros requisitos.
Así pues, los líderes de esta tarea son ChatGPT search y Dendrite.
Uso de la computadora Anthropic
El uso del ordenador realiza numerosas llamadas a la API para una sola tarea. Ejecutar un agente con uso del ordenador es lento.
Inicialmente, tuvimos problemas debido a los límites de velocidad de Anthropic. En el Nivel 1, Anthropic permite a los usuarios realizar 50 solicitudes de API por minuto. Esto no fue suficiente para completar nuestras tareas, por lo que tuvimos que ejecutar la solicitud varias veces.
Luego, solicitamos un límite de API más alto y lo recibimos en cuestión de horas, lo que facilitó la evaluación comparativa.
Perplexity
La herramienta de búsqueda de Perplexity es accesible directamente en su sitio web. Al igual que la búsqueda de ChatGPT, no es una IA con capacidad de agente, pero decidimos incluirla en nuestras pruebas ya que nuestra tarea de referencia implica la extracción de datos web.
Búsqueda en ChatGPT
La función de búsqueda de ChatGPT está disponible para usuarios Pro y Team directamente en la interfaz de ChatGPT. Si bien no se trata de una IA con capacidad de agente, la incluimos en nuestras pruebas porque el objetivo de esta evaluación comparativa es la extracción de datos web.
Dendrita
Dendrite proporciona ejemplos de agentes, como agentes de extracción de datos, en su sitio web, lo que facilita la creación de nuevos agentes.
Los agentes de Dendrite se ejecutan más lentamente que la mayoría de los demás agentes en esta prueba de rendimiento.
A diferencia de otros agentes, requiere que los usuarios introduzcan la consulta de búsqueda.
Phidata
Phidata ofrece ejemplos, como agentes de búsqueda web, en su sitio web para facilitar la creación de nuevos agentes. Desarrollamos un agente en minutos.
Los resultados ficticios que los agentes de Phidata presentaron en nuestra prueba comparativa incluían enlaces a páginas e información sobre precios que no existen.
Precios de agentes de IA de referencia para búsquedas web
El precio del uso del ordenador Anthropic se basa en las solicitudes a la API. Por ejemplo, gastamos aproximadamente 2,50 $ en ejecutar estas dos tareas, repitiendo cada una varias veces. 0,50 $ por ejecución de tarea es caro. Si desea utilizar la automatización de procesos con agentes , encontrará opciones más económicas.
La función de búsqueda de ChatGPT está disponible para los usuarios suscritos a los planes Plus y Team, con un precio de 20 dólares al mes y 25 dólares por usuario al mes (facturados anualmente), respectivamente.
Dendrite ofrece un plan gratuito con funciones limitadas y un plan para desarrolladores con un precio de 30 dólares. Los detalles específicos sobre las limitaciones del plan gratuito se actualizarán una vez que se publiquen oficialmente.
Phidata ofrece planes gratuitos, profesionales y empresariales. Aún no hay planes disponibles que no sean gratuitos. Además, afirman que ofrecerán un plan profesional gratuito para estudiantes, educadores y empresas emergentes.
Nuestra metodología para la evaluación comparativa de búsquedas web
Versiones : La última versión está disponible desde el 1 de noviembre de 2024.
Entorno de despliegue:
Dendrite y Phidata se ejecutaron en nuestro ordenador portátil.
Anthropic El uso de la computadora se implementó en una máquina virtual en la nube, ya que se desaconsejó su implementación en dispositivos de usuario.
La función de búsqueda de ChatGPT y el número Perplexity están disponibles directamente en sus respectivos sitios web.
Proceso:
Para evaluar las capacidades de búsqueda web de los proveedores, primero recopilamos una lista de referencia de proveedores H100 en la nube . Luego, la comparamos con los resultados de los agentes de IA.
Para evaluar la exactitud de la información, comprobamos todos los enlaces que nos proporcionaron para ver si la información que nos facilitaron era correcta o no.
No intentamos aplicar ingeniería rápida para obtener resultados más precisos.
Tanteo:
Dado que la cantidad de resultados que proporcionan varía, nuestro objetivo fue mantener el sistema de puntuación lo más sencillo posible. Para la tarea 1, si un producto devuelve una URL que no proviene de una fuente confiable, recibe una puntuación de 0.
Además, el número de resultados varía de 6 a 28, por lo que es importante tener en cuenta que un producto con 3 respuestas correctas de 6 resultados y otro con 14 respuestas correctas de 24 resultados reciben la misma puntuación en la Figura 2.
No evaluamos los productos para la Tarea 2, ya que los resultados de búsqueda varían significativamente según el navegador utilizado y la ubicación del usuario, y los productos extraen datos de estas fuentes en consecuencia. Sin embargo, dado que ChatGPT y Dendrite proporcionaron resultados precisos, se consideran los mejores para esta tarea.
Descargo de responsabilidad
Dado que los agentes utilizan navegadores y ubicaciones diferentes, estos modelos pueden encontrar distintas fuentes durante el proceso de extracción de datos web. Para ser justos con todos los agentes, incluimos todas las fuentes potenciales en nuestra base de datos de referencia.
Dado que estos productos se encuentran en su versión 1 o beta, presentan diversas limitaciones. Continuaremos realizando pruebas comparativas y actualizando los resultados a medida que evolucionen.
Dado que estos modelos son de reciente desarrollo, pueden presentar vulnerabilidades de seguridad, por lo que recomendamos utilizarlos en una máquina virtual o contenedor. El documento Anthropic también menciona la necesidad de tomar esta precaución al utilizar el ordenador. 3
Preguntas frecuentes
Los agentes de IA pueden automatizar flujos de trabajo complejos, reduciendo la necesidad de intervención humana y aumentando la eficiencia. Pueden gestionar excepciones y casos límite, lo que los hace más fiables que las soluciones de automatización tradicionales.
Los agentes de IA pueden realizar tareas que serían difíciles o aburridas para los humanos. También se pueden utilizar para el procesamiento del lenguaje natural, el procesamiento de datos y el análisis.
Elige un proveedor teniendo en cuenta tus necesidades, capacidades y presupuesto.
Se pueden integrar con sistemas externos mediante llamadas a la API y pueden acceder a una amplia gama de fuentes de datos.
Diseña la tarea para tu agente de IA; deberías poder proporcionarle una instrucción que esté orientada a un objetivo y que no resulte confusa para el modelo.
Los agentes de IA deben diseñarse teniendo en cuenta la privacidad y la seguridad de los datos, utilizando técnicas como el cifrado y los controles de acceso. En el estado actual de desarrollo, le recomendamos no compartir sus datos confidenciales con agentes de inteligencia artificial.
Los agentes de IA pueden aumentar la eficiencia y la productividad, automatizando tareas repetitivas y liberando a los agentes humanos para que se centren en tareas más complejas.
Pueden analizar datos empresariales y automatizar procesos de negocio. Si desea obtener más información, consulte la automatización de procesos con agentes. Al crear agentes autónomos, puede automatizar procesos y realizar más tareas.
Si utiliza un agente en su negocio, utilice métricas como la eficiencia, la productividad y la satisfacción del cliente para medir el éxito de los agentes de IA.
Supervise el rendimiento de los agentes de IA a lo largo del tiempo y realice los ajustes necesarios.
Utilice datos y análisis para comprender mejor los procesos de toma de decisiones y la fiabilidad de los agentes de IA.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.