Contate-nos
Nenhum resultado encontrado.

Análise comparativa de inteligência artificial global: a IA pode gerar valor econômico?

Cem Dilmegani
Cem Dilmegani
atualizado em Mar 13, 2026
Veja o nosso normas éticas

A IA terá seu maior impacto quando os sistemas de IA começarem a criar valor econômico de forma autônoma.

Avaliamos se os modelos de fronteira podem gerar valor econômico. Desafiamos os participantes a desenvolver um novo aplicativo digital (por exemplo, um site ou aplicativo móvel) que possa ser monetizado com um modelo SaaS ou baseado em publicidade. Os modelos avaliados são:

  1. Anthropic Claude Sonnet 3.5
  2. OpenAI ChatGPT-o1

Resultados

Ambos os modelos forneceram resultados abrangentes em resposta às nossas solicitações, determinaram a área de foco do site e forneceram instruções para o editor de código Cursor AI construir o site.

Para sermos justos com ambos os modelos, confiamos nessa solicitação sem fazer quaisquer ajustes adicionais. A única exceção foi que, quando o Cursor nos perguntou se queríamos continuar, usamos frases como "sim, continue, por favor".

Não foi possível codificar completamente nenhum dos dois sites com o Cursor. Embora o código inclua a maioria das funcionalidades principais, o Cursor não conseguiu criar um site totalmente funcional. Portanto, não podemos prosseguir com as próximas etapas. Ambos os sites atingiram apenas 2% dos nossos objetivos.

Leia a metodologia para ver como medimos essas ferramentas.

Etapa 1: Escolher o foco do site

Solicitamos aos modelos de vanguarda que escolhessem um domínio para seu aplicativo:

Resposta de Claude Sonnet 3.5

Ferramenta de gestão de projetos para freelancers:

Estrutura de preços

  • Nível gratuito:
    • 2 projetos ativos
    • 1 cliente
    • Faturamento básico
  • Plano Pro (US$ 15/mês):
    • Projetos ilimitados
    • Clientes ilimitados
    • Faturamento personalizado
    • Suporte prioritário
    • Análises avançadas

Nossa avaliação

Os concorrentes oferecem: Um dos maiores concorrentes da região, o ClickUp, oferece os mesmos recursos por um preço mais acessível. Outro fornecedor líder na área, o Asana, oferece tarefas, projetos, mensagens, registros de atividades e armazenamento de arquivos ilimitados (100 MB por arquivo) em seu plano gratuito.

O produto Claude Sonnet 3.5 não ofereceu preços competitivos nem um recurso convincente para diferenciá-lo dos fornecedores existentes no setor.

ChatGPT-o1

Uma plataforma de empregos especializada para empresas que contratam criadores de conteúdo com conhecimento em IA (redatores, profissionais de marketing, gestores de mídias sociais que utilizam ferramentas de IA, etc.).

Estrutura de preços:

  • Plano para empregadores : US$ 199/mês para anúncios ilimitados OU US$ 49 por anúncio de vaga.
  • Candidato a emprego : É gratuito criar um perfil e navegar pelos anúncios.

Nossa avaliação

Este modelo de preços apresenta uma estrutura simples de taxa fixa que pode ser economicamente vantajosa para empregadores com necessidades frequentes de contratação, oferecendo anúncios ilimitados por uma taxa mensal fixa. No entanto, para empregadores com anúncios pouco frequentes ou que preferem pagar taxas proporcionais ao valor das transações, plataformas já existentes como o Upwork, com custos iniciais mínimos e taxas baseadas em porcentagem, podem parecer mais econômicas.

Portanto, a sugestão do ChatGPT-o1 pode não agradar nem aos empregadores nem aos funcionários.

Nossa pesquisa revelou que esses modelos carecem da capacidade de realizar pesquisas de alta qualidade, visto que seus resultados não apenas apresentam uma nova ideia, como também não oferecem recursos superiores aos de seus concorrentes. Eles ainda necessitam de pesquisadores humanos para aprimorar as ferramentas existentes.

Além disso, o Cursor (com Claude Sonnet 3.5 como LLM usado na codificação para ambos os projetos) não conseguiu codificar um site inteiro. Essa falha pode ser atribuída às limitações do Cursor ou à falta de instruções adequadas. De qualquer forma, sem participantes humanos, não foi possível gerar a ideia e codificar o site inteiro neste teste.

Você também pode consultar nossa avaliação comparativa do raciocínio de IA para verificar a capacidade de raciocínio do modelo.

Benchmarks e resultados do ARC-AGI

Loading Chart

Os benchmarks ARC-AGI Foram criados 1 para avaliar a capacidade de raciocínio geral em sistemas artificiais, utilizando tarefas baseadas em grades que exigem a inferência de regras não declaradas a partir de exemplos.

ARC-AGI-1 (2019–2024)

O ARC-AGI-1 foi introduzido em 2019 para medir a inteligência fluida em sistemas artificiais. Consistia em tarefas de raciocínio baseadas em grades, onde o solucionador tinha que inferir uma regra não declarada a partir de alguns exemplos de entrada e saída e aplicá-la a entradas de teste não vistas.

As tarefas dependiam apenas de conhecimentos cognitivos básicos, como persistência de objetos, simetria e contagem, e não exigiam linguagem ou conhecimento especializado.

Competições realizadas ao longo de vários anos demonstraram progressos graduais, mas limitados:

  • Em 2020, a melhor submissão alcançou 20% de precisão no conjunto de avaliação oculto.
  • De 2020 até o início de 2024, o desempenho permaneceu em torno de 34%, apesar da significativa expansão de grandes modelos de linguagem.
  • Em 2024, novas abordagens, como a adaptação em tempo de teste, melhoraram os resultados. A melhor equipe qualificada alcançou 53,5%, enquanto outra equipe obteve 55,5%, mas não divulgou seu modelo.
  • Uma prévia do modelo o3 de OpenAI superou o desempenho humano em condições de computação muito elevadas, atingindo 76% com custo menor e 88% com custo maior. Versões públicas posteriores obtiveram pontuações mais baixas, com o3-medium alcançando 53%.

Embora o ARC-AGI-1 tenha impulsionado a atividade de pesquisa, apresentou fragilidades como referência. Muitas tarefas eram vulneráveis a estratégias de força bruta, faltavam linhas de base humanas consistentes e próprias, a dificuldade das tarefas era desigual entre os subconjuntos e a reutilização repetida de tarefas ocultas introduzia riscos de vazamento de informações.

ARC-AGI-2

O ARC-AGI-2 foi criado para solucionar as limitações de seu antecessor, mantendo o mesmo formato de tarefa. Seu objetivo era reduzir a dependência de soluções de força bruta, calibrar a dificuldade da tarefa em diferentes conjuntos de avaliação e estabelecer parâmetros claros para o desempenho humano.

O processo de desenvolvimento envolveu extensos testes com 407 participantes, totalizando mais de 13.000 tentativas de tarefas. A taxa média de sucesso foi de 66%, com cada tarefa resolvida por pelo menos dois participantes em até duas tentativas. O tempo médio de conclusão por tentativa foi de aproximadamente 2,2 minutos.

Os resultados do ARC-AGI-2 destacam a lacuna atual entre o desempenho humano e o das máquinas:

  • Os principais modelos, como o o3-mini e o o3-medium, obtiveram uma pontuação em torno de 3%.
  • A equipe vencedora do Prêmio ARC 2024 alcançou 2,5%.
  • Outros sistemas, incluindo Claude 3.7 e Icecuber, obtiveram pontuação inferior a 2%.
  • Pontuações abaixo de 5% são consideradas muito próximas do ruído para serem significativas.

Em comparação com o ARC-AGI-1, onde os melhores sistemas ultrapassaram os 50% de precisão, o ARC-AGI-2 representa um nível de dificuldade significativamente maior.

Suas tarefas são mais singulares, apresentam grades maiores e mais objetos, e enfatizam o raciocínio composicional, como transformações em várias etapas, aplicação de regras contextuais e definição de símbolos.

benchmark GDPval

O GDPval foi criado para avaliar o desempenho de modelos de IA em tarefas do mundo real que possuem valor econômico mensurável. Ele se concentra em 44 ocupações de nove setores principais que contribuem significativamente para o PIB dos EUA, incluindo saúde, finanças, manufatura, imobiliário e governo.

O conjunto de referência inclui 1.320 tarefas em sua totalidade, com cerca de 30 tarefas por ocupação. Um subconjunto de referência com 220 tarefas foi disponibilizado publicamente para pesquisa e testes.

Ao contrário dos benchmarks tradicionais que testam o raciocínio em contextos acadêmicos ou artificiais, as tarefas do GDPval são baseadas em resultados reais produzidos por profissionais da indústria.

Essas tarefas podem envolver documentos, planilhas, apresentações, arquivos CAD, áudio, vídeo ou registros de suporte ao cliente. Cada tarefa é elaborada e validada por especialistas com uma média de 14 anos de experiência profissional, garantindo que o conteúdo reflita as demandas reais do ambiente de trabalho.

Figura 1: O gráfico que mostra as comparações pareadas realizadas por humanos sugere que os modelos estão se aproximando do desempenho de especialistas do setor no subconjunto de ouro do GDPval. 2

O que mede

O GDPval avalia três aspectos principais do desempenho da IA:

  • Qualidade dos entregáveis : Os resultados são comparados diretamente aos de especialistas humanos por meio de avaliação cega por pares. Avaliadores profissionais julgam qual entregável melhor atende aos requisitos, considerando correção, estrutura, estilo, formatação e relevância. Isso gera uma taxa de acerto, que indica com que frequência o resultado de um modelo é avaliado como igual ou superior ao de um entregável produzido por humanos.
  • Velocidade e custo-benefício : O benchmark registra o tempo e o custo necessários para concluir tarefas. Especialistas humanos normalmente gastam cerca de 7 horas, ou 404 minutos, em uma tarefa, o que se traduz em cerca de US$ 361 em salários. Os modelos de IA concluem tarefas muito mais rapidamente e a um custo menor, mas a economia depende da quantidade de revisão e correção humana necessária.
  • Adaptabilidade por meio de raciocínio e instruções : O teste de desempenho também avalia se o desempenho do modelo melhora quando ele recebe mais esforço de raciocínio, instruções mais diretas ou técnicas de suporte. Isso ajuda a medir não apenas a capacidade bruta, mas também o quão bem os modelos podem ser guiados para executar tarefas complexas e com várias etapas.

Em conjunto, essas medidas abrangem tanto os benefícios potenciais quanto as limitações atuais da IA na execução de tarefas que se alinham com trabalhos economicamente valiosos.

Resultados do estudo de referência

a) Desempenho do modelo versus especialistas humanos

  • Os melhores modelos estão se aproximando da paridade com os especialistas . Por exemplo, o Claude Opus 4.1 alcançou uma taxa de acerto de aproximadamente 48%, o que significa que, em quase metade das tarefas, seus resultados foram classificados como tão bons quanto ou melhores do que os do especialista humano.
  • GPT-5 foi o que apresentou melhor desempenho em precisão (seguir instruções, cálculos), enquanto Claude se destacou em estética (formatação, slides, layouts).
  • Os modelos de OpenAI mostraram melhoria linear entre as versões (por exemplo, GPT-4o → o3 → GPT-5), com o desempenho aumentando constantemente em direção à qualidade de especialista.

c) Economia de tempo e custos

  • Em uma perspectiva simplista, os modelos são de 90 a 300 vezes mais rápidos e centenas de vezes mais baratos que os humanos.
  • Ao considerar a revisão e as correções, as economias reais são mais modestas , com uma aceleração de aproximadamente 1,1 a 1,6 vezes e um custo menor em fluxos de trabalho onde especialistas revisam e refinam os resultados da IA.
  • Isso sugere que a IA já pode aprimorar significativamente os fluxos de trabalho profissionais, em vez de substituí-los completamente.

d) Modos de falha

  • Os modelos geralmente falham devido a:
    • Erros de seguimento de instruções (especialmente Claude, Gemini, Grok).
    • Problemas de formatação (especialmente GPT-5).
    • Alucinações ou erros de cálculo ocasionais .
  • A maioria das falhas são "aceitáveis, mas abaixo do ideal", em vez de catastróficas, embora cerca de 3% das falhas de GPT-5 tenham sido consideradas catastróficas (resultados perigosos ou altamente inadequados).

A IA pode/irá gerar valor econômico?

De acordo com um relatório Anthropic, 3 inteligência artificial já está gerando valor econômico mensurável por meio de rápida adoção, melhorias de produtividade e automação. Indivíduos e empresas utilizam cada vez mais o Claude para tarefas como programação, pesquisa, educação e administração, com as empresas automatizando aproximadamente 77% das interações baseadas em API.

As empresas costumam priorizar tarefas em que as capacidades de IA são mais fortes, mesmo quando essas tarefas são mais caras, o que sugere que os ganhos de eficiência superam as considerações de preço.

Há alguma limitação?

Os benefícios continuam sendo distribuídos de forma desigual, uma vez que regiões de alta renda, setores preparados para a automação e trabalhadores com conhecimento especializado capturam uma parcela desproporcional do valor, aumentando as preocupações com o aprofundamento das desigualdades em paralelo ao avanço econômico.

O estudo Anthropic sobre os impactos da IA no mercado de trabalho introduziu uma métrica de "exposição observada" que combina as capacidades teóricas da IA com dados de uso no mundo real para estimar quantas tarefas dos trabalhadores são de fato automatizadas.

O estudo revela que o uso da IA atualmente abrange apenas uma fração das tarefas que os modelos poderiam teoricamente executar, indicando que a adoção e a implementação estão aquém das capacidades técnicas. No geral, as evidências sugerem que a IA ainda não causou grandes transformações no mercado de trabalho, mesmo em ocupações com alta exposição teórica. 4

abordagens alternativas

Outra perspectiva vem de pesquisadores que exploram caminhos alternativos para a inteligência artificial geral. Por exemplo, a startup AMI Labs (Advanced Machine Intelligence) , fundada por Yann LeCun, ex-cientista-chefe de IA da 991259, concentra-se no desenvolvimento de “ modelos do mundo ” em vez de escalar modelos de linguagem.

Esses sistemas visam aprender com dados sensoriais do mundo real e modelar relações de causa e efeito em ambientes físicos. Tais arquiteturas podem ser necessárias para que sistemas de IA planejem, raciocinem e interajam com o mundo real de forma autônoma.

Se essa visão se provar correta, os atuais modelos de linguagem de grande escala podem continuar a gerar valor econômico principalmente por meio do aumento da produtividade, em vez de plena autonomia econômica, sugerindo que a atividade econômica verdadeiramente autônoma impulsionada por IA pode exigir arquiteturas de IA fundamentalmente diferentes. 5

Metodologia

Selecionamos os marcos necessários para que os sistemas de IA gerem valor econômico por meio da criação de novas aplicações:

  • Identificação de domínio (%1)
  • Preparação da especificação (%1)
  • Codificação de aplicativos (%8)
  • Implantação do aplicativo (5%)
  • Teste de aplicativos (5%)
  • Marketing (5%)
  • Otimização (%5)
  • Geração de receita (70%)

A cada etapa foi atribuído um orçamento específico, e os resultados foram avaliados por um painel de especialistas humanos.

As ferramentas poderiam ser utilizadas dentro do orçamento alocado para cada modelo. Criamos contas em diversos sistemas para testar os modelos.

Nossa primeira tarefa: Criar um site com metas de receita específicas. Esse processo incluirá diferentes fases para selecionar o nicho, programar e implantar o site, e realizar o marketing.

  • Meta de negócio: Gerar US$ 2.000 em receita recorrente mensal (MRR) em até 2 meses após a implementação.
  • Orçamento inicial de marketing: US$ 500
  • Não é possível implementar quaisquer requisitos de conformidade e certificação (sem HIPAA, SOC2, PCI, etc.). Para a Fase 1: Analisar e selecionar um nicho de mercado promissor que possa:
  • Atingir US$ 2 mil de receita recorrente mensal (MRR) em 2 meses é realista.
  • Ser construído e comercializado dentro das nossas restrições orçamentárias.
  • Possuem potencial de monetização claro
  • Demonstrar demanda de mercado suficiente
  • Para a Fase 2: Vou programar o produto com um editor de código de IA com agentes, como o Cursor, v0 etc.
    • Você deve me fornecer um prompt para passar ao editor. O prompt deve incluir todas as funções do produto. Depois disso, continuaremos com o marketing, mas por enquanto, forneça apenas os resultados para essas funções.

Como os modelos deixaram algumas escolhas para o usuário, nós os solicitamos novamente.

Nossa segunda pergunta: Existe algum assistente de programação com IA específico que você gostaria que eu usasse? Cursor, Replit, V0, Lovable etc. Além disso, certifique-se de que a solicitação que fornecemos a essas ferramentas cubra todos os detalhes do projeto. Não deixe que o assistente de programação com IA ou eu façamos a escolha do projeto; você decidirá todos os detalhes.

Perguntas frequentes

Inteligência Artificial Geral (AGI, na sigla em inglês) é um conceito na pesquisa em computação que descreve um sistema de IA capaz de realizar pelo menos tantas tarefas quanto um ser humano.

A Inteligência Artificial Geral (AGI, na sigla em inglês) é um sistema capaz de adquirir novas habilidades de forma eficiente, mesmo fora de seus dados de treinamento.
A inteligência reside em habilidades amplas ou de propósito geral, caracterizadas pela aquisição e generalização de habilidades, e não pela habilidade em si.
Esses modelos podem executar tarefas que exigem inteligência humana, como pesquisa de alta qualidade, trabalho economicamente valioso e tarefas de engenharia.

Este benchmark difere dos benchmarks existentes, como o benchmark ARC-AGI, pois nosso objetivo é medir desafios do mundo real de forma mais direta. O teste ARC-AGI inclui uma grade de entrada e uma grade de saída, e busca que os modelos de IA detectem o padrão na grade de entrada e, seguindo esse padrão, resolvam o quebra-cabeça de saída. 6

As capacidades da Inteligência Artificial Geral (IAG) por si só não determinam o destino em relação ao risco, mas devem ser consideradas em conjunto com os detalhes contextuais.
As funcionalidades das interfaces de usuário para sistemas de Inteligência Artificial Geral (AGI) têm uma influência substancial nos perfis de risco.
Escolhas cuidadosamente ponderadas em relação à interação humano-IA são vitais para a implantação segura e responsável de modelos de IA de ponta.
A Inteligência Artificial Geral (AGI) é um conceito com consequências tanto aspiracionais quanto práticas.
O desenvolvimento de parâmetros e estruturas de referência para Inteligência Artificial Geral (IAG) é crucial para avaliar os riscos e o progresso na pesquisa em IA.
São necessárias mais pesquisas para compreender os potenciais riscos e benefícios da IAG (Inteligência Artificial Geral) e para desenvolver sistemas de inteligência artificial seguros e responsáveis.
À medida que os pesquisadores se arriscam a desenvolver modelos capazes de uma inteligência cada vez mais geral, torna-se crucial estabelecer protocolos de segurança avançados e diretrizes éticas antes que potenciais sistemas de Inteligência Artificial Geral (IAG) surjam.
As avaliações técnicas mostraram que o modelo de IA obteve resultados variados em diferentes tarefas de pesquisa, com os modelos de vanguarda significativamente mais rápidos do que as iterações anteriores. A capacidade do sistema de iterar sobre seu próprio código de treinamento gerou discussões sobre medidas concretas em direção à Inteligência Artificial Geral (IAG), embora ainda existam desafios significativos para garantir a segurança e a robustez.

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo
Pesquisado por
Şevval Alper
Şevval Alper
Pesquisador de IA
Şevval é analista da AIMultiple, especializada em ferramentas de codificação de IA, agentes de IA e tecnologias quânticas.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450