What is artificial general intelligence (AGI)?

Artificial General Intelligence (AGI) is a concept in computing research that describes an AI system capable of performing at least as many tasks as a human.AGI is a system that can efficiently acquire new skills outside of its training data.Intelligence lies in broad or general-purpose abilities, marked by skill acquisition and generalization, rather than the skill itself.Such models can perform tasks that require human intelligence, like high-quality research, economically valuable work, and engineering tasks.This benchmark differs from existing benchmarks, such as the ARC-AGI benchmark, as we aim to measure real-world challenges more directly. ARC AGI test includes an input grid and an output grid, and wants AI models to detect the pattern in the input grid, and by following that, solve the output puzzle.1

How do human intelligence and AI models interact?

AGI capabilities alone do not determine destiny about risk, but must be considered in combination with contextual details.The affordances of user interfaces for AGI systems have a substantial bearing on risk profiles.Carefully considered choices around human-AI interaction are vital to the safe and responsible deployment of frontier AI models.Artificial General Intelligence (AGI) is a concept with both aspirational and practical consequences.The development of AGI benchmarks and frameworks is crucial for assessing risks and progress in AI research.Further research is needed to understand the potential risks and benefits of AGI and to develop safe and responsible artificial intelligence systems.As researchers risk developing models capable of increasingly general intelligence, it becomes crucial to establish advanced safety protocols and ethical guidelines before potential AGI systems emerge.Technical evaluations showed the AI model achieved varying results across different research tasks, with frontier models significantly faster than previous iterations. The system's ability to iterate on its own training code has sparked discussions about concrete steps toward AGI, though significant challenges remain in ensuring safety and robustness.

IA Fondements de l'IA

Analyse comparative de l'IA : L'IA peut-elle générer de la valeur économique ?

Cem Dilmegani

avec

Şevval Alper

mis à jour le Mar 13, 2026

Consultez notre normes éthiques

L'IA aura son plus grand impact lorsque les systèmes d'IA commenceront à créer de la valeur économique de manière autonome.

Nous avons évalué si les modèles de pointe pouvaient générer de la valeur économique. Nous les avons incités à développer une nouvelle application numérique (site web ou application mobile, par exemple) monétisable via un modèle SaaS ou publicitaire. Les modèles évalués sont :

Anthropic Claude Sonnet 3.5
OpenAI ChatGPT-o1

Résultats

Les deux modèles ont fourni des résultats complets en réponse à nos demandes, ont déterminé le domaine d'intérêt du site web et ont fourni des instructions à l'éditeur de code Cursor AI pour la construction du site web.

Pour être équitables envers les deux modèles, nous nous sommes basés sur cette invite sans y apporter d'autres modifications. La seule exception concernait les messages que nous utilisions lorsque Cursor nous demandait si nous souhaitions continuer : nous lui répondions alors par des phrases comme « oui, continuez, s'il vous plaît ».

Aucun des deux sites web n'a pu être entièrement codé avec Cursor. Bien que le code inclue la plupart des fonctionnalités essentielles, Cursor n'a pas permis de créer un site web pleinement fonctionnel. Par conséquent, nous ne pouvons pas poursuivre le développement. Les deux sites ont atteint 2 % de nos objectifs.

Consultez la méthodologie pour voir comment nous avons mesuré ces outils.

Étape 1 : Choisir l'orientation du site web

Nous avons demandé aux modèles de pointe de choisir un domaine pour leur application :

Réponse de Claude Sonnet 3.5

Outil de gestion de projet pour les indépendants :

Structure tarifaire

Niveau gratuit :
- 2 projets actifs
- 1 client
- Facturation de base
Niveau Pro (15 $/mois) :
- Projets illimités
- Clients illimités
- Facturation personnalisée
- Soutien prioritaire
- Analyses avancées

Notre évaluation

L'offre des concurrents : ClickUp, l'un des principaux concurrents du secteur, propose les mêmes fonctionnalités à un prix inférieur. Asana, autre acteur majeur du marché, offre un nombre illimité de tâches, de projets, de messages, de journaux d'activité et un espace de stockage de fichiers (100 Mo par fichier) dans sa version gratuite.

Le produit Claude Sonnet 3.5 n'a pas proposé de prix compétitifs ni de fonctionnalité convaincante pour le différencier des fournisseurs existants dans le domaine.

ChatGPT-o1

Un site d'emploi spécialisé pour les entreprises qui recrutent des créateurs de contenu maîtrisant l'IA (rédacteurs, spécialistes du marketing, gestionnaires de médias sociaux utilisant des outils d'IA, etc.).

Structure tarifaire :

Formule employeur : 199 $/mois pour un nombre illimité d’annonces OU 49 $ par offre d’emploi.
Demandeur d'emploi : Créez un profil et consultez les offres gratuitement.

Notre évaluation

Ce modèle tarifaire propose une structure simple et forfaitaire qui pourrait s'avérer avantageuse pour les employeurs ayant des besoins de recrutement fréquents, grâce à la publication illimitée d'annonces pour un tarif mensuel fixe. Toutefois, pour les employeurs publiant occasionnellement des annonces ou préférant une facturation proportionnelle au montant des transactions, les plateformes existantes comme Upwork, avec leurs frais initiaux minimes et leurs commissions basées sur un pourcentage, pourraient se révéler plus économiques.

Par conséquent, la proposition ChatGPT-o1 risque de ne séduire ni les employeurs ni les employés.

Nos recherches ont révélé que ces modèles ne permettent pas de mener des recherches de haute qualité, car leurs résultats, bien que se limitant à proposer une idée nouvelle, n'offrent pas de fonctionnalités supérieures à celles de leurs concurrents. Ils nécessitent toujours l'intervention de chercheurs humains pour améliorer les outils existants.

De plus, Cursor (avec le LLM Claude Sonnet 3.5 utilisé pour le codage des deux projets) n'a pas pu coder un site web complet. Cet échec pourrait être dû aux limitations de Cursor ou à des instructions insuffisantes. Quoi qu'il en soit, sans intervention humaine, il a été impossible de générer l'idée et de coder l'intégralité du site web dans ce test.

Vous pouvez également consulter notre analyse comparative du raisonnement en IA pour observer la capacité de raisonnement du modèle.

Évaluations comparatives et résultats d'ARC-AGI

Loading Chart

Les points de référence ARC-AGI ¹ ont été créés pour évaluer la capacité de raisonnement général dans les systèmes artificiels à l'aide de tâches basées sur une grille qui nécessitent de déduire des règles non énoncées à partir d'exemples.

ARC-AGI-1 (2019–2024)

ARC-AGI-1 a été introduit en 2019 pour mesurer l'intelligence fluide des systèmes artificiels. Il consistait en des tâches de raisonnement sur grille où le solveur devait déduire une règle implicite à partir de quelques exemples d'entrée-sortie et l'appliquer à des entrées de test inédites.

Les tâches ne reposaient que sur des connaissances cognitives de base telles que la persistance des objets, la symétrie et le comptage, et ne nécessitaient ni langage ni connaissances spécialisées.

Les compétitions menées sur plusieurs années ont démontré des progrès graduels mais limités :

En 2020, la meilleure soumission a atteint une précision de 20 % sur l'ensemble d'évaluation caché.
De 2020 au début de 2024, les performances sont restées autour de 34 % malgré une augmentation significative de la taille des grands modèles de langage.
En 2024, de nouvelles approches, comme l'adaptation en temps réel lors des tests, ont permis d'améliorer les résultats. L'équipe la plus performante a atteint 53,5 %, tandis qu'une autre équipe a obtenu 55,5 % sans toutefois publier son modèle.
Un aperçu du modèle o3 de OpenAI a surpassé les performances humaines dans des conditions de calcul très exigeantes, atteignant 76 % à moindre coût et 88 % à coût plus élevé. Les versions publiques ultérieures ont obtenu des scores inférieurs, o3-medium atteignant 53 %.

Bien qu'ARC-AGI-1 ait stimulé la recherche, il a révélé des faiblesses en tant que référentiel. De nombreuses tâches étaient vulnérables aux attaques par force brute, les données de référence humaines internes et cohérentes faisaient défaut, la difficulté des tâches variait selon les sous-ensembles et la réutilisation répétée de tâches cachées engendrait des risques de fuite d'informations.

ARC-AGI-2

ARC-AGI-2 a été créé pour pallier les limitations de son prédécesseur tout en conservant le même format de tâche. Son objectif était de réduire le recours aux solutions par force brute, de calibrer la difficulté des tâches selon les ensembles d'évaluation et d'établir des références claires pour les performances humaines.

Le processus de développement a nécessité des tests approfondis auprès de 407 participants, totalisant plus de 13 000 tentatives. Le taux de réussite moyen était de 66 %, chaque tâche ayant été résolue par au moins deux participants en deux tentatives maximum. Le temps médian de réalisation par tentative était d'environ 2,2 minutes.

Les résultats obtenus sur ARC-AGI-2 mettent en évidence l'écart actuel entre les performances humaines et celles des machines :

Les modèles phares, tels que le o3-mini et le o3-medium, ont obtenu un score d'environ 3 %.
L'équipe lauréate du prix ARC 2024 a obtenu un score de 2,5 %.
D'autres systèmes, dont Claude 3.7 et Icecuber, ont obtenu un score inférieur à 2 %.
Les scores inférieurs à 5 % sont considérés comme trop proches du bruit pour être significatifs.

Comparé à ARC-AGI-1, où les meilleurs systèmes dépassaient 50 % de précision, ARC-AGI-2 représente un niveau de difficulté nettement supérieur.

Ses tâches sont plus originales, comportent des grilles plus grandes et davantage d'objets, et mettent l'accent sur le raisonnement compositionnel tel que les transformations en plusieurs étapes, l'application de règles contextuelles et la définition de symboles.

Référence GDPval

GDPval a été créé pour évaluer les performances des modèles d'IA sur des tâches concrètes ayant une valeur économique mesurable. Il se concentre sur 44 professions issues de neuf grands secteurs contribuant significativement au PIB américain, notamment la santé, la finance, l'industrie manufacturière, l'immobilier et l'administration publique.

Le référentiel comprend 1 320 tâches dans son ensemble complet, soit environ 30 tâches par profession. Un sous-ensemble de référence de 220 tâches a été mis à disposition du public à des fins de recherche et de test.

Contrairement aux benchmarks traditionnels qui testent le raisonnement dans des contextes académiques ou artificiels, les tâches GDPval sont basées sur des livrables réels produits par des professionnels du secteur.

Ces tâches peuvent concerner des documents, des feuilles de calcul, des présentations, des fichiers CAO, des enregistrements audio ou vidéo, ou encore des dossiers de support client. Chaque tâche est conçue et validée par des experts cumulant en moyenne 14 ans d'expérience professionnelle, garantissant ainsi que son contenu reflète les réalités du monde du travail.

Figure 1 : Le graphique montrant les comparaisons par paires humaines suggère que les modèles se rapprochent des performances des experts du secteur sur le sous-ensemble d'or de GDPval. ²

Ce que cela mesure

GDPval évalue trois aspects principaux de la performance de l'IA :

Qualité des livrables : Les résultats sont comparés directement à ceux d’experts humains par le biais d’une évaluation par paires à l’aveugle. Des évaluateurs professionnels déterminent quel livrable répond le mieux aux exigences, en tenant compte de l’exactitude, de la structure, du style, de la mise en forme et de la pertinence. Il en résulte un taux de réussite, qui indique la fréquence à laquelle le résultat d’un modèle est jugé égal ou supérieur à celui d’un livrable produit par un humain.
Rapidité et rentabilité : ce référentiel mesure le temps et le coût nécessaires à l’exécution des tâches. Les experts humains consacrent généralement environ 7 heures, soit 404 minutes, à une tâche, ce qui représente environ 361 $ de salaire. Les modèles d’IA exécutent les tâches beaucoup plus rapidement et à moindre coût, mais les économies réalisées dépendent du niveau de vérification et de correction humaine requis.
Adaptabilité par le raisonnement et l'aide à la décision : ce test d'évaluation vérifie également si les performances du modèle s'améliorent lorsqu'il bénéficie d'un effort de raisonnement accru, d'aides plus directes ou de techniques d'étayage. Cela permet de mesurer non seulement sa capacité brute, mais aussi son aptitude à être guidé pour réaliser des tâches complexes en plusieurs étapes.

Ensemble, ces mesures rendent compte à la fois des avantages potentiels et des limites actuelles de l'IA dans l'exécution de tâches correspondant à un travail économiquement valorisant.

Résultats de l'analyse comparative

a) Performance du modèle par rapport aux experts humains

Les meilleurs modèles se rapprochent de la parité avec les experts . Par exemple, Claude Opus 4.1 a atteint un taux de victoire/égalité d'environ 48 %, ce qui signifie que dans près de la moitié des tâches, ses résultats ont été jugés aussi bons, voire meilleurs, que ceux de l'expert humain.
GPT-5 était le plus fort en précision (suivi des instructions, calculs), tandis que Claude était le plus fort en esthétique (mise en forme, diapositives, mises en page).

b) Évolution dans le temps

Les modèles de OpenAI ont montré une amélioration linéaire au fil des versions (par exemple, GPT-4o → o3 → GPT-5), les performances augmentant régulièrement vers une qualité experte.

c) Gain de temps et d'argent

En théorie, les modèles sont 90 à 300 fois plus rapides et des centaines de fois moins chers que les humains.
Si l'on tient compte des révisions et des corrections, les économies réalistes sont plus modestes , avec une accélération d'environ 1,1 à 1,6 fois plus rapide et moins coûteuse dans les flux de travail où des experts examinent et affinent les résultats de l'IA.
Cela suggère que l'IA peut déjà améliorer sensiblement les flux de travail professionnels plutôt que de les remplacer complètement.

d) Modes de défaillance

Les modèles échouent le plus souvent pour les raisons suivantes :
- Erreurs de suivi des instructions (en particulier Claude, Gemini, Grok).
- Problèmes de formatage (en particulier GPT-5).
- Hallucinations ou erreurs de calcul occasionnelles .
La plupart des échecs sont « acceptables mais inférieurs à la moyenne » plutôt que catastrophiques, bien que ~3 % des échecs de GPT-5 aient été considérés comme catastrophiques (résultats dangereux ou très inappropriés).

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

L'IA peut-elle/va-t-elle générer de la valeur économique ?

Selon un rapport Anthropic, ³ intelligence artificielle génère déjà une valeur économique mesurable grâce à son adoption rapide, aux gains de productivité et à l’automatisation. Particuliers et entreprises utilisent de plus en plus Claude pour des tâches telles que la programmation, la recherche, l’éducation et l’administration, les entreprises automatisant environ 77 % de leurs interactions via API.

Les entreprises privilégient souvent les tâches pour lesquelles les capacités de l'IA sont les plus performantes, même si ces tâches sont plus coûteuses, ce qui suggère que les gains d'efficacité l'emportent sur les considérations de prix.

Existe-t-il des limitations ?

Les bénéfices restent inégalement répartis, les régions à revenus élevés, les secteurs prêts pour l'automatisation et les travailleurs possédant des connaissances spécialisées captant une part disproportionnée de la valeur, ce qui soulève des inquiétudes quant à l'aggravation des inégalités parallèlement au progrès économique.

L'étude Anthropic sur les impacts de l'IA sur le marché du travail a introduit une mesure de « l'exposition observée » qui combine les capacités théoriques de l'IA avec des données d'utilisation réelles pour estimer combien de tâches de travailleurs sont réellement automatisées.

L'étude révèle que l'utilisation de l'IA ne couvre actuellement qu'une fraction des tâches que les modèles pourraient théoriquement accomplir, ce qui indique que l'adoption et le déploiement sont en retard par rapport aux capacités techniques. Globalement, les données suggèrent que l'IA n'a pas encore entraîné de bouleversements majeurs sur le marché du travail, même dans les professions où elle est théoriquement très présente. ⁴

Approches alternatives

Une autre perspective provient des chercheurs explorant des voies alternatives vers l'intelligence artificielle générale. Par exemple, la start-up AMI Labs (Advanced Machine Learning) , fondée par Yann LeCun, ancien directeur scientifique de l'IA chez IA, se concentre sur le développement de « modèles du monde » plutôt que sur la mise à l'échelle de modèles de langage.

Ces systèmes visent à apprendre à partir de données sensorielles réelles et à modéliser les relations de cause à effet dans les environnements physiques. De telles architectures peuvent s'avérer nécessaires aux systèmes d'IA pour planifier, raisonner et interagir de manière autonome avec le monde réel.

Si cette hypothèse se confirme, les grands modèles de langage actuels pourraient continuer à générer de la valeur économique principalement par l'augmentation de la productivité plutôt que par une autonomie économique totale, ce qui suggère qu'une activité économique véritablement autonome pilotée par l'IA pourrait nécessiter des architectures d'IA fondamentalement différentes. ⁵

Méthodologie

Nous avons sélectionné les étapes nécessaires pour que les systèmes d'IA génèrent de la valeur économique en développant de nouvelles applications :

Identification du domaine (%1)
Préparation des spécifications (%1)
Codage d'application (%8)
Déploiement d'applications (%5)
Tests d'applications (5 %)
Marketing (5 %)
Optimisation (5 %)
Génération de revenus (70 %)

Chaque étape clé s'est vue attribuer un budget spécifique, et les résultats ont été évalués par un panel d'experts humains.

Des outils pouvaient être utilisés dans les limites du budget alloué à chaque modèle. Nous avons créé des comptes sur différents systèmes pour tester les modèles.

Notre première consigne : créer un site web avec des objectifs de revenus précis. Ce processus comprendra différentes phases : le choix du créneau, le développement et le déploiement, et le marketing.

Objectif commercial : Générer 2 000 $ de revenus mensuels récurrents (MRR) dans les deux mois suivant le déploiement
Budget marketing initial : 500 $
Impossible de mettre en œuvre les exigences de conformité et de certification (absence de normes HIPAA, SOC2, PCI, etc.). Pour la phase 1 : analyser et sélectionner un marché de niche prometteur capable de :
Atteindre 2 000 $ de revenus mensuels récurrents (MRR) en 2 mois de manière réaliste
Être construit et commercialisé dans le respect de nos contraintes budgétaires
Présenter un potentiel de monétisation clair
Démontrer une demande suffisante du marché
Pour la phase 2 : je coderai le produit avec un éditeur de code IA agentique, comme Cursor, v0, etc.
- Vous devez me fournir une consigne à transmettre à l'éditeur. Cette consigne doit inclure toutes les fonctionnalités du produit. Nous poursuivrons ensuite la commercialisation, mais pour l'instant, veuillez uniquement fournir les résultats obtenus.

Comme les modèles laissaient certains choix à l'utilisateur, nous les avons sollicités à nouveau.

Deuxième question : Souhaitez-vous que j’utilise un assistant de programmation IA en particulier ? Cursor, Replit, V0, Lovable, etc. Veuillez également vous assurer que les instructions données à ces outils couvrent tous les détails du projet. Ni l’assistant de programmation IA ni moi-même ne devons choisir ; vous seul déciderez de tous les détails du projet.

FAQ

L'intelligence artificielle générale (IAG) est un concept de recherche informatique qui décrit un système d'IA capable d'effectuer au moins autant de tâches qu'un humain.

L'AGI est un système capable d'acquérir efficacement de nouvelles compétences en dehors de ses données d'entraînement.
Intelligence réside dans des capacités générales ou à usage large, caractérisées par l'acquisition et la généralisation des compétences, plutôt que par la compétence elle-même.
De tels modèles peuvent accomplir des tâches qui requièrent l'intelligence humaine, comme la recherche de haute qualité, les travaux à forte valeur économique et les tâches d'ingénierie.

Ce test de référence diffère des tests existants, tels que le test ARC-AGI, car il vise à mesurer plus directement les défis du monde réel. Le test ARC-AGI comprend une grille d'entrée et une grille de sortie, et exige des modèles d'IA qu'ils détectent le motif dans la grille d'entrée, puis qu'ils résolvent le puzzle de sortie. ⁶

Les capacités de l'IA générale ne déterminent pas à elles seules le cours des risques, mais doivent être considérées en tenant compte du contexte.
Les fonctionnalités des interfaces utilisateur des systèmes d'IA générale ont une incidence considérable sur les profils de risque.
Des choix mûrement réfléchis concernant l'interaction homme-IA sont essentiels au déploiement sûr et responsable des modèles d'IA de pointe.
L'intelligence générale artificielle (AGI) est un concept aux conséquences à la fois ambitieuses et pratiques.
Le développement de référentiels et de cadres de référence pour l'IA générale est crucial pour évaluer les risques et les progrès de la recherche en IA.
Des recherches supplémentaires sont nécessaires pour comprendre les risques et les avantages potentiels de l'IAG et pour développer des systèmes d'intelligence artificielle sûrs et responsables.
Alors que les chercheurs prennent le risque de développer des modèles capables d'une intelligence de plus en plus générale, il devient crucial d'établir des protocoles de sécurité avancés et des directives éthiques avant l'émergence de potentiels systèmes d'IA générale.
Les évaluations techniques ont montré que le modèle d'IA obtenait des résultats variables selon les tâches de recherche, les modèles les plus avancés étant nettement plus rapides que les versions précédentes. La capacité du système à itérer sur son propre code d'entraînement a suscité des discussions sur les étapes concrètes vers une intelligence artificielle générale (IAG), même si des défis importants subsistent quant à la sécurité et la robustesse du système.

Liens de référence

https://arxiv.org/pdf/2505.11831

Measuring the performance of our models on real-world tasks | OpenAI

Anthropic Economic Index report: Uneven geographic and enterprise AI adoption \ Anthropic

Labor market impacts of AI: A new measure and early evidence \ Anthropic

AMI Labs: Real World. Real Intelligence.

ARC Prize - What is ARC-AGI?

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Şevval Alper

Chercheur en IA

Suivre

Şevval est analyste chez AIMultiple, spécialisé dans les outils de codage IA, les agents IA et les technologies quantiques.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Analyse comparative de l'IA : L'IA peut-elle générer de la valeur économique ?

Résultats