La recherche approfondie par IA est une fonctionnalité de certains LLM qui offre aux utilisateurs un éventail de résultats de recherche plus large que les moteurs de recherche IA . Afin de comparer les performances de différents outils de recherche approfondie par IA, nous introduisons trois nouveaux benchmarks :
DR-50 (Deep Research 50) Bench , qui évalue les outils à travers 50 questions couvrant six types de questions, DR-2T (Deep Research 2 Task) Bench , qui évalue les outils à travers deux tâches de recherche réelles axées sur la qualité de la génération de rapports, la couverture des sources et la présentation structurée des données, et Agent vs Deep Research Models , qui évalue si les agents sont meilleurs à des fins de recherche.
Résultats du banc d'essai DR-50
Comparaison de la précision et de la latence
Nous avons testé des outils d'IA de recherche approfondie sur 50 questions réparties en 6 types différents. Consultez notre méthodologie d'évaluation comparative.
Perplexity Sonar Deep Research affiche la meilleure précision (34 %) avec une latence modérée. Parallel Ultra et o4 mini deep research présentent des niveaux de précision similaires, autour de 22-24 %, bien que Parallel Ultra soit nettement plus long. o3-deep-research affiche la plus faible précision avec une latence élevée.
Coût et latence pour une seule tâche réussie
Nous avons mesuré le coût et la latence sur une question unique pour laquelle tous les outils ont donné satisfaction. Les outils o4 mini deep research et Perplexity Ultra se situent dans la zone d'efficacité optimale, avec des coûts faibles et des temps d'exécution rapides. L'outil o3 deep research est plus coûteux et présente une latence plus longue. L'outil Parallel affiche la latence la plus élevée malgré un coût modéré.
Citations
Le nombre de citations varie indépendamment du coût et de la latence. La recherche approfondie o4 (mini) génère un nombre significativement plus élevé de citations tout en conservant son efficacité, ce qui suggère des approches différentes pour la recherche et le référencement des informations. Le faible nombre de citations dans la recherche approfondie o3, malgré son coût élevé, indique que le nombre de citations n'est pas lié à la consommation de ressources.
Résultats du banc d'essai DR-2T
Nous avons également effectué un deuxième test de performance sur les 7 principaux outils de recherche approfondie en IA, avec deux tâches, et nous les avons évalués selon cinq dimensions.
Nous les avons évaluées en fonction de leur exactitude et du nombre de sources. Consultez la méthodologie pour découvrir comment nous avons évalué ces solutions.
Gemini se distingue par la précision des données fournies :
Claude est en tête si l'on se base sur le nombre de sources indexées :
Tâche 1 :
Nous leur avons demandé de créer des tableaux sur les logiciels de gestion de mots de passe d'entreprise, conformément à nos instructions. Voir l' instruction complète.
Presque tous les outils fournissaient des tableaux détaillés contenant les informations demandées, bien que leurs approches en matière de présentation des données aient varié considérablement.
Pour la génération de rapports complets :
- Gemini et Claude se sont imposés comme les solutions de référence, fournissant des rapports analytiques complets avec des synthèses et une analyse contextuelle.
- En revanche, Bright Data Deep Lookup* se concentrait principalement sur l'extraction de données, fournissant des tableaux structurés avec un contenu narratif limité.
Les chercheurs doivent choisir leurs outils en fonction de leurs besoins spécifiques. Ceux qui recherchent des solutions d'analyse approfondie et de rédaction de rapports trouveront Gemini et Claude particulièrement adaptés, car ces outils sont davantage axés sur la synthèse des informations dans des rapports détaillés.
À l'inverse, les chercheurs qui privilégient la collecte de données brutes et qui ont besoin de recherches Web à grande échelle bénéficieront davantage de Bright Data , qui fournit une couverture étendue des données Web avec des niveaux de confiance et des explications détaillées sur la pertinence et la fiabilité de la source.
Cette approche axée sur les données rend Bright Data précieux pour les revues systématiques nécessitant une vérification des sources à volume élevé.
Kimi utilise une méthodologie unique pour la génération de rapports, produisant un rapport interactif qui intègre des résumés, des sections ciblées « idéal pour » et des recommandations stratégiques.
Le rapport comprend des visualisations de données intégrées et une attribution des sources, ce qui donne un livrable complet prêt à être mis en œuvre immédiatement sans modification supplémentaire.
Remarque : Perplexity a fourni un rapport détaillé, mais n’a pas créé de tableau reprenant les informations recueillies. Comme notre consigne exigeait spécifiquement la production de tableaux, cette tâche a reçu la note zéro.
*Nous mettrons à jour Bright Data Recherche approfondie lorsque le produit quittera la phase bêta.
Tâche 2 :
L'objectif de cette tâche est d'évaluer leur rapidité et leur couverture en matière de recherche. Nous avons demandé un rapport détaillé sur l'adoption de l'automatisation robotisée des processus (RPA) afin de déterminer le nombre de pages indexées et le temps nécessaire à la génération d'un rapport.
Bien entendu, le nombre de sources n'est pas nécessairement corrélé à la qualité de la recherche. Toutefois, puisque ces outils sont conçus pour accélérer la recherche, nous l'avons considéré comme un critère important.
Il convient également de noter que les temps de recherche varient considérablement d'un outil à l'autre. Grok Deep Search est environ 10 fois plus rapide que ChatGPT Deep Research et explore environ 3 fois plus de pages web.
Claude Deep Search se distingue également par sa grande réactivité, ayant analysé 261 sources en un peu plus de 6 minutes. En revanche, Gemini n'est peut-être pas le choix idéal pour ceux qui recherchent une solution rapide et réactive, car il a analysé 62 sources en plus de 15 minutes.
Comparaison des agents et des modèles de recherche approfondie
Des agents d'IA comme Claude Code et OpenAI Codex peuvent effectuer des recherches sur le Web, récupérer des pages spécifiques et extraire des données grâce à des appels d'outils ciblés. Nous avons testé si cette approche par agents offre des performances équivalentes à celles de modèles de recherche approfondie dédiés, appliqués à des tâches de recherche factuelles. Six outils ont été évalués sur cinq tâches, avec 33 points de contrôle de vérité terrain couvrant les événements d'entreprise, les fusions-acquisitions, la documentation logicielle et la recherche en IA. Consultez notre méthodologie .
Parallel Ultra et Claude Code ont obtenu la meilleure performance avec une précision de 97 %. Codex a suivi avec 93,9 %. Perplexity Sonar a obtenu un score de 87,9 %. Les modèles de recherche approfondie OpenAI (o3 et o4-mini) ont obtenu des scores compris entre 75,8 % et 81,8 %, malgré l'exécution de 27 à 125 recherches Web par tâche et un coût 2 à 6 fois supérieur à celui de Sonar.
Les outils les plus performants partagent un point commun : ils consultent les sources primaires et les lisent attentivement. Codex a consulté le formulaire 8-K déposé auprès de la SEC pour la tâche 2 et la déclaration de procuration de la SEC pour la tâche 3. Claude Code a récupéré directement les pages de documentation d’Unity pour la tâche 1. Parallel a trouvé le montant précis du versement à Zaslav (886,8 millions de dollars) que trois autres outils n’avaient pas détecté. o3 et o4-mini ont effectué une recherche plus large, mais ont extrait des informations moins précises des pages trouvées.
Claude Code et Codex occupent le coin supérieur droit : une précision élevée à faible coût (1,54 $ et 1,30 $ respectivement). Parallel atteint la même précision pour 2,10 $. o3 coûte 10,92 $ pour une précision de 75,8 %. Côté latence, Claude Code est le plus rapide avec 1,7 minute par tâche en moyenne. Parallel est le plus lent avec 16,7 minutes, mais offre la meilleure précision. Sonar se situe en bonne position avec 2,3 minutes et 87,9 %.
Sonar produit en moyenne 5 253 mots par tâche. Les agents en produisent entre 398 et 483. Sonar a écrit 4 509 mots sur la structure Unity EntityId, mais n'a pu nommer qu'une seule de ses cinq méthodes publiques. Codex a écrit 248 mots et a nommé les cinq. Parallel a écrit 1 037 mots et les a tous nommés correctement. Un plus grand nombre de mots et de citations n'a pas permis de prédire une meilleure précision.
Analyse approfondie : Migration d’Unity 2022.3 vers Unity 6 (Tâche 5)
La tâche 5 est la plus complexe du test. Elle consistait à créer un guide de transition d'Unity 2022.3 LTS vers Unity 6.3 LTS. Les numéros de version précis étaient indiqués : 2022.3.62f3, 2022.3.74f1 et 6000.3.12f1. Pour y répondre correctement, il fallait consulter la page relative à la configuration système requise pour Unity 6.3, la page sur le cycle de vie du support et les quatre guides de mise à niveau (6.0, 6.1, 6.2 et 6.3).
Trois des six outils ont renvoyé les exigences système pour Unity 6.0 au lieu de Unity 6.3.
o3, o4-mini et Claude Code ont tous fait référence à la page de documentation Unity 6.0 au lieu de la page 6.3, malgré l'invite spécifiant « Unity 6.3 » et le numéro de build « 6000.3.12f1 ».
Une équipe suivant le guide d'o3 ciblerait l'API Android 23 (Android 6.0). Unity 6.3 requiert l'API 25 (Android 7.1). La compilation échouerait ou serait déployée pour une plateforme non prise en charge. Le guide en lui-même est professionnel : tableaux clairs, structure logique, ton approprié. Cependant, les chiffres sont erronés.
Codex et Parallel ont tous deux trouvé les chiffres exacts. Codex a accédé directement à la page des exigences système de la version 6.3 et l'a comparée ligne par ligne à celle de la version 2022.3. Ils ont même constaté que la configuration minimale requise pour iOS était passée de 12 à 13 dans la version 2022.3 (build 2022.3.72f1), avant de passer à 15 dans la version 6.3. Parallel a produit un guide complet avec des chiffres corrects et 35 sources citées.
Comment chaque outil a abordé le problème :
Claude Code a lancé quatre sous-agents en parallèle, chacun traitant une partie différente de la question : dates de support, procédure de mise à niveau, changements incompatibles et configuration système requise. Rapide (3 minutes et 59 secondes), mais le sous-agent chargé de la configuration système a récupéré la mauvaise page de documentation.
Codex a effectué 90 recherches Web successives en 6 minutes et 17 secondes. Il a récupéré individuellement le guide de mise à niveau 6.3, la page des exigences système pour la version 6.3 et celle pour la version 2022.3. Plus lent, mais méthodique. Toutes les informations étaient correctes.
o3 a consacré 8 minutes et 32 recherches web à la recherche. Le résultat : 2 132 mots de conseils généraux de migration, mais les délais de prise en charge et la configuration système requise proviennent de la documentation 6.0. Aucune modification majeure spécifique à la version 6.3 n'est mentionnée (suppression du mode de compatibilité URP, obsolescence de Netcode 1.x, obsolescence de Relay/Lobby).
Aucun outil n'a lu les quatre guides de mise à niveau (6.0, 6.1, 6.2, 6.3) dans l'ordre. La documentation d'Unity indique pourtant que les développeurs doivent les suivre scrupuleusement, car chacun contient des modifications importantes. Chaque outil a extrait les informations de la page la plus pertinente. Il s'agit d'une limitation structurelle inhérente à toute recherche nécessitant l'analyse de plusieurs documents connexes plutôt que la recherche d'une réponse unique.
Évolutions des outils de recherche approfondie en IA
Kimi K2.5
Kimi K2.5 peut traiter du texte, des images et de la vidéo, générer du code prêt pour la production et exécuter des flux de travail complexes à l'aide d'une architecture d'essaim d'agents.
Agent Swarm est le mécanisme de Kimi K2.5 permettant de gérer des tâches complexes en transformant un modèle unique en une équipe coordonnée d'agents IA. Au lieu d'exécuter une tâche séquentiellement, Kimi crée plusieurs sous-agents spécialisés, chacun se voyant attribuer un rôle spécifique tel que la recherche, l'analyse, le codage, la vérification ou la structuration de contenu. Ces agents opèrent en parallèle, utilisent des outils indépendamment et partagent les résultats intermédiaires, ce qui réduit considérablement le temps d'exécution des flux de travail à long terme.
L'algorithme décompose un objectif global en sous-tâches, les assigne à des agents, suit leur progression et intègre les résultats en un résultat final cohérent. Cette approche est particulièrement utile pour la recherche approfondie, la création de documents à grande échelle, le traitement par lots et la résolution de problèmes complexes, où différentes parties du travail peuvent s'exécuter simultanément.
Recherche approfondie Kimi K2.5
Kimi K2.5 Deep Research prend en charge la recherche de bout en bout et la génération de rapports pour les questions complexes. Il collecte des informations provenant de sources multiples, analyse les sujets sous différents angles et synthétise les résultats dans des rapports visuels.
La recherche approfondie est principalement conçue pour l'analyse des investissements, la recherche sectorielle, les travaux universitaires et la planification stratégique, où une analyse orientée vers la prise de décision est requise.
Figure 1 : Un exemple de recherche de Kimi K2.5 Deep Research sur les indicateurs ESG et les rendements des investissements. 1
Claude pour les sciences de la vie
Claude for Life Sciences est conçu pour accompagner les travaux scientifiques tout au long du cycle de vie du développement des médicaments et des dispositifs médicaux pour les entreprises de biotechnologie, pharmaceutiques et de recherche. Les récentes mises à jour étendent son champ d'action au-delà de la recherche préclinique pour inclure les opérations d'essais cliniques et les processus réglementaires, grâce à l'ajout de nouveaux connecteurs de données et de compétences d'agents adaptés aux cas d'usage concrets des sciences de la vie.
Principales caractéristiques et fonctionnalités :
- Connecteurs scientifiques étendus : Accès à des plateformes telles que Medidata, ClinicalTrials.gov, bioRxiv/medRxiv, Open Targets, ChEMBL, ToolUniverse et Owkin, en plus des intégrations existantes avec Benchling, PubMed, 10x Genomics, BioRender, Synapse.org et Wiley.
- Renseignements sur les essais cliniques : Utilisation sécurisée des données historiques d’inscription aux essais et de performance des sites pour appuyer l’analyse de faisabilité, la planification du recrutement des patients et le suivi des essais.
- Soutien à la découverte précoce : outils d’aide à l’identification des cibles, à l’analyse des composés et à la vérification des hypothèses à l’aide de bases de données scientifiques et d’outils informatiques sélectionnés.
- Flux de travail bioinformatiques : compétences des agents et ensembles d’outils qui prennent en charge les pipelines de traitement et d’analyse des données, y compris les déploiements scVI-tools et Nextflow.
- Rédaction et planification des protocoles : Compétence en matière de rédaction de protocoles d’essais cliniques intégrant les voies réglementaires, le contexte concurrentiel, les recommandations relatives aux critères d’évaluation et les directives pertinentes de la FDA.
- Préparation réglementaire : Assistance pour identifier les lacunes dans les documents réglementaires, rédiger les réponses aux questions des agences et s'orienter dans les directives applicables. 2
Intégration de Gemini Deep Research avec Gmail, Docs, Drive et Chat
Gemini Deep Research a bénéficié d'une mise à jour majeure, étendant son accès aux données de l'écosystème Google. L'outil peut désormais se connecter à Gmail, Drive (y compris Docs, Slides, Sheets et PDF) et Chat, permettant ainsi aux utilisateurs d'intégrer directement des sources privées et partagées à leurs recherches.
Grâce à cette mise à jour, les utilisateurs peuvent :
- Créez des rapports complets en combinant les données provenant des courriels, des documents et des conversations avec les informations du Web.
- Réalisez une analyse concurrentielle intégrant les plans de projet, les tableaux comparatifs et les discussions d'équipe.
- Élaborer un plan de recherche en plusieurs étapes pour un nouveau produit en analysant les premiers éléments de réflexion et les échanges connexes.
Cette fonctionnalité permet à Gemini Deep Research de prendre en charge aussi bien les analyses de la littérature académique que les études de marché. En combinant plusieurs sources de données, les utilisateurs peuvent générer des analyses plus détaillées et identifier plus efficacement les informations clés. 3
Gemini dans Chrome : navigation automatique
Google met à jour Gemini dans Chrome sur macOS, Windows et Chromebook Plus avec Gemini 3, ajoutant un panneau latéral, une prise en charge plus intégrée des applications Google et des fonctionnalités d'agent telles que la navigation automatique :
- Navigation et actions automatisées en plusieurs étapes : la nouvelle fonctionnalité Auto Browse de Chrome utilise Gemini 3 pour agir comme un agent Web capable d’effectuer de manière autonome des tâches complexes en plusieurs étapes, telles que la recherche d’options de voyage, le remplissage de formulaires, la comparaison de produits et la navigation entre les sites Web en interprétant les instructions et en interagissant avec les pages au nom de l’utilisateur.
- Disponibilité : La navigation automatique est actuellement déployée en avant-première pour les abonnés AI Pro et AI Ultra aux États-Unis et nécessite Chrome sur des plateformes telles que Windows, macOS ou Chromebook Plus.
- Prise en charge des applications connectées : La version mise à jour de Gemini dans Chrome prend en charge les intégrations d’applications connectées avec des services tels que Gmail, Calendar, YouTube, Maps, Google Shopping et Flights.
- Pour les actions impliquant des étapes sensibles ou à forts enjeux, comme la finalisation d'un achat ou la publication sur les réseaux sociaux, le système fait une pause et demande une confirmation explicite de l'utilisateur avant de poursuivre. 4
Microsoft présente la recherche approfondie dans le service d'agent Azure AI Foundry
Microsoft a lancé la préversion publique de Deep Research au sein d'Azure AI Foundry Agent Service, offrant ainsi la technologie de recherche automatisée de OpenAI via la plateforme d'entreprise Azure. Ce service permet l'automatisation de tâches de recherche complexes, l'intégration aux systèmes d'entreprise et la création de résultats de recherche transparents et auditables. 5
Les principales caractéristiques sont :
- Recherche automatisée en plusieurs étapes : utilise le modèle o3-deep-research pour planifier, analyser et synthétiser les données provenant du Web et des systèmes d'entreprise.
- Ancrage Web avec la recherche Bing : garantit que les informations proviennent de sources vérifiées et actuelles.
- Résultats transparents : chaque rapport comprend les sources citées, les étapes de raisonnement et des clarifications.
- Intégration avec les outils Azure : Compatible avec Logic Apps, Azure Functions et d’autres connecteurs pour la création de rapports et l’automatisation des flux de travail.
- Flexibilité programmatique : Disponible via API et SDK, permettant aux développeurs d’intégrer des outils de recherche approfondie en IA dans les applications et les flux de travail.
Comment ça marche
- Clarification de l'intention de recherche : Le système utilise GPT-4o et GPT-4.1 pour définir la question de recherche.
- Collecte de données : Bing Search collecte des données Web fiables pour son ancrage.
- Analyse des résultats : Le modèle de recherche approfondie effectue un raisonnement et une synthèse pour produire des rapports complets contenant des informations clés.
- Garantir la conformité : Chaque résultat est traçable et auditable pour une utilisation en entreprise.
Avantages des outils de recherche approfondie en IA
Amélioration de l'efficacité et de la productivité
- Analyses bibliographiques : les outils de recherche basés sur l’IA agissent comme des assistants de recherche, effectuant une recherche bibliographique approfondie dans de vastes bases de données d’articles scientifiques. Ils identifient les articles pertinents et peuvent synthétiser les informations pour générer des résumés concis, réduisant considérablement le temps et les efforts nécessaires à une analyse bibliographique manuelle.
- Collecte et analyse des données : Un assistant de recherche IA peut automatiser la collecte de données en explorant de vastes bases de données et des pages web. Ces outils possèdent des capacités de recherche avancées qui leur permettent de traiter et d’analyser d’énormes ensembles de données beaucoup plus rapidement que les méthodes traditionnelles. Ils peuvent identifier des tendances et des schémas qui pourraient échapper à une analyse manuelle, ce qui est crucial pour des tâches de recherche complexes telles que l’analyse de marché ou la rédaction d’un rapport de recherche approfondi.
- Automatisation des tâches répétitives : l’IA peut prendre en charge des tâches répétitives telles que la saisie de données et la mise en forme des citations. En automatisant ces processus fastidieux, les chercheurs peuvent se concentrer sur des sujets plus complexes et les aspects créatifs de leur travail.
Des connaissances et des découvertes plus approfondies
- Identification des lacunes de la recherche : En analysant la littérature scientifique existante, les outils d’IA peuvent aider les chercheurs à identifier les lacunes dans les connaissances actuelles. Il s’agit d’une étape cruciale pour formuler une nouvelle question de recherche ou élaborer un plan de recherche en plusieurs étapes. Ces outils fournissent des informations claires et concises, présentées de manière structurée et organisée.
- Synthèse de l'information : les assistants de recherche en IA peuvent synthétiser des informations provenant de sources multiples, générer un rapport complet et mettre en évidence les principaux résultats. Les chercheurs bénéficient ainsi d'une vue d'ensemble sans avoir à lire chaque article en entier, ce qui représente un gain de temps considérable tout en leur fournissant des informations approfondies.
- Par exemple, l'outil de recherche approfondie de Claude a généré un rapport détaillé. Ce rapport peut être publié en tant qu'artefact, accessible en ligne et indexé par les moteurs de recherche.
- Exploration des liens : Les outils de visualisation des réseaux de citations permettent aux chercheurs de comprendre comment différents articles scientifiques sont interconnectés. Cela peut mener à des découvertes et à une compréhension plus approfondie d’un domaine de recherche.
Par exemple, lors de notre deuxième tâche, Grok a indexé plus de 100 pages différentes. Normalement, il faudrait des heures à un humain pour lire et extraire les informations de toutes ces pages, mais Grok l'a fait en environ 2 minutes.
Par conséquent, ces outils peuvent accélérer le processus de recherche. Cependant, les utilisateurs doivent toujours garder à l'esprit que ces outils peuvent induire en erreur et générer des informations erronées ; il convient donc d'être prudent lorsqu'on utilise des informations directement issues d'un LLM .
Défis et limites des outils de recherche approfondie en IA
Précision et fiabilité
La plupart des gens se méfient des informations générées par les LLM et les vérifient eux-mêmes, car ils savent que ces derniers peuvent avoir des hallucinations. Le problème des recherches approfondies est que, comme elles mènent des recherches plus complètes qu'une simple conversation et fournissent des sources, les utilisateurs peuvent croire, à tort, qu'elles fournissent toujours des informations exactes. Les LLM (même avec des recherches approfondies) ont toujours tendance à avoir des hallucinations, ce qui peut entraîner de graves malentendus.
- Manque de contexte et de nuances : un assistant de recherche IA peut avoir du mal à saisir pleinement le contexte d’une tâche de recherche, et risque de résumer les informations sans en comprendre la portée. Cela peut mener à des conclusions incomplètes ou erronées.
- Informations obsolètes : les données d’entraînement de certains modèles d’IA peuvent ne pas être à jour, ce qui les empêche de prendre en compte les développements récents publiés dans les articles scientifiques ou autres publications universitaires.
- Crédibilité des sources : les outils d’IA peinent souvent à distinguer les sources fiables des sources non fiables, considérant toutes les informations provenant du web comme également valides. Le jugement humain est essentiel pour évaluer la crédibilité des sources dans le cadre d’une étude approfondie.
Préjugés et préoccupations éthiques
- Biais algorithmiques : si les ensembles de données utilisés pour entraîner les modèles d’IA contiennent des biais sociétaux, l’IA les intégrera et les perpétuera. Cela peut engendrer des résultats biaisés à l’encontre de certains groupes démographiques, compromettant ainsi l’intégrité des recherches approfondies.
- Protection des données : L’utilisation d’outils d’IA implique le traitement de volumes importants de données, ce qui soulève de sérieuses questions de confidentialité et de sécurité. Les données confidentielles ou exclusives saisies par un chercheur pourraient servir à l’entraînement de futurs modèles, engendrant un risque de fuite de données.
- Propriété intellectuelle et droits d'auteur : Lorsqu'un outil d'IA synthétise des informations provenant de sources multiples, des questions se posent quant à la propriété intellectuelle et à la citation correcte des sources. Il est souvent difficile de déterminer la propriété du résultat final et de garantir l'exactitude des citations.
Compétences humaines et dépendance excessive
- L’illusion de l’expertise : les outils d’IA peuvent produire un rapport soigné et structuré, donnant l’illusion d’une analyse exhaustive et experte. L’outil est un assistant de recherche, et non un substitut au jugement, à l’expertise et à la rigueur qu’un chercheur humain apporte aux tâches de recherche complexes. Ceci est particulièrement pertinent pour les décideurs confrontés à des décisions cruciales.
- Érosion de l'esprit critique : Une dépendance excessive aux outils de recherche basés sur l'IA peut nuire à l'esprit critique et aux capacités d'analyse des chercheurs. Fournir toutes les réponses peut réduire leur implication dans les processus de recherche complexes, pourtant essentiels à la production d'articles universitaires de qualité.
- Courbe d'apprentissage abrupte : Malgré leur conception intuitive, de nombreux outils de recherche nécessitent un certain temps d'apprentissage, notamment pour leurs fonctionnalités avancées. Les chercheurs peuvent avoir besoin de temps pour exploiter pleinement les capacités de recherche approfondies de l'outil.
Gary Marcus a également averti que cela pouvait entraîner une baisse de la qualité des articles scientifiques. 6
Méthodologie
Dans notre benchmark DR-50, nous avons évalué les outils de recherche en IA à l'aide de 50 questions réparties en six types de questions différents :
1. Recherche factuelle simple
Les questions à saut unique nécessitent une récupération simple des données à partir d'une source unique.
Exemple : « Quel est le prix d'entrée de 1M token pour le modèle llama-3-70b de DeepInfra ? »
2. Analyse comparative
L'évaluation croisée nécessite la collecte de données auprès de plusieurs fournisseurs afin de comparer les produits ou services.
Exemple : « Quel fournisseur propose llama-3.2-1b au prix combiné le plus bas ? »
3. Raisonnement à sauts multiples
Les chaînes de raisonnement séquentiel nécessitent plusieurs étapes dépendantes de récupération d'informations.
Exemple : « Quel est le prix d'entrée pour 1 million de jetons sur OpenRouter pour le modèle qui s'est classé 1er dans le benchmark AIMultiple Finance Reasoning ? »
4. Basé sur le calcul
Des opérations mathématiques sont effectuées sur les données numériques récupérées.
Exemple : « Quelle est la différence de prix moyen entre les deux modèles Mistral AI les moins chers ? »
5. Extraction de JSON structuré
La collecte de données exige un formatage JSON strict avec plusieurs valeurs structurées.
Exemple : « Quelles sont l’architecture, la mémoire et la bande passante du NVIDIA H200 SXM ? Format : {« architecture » : « … », « mémoire » : « … », « bande passante » : « … »} »
6. Liste catégorielle
Énumération complète de tous les articles d'une catégorie spécifique.
Exemple : « Fournir tous les serveurs MCP de la catégorie blockchain. »
Métriques d'évaluation
Précision
Nous avons comparé chaque réponse à des réponses de référence prédéfinies à l'aide de GPT-4o-mini comme juge automatisé via OpenRouter. Le score de précision final représente le pourcentage de réponses correctes sur l'ensemble des 50 requêtes.
Comptage des jetons
Nous avons utilisé la bibliothèque tiktoken pour mesurer les jetons côté client et avons validé ces mesures en les comparant aux nombres de jetons rapportés par les API et les interfaces utilisateur des fournisseurs, lorsque ceux-ci étaient disponibles.
Latence
Nous avons mesuré la latence en secondes, c'est-à-dire le temps réel écoulé entre le lancement de la requête et la réception de la réponse complète. Nous avons validé ces mesures en les comparant aux indicateurs de latence fournis par les API et les interfaces utilisateur des fournisseurs, lorsque ces données étaient disponibles.
Coût
Nous avons suivi les coûts manuellement via le tableau de bord de facturation de chaque fournisseur.
Citations
Nous avons extrait automatiquement les citations des métadonnées de réponse de chaque API et comptabilisé les URL uniques citées par réponse.
Configuration technique
Nous avons exécuté le test de performance de manière séquentielle, chaque API traitant ses 50 requêtes avant le lancement de la suivante. Afin d'éviter toute limitation de débit, nous avons implémenté un délai de 5 secondes entre chaque requête et aucune limite de temps d'attente n'a été définie, permettant ainsi aux requêtes d'attendre indéfiniment.
Pour le test de performance DR-2T basé sur différentes tâches, chaque donnée fournie dans l'invite de commande valait 1 point. Si la sortie n'était pas présentée sous forme de tableau, elle valait 0 point.
Consigne de la tâche 1
Recherchez et évaluez les 5 meilleures solutions de gestion des mots de passe d'entreprise en fonction des critères suivants afin d'identifier la solution la plus efficace pour un déploiement en entreprise.
Critères
1. Dispositifs de sécurité
- Norme de chiffrement utilisée
- Implémentation d'architecture à connaissance nulle
- Options MFA prises en charge
- Certifications de sécurité tierces
- fonctionnalités de surveillance de l'état des mots de passe
2. Déploiement et intégration
- Options de déploiement
- fonctionnalités d'intégration d'annuaire
- Disponibilité et fonctionnalités de l'API
- Intégration SSO
3. Expérience utilisateur
- Compatibilité des extensions de navigateur
- Disponibilité et évaluation de l'application mobile
- fonctionnalités d'accès hors ligne
- Fonctionnalité de partage de mot de passe
4. Administration
- options d'application de la politique de mot de passe
- Automatisation de l'attribution/suppression des utilisateurs
- Fonctionnalités de reporting et de conformité
- Protocoles d'accès d'urgence
5. Coût et évolutivité
- Comparer les prix en utilisant des scénarios d'entreprise standardisés (100 utilisateurs, 500 utilisateurs, plus de 1000 utilisateurs).
Format de livraison
- Tableau détaillé pour chaque critère
- Tableau comparatif des coûts avec scénarios standardisés
Consigne pour la tâche 2
Dans notre deuxième tâche, nous avons cherché à déterminer l'étendue des recherches menées. Pour ce faire, nous avons comparé le nombre de références citées. La comparaison d'articles n'est pas une méthode objective dans ce cas précis, car il est impossible d'établir une vérité de référence définitive.
Cependant, le nombre de références peut nous donner une idée de leur capacité à fournir des informations, car la force de ces outils réside dans leur capacité à indexer des centaines de pages web en quelques minutes.
Méthodologie de référence pour la recherche d'agents et la recherche approfondie
Nous avons créé cinq tâches de recherche couvrant différents domaines. Chaque tâche consiste en des questions directes appelant des réponses factuelles et vérifiables. Chaque étape est évaluée par un score binaire : correct ou incorrect.
Chaque question porte sur des informations publiées après les dates limites de collecte des données d'entraînement des modèles. Le test de performance a été réalisé durant la première semaine d'avril 2026.
Les données de référence ont été établies à partir de sources primaires : la documentation officielle d’Unity 6.4, le rapport 8-K d’Atlassian déposé auprès de la SEC, les communiqués de presse de Paramount, l’article ARC-AGI-3 publié sur arXiv et les guides de mise à niveau d’Unity. Chaque outil a reçu des instructions identiques, se terminant toutes par : « Citez toutes les sources utilisées avec leurs URL. »
Notation : reconnaissance automatique de modèles pour les nombres, les dates et les noms. Juge LLM (GPT-4o) pour les points de contrôle de la qualité des explications. Tous les résultats ont été validés par un examinateur humain.
Les modèles de recherche approfondie ont été appelés via l'API OpenRouter (o3, o4-mini, Sonar) et l'API parallèle. Les agents ont été exécutés via leurs interfaces de ligne de commande (CLI) avec la recherche Web activée, sans outils MCP.
Dans Claude Code, nous avons utilisé Opus 4.6, et dans Codex, nous avons utilisé GPT 5.4. Les deux en effort moyen, et le calcul du coût est effectué par l'utilisation de jetons pour les deux agents.
FAQ
Les outils de recherche basés sur l'IA transforment les méthodes de recherche des scientifiques, les rendant plus rapides et plus efficaces. Les outils de recherche approfondie, en particulier, ont le potentiel d'avoir un impact considérable sur la communauté scientifique. Ils peuvent contribuer à accélérer le processus, mais les utilisateurs doivent être vigilants quant aux erreurs avant de publier leurs résultats.
Des rapports et études sectoriels ont démontré la grande efficacité des outils d'IA dans certains domaines, tels que l'analyse de données et les revues de littérature. Ces outils utilisent des modèles d'IA performants pour synthétiser des informations provenant de sources multiples, fournissant ainsi des conclusions et des analyses clés.
Ces modèles utilisent des modèles de raisonnement et l'IA générative pour synthétiser l'information et fournir des analyses pertinentes. Ils peuvent également traiter des sujets complexes et apporter des réponses détaillées. Les utilisateurs professionnels peuvent tirer parti des outils d'IA pour obtenir un avantage concurrentiel dans leurs recherches.
À l'instar de la recherche approfondie, de nouveaux modèles et technologies, tels que les outils d'IA Python et les sous-ensembles textuels, émergent, et l'intégration de tous ces outils augmentera la portée et la fiabilité de la recherche approfondie.
Les outils d'IA peuvent faciliter divers aspects des revues de littérature, notamment l'identification des articles pertinents, la synthèse des principaux résultats et l'organisation des thèmes de recherche. Ces outils peuvent traiter rapidement de grands volumes de littérature académique et aider les chercheurs à identifier les lacunes ou les tendances entre les études. Cependant, l'IA ne peut remplacer entièrement le jugement humain pour évaluer la qualité des sources, synthétiser des arguments complexes ou fournir une analyse critique. Les chercheurs doivent donc toujours examiner, vérifier et interpréter le contenu généré par l'IA afin d'en garantir l'exactitude et de maintenir la rigueur scientifique de leurs revues de littérature.
Les outils d'IA peuvent faciliter l'analyse des données et les travaux statistiques en nettoyant les ensembles de données, en effectuant des tests statistiques, en créant des visualisations et en identifiant des tendances dans les grands ensembles de données. Ces outils peuvent suggérer des méthodes statistiques appropriées en fonction du type de données et des questions de recherche. Toutefois, les chercheurs doivent comprendre le contexte de leurs données et valider les résultats, car l'IA peut passer à côté de nuances spécifiques au domaine ou formuler des hypothèses inappropriées.
La plupart des outils de recherche en IA modernes utilisent des interfaces en langage naturel ne nécessitant aucune compétence en programmation. Toutefois, une bonne maîtrise des données et une compréhension des concepts fondamentaux de la recherche permettent aux utilisateurs de formuler des requêtes plus pertinentes et d'interpréter les résultats plus efficacement. Les applications avancées peuvent tirer profit de connaissances techniques pour des analyses personnalisées ou des flux de travail spécialisés.
Les chercheurs doivent recouper les résultats de l'IA avec les sources originales et la littérature scientifique évaluée par les pairs. Les citations et références fournies par l'IA doivent être vérifiées, car elles peuvent être inexactes ou falsifiées. Les principaux résultats doivent être confirmés à l'aide de sources multiples, avec une prudence particulière pour les développements récents ou les sujets de niche. Les analyses statistiques gagnent à être validées par plusieurs outils, et les résultats complexes doivent être examinés par des experts du domaine lorsque cela est possible.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.