Contactez-nous
Aucun résultat trouvé.

Les 20 principaux fabricants de puces IA : NVIDIA et ses concurrents

Cem Dilmegani
Cem Dilmegani
mis à jour le Fév 26, 2026
Consultez notre normes éthiques

D'après notre expérience avec le benchmark GPU cloud d'AIMultiple, réalisé sur 10 modèles de GPU différents dans 4 scénarios distincts, voici les principaux fournisseurs de matériel IA pour les charges de travail des centres de données. Cliquez sur les liens pour découvrir les raisons de chaque sélection :

Plus de 20 fabricants de puces IA par catégorie

Ces fabricants de puces se concentrent sur les puces pour centres de données :

*Les modèles sélectionnés sont basés sur les dernières annonces.

**ACCEL a été développé par des scientifiques chinois en collaboration avec Alibaba et la société chinoise Semiconductor Manufacturing International Corporation (SMIC). 1

Le classement s'effectue par catégorie. Les fournisseurs sont classés selon leur part de marché estimée au sein des trois premières catégories (principal producteur, cloud public, cloud IA public), car les chiffres de vente ou l'utilisation du cloud peuvent être estimés. Les fournisseurs des trois dernières catégories (startup IA, producteur émergent, autres producteurs) sont classés par ordre alphabétique.

5 fournisseurs de puces d'IA mobiles

*Les chips les plus populaires et les plus récentes sont sélectionnées.

Puces IA Edge 5

La demande croissante de traitement à faible latence a stimulé l'innovation dans le domaine des puces d'IA embarquées. Les processeurs de ces puces sont conçus pour effectuer des calculs d'IA localement sur les appareils, sans avoir recours à des solutions basées sur le cloud.

*Il s'agit des valeurs maximales indiquées par les fournisseurs. TOPS signifie téra-opérations par seconde.

Comprendre les architectures des puces d'IA : GPU vs ASIC

Toutes les puces d'IA ne se valent pas. Bien que les fournisseurs mentionnés ci-dessus soient en concurrence sur le même marché, ils utilisent des architectures de puces fondamentalement différentes :

  • Les GPU (processeurs graphiques) sont des processeurs à usage général capables de gérer l'entraînement et l'inférence pour une large gamme de charges de travail en IA. Les références NVIDIA et AMD dominent cette catégorie.
  • Les ASIC (circuits intégrés spécifiques à une application) sont conçus sur mesure pour des tâches spécifiques. Certains prennent en charge à la fois l'entraînement et l'inférence (TPU Google, AWS Trainium), tandis que d'autres ne prennent en charge que l'inférence (Groq LPU, AWS Inferentia).

Point clé :

Tous les ASIC ne sont pas uniquement dédiés à l'inférence. Google TPU, AWS Trainium, Cerebras et SambaNova prennent en charge à la fois l'entraînement et l'inférence, tandis que Groq LPU et AWS Inferentia se concentrent exclusivement sur l'inférence.

Cette distinction est importante pour les acheteurs : les GPU offrent une flexibilité pour différentes charges de travail d’IA, tandis que les ASIC offrent de meilleures performances par watt mais sont plus difficiles à reprogrammer lorsque les architectures des modèles changent.

Selon TrendForce 2 après les taux de croissance des livraisons de serveurs d’IA, les livraisons d’ASIC personnalisés des fournisseurs de cloud devraient augmenter de 44,6 % en 2026, tandis que celles des GPU devraient croître de 16,1 %. Cela témoigne d’une évolution du paysage matériel de l’IA, les hyperscalers investissant de plus en plus dans leurs propres semi-conducteurs.

Quels sont les principaux fabricants de puces d'IA ?

1. NVIDIA

La société NVIDIA conçoit des processeurs graphiques (GPU) pour le secteur du jeu vidéo depuis les années 1990. NVIDIA est un fabricant de puces sans usine qui sous-traite la majeure partie de sa production à TSMC . Ses principales activités sont les suivantes :

Solutions d'IA de bureau

DGX Spark (anciennement Project Digits) est un supercalculateur d'IA de bureau destiné aux ingénieurs en IA et aux data scientists :

  • Le coût devrait avoisiner les 3 000 $.
  • Il a à peu près la même taille qu'un Mac mini et est alimenté par le NVIDIA GB10 Grace Blackwell Superchip avec 128 Go de mémoire.
  • Capable de gérer l'inférence LLM et le réglage fin pour des modèles comportant jusqu'à 200 milliards de paramètres, en tirant parti de NVLink-C2C pour une communication CPU+GPU à haute vitesse.

Solutions pour centres de données

L'entreprise fabrique des puces d'IA basées sur ses architectures Ampere, Hopper et, plus récemment, Blackwell. Grâce à l'essor de l' IA générative , NVIDIA a enregistré d'excellents résultats ces dernières années, atteint une valorisation d'un billion de dollars et consolidé sa position de leader sur les marchés des GPU et du matériel d'IA. Le graphique ci-dessous illustre la croissance du chiffre d'affaires de NVIDIA dans ce segment au fil des ans et son importance croissante en tant que principale source de revenus de l'entreprise.

Les puces NVIDIA sont conçues pour résoudre les problèmes des entreprises dans divers secteurs. Les puces DGX™ A100 et H100 ont été des puces d'IA phares et performantes de Nvidia, conçues pour l'entraînement et l'inférence de l'IA dans les centres de données. 3 NVIDIA ont donné suite à ces demandes avec

  • Puces H200, B300 et GB300
  • Les serveurs HGX, tels que les HGX H200 et HGX B300, intègrent 8 de ces puces.
  • Les séries NVL et GB200 SuperPod combinent encore plus de puces en grands groupes. 4

GPU dans le cloud

Grâce à la force de son offre de centres de données, NVIDIA détient presque un monopole sur le marché de l'IA dans le cloud, la plupart des acteurs du cloud ne proposant que des GPU NVIDIA comme GPU dans le cloud .

NVIDIA a également lancé son offre DGX Cloud , fournissant une infrastructure GPU cloud directement aux entreprises, en contournant les fournisseurs de cloud.

GPU pour les graphismes

La Xbox utilise un chipset co-développé par NVIDIA et Microsoft. Les GPU de NVIDIA destinés aux utilisateurs finaux incluent la série GeForce.

Développements récents

DGX Cloud Lepton

Annoncée le 19 mai 2025 lors du Computex, la plateforme DGX Cloud Lepton de NVIDIA est un marché qui met en relation les développeurs d'IA avec les fournisseurs de cloud GPU de NVIDIA, tels que CoreWeave, Lambda et Crusoe. Elle permet un accès flexible aux ressources GPU pour l'entraînement et l'inférence des modèles d'IA, en s'affranchissant des dépendances vis-à-vis des fournisseurs de cloud traditionnels. Ceci renforce la stratégie cloud de NVIDIA, axée sur les entreprises. 5

NVIDIA Dynamo

Dynamo, annoncé lors de la GTC 2025, est un nouveau framework d'inférence open source conçu pour le déploiement à haut débit et faible latence de modèles d'IA générative dans des environnements distribués. Il permet d'accélérer le traitement des requêtes jusqu'à 30 fois sur Blackwell, comme illustré ci-dessous. Compatible avec des outils populaires tels que PyTorch et TensorRT-LLM, ce framework exploite des innovations comme la désagrégation des étapes d'inférence et la planification dynamique des GPU pour optimiser les performances et réduire les coûts. Disponible sur GitHub pour les développeurs et inclus dans les microservices NIM pour les solutions d'entreprise, Dynamo facilite le déploiement d'IA générative de manière évolutive et économique, des systèmes mono-GPU aux systèmes multi-GPU. 6

Figure 1. NVIDIA Dynamo accélère considérablement les performances des modèles d'IA. Plus précisément, il offre un gain de vitesse de 30x pour le modèle DeepSeek-R1 671B sur la plateforme NVIDIA GB200 NVL72. Il double également les performances du modèle Llama 70B lors de l'utilisation de GPU Hopper. 7

Serveurs RTX PRO et usine d'IA d'entreprise NVIDIA

Annoncés en mai 2025 lors du Computex, les serveurs RTX PRO, équipés de GPU RTX PRO 6000 Blackwell Server Edition, sont conçus pour les environnements d'IA d'entreprise. Ils offrent une accélération universelle pour les applications d'IA, de conception, d'ingénierie et de gestion, prenant en charge des charges de travail telles que l'inférence IA multimodale, l'IA physique et les jumeaux numériques sur la plateforme Omniverse.

La conception validée de l'usine d'IA d'entreprise (réf. 991259_1747), intégrant des serveurs RTX PRO, l'Ethernet Spectrum-X (réf. 991259_1747), des DPU BlueField (réf. 991259_1747) et le logiciel d'IA d'entreprise (réf. 991259_1747), permet à des partenaires comme Cadence, Foxconn et Lilly de déployer une infrastructure d'IA sur site. Cette initiative accélère la transition du secteur informatique, un marché de mille milliards de dollars, vers des usines d'IA accélérées par GPU. 8

DeepSeek

La publication du rapport R1 de DeepSeek a démontré que des modèles de pointe pouvaient être entraînés avec un nombre relativement restreint de GPU. Ceci a entraîné une baisse du cours de l'action de NVIDIA. Bien que cela ne constitue pas un conseil en investissement, cette situation peut être positive pour NVIDIA, car plus la puissance de calcul est utile, plus son utilisation devrait se généraliser (paradoxe de Jevons). 9 ).

Cependant, étant donné que les performances des systèmes GPU sont améliorées plusieurs fois par an grâce aux progrès réalisés dans la conception des puces et l'interconnexion, il serait judicieux pour les acheteurs de ne pas acheter au-delà de leurs besoins annuels, car cela peut conduire à posséder des systèmes obsolètes.

Droits de douane et restrictions à l'exportation

L'entreprise NVIDIA est désormais autorisée à exporter des processeurs d'IA avancés vers le marché chinois, ce qui marque un changement par rapport aux exigences précédentes qui n'imposaient la vente que de versions moins performantes. Cependant, ces exportations se heurtent à de nouveaux obstacles logistiques et financiers : les puces fabriquées à Taïwan doivent désormais transiter par les États-Unis pour des tests effectués par un organisme tiers, ce qui entraîne l'imposition d'un nouveau droit de douane de 25 % au titre de la sécurité nationale.

Malgré le rétablissement de l'accès aux composants haut de gamme, les coûts supplémentaires et la complexité de la chaîne d'approvisionnement continuent d'inciter le gouvernement chinois et l'industrie des semi-conducteurs à développer des alternatives locales compétitives. Bien que les puces chinoises soient actuellement moins performantes que la technologie la plus récente de NVIDIA, ces barrières commerciales garantissent que le développement national demeure une priorité stratégique, ce qui pourrait remettre en cause la domination de NVIDIA sur le marché à l'avenir. 10

Inférence sur la concurrence sur le marché

Alors que NVIDIA domine le marché de l'« entraînement » de l'IA, la concurrence s'intensifie dans le domaine de l'« inférence », c'est-à-dire le déploiement de modèles d'IA pour des tâches concrètes. Des entreprises comme AMD et de nombreuses start-ups, dont Untether AI et Groq, développent des puces visant à fournir des solutions d'inférence plus économiques, en particulier en réduisant la consommation d'énergie.

Les nouvelles techniques d'IA de « raisonnement » exigent une puissance de calcul accrue. NVIDIA estime que le raisonnement favorisera son architecture à long terme et prévoit que le marché de l'inférence finira par surpasser celui de l'entraînement, même si sa part de marché est plus faible. 11

2. AMD

AMD est un fabricant de puces sans usine proposant des produits CPU, GPU et accélérateurs d'IA.

Nvidia a lancé le MI300 pour les charges de travail d'entraînement d'IA en juin 2023 et est en concurrence avec le MI300 pour les parts de marché. De nombreuses startups, instituts de recherche, entreprises et géants de la technologie ont adopté le matériel Nvidia en 2023, car le matériel d'IA de Nvidia est devenu difficile à se procurer en raison de la demande croissante, notamment avec l'essor de l'IA générative déclenché par le lancement de ChatGPT . 12 13 14 15

En 2025, AMD a annoncé l'acquisition d'une équipe talentueuse d'ingénieurs en matériel et logiciel d'IA provenant d'Untether AI, développeur de puces d'inférence IA écoénergétiques pour les fournisseurs de services en périphérie et les centres de données d'entreprise. Cette acquisition renforce les capacités de AMD en matière de compilation IA, de développement de noyaux et de conception de puces, consolidant ainsi sa position sur le marché de l'inférence. Par ailleurs, AMD a acquis la startup de compilation Brium afin d'optimiser les performances IA sur ses GPU Instinct pour centres de données, destinés aux applications d'entreprise. 16

AMD lancera la série MI350 pour remplacer la MI300 et concurrencer la H200 de NVIDIA. AMD affirme que la MI325X, une autre puce récente, offre des performances d'inférence de pointe. 17

AMD travaille également avec des sociétés d'apprentissage automatique comme Hugging Face pour permettre aux data scientists d'utiliser leur matériel plus efficacement. 18

L'écosystème logiciel est crucial, car les performances matérielles dépendent fortement de l'optimisation logicielle. Par exemple, AMD et NVIDIA ont publiquement divergé au sujet de l'évaluation comparative des performances des processeurs H100 et MI300. Le désaccord portait sur le choix du package et du type de calcul en virgule flottante. D'après les derniers tests, il semblerait que le MI300 soit aussi performant, voire plus performant, que le H100 pour l'inférence sur un LLM de 70 octets. 19 20

Logiciel

Alors que le matériel AMD rattrape son retard sur NVIDIA, son logiciel reste à la traîne en termes d'ergonomie. Si CUDA fonctionne immédiatement pour la plupart des tâches, le logiciel AMD nécessite une configuration importante. 21

Écosystème

Tout comme NVIDIA, AMD investit de manière sélective dans les utilisateurs de ses solutions afin de stimuler l'adoption de son matériel. 22

3. Intel

Intel est un acteur majeur du marché des processeurs et bénéficie d'une longue expérience dans le développement de semi-conducteurs. Contrairement à NVIDIA et AMD, Intel utilise sa propre fonderie pour fabriquer ses puces.

Gaudi3 est le dernier processeur accélérateur d'IA de Intel. 23 Cependant, les prévisions de ventes de Intel pour Gaudi3 étaient d'environ 500 millions de dollars pour 2024, ce qui est nettement inférieur aux milliards que AMD prévoit de gagner en 2024.

Intel rencontre des problèmes de gouvernance, comme en témoigne le départ de son PDG, Pat Gelsinger, en décembre 2024. Une part importante des membres du conseil d'administration de Intel manque d'expérience dans la direction opérationnelle d'une entreprise de semi-conducteurs. 24 Suite au départ de son PDG, la stratégie de Intel sur les marchés de l'IA et de la fonderie reste floue.

Quels fournisseurs de cloud public produisent des puces d'IA ?

4. AWS

AWS produit des puces Tranium pour l'entraînement des modèles et des puces Inferentia pour l'inférence. Bien qu'AWS soit le leader du marché du cloud public, l'entreprise a commencé à développer ses propres puces après 1710.

Des centaines de milliers de puces Tranium2 sont utilisées pour former le cluster du projet Rainier, qui alimente les modèles du développeur LLM Anthropic.

5. Google Plateforme Cloud

La puce Cloud TPU (référence 991259_1710) est un accélérateur d'apprentissage automatique conçu spécifiquement pour les produits (référence 991259_1710) tels que Traduction, Photos, Recherche, Assistant et Gmail. Elle est également accessible via le Cloud. (référence 991259_1710) a annoncé les TPU en 2016. 25 La dernière version de Trillium TPU est la 6ème génération. 26

Google a introduit Ironwood. Cette dernière génération est spécialement conçue pour les « modèles de pensée » complexes comme les LLM et les MoE, offrant un traitement parallèle massif (4 614 TFLOPS par puce) et une évolutivité jusqu'à 42,5 exaflops dans des modules de 9 216 puces. 27

Ironwood offre des améliorations significatives par rapport à Trillium, notamment une efficacité énergétique deux fois supérieure, une capacité de mémoire à large bande passante six fois plus importante (192 Go/puce), une bande passante HBM 4,5 fois plus élevée (7,2 To/s/puce) et une vitesse d'interconnexion inter-puces 1,5 fois plus rapide (1,2 Tbit/s). Il intègre également un SparseCore amélioré pour les intégrations de grande taille. Ironwood produit également l'Edge TPU, beaucoup plus compact, pour répondre à différents besoins et est conçu pour être déployé sur des appareils périphériques tels que les smartphones et les objets connectés.

6. Alibaba

Alibaba produit des puces comme la Hangangug 800 pour l'inférence. Cependant, certaines organisations nord-américaines, européennes et australiennes (notamment dans le secteur de la défense) pourraient préférer ne pas utiliser Alibaba Cloud pour des raisons géopolitiques.

7. IBM

IBM a annoncé sa dernière puce d'apprentissage profond, l'unité d'intelligence artificielle (AIU), en 2022. 28 IBM envisage d'utiliser ces puces pour alimenter sa plateforme d'IA générative Watsonx. 29

L'AIU s'appuie sur le processeur Telum (IBM ), qui alimente les capacités de traitement de l'IA des serveurs mainframe Z (IBM). À son lancement, les processeurs Telum étaient notamment utilisés pour la détection des fraudes . 30

Le document IBM a également démontré que la fusion du calcul et de la mémoire pouvait engendrer des gains d'efficacité. Ces résultats ont été obtenus grâce au prototype de processeur North Pole. 31

8. Huawei

Le HiSilicon Ascend 910C de Huawei fait partie de la famille de puces Ascend 910 introduite en 2019.

En raison des sanctions, les laboratoires d'IA en Chine ne peuvent pas acheter les puces les plus récentes et les plus performantes auprès de sociétés américaines comme NVIDIA ou AMD. Par conséquent, ils expérimentent avec l'Ascend 910C.

Le cloud de Huawei héberge des modèles DeepSeek, et un chercheur de DeepSeek affirme qu'il peut atteindre 60 % des performances d'inférence H100 de NVIDIA. 32 33

Quels fournisseurs de services d'IA dans le cloud produisent leurs propres puces ?

Ces fournisseurs ne proposent pas de clouds publics aux capacités aussi complètes que les hyperscalers. Ils offrent des services cloud limités, généralement axés sur l'inférence IA. Nous avons pu souscrire à ces services sans avoir à contacter leurs équipes commerciales.

8. Groq

Groq a été fondée par d'anciens employés de [nom de l'entreprise manquante]. La société représente les LPU, un nouveau modèle d'architecture de puces d'IA, qui vise à simplifier l'adoption de ses systèmes par les entreprises. La startup a déjà levé environ 350 millions de dollars et produit ses premiers modèles, tels que le processeur GroqChip™ et l'accélérateur GroqCard™.

L'entreprise se concentre sur l'inférence LLM et a publié des benchmarks pour Llama-2 70B. 34

Groq a récemment obtenu un important engagement d'investissement de 1,5 milliard de dollars de la part de l'Arabie saoudite afin d'étendre la distribution de ses puces d'IA avancées dans le pays. Cet investissement servira à agrandir le centre de données existant de Groq à Dammam, en Arabie saoudite, construit en partenariat avec Aramco Digital. 35

Au premier trimestre 2024, la société a annoncé que 70 000 développeurs s’étaient inscrits sur sa plateforme cloud et avaient créé 19 000 nouvelles applications. 36

Le 1er mars 2022, Groq a acquis Maxeler, qui propose des solutions de calcul haute performance (HPC) pour les services financiers. 37

9. SambaNova Systèmes

SambaNova Systems a été fondée en 2017 pour développer des systèmes matériels et logiciels haute performance et haute précision destinés aux charges de travail d'IA générative à haut volume. L'entreprise a levé plus de 1,5 milliard de dollars de fonds, dont 350 millions de dollars lors d'un tour de table de série E en février 2026. 38

En février 2026, SambaNova a dévoilé la puce SN50, sa toute dernière unité de données reconfigurable (RDU), revendiquant une vitesse maximale cinq fois supérieure à celle des puces concurrentes et un coût total de possession trois fois inférieur à celui des GPU pour les charges de travail d'IA agentielle. La SN50 offre une puissance de calcul cinq fois supérieure par accélérateur et une bande passante réseau quatre fois supérieure à celle de la génération précédente, la SN40L, et prend en charge une architecture mémoire à trois niveaux pour des modèles comportant plus de 10 000 milliards de paramètres et plus de 10 millions de longueurs de contexte de jetons. 39

SoftBank Corp. sera le premier client à déployer le SN50 au sein de ses centres de données d'IA de nouvelle génération au Japon.

SambaNova a également annoncé une collaboration stratégique pluriannuelle prévue avec Intel pour fournir des solutions d'inférence d'IA, combinant les systèmes de SambaNova avec les processeurs Xeon de Intel, les GPU de Intel et le réseau de Intel pour alimenter une infrastructure d'inférence évolutive comme alternative aux solutions centrées sur le GPU.

Il est important de noter que SambaNova Systems propose également sa plateforme en location aux entreprises via SambaCloud. Cette approche de plateforme d'IA en tant que service facilite l'adoption de leurs systèmes et encourage la réutilisation du matériel dans une optique d'économie circulaire. 40

Quelles sont les principales startups spécialisées dans les puces d'IA ?

Nous souhaitons également vous présenter quelques start-ups du secteur des puces d'IA dont nous entendrons probablement parler plus souvent dans un avenir proche. Bien que ces entreprises soient de création récente, elles ont déjà levé des millions de dollars.

10. Cerebras

Cerebras a été fondée en 2015 et est le seul grand fabricant de puces à se concentrer sur les puces à l'échelle de la plaquette. Les puces à l'échelle de la 41 présentent des avantages en matière de parallélisme par rapport aux GPU, grâce à leur bande passante mémoire plus élevée. Cependant, la conception et la fabrication de telles puces constituent une technologie émergente.

Les puces Cerebras comprennent :

  • WSE-1 avec 1,2 billion de transistors et 400 000 cœurs de traitement.
  • Le WSE-2, doté de 2 600 milliards de transistors et de 850 000 cœurs, a été annoncé en avril 2021. Il exploite le procédé de gravure 7 nm de TSMC.
  • Le WSE-3, doté de 4 billions de transistors et de 900 000 cœurs d'IA, a été annoncé en mars 2024. Il exploite le procédé 5 nm de TSMC. 42

Le système de Celebra est utilisé par des entreprises pharmaceutiques telles qu'AstraZeneca et GlaxoSmithKline, ainsi que par des laboratoires de recherche qui l'utilisent pour leurs simulations. Il cible également les fabricants de modèles de simulation à grande échelle (LLM), car ses puces permettent de réduire les coûts d'inférence pour les modèles de pointe.

Cerebras propose également ses puces sur son cloud aux entreprises.

11. Matrice d

d-Matrix adopte une approche novatrice, abandonnant l'architecture traditionnelle de von Neumann au profit du calcul en mémoire. Bien que cette approche puisse potentiellement résoudre le problème de la goulot d'étranglement entre la mémoire et le calcul, elle reste nouvelle et non encore éprouvée. 43

12. Rébellions

Une start-up basée en Corée a levé 124 millions de dollars en 2024 et se concentre sur l'inférence LLM. 44

Rebellions a fusionné avec une autre entreprise coréenne de conception de semi-conducteurs, SAPEON, et a atteint une valorisation de licorne en 2024. 45

En juillet 2025, Rebellions a obtenu un investissement du géant technologique Samsung dans le cadre d'une levée de fonds visant jusqu'à 200 millions de dollars, en prévision de son introduction en bourse. Depuis sa création en 2020, l'entreprise a levé 220 millions de dollars et collabore avec Samsung pour commercialiser sa puce de deuxième génération, Rebel-Quad (composée de quatre puces Rebel AI), prévue plus tard en 2025, grâce au procédé de fabrication 4 nanomètres de Samsung. 46

13. Tenstorrent

Le tout dernier processeur Blackhole Tensix de Tenstorrent offre une performance de 664 TFLOPS (BLOCKFP8), associée à 32 Go de mémoire GDDR6 et une bande passante mémoire de 512 Go/s.

La carte P150a est proposée à 1 399 $ et dispose de quatre ports QSFP-DD 800G pour une configuration multi-cartes. Le modèle d'entrée de gamme P100a est disponible à partir de 999 $. 47

Tenstorrent propose une suite logicielle entièrement open source. L'entreprise a levé 700 millions de dollars auprès d'investisseurs, dont Jeff Bezos, en décembre 2024, pour une valorisation de plus de 2,6 milliards de dollars. 48

14. Positron

Fondée en 2023, Positron se consacre exclusivement à l'inférence de modèles de type transformeur. L'entreprise privilégie une approche ASIC, concevant du matériel dédié et optimisé spécifiquement pour les architectures de type transformeur plutôt que pour le calcul GPU à usage général.

Produits :

  • Atlas (disponible dès maintenant) : Serveur d'inférence par transformateurs doté de 8 accélérateurs de transformateurs Positron Archer et de 256 Go de mémoire HBM. Le constructeur annonce des performances par watt supérieures à 4 et des performances par dollar supérieures à 3 par rapport aux systèmes Hopper (référence 991259_1747), mesurées sur Llama 3.1 8B avec une puissance de calcul BF16. 49
  • Titan (disponible en 2027) : Un système de nouvelle génération doté de plus de 8 To de mémoire, alimenté par 4 puces personnalisées Asimov, conçu pour prendre en charge jusqu'à 16 billions de modèles de paramètres et plus de 10 millions de fenêtres de contexte de jetons dans un format 4U refroidi par air. 50
  • Asimov (disponible en 2027) : Puce de silicium d’accélération d’inférence personnalisée avec plus de 2 To de mémoire par puce.

Positron a levé plus de 230 millions de dollars lors d'un tour de table de série B début 2026 auprès d'investisseurs tels que QIA, Arm Holdings, Arena et Jump Trading. 51

Atlas est actuellement utilisé par des entreprises des secteurs des réseaux, des jeux vidéo, de la modération de contenu, des CDN et du Token-as-a-Service. Positron affirme que son système Atlas a démontré une latence de bout en bout trois fois inférieure pour les charges de travail d'inférence de trading par rapport aux systèmes H100 comparables, tout en consommant un tiers de l'énergie.

Les puces de Positron sont conçues, fabriquées et assemblées aux États-Unis.

15. _gravé

Leur approche sacrifie la flexibilité à l'efficacité en intégrant l'architecture du transformateur directement dans leurs puces.

L'équipe affirme

  • Sohu a conçu le premier circuit intégré spécifique (ASIC) pour transformateur au monde.
  • Ces 8 puces Sohu peuvent générer plus de 500 000 jetons par seconde. C'est un ordre de grandeur supérieur à ce que peuvent produire 8 puces B200 (NVIDIA).

Actuellement, ces données sont basées sur les mesures internes de l'équipe. Les équipes d'AIMultiple n'ont pas encore trouvé de points de référence ni de références clients. Nous nous interrogeons sur :

  • Que se passe-t-il lorsque le modèle devient obsolète ? Les utilisateurs doivent-ils acheter une nouvelle puce, ou l’ancienne puce peut-elle être reconfigurée avec le modèle suivant ?
  • Comment ont-ils réalisé leur test de performance ? Quelle quantification et quel modèle ont été utilisés ?

Nous mettrons cet article à jour dès que l'équipe _etched publiera plus de détails. Il sera intéressant de voir si la gravure de modèles sur puce sera viable, compte tenu de la sortie de nouveaux modèles tous les quelques mois.

16. Taalas

Taalas a été fondée début 2023 et adopte l'approche la plus extrême en matière de spécialisation des puces d'IA : intégrer directement des modèles individuels dans du silicium personnalisé, produisant ce que l'entreprise appelle des « modèles hardcore ». 52 L’entreprise affirme pouvoir transformer n’importe quel modèle d’IA jamais vu auparavant en silicium personnalisé en deux mois.

L'architecture de Taalas unifie le stockage et le calcul sur une seule puce avec une densité équivalente à celle de la DRAM, éliminant ainsi le besoin de mémoire HBM, d'encapsulation avancée, d'empilement 3D, de refroidissement liquide ou d'E/S à haut débit. L'entreprise décrit cela comme une simplification radicale de la pile matérielle.

Produits :

  • HC1 (disponible dès maintenant) : Démonstrateur technologique intégrant Llama 3.1 8B, gravé en 6 nm par TSMC et doté de 53 milliards de transistors. Taalas annonce un débit de 17 000 jetons par seconde et par utilisateur, soit près de 10 fois plus rapide que les solutions actuelles, pour un coût de fabrication 20 fois inférieur et une consommation énergétique 10 fois moindre dans un serveur de 2,5 kW refroidi par air. Cependant, ce modèle utilise une quantification personnalisée agressive sur 3 et 6 bits, ce qui entraîne une dégradation des performances par rapport aux GPU de référence. 53
  • HC2 (prévu) : Une plateforme de deuxième génération avec une densité plus élevée, une exécution plus rapide et des formats à virgule flottante standard de 4 bits pour remédier aux limitations de quantification de HC1.

Taalas a levé plus de 200 millions de dollars, mais affirme n'avoir dépensé que 30 millions de dollars pour commercialiser son premier produit avec une équipe de 24 personnes.

17. Extropique

Extropic a levé 14 millions de dollars fin 2023 pour exploiter la thermodynamique dans le domaine du calcul. L'entreprise n'a pas encore commercialisé de puce.

18. Vaire

Vaire est une start-up britannique pionnière en informatique réversible, une approche innovante visant à créer des puces à consommation d'énergie quasi nulle. Contrairement à l'informatique traditionnelle, où l'énergie est dissipée sous forme de chaleur, l'informatique réversible recycle une part importante de l'énergie pour les calculs suivants.

Vaire a présenté une puce de test capable de récupérer 50 % de son énergie, démontrant ainsi le potentiel de cette technologie pour réduire la consommation d'énergie des charges de travail d'IA et contourner les limitations physiques, ou barrière thermique, qui constituent un défi pour la fabrication moderne des semi-conducteurs. 54

Quels sont les futurs fabricants de matériel d'IA ?

Bien que ces solutions matérielles d'IA soient prometteuses, il existe actuellement peu de points de repère concernant leur efficacité, car elles sont nouvelles sur le marché.

19. Pomme

Le projet ACDC d'Apple serait axé sur la conception de puces pour l'inférence par intelligence artificielle. 55 Apple est déjà un concepteur majeur de puces avec ses semi-conducteurs conçus en interne et utilisés dans les iPhones, les iPads et les MacBooks.

20. Meta

Meta Training and Inference Accelerator (MTIA) est une famille de processeurs pour les charges de travail d'IA telles que l'entraînement des modèles LLaMa de Meta.

Le dernier modèle est le MTIA de nouvelle génération, basé sur la technologie TSMC 5 nm et qui promet des performances trois fois supérieures à celles du MTIA v1. Le MTIA sera installé dans des racks pouvant contenir jusqu'à 72 accélérateurs. 56

MTIA est actuellement utilisé en interne par Meta. Cependant, si Meta lançait à l'avenir une offre d'IA générative d'entreprise basée sur LLaMa, ces puces pourraient alimenter cette offre.

21. Microsoft Azure

Lors de Hot Chips 2024, Microsoft a dévoilé Maia 100, son premier accélérateur d'IA personnalisé conçu pour optimiser les charges de travail d'IA à grande échelle sur Azure grâce à une co-optimisation matérielle et logicielle. Basé sur le procédé N5 de TSMC et doté de technologies de mémoire et d'interconnexion avancées, Maia 100 cible un débit élevé et la prise en charge de formats de données diversifiés, offrant aux développeurs une grande flexibilité grâce à son SDK pour un déploiement rapide des modèles PyTorch et Triton. Cependant, la puce d'IA de nouvelle génération de Microsoft, nom de code Braga, subit des retards, passant de 2025 à 2026, en raison de modifications de conception, de contraintes de personnel et d'un fort taux de rotation du personnel, ce qui pourrait entraîner un retard en termes d'efficacité énergétique par rapport à la puce Blackwell de Nvidia.

22. OpenAI

OpenAI finalise la conception de sa première puce d'IA avec Broadcom et TSMC, en utilisant la technologie 3 nanomètres de TSMC. L'équipe dirigeante de OpenAI possède une expérience en conception de TPU acquise chez Google, et vise une production en série de sa puce en 2026. 57

Quels sont les autres fabricants de puces IA ?

23. Graphcore

Graphcore est une société britannique fondée en 2016. Elle a annoncé que sa puce phare d'IA s'appelait IPU-POD256. Graphcore a déjà levé environ 700 millions de dollars.

L'entreprise a noué des partenariats stratégiques avec des sociétés de stockage de données telles que DDN, Pure Storage et Vast Data. Les puces d'IA de Graphcore sont utilisées par des instituts de recherche comme l'Oxford-Man Institute of Quantitative Finance, l'Université de Bristol et l'Université de Californie à Berkeley.

La viabilité à long terme de l'entreprise était menacée car elle perdait environ 200 millions de dollars par an. 58 Elle a été rachetée par Softbank pour plus de 600 millions de dollars en octobre 2024. 59

24. Mythique

Fondée en 2012, Mythic se spécialise dans l'IA en périphérie. Mythic adopte une approche non conventionnelle, basée sur une architecture de calcul analogique, visant à fournir une informatique d'IA en périphérie écoénergétique.

Elle a développé des produits tels que le M1076 AMP et la carte-clé MM1076, et a déjà levé environ 165 millions de dollars de fonds. 60

Mythic a licencié la majeure partie de son personnel et restructuré son activité lors de sa levée de fonds de mars 2023. 61

25. Speedata

Fondée en 2019 à Tel Aviv, Speedata développe une unité de traitement analytique (APU) conçue pour accélérer l'analyse des données massives et les charges de travail d'IA. Cette APU cible les charges de travail Apache Spark, avec pour objectif la prise en charge d'autres plateformes majeures d'analyse de données.

Speedata a levé 44 millions de dollars lors d'un tour de table de série B en juin 2025, mené par Walden Catalyst Ventures, 83North et d'autres investisseurs, portant son financement total à 114 millions de dollars. L'entreprise affirme que son APU surpasse les processeurs et GPU à usage général en remplaçant des racks de serveurs par une seule puce, offrant ainsi des performances et une efficacité énergétique supérieures pour le traitement des données. 62

26. Axelera IA

Fondée en juillet 2021 à Eindhoven, aux Pays-Bas, Axelera AI est spécialisée dans les technologies d'accélération matérielle pour l'IA, notamment pour la vision par ordinateur et l'IA générative. L'entreprise développe Titania, un chiplet d'inférence IA basé sur son architecture D-IMC (Digital In-Memory Computing), conçu pour accélérer les charges de travail d'IA du périphérique au cloud.

Axelera AI a obtenu un financement de 61,6 millions d'euros auprès de l'entreprise commune EuroHPC (JU) et des États membres dans le cadre du projet DARE en mars 2025, après une première levée de fonds de série B de 68 millions de dollars. Ce financement porte son total à plus de 200 millions de dollars en trois ans. Axelera AI ambitionne de déployer Titania d'ici 2028 afin de répondre à la demande croissante de solutions d'IA performantes, économiques et durables, en mettant l'accent sur sa capacité à améliorer le débit et l'efficacité par rapport aux solutions cloud traditionnelles. 63

Les partenaires fondeurs et le rôle de TSMC

En tant que premier fondeur mondial spécialisé, TSMC fabrique des semi-conducteurs à partir de conceptions clients plutôt que de créer ses propres puces, ce qui la distingue d'entreprises comme Samsung Foundry et Samsung Foundry Services. Bien que Samsung Foundry et Samsung Foundry Services soient des concurrents dans ce domaine, TSMC conserve une avance technologique.

Ses technologies de pointe en matière de processus, notamment ses nœuds pionniers de 5 nm et 3 nm, offrent la combinaison essentielle de performances et d'efficacité énergétique requise pour les applications d'IA de pointe, comme le montrent ses partenariats de fabrication avec les concepteurs de puces d'IA énumérés ci-dessous :

Plans d'expansion

TSMC recherche des investisseurs parmi Nvidia, Broadcom et Nvidia pour créer une coentreprise chargée de gérer la division fonderie de Nvidia. Ces investisseurs conserveraient le contrôle opérationnel, mais détiendraient moins de 50 % du capital. Cette initiative, soutenue par l'administration Trump, fait suite à l'annonce par TSMC d'un investissement important aux États-Unis et vise à relancer Nvidia et à renforcer la production de puces américaine. L'accord se heurte à des difficultés liées aux différences de procédés, mais s'appuie sur les atouts de TSMC en tant que fonderie de premier plan. 64 65

Quels sont les fabricants de puces d'IA en Chine ?

En raison des sanctions américaines empêchant de nombreuses entreprises chinoises d'acquérir les puces d'IA les plus avancées de AMD et NVIDIA, les acheteurs chinois ont augmenté leurs achats auprès des producteurs locaux.

Outre Huawei et Alibaba, mentionnés ci-dessus, voici les principaux producteurs de puces d'IA en Chine :

  • Cambricon se concentre sur le matériel d'IA et prévoit un chiffre d'affaires d'environ 150 millions de dollars pour son dernier exercice. 66
  • Baidu utilise des puces Kunlun dans son cloud et conçoit actuellement la puce de troisième génération. La Kunlun 2 était comparable à la puce A100 (référence NVIDIA).
  • Biren , fondée par des anciens élèves de NVIDIA, produit des puces GPU BR106 et BR110.
  • Moore Threads produit les GPU MTT S2000.

FAQ

Les puces et les équipements qui permettent leur fabrication constituent les machines les plus complexes jamais conçues par l'homme. Bien que l'écosystème des semi-conducteurs comprenne de nombreuses entreprises, nous nous sommes concentrés dans cet article sur des concepteurs de puces comme NVIDIA.
La plupart des concepteurs de puces sous-traitent leur fabrication à des fonderies comme TSMC. Ces fonderies utilisent des équipements de lithographie produits par des entreprises telles qu'ASML pour fabriquer ces puces. L'écosystème est soutenu par des fournisseurs comme Arm et Synopsys qui proposent des propriétés intellectuelles et des outils de conception.

Comme indiqué précédemment, l'augmentation du nombre de paramètres, de la taille des ensembles de données et de la puissance de calcul a permis d'améliorer la précision des modèles d'IA générative. Pour concevoir de meilleurs modèles d'apprentissage profond et optimiser les applications d'IA générative, les organisations ont besoin d'une puissance de calcul et d'une bande passante mémoire accrues.
Les puces généralistes puissantes (comme les processeurs) ne peuvent pas prendre en charge les modèles d'apprentissage profond hautement parallélisés. Par conséquent, les puces d'IA (par exemple, les GPU) qui permettent des capacités de calcul parallèle sont de plus en plus demandées.
Les géants du cloud réagissent en concevant leurs propres puces, un processus qui prend des années. Les autres acteurs doivent emprunter l'une de ces voies pour développer leurs propres modèles d'IA : louer de la capacité auprès de fournisseurs de GPU cloud ou acheter du matériel auprès des principaux fabricants de puces d'IA mentionnés dans cet article.
Le matériel d'IA est également appelé unités de traitement neuronal (NPU), accélérateurs d'IA ou processeurs d'apprentissage profond (DLP).

Pour en savoir plus

Vous pouvez également consulter notre liste triable d'entreprises travaillant sur des puces d'IA .

Vous pourriez apprécier la lecture de nos articles sur TinyML et le calcul accéléré .

Si vous avez des questions sur la manière dont le matériel d'IA peut aider votre entreprise, nous pouvons vous aider :

Trouvez les bons fournisseurs

Références

Liens de référence

1.
Good News For Alibaba - ACCEL Chip Outshines Nvidia's AI Chips, China Claims - Alibaba Gr Hldgs (NYSE:BAB - Benzinga
Benzinga
2.
ASIC Set to Outpace GPU? NVIDIA’s Scale-Up and Beyond | TrendForce
TrendForce
3.
4.
DGX SuperPOD with DGX GB200 Systems | NVIDIA
5.
Nvidia Pushes Further Into Cloud With GPU Marketplace - WSJ
The Wall Street Journal
6.
NVIDIA Dynamo, A Low-Latency Distributed Inference Framework for Scaling Reasoning AI Models | NVIDIA Technical Blog
NVIDIA Developer
7.
NVIDIA Dynamo, A Low-Latency Distributed Inference Framework for Scaling Reasoning AI Models | NVIDIA Technical Blog
NVIDIA Developer
8.
NVIDIA RTX PRO Servers Speed Trillion-Dollar Enterprise IT Industry Transition to AI Factories | NVIDIA Newsroom
9.
Jevons paradox - Wikipedia
Contributors to Wikimedia projects
10.
Trump imposes 25% tariff on Nvidia AI chips and others, citing national security | Nvidia | The Guardian
The Guardian
11.
Nvidia CEO to defend AI dominance as competition intensifies | Reuters
Reuters
12.
13.
Annonce d'AI2 OLMo, un modèle de langage ouvert conçu par des scientifiques, pour des scientifiques
14.
Training LLMs at Scale with AMD MI250 GPUs | Databricks Blog
15.
Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster – Moreh
16.
Exclusive: AMD Acquires Team Behind AI Chip Startup Untether AI
17.
18.
AMD + 🤗: Large Language Models Out-of-the-Box Acceleration with AMD GPU
Hugging Face
19.
Achieving Top Inference Performance with the NVIDIA H100 Tensor Core GPU and NVIDIA TensorRT-LLM | NVIDIA Technical Blog
NVIDIA Developer
20.
Competitive performance claims and industry leadin... - AMD Community
21.
MI300X vs H100 vs H200 Benchmark Part 1: Training - CUDA Moat Still Alive
SemiAnalysis
22.
Exclusive | AMD Invests in Drug-Discovery Company Absci in Push to Sell AI Chips - WSJ
The Wall Street Journal
23.
Intel Breaks Down Proprietary Walls to Bring Choice to Enterprise GenAI Market - Intel Newsroom
Intel Corporation
24.
The Death of Intel: When Boards Fail - by Doug O'Laughlin
Fabricated Knowledge
25.
Google supercharges machine learning tasks with TPU custom chip | Google Cloud Blog
Google Cloud
26.
Introducing Trillium, sixth-generation TPUs | Google Cloud Blog
Google Cloud
27.
Ironwood: The first Google TPU for the age of inference
Google
28.
29.
30.
31.
32.
Tech war: China’s chip firms embrace DeepSeek in AI self-sufficiency drive | South China Morning Post
South China Morning Post
33.
https://mp.weixin.qq.com/s/ETHwNxWl04mqQt04o0zO8g
34.
35.
AI chip startup Groq secures $1.5 billion commitment from Saudi Arabia | Reuters
Reuters
36.
Real-time AI Inference Demand Accelerates on GroqCloud | Groq is fast, low cost inference.
37.
38.
SambaNova Unveils Fastest Chip for Agentic AI, Collaborates with Intel, and Raises $350M+
SambaNova
39.
Introducing the SN50 RDU: Purpose-Built for Agentic Inference
SambaNova
40.
SambaCloud | Full-Stack AI Platform for Large Open-Source Models
41.
Cerebras - Wikipedia
Contributors to Wikimedia projects
42.
Cerebras Systems Unveils World’s Fastest AI Chip with Whopping 4 Trillion Transistors - Cerebras
43.
https://www.d-matrix.ai/wp-content/uploads/2023/09/d-Matrix-WhitePaper-Approved-w-cover.pdf
44.
45.
Rebellions and SAPEON Korea Sign Definitive Merger Agreement - Rebellions
Rebellions
46.
Samsung backs AI chip startup Rebellions ahead of IPO
CNBC
47.
Blackhole™
48.
Jeff Bezos Is Betting on AI Chip Startup Tenstorrent to Take on Nvidia (NVDA) - Bloomberg
Bloomberg
49.
Positron | About
50.
Positron | About
51.
Positron | About
52.
The path to ubiquitous AI | Taalas
53.
Products | Taalas
54.
A startup working on 'reversible computing' chip for AI says initial tests show a 50% energy savings | Fortune
Fortune
55.
56.
Our next generation Meta Training and Inference Accelerator
57.
Exclusive: OpenAI set to finalize first custom chip design this year  | Reuters
Reuters
58.
59.
Graphcore joins SoftBank Group to build next generation of AI compute
Graphcore
60.
61.
62.
Speedata, a chip startup competing with Nvidia, raises a $44M Series B | TechCrunch
TechCrunch
63.
Eindhoven-based Axelera AI secures €61.6M grant
64.
TSMC shares open lower following announcement of $100 billion investment in US | Reuters
Reuters
65.
Exclusive: TSMC pitched Intel foundry JV to Nvidia, AMD and Broadcom, sources say | Reuters
Reuters
66.
https://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=326
Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Commentaires 2

Partagez vos idées

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450
Dave
Dave
Aug 29, 2022 at 05:49

You forgot to include Tesla with their DOJO supercomputer. From the ground-up, the supercomputer was specifically designed for machine learning and image recognition - which means that every component was designed for it including, but not limited to, PCI board design, CPU, RAM, cooling, power, scalable hardware design and software. If I'm not mistaken, the AI is also the second most widely tested and used in the "wild", just below that of Google due to Google using it in their Search.

Cem Dilmegani
Cem Dilmegani
Sep 06, 2022 at 13:52

Thank you for your feedback, Dave! Here we are only covering companies that sell the chips that they produce. Therefore, companies like Tesla that build supercomputers for their own use or companies that embed chips in their products are out of our scope.

thayyil
thayyil
Mar 19, 2022 at 11:48

surprised that brainchip (akida) missing in this report. any reasons?

Cem Dilmegani
Cem Dilmegani
Nov 18, 2022 at 07:36

All included companies here raised $100+M. Last time we collected the data, that wasn't the case for akida. Why don't you reach out to us at info@aimultiple.com and let's discuss why it should be included. Thank you!