Document. DeepSeek peut égaler les performances du niveau GPT-4 tout en facturant 95 % de moins pour les appels d’API . Les clients de NVIDIA brûlent de l’argent inutilement, les marges doivent baisser considérablement

Jeffrey Emanuel

Jeffrey Emanuel

Ancien investisseur professionnel, ingénieur logiciel et fondateur de YouTube Transcript Optimizer

Pourquoi tout cela est-il si choquant ? Eh bien, tout d’abord, DeepSeek est une petite entreprise chinoise qui compterait moins de 200 employés. L’histoire raconte qu’ils ont commencé comme un fonds spéculatif de trading quantitatif similaire à TwoSigma ou RenTec, mais après que Xi Jinping a réprimé ce secteur, ils ont utilisé leurs compétences en mathématiques et en ingénierie pour se tourner vers la recherche sur l’IA. Qui sait si tout cela est vraiment vrai ou s’il s’agit simplement d’une sorte de façade pour le PCC ou l’armée chinoise. Mais le fait est qu’ils ont publié deux rapports techniques incroyablement détaillés, pour DeepSeek-V3 et DeepSeekR1 .

Ce sont des rapports techniques lourds, et si vous ne connaissez pas beaucoup l’algèbre linéaire, vous ne comprendrez probablement pas grand-chose. Mais ce que vous devriez vraiment essayer, c’est de télécharger l’application gratuite DeepSeek sur l’AppStore ici et de l’installer en utilisant un compte Google pour vous connecter et l’essayer (vous pouvez également l’installer sur Android ici ), ou simplement l’essayer sur votre ordinateur de bureau dans le navigateur ici . Assurez-vous de sélectionner l’option « DeepThink » pour activer la chaîne de pensée (le modèle R1) et demandez-lui d’expliquer certaines parties des rapports techniques en termes simples.

Cela vous montrera simultanément quelques éléments importants :

  • Premièrement, ce modèle est tout à fait légitime. Il y a beaucoup de conneries autour des tests d’IA, qui sont systématiquement manipulés de telle sorte que les modèles semblent très performants lors des tests, mais qu’ils sont nuls lors des tests en conditions réelles. Google est certainement le pire contrevenant à cet égard, se vantant constamment de la qualité de ses LLM, alors qu’ils sont si mauvais dans les tests en conditions réelles qu’ils ne peuvent même pas accomplir de manière fiable les tâches les plus simples possibles, sans parler des tâches de codage difficiles. Ces modèles DeepSeek ne sont pas comme ça : les réponses sont cohérentes, convaincantes et absolument au même niveau que celles d’OpenAI et d’Anthropic.
  • Deuxièmement, DeepSeek a réalisé de profondes avancées non seulement en termes de qualité des modèles, mais surtout en termes d’entraînement des modèles et d’efficacité des inférences. En étant extrêmement proche du matériel et en superposant une poignée d’optimisations distinctes et très intelligentes, DeepSeek a pu entraîner ces modèles incroyables à l’aide de GPU d’une manière considérablement plus efficace. Selon certaines mesures, plus de 45 fois plus efficacement que d’autres modèles de pointe. DeepSeek affirme que le coût total de l’entraînement de DeepSeek-V3 s’élevait à un peu plus de 5 millions de dollars. C’est absolument rien par rapport aux normes d’OpenAI, d’Anthropic, etc., qui dépassaient largement les 100 millions de dollars pour les coûts d’entraînement d’un seul modèle dès 2024.

Comment diable cela a-t-il pu être possible ? Comment cette petite entreprise chinoise a-t-elle pu éclipser complètement tous les cerveaux les plus brillants de nos principaux laboratoires d’IA, qui disposent de 100 fois plus de ressources, d’effectifs, de salaires, de capitaux, de GPU, etc. ? La Chine n’était-elle pas censée être paralysée par la restriction imposée par Biden sur les exportations de GPU ? Eh bien, les détails sont assez techniques, mais nous pouvons au moins les décrire à un niveau élevé. Il se pourrait bien que la relative pauvreté de traitement GPU de DeepSeek ait été l’ingrédient essentiel pour les rendre plus créatifs et intelligents, la nécessité étant mère de l’invention et tout.

L’innovation majeure réside dans leur cadre d’entraînement sophistiqué à précision mixte qui leur permet d’utiliser des nombres à virgule flottante 8 bits (FP8) tout au long du processus d’entraînement. La plupart des laboratoires d’IA occidentaux s’entraînent en utilisant des nombres 32 bits « à précision totale » (cela spécifie essentiellement le nombre de gradations possibles pour décrire la sortie d’un neurone artificiel ; 8 bits dans FP8 vous permettent de stocker une plage de nombres beaucoup plus large que ce à quoi vous pourriez vous attendre – il n’est pas seulement limité à 256 grandeurs différentes de taille égale comme vous le feriez avec des entiers ordinaires, mais utilise plutôt des astuces mathématiques astucieuses pour stocker à la fois des nombres très petits et très grands – bien que naturellement avec moins de précision que ce que vous obtiendriez avec 32 bits). Le principal compromis est que, alors que FP32 peut stocker des nombres avec une précision incroyable sur une plage énorme, FP8 sacrifie une partie de cette précision pour économiser de la mémoire et augmenter les performances, tout en conservant une précision suffisante pour de nombreuses charges de travail d’IA.

DeepSeek a résolu ce problème en développant un système intelligent qui décompose les nombres en petites tuiles pour les activations et en blocs pour les pondérations, et utilise stratégiquement des calculs de haute précision à des points clés du réseau. Contrairement à d’autres laboratoires qui s’entraînent en haute précision puis compressent plus tard (perdant ainsi une certaine qualité dans le processus), l’approche FP8 native de DeepSeek signifie qu’ils obtiennent d’énormes économies de mémoire sans compromettre les performances. Lorsque vous vous entraînez sur des milliers de GPU, cette réduction spectaculaire des besoins en mémoire par GPU se traduit par un besoin global de beaucoup moins de GPU.

Une autre avancée majeure est leur système de prédiction multi-token. La plupart des modèles LLM basés sur Transformer effectuent des inférences en prédisant le prochain token, un token à la fois. DeepSeek a découvert comment prédire plusieurs tokens tout en conservant la qualité que vous obtiendriez d’une prédiction à token unique. Leur approche atteint une précision d’environ 85 à 90 % sur ces prédictions de token supplémentaires, ce qui double efficacement la vitesse d’inférence sans sacrifier beaucoup de qualité. L’astuce est qu’ils conservent la chaîne causale complète des prédictions, de sorte que le modèle ne se contente pas de deviner, il fait des prédictions structurées et contextuelles.

L’un de leurs développements les plus innovants est ce qu’ils appellent Multi-head Latent Attention (MLA). Il s’agit d’une avancée dans la manière dont ils gèrent ce que l’on appelle les indices clé-valeur, qui correspondent essentiellement à la manière dont les jetons individuels sont représentés dans le mécanisme d’attention au sein de l’architecture Transformer. Bien que cela devienne un peu trop avancé en termes techniques, il suffit de dire que ces indices KV sont l’une des principales utilisations de la VRAM pendant le processus de formation et d’inférence, et l’une des raisons pour lesquelles vous devez utiliser des milliers de GPU en même temps pour former ces modèles : chaque GPU dispose d’un maximum de 96 Go de VRAM, et ces indices engloutissent cette mémoire au petit-déjeuner.

Leur système MLA trouve un moyen de stocker une version compressée de ces indices qui capture les informations essentielles tout en utilisant beaucoup moins de mémoire. Le plus intéressant, c’est que cette compression est intégrée directement dans la façon dont le modèle apprend : il ne s’agit pas d’une étape distincte à effectuer, mais directement dans le pipeline de formation de bout en bout. Cela signifie que l’ensemble du mécanisme est « différentiable » et peut être formé directement à l’aide des optimiseurs standard. Tout cela fonctionne parce que ces modèles trouvent en fin de compte des représentations de dimensions bien inférieures des données sous-jacentes que les soi-disant « dimensions ambiantes ». Il est donc inutile de stocker les indices KV complets, même si c’est essentiellement ce que font les autres.

Non seulement vous finissez par gaspiller des tonnes d’espace en stockant bien plus de nombres que nécessaire, ce qui augmente considérablement l’empreinte mémoire et l’efficacité de l’entraînement (encore une fois, en réduisant le nombre de GPU dont vous avez besoin pour entraîner un modèle de classe mondiale), mais cela peut en fait finir par améliorer la qualité du modèle car il peut agir comme un « régularisateur », obligeant le modèle à prêter attention aux éléments vraiment importants au lieu d’utiliser la capacité gaspillée pour s’adapter au bruit dans les données d’entraînement. Ainsi, non seulement vous économisez une tonne de mémoire, mais le modèle peut même être plus performant. Au minimum, vous n’obtenez pas de baisse massive des performances en échange des énormes économies de mémoire, ce qui est généralement le genre de compromis auquel vous êtes confronté lors de l’entraînement de l’IA.

Ils ont également réalisé des progrès majeurs en matière d’efficacité de communication GPU grâce à leur algorithme DualPipe et à des noyaux de communication personnalisés. Ce système superpose intelligemment calcul et communication, en équilibrant soigneusement les ressources GPU entre ces tâches. Ils n’ont besoin que d’environ 20 des multiprocesseurs de streaming (SM) de leurs GPU pour la communication, laissant le reste libre pour le calcul. Le résultat est une utilisation du GPU bien plus élevée que celle obtenue avec les configurations d’entraînement classiques.

Une autre chose très intelligente qu’ils ont faite est d’utiliser ce que l’on appelle une architecture de transformateur à mélange d’experts (MOE), mais avec des innovations clés autour de l’équilibrage de charge. Comme vous le savez peut-être, la taille ou la capacité d’un modèle d’IA est souvent mesurée en termes de nombre de paramètres que le modèle contient. Un paramètre n’est qu’un nombre qui stocke un attribut du modèle ; soit le « poids » ou l’importance d’un neurone artificiel particulier par rapport à un autre, soit l’importance d’un jeton particulier en fonction de son contexte (dans le « mécanisme d’attention »), etc.

Les derniers modèles Llama3 de Meta sont disponibles en plusieurs tailles, par exemple : une version à 1 milliard de paramètres (la plus petite), un modèle à 70 milliards de paramètres (le plus couramment déployé) et même un modèle massif à 405 milliards de paramètres. Ce plus grand modèle est d’une utilité limitée pour la plupart des utilisateurs, car il faudrait disposer de plusieurs dizaines de milliers de dollars de GPU dans votre ordinateur pour qu’il fonctionne à des vitesses tolérables pour l’inférence, du moins si vous le déployiez dans la version naïve de précision totale. Par conséquent, la plupart des utilisations et de l’enthousiasme du monde réel autour de ces modèles open source se situent au niveau des paramètres 8 milliards ou 70 milliards hautement quantifiés, car c’est ce qui peut tenir dans un GPU Nvidia 4090 grand public, que vous pouvez acheter maintenant pour moins de 1 000 dollars.

Alors pourquoi tout cela est-il important ? Eh bien, dans un sens, le nombre de paramètres et leur précision vous renseignent sur la quantité d’informations brutes ou de données que le modèle a stockées en interne. Notez que je ne parle pas de la capacité de raisonnement, ou du « QI » du modèle si vous voulez : il s’avère que les modèles avec même un nombre de paramètres étonnamment modeste peuvent montrer des performances cognitives remarquables lorsqu’il s’agit de résoudre des problèmes logiques complexes, de prouver des théorèmes en géométrie plane, des problèmes de mathématiques SAT, etc.

Mais ces petits modèles ne seront pas forcément capables de vous raconter tous les aspects de chaque rebondissement de l’intrigue de chaque roman de Stendhal, alors que les très grands modèles peuvent potentiellement le faire. Le « coût » de ce niveau de connaissance extrême est que les modèles deviennent très difficiles à manier, à la fois pour l’entraînement et pour les inférences, car il faut toujours stocker chacun de ces 405B paramètres (ou quel que soit le nombre de paramètres) dans la VRAM du GPU en même temps afin de pouvoir faire des inférences avec le modèle.

L’avantage de l’approche du modèle MOE est que vous pouvez décomposer le grand modèle en une collection de modèles plus petits qui connaissent chacun des éléments de connaissances différents et non superposés (au moins entièrement). L’innovation de DeepSeek a consisté à développer ce qu’ils appellent une stratégie d’équilibrage de charge « sans perte auxiliaire » qui maintient une utilisation efficace des experts sans la dégradation habituelle des performances qui découle de l’équilibrage de charge. Ensuite, en fonction de la nature de la demande d’inférence, vous pouvez acheminer intelligemment l’inférence vers les modèles « experts » au sein de cette collection de modèles plus petits qui sont les plus à même de répondre à cette question ou de résoudre cette tâche.

On peut le considérer comme un comité d’experts ayant chacun leur domaine de connaissances spécialisé : l’un peut être un expert juridique, l’autre un expert en informatique, l’autre un expert en stratégie d’entreprise. Ainsi, si une question est posée sur l’algèbre linéaire, vous ne la posez pas à l’expert juridique. Il s’agit bien sûr d’une analogie très vague et cela ne fonctionne pas comme cela dans la pratique.

Le véritable avantage de cette approche est qu’elle permet au modèle de contenir une énorme quantité de connaissances sans être trop difficile à gérer, car même si le nombre total de paramètres est élevé pour tous les experts, seul un petit sous-ensemble de ces paramètres est « actif » à un moment donné, ce qui signifie que vous n’avez besoin de stocker que ce petit sous-ensemble de pondérations dans la VRAM pour faire des inférences. Dans le cas de DeepSeek-V3, ils ont un modèle MOE absolument énorme avec 671 B de paramètres , donc beaucoup plus grand que même le plus grand modèle Llama3, mais seulement 37 B de ces paramètres sont actifs à un moment donné, soit suffisamment pour tenir dans la VRAM de deux GPU Nvidia 4090 grand public (coût total inférieur à 2 000 $), plutôt que de nécessiter un ou plusieurs GPU H100 qui coûtent environ 40 000 $ chacun.

Il se murmure que ChatGPT et Claude utilisent tous deux une architecture MoE, certaines fuites suggérant que GPT-4 avait un total de 1,8 billion de paramètres répartis sur 8 modèles contenant chacun 220 milliards de paramètres. Bien que cela soit beaucoup plus faisable que d’essayer de faire tenir les 1,8 billion de paramètres dans la VRAM, il faut toujours plusieurs GPU de qualité H100 pour exécuter le modèle en raison de l’énorme quantité de mémoire utilisée.

Au-delà de ce qui a déjà été décrit, les articles techniques mentionnent plusieurs autres optimisations clés. Il s’agit notamment de leur cadre de formation extrêmement efficace en termes de mémoire qui évite le parallélisme des tenseurs, recalcule certaines opérations pendant la rétropropagation au lieu de les stocker et partage les paramètres entre le modèle principal et les modules de prédiction auxiliaires. La somme totale de toutes ces innovations, une fois superposées, a conduit aux chiffres d’amélioration de l’efficacité d’environ 45x qui ont été avancés en ligne, et je suis parfaitement disposé à croire que ces chiffres sont dans la bonne fourchette.

Un indicateur très fort de la véracité de cette affirmation est le coût de l’API de DeepSeek : malgré ces performances de modèle presque les meilleures de sa catégorie, DeepSeek facture environ 95 % de moins pour les demandes d’inférence via son API que les modèles comparables d’OpenAI et d’Anthropic. Dans un sens, c’est un peu comme comparer les GPU de Nvidia aux nouvelles puces personnalisées des concurrents : même s’ils ne sont pas aussi bons, le rapport qualité-prix est tellement meilleur que cela peut toujours être une évidence en fonction de l’application, à condition que vous puissiez qualifier le niveau de performance et prouver qu’il est suffisamment bon pour vos besoins et que la disponibilité et la latence de l’API sont suffisamment bonnes (jusqu’à présent, les gens ont été étonnés de la façon dont l’ infrastructure de DeepSeek a résisté malgré l’augmentation vraiment incroyable de la demande due aux performances de ces nouveaux modèles).

Mais contrairement au cas de Nvidia, où l’écart de coût résulte du fait qu’ils gagnent des marges brutes de monopole de plus de 90 % sur leurs produits de centre de données, l’écart de coût de l’API DeepSeek par rapport aux API OpenAI et Anthropic pourrait simplement être dû au fait qu’elles sont presque 50 fois plus efficaces en termes de calcul (et pourraient même être nettement plus élevées du côté de l’inférence – l’efficacité d’environ 45 fois était du côté de la formation). En fait, il n’est même pas certain qu’OpenAI et Anthropic réalisent de grandes marges sur leurs services API – ils pourraient être plus intéressés par la croissance des revenus et la collecte de plus de données en analysant toutes les demandes d’API qu’ils reçoivent.

Avant de poursuivre, je serais négligent si je ne mentionnais pas que de nombreuses personnes spéculent que DeepSeek ment tout simplement sur le nombre de GPU et d’heures GPU passées à entraîner ces modèles parce qu’ils possèdent en réalité beaucoup plus de H100 qu’ils ne sont censés en avoir compte tenu des restrictions d’exportation sur ces cartes, et ils ne veulent pas se causer de problèmes ni nuire à leurs chances d’acquérir davantage de ces cartes. Bien que cela soit certainement possible, je pense qu’il est plus probable qu’ils disent la vérité et qu’ils aient simplement pu obtenir ces résultats incroyables en étant extrêmement intelligents et créatifs dans leur approche de l’entraînement et de l’inférence. Ils expliquent comment ils font les choses, et je soupçonne que ce n’est qu’une question de temps avant que leurs résultats soient largement reproduits et confirmés par d’autres chercheurs dans divers autres laboratoires.

Un modèle qui peut vraiment réfléchir

Le nouveau modèle R1 et le rapport technique pourraient même être encore plus époustouflants, car ils ont réussi à battre Anthropic contre Chain-of-thought et sont désormais pratiquement les seuls, en dehors d’OpenAI, à avoir fait fonctionner cette technologie à grande échelle. Mais notez que le modèle d’aperçu O1 n’a été publié par OpenAI qu’à la mi-septembre 2024. C’était il y a seulement environ 4 mois ! Il faut absolument garder à l’esprit que, contrairement à OpenAI, qui est incroyablement secret sur le fonctionnement réel de ces modèles à un niveau bas et ne divulgue pas les poids réels des modèles à quiconque en dehors de partenaires comme Microsoft et d’autres qui signent des NDA très stricts, ces modèles DeepSeek sont à la fois entièrement open source et sous licence permissive. Ils ont publié des rapports techniques extrêmement détaillés expliquant leur fonctionnement, ainsi que le code que tout le monde peut consulter et essayer de copier.

Avec R1, DeepSeek a réussi à percer l’un des Saints Graals de l’IA : faire raisonner les modèles étape par étape sans s’appuyer sur des ensembles de données supervisés massifs. Leur expérience DeepSeek-R1-Zero a montré quelque chose de remarquable : en utilisant l’apprentissage par renforcement pur avec des fonctions de récompense soigneusement élaborées, ils ont réussi à faire en sorte que les modèles développent des capacités de raisonnement sophistiquées de manière totalement autonome. Il ne s’agissait pas seulement de résoudre des problèmes : le modèle a appris de manière organique à générer de longues chaînes de pensée, à auto-vérifier son travail et à allouer plus de temps de calcul à des problèmes plus difficiles.

L’avancée technique ici a été leur approche novatrice de la modélisation des récompenses. Plutôt que d’utiliser des modèles de récompense neuronaux complexes qui peuvent conduire à un « hacking de récompense » (où le modèle trouve des moyens bidons pour augmenter ses récompenses qui ne conduisent pas réellement à de meilleures performances du modèle dans le monde réel), ils ont développé un système intelligent basé sur des règles qui combine des récompenses d’exactitude (vérification des réponses finales) avec des récompenses de format (encouragement à la réflexion structurée). Cette approche plus simple s’est avérée plus robuste et évolutive que les modèles de récompense basés sur les processus que d’autres ont essayés.

Ce qui est particulièrement fascinant, c’est que pendant la formation, ils ont observé ce qu’ils ont appelé un « moment aha », une phase où le modèle a spontanément appris à réviser son processus de réflexion en cours de route lorsqu’il est confronté à une incertitude. Ce comportement émergent n’était pas explicitement programmé ; il est né naturellement de l’interaction entre le modèle et l’environnement d’apprentissage par renforcement. Le modèle s’arrêtait littéralement, signalait des problèmes potentiels dans son raisonnement et recommençait avec une approche différente, tout cela sans avoir été explicitement formé à le faire.

Le modèle R1 complet s’est appuyé sur ces informations en introduisant ce qu’ils appellent des données « de démarrage à froid » (un petit ensemble d’exemples de haute qualité) avant d’appliquer leurs techniques de RL. Ils ont également résolu l’un des principaux défis des modèles de raisonnement : la cohérence du langage. Les tentatives précédentes de raisonnement par chaîne de pensée aboutissaient souvent à des modèles mélangeant les langages ou produisant des résultats incohérents. DeepSeek a résolu ce problème grâce à une récompense intelligente de cohérence du langage pendant l’entraînement RL, en échange d’une petite baisse de performances contre des résultats beaucoup plus lisibles et cohérents.

Les résultats sont époustouflants : lors de l’AIME 2024, l’une des compétitions de mathématiques les plus difficiles au lycée, R1 a atteint une précision de 79,8 %, ce qui correspond au modèle O1 d’OpenAI. Sur MATH-500, il a atteint 97,3 % et a atteint le 96,3e percentile sur les compétitions de programmation Codeforces. Mais le plus impressionnant est peut-être qu’ils ont réussi à distiller ces capacités dans des modèles beaucoup plus petits : leur version à 14 B paramètres surpasse de nombreux modèles plusieurs fois plus grands, ce qui suggère que la capacité de raisonnement ne dépend pas seulement du nombre de paramètres bruts, mais aussi de la façon dont vous entraînez le modèle à traiter les informations.

Les retombées

Les rumeurs récentes sur Twitter et Blind (un site de rumeurs d’entreprise) indiquent que ces modèles ont complètement pris Meta au dépourvu et qu’ils sont plus performants que les nouveaux modèles Llama4 qui sont toujours en cours de formation. Apparemment, le projet Llama au sein de Meta a attiré beaucoup d’attention en interne de la part de cadres techniques de haut rang, et en conséquence, ils ont quelque chose comme 13 personnes travaillant sur le projet Llama qui gagnent chacune individuellement plus par an en rémunération totale que le coût de formation combiné des modèles DeepSeek-V3 qui le surpassent. Comment expliquez-vous cela à Zuck sans sourciller ? Comment Zuck continue-t-il à sourire tout en dépensant plusieurs milliards de dollars à Nvidia pour acheter 100 000 H100 alors qu’un meilleur modèle a été formé en utilisant seulement 2 000 H100 pour un peu plus de 5 millions de dollars ?

Mais vous pouvez être sûr que Meta et tous les autres grands laboratoires d’IA analysent ces modèles DeepSeek, étudient chaque mot de ces rapports techniques et chaque ligne du code open source qu’ils ont publié, essayant désespérément d’intégrer ces mêmes astuces et optimisations dans leurs propres pipelines de formation et d’inférence. Alors, quel est l’impact de tout cela ? Eh bien, naïvement, il semble que la demande globale de calculs de formation et d’inférence devrait être divisée par un grand nombre. Peut-être pas par 45, mais peut-être par 25 ou même 30 ? Parce que tout ce dont vous pensiez avoir besoin avant la sortie de ces modèles est désormais bien moindre.

Un optimiste pourrait dire : « Vous parlez d’une simple constante de proportionnalité, d’un simple multiple. Lorsque vous avez affaire à une courbe de croissance exponentielle, ces choses disparaissent si rapidement que cela n’a finalement pas beaucoup d’importance. » Et il y a une part de vérité dans cela : si l’IA est vraiment aussi transformatrice que je l’espère, si l’utilité de cette technologie dans le monde réel se mesure en milliers de milliards, si le calcul en temps réel est la nouvelle loi d’échelle du pays, si nous allons avoir des armées de robots humanoïdes qui courent partout en effectuant constamment des quantités massives d’inférences, alors peut-être que la courbe de croissance est encore si raide et extrême, et que Nvidia a une avance suffisamment importante pour que cela fonctionne quand même.

Mais Nvidia intègre beaucoup de bonnes nouvelles dans les années à venir pour que cette valorisation ait du sens, et lorsque vous commencez à superposer tous ces éléments pour former une mosaïque totale, cela commence à me mettre extrêmement mal à l’aise à l’idée de dépenser environ 20 fois le chiffre d’affaires estimé pour 2025 pour leurs actions. Que se passe-t-il si vous constatez une légère modération de la croissance des ventes ? Et si elle s’avère être de 85 % au lieu de plus de 100 % ? Et si les marges brutes passent de 75 % à 70 %, ce qui reste ridiculement élevé pour une entreprise de semi-conducteurs ?

Pour conclure

NVIDIA fait face à une convergence sans précédent de menaces concurrentielles qui rendent sa valorisation de plus en plus difficile à justifier, avec 20 fois les ventes à terme et 75 % de marge brute. Les prétendues marges bénéficiaires de l’entreprise en matière de matériel, de logiciels et d’efficacité commencent à montrer des fissures inquiétantes. Le monde entier, des milliers de personnes parmi les plus intelligentes de la planète, soutenues par des milliards de dollars de ressources en capital, tentent de les attaquer de toutes parts.

Sur le plan matériel, les architectures innovantes de Cerebras et Groq démontrent que l’avantage d’interconnexion de NVIDIA, pierre angulaire de sa domination dans les centres de données, peut être contourné par des refontes radicales. Les puces à l’échelle des wafers de Cerebras et l’approche de calcul déterministe de Groq offrent des performances convaincantes sans avoir besoin des solutions d’interconnexion complexes de NVIDIA. Plus traditionnellement, tous les grands clients de NVIDIA (Google, Amazon, Microsoft, Meta, Apple) développent des puces personnalisées qui pourraient grignoter les revenus à marge élevée des centres de données. Il ne s’agit plus de projets expérimentaux : Amazon à elle seule construit une infrastructure massive avec plus de 400 000 puces personnalisées pour Anthropic.

Le fossé logiciel semble tout aussi vulnérable. De nouveaux frameworks de haut niveau comme MLX, Triton et JAX font abstraction de l’importance de CUDA, tandis que les efforts visant à améliorer les pilotes AMD pourraient ouvrir la voie à des alternatives matérielles beaucoup moins coûteuses. La tendance vers des abstractions de plus haut niveau reflète la façon dont le langage assembleur a cédé la place au C/C++, ce qui suggère que la domination de CUDA pourrait être plus temporaire que prévu. Plus important encore, nous assistons à l’émergence d’une traduction de code basée sur LLM qui pourrait automatiquement porter le code CUDA pour qu’il s’exécute sur n’importe quelle cible matérielle, éliminant potentiellement l’un des effets de verrouillage les plus forts de NVIDIA.

Le plus dévastateur est peut-être la récente percée de DeepSeek en matière d’efficacité, qui permet d’atteindre des performances de modèle comparables pour environ 1/45e du coût de calcul. Cela suggère que l’ensemble du secteur a massivement surprovisionné les ressources de calcul. Combinée à l’émergence d’architectures d’inférence plus efficaces grâce aux modèles de chaîne de pensée, la demande globale de calcul pourrait être considérablement inférieure aux projections actuelles. Les aspects économiques sont ici convaincants : lorsque DeepSeek peut égaler les performances du niveau GPT-4 tout en facturant 95 % de moins pour les appels d’API, cela suggère que soit les clients de NVIDIA brûlent de l’argent inutilement, soit les marges doivent baisser considérablement.

Le fait que TSMC fabrique des puces compétitives pour tout client bien financé limite naturellement les avantages architecturaux de NVIDIA. Mais plus fondamentalement, l’histoire montre que les marchés finissent par trouver un moyen de contourner les goulots d’étranglement artificiels qui génèrent des profits supranormaux. Si l’on considère ces menaces, il semble que NVIDIA soit confrontée à un chemin beaucoup plus difficile pour maintenir sa trajectoire de croissance et ses marges actuelles que ne le suggère sa valorisation. Avec cinq vecteurs d’attaque distincts (innovation architecturale, intégration verticale des clients, abstraction logicielle, percées en matière d’efficacité et démocratisation de la fabrication), la probabilité qu’au moins l’un d’entre eux parvienne à avoir un impact significatif sur les marges ou le taux de croissance de NVIDIA semble élevée. Aux valorisations actuelles, le marché n’intègre aucun de ces risques.

L’événement le plus choquant auquel nous avons fait allusion plus tôt s’est produit au cours des deux dernières semaines. Il s’agit de la nouvelle qui a complètement ébranlé le monde de l’IA et qui a dominé le discours des personnes bien informées sur Twitter malgré son absence totale dans les médias grand public : une petite start-up chinoise appelée DeepSeek a publié deux nouveaux modèles qui ont des niveaux de performance fondamentalement compétitifs au niveau mondial, à égalité avec les meilleurs modèles d’OpenAI et d’Anthropic (surpassant les modèles Meta Llama3 et d’autres acteurs de modèles open source plus petits tels que Mistral).

Ces modèles sont appelés DeepSeek-V3 (en gros leur réponse à GPT-4o et Claude3.5 Sonnet) et DeepSeek-R1 (en gros leur réponse au modèle O1 d’OpenAI).

Pourquoi tout cela est-il si choquant ?

Eh bien, tout d’abord, DeepSeek est une petite entreprise chinoise qui compterait moins de 200 employés. L’histoire raconte qu’ils ont commencé comme un fonds spéculatif de trading quantitatif similaire à TwoSigma ou RenTec, mais après que Xi Jinping a réprimé ce secteur, ils ont utilisé leurs compétences en mathématiques et en ingénierie pour se tourner vers la recherche sur l’IA. Qui sait si tout cela est vraiment vrai ou s’il s’agit simplement d’une sorte de façade pour le PCC ou l’armée chinoise. Mais le fait est qu’ils ont publié deux rapports techniques incroyablement détaillés, pour DeepSeek-V3 et DeepSeekR1 .

Ce sont des rapports techniques lourds, et si vous ne connaissez pas beaucoup l’algèbre linéaire, vous ne comprendrez probablement pas grand-chose. Mais ce que vous devriez vraiment essayer, c’est de télécharger l’application gratuite DeepSeek sur l’AppStore ici et de l’installer en utilisant un compte Google pour vous connecter et l’essayer (vous pouvez également l’installer sur Android ici ), ou simplement l’essayer sur votre ordinateur de bureau dans le navigateur ici . Assurez-vous de sélectionner l’option « DeepThink » pour activer la chaîne de pensée (le modèle R1) et demandez-lui d’expliquer certaines parties des rapports techniques en termes simples.

Cela vous montrera simultanément quelques éléments importants :

  • Premièrement, ce modèle est tout à fait légitime. Il y a beaucoup de conneries autour des tests d’IA, qui sont systématiquement manipulés de telle sorte que les modèles semblent très performants lors des tests, mais qu’ils sont nuls lors des tests en conditions réelles. Google est certainement le pire contrevenant à cet égard, se vantant constamment de la qualité de ses LLM, alors qu’ils sont si mauvais dans les tests en conditions réelles qu’ils ne peuvent même pas accomplir de manière fiable les tâches les plus simples possibles, sans parler des tâches de codage difficiles. Ces modèles DeepSeek ne sont pas comme ça : les réponses sont cohérentes, convaincantes et absolument au même niveau que celles d’OpenAI et d’Anthropic.
  • Deuxièmement, DeepSeek a réalisé de profondes avancées non seulement en termes de qualité des modèles, mais surtout en termes d’entraînement des modèles et d’efficacité des inférences. En étant extrêmement proche du matériel et en superposant une poignée d’optimisations distinctes et très intelligentes, DeepSeek a pu entraîner ces modèles incroyables à l’aide de GPU d’une manière considérablement plus efficace. Selon certaines mesures, plus de 45 fois plus efficacement que d’autres modèles de pointe. DeepSeek affirme que le coût total de l’entraînement de DeepSeek-V3 s’élevait à un peu plus de 5 millions de dollars. C’est absolument rien par rapport aux normes d’OpenAI, d’Anthropic, etc., qui dépassaient largement les 100 millions de dollars pour les coûts d’entraînement d’un seul modèle dès 2024.

Comment diable cela a-t-il pu être possible ? Comment cette petite entreprise chinoise a-t-elle pu éclipser complètement tous les cerveaux les plus brillants de nos principaux laboratoires d’IA, qui disposent de 100 fois plus de ressources, d’effectifs, de salaires, de capitaux, de GPU, etc. ? La Chine n’était-elle pas censée être paralysée par la restriction imposée par Biden sur les exportations de GPU ? Eh bien, les détails sont assez techniques, mais nous pouvons au moins les décrire à un niveau élevé. Il se pourrait bien que la relative pauvreté de traitement GPU de DeepSeek ait été l’ingrédient essentiel pour les rendre plus créatifs et intelligents, la nécessité étant mère de l’invention et tout.

L’innovation majeure réside dans leur cadre d’entraînement sophistiqué à précision mixte qui leur permet d’utiliser des nombres à virgule flottante 8 bits (FP8) tout au long du processus d’entraînement. La plupart des laboratoires d’IA occidentaux s’entraînent en utilisant des nombres 32 bits « à précision totale » (cela spécifie essentiellement le nombre de gradations possibles pour décrire la sortie d’un neurone artificiel ; 8 bits dans FP8 vous permettent de stocker une plage de nombres beaucoup plus large que ce à quoi vous pourriez vous attendre – il n’est pas seulement limité à 256 grandeurs différentes de taille égale comme vous le feriez avec des entiers ordinaires, mais utilise plutôt des astuces mathématiques astucieuses pour stocker à la fois des nombres très petits et très grands – bien que naturellement avec moins de précision que ce que vous obtiendriez avec 32 bits). Le principal compromis est que, alors que FP32 peut stocker des nombres avec une précision incroyable sur une plage énorme, FP8 sacrifie une partie de cette précision pour économiser de la mémoire et augmenter les performances, tout en conservant une précision suffisante pour de nombreuses charges de travail d’IA.

DeepSeek a résolu ce problème en développant un système intelligent qui décompose les nombres en petites tuiles pour les activations et en blocs pour les pondérations, et utilise stratégiquement des calculs de haute précision à des points clés du réseau. Contrairement à d’autres laboratoires qui s’entraînent en haute précision puis compressent plus tard (perdant ainsi une certaine qualité dans le processus), l’approche FP8 native de DeepSeek signifie qu’ils obtiennent d’énormes économies de mémoire sans compromettre les performances. Lorsque vous vous entraînez sur des milliers de GPU, cette réduction spectaculaire des besoins en mémoire par GPU se traduit par un besoin global de beaucoup moins de GPU.

Une autre avancée majeure est leur système de prédiction multi-token. La plupart des modèles LLM basés sur Transformer effectuent des inférences en prédisant le prochain token, un token à la fois. DeepSeek a découvert comment prédire plusieurs tokens tout en conservant la qualité que vous obtiendriez d’une prédiction à token unique. Leur approche atteint une précision d’environ 85 à 90 % sur ces prédictions de token supplémentaires, ce qui double efficacement la vitesse d’inférence sans sacrifier beaucoup de qualité. L’astuce est qu’ils conservent la chaîne causale complète des prédictions, de sorte que le modèle ne se contente pas de deviner, il fait des prédictions structurées et contextuelles.

L’un de leurs développements les plus innovants est ce qu’ils appellent Multi-head Latent Attention (MLA). Il s’agit d’une avancée dans la manière dont ils gèrent ce que l’on appelle les indices clé-valeur, qui correspondent essentiellement à la manière dont les jetons individuels sont représentés dans le mécanisme d’attention au sein de l’architecture Transformer. Bien que cela devienne un peu trop avancé en termes techniques, il suffit de dire que ces indices KV sont l’une des principales utilisations de la VRAM pendant le processus de formation et d’inférence, et l’une des raisons pour lesquelles vous devez utiliser des milliers de GPU en même temps pour former ces modèles : chaque GPU dispose d’un maximum de 96 Go de VRAM, et ces indices engloutissent cette mémoire au petit-déjeuner.

Leur système MLA trouve un moyen de stocker une version compressée de ces indices qui capture les informations essentielles tout en utilisant beaucoup moins de mémoire. Le plus intéressant, c’est que cette compression est intégrée directement dans la façon dont le modèle apprend : il ne s’agit pas d’une étape distincte à effectuer, mais directement dans le pipeline de formation de bout en bout. Cela signifie que l’ensemble du mécanisme est « différentiable » et peut être formé directement à l’aide des optimiseurs standard. Tout cela fonctionne parce que ces modèles trouvent en fin de compte des représentations de dimensions bien inférieures des données sous-jacentes que les soi-disant « dimensions ambiantes ». Il est donc inutile de stocker les indices KV complets, même si c’est essentiellement ce que font les autres.

Non seulement vous finissez par gaspiller des tonnes d’espace en stockant bien plus de nombres que nécessaire, ce qui augmente considérablement l’empreinte mémoire et l’efficacité de l’entraînement (encore une fois, en réduisant le nombre de GPU dont vous avez besoin pour entraîner un modèle de classe mondiale), mais cela peut en fait finir par améliorer la qualité du modèle car il peut agir comme un « régularisateur », obligeant le modèle à prêter attention aux éléments vraiment importants au lieu d’utiliser la capacité gaspillée pour s’adapter au bruit dans les données d’entraînement. Ainsi, non seulement vous économisez une tonne de mémoire, mais le modèle peut même être plus performant. Au minimum, vous n’obtenez pas de baisse massive des performances en échange des énormes économies de mémoire, ce qui est généralement le genre de compromis auquel vous êtes confronté lors de l’entraînement de l’IA.

Ils ont également réalisé des progrès majeurs en matière d’efficacité de communication GPU grâce à leur algorithme DualPipe et à des noyaux de communication personnalisés. Ce système superpose intelligemment calcul et communication, en équilibrant soigneusement les ressources GPU entre ces tâches. Ils n’ont besoin que d’environ 20 des multiprocesseurs de streaming (SM) de leurs GPU pour la communication, laissant le reste libre pour le calcul. Le résultat est une utilisation du GPU bien plus élevée que celle obtenue avec les configurations d’entraînement classiques.

Une autre chose très intelligente qu’ils ont faite est d’utiliser ce que l’on appelle une architecture de transformateur à mélange d’experts (MOE), mais avec des innovations clés autour de l’équilibrage de charge. Comme vous le savez peut-être, la taille ou la capacité d’un modèle d’IA est souvent mesurée en termes de nombre de paramètres que le modèle contient. Un paramètre n’est qu’un nombre qui stocke un attribut du modèle ; soit le « poids » ou l’importance d’un neurone artificiel particulier par rapport à un autre, soit l’importance d’un jeton particulier en fonction de son contexte (dans le « mécanisme d’attention »), etc.

Les derniers modèles Llama3 de Meta sont disponibles en plusieurs tailles, par exemple : une version à 1 milliard de paramètres (la plus petite), un modèle à 70 milliards de paramètres (le plus couramment déployé) et même un modèle massif à 405 milliards de paramètres. Ce plus grand modèle est d’une utilité limitée pour la plupart des utilisateurs, car il faudrait disposer de plusieurs dizaines de milliers de dollars de GPU dans votre ordinateur pour qu’il fonctionne à des vitesses tolérables pour l’inférence, du moins si vous le déployiez dans la version naïve de précision totale. Par conséquent, la plupart des utilisations et de l’enthousiasme du monde réel autour de ces modèles open source se situent au niveau des paramètres 8 milliards ou 70 milliards hautement quantifiés, car c’est ce qui peut tenir dans un GPU Nvidia 4090 grand public, que vous pouvez acheter maintenant pour moins de 1 000 dollars.

Alors pourquoi tout cela est-il important ? Eh bien, dans un sens, le nombre de paramètres et leur précision vous renseignent sur la quantité d’informations brutes ou de données que le modèle a stockées en interne. Notez que je ne parle pas de la capacité de raisonnement, ou du « QI » du modèle si vous voulez : il s’avère que les modèles avec même un nombre de paramètres étonnamment modeste peuvent montrer des performances cognitives remarquables lorsqu’il s’agit de résoudre des problèmes logiques complexes, de prouver des théorèmes en géométrie plane, des problèmes de mathématiques SAT, etc.

Mais ces petits modèles ne seront pas forcément capables de vous raconter tous les aspects de chaque rebondissement de l’intrigue de chaque roman de Stendhal, alors que les très grands modèles peuvent potentiellement le faire. Le « coût » de ce niveau de connaissance extrême est que les modèles deviennent très difficiles à manier, à la fois pour l’entraînement et pour les inférences, car il faut toujours stocker chacun de ces 405B paramètres (ou quel que soit le nombre de paramètres) dans la VRAM du GPU en même temps afin de pouvoir faire des inférences avec le modèle.

L’avantage de l’approche du modèle MOE est que vous pouvez décomposer le grand modèle en une collection de modèles plus petits qui connaissent chacun des éléments de connaissances différents et non superposés (au moins entièrement). L’innovation de DeepSeek a consisté à développer ce qu’ils appellent une stratégie d’équilibrage de charge « sans perte auxiliaire » qui maintient une utilisation efficace des experts sans la dégradation habituelle des performances qui découle de l’équilibrage de charge. Ensuite, en fonction de la nature de la demande d’inférence, vous pouvez acheminer intelligemment l’inférence vers les modèles « experts » au sein de cette collection de modèles plus petits qui sont les plus à même de répondre à cette question ou de résoudre cette tâche.

On peut le considérer comme un comité d’experts ayant chacun leur domaine de connaissances spécialisé : l’un peut être un expert juridique, l’autre un expert en informatique, l’autre un expert en stratégie d’entreprise. Ainsi, si une question est posée sur l’algèbre linéaire, vous ne la posez pas à l’expert juridique. Il s’agit bien sûr d’une analogie très vague et cela ne fonctionne pas comme cela dans la pratique.

Le véritable avantage de cette approche est qu’elle permet au modèle de contenir une énorme quantité de connaissances sans être trop difficile à gérer, car même si le nombre total de paramètres est élevé pour tous les experts, seul un petit sous-ensemble de ces paramètres est « actif » à un moment donné, ce qui signifie que vous n’avez besoin de stocker que ce petit sous-ensemble de pondérations dans la VRAM pour faire des inférences. Dans le cas de DeepSeek-V3, ils ont un modèle MOE absolument énorme avec 671 B de paramètres , donc beaucoup plus grand que même le plus grand modèle Llama3, mais seulement 37 B de ces paramètres sont actifs à un moment donné, soit suffisamment pour tenir dans la VRAM de deux GPU Nvidia 4090 grand public (coût total inférieur à 2 000 $), plutôt que de nécessiter un ou plusieurs GPU H100 qui coûtent environ 40 000 $ chacun.

Il se murmure que ChatGPT et Claude utilisent tous deux une architecture MoE, certaines fuites suggérant que GPT-4 avait un total de 1,8 billion de paramètres répartis sur 8 modèles contenant chacun 220 milliards de paramètres. Bien que cela soit beaucoup plus faisable que d’essayer de faire tenir les 1,8 billion de paramètres dans la VRAM, il faut toujours plusieurs GPU de qualité H100 pour exécuter le modèle en raison de l’énorme quantité de mémoire utilisée.

Au-delà de ce qui a déjà été décrit, les articles techniques mentionnent plusieurs autres optimisations clés. Il s’agit notamment de leur cadre de formation extrêmement efficace en termes de mémoire qui évite le parallélisme des tenseurs, recalcule certaines opérations pendant la rétropropagation au lieu de les stocker et partage les paramètres entre le modèle principal et les modules de prédiction auxiliaires. La somme totale de toutes ces innovations, une fois superposées, a conduit aux chiffres d’amélioration de l’efficacité d’environ 45x qui ont été avancés en ligne, et je suis parfaitement disposé à croire que ces chiffres sont dans la bonne fourchette.

Un indicateur très fort de la véracité de cette affirmation est le coût de l’API de DeepSeek : malgré ces performances de modèle presque les meilleures de sa catégorie, DeepSeek facture environ 95 % de moins pour les demandes d’inférence via son API que les modèles comparables d’OpenAI et d’Anthropic. Dans un sens, c’est un peu comme comparer les GPU de Nvidia aux nouvelles puces personnalisées des concurrents : même s’ils ne sont pas aussi bons, le rapport qualité-prix est tellement meilleur que cela peut toujours être une évidence en fonction de l’application, à condition que vous puissiez qualifier le niveau de performance et prouver qu’il est suffisamment bon pour vos besoins et que la disponibilité et la latence de l’API sont suffisamment bonnes (jusqu’à présent, les gens ont été étonnés de la façon dont l’ infrastructure de DeepSeek a résisté malgré l’augmentation vraiment incroyable de la demande due aux performances de ces nouveaux modèles).

Mais contrairement au cas de Nvidia, où l’écart de coût résulte du fait qu’ils gagnent des marges brutes de monopole de plus de 90 % sur leurs produits de centre de données, l’écart de coût de l’API DeepSeek par rapport aux API OpenAI et Anthropic pourrait simplement être dû au fait qu’elles sont presque 50 fois plus efficaces en termes de calcul (et pourraient même être nettement plus élevées du côté de l’inférence – l’efficacité d’environ 45 fois était du côté de la formation). En fait, il n’est même pas certain qu’OpenAI et Anthropic réalisent de grandes marges sur leurs services API – ils pourraient être plus intéressés par la croissance des revenus et la collecte de plus de données en analysant toutes les demandes d’API qu’ils reçoivent.

Avant de poursuivre, je serais négligent si je ne mentionnais pas que de nombreuses personnes spéculent que DeepSeek ment tout simplement sur le nombre de GPU et d’heures GPU passées à entraîner ces modèles parce qu’ils possèdent en réalité beaucoup plus de H100 qu’ils ne sont censés en avoir compte tenu des restrictions d’exportation sur ces cartes, et ils ne veulent pas se causer de problèmes ni nuire à leurs chances d’acquérir davantage de ces cartes.

Bien que cela soit certainement possible, je pense qu’il est plus probable qu’ils disent la vérité et qu’ils aient simplement pu obtenir ces résultats incroyables en étant extrêmement intelligents et créatifs dans leur approche de l’entraînement et de l’inférence. Ils expliquent comment ils font les choses, et je soupçonne que ce n’est qu’une question de temps avant que leurs résultats soient largement reproduits et confirmés par d’autres chercheurs dans divers autres laboratoires.

Un modèle qui peut vraiment réfléchir

Le nouveau modèle R1 et le rapport technique pourraient même être encore plus époustouflants, car ils ont réussi à battre Anthropic contre Chain-of-thought et sont désormais pratiquement les seuls, en dehors d’OpenAI, à avoir fait fonctionner cette technologie à grande échelle. Mais notez que le modèle d’aperçu O1 n’a été publié par OpenAI qu’à la mi-septembre 2024. C’était il y a seulement environ 4 mois ! Il faut absolument garder à l’esprit que, contrairement à OpenAI, qui est incroyablement secret sur le fonctionnement réel de ces modèles à un niveau bas et ne divulgue pas les poids réels des modèles à quiconque en dehors de partenaires comme Microsoft et d’autres qui signent des NDA très stricts, ces modèles DeepSeek sont à la fois entièrement open source et sous licence permissive. Ils ont publié des rapports techniques extrêmement détaillés expliquant leur fonctionnement, ainsi que le code que tout le monde peut consulter et essayer de copier.

Avec R1, DeepSeek a réussi à percer l’un des Saints Graals de l’IA : faire raisonner les modèles étape par étape sans s’appuyer sur des ensembles de données supervisés massifs. Leur expérience DeepSeek-R1-Zero a montré quelque chose de remarquable : en utilisant l’apprentissage par renforcement pur avec des fonctions de récompense soigneusement élaborées, ils ont réussi à faire en sorte que les modèles développent des capacités de raisonnement sophistiquées de manière totalement autonome. Il ne s’agissait pas seulement de résoudre des problèmes : le modèle a appris de manière organique à générer de longues chaînes de pensée, à auto-vérifier son travail et à allouer plus de temps de calcul à des problèmes plus difficiles.

L’avancée technique ici a été leur approche novatrice de la modélisation des récompenses. Plutôt que d’utiliser des modèles de récompense neuronaux complexes qui peuvent conduire à un « hacking de récompense » (où le modèle trouve des moyens bidons pour augmenter ses récompenses qui ne conduisent pas réellement à de meilleures performances du modèle dans le monde réel), ils ont développé un système intelligent basé sur des règles qui combine des récompenses d’exactitude (vérification des réponses finales) avec des récompenses de format (encouragement à la réflexion structurée). Cette approche plus simple s’est avérée plus robuste et évolutive que les modèles de récompense basés sur les processus que d’autres ont essayés.

Ce qui est particulièrement fascinant, c’est que pendant la formation, ils ont observé ce qu’ils ont appelé un « moment aha », une phase où le modèle a spontanément appris à réviser son processus de réflexion en cours de route lorsqu’il est confronté à une incertitude. Ce comportement émergent n’était pas explicitement programmé ; il est né naturellement de l’interaction entre le modèle et l’environnement d’apprentissage par renforcement. Le modèle s’arrêtait littéralement, signalait des problèmes potentiels dans son raisonnement et recommençait avec une approche différente, tout cela sans avoir été explicitement formé à le faire.

Le modèle R1 complet s’est appuyé sur ces informations en introduisant ce qu’ils appellent des données « de démarrage à froid » (un petit ensemble d’exemples de haute qualité) avant d’appliquer leurs techniques de RL. Ils ont également résolu l’un des principaux défis des modèles de raisonnement : la cohérence du langage. Les tentatives précédentes de raisonnement par chaîne de pensée aboutissaient souvent à des modèles mélangeant les langages ou produisant des résultats incohérents. DeepSeek a résolu ce problème grâce à une récompense intelligente de cohérence du langage pendant l’entraînement RL, en échange d’une petite baisse de performances contre des résultats beaucoup plus lisibles et cohérents.

Les résultats sont époustouflants : lors de l’AIME 2024, l’une des compétitions de mathématiques les plus difficiles au lycée, R1 a atteint une précision de 79,8 %, ce qui correspond au modèle O1 d’OpenAI. Sur MATH-500, il a atteint 97,3 % et a atteint le 96,3e percentile sur les compétitions de programmation Codeforces. Mais le plus impressionnant est peut-être qu’ils ont réussi à distiller ces capacités dans des modèles beaucoup plus petits : leur version à 14 B paramètres surpasse de nombreux modèles plusieurs fois plus grands, ce qui suggère que la capacité de raisonnement ne dépend pas seulement du nombre de paramètres bruts, mais aussi de la façon dont vous entraînez le modèle à traiter les informations.

Les retombées

Les rumeurs récentes sur Twitter et Blind (un site de rumeurs d’entreprise) indiquent que ces modèles ont complètement pris Meta au dépourvu et qu’ils sont plus performants que les nouveaux modèles Llama4 qui sont toujours en cours de formation. Apparemment, le projet Llama au sein de Meta a attiré beaucoup d’attention en interne de la part de cadres techniques de haut rang, et en conséquence, ils ont quelque chose comme 13 personnes travaillant sur le projet Llama qui gagnent chacune individuellement plus par an en rémunération totale que le coût de formation combiné des modèles DeepSeek-V3 qui le surpassent. Comment expliquez-vous cela à Zuck sans sourciller ? Comment Zuck continue-t-il à sourire tout en dépensant plusieurs milliards de dollars à Nvidia pour acheter 100 000 H100 alors qu’un meilleur modèle a été formé en utilisant seulement 2 000 H100 pour un peu plus de 5 millions de dollars ?

Mais vous pouvez être sûr que Meta et tous les autres grands laboratoires d’IA analysent ces modèles DeepSeek, étudient chaque mot de ces rapports techniques et chaque ligne du code open source qu’ils ont publié, essayant désespérément d’intégrer ces mêmes astuces et optimisations dans leurs propres pipelines de formation et d’inférence. Alors, quel est l’impact de tout cela ? Eh bien, naïvement, il semble que la demande globale de calculs de formation et d’inférence devrait être divisée par un grand nombre. Peut-être pas par 45, mais peut-être par 25 ou même 30 ? Parce que tout ce dont vous pensiez avoir besoin avant la sortie de ces modèles est désormais bien moindre.

Un optimiste pourrait dire : « Vous parlez d’une simple constante de proportionnalité, d’un simple multiple. Lorsque vous avez affaire à une courbe de croissance exponentielle, ces choses disparaissent si rapidement que cela n’a finalement pas beaucoup d’importance. » Et il y a une part de vérité dans cela : si l’IA est vraiment aussi transformatrice que je l’espère, si l’utilité de cette technologie dans le monde réel se mesure en milliers de milliards, si le calcul en temps réel est la nouvelle loi d’échelle du pays, si nous allons avoir des armées de robots humanoïdes qui courent partout en effectuant constamment des quantités massives d’inférences, alors peut-être que la courbe de croissance est encore si raide et extrême, et que Nvidia a une avance suffisamment importante pour que cela fonctionne quand même.

Mais Nvidia intègre beaucoup de bonnes nouvelles dans les années à venir pour que cette valorisation ait du sens, et lorsque vous commencez à superposer tous ces éléments pour former une mosaïque totale, cela commence à me mettre extrêmement mal à l’aise à l’idée de dépenser environ 20 fois le chiffre d’affaires estimé pour 2025 pour leurs actions. Que se passe-t-il si vous constatez une légère modération de la croissance des ventes ? Et si elle s’avère être de 85 % au lieu de plus de 100 % ? Et si les marges brutes passent de 75 % à 70 %, ce qui reste ridiculement élevé pour une entreprise de semi-conducteurs ?

Pour conclure

NVIDIA fait face à une convergence sans précédent de menaces concurrentielles qui rendent sa valorisation de plus en plus difficile à justifier, avec 20 fois les ventes à terme et 75 % de marge brute. Les prétendues marges bénéficiaires de l’entreprise en matière de matériel, de logiciels et d’efficacité commencent à montrer des fissures inquiétantes. Le monde entier, des milliers de personnes parmi les plus intelligentes de la planète, soutenues par des milliards de dollars de ressources en capital, tentent de les attaquer de toutes parts.

Sur le plan matériel, les architectures innovantes de Cerebras et Groq démontrent que l’avantage d’interconnexion de NVIDIA, pierre angulaire de sa domination dans les centres de données, peut être contourné par des refontes radicales. Les puces à l’échelle des wafers de Cerebras et l’approche de calcul déterministe de Groq offrent des performances convaincantes sans avoir besoin des solutions d’interconnexion complexes de NVIDIA. Plus traditionnellement, tous les grands clients de NVIDIA (Google, Amazon, Microsoft, Meta, Apple) développent des puces personnalisées qui pourraient grignoter les revenus à marge élevée des centres de données. Il ne s’agit plus de projets expérimentaux : Amazon à elle seule construit une infrastructure massive avec plus de 400 000 puces personnalisées pour Anthropic.

Le fossé logiciel semble tout aussi vulnérable. De nouveaux frameworks de haut niveau comme MLX, Triton et JAX font abstraction de l’importance de CUDA, tandis que les efforts visant à améliorer les pilotes AMD pourraient ouvrir la voie à des alternatives matérielles beaucoup moins coûteuses. La tendance vers des abstractions de plus haut niveau reflète la façon dont le langage assembleur a cédé la place au C/C++, ce qui suggère que la domination de CUDA pourrait être plus temporaire que prévu. Plus important encore, nous assistons à l’émergence d’une traduction de code basée sur LLM qui pourrait automatiquement porter le code CUDA pour qu’il s’exécute sur n’importe quelle cible matérielle, éliminant potentiellement l’un des effets de verrouillage les plus forts de NVIDIA.

Le plus dévastateur est peut-être la récente percée de DeepSeek en matière d’efficacité, qui permet d’atteindre des performances de modèle comparables pour environ 1/45e du coût de calcul.

Cela suggère que l’ensemble du secteur a massivement surprovisionné les ressources de calcul. Combinée à l’émergence d’architectures d’inférence plus efficaces grâce aux modèles de chaîne de pensée, la demande globale de calcul pourrait être considérablement inférieure aux projections actuelles.

Les aspects économiques sont ici convaincants : lorsque DeepSeek peut égaler les performances du niveau GPT-4 tout en facturant 95 % de moins pour les appels d’API, cela suggère que soit les clients de NVIDIA brûlent de l’argent inutilement, soit les marges doivent baisser considérablement.

Le fait que TSMC fabrique des puces compétitives pour tout client bien financé limite naturellement les avantages architecturaux de NVIDIA. Mais plus fondamentalement, l’histoire montre que les marchés finissent par trouver un moyen de contourner les goulots d’étranglement artificiels qui génèrent des profits supranormaux.

Si l’on considère ces menaces, il semble que NVIDIA soit confrontée à un chemin beaucoup plus difficile pour maintenir sa trajectoire de croissance et ses marges actuelles que ne le suggère sa valorisation.

Avec cinq vecteurs d’attaque distincts (innovation architecturale, intégration verticale des clients, abstraction logicielle, percées en matière d’efficacité et démocratisation de la fabrication), la probabilité qu’au moins l’un d’entre eux parvienne à avoir un impact significatif sur les marges ou le taux de croissance de NVIDIA semble élevée.

Aux valorisations actuelles, le marché n’intègre aucun de ces risques.

EN PRIME

Laisser un commentaire