Document exclusif. Bridgewater: ce que le DeepSeek chinois signifie pour l’IA

Document Brigdewater Associates :

What China’s DeepSeek Means for AI


TRADUCTION BRUNO BERTEZ

Au sein de notre moteur d’investissement et d’AIA Labs, notre groupe interne axé sur l’utilisation de l’IA pour le trading sur les marchés, nous avons suivi de près les développements dans le domaine de l’IA et leurs implications pour les économies et les actifs.

Cela comprend le suivi de ce qui se passe chez DeepSeek, un laboratoire d’IA chinois de premier plan.

Cette semaine, la sortie du dernier modèle de DeepSeek, DeepSeek-R1, a entraîné d’importantes turbulences sur les actions technologiques, notamment la chute du cours de l’action de Nvidia de 17 % en une journée. 

Aujourd’hui, je souhaite partager avec vous nos réflexions sur DeepSeek et les grandes questions qu’il soulève.

Pour donner un peu de contexte, DeepSeek-R1 est un nouveau modèle de raisonnement. Ces types de modèles prennent plus de temps pour répondre aux tâches et peuvent s’engager dans plusieurs étapes de raisonnement, une lacune clé des LLM de chatbot traditionnels. 

Le principal modèle de raisonnement actuellement disponible au public est o1 d’OpenAI (OpenAI a annoncé mais n’a pas encore publié o3), qui a réalisé des avancées notables comme la résolution de problèmes mathématiques difficiles. 

DeepSeek-R1 rivalise avec le modèle o1 d’OpenAI, l’égalant sur plusieurs tests de mathématiques et de raisonnement, et, surtout, le fait à un coût bien inférieur. 

Cela soulève d’importantes questions sur l’IA à partir d’ici :
∎Le succès de DeepSeek suggère-t-il que les avancées dans les modèles d’IA peuvent être rapidement égalées par les concurrents, faisant ainsi des bons modèles d’IA une marchandise ?
∎Si les modèles d’IA deviennent monnaie courante, quelles entreprises en sortiront gagnantes et quelles entreprises en seront les perdantes ? Les principaux laboratoires d’IA seront-ils incités à réaliser de nouveaux investissements importants pour améliorer leurs modèles ? Si ces investissements devaient diminuer, cela constituerait une pression négative notable sur la croissance. 
∎Qu’est-ce que cela signifie sur les perspectives de nouvelles avancées en matière d’IA à partir de maintenant ? 
∎Et dans quelle mesure devrions-nous croire les affirmations selon lesquelles DeepSeek a accompli quelque chose ?
Ci-dessous, Jas Sekhon, scientifique en chef d’AIA Labs, et moi-même partageons nos premières réflexions sur ces questions et ce qu’elles signifient pour les investisseurs

Greg Jensen, codirecteur des investissements chez Bridgewater Associates

Ce que DeepSeek a fait est important et impressionnant

Assez rapidement, ils ont réuni un laboratoire d’IA de premier plan. Ils semblent avoir réalisé des percées scientifiques significatives autour de l’architecture des modèles, des fonctions de récompense efficaces et des optimisations logicielles pour améliorer radicalement le raisonnement par unité de calcul. Ils produisent des résultats avec seulement quelques mois de retard sur les modèles de pointe, pour une fraction du coût. Ils mettent en open source ce qu’ils font et fournissent l’outil à faible coût – dans les tests d’utilisation pratique, pour un vingtième du coût du modèle d’OpenAI. Ils ont, du moins pour l’instant, devancé Meta pour le LLM open source leader.

Les résultats de DeepSeek constituent une menace pour les principaux laboratoires d’IA, car il est clair que les modèles proches de l’état de l’art peuvent rapidement être marchandisés–(marchandisé est la traduction de  commodified qui signifie littéralement être transformé en « commodity », traité comme une marchandise avec une nuance de banalisation et perte de valeur)

Cela rendra de plus en plus difficile pour les laboratoires de pointe comme OpenAI et Anthropic de monétiser leur propriété intellectuelle existante. Cela les conduira probablement également à être beaucoup plus discrets dans la manière dont ils exposent leur propriété intellectuelle à l’avenir. 

Mais il reste encore beaucoup à faire entre leur situation actuelle et leur objectif réel d’intelligence artificielle générale (AGI). Il y aura probablement encore une quantité incroyable de capitaux prêts à poursuivre l’objectif de l’AGI, car il sera extremement transformateur et très probablement un scénario «du type le gagnant rafle tout ».

Les résultats de DeepSeek montrent que les progrès et l’efficacité de l’IA s’accélèrent. C’est une bonne nouvelle pour une grande partie de l’écosystème – et un encouragement pour de nouveaux investissements dans l’IA.

La demande de calcul ne ralentit pas en conséquence et va probablement s’accélérer. Les menaces commerciales existentielles auxquelles sont confrontés des entreprises comme Microsoft et Google ne se sont pas atténuées et ont probablement juste augmenté. Ils investiront tout ce qui est nécessaire pour s’assurer qu’ils sont les leaders. C’est une bonne chose pour les hyperscalers car leurs compléments (LLM) sont devenus moins chers et la demande de raisonnement – traduction de demand for reasoning) ne fait qu’augmenter. L’existence de DeepSeek est encore meilleure pour les créateurs d’applications car ils peuvent utiliser un modèle open source qui est proche de la frontière. Le modèle open source de Meta avait environ deux générations de retard sur les modèles leaders.

À court terme, il pourrait y avoir une correction des cours des actions de nombreuses entreprises,

Cette nouvelle présente clairement des risques pour bon nombre des entreprises qui ont le plus progressé. Nous en avons déjà vu une partie dans l’évolution récente du marché. Il est logique de reconsidérer le degré de sécurité des acteurs en place. Comme nous le décrivons ci-dessous, de nombreux investisseurs ont exprimé des inquiétudes à propos de Nvidia, car le succès de DeepSeek pourrait encourager les entreprises à investir davantage pour réaliser des gains d’efficacité en optimisant la manière dont les logiciels d’IA interagissent avec le matériel. L’un des principaux arguments de vente des puces Nvidia est son logiciel propriétaire, de sorte que les inquiétudes grandissent quant au fait que les entreprises pourraient investir dans des logiciels alternatifs qui pourraient saper l’avantage concurrentiel de Nvidia. Cependant, il est important de distinguer les changements de prix du marché des changements de fondamentaux. Le développement de logiciels prend du temps et, dans le contexte général d’accélération de la demande de calcul, il est peu probable qu’il affecte les revenus de Nvidia à court terme. 

Le succès de DeepSeek avec son modèle open source signifie que les progrès en dehors des laboratoires de recherche de pointe peuvent aller plus vite, car davantage de recherches peuvent se dérouler en public. 

Les chercheurs du monde entier sont stimulés. La recherche en IA s’est déjà accélérée en public. Cela va accélérer le développement de l’IA, car des personnes extérieures aux laboratoires de pointe (comme OpenAI, Anthropic et Google) peuvent contribuer au développement des modèles de nouvelle génération. De plus, même les personnes des laboratoires de pointe sont enthousiastes, car beaucoup d’entre elles ne savaient pas auparavant comment fonctionnaient les modèles de raisonnement. 

De plus, une plus grande efficacité du raisonnement signifie que les gens achèteront plus de raisonnement – ​​nous n’en sommes pas encore au point de rendement décroissant sur la courbe de demande de raisonnement. Par exemple, une grande partie de la demande d’IA ne concerne pas les LLM, mais d’autres utilisations de l’IA générative, comme la robotique, la conduite autonome, la conception de puces et la biologie. Les LLM sont souvent un apport pour ces applications plus larges. Avec de meilleurs LLM, le goulot d’étranglement du calcul se déplace ailleurs et la demande pour ce type d’applications est débloquée.

En ce qui concerne le montant dépensé par DeepSeek pour construire son modèle, de nombreux titres et discours dans la communauté financière ne reflètent même pas exactement les affirmations de DeepSeek.

Par exemple, certains des discours que nous voyons interprètent mal les propres affirmations de DeepSeek sur ses coûts. DeepSeek a déclaré que le dernier cycle d’entraînement avait coûté 6 millions de dollars. Ce chiffre est peut-être exact compte tenu de la taille du modèle et des coûts de calcul actuels en Chine, qui sont faibles.

Ce montant n’inclut pas les coûts d’acquisition des données, les recherches préalables, les expériences sur les architectures de modèles, les algorithmes et les salaires des personnes impliquées. Les estimations de coûts tout compris commencent à 100 millions de dollars au moins. Le dernier cycle d’entraînement est la partie la moins chère. Vous le faites une fois que vous savez ce qui fonctionne et que tous les choix en matière de données, d’infrastructure et de modélisation ont été faits. Cela dit, le chiffre de 6 millions de dollars représente toujours une grande amélioration. 

Cependant, de telles améliorations d’efficacité sont à prévoir en raison des progrès réalisés au fil du temps dans les logiciels et le matériel d’IA.

Par exemple, Claude 3.5 Sonnet, sorti 15 mois plus tard que le GPT-4 original, coûte environ 10 fois moins cher par appel que le GPT-4 original, même s’il s’agit d’un modèle bien meilleur. Le coût du modèle de DeepSeek est conforme à ce que les initiés du secteur attendaient compte tenu de ses performances et de sa date de sortie. La seule surprise est que le modèle soit venu de Chine. On peut également constater les améliorations significatives en termes d’efficacité dans le modèle Gemini Flash 2 récemment sorti par Google.

Il y a des raisons plausibles de croire que les affirmations de DeepSeek elles-mêmes ne sont peut-être pas entièrement exactes car ils ne peuvent pas admettre avoir accès à la puce d’IA H100 de Nvidia (actuellement sous contrôle d’exportation américain), ce que beaucoup pensent. 

Pourtant, il semble que DeepSeek ait fait de grands progrès en matière d’efficacité dans l’utilisation des puces. 

Les piles logicielles de tous les fabricants de puces, y compris Nvidia, sont mal optimisées et souvent boguées. Le logiciel de Nvidia est meilleur que celui des entreprises concurrentes et constitue l’une des principales raisons de leur avantage concurrentiel actuel. Les laboratoires écrivent leurs propres noyaux pour accéder au matériel et ne s’appuient pas directement sur la pile logicielle CUDA de Nvidia. DeepSeek montre que les laboratoires pourraient faire plus dans ce domaine. Depuis que DeepSeek a publié son modèle précédent en décembre, les laboratoires d’IA du monde entier ont cherché à obtenir les gains d’efficacité que DeepSeek a pu réaliser. Ils ont révélé publiquement bon nombre de leurs innovations en matière d’efficacité afin que d’autres puissent s’appuyer sur leurs découvertes. 

Si davantage d’investissements sont consacrés à l’amélioration de la couche logicielle au-dessus du matériel de la puce, cela pourrait affaiblir l’emprise de Nvidia. Par exemple, la puce Trainium2 d’Amazon est bonne au niveau matériel, mais les évaluations de décembre ont montré que le logiciel reste à environ un an d’être compétitif avec celui de Nvidia. Des travaux importants ont déjà été réalisés pour améliorer le logiciel des puces Trainium2, mais les résultats de DeepSeek pourraient inciter les gens à aller plus vite et à rechercher de plus grands gains d’efficacité. Une histoire similaire pourrait se produire avec la dernière unité de traitement neuronal d’AMD, etc.

DeepSeek semble être suroptimisé, ce qui signifie que son succès est peut-être surestimé.

Au fur et à mesure que les recherches se multiplient, les premiers rapports sur les benchmarks publics semblent montrer que DeepSeek est plus adapté aux tests que les meilleurs modèles. Des benchmarks apparaissent qui montrent que les performances du modèle DeepSeek-R1 peuvent se détériorer davantage que celles des modèles concurrents si l’on modifie un peu les questions de raisonnement dans les benchmarks. C’est prévisible, étant donné qu’il n’y a au mieux que trois laboratoires qui ne se contentent pas d’optimiser par rapport aux benchmarks. Il existe également des preuves, bien que non concluantes, que DeepSeek s’est entraîné sur les résultats du modèle o1 d’OpenAI.

Mais le point principal demeure : les modèles open source sont en retard, mais pas de beaucoup.

Pour résumer, les progrès de DeepSeek sont une grande nouvelle, mais pas une mauvaise nouvelle, pour la majeure partie de l’écosystème de l’IA.

Elle accélère le chemin vers une IA agentique utile. –( L’agentic AI fait référence à des systèmes d’intelligence artificielle de nouvelle génération, capables de prendre des décisions de manière autonome, sans intervention humaine) .

Elle a légèrement réduit notre vision du temps à ce que nous appelons le « moment Barnes & Noble », c’est-à-dire le moment où un concurrent sérieux d’un leader non technologique perturbe l’activité, comme Amazon l’a fait à Barnes & Noble à la fin des années 90. 

C’est le moment où l’adoption de l’IA devient aussi existentielle pour tout le monde qu’elle l’est aujourd’hui pour Google et Microsoft.

C’est alors que nous nous attendons à ce que la véritable bulle se manifeste

Laisser un commentaire