Les affirmations de la start-up chinoise spécialisée dans l’IA DeepSeek, qui prétend surpasser les géants de la Silicon Valley pour une fraction du coût, ont provoqué l’effondrement d’un marché de 1 000 milliards de dollars, des débats sur l’avenir de la domination des puces et des interrogations sur la mesure dans laquelle l’innovation nécessite réellement des milliards de dollars.
DeepSeek, une entreprise créée il y a deux ans et issue de la société de trading quantique High-Flyer, a attiré l’attention du monde entier cette semaine lorsque son modèle d’intelligence artificielle R1, en code source ouvert, a brièvement figuré en tête des téléchargements. L’entreprise affirme avoir formé le système pour seulement 5,6 millions de dollars, en utilisant environ 2 000 puces Nvidia H800, soit beaucoup moins de ressources que les leaders du secteur tels qu’OpenAI. Si les critiques affirment que les chiffres sont trompeurs, les implications ébranlent les investisseurs et modifient la façon dont le monde envisage le développement de l’intelligence artificielle.
La société mère de DeepSeek a commencé à stocker des GPU Nvidia des années avant que ses ambitions en matière d’IA ne deviennent évidentes. En 2021, High-Flyer a construit un superordinateur avec 10 000 puces Nvidia A100, un achat qui semble aujourd’hui prémonitoire après que les interdictions d’exportation américaines ont empêché les entreprises chinoises d’acheter ces processeurs à partir de la fin 2022. En partageant cette puissance de calcul avec des universités et des chercheurs, High-Flyer a établi des partenariats techniques qui ont ensuite alimenté les progrès rapides de DeepSeek.
Lorsqu’ils ont lancé DeepSeek en 2023, les ingénieurs ont pu s’appuyer sur les investissements antérieurs de High-Flyer pour optimiser leurs modèles. « Le fait de disposer d’un superordinateur permet d’effectuer d’innombrables expériences », explique Lennart Heim, chercheur en IA chez Rand. « Vous pouvez échouer plus rapidement, itérer à moindre coût. L’accès au matériel Nvidia, même aux puces d’ancienne génération, a donné à l’équipe un avantage en termes d’efficacité que les rivaux américains, qui se battent pour obtenir les derniers GPU, ont peut-être négligé.
L’affirmation de DeepSeek concernant les coûts astronomiques repose sur un point technique : le chiffre de 5,6 millions de dollars ne couvre que l’entraînement final d’un modèle, et non les années de travail préliminaire. Les analystes de SemiAnalysis estiment que les dépenses totales en matériel dépassent 500 millions de dollars, en tenant compte du superordinateur de High-Flyer et d’autres infrastructures. Sam Altman, le PDG d’OpenAI, a qualifié le chiffre de 5,6 millions de dollars de « très exagéré », soulignant que la formation du modèle GPT-4 de son entreprise a coûté plus de 100 millions de dollars.
Néanmoins, la frugalité de DeepSeek met en évidence un clivage dans la stratégie de l’IA. Alors que les entreprises américaines s’efforcent de construire des modèles toujours plus grands qui nécessitent des milliers de puces de pointe, DeepSeek cherche plutôt à améliorer les architectures existantes. « Ils prouvent que le calcul brut n’est pas la seule voie possible », a déclaré au Washington Post Kai-Shen Huang, de l’Institut de recherche pour la démocratie de Taipei.
L’action de Nvidia a plongé de 17 % lundi, après la montée en puissance de DeepSeek, effaçant une valeur de 589 milliards de dollars. Cette chute a laissé certains analystes perplexes, car DeepSeek utilise des puces Nvidia. Cependant, cette réaction met en évidence les craintes que l’IA, moins chère et plus légère, ne réduise à long terme la demande de matériel coûteux, et que le secteur technologique chinois comble le fossé malgré les contrôles américains à l’exportation.
Les investisseurs s’inquiètent également de la tarification. DeepSeek propose ses modèles gratuitement ou avec de fortes réductions par rapport à ses concurrents occidentaux, ce qui pourrait réduire les marges de l’ensemble du secteur. « Ils ne rivalisent pas seulement en termes de performances », a déclaré Xiaomeng Lu, du groupe Eurasia. « Ils redéfinissent ce qui est économiquement viable. »
L’essor de DeepSeek coïncide avec l’escalade des tensions technologiques entre les États-Unis et la Chine. L’ancien président Donald Trump, qui a appelé à se concentrer sur la concurrence de l’IA après le lancement de DeepSeek, aurait discuté des droits de douane sur les puces avec le PDG de Nvidia, Jensen Huang, avant une réunion. Pendant ce temps, les autorités américaines enquêtent pour savoir si DeepSeek a obtenu des puces Nvidia restreintes par l’intermédiaire de tiers.
L’entreprise nie avoir commis des actes répréhensibles et les experts ne voient que peu de preuves de l’implication du gouvernement. « Il ne s’agit pas d’un projet gouvernemental descendant », a déclaré Matt Sheehan, de l’institut Carnegie, au même journal américain. « Il s’agit d’une équipe talentueuse qui puise dans le vaste réservoir d’ingénieurs de la Chine. » Il n’en reste pas moins que les vastes investissements de Pékin dans l’IA, à hauteur de 1,3 milliard de dollars pour la seule année 2023, ont créé un terrain fertile pour la prospérité d’entreprises comme DeepSeek.
DeepSeek se heurte à des obstacles. Les fournisseurs américains de services en nuage bloquent ses modèles pour des raisons de sécurité, ce qui limite sa portée mondiale. Les contrôles à l’exportation l’empêchent également d’accéder aux dernières puces de Nvidia, ce qui l’oblige à continuer de s’appuyer sur des GPU plus anciens. Et si ses modèles excellent en codage et en mathématiques, ils sont à la traîne pour les tâches nuancées telles que la création littéraire.
Mais le génie est sorti de la bouteille. En montrant que les percées de l’intelligence artificielle ne nécessitent pas toujours des budgets illimités, DeepSeek a suscité un débat sur l’efficacité et l’échelle. Alors que les start-up du monde entier étudient ses méthodes, la leçon est claire : dans la course à l’IA, il est parfois préférable de travailler plus intelligemment que de dépenser plus.