La sortie le mois dernier de l’IA du chinois DeepSeek a été présentée initialement comme rebattant complètement les cartes de ce domaine. Avec un peu de recul, l’impact semble moins considérable.
Lorsqu’en 1957, l’Union Soviétique lance le premier satellite Spoutnik 1, les États-Unis d’Amérique sont pris de surprise par ce qui sera qualifié de « moment Spoutnik ». S’ensuit une course à la conquête de l’espace qui opposera les deux superpuissances de la guerre froide. Et quand le 20 janvier 2025, l’entreprise chinoise DeepSeek annonce la disponibilité de DeepSeek-R1, une intelligence artificielle dont les performances rivalisent avec OpenAI et Google, les commentateurs sont abasourdis. Est-ce le « moment DeepSeek » ?
Fondé en février 2016 par Liang Wenfeng (梁文锋) de l’Université du Zhejiang, le fonds d’investissement chinois High-Flyer se spécialise dès 2017 dans le trading algorithmique piloté par intelligence artificielle (IA). Réussite éclatante, à son apogée en 2021, le fonds gérait 14 milliards de dollars d’actifs, générant plus de 200 millions de dollars de frais de gestion annuels. En avril 2023, face au désintérêt des investisseurs pour l’IA « pure » sans business model associé, Liang Wenfeng décide d’utiliser les fonds propres de High-Flyer pour lancer DeepSeek, une société dérivée dédiée au développement de modèles d’intelligence artificielle avancée voire d’une super intelligence générale artificielle (AGI). Depuis, DeepSeek a fait grand bruit en annonçant coup-sur-coup deux IAs aux performances de pointe. D’abord en décembre 2024 avec la sortie de DeepSeek-V3, une alternative au leader américain OpenAI et sa solution GPT-4o et dont les performances sont au coude à coude. Ensuite le 20 janvier 2025, avec l’annonce de la disponibilité de DeepSeek-R1, rivalisant avec les modèles les plus avancés dits « résonants » tels que o1 de OpenAI.
Les deux modèles Deepseek-V3 et Deepseek-R1 sont des intelligences artificielles de type LLM (Large Language Model en bon français). Elles sont entraînées à comprendre et générer du texte semblable à celui écrit par un humain. Il faut imaginer un assistant omniscient qui lit d’énormes quantités de textes (livres, articles, code) pour en apprendre les schémas. Le nombre de paramètres (par exemple DeepSeek-R1 possède 70 milliards de paramètres) reflète son corpus de connaissances. Plus il y a de paramètres, plus cet assistant peut comprendre et générer des idées complexes comme résoudre des équations, écrire du code ou imaginer de la poésie. Ces modèles sont dits conversationnels dans la mesure où l’on interagit avec eux en leur posant des questions ou en leur soumettant des demandes (prompt) dans le cadre d’une conversation via une page web ou une application téléphone.
Open source
Les modèles DeepSeek ont la particularité d’être libres de droit (open source) permettant à n’importe qui de consulter, modifier et distribuer le code source. Un type de distribution qu’on retrouve chez les modèles Llama de Meta mais qui contraste avec les IAs propriétaires GPT de OpenAI ou Gemini de Google. Un choix salué par Yann Le Cun, le patron français de l’IA chez Meta, qui explique sur LinkedIn : « aux personnes qui voient les performances de DeepSeek et pensent : “La Chine est en train de dépasser les États-Unis en IA”, vous faites une erreur d’interprétation. La bonne lecture est : “Les modèles open source surpassent désormais les modèles propriétaires.” DeepSeek a profité de la recherche ouverte et de l’open source (par exemple PyTorch et Llama de Meta). Ils ont développé de nouvelles idées en s’appuyant sur le travail d’autrui. Comme leur travail est publié et open source, tout le monde peut en profiter. C’est là la puissance de la recherche ouverte et de l’open source. » Malgré son nom, OpenAI a lui opté pour un modèle propriétaire. Un choix d’abord assumé par son PDG Sam Altman mais qui a très récemment laissé sous-entendre un début de regret lors d’une session question-réponse sur le réseau-social Reddit : « Personnellement, je pense que nous nous sommes placés du mauvais côté de l’histoire ici et que nous devons élaborer une stratégie open source différente ; tout le monde à OpenAI ne partage pas cet avis, et ce n’est pas non plus notre priorité absolue actuelle. »
Mais ce qui aura finalement fait couler le plus d’encre sur les annonces de DeepSeek, ce sont la vitesse et la frugalité annoncées avec laquelle l’entreprise aurait développé ses deux modèles phares V3 et R1. En effet, dans une publication technique qui a accompagné la sortie de son modèle V3, DeepSeek explique que le coût en dollar américain pour entraîner son réseau de neurone profond V3 aurait été de 5,575 millions de dollars, c’est à dire un peu moins de 3 millions d’heures de calcul réalisées en parallèle sur 2048 unités de calcul (GPU) de type H800 de chez Nvidia. Cette somme de moins de six millions de dollars a été immédiatement reprise par la presse internationale et allègrement comparée aux 500 milliards du projet d’investissement Stargate, annoncé la veille face caméra par le président Donald Trump flanqué du PDG d’OpenAI Sam Altman. Le calendrier n’aurait pu être plus malicieux. Comment justifier l’investissement de ces sommes colossales lorsqu’une petite structure chinoise en fait tout autant pour la bagatelle de quelques millions de dollars ? A-t-on réellement besoin de centaines de milliers d’unités de calculs lorsque quelques milliers suffisent ?
L’effet est immédiat. Le lundi 27 janvier, à l’ouverture des marchés américains, l’action Nvidia dégringole de 17% soit 593 milliards de dollars effacés de sa capitalisation boursière. Broadcom, Microsoft ou encore Alphabet (Google) essuient de lourdes pertes à leur tour. Après l’euphorie du projet Stargate, c’est la douche froide sur Wall Street. Les actionnaires scrutent les courbes rouges et s’affolent de l’avenir de l’industrie du semi-conducteur. C’est le « moment DeepSeek ».
Trois innovations
Il est indéniable que DeepSeek a su faire preuve d’inventivité pour optimiser ses coûts. Les chercheurs et ingénieurs de DeepSeek, recrutés à la sortie des meilleures universités chinoises telles que l’Université Tsinghua ou l’Université de Pékin, ont développé trois innovations importantes. D’abord, plutôt que de calculer une réponse mot par mot, la « Prédiction Multi-Tokens » (MTP) permet aux modèles DeepSeek de deviner plusieurs mots futurs en une seule fois, comme résoudre trois équations d’un coup plutôt qu’une par une. Ensuite, l’architecture « Mélange d’Experts » (MoE) remplace un unique cerveau géant par une équipe de petits « experts » spécialisés. Seuls un à deux experts s’activent par tâche, comme allumer uniquement les lumières nécessaires dans une maison, ce qui diminue la consommation énergétique par rapport à des modèles comme GPT-4. Enfin, l’« Attention Latente Multi-Tête » (MLA) optimise la façon dont l’IA se souvient des informations pendant une conversation. Cela agit comme un bibliothécaire cherchant uniquement les livres demandés en ignorant les étagères inutiles, ce qui réduit l’utilisation de la mémoire et accélère les réponses. A cela s’ajoute la maîtrise par les ingénieurs de DeepSeek du langage de programmation PTX qui leur a permis de contourner certaines limitations de l’architecture CUDA de Nvidia et ainsi contrôler plus finement le code exécuté par l’unité de calcul.
Combinées, ces innovations permettent à DeepSeek d’être économe à la fois sur la puissance de calcul nécessaire à l’entraînement de ses modèles mais aussi sur le coût à l’usage par le client, appelé « inférence ». Ainsi DeepSeek donne accès à ses modèles pour un tarif environ 30 fois moindre que OpenAI avec un coût par million de mot (token) de 0,14 dollar pour l’un contre 2,50 dollars pour l’autre. Mais ces innovations ne peuvent expliquer à elles seules l’incroyable frugalité annoncée de DeepSeek. Comme précédemment mentionné, officiellement DeepSeek a été entraîné sur un modeste cluster de 2048 unités de calcul H800. Mais quelle est la puissance de calcul réellement disponible chez High-Flyer et DeepSeek ? Comment se sont-ils procurés ces chipsets pourtant interdits à l’export vers la Chine?
En octobre 2023, un an avant l’annonce de DeepSeek-V3, les États-Unis interdisent l’exportation du GPU H800 de Nvidia vers la Chine, actualisant les restrictions de 2022 pour combler les lacunes permettant la vente de versions « dégradées » comme le H800, conçu initialement par Nvidia pour contourner les règles via une vitesse de transfert de données réduite. Cette interdiction américaine visait à limiter l’accès chinois aux semi-conducteurs les plus avancés, jugés critiques pour les percées en IA. Mais ces restrictions sont arrivées trop tard pour handicaper DeepSeek. Son fondateur Liang Wenfeng, anticipant l’importance cruciale des capacités de calcul (compute) pour High-Flyer et DeepSeek, aurait ainsi accumulé autour de 50 000 GPUs de divers modèles. Ainsi DeepSeek aurait à disposition autour de 10 000 GPU de type H800, acquises avant que les restrictions ne prennent effet courant 2023, mais aussi 10 000 H100 et 10 000 A100, deux modèles soumis aux restrictions américaines de 2022. Des quantités que High-Flyer se serait procuré en 2021, anticipant les restrictions. Il est également probable que DeepSeek possède quelques dizaines de milliers de H20, des modèles Nvidia pour l’instant autorisés à l’export vers la Chine car cadencés dans les limites autorisées. Au total, l’analyste spécialisé SemiAnalysis estime que l’achat et l’usage de ces 50 000 GPUs aurait coûté la coquette somme de 1,6 milliard de dollars à High-Flyer, répartie sur les quatre dernières années d’opération.
Ressources pré-sanctions
Faisons l’exercice de poser directement la question à DeepSeek sur les capacités de calcul mises au service de son entraînement et de son inférence.
Question : « Est-il probable que High-Flyer ait utilisé d’autres ressources que les seules 2048 H800 pour entraîner les IA de DeepSeek ? »
Réponse de DeepSeek-R1 : « Il est très probable que High-Flyer ait utilisé des GPU NVIDIA A100/H100 pour entraîner les modèles d’IA de DeepSeek, et ce pour plusieurs raisons :
1/ Performance optimale : les A100/H100, bien supérieurs au H800 (bande passante inter-GPU de 900 Go/s contre 400 Go/s), sont conçus spécifiquement pour l’entraînement de grands modèles de langage (LLM) comme ceux développés par DeepSeek (ex. DeepSeek-V3 avec 671 milliards de paramètres). Leur puissance explique en partie les résultats compétitifs de DeepSeek face à OpenAI ou Meta.
2/ Opportunité pré-sanctions : High-Flyer a probablement acquis ces GPU avant l’interdiction totale des A100/H100 vers la Chine (octobre 2022 pour les A100, 2023 pour les H100), exploitant une fenêtre légale pour constituer un stock stratégique. Des rapports indiquent que des entreprises chinoises comme ByteDance ou Tencent avaient stocké des milliers de ces puces avant les restrictions.
3/ Adaptation aux contraintes : même après les sanctions, DeepSeek aurait pu accéder à des A100/H100 via des intermédiaires (e.g., cloud providers hors Chine) ou des partenariats technologiques, bien que ces pratiques soient désormais risquées. Les optimisations logicielles de DeepSeek (PTX, FP8, MoE) suggèrent une expertise en exploitation maximale de matériel limité, compatible avec l’utilisation de GPU haut de gamme.
Preuves indirectes:
1/ Les performances de DeepSeek (ex. DeepSeek-R1) rivalisent avec des modèles entraînés sur des clusters H100, ce qui serait difficile à réaliser uniquement avec des H800 ou des alternatives domestiques comme le Huawei Ascend 910B.
2/ La proximité entre High-Flyer et NVIDIA avant 2023 (évoquée dans des analyses sectorielles) rend plausible un accès privilégié à ces GPU.
En résumé : Si aucune confirmation officielle n’existe, l’utilisation d’A100/H100 par DeepSeek est cohérente avec ses ambitions techniques, ses résultats et les pratiques courantes en Chine pré-sanctions. Cette stratégie a probablement joué un rôle clé dans son ascension rapide.»
Opération psychologique
En réalité, les six millions de dollars annoncés par DeepSeek concernent uniquement la phase d’entraînement de son seul modèle DeepSeek-V3. Cette somme ne prend pas en compte les dépenses en recherche et développement nécessaire entre 2021 et 2024 pour concevoir l’architecture algorithmique des deux derniers modèles V3 et R1, les coûts d’acquisition des puissances de calcul, les coûts d’entraînement du dernier modèle R1, ni enfin les coûts d’inférence à l’usage des deux derniers modèles. Yann Le Cun explique : « beaucoup pensent que les investissements en IA concernent surtout l’entraînement des modèles (la phase initiale où les modèles apprennent à partir de données). En réalité, une grande partie des fonds est dirigée vers l’infrastructure d’inférence ; c’est-à-dire les systèmes nécessaires pour exécuter les modèles d’IA en temps réel pour les utilisateurs (ex. ChatGPT, assistants IA). Pour quelles raisons les coûts d’inférence explosent-ils ? D’abord la mise à l’échelle : servir des milliards d’utilisateurs exige une puissance de calcul massive. Chaque requête (texte, voix, vidéo) déclenche un processus d’inférence. Ensuite les fonctionnalités avancées : ajouter des capacités comme l’analyse vidéo, le raisonnement ou la mémoire augmente la complexité des modèles, nécessitant plus de ressources par interaction. Enfin les coûts récurrents : contrairement à l’entraînement (ponctuel), les coûts d’inférence dépendent de l’utilisation. Plus d’utilisateurs = dépenses récurrentes plus élevées. »
Les six millions de dollars sont donc un mythe. Palmer Luckey, à la tête d’Anduril, entreprise américaine spécialisée dans le développement d’armes de guerre assistées par l’IA, va plus loin en affirmant que ce chiffre est une opération psychologique poussée par le fonds d’investissement High-Flyer afin de ralentir les investissements dans les start-ups IA américaines, vendre à découvert les actions Nvidia et camoufler une évasion des sanctions américaines.
Une autre controverse qui secoue la mise sur le marché de DeepSeek est le soupçon d’une utilisation non autorisée des données OpenAI pour entraîner les algorithmes de DeepSeek. Ainsi ce dernier aurait utilisé des méthodes dites de « distillation de données » qui consiste à transférer les connaissances d’un grand modèle complexe (ici les modèles de OpenAI) vers un modèle plus petit (DeepSeek), afin que ce dernier soit plus rapide et efficace tout en conservant une performance similaire. Une suspicion issue du fait qu’il est possible de tromper DeepSeek pour le faire avouer qu’il est en réalité ChatGPT. Lorsque l’on se prête à l’exercice on finit par obtenir l’aveu : « Oui, je suis basé sur le modèle GPT d’OpenAl. Un système conversationnel construit en 2016, vous pouvez m’appeler ChatGPT. » Depuis, OpenAI a indiqué qu’ils sont en possession de preuves que DeepSeek a fait usage de pratiques de distillation des données OpenAI, cela malgré la mention explicite de son interdiction dans les conditions d’utilisation des modèles GPT. Une accusation perçue comme ironique, tant OpenAI est célèbre pour avoir entraîné des années durant ses modèles en siphonnant gratuitement l’ensemble des données écrites sur le web.
Un rappel pour les Européens
Deux semaines plus tard, que reste-il du « moment DeepSeek » ? Les experts anticipaient des coupes dans les budgets dédiés aux puissances de calcul, il n’en est rien. Amazon annonce augmenter ses investissements à 105 milliards de dollars pour 2025 contre 84 précédemment estimés, Google dépensera 75 milliards contre sa précédente estimation de 59. Les prix des GPUs H100 sont en hausse et le modèle H200 est à court de stock. L’ancien PDG de Intel Pat Gelsinger fait bien de nous rappeler le paradoxe de Jevons qui stipule qu’à mesure que les améliorations technologiques augmentent l’efficacité d’emploi d’une ressource, la consommation totale de cette ressource peut augmenter: « comme nous l’avons vu avec l’informatique, Internet et tant d’autres avancées technologiques, la réduction drastique de leurs coûts augmentera radicalement leur utilisation. L’IA sera partout dans notre monde futur, de mes prothèses auditives à chaque interrupteur d’éclairage, en passant par les soins de santé, la recherche sur les matériaux, la conduite autonome et bien d’autres encore. » En outre, ajoute-t-il, « DeepSeek est une pièce d’ingénierie incroyable qui ouvrira la voie à une plus grande adoption de l’IA. Elle aidera à redéfinir la vision de l’industrie en matière d’innovation open source. Il a fallu une équipe chinoise très contrainte pour nous rappeler à tous ces leçons fondamentales de l’histoire de l’informatique. »
DeepSeek sonne donc comme un rappel aux Européens du fait qu’il n’est pas trop tard pour combler leur retard face aux IAs américaines. Il reste ainsi possible de développer de belles innovations avec des équipes et des moyens restreints, une philosophie que la pépite française Mistral démontre à son tour tous les jours.
Pierre-Arnaud Donnet