DeepSeek, pourquoi autant d’engouement ?

Fin janvier, lors de Crypto XR, j’ai été interrogé sur scène à propos de la nouveauté du moment : DeepSeek. On m’a demandé en quoi ce modèle se distinguait des précédents, et pourquoi il suscitait autant d’attention. J’avais répondu à chaud à ces questions devant le public, mais je profite de ce mois de mars, un peu plus calme, pour poser par écrit quelques éléments de contexte et d’analyse.
À la fin de l’hiver, l’équipe de DeepSeek avait en effet publié un article marquant, présentant une approche originale pour enseigner aux systèmes d’IA comment raisonner de manière plus efficace et naturelle. L’ensemble reposait sur un nouvel algorithme central, une méthode de formation en deux phases, et des résultats impressionnants à la clé.
Contexte : un pas de plus dans le raisonnement des IA
Depuis plusieurs mois, les géants du secteur comme OpenAI, Anthropic ou Google avaient exploré diverses stratégies de « post-training » pour affiner leurs modèles une fois pré-entraînés, à la manière d’une spécialisation après un tronc commun. OpenAI, avec sa série « on, o3, .. », avait franchi une étape notable en amenant ses modèles à « réfléchir en plusieurs étapes », en les récompensant pour une résolution pas à pas des problèmes.
Mais la question restait entière : au-delà de l’affinage, comment enseigner à une IA le raisonnement en tant que compétence native ?
Une innovation méthodologique : Group Relative Policy Optimization (GRPO)
C’est sur ce point que DeepSeek a marqué une rupture. Leur proposition : un algorithme baptisé GRPO, ou Group Relative Policy Optimization. Le principe en était à la fois simple et astucieux :
- Lorsqu’un problème était posé, le modèle ne proposait pas une seule solution, mais plusieurs variantes d’un même raisonnement.
- Chacune de ces réponses était ensuite comparée à la moyenne du groupe pour en évaluer la qualité relative — une mesure appelée « avantage ».
- Cette comparaison normalisée permettait de guider l’apprentissage sans avoir recours à un modèle « critique » externe.
Pour éviter des ajustements trop brutaux, DeepSeek avait introduit deux garde-fous : une fonction de clipping limitait les changements excessifs, et une mesure de divergence (KL divergence) surveillait la distance par rapport au comportement initial du modèle. Résultat : un apprentissage plus stable et plus efficient que les approches classiques.
Deux grandes étapes dans la construction du modèle
Phase 1 — DeepSeek-R1-Zero : le pari du raisonnement sans exemples
La première phase fut radicale : entraîner un modèle uniquement par renforcement, sans données annotées, ni démonstrations humaines. Pour cela, ils avaient conçu un format de réponse structuré — avec des balises et — et défini deux systèmes de récompense : l’un pour la justesse des réponses, l’autre pour le respect du format.
Ce qui avait émergé naturellement de cet apprentissage était assez remarquable :
- Le modèle apprenait à passer plus de temps sur les problèmes complexes.
- Il développait des stratégies de vérification internes.
- Il apprenait à « faire une pause » et recommencer son raisonnement lorsqu’il sentait que quelque chose clochait.
L’équipe avait même observé des « aha moments » — des moments où le modèle stoppait net une chaîne de raisonnement et repartait de zéro, sans y avoir été explicitement incité.
Phase 2 — DeepSeek-R1 : transformer le raisonnement brut en raisonnement clair
Une fois cette première version obtenue, l’enjeu fut de canaliser cette intelligence spontanée en un système plus rigoureux, plus lisible, et plus polyvalent. Cela passa par une seconde phase structurée en quatre étapes :
- Cold start : Fournir au modèle une base de départ avec des milliers de raisonnements bien rédigés, générés automatiquement, sélectionnés depuis R1-Zero, ou raffinés par des humains.
- Entraînement intensif : Le modèle fut ensuite confronté à un grand nombre de problèmes (maths, code, raisonnement scientifique), avec des récompenses accordées à la fois pour la justesse des réponses et pour la clarté du raisonnement.
- Génération et filtrage : Le système produisit plusieurs centaines de milliers de réponses, parmi lesquelles seules les meilleures furent conservées — environ 600 000 exemples de raisonnement + 200 000 pour des tâches plus générales (rédaction, QA…).
- Équilibrage final : Un dernier cycle de renforcement servit à maintenir un équilibre entre rigueur, utilité, sécurité et capacité pédagogique.
Des résultats à la hauteur de l’ambition
À l’issue de ce processus, DeepSeek-R1 présentait des performances remarquables :
- 80 % de réussite à l’AIME, un concours mathématique américain particulièrement exigeant.
- Top 4 % des classements humains en compétition de code.
- Plus de 90 % de justesse sur des tests standards de culture générale, notamment en STEM.
Un modèle plus léger, mais toujours aussi compétent
L’une des autres réussites majeures de l’équipe fut la distillation : une méthode pour extraire l’essentiel des compétences du grand modèle et les transmettre à des versions plus petites, tout en conservant un niveau de performance impressionnant.
Même leur modèle 32B (beaucoup plus léger que la version 70B) résolvait encore 72 % des problèmes de l’AIME et se montrait très solide sur les tâches complexes. Fait notable : les tentatives d’entraîner directement ces modèles plus petits par renforcement n’avaient pas donné de bons résultats — il avait fallu leur apprendre à imiter le raisonnement du grand modèle, comme un étudiant qui apprendrait en étudiant les démonstrations d’un maître.
Des défis à venir, mais une voie prometteuse
Malgré ces avancées, certains points restaient perfectibles : la gestion du dialogue multi-tours, les interactions plus souples et le multilingue posaient encore des difficultés. Des points qui orienteront sans doute les prochaines recherches de DeepSeek — et plus largement, du domaine tout entier.
Une transition dans la manière d’entraîner les IA
Plus qu’une prouesse technique, cette approche ouvrait une nouvelle manière de penser l’apprentissage des IA : plutôt que de les nourrir uniquement d’exemples, leur permettre d’explorer, de se corriger, et d’atteindre des formes de raisonnement plus autonomes et compréhensibles.
DeepSeek, pourquoi autant d’engouement ? was originally published in P2Enjoy SAS (IA & Web3) on Medium, where people are continuing the conversation by highlighting and responding to this story.