Edit Content

Contact

BD3-LMs : une nouvelle ère pour la génération de texte ?

Imaginez une IA qui rédige du texte comme un écrivain chevronné : d’abord en esquissant les grandes lignes, puis en affinant chaque partie jusqu’à obtenir un résultat fluide, pertinent et cohérent. C’est exactement ce que promettent les BD3-LMs, une nouvelle classe de modèles de langage hybrides qui marient deux paradigmes autrefois opposés : l’autoregression (comme GPT) et la diffusion discrète.

Pourquoi vouloir autre chose que GPT ?

Les modèles autoregressifs (AR) génèrent le texte un token à la fois, de gauche à droite, en s’appuyant sur les précédents. Cela leur permet d’atteindre une excellente qualité linguistique. Leur force repose également sur le cache KV (keys/values) : chaque token précédemment généré voit ses représentations internes mémorisées, ce qui évite de recalculer le contexte complet à chaque itération.

Mais cette génération séquentielle empêche le parallélisme : chaque token doit attendre le précédent. Pour produire L tokens, il faut L passes. Sur des séquences longues, c’est un frein important à la vitesse d’inférence.

À l’opposé, les modèles à diffusion discrets génèrent l’ensemble d’une séquence en plusieurs passes globales. L’idée est de partir d’une séquence bruitée (tokens aléatoires ou masqués) et d’apprendre à la débruiter progressivement. Cette approche permet une génération parallélisable sur tous les tokens d’une séquence, mais impose une longueur fixe de sortie. Surtout, les modèles de diffusion discrets classiques (comme D3PM, MDLM ou SSD-LM) n’ont pas encore atteint la perplexité des ARs, ni leur efficacité d’inférence.

BD3-LMs : la rencontre de deux mondes

Les BD3-LMs (Block Discrete Denoising Diffusion Language Models) introduisent une idée simple mais puissante : générer le texte par blocs de tokens (par exemple, 4, 8 ou 16 tokens à la fois), chaque bloc étant généré par un modèle de diffusion, mais enchaînés de façon autoregressive.

Concrètement, chaque bloc xᵇ est généré conditionnellement sur tous les blocs précédents x⁽<ᵇ⁾), via une factorisation autoregressive :

p(x) = ∏₍b₎ p(xᵇ | x⁽<ᵇ⁾)

Chaque bloc est ensuite généré à l’intérieur via un processus de diffusion discret — c’est-à-dire une séquence de transitions stochastiques q(xₜ | xₜ₋₁) et de débruitage p(xₜ₋₁ | xₜ, x⁽<ᵇ⁾) sur un espace discret de tokens.

Cela permet au modèle :

  • de profiter de la parallélisation intra-bloc
  • de mémoriser les représentations KV pour le contexte inter-blocs
  • de générer des séquences de longueur variable (en s’arrêtant sur un token EOS comme un AR)

Ce design structurel réalise une interpolation continue entre AR pur (bloc de taille 1) et diffusion intégrale (bloc de la taille de la séquence).

Comment ça fonctionne ?

  1. Découpage : le texte est divisé en blocs de L’ tokens.
  2. Génération autoregressive : on génère chaque bloc conditionnellement aux précédents.
  3. Débruitage intra-bloc : chaque bloc est initialisé avec une séquence bruitée, puis affiné via un processus de débruitage conditionné.

Les masques d’attention sont construits de manière à ce que chaque token voie :

  • tous les tokens de son propre bloc (bidirectionnel)
  • tous les tokens des blocs précédents (causal)

mais jamais ceux des blocs futurs, garantissant une factorisation valide.

https://github.com/kuleshov-group/bd3lms

Entraînement intelligent, génération rapide

L’architecture BD3-LM a été pensée pour l’efficacité :

  • Entraînement vectorisé : tous les blocs sont entraînés en parallèle. On présente au modèle une séquence entière, dont certains blocs sont bruités, et il apprend à les reconstituer en une seule passe.
  • Noise scheduling adaptatif : certaines étapes de bruit génèrent plus d’instabilité. En adaptant la probabilité de sampling du niveau de bruit (t ) pendant l’entraînement, on réduit la variance du gradient et améliore la convergence. Ce principe est inspiré de travaux sur les DDPM en vision, adaptés ici au domaine discret.
  • Cache KV : comme dans les AR, les blocs précédents sont encodés et mis en cache. Cela permet de réutiliser leurs clés/valeurs d’attention sans recalculer.
  • Génération vectorisée : avec seulement 2 passes réseau, BD3-LM peut générer l’ensemble des blocs via des techniques de masquage et de buffering des représentations internes. C’est une avancée majeure par rapport aux diffusions classiques qui nécessitent des dizaines ou centaines de passes.

Performances : ce que disent les chiffres

  • Perplexité : les BD3-LMs atteignent une perplexité de 20.7 (bloc de 4) à 22.1 (bloc de 16), contre 24.6 pour MDLM et >26 pour SSD-LM. Cela représente une amélioration de plus de 13 % par rapport à l’état de l’art des modèles à diffusion.
  • Longueur générée : contrairement aux diffusions classiques (D3PM, MDLM, etc.), BD3-LM peut générer des textes plus longs que la séquence d’entraînement, atteignant plusieurs milliers de tokens avec cohérence.
  • Nombre de passes (NFE) : SSD-LM nécessite jusqu’à 40 000 évaluations de réseau pour générer 1024 tokens. BD3-LM en nécessite ~1000, soit autant qu’un modèle AR, tout en générant 4 à 16 tokens par itération.
  • Qualité générative : en perplexité mesurée par un modèle externe (GPT-2), BD3-LM surpasse MDLM, D3PM et SSD-LM.

En conclusion

Les BD3-LMs montrent qu’on peut sortir du compromis classique entre qualité et vitesse. En générant par blocs, ils offrent une voie hybride crédible, rapide et efficace pour la génération de texte à grande échelle.

Ils conservent la qualité linguistique des autoregressifs, tout en exploitant le parallélisme des modèles de diffusion. Grâce à leur capacité à produire des séquences longues, à utiliser le KV caching et à s’adapter à différentes tailles de blocs, ils offrent une flexibilité inédite.

Questions

Qu’en est-il des tâches applicatives ? Si les BD3-LMs brillent sur les métriques classiques (perplexité, vitesse), il reste à explorer leur potentiel sur des tâches avales telles que la génération conditionnée, la complétion guidée ou encore le dialogue. Les résultats dans ces contextes pratiques, notamment en fine-tuning ou instruction tuning, n’ont pas encore été publiés à grande échelle.

Quel coût d’entraînement ? Le modèle nécessite des techniques spécifiques comme le noise scheduling adaptatif et le débruitage discret, mais l’entraînement reste vectorisé et bien optimisé. Toutefois, les coûts exacts en FLOPs comparés aux modèles AR ou MDLM classiques ne sont pas encore communiqués en détail.

Peut-on ajuster dynamiquement la taille des blocs ? La taille L’ est fixée pour chaque modèle entraîné (4, 8, 16 tokens). Aucune expérimentation n’a encore été publiée sur une adaptation dynamique de cette taille pendant l’inférence. Cela reste une piste de recherche prometteuse pour combiner précision contextuelle (petits blocs) et rapidité (grands blocs) dans un même pipeline.

L’avenir du traitement du langage pourrait bien s’écrire… bloc par bloc.

Sources

#LanguageModels #ArtificialIntelligence #DiffusionModels #AIResearch


BD3-LMs : une nouvelle ère pour la génération de texte ? was originally published in P2Enjoy SAS (IA & Web3) on Medium, where people are continuing the conversation by highlighting and responding to this story.