REX sur DotAI

REX sur DotAI


Retour sur DotAI 2024 : les LLMs à l'honneur

Le 17 et 18 octobre j’ai eu la chance d’assister à la 3ème édition de la conférence DotAI 2024. Cette année les LLMs étaient au centre des présentations avec des invités qui représentaient différentes facettes de cet écosystème (Hugging Face, OpenAI, Mistral, Kyutai, DeepMind, ZML, ScikitLearn…). 4 sujets émergent de ces présentations variées (disponibles sur la chaine youtube de la conférence).

L'Open Source, un catalyseur d'innovation pour l'IA

L’open source n’est pas spécifique au domaine de l’IA mais reste un de ses enjeux majeurs. La prise de partie de l’open source par des entreprises comme Hugging Face et Kyutai continue de suivre de près les avancées des approches fermées et de les rendre plus accessibles. Ceci a particulièrement été visible avec la présentation de Realtime API par OpenAI avec lequel il est possible de converser en parlant avec des latences très faibles. Cette annonce a été suivie par la présentation de Moshi par Kyutai le lendemain : un LLM multimodal open source avec lequel on peut également converser avec des latences très faibles. Moshi est certes un peu moins abouti que le nouveau produit d’OpenAI car il n’est pas pensé comme un produit à vendre mais il est entièrement open source ce qui permet d’espérer des modèles concurrents qui pourront égaler ou dépasser les performances de celui proposé par OpenAI très rapidement. Si l’open source finit toujours par rattraper le close source, l’écart entre les avancées des deux semble particulièrement ténu en IA, et est un réel moteur d’innovations et d’améliorations du domaine.

Le défi des compilations GPU-agnostiques : des alternatives à NVIDIA émergent

Il s’agit des travaux visant à offrir des possibilités de compilation GPU-agnostiques ou du moins dans un premier temps optimisé pour d’autres GPUs que les CUDA de NVIDIA. C’est ce que propose le framework ZML qui supporte plusieurs types de GPUs et offre même la possibilité de compiler un modèle qui pourrait fonctionner sur deux processeurs différents (TPU et CUDA par exemple). Ces travaux sont particulièrement intéressants avec l’arrivée de nouveaux processeurs comme les inf2 de AWS sur le marché. Si NVIDIA semble avoir la main sur les GPUs spécialement utilisés pour les LLMs pour le moment ces initiatives seront intéressantes avec l’évolution du marché.

Distillation de modèles : vers des LLMs spécialisés et plus durables

Le troisième sujet est plutôt une approche à l’utilisation des LLMs : la distillation. L’idée est d’utiliser un gros modèle généraliste comme professeur qui servira à spécialiser un plus petit modèle élève sur un sujet plus précis. Cette approche remet en question l’utilisation systématique de gros modèles monolithiques pour tous les problèmes. Un modèle ou un ensemble de petits modèles spécialisés sur des sujets plus précis permet plus de modularité notamment au niveau de leur fine-tuning. Leurs tailles réduites offrent aussi la possibilité de les faire fonctionner de manière locale, et donc d’éviter certains risques liés à la sécurité des données. De manière générale, ces systèmes sont plus faciles à maintenir et moins consommateurs en énergie. En effet, les cas d’applications nécessitant l’ensemble des connaissances d’un gros modèle sont assez peu nombreux et un modèle expert ou une collection de modèles experts se présente comme une alternative avantageuse.

Optimisation en temps réel : l'ajustement des LLMs au moment de l'inférence

Le dernier sujet qui ressort de cette conférence sont l’orientation d’une grande partie des travaux sur l’ajustement des réponses au moment de l’inférence. En effet, l’entrainement de modèles est coûteux et complexe et les pistes d’améliorations à ce niveau ne sont pas faciles d’accès. Les volumes de données en jeu rendent complexe leur traitement et amélioration, seuls quelques acteurs du domaine ont les capacités de stockage et de traitement de ces données. De même, jouer sur l’architecture des modèles suppose de devoir passer par une phase d’entrainement extrêmement coûteuse. De nombreux travaux semblent donc se tourner vers l’amélioration au moment de l’inférence. C’est le cas d’approches comme le RAG, le fine-tuning, le prompt engineering, la génération par contraintes, la distillation etc. Ces méthodes ne sont pas nouvelles mais semblent affirmer leur importance dans le domaine.

Enjeux persistants : biais et impact environnemental de l'IA

En dehors de ces 4 sujets, des questions de fond persistent comme problèmes récurrents du domaine. C’est notamment le cas du biais de représentation et des questions environnementales que l’on essaie d’adresser mais avec des efforts et résultats reconnus comme relativement insuffisants.

Ressources pour aller plus loin :

Roxane JOUSEAU, Data Scientist chez Novencia.

En réagissant à cet article, vous nous permettez d'affiner les contenus que nous publions ici !

  • Awesome (4)
  • Interesting (2)
  • Useful (1)
  • Boring (0)
  • Sucks (0)

Si cet article vous a plu, n’hésitez pas à le partager via