해리슨 블로그

Publication d'OpenELM par Apple / Phi-3 par Microsoft / Llama 3 par Meta

Création: 2024-04-27

Création: 2024-04-27 10:41

Les récentes annonces de lancement de grands modèles de langage à surveiller

Au cours de la semaine dernière, les principales entreprises de la tech, telles qu'Apple, Microsoft et Meta, ont annoncé le lancement de nouveaux grands modèles de langage, suscitant un écho important dans le secteur de l'IA. Nous allons examiner plus en détail les principales caractéristiques et l'importance de ces modèles récemment lancés.

OpenELM d'Apple

Le 25 avril, Apple a dévoilé sa propre gamme de modèles linguistiques, OpenELM. Composée de quatre modèles de tailles différentes (0,27B, 0,45B, 1,08B et 3,04B), la plus grande version ne compte que 3 milliards de paramètres, ce qui est relativement peu. Sachant que la plupart des grands modèles de langage actuels comptent au moins 3 milliards de paramètres, OpenELM est considéré comme un modèle de petite taille.
Cela s'explique par le fait qu'Apple a conçu OpenELM principalement pour une utilisation sur des appareils de petite taille. Si, par le passé, l'augmentation du nombre de paramètres était la principale méthode pour améliorer les performances, la tendance actuelle est de privilégier la miniaturisation et l'allègement. Apple a également renforcé l'aspect ouvert de son modèle en publiant non seulement les poids du modèle et le code d'inférence, mais aussi l'ensemble des données et du framework.

La série Phi-3 de Microsoft

Microsoft a également annoncé, le 23 avril, le lancement du modèle Phi-3 Mini (3,8 milliards de paramètres), suivi prochainement par Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards de paramètres). Phi-3 Mini est un modèle open source, accessible à tous gratuitement et pouvant être utilisé à des fins commerciales. La nouvelle série de modèles Phi-3 sera accessible via le service cloud Azure de Microsoft.

Llama 3 de Meta

Meta (anciennement Facebook) a dévoilé les versions 8B et 70B de Llama 3 le 18 avril dernier, et prévoit de lancer la version 400B, la plus grande, au cours de l'été. La version 8B, malgré sa petite taille, a été saluée par la communauté des développeurs pour ses performances supérieures.
Selon les analyses, cela est dû à l'utilisation par Meta d'un volume important de données d'apprentissage et à la construction d'une architecture de modèle efficace. On peut considérer qu'il s'agit du résultat d'une focalisation sur l'optimisation des données et des algorithmes, plutôt que sur l'augmentation du nombre de paramètres.

Grok 1.5 de xAI

Annoncé le 38 mars, le modèle Grok 1.5 de xAI est capable de traiter des séquences de jetons (tokens) longues jusqu'à 128 000, ce qui permet d'utiliser des invites complexes et longues. Alors que la tendance des développements de modèles linguistiques était jusqu'à présent axée sur l'augmentation de la taille des paramètres, Grok 1.5 propose une nouvelle orientation : l'amélioration de la compréhension des contextes longs.

⁠⁠⁠⁠⁠⁠⁠
Ainsi, le lancement de nouveaux grands modèles de langage par des entreprises leaders comme Apple, Microsoft et Meta au cours de la semaine dernière a contribué à diversifier les orientations de l'évolution des technologies de l'IA. Des initiatives novatrices se multiplient dans divers domaines, notamment la réduction de la taille et l'allègement des modèles, l'optimisation des données et des algorithmes, et le renforcement de la compréhension des contextes. L'évolution future de l'écosystème de l'IA est à suivre avec attention.

Commentaires0