![translation](https://cdn.durumis.com/common/trans.png)
Ceci est un post traduit par IA.
Publication d'OpenELM d'Apple / Phi-3 de MS / Llama 3 de Meta
- Langue de rédaction : Coréen
- •
-
Pays de référence : Tous les pays
- •
- Technologies de l'information
Choisir la langue
Texte résumé par l'IA durumis
- Apple, Microsoft et Meta, les principales entreprises de la Big Tech, ont récemment publié de nouveaux grands modèles de langage, transformant le secteur de l'IA.
- Chaque entreprise présente des modèles différenciés en réduisant la taille des modèles, en optimisant les données/algorithmes, en améliorant la compréhension contextuelle, etc.
- En particulier, OpenELM d'Apple a été développé pour convenir aux petits appareils, et Llama 3 de Meta, grâce à sa structure de modèle efficace, offre des performances exceptionnelles malgré sa petite taille.
Les dernières nouvelles concernant les lancements de grands modèles de langage
Au cours de la dernière semaine, les principales entreprises de technologie, telles qu'Apple, Microsoft et Meta, ont publié de nouveaux grands modèles de langage, suscitant un émoi considérable dans le secteur de l'IA. Examinons plus en détail les caractéristiques et l'importance de ces modèles récemment lancés.
OpenELM d'Apple
Le 25 avril, Apple a dévoilé sa propre gamme de modèles linguistiques OpenELM. Composée de quatre modèles de différentes tailles (0.27B, 0.45B, 1.08B, 3.04B), la plus grande taille n'atteint que 3 milliards de paramètres, ce qui est relativement petit. Étant donné que la plupart des grands modèles de langage actuels comptent au moins 3 milliards de paramètres, OpenELM est considéré comme très petit.
Ceci s'explique par le fait qu'Apple a développé OpenELM en vue de son intégration et de son utilisation sur des appareils de petite taille. Si l'augmentation du nombre de paramètres était autrefois la principale méthode pour atteindre de meilleures performances, la tendance actuelle est plutôt de se concentrer sur la miniaturisation et la légèreté. Apple a également renforcé l'ouverture de son modèle en publiant non seulement les poids du modèle et le code d'inférence, mais aussi les ensembles de données et le framework.
Série Phi-3 de MS
Microsoft a également publié en premier le modèle Phi-3 Mini (3,8 milliards de paramètres) le 23 avril, et prévoit de lancer ultérieurement Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards de paramètres). Phi-3 Mini est un modèle ouvert que tout le monde peut utiliser à des fins commerciales gratuitement. Tous les nouveaux modèles de la série Phi-3 seront proposés via le service cloud d'Azure de MS.
Llama 3 de Meta
Meta (anciennement Facebook) a publié les versions 8B et 70B du modèle Llama 3 le 18 avril, et prévoit de lancer la version 400B, la plus grande taille, en été. En particulier, la version 8B a été saluée par la communauté des développeurs pour ses performances exceptionnelles malgré sa petite taille.
Ce résultat est attribué au fait que Meta a investi une énorme quantité de données d'apprentissage pour construire une structure de modèle efficace. On peut dire que ce résultat est le fruit de la priorité donnée à l'optimisation des données et des algorithmes au lieu d'augmenter le nombre de paramètres.
Grok 1.5 de xAI
Le modèle Grok 1.5 de xAI, présenté le 38 mars, est capable de traiter des tokens de contexte longs jusqu'à 128K, ce qui permet des invites complexes et longues. Alors que la tendance actuelle du développement des modèles linguistiques se concentre uniquement sur l'augmentation de la taille des paramètres, Grok 1.5 a proposé une nouvelle orientation : l'amélioration de la compréhension du contexte long.
Ces dernières semaines, les lancements successifs de nouveaux grands modèles de langage par des entreprises de premier plan comme Apple, MS et Meta ont multiplié les orientations de l'évolution de la technologie de l'IA. De nouvelles tentatives sont constamment entreprises dans divers domaines, notamment la réduction de la taille des modèles et leur légèreté, l'optimisation des données/algorithmes et le renforcement de la compréhension du contexte. Il reste à voir comment l'écosystème de l'IA évoluera à l'avenir.