Publication d'OpenELM d'Apple / Phi-3 de MS / Llama 3 de Meta

Ceci est un post traduit par IA.

해리슨 블로그

Publication d'OpenELM d'Apple / Phi-3 de MS / Llama 3 de Meta

Langue de rédaction : Coréen
•
Pays de référence : Tous les pays
•
Technologies de l'information

해리슨

0000-00-00 00:00:00

Choisir la langue

Français
English
汉语
Español
Bahasa Indonesia
Português
Русский
日本語
한국어
Deutsch
Italiano
Türkçe
Tiếng Việt
ไทย
Polski
Nederlands
हिन्दी
Magyar

Texte résumé par l'IA durumis

Apple, Microsoft et Meta, les principales entreprises de la Big Tech, ont récemment publié de nouveaux grands modèles de langage, transformant le secteur de l'IA.
Chaque entreprise présente des modèles différenciés en réduisant la taille des modèles, en optimisant les données/algorithmes, en améliorant la compréhension contextuelle, etc.
En particulier, OpenELM d'Apple a été développé pour convenir aux petits appareils, et Llama 3 de Meta, grâce à sa structure de modèle efficace, offre des performances exceptionnelles malgré sa petite taille.

Les dernières nouvelles concernant les lancements de grands modèles de langage

Au cours de la dernière semaine, les principales entreprises de technologie, telles qu'Apple, Microsoft et Meta, ont publié de nouveaux grands modèles de langage, suscitant un émoi considérable dans le secteur de l'IA. Examinons plus en détail les caractéristiques et l'importance de ces modèles récemment lancés.

OpenELM d'Apple

Le 25 avril, Apple a dévoilé sa propre gamme de modèles linguistiques OpenELM. Composée de quatre modèles de différentes tailles (0.27B, 0.45B, 1.08B, 3.04B), la plus grande taille n'atteint que 3 milliards de paramètres, ce qui est relativement petit. Étant donné que la plupart des grands modèles de langage actuels comptent au moins 3 milliards de paramètres, OpenELM est considéré comme très petit.
Ceci s'explique par le fait qu'Apple a développé OpenELM en vue de son intégration et de son utilisation sur des appareils de petite taille. Si l'augmentation du nombre de paramètres était autrefois la principale méthode pour atteindre de meilleures performances, la tendance actuelle est plutôt de se concentrer sur la miniaturisation et la légèreté. Apple a également renforcé l'ouverture de son modèle en publiant non seulement les poids du modèle et le code d'inférence, mais aussi les ensembles de données et le framework.

Série Phi-3 de MS

Microsoft a également publié en premier le modèle Phi-3 Mini (3,8 milliards de paramètres) le 23 avril, et prévoit de lancer ultérieurement Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards de paramètres). Phi-3 Mini est un modèle ouvert que tout le monde peut utiliser à des fins commerciales gratuitement. Tous les nouveaux modèles de la série Phi-3 seront proposés via le service cloud d'Azure de MS.

Llama 3 de Meta

Meta (anciennement Facebook) a publié les versions 8B et 70B du modèle Llama 3 le 18 avril, et prévoit de lancer la version 400B, la plus grande taille, en été. En particulier, la version 8B a été saluée par la communauté des développeurs pour ses performances exceptionnelles malgré sa petite taille.
Ce résultat est attribué au fait que Meta a investi une énorme quantité de données d'apprentissage pour construire une structure de modèle efficace. On peut dire que ce résultat est le fruit de la priorité donnée à l'optimisation des données et des algorithmes au lieu d'augmenter le nombre de paramètres.

Grok 1.5 de xAI

Le modèle Grok 1.5 de xAI, présenté le 38 mars, est capable de traiter des tokens de contexte longs jusqu'à 128K, ce qui permet des invites complexes et longues. Alors que la tendance actuelle du développement des modèles linguistiques se concentre uniquement sur l'augmentation de la taille des paramètres, Grok 1.5 a proposé une nouvelle orientation : l'amélioration de la compréhension du contexte long.

⁠⁠⁠⁠⁠⁠⁠
Ces dernières semaines, les lancements successifs de nouveaux grands modèles de langage par des entreprises de premier plan comme Apple, MS et Meta ont multiplié les orientations de l'évolution de la technologie de l'IA. De nouvelles tentatives sont constamment entreprises dans divers domaines, notamment la réduction de la taille des modèles et leur légèreté, l'optimisation des données/algorithmes et le renforcement de la compréhension du contexte. Il reste à voir comment l'écosystème de l'IA évoluera à l'avenir.

Sujet

#AppleOpenELM
#Grok
#Llama3
#LLM
#Phi-3

Texte résumé par l'IA durumis

Apple, Microsoft et Meta, les principales entreprises de la Big Tech, ont récemment publié de nouveaux grands modèles de langage, transformant le secteur de l'IA.
Chaque entreprise présente des modèles différenciés en réduisant la taille des modèles, en optimisant les données/algorithmes, en améliorant la compréhension contextuelle, etc.
En particulier, OpenELM d'Apple a été développé pour convenir aux petits appareils, et Llama 3 de Meta, grâce à sa structure de modèle efficace, offre des performances exceptionnelles malgré sa petite taille.

해리슨: 해리슨 블로그; 해리슨의 깜짝 블로그

Autres articles de cet auteur
Afficher le texte complet

Prix des LLM Gemini 1.5 Flash, GPT-4o et autres Comparaison des performances et des prix des modèles d'IA les plus récents, tels que GPT-4o, Gemini 1.5 Pro, Claude 3 Haiku et Gemini 1.5 Flash. Nous vous montrons comment choisir le modèle qui vous convient en fonction de la taille des jetons d'entrée, d

18 mai 2024

Services AI recommandés récemment Présentation des services AI recommandés et populaires. À l'exception de ChatGPT et Gemini, nous avons rassemblé des services qui peuvent améliorer l'efficacité du travail, notamment NotebookLM et Perplexity AI. NotebookLM est un service fourni par Google

23 juin 2024

Comparaison des prix de ChatGPT et Gemini Nous comparons les deux principaux services LLM actuellement disponibles, ChatGPT et Gemini. ChatGPT, basé sur des jetons, coûte 0,125 $ pour 1 million de jetons, tandis que Gemini, basé sur des caractères, facture 0,125 $ pour 1 million de caractères en

7 mars 2024