Questo è un post tradotto da IA.
Pubblicazione di OpenELM di Apple / Phi-3 di MS / Llama 3 di Meta
- Lingua di scrittura: Coreana
- •
- Paese di riferimento: Tutti i paesi
- •
- Tecnologia dell'informazione
Seleziona la lingua
Testo riassunto dall'intelligenza artificiale durumis
- Apple, Microsoft e Meta, tra le principali aziende Big Tech, stanno suscitando grandi cambiamenti nel settore dell'IA con la recente pubblicazione di nuovi modelli linguistici di grandi dimensioni.
- Le aziende stanno presentando modelli distintivi in diversi modi, tra cui la riduzione delle dimensioni dei modelli, l'ottimizzazione dei dati/algoritmi e il miglioramento della comprensione del contesto.
- In particolare, OpenELM di Apple è stato sviluppato per dispositivi di piccole dimensioni, mentre Llama 3 di Meta, grazie alla sua struttura di modello efficiente, offre prestazioni eccezionali pur essendo di dimensioni ridotte.
I recenti rilasci dei modelli linguistici di grandi dimensioni degni di nota
Nelle ultime settimane, le principali società di Big Tech come Apple, Microsoft e Meta hanno rilasciato nuovi modelli linguistici di grandi dimensioni, suscitando un notevole clamore nel settore dell'IA. Diamo uno sguardo più approfondito alle principali caratteristiche e al significato di questi modelli recentemente rilasciati.
OpenELM di Apple
Il 25 aprile, Apple ha presentato la propria linea di modelli linguistici OpenELM di sua progettazione. Comprende quattro diversi modelli di dimensioni: 0.27B, 0.45B, 1.08B e 3.04B. Il modello più grande ha solo 3 miliardi di parametri, il che lo rende relativamente piccolo. Considerando che la maggior parte dei modelli linguistici di grandi dimensioni ha almeno 3 miliardi di parametri, OpenELM ha dimensioni molto piccole.
Questo perché Apple ha sviluppato OpenELM con l'obiettivo di utilizzarlo principalmente su dispositivi di piccole dimensioni. In passato, l'aumento del numero di parametri era il principale metodo per ottenere prestazioni elevate, ma di recente c'è una tendenza a concentrarsi sulla miniaturizzazione e sulla leggerezza. In questa occasione, Apple ha aumentato la trasparenza rilasciando non solo i pesi del modello e il codice di inferenza, ma anche il set di dati e il framework.
Serie Phi-3 di MS
Microsoft ha anche presentato il modello Phi-3 Mini (3.8 miliardi di parametri) il 23 aprile, e prevede di rilasciare anche Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri) in futuro. Phi-3 Mini è un modello open source che chiunque può utilizzare liberamente per scopi commerciali. Tutti i nuovi modelli della serie Phi-3 saranno disponibili tramite il servizio cloud Azure di MS.
Llama 3 di Meta
Meta (ex Facebook) ha presentato le versioni 8B e 70B del modello Llama 3 il 18 aprile, e prevede di rilasciare la versione più grande da 400B in estate. In particolare, il modello 8B ha ricevuto il plauso della community di sviluppatori per le sue prestazioni eccezionali, considerando le dimensioni ridotte.
Si ritiene che ciò sia dovuto al fatto che Meta ha investito un'enorme quantità di dati di addestramento per costruire una struttura di modello efficiente. Possiamo dire che il risultato è stato ottenuto concentrandosi sull'ottimizzazione dei dati e degli algoritmi invece di aumentare il numero di parametri.
Grok 1.5 di xAI
Il modello Grok 1.5 di xAI, annunciato il 38 marzo, è in grado di gestire token di contesto lungo fino a 128K, consentendo prompting complesso e lungo. Mentre la tendenza nello sviluppo dei modelli linguistici finora si è concentrata sull'aumento delle dimensioni dei parametri, Grok 1.5 propone un nuovo orientamento, ovvero il miglioramento della comprensione dei contesti lunghi.
Con il lancio di nuovi modelli linguistici di grandi dimensioni da parte di aziende leader come Apple, MS e Meta, l'evoluzione della tecnologia AI sta divenendo sempre più diversificata. Si stanno verificando nuovi tentativi in vari aspetti, tra cui la riduzione delle dimensioni dei modelli e la loro leggerezza, l'ottimizzazione dei dati/algoritmi e il rafforzamento della comprensione del contesto. Sarà interessante osservare come evolverà l'ecosistema AI in futuro.