Rilascio di OpenELM di Apple / Phi-3 di MS / Llama 3 di Meta

Le recenti notizie sul lancio di grandi modelli linguistici

Negli ultimi sette giorni, importanti aziende Big Tech come Apple, Microsoft e Meta hanno rilasciato nuovi grandi modelli linguistici, suscitando un notevole interesse nel settore dell'intelligenza artificiale. Analizziamo più nel dettaglio le principali caratteristiche e il significato di questi nuovi modelli.

OpenELM di Apple

Il 25 aprile, Apple ha rilasciato la propria famiglia di modelli linguistici OpenELM. Composta da quattro modelli di diverse dimensioni (0.27B, 0.45B, 1.08B e 3.04B), anche il modello più grande ha solo 3 miliardi di parametri, il che lo rende relativamente piccolo. Considerando che la maggior parte dei grandi modelli linguistici attuali ha almeno 3 miliardi di parametri, OpenELM può essere considerato di dimensioni molto contenute.
Questo perché Apple ha sviluppato OpenELM principalmente per l'utilizzo su dispositivi di piccole dimensioni. In passato, aumentare il numero di parametri era il principale metodo per ottenere prestazioni elevate, ma di recente la tendenza si è spostata verso la miniaturizzazione e la riduzione del peso. Apple ha aumentato anche la trasparenza, rilasciando non solo i pesi del modello e il codice di inferenza, ma anche il dataset e il framework.

Serie Phi-3 di MS

Anche Microsoft ha rilasciato il modello Phi-3 Mini (3,8 miliardi di parametri) il 23 aprile, con l'intenzione di rilasciare in futuro Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri). Phi-3 Mini è un modello open source, utilizzabile da chiunque gratuitamente e a scopo commerciale. Tutti i nuovi modelli della serie Phi-3 saranno disponibili tramite il servizio cloud Azure di Microsoft.

Llama 3 di Meta

Meta (ex Facebook) ha rilasciato le versioni 8B e 70B del modello Llama 3 il 18 aprile, con l'intenzione di rilasciare la versione 400B, la più grande, durante l'estate. In particolare, la versione 8B è stata accolta con favore dalla community di sviluppatori per le sue prestazioni superiori, nonostante le dimensioni ridotte.
Ciò è dovuto al fatto che Meta ha utilizzato una grande quantità di dati di addestramento e ha creato una struttura di modello efficiente. Possiamo dire che, invece di aumentare il numero di parametri, si è concentrata sull'ottimizzazione dei dati e degli algoritmi.

Grok 1.5 di xAI

Il modello Grok 1.5 di xAI, annunciato il 38 marzo, è in grado di gestire token di contesto lunghi fino a 128K, consentendo prompt complessi e lunghi. Se fino ad ora lo sviluppo dei modelli linguistici si è concentrato sull'aumento delle dimensioni dei parametri, Grok 1.5 introduce una nuova direzione, ovvero il miglioramento della comprensione di contesti lunghi.

⁠⁠⁠⁠⁠⁠⁠
Come abbiamo visto, il rilascio di nuovi grandi modelli linguistici da parte di aziende leader come Apple, Microsoft e Meta negli ultimi sette giorni sta portando a una maggiore diversificazione delle direzioni di sviluppo dell'intelligenza artificiale. Si stanno verificando numerosi nuovi tentativi in diversi ambiti, come la riduzione delle dimensioni e il contenimento del peso dei modelli, l'ottimizzazione dei dati e degli algoritmi e il rafforzamento della capacità di comprensione del contesto. Sarà interessante osservare come l'ecosistema dell'intelligenza artificiale si evolverà in futuro.