Apple OpenELM / MS Phi-3 / Meta Llama 3 modelljei nyilvánosak

A legújabb, figyelemre méltó nagyméretű nyelvi modellek megjelenése

Az elmúlt egy hétben az Apple, a Microsoft és a Meta, mint a legnagyobb technológiai vállalatok, egymás után új nagyméretű nyelvi modelleket jelentettek meg, jelentős visszhangot keltve az AI iparágban. Ebben a bejegyzésben részletesebben megvizsgáljuk az új modellek főbb jellemzőit és jelentőségét.

Az Apple OpenELM-je

Április 25-én az Apple bemutatta saját fejlesztésű OpenELM nyelvi modelljeit. A modellcsalád 4 különböző méretű változatból áll (0,27B, 0,45B, 1,08B és 3,04B), a legnagyobb modell is mindössze 3 milliárd paraméterrel rendelkezik, ami viszonylag kicsi. Tekintve, hogy a legtöbb nagyméretű nyelvi modell legalább 3 milliárd paraméterrel rendelkezik, az OpenELM mérete valóban szerénynek mondható.
Ennek oka, hogy az Apple elsősorban a kisebb eszközökön való használatra tervezte az OpenELM-et. Korábban a paraméterek számának növelése volt a kiemelt cél a teljesítmény javítása érdekében, de mostanában a méretcsökkentés és a könnyű kezelhetőség kerül előtérbe. Az Apple ezúttal nemcsak a modell súlyait és a következtetési kódot tette nyilvánossá, hanem az adatbázist és a keretrendszert is, ezzel növelve az OpenELM nyitottságát.

Az MS Phi-3 sorozata

A Microsoft is bemutatta a Phi-3 Mini modellt (3,8 milliárd paraméter) április 23-án, és a későbbiekben egy 7 milliárd paraméteres Phi-3 Small és egy 14 milliárd paraméteres Phi-3 Medium modell megjelenését is tervezi. A Phi-3 Mini nyílt forráskódú modell, amelyet bárki szabadon használhat kereskedelmi célokra is. Az új Phi-3 modellek mindegyike a Microsoft Azure felhőszolgáltatásán keresztül lesz elérhető.

A Meta Llama 3-a

A Meta (korábban Facebook) április 18-án tette közzé a Llama 3 modell 8 milliárd és 70 milliárd paraméteres változatát, a 400 milliárd paraméteres nagyméretű változat pedig nyáron várható. Különösen az 8 milliárd paraméteres modell kapott pozitív visszajelzéseket a fejlesztői közösségtől, mert a kicsi méretéhez képest kiváló teljesítményt nyújt.
Ennek oka, hogy a Meta hatalmas mennyiségű képzési adatot használt fel, és hatékony modellstruktúrát hozott létre. Ahelyett, hogy a paraméterek számát növelték volna, a Meta inkább az adatokra és az algoritmusok optimalizálására összpontosított.

Az xAI Grok 1.5-e

A március 38-án bejelentett xAI Grok 1.5 modell akár 128 000 hosszú kontextus token feldolgozására képes, így összetett és hosszú utasítások megadására is alkalmas. Míg a korábbi nyelvi modellek fejlesztése elsősorban a paraméterek számának növelésére összpontosított, addig a Grok 1.5 egy új irányt mutat be a hosszú szövegek megértésének fejlesztése terén.

⁠⁠⁠⁠⁠⁠⁠
Ahogy az elmúlt egy hétben láthattuk, az Apple, a Microsoft és a Meta, mint vezető vállalatok, új nagyméretű nyelvi modelleket vezettek be, ezzel a mesterséges intelligencia technológiák fejlődési iránya egyre változatosabbá válik. A modellméret csökkentése és könnyű kezelhetősége, az adatok/algoritmusok optimalizálása, valamint a kontextus megértésének javítása – számos új megközelítés jelenik meg. Izgalmas lesz látni, hogy az AI ökoszisztéma hogyan fejlődik tovább a jövőben.