![translation](https://cdn.durumis.com/common/trans.png)
Ez egy AI által fordított bejegyzés.
Az Apple OpenELM / MS Phi-3 / Meta Llama 3 nyilvánosságra hozatala
- Írás nyelve: Koreai
- •
-
Referencia ország: Minden ország
- •
- Informatika
Válasszon nyelvet
A durumis AI által összefoglalt szöveg
- Az Apple, a Microsoft és a Meta, mint a főbb technológiai óriások, nemrégiben új nagy nyelvi modelleket hoztak nyilvánosságra, ami jelentős változást hozott az AI iparban.
- A vállalatok a modellek méretének csökkentésével, az adatok/algoritmusok optimalizálásával és a kontextus megértésének javításával különböző módon mutatják be egyedi modelljeiket.
- Különösen az Apple OpenELM-jét úgy fejlesztették ki, hogy alkalmas legyen a kis eszközökhöz, míg a Meta Llama 3-ja hatékony modellstruktúrája révén kisebb méretben is kiváló teljesítményt nyújt.
A legújabb figyelemre méltó nagy nyelvi modellek megjelenése
Az elmúlt egy hétben az Apple, a Microsoft és a Meta, a legnagyobb technológiai vállalatok egymás után új nagy nyelvi modelleket adtak ki, ami jelentős visszhangot váltott ki a mesterséges intelligencia iparában. Ebben a cikkben közelebbről megvizsgáljuk az újonnan kiadott modellek főbb jellemzőit és jelentőségét.
Az Apple OpenELM-je
Április 25-én az Apple bejelentette a saját fejlesztésű OpenELM nyelvi modellcsaládját. A modellcsalád négy különböző méretű modellből áll: 0,27B, 0,45B, 1,08B és 3,04B. A legnagyobb modell is csak 3 milliárd paramétert tartalmaz, ami viszonylag kicsi a mai nagy nyelvi modellekhez képest. Tekintettel arra, hogy a legtöbb nagy nyelvi modell legalább 3 milliárd paraméterrel rendelkezik, az OpenELM-et rendkívül kis méretűnek lehet nevezni.
Ez annak köszönhető, hogy az Apple főként kis eszközökön történő használatra tervezte az OpenELM-et. Korábban a paraméterek számának növelése volt a nagy teljesítmény elérése fő módja, de a közelmúltban a hangsúly a méretcsökkentésre és a könnyűség megőrzésére helyeződött át. Az Apple ebben a kiadásban a modell súlyait és a következtetési kódot is nyilvánosságra hozta, de nemcsak a modell súlyait és a következtetési kódot, hanem az adatkészletet és a keretrendszert is, ezzel növelve az nyitottságot.
A MS Phi-3 sorozata
A Microsoft is kiadott egy Phi-3 Mini modellt (3,8 milliárd paraméter) április 23-án, és a tervek szerint később megjelenik a 7 milliárd paraméteres Phi-3 Small és a 14 milliárd paraméteres Phi-3 Medium is. A Phi-3 Mini egy nyílt modell, amelyet bárki szabadon felhasználhat kereskedelmi célokra. Az új Phi-3 sorozat modelleit a MS Azure felhőszolgáltatása fogja biztosítani.
A Meta Llama 3-ja
A Meta (korábban Facebook) április 18-án adta ki a Llama 3 modell 8B és 70B verzióját, a 400B modell nyáron fog megjelenni. Különösen az 8B modell kapott elismerést a fejlesztői közösségtől, mivel kis mérete ellenére kiemelkedő teljesítményt nyújt.
Ezt azzal magyarázzák, hogy a Meta hatalmas mennyiségű képzési adatot használt fel egy hatékony modellstruktúra létrehozásához. Ahelyett, hogy növelnék a paraméterek számát, a Meta inkább az adatok és az algoritmusok optimalizálására koncentrált.
Az xAI Grok 1.5-je
Az xAI Grok 1.5 modelljét március 38-án mutatták be, és képes legfeljebb 128K hosszú kontextus token feldolgozására, ami lehetővé teszi a bonyolult és hosszú prompt használatát. Míg a korábbi nyelvi modellek fejlesztése elsősorban a paraméterek számának növelésére összpontosított, a Grok 1.5 új irányt mutat a hosszú kontextus megértésének fejlesztésével.
Az elmúlt egy hétben az Apple, a MS és a Meta, a vezető vállalatok új nagy nyelvi modelleinek megjelenése a mesterséges intelligencia technológia fejlődésének sokszínűségét mutatja. A modellméret csökkentése és a könnyűség megőrzése, az adatok/algoritmusok optimalizálása, valamint a kontextus megértésének javítása a legújabb fejlesztésekben felbukkanó új trendek. Izgalmas lesz látni, hogyan fog fejlődni a mesterséges intelligencia ökoszisztéma a jövőben.