Apple OpenELM / MS Phi-3 / Meta Llama 3 – Ujawnienie nowych modeli

Najnowsze doniesienia o premierach dużych modeli językowych

W ciągu ostatniego tygodnia takie firmy technologiczne jak Apple, Microsoft i Meta ogłosiły premiery nowych, dużych modeli językowych, co wywołało spore poruszenie w branży sztucznej inteligencji. Przyjrzyjmy się bliżej głównym cechom i znaczeniu tych nowo wydanych modeli.

OpenELM firmy Apple

25 kwietnia Apple zaprezentowało własną rodzinę modeli językowych OpenELM. Składa się ona z czterech modeli o różnej wielkości: 0,27B, 0,45B, 1,08B i 3,04B. Nawet największy z nich ma zaledwie 3 miliardy parametrów, co jest stosunkowo niewielką liczbą. Biorąc pod uwagę, że większość dużych modeli językowych posiada co najmniej 3 miliardy parametrów, OpenELM można uznać za model o niewielkiej wielkości.
Wynika to z faktu, że Apple opracowało OpenELM z myślą o wykorzystaniu go głównie w małych urządzeniach. Dawniej zwiększanie liczby parametrów było głównym sposobem na osiągnięcie wysokiej wydajności, ale obecnie trend skupia się na miniaturyzacji i redukcji zużycia zasobów. Apple udostępniło nie tylko wagi modelu i kod wnioskowania, ale również zestaw danych i framework, co zwiększa jego otwartość.

Seria Phi-3 firmy MS

Microsoft również 23 kwietnia udostępnił model Phi-3 Mini (3,8 miliarda parametrów), a w przyszłości planuje wydać Phi-3 Small (7 miliardów parametrów) oraz Phi-3 Medium (14 miliardów parametrów). Phi-3 Mini jest modelem otwartym, który można swobodnie wykorzystywać komercyjnie. Wszystkie nowe modele z serii Phi-3 będą dostępne w usłudze chmurowej Azure firmy Microsoft.

Llama 3 firmy Meta

Meta (dawniej Facebook) 18 kwietnia udostępniła wersje 8B i 70B modelu Llama 3, a wersję 400B planuje udostępnić latem. Zwłaszcza wersja 8B została dobrze przyjęta przez społeczność programistów ze względu na wysoką wydajność przy niewielkiej wielkości.
Uważa się, że wynika to z faktu, że Meta wykorzystało ogromne ilości danych treningowych i zoptymalizowało strukturę modelu. Można to interpretować jako przykład skupienia się na danych i optymalizacji algorytmów zamiast na zwiększaniu liczby parametrów.

Grok 1.5 firmy xAI

Model Grok 1.5 firmy xAI, zaprezentowany 38 marca, obsługuje konteksty o długości do 128 000 tokenów, co umożliwia korzystanie ze złożonych i długich monitów. Podczas gdy dotychczasowy trend rozwoju modeli językowych koncentrował się na zwiększaniu liczby parametrów, Grok 1.5 wprowadza nowe podejście, skupiając się na poprawie zdolności rozumienia długich kontekstów.

⁠⁠⁠⁠⁠⁠⁠
Premiery nowych dużych modeli językowych przez wiodące firmy takie jak Apple, Microsoft i Meta w ciągu ostatniego tygodnia pokazują, że kierunki rozwoju technologii sztucznej inteligencji stają się coraz bardziej zróżnicowane. Obserwujemy liczne nowe podejścia, takie jak zmniejszanie rozmiaru i upraszczanie modeli, optymalizacja danych i algorytmów oraz zwiększanie zdolności rozumienia kontekstu. Warto śledzić, jak będzie ewoluował ekosystem sztucznej inteligencji w przyszłości.