Temat
- #LLM
- #Phi-3
- #Llama3
- #AppleOpenELM
- #Grok
Utworzono: 2024-04-27
Utworzono: 2024-04-27 10:41
W ciągu ostatniego tygodnia takie firmy technologiczne jak Apple, Microsoft i Meta ogłosiły premiery nowych, dużych modeli językowych, co wywołało spore poruszenie w branży sztucznej inteligencji. Przyjrzyjmy się bliżej głównym cechom i znaczeniu tych nowo wydanych modeli.
25 kwietnia Apple zaprezentowało własną rodzinę modeli językowych OpenELM. Składa się ona z czterech modeli o różnej wielkości: 0,27B, 0,45B, 1,08B i 3,04B. Nawet największy z nich ma zaledwie 3 miliardy parametrów, co jest stosunkowo niewielką liczbą. Biorąc pod uwagę, że większość dużych modeli językowych posiada co najmniej 3 miliardy parametrów, OpenELM można uznać za model o niewielkiej wielkości.
Wynika to z faktu, że Apple opracowało OpenELM z myślą o wykorzystaniu go głównie w małych urządzeniach. Dawniej zwiększanie liczby parametrów było głównym sposobem na osiągnięcie wysokiej wydajności, ale obecnie trend skupia się na miniaturyzacji i redukcji zużycia zasobów. Apple udostępniło nie tylko wagi modelu i kod wnioskowania, ale również zestaw danych i framework, co zwiększa jego otwartość.
Microsoft również 23 kwietnia udostępnił model Phi-3 Mini (3,8 miliarda parametrów), a w przyszłości planuje wydać Phi-3 Small (7 miliardów parametrów) oraz Phi-3 Medium (14 miliardów parametrów). Phi-3 Mini jest modelem otwartym, który można swobodnie wykorzystywać komercyjnie. Wszystkie nowe modele z serii Phi-3 będą dostępne w usłudze chmurowej Azure firmy Microsoft.
Meta (dawniej Facebook) 18 kwietnia udostępniła wersje 8B i 70B modelu Llama 3, a wersję 400B planuje udostępnić latem. Zwłaszcza wersja 8B została dobrze przyjęta przez społeczność programistów ze względu na wysoką wydajność przy niewielkiej wielkości.
Uważa się, że wynika to z faktu, że Meta wykorzystało ogromne ilości danych treningowych i zoptymalizowało strukturę modelu. Można to interpretować jako przykład skupienia się na danych i optymalizacji algorytmów zamiast na zwiększaniu liczby parametrów.
Model Grok 1.5 firmy xAI, zaprezentowany 38 marca, obsługuje konteksty o długości do 128 000 tokenów, co umożliwia korzystanie ze złożonych i długich monitów. Podczas gdy dotychczasowy trend rozwoju modeli językowych koncentrował się na zwiększaniu liczby parametrów, Grok 1.5 wprowadza nowe podejście, skupiając się na poprawie zdolności rozumienia długich kontekstów.
Premiery nowych dużych modeli językowych przez wiodące firmy takie jak Apple, Microsoft i Meta w ciągu ostatniego tygodnia pokazują, że kierunki rozwoju technologii sztucznej inteligencji stają się coraz bardziej zróżnicowane. Obserwujemy liczne nowe podejścia, takie jak zmniejszanie rozmiaru i upraszczanie modeli, optymalizacja danych i algorytmów oraz zwiększanie zdolności rozumienia kontekstu. Warto śledzić, jak będzie ewoluował ekosystem sztucznej inteligencji w przyszłości.
Komentarze0