To jest post przetłumaczony przez AI.
Wybierz język
Tekst podsumowany przez sztuczną inteligencję durumis
- Najważniejsze firmy technologiczne, takie jak Apple, Microsoft i Meta, niedawno udostępniły nowe, rozbudowane modele językowe, wywołując znaczące zmiany w branży sztucznej inteligencji.
- Poszczególne firmy prezentują zróżnicowane modele, skupiając się na zmniejszeniu ich rozmiaru, optymalizacji danych/algorytmów lub zwiększeniu zrozumienia kontekstu.
- Szczególnie OpenELM firmy Apple został opracowany z myślą o niewielkich urządzeniach, a Llama 3 firmy Meta, dzięki efektywnej strukturze modelu, osiąga imponujące wyniki pomimo niewielkiego rozmiaru.
Najnowsze informacje o wydaniach dużych modeli językowych
W ciągu ostatniego tygodnia firmy technologiczne, takie jak Apple, Microsoft i Meta, opublikowały nowe duże modele językowe, co wywołało spore zamieszanie w branży AI. Przyjrzyjmy się bliżej kluczowym cechom i znaczeniu tych ostatnich wydań.
OpenELM firmy Apple
25 kwietnia Apple zaprezentował zestaw modeli językowych OpenELM, który został opracowany wewnętrznie. Zestaw składa się z czterech modeli o różnych rozmiarach: 0,27B, 0,45B, 1,08B i 3,04B. Nawet największy z nich ma zaledwie 3 miliardy parametrów, co czyni go stosunkowo małym. Biorąc pod uwagę, że większość dużych modeli językowych ma obecnie co najmniej 3 miliardy parametrów, OpenELM jest naprawdę niewielki.
Jest to spowodowane tym, że Apple opracował OpenELM z myślą o wdrożeniu go głównie na urządzeniach mobilnych. W przeszłości zwiększenie liczby parametrów było głównym sposobem na osiągnięcie wysokiej wydajności, ale ostatnio nastąpił trend w kierunku zmniejszania rozmiaru i wagi modeli. Apple zwiększył również przejrzystość, publikując nie tylko wagi modelu i kod wnioskowania, ale także zestaw danych i framework.
Seria Phi-3 firmy MS
Microsoft również udostępnił model Phi-3 Mini (3,8 miliarda parametrów) 23 kwietnia, a w przyszłości planuje wprowadzić na rynek modele Phi-3 Small o rozmiarze 7 miliardów i Phi-3 Medium o rozmiarze 14 miliardów. Model Phi-3 Mini jest modelem otwartym, dostępnym bezpłatnie dla wszystkich do celów komercyjnych. Wszystkie nowe modele z serii Phi-3 będą dostępne w ramach usługi chmurowej Azure firmy MS.
Llama 3 firmy Meta
Meta (dawniej Facebook) opublikował 18 kwietnia wersje 8B i 70B modelu Llama 3, a wersję 400B, czyli największą, planuje udostępnić latem. W szczególności wersja 8B odznacza się wyjątkową wydajnością, jak na tak niewielki rozmiar, co spotkało się z uznaniem wśród społeczności programistów.
Jest to prawdopodobnie spowodowane tym, że Meta zainwestował w ogromne ilości danych treningowych i stworzył efektywną architekturę modelu. Można powiedzieć, że zamiast zwiększać liczbę parametrów, skupiono się na optymalizacji danych i algorytmów.
Grok 1.5 firmy xAI
Model Grok 1.5 firmy xAI, ogłoszony 38 marca, obsługuje do 128 tysięcy długich tokenów kontekstowych, co umożliwia złożone i długie instrukcje. Dotychczasowe trendy w rozwoju modeli językowych koncentrowały się wyłącznie na zwiększaniu rozmiaru parametrów, natomiast Grok 1.5 wskazuje nowy kierunek, jakim jest zwiększenie zdolności do rozumienia długich kontekstów.
W ciągu ostatniego tygodnia, w związku z publikacją nowych dużych modeli językowych przez wiodące firmy, takie jak Apple, MS i Meta, kierunek ewolucji technologii AI stał się jeszcze bardziej zróżnicowany. Obserwujemy nowe podejścia w różnych aspektach, takich jak zmniejszanie rozmiaru i wagi modeli, optymalizacja danych/algorytmów, zwiększenie zdolności do rozumienia kontekstu. Będziemy bacznie obserwować przyszły rozwój ekosystemu AI.