Apple OpenELM / MS Phi-3 / Meta Llama 3: Объявление о новых больших языковых моделях

Язык написания: Корейский
•
Страна: Все страны
•
ИТ

Создано: 2024-04-27

Создано: 2024-04-27 10:41

Последние новости о выходе крупных языковых моделей, заслуживающих внимания

За последнюю неделю такие крупные технологические компании, как Apple, Microsoft и Meta, выпустили ряд новых больших языковых моделей, что вызвало значительный резонанс в сфере ИИ. Давайте подробнее рассмотрим основные характеристики и значение этих недавно выпущенных моделей.

OpenELM от Apple

25 апреля Apple представила линейку языковых моделей OpenELM собственной разработки. Она включает в себя четыре модели разного размера: 0.27B, 0.45B, 1.08B и 3.04B. Даже самая большая модель имеет всего 3 млрд параметров, что относительно немного. Учитывая, что большинство современных больших языковых моделей имеют не менее 3 млрд параметров, OpenELM можно считать моделью очень малого размера.
Это связано с тем, что Apple разрабатывала OpenELM, в первую очередь, для использования на небольших устройствах. Раньше увеличение числа параметров было основным способом повышения производительности, но в последнее время наблюдается тенденция к уменьшению размера и снижению энергопотребления моделей. Apple продемонстрировала открытость, опубликовав не только весовые коэффициенты и код вывода модели, но и набор данных и фреймворк.

Серия Phi-3 от MS

Microsoft также 23 апреля представила модель Phi-3 Mini (3,8 млрд параметров), а в будущем планирует выпустить Phi-3 Small (7 млрд параметров) и Phi-3 Medium (14 млрд параметров). Phi-3 Mini — это открытая модель, которую любой может использовать в коммерческих целях бесплатно. Все новые модели серии Phi-3 будут доступны через облачный сервис Azure от Microsoft.

Llama 3 от Meta

Meta (ранее Facebook) 18 апреля представила версии Llama 3 размером 8 млрд и 70 млрд параметров, а модель большого размера (400 млрд параметров) планируется выпустить летом. 8-миллиардная модель получила положительные отзывы от сообщества разработчиков за высокую производительность при относительно небольшом размере.
По мнению экспертов, это достигнуто благодаря использованию Meta огромного объема обучающих данных и построению эффективной структуры модели. Можно сказать, что вместо увеличения числа параметров компания сосредоточилась на оптимизации данных и алгоритмов.

Grok 1.5 от xAI

Модель Grok 1.5 от xAI, представленная 38 марта, может обрабатывать длинные контекстные токены размером до 128K, что позволяет использовать сложные и длинные подсказки. Если до сих пор основным направлением развития языковых моделей было увеличение числа параметров, то Grok 1.5 задает новую цель — улучшение понимания длинных контекстов.

⁠⁠⁠⁠⁠⁠⁠
Таким образом, на фоне недавних релизов новых больших языковых моделей от ведущих компаний, таких как Apple, MS и Meta, направления развития технологий ИИ становятся более разнообразными. Происходят новые попытки в разных направлениях: уменьшение размера моделей и снижение их энергопотребления, оптимизация данных и алгоритмов, улучшение понимания контекста. Будет интересно наблюдать за дальнейшей эволюцией экосистемы ИИ.

Тема

#AppleOpenELM
#LLM
#Phi-3
#Grok
#Llama3

Краткое содержание от durumis

В последнее время ведущие технологические компании, такие как Apple, Microsoft и Meta, представили новые большие языковые модели, оказав значительное влияние на индустрию ИИ.
Apple представила OpenELM, оптимизированную для небольших устройств, MS — Phi-3, доступную в облачном сервисе Azure, а Meta — Llama 3, ориентированную на повышение производительности.
Технологии ИИ развиваются в различных направлениях: уменьшение размера моделей, оптимизация данных/алгоритмов, усиление понимания контекста. Ожидаются изменения в экосистеме ИИ в будущем.