Тема
- #AppleOpenELM
- #LLM
- #Phi-3
- #Grok
- #Llama3
Создано: 2024-04-27
Создано: 2024-04-27 10:41
За последнюю неделю такие крупные технологические компании, как Apple, Microsoft и Meta, выпустили ряд новых больших языковых моделей, что вызвало значительный резонанс в сфере ИИ. Давайте подробнее рассмотрим основные характеристики и значение этих недавно выпущенных моделей.
25 апреля Apple представила линейку языковых моделей OpenELM собственной разработки. Она включает в себя четыре модели разного размера: 0.27B, 0.45B, 1.08B и 3.04B. Даже самая большая модель имеет всего 3 млрд параметров, что относительно немного. Учитывая, что большинство современных больших языковых моделей имеют не менее 3 млрд параметров, OpenELM можно считать моделью очень малого размера.
Это связано с тем, что Apple разрабатывала OpenELM, в первую очередь, для использования на небольших устройствах. Раньше увеличение числа параметров было основным способом повышения производительности, но в последнее время наблюдается тенденция к уменьшению размера и снижению энергопотребления моделей. Apple продемонстрировала открытость, опубликовав не только весовые коэффициенты и код вывода модели, но и набор данных и фреймворк.
Microsoft также 23 апреля представила модель Phi-3 Mini (3,8 млрд параметров), а в будущем планирует выпустить Phi-3 Small (7 млрд параметров) и Phi-3 Medium (14 млрд параметров). Phi-3 Mini — это открытая модель, которую любой может использовать в коммерческих целях бесплатно. Все новые модели серии Phi-3 будут доступны через облачный сервис Azure от Microsoft.
Meta (ранее Facebook) 18 апреля представила версии Llama 3 размером 8 млрд и 70 млрд параметров, а модель большого размера (400 млрд параметров) планируется выпустить летом. 8-миллиардная модель получила положительные отзывы от сообщества разработчиков за высокую производительность при относительно небольшом размере.
По мнению экспертов, это достигнуто благодаря использованию Meta огромного объема обучающих данных и построению эффективной структуры модели. Можно сказать, что вместо увеличения числа параметров компания сосредоточилась на оптимизации данных и алгоритмов.
Модель Grok 1.5 от xAI, представленная 38 марта, может обрабатывать длинные контекстные токены размером до 128K, что позволяет использовать сложные и длинные подсказки. Если до сих пор основным направлением развития языковых моделей было увеличение числа параметров, то Grok 1.5 задает новую цель — улучшение понимания длинных контекстов.
Таким образом, на фоне недавних релизов новых больших языковых моделей от ведущих компаний, таких как Apple, MS и Meta, направления развития технологий ИИ становятся более разнообразными. Происходят новые попытки в разных направлениях: уменьшение размера моделей и снижение их энергопотребления, оптимизация данных и алгоритмов, улучшение понимания контекста. Будет интересно наблюдать за дальнейшей эволюцией экосистемы ИИ.
Комментарии0