![translation](https://cdn.durumis.com/common/trans.png)
Это сообщение переведено AI.
Выбрать язык
Текст, резюмированный ИИ durumis
- Ведущие технологические гиганты, такие как Apple, Microsoft и Meta, недавно представили новые большие языковые модели, что вызвало значительные изменения в индустрии ИИ.
- Каждая компания демонстрирует дифференцированные модели, используя различные методы, такие как уменьшение размера модели, оптимизация данных/алгоритмов, усиление понимания контекста.
- В частности, OpenELM от Apple разработан для использования на небольших устройствах, а Llama 3 от Meta обладает эффективной структурой модели, благодаря которой она демонстрирует высокую производительность, несмотря на свой небольшой размер.
Последние новости о выходе крупных языковых моделей
За последнюю неделю ведущие технологические компании, такие как Apple, Microsoft и Meta, последовательно представили новые большие языковые модели, что вызвало значительный резонанс в сфере искусственного интеллекта. Давайте подробнее рассмотрим ключевые особенности и значение выпущенных моделей.
OpenELM от Apple
25 апреля Apple представила линейку языковых моделей OpenELM собственной разработки. Линейка состоит из четырех моделей разного размера: 0,27B, 0,45B, 1,08B и 3,04B. Самая большая модель имеет всего 3 миллиарда параметров, что относительно немного. Учитывая, что большинство современных больших языковых моделей имеют не менее 3 миллиардов параметров, OpenELM можно считать очень маленькой.
Это связано с тем, что Apple разрабатывала OpenELM с учетом ее использования на небольших устройствах. Раньше увеличение количества параметров было основным способом достижения высокой производительности, но в последнее время наблюдается тенденция к миниатюризации и легковесности. Apple также повысила открытость модели, опубликовав не только веса и код вывода, но и набор данных и платформу.
Серия Phi-3 от MS
Microsoft также представила 23 апреля модель Phi-3 Mini (3,8 миллиарда параметров), а в будущем планирует выпустить Phi-3 Small с 7 миллиардами параметров и Phi-3 Medium с 14 миллиардами параметров. Phi-3 Mini является открытой моделью, которую может бесплатно использовать кто угодно в коммерческих целях. Новые модели серии Phi-3 будут доступны в облачном сервисе Azure от Microsoft.
Llama 3 от Meta
Meta (бывший Facebook) 18 апреля представила версии модели Llama 3 размером 8B и 70B, а более крупная модель размером 400B планируется к выходу летом. В частности, 8B-модель демонстрирует отличную производительность для своего небольшого размера, что вызвало положительные отзывы в сообществе разработчиков.
Это объясняется тем, что Meta использовала огромный объем обучающих данных для создания эффективной структуры модели. Можно сказать, что результатом стал акцент на оптимизации данных и алгоритмов вместо увеличения количества параметров.
Grok 1.5 от xAI
Модель Grok 1.5 от xAI, представленная 38 марта, может обрабатывать длинные контекстные токены длиной до 128K, что позволяет использовать сложные и длинные запросы. Если до сих пор тенденция в разработке языковых моделей сводилась к увеличению размера параметров, то Grok 1.5 предложила новое направление - повышение понимания длинного контекста.
Таким образом, за последнюю неделю последовательный выпуск новых крупных языковых моделей ведущими компаниями, такими как Apple, MS и Meta, свидетельствует о том, что направления эволюции технологий ИИ становятся более разнообразными. Наблюдаются новые попытки в различных аспектах: сокращение размера моделей и их легковесность, оптимизация данных и алгоритмов, повышение понимания контекста. Будет интересно посмотреть, как в будущем будет развиваться экосистема ИИ.