해리슨 블로그

Apple OpenELM / MS Phi-3 / Meta Llama 3: Объявление о новых больших языковых моделях

  • Язык написания: Корейский
  • Страна: Все страныcountry-flag
  • ИТ

Создано: 2024-04-27

Создано: 2024-04-27 10:41

Последние новости о выходе крупных языковых моделей, заслуживающих внимания

За последнюю неделю такие крупные технологические компании, как Apple, Microsoft и Meta, выпустили ряд новых больших языковых моделей, что вызвало значительный резонанс в сфере ИИ. Давайте подробнее рассмотрим основные характеристики и значение этих недавно выпущенных моделей.

OpenELM от Apple

25 апреля Apple представила линейку языковых моделей OpenELM собственной разработки. Она включает в себя четыре модели разного размера: 0.27B, 0.45B, 1.08B и 3.04B. Даже самая большая модель имеет всего 3 млрд параметров, что относительно немного. Учитывая, что большинство современных больших языковых моделей имеют не менее 3 млрд параметров, OpenELM можно считать моделью очень малого размера.
Это связано с тем, что Apple разрабатывала OpenELM, в первую очередь, для использования на небольших устройствах. Раньше увеличение числа параметров было основным способом повышения производительности, но в последнее время наблюдается тенденция к уменьшению размера и снижению энергопотребления моделей. Apple продемонстрировала открытость, опубликовав не только весовые коэффициенты и код вывода модели, но и набор данных и фреймворк.

Серия Phi-3 от MS

Microsoft также 23 апреля представила модель Phi-3 Mini (3,8 млрд параметров), а в будущем планирует выпустить Phi-3 Small (7 млрд параметров) и Phi-3 Medium (14 млрд параметров). Phi-3 Mini — это открытая модель, которую любой может использовать в коммерческих целях бесплатно. Все новые модели серии Phi-3 будут доступны через облачный сервис Azure от Microsoft.

Llama 3 от Meta

Meta (ранее Facebook) 18 апреля представила версии Llama 3 размером 8 млрд и 70 млрд параметров, а модель большого размера (400 млрд параметров) планируется выпустить летом. 8-миллиардная модель получила положительные отзывы от сообщества разработчиков за высокую производительность при относительно небольшом размере.
По мнению экспертов, это достигнуто благодаря использованию Meta огромного объема обучающих данных и построению эффективной структуры модели. Можно сказать, что вместо увеличения числа параметров компания сосредоточилась на оптимизации данных и алгоритмов.

Grok 1.5 от xAI

Модель Grok 1.5 от xAI, представленная 38 марта, может обрабатывать длинные контекстные токены размером до 128K, что позволяет использовать сложные и длинные подсказки. Если до сих пор основным направлением развития языковых моделей было увеличение числа параметров, то Grok 1.5 задает новую цель — улучшение понимания длинных контекстов.

⁠⁠⁠⁠⁠⁠⁠
Таким образом, на фоне недавних релизов новых больших языковых моделей от ведущих компаний, таких как Apple, MS и Meta, направления развития технологий ИИ становятся более разнообразными. Происходят новые попытки в разных направлениях: уменьшение размера моделей и снижение их энергопотребления, оптимизация данных и алгоритмов, улучшение понимания контекста. Будет интересно наблюдать за дальнейшей эволюцией экосистемы ИИ.

Комментарии0

Создание AI Full Stack с использованием открытого кодаМы представляем различные инструменты для построения AI Full Stack на основе открытого кода, включая LLM, инструменты вывода и обслуживания, фреймворки и решения для мониторинга. Изучите разработку AI-приложений с использованием LangChain, LlamaIndex и др
RevFactory
RevFactory
RevFactory
RevFactory

February 5, 2024

LLM для младших школьниковПонятное объяснение концепции LLM даже для младших школьников! LLM — это ИИ, который отвечает текстом на текстовые вопросы, выполняя различные задачи, такие как кодирование и анализ изображений. Сегодня разработчики используют ИИ как инструмент.
Sunrabbit
Sunrabbit
Sunrabbit
Sunrabbit

March 4, 2025

Google Gemini Ultra будет интегрирован в смартфоныПо сообщениям, Google планирует интегрировать свою большую языковую модель Gemini Ultra в смартфоны, начиная с следующего года. Ожидаются новые функции, такие как AI-агенты, но также остаются технические сложности.
세상 모든 정보
세상 모든 정보
세상 모든 정보
세상 모든 정보

April 1, 2024

Ollama: локальная LLM-системаOllama — это легковесная LLM-система для локальной установки. Поддерживает различные модели, при этом модель llama-3 8B обеспечивает производительность на уровне GPT-3.5. Идеально подходит для пользователей, которые ценят конфиденциальность.
InvisibleHand Blog
InvisibleHand Blog
InvisibleHand Blog
InvisibleHand Blog

November 9, 2024

Snowflake выпускает Arctic — корпоративный LLM с непревзойденной открытостьюSnowflake выпустила Arctic — корпоративный LLM с непревзойденной открытостью в отрасли. Основанный на лицензии Apache 2.0, он поддерживает различные фреймворки и позволяет выполнять кастомизацию.
스타트업 커뮤니티 씬디스 (SeenThis.kr)
스타트업 커뮤니티 씬디스 (SeenThis.kr)
스타트업 커뮤니티 씬디스 (SeenThis.kr)
스타트업 커뮤니티 씬디스 (SeenThis.kr)

April 25, 2024