Тема
- #Бенчмарк
- #Модель ИИ
- #Производительность
- #Цена
- #Gemini
Создано: 2024-09-03
Создано: 2024-09-03 12:06
Google недавно выпустил новые модели Gemini.
На самом деле, это не официальные версии, а экспериментальные (Experimental).
Эти модели следующие:
Прежде всего, версии 1.5 Pro Exp и 1.5 Flash Exp можно рассматривать как обновления предыдущих версий. При фактическом тестировании 1.5 Pro Exp показал несколько более высокую производительность по сравнению с 1.5 Pro (показатели бенчмарка также улучшились. Я не приводил данные, но можно считать, что это лучшая из ранее выпущенных версий). 1.5 Flash Exp, разумеется, не является лучшим, но в категории начального уровня он значительно улучшился.
По словам разработчиков, обе версии будут интегрированы в предыдущие версии 1.5 Pro и 1.5 Flash в течение нескольких недель. (Если раньше это была версия 001, то обновление будет до версии 002).
Источник: Chatbot Arena
Если посмотреть на таблицу, то версия Gemini 1.5 Pro Exp находится на 2-м месте, а Gemini 1.5 Flash Exp — на 6-м.
Интересно, что Gemini 1.5 Flash Exp занимает более высокое место, чем Gemini 1.5 Pro, который находится на 10-м и 11-м местах.
С 1-го по 5-е места занимают флагманские версии разных компаний (GPT 4o, Gemini 1.5 Pro, Grok 2), а 6-е и 7-е — начальные линейки (GPT 4o mini, Gemini 1.5 Flash). До недавнего времени Claude 3.5 Sonnet занимал лидирующие позиции... Скорость развития этой отрасли действительно впечатляет...
В любом случае, лично я считаю, что эти две версии (1.5 Pro и 1.5 Flash) вскоре станут официальными, а сейчас мне больше всего интересна версия 1.5 Flash 8b.
Сначала давайте посмотрим на результаты бенчмарка.
Источник: Chatbot Arena
Если посмотреть на приведенный выше бенчмарк, то производительность 1.5 Flash 8b Exp примерно соответствует Claude 3 Sonnet, а по сравнению с 1.5 Flash она несколько ниже, но примерно такая же, как у Llama 3 70 b.
Flash — это облегченная версия Pro, а Flash 8b — еще более облегченная версия (по крайней мере, так кажется?).
Я провел несколько тестов, в том числе тесты с фразами, которые мы часто используем в наших услугах.
В других местах можно найти и другие тесты, поэтому я просто провел несколько из них. При переводе текста со сложной структурой JSON Flash не выдавал удовлетворительных результатов, но Pro-линейка справлялась с этим отлично. Более того, версия Pro Exp выдавала более чистый результат.
Что касается резюмирования и написания текста, то Flash и Flash 8b показали удовлетворительные результаты. Если задача не слишком сложная, то для простых задач можно использовать Flash 8b.
Учитывая производительность и параметры, Google, вероятно, установит довольно низкую цену на Flash 8b при его официальном выпуске.
Похоже, что цена будет настолько низкой, что нанесет серьезный ущерб линейкам других компаний. Когда он выйдет, я снова вернусь к этой теме с новым прайс-листом.
Комментарии0