主題
- #ベンチマーク
- #価格
- #AIモデル
- #パフォーマンス
- #Gemini
作成: 2024-09-03
作成: 2024-09-03 12:06
Googleが最近、Geminiの新しいモデルをリリースしました。
実際には正式版ではなく、実験用(Experimental)バージョンです。
そのモデルは以下の通りです。
まず、1.5 Pro Expと1.5 Flash Expは、既存バージョンのアップデートと見なすことができます。実際にテストしてみると、1.5 Pro Expは、既存の1.5 Proと比較して性能が少し向上しており(ベンチマーク性能も向上しました。資料は持っていませんが、既存のリリース版の中では最高レベルと言えるでしょう)、1.5 Flash Expも当然最高ではありませんが、エントリーバージョンの中では最も優れたレベルにまで向上しました。
これら2つのバージョンは、数週間以内に既存のバージョン1.5 Proと1.5 Flashに反映される予定です。(以前は001バージョンだったので、002バージョンにアップデートされると思われます。)
出典:Chatbot Arena
表を確認すると、Gemini 1.5 Pro Expバージョンが2位にあり、6位にGemini 1.5 Flash Expがあります。
面白いのは、10位と11位にあるGemini 1.5 Proよりも1.5 Flash Expの方が上位にあることです。
1位から5位までは、各社のフラッグシップバージョン(GPT 4o、Gemini 1.5 Pro、Grok 2)で、6位と7位は各社のエントリーライン(GPT 4o mini、Gemini 1.5 Flash)です。しばらくの間、Claude 3.5 Sonnetがトップでしたが…この業界の発展速度は本当に…
とにかく、個人的にはこれら2つのバージョン(1.5 Pro、1.5 Flash)は、時間が経てばすぐに正式版になるでしょうし、現在、私が疑問に思っているのは1.5 Flash 8bバージョンです。
まずはベンチマークを見てから話しましょう。
出典:Chatbot Arena
上記のベンチマークを見ると、1.5 Flash 8b Expの性能は大体既存のClaude 3 Sonnetと似ており、上下は大体既存の1.5 Flashよりも劣りますが、Llama 3 70 bなどと同等の性能を示しています。
FlashはProの軽量版ですが、Flash 8bはそれよりもさらに軽量化されたバージョンであることが分かります。(おそらくそうでしょう?)
まずはいくつか実際にテストしてみたのですが、当社のサービスでよく使われている文章テストです。
他のテストは他の場所にもたくさんあるので、簡単にいくつかテストしてみたのですが、複雑なJSON構造のテキストを翻訳した場合、Flashでは満足のいく結果が出力されませんでしたが、Proラインアップでは明らかに満足のいく結果でした。さらに、Pro Expバージョンでは、よりクリーンな結果が出力されました。
要約、文章作成では、Flashはもちろん、Flash 8bでも満足のいく結果を示しました。高度な難しい作業ではなく、単純な作業であれば、Flash 8bを活用できることが分かります。
性能やパラメータを確認したところ、Googleは正式リリースではFlash 8bの価格をかなり低価格に設定すると思われます。
おそらく、既存の他社のラインアップに大きなダメージを与えるほどの価格設定になると思いますが、リリースされたら、その時また「また」価格表を持って戻ってきます。
コメント0