해리슨 블로그

Google 的 Gemini 新系列 - 实验性

  • 撰写语言: 韓国語
  • 基准国家: 所有国家country-flag
  • 信息技术

撰写: 2024-09-03

撰写: 2024-09-03 12:06

Google最近發布了Gemini的新模型。

實際上,這不是正式版本,而是實驗(Experimental)版本。

這些模型如下所示。

  • Gemini 1.5 Pro Exp
  • Gemini 1.5 Flash Exp
  • Gemini 1.5 Flash 8B Exp

首先,1.5 Pro Exp和1.5 Flash Exp可以視為先前版本的更新。實際測試後發現,1.5 Pro Exp的性能比舊版1.5 Pro有所提升(基準測試性能也有所提高。雖然沒有提供數據,但可以認為它是先前發布的版本中性能最佳的)。1.5 Flash Exp的性能雖然不是最佳,但在入門版本中也得到了顯著的提升。

據說這兩個版本將在幾週內反映到舊版本1.5 Pro和1.5 Flash中。(舊版本是001版本,因此可能會更新到002版本。)

Google 的 Gemini 新系列 - 实验性

来源:Chatbot Arena

查看表格可以發現,Gemini 1.5 Pro Exp版本排名第二,Gemini 1.5 Flash Exp排名第六。

有趣的是,1.5 Flash Exp的排名甚至高於排名第10和第11位的Gemini 1.5 Pro。

前五名是各家公司的旗艦版本(GPT 4o、Gemini 1.5 Pro、Grok 2),第六、第七名是各家公司的入門級產品線(GPT 4o mini、Gemini 1.5 Flash)。Claude 3.5 Sonnet曾經位居榜首……這個行業的發展速度真是太快了…


總之,我個人認為這兩個版本(1.5 Pro、1.5 Flash)很快就會成為正式版本,而我目前最感興趣的是1.5 Flash 8b版本。

首先,讓我們先看看基準測試結果。

Google 的 Gemini 新系列 - 实验性

来源:Chatbot Arena

從上面的基準測試結果可以看出,1.5 Flash 8b Exp的性能大致與舊版Claude 3 Sonnet相當,性能略高或略低於舊版1.5 Flash,但與Llama 3 70 b等模型的性能相當。

Flash是Pro的輕量級版本,而Flash 8b則比Flash更輕量級。(我想應該是這樣吧?)


首先,我親自進行了一些測試,包括我們服務中常用的句子測試。

  • 翻譯。
  • 摘要。
  • 寫作。

其他的測試在其他地方也有很多,所以我只是簡單地進行了一些測試。例如,在翻譯具有複雜JSON結構的文本時,Flash無法輸出令人滿意的結果,但Pro系列的模型則可以。此外,Pro Exp版本輸出的結果更加簡潔。

在摘要和寫作方面,Flash以及Flash 8b都給出了令人滿意的結果。對於不太複雜的任務,Flash 8b可以勝任,這一點很明顯。

根據性能和參數,Google很有可能在正式發布時將Flash 8b的價格設定得很低。

估計其價格會低到足以對其他公司的產品線造成重大損害。發布後,我將再次帶著價格表回來。




评论0