选择语言
durumis AI 总结的文章
- Google 发布了新的实验性模型,包括 Gemini 1.5 Pro Exp、Gemini 1.5 Flash Exp 和 Gemini 1.5 Flash 8B Exp,其中 Gemini 1.5 Pro Exp 的性能比现有版本有所提升,而 Gemini 1.5 Flash Exp 则被升级为入门级版本中的最佳选择。
- Gemini 1.5 Flash 8B Exp 的性能与现有 Claude 3 Sonnet 相似,是 Flash 系列的轻量级版本,在处理复杂的 JSON 结构的文本翻译方面,它比 Pro 系列略逊一筹,但在摘要和写作任务中表现出色。
- 预计 Google 将以低廉的价格提供正式版 Gemini 1.5 Flash 8B Exp,这将对其他公司的产品线产生重大影响。在正式发布后,我们将再次比较分析价格表并分享给大家。
Google 最近推出了 Gemini 的新模型。
其實不是正式版本,而是實驗版(Experimental)。
這些模型如下:
- Gemini 1.5 Pro Exp
- Gemini 1.5 Flash Exp
- Gemini 1.5 Flash 8B Exp
首先,1.5 Pro Exp 和 1.5 Flash Exp 可以視為舊版本的更新。實際測試後,1.5 Pro Exp 的表現比舊版 1.5 Pro 好一些,(基準測試結果也有提升,雖然沒有提供數據,但在已發布的版本中可以說是最好的。)1.5 Flash Exp 的表現雖然不是最好,但在入門版本中算是不錯的提升。
據說這兩個版本將在幾週內反映到舊版 1.5 Pro 和 1.5 Flash 中。(舊版本是 001,所以更新後應該是 002。)
来源:Chatbot Arena
從表格可以看出,Gemini 1.5 Pro Exp 排名第二,Gemini 1.5 Flash Exp 排名第六。
有趣的是,Gemini 1.5 Flash Exp 比排名 10 和 11 的 Gemini 1.5 Pro 排名還要高。
排名 1 到 5 是各公司旗艦版本(GPT 4o、Gemini 1.5 Pro、Grok 2),排名 6 和 7 是各公司的入門系列(GPT 4o mini、Gemini 1.5 Flash)。Claude 3.5 Sonnet 一直位居榜首,但這個行業的發展速度真的很快…
總之,我個人認為這兩個版本(1.5 Pro、1.5 Flash)很快就會變成正式版本,我現在最想知道的是 1.5 Flash 8b 版本。
先來看一下基準測試結果。
来源:Chatbot Arena
從上面的基準測試結果可以看出,1.5 Flash 8b Exp 的表現大致與舊版 Claude 3 Sonnet 相當,比舊版 1.5 Flash 差一些,但與 Llama 3 70b 等模型表現相近。
Flash 是 Pro 的精簡版本,而 Flash 8b 比 Flash 還要精簡。(應該吧?)
我對幾個方面進行了實際測試,包括我們服務中常用的句子測試。
- 翻譯。
- 摘要。
- 寫作。
其他測試在其他地方也很多,所以我只簡單測試了幾個。例如,當翻譯複雜的 JSON 結構文本時,Flash 的結果不令人滿意,但 Pro 系列的表現令人滿意。而且,Pro Exp 版本的輸出更清晰。
在摘要和寫作方面,Flash 以及 Flash 8b 都表現出了令人滿意的結果。對於非高難度的任務,簡單的工作可以使用 Flash 8b。
從性能和參數來看,谷歌很有可能在正式發布時將 Flash 8b 的價格定得很低。
可能價格會低到足以對其他公司的產品造成重大損害,到時候我會再拿著價目表回來。