해리슨 블로그

Apple 的 OpenELM / MS 的 Phi-3 / Meta 的 Llama 3 公開

  • 撰写语言: 韓国語
  • 基准国家: 所有国家country-flag
  • 信息技术

撰写: 2024-04-27

撰写: 2024-04-27 10:41

近期值得關注的大型語言模型發佈消息

最近一周,蘋果、微軟、Meta等主要科技巨頭紛紛發佈新的大型語言模型,在AI業界引起了相當大的反響。讓我們更深入地了解一下這些發佈模型的主要特徵和意義。

蘋果的OpenELM

4月25日,蘋果發佈了其自主研發的OpenELM語言模型系列。該系列包含4種不同大小的模型,分別為0.27B、0.45B、1.08B和3.04B,即使是最大的模型,其參數也只有30億個,相對來說比較小。考慮到目前大多數大型語言模型的參數至少都在30億個以上,OpenELM的規模可以說是相當小巧。
這是因為蘋果在開發OpenELM時,主要考慮的是將其部署在小型設備上使用。過去,增加參數數量是實現高性能的主要方法,但最近的趨勢是更加注重小型化和輕量化。蘋果此次不僅公開了模型權重和推理代碼,還公開了數據集和框架,從而提高了開放性。

MS的Phi-3系列

微軟也在4月23日率先發佈了Phi-3 Mini模型(38億參數),並計劃未來推出70億參數的Phi-3 Small和140億參數的Phi-3 Medium。Phi-3 Mini是一個開放模型,任何人都可以免費用於商業用途。新的Phi-3系列模型都將在微軟的雲服務Azure上提供。

Meta的Llama 3

Meta(前身為Facebook)於4月18日率先發佈了Llama 3模型的80億和700億版本,並計劃在夏季發佈4000億版本的大型模型。特別是80億版本,儘管規模較小,但表現出了優異的性能,獲得了開發者社群的好評。
分析認為,這是因為Meta投入了大量的訓練數據,並構建了高效的模型結構。可以說,這是通過專注於數據和演算法優化,而不是一味增加參數數量所取得的成果。

xAI的Grok 1.5

3月38日發佈的xAI的Grok 1.5模型能夠處理長達128K的上下文標記,因此可以執行複雜且冗長的提示。如果說以往的語言模型開發趨勢僅僅集中在增加參數規模上,那麼Grok 1.5則提出了一個新的方向——提升長文本理解能力。

⁠⁠⁠⁠⁠⁠⁠
像這樣,最近一周蘋果、微軟、Meta等領先企業接連發佈新型大型語言模型,使得AI技術的發展方向更加多元化。在模型尺寸縮小和輕量化、數據/演算法優化、上下文理解能力增強等多個方面,出現了新的嘗試。未來AI生態系統將如何演變,值得期待。

评论0