Apple 的 OpenELM / MS 的 Phi-3 / Meta 的 Llama 3 公開

近期值得關注的大型語言模型發佈消息

最近一周，蘋果、微軟、Meta等主要科技巨頭紛紛發佈新的大型語言模型，在AI業界引起了相當大的反響。讓我們更深入地了解一下這些發佈模型的主要特徵和意義。

蘋果的OpenELM

4月25日，蘋果發佈了其自主研發的OpenELM語言模型系列。該系列包含4種不同大小的模型，分別為0.27B、0.45B、1.08B和3.04B，即使是最大的模型，其參數也只有30億個，相對來說比較小。考慮到目前大多數大型語言模型的參數至少都在30億個以上，OpenELM的規模可以說是相當小巧。
這是因為蘋果在開發OpenELM時，主要考慮的是將其部署在小型設備上使用。過去，增加參數數量是實現高性能的主要方法，但最近的趨勢是更加注重小型化和輕量化。蘋果此次不僅公開了模型權重和推理代碼，還公開了數據集和框架，從而提高了開放性。

MS的Phi-3系列

微軟也在4月23日率先發佈了Phi-3 Mini模型（38億參數），並計劃未來推出70億參數的Phi-3 Small和140億參數的Phi-3 Medium。Phi-3 Mini是一個開放模型，任何人都可以免費用於商業用途。新的Phi-3系列模型都將在微軟的雲服務Azure上提供。

Meta的Llama 3

Meta（前身為Facebook）於4月18日率先發佈了Llama 3模型的80億和700億版本，並計劃在夏季發佈4000億版本的大型模型。特別是80億版本，儘管規模較小，但表現出了優異的性能，獲得了開發者社群的好評。
分析認為，這是因為Meta投入了大量的訓練數據，並構建了高效的模型結構。可以說，這是通過專注於數據和演算法優化，而不是一味增加參數數量所取得的成果。

xAI的Grok 1.5

3月38日發佈的xAI的Grok 1.5模型能夠處理長達128K的上下文標記，因此可以執行複雜且冗長的提示。如果說以往的語言模型開發趨勢僅僅集中在增加參數規模上，那麼Grok 1.5則提出了一個新的方向——提升長文本理解能力。

⁠⁠⁠⁠⁠⁠⁠
像這樣，最近一周蘋果、微軟、Meta等領先企業接連發佈新型大型語言模型，使得AI技術的發展方向更加多元化。在模型尺寸縮小和輕量化、數據/演算法優化、上下文理解能力增強等多個方面，出現了新的嘗試。未來AI生態系統將如何演變，值得期待。