主題
- #Grok
- #Phi-3
- #LLM
- #Llama3
- #AppleOpenELM
作成: 2024-04-27
作成: 2024-04-27 10:41
ここ1週間で、Apple、Microsoft、Metaなどの主要なビッグテック企業が、次々と新しい大規模言語モデルを発表し、AI業界に大きな反響を呼んでいます。今回リリースされたモデルの主な特徴と意義を、もう少し詳しく見ていきましょう。
4月25日、Appleは独自開発のOpenELM言語モデル製品群を発表しました。0.27B、0.45B、1.08B、3.04Bなど、4つの異なるサイズのモデルで構成されており、最大のモデルでもわずか30億のパラメータと、比較的規模が小さいです。現在、ほとんどの大規模言語モデルが少なくとも3B以上のパラメータを持っていることを考えると、OpenELMは非常に小さいサイズと言えます。
これは、AppleがOpenELMを主に小型デバイスに搭載して活用することを念頭に置いて開発したためです。以前は、パラメータ数を増やすことが高性能達成の主要な方法でしたが、近年では小型化と軽量化に焦点を当てる傾向にあります。Appleは今回、モデルの重みと推論コードだけでなく、データセットとフレームワークまで全て公開することで、オープン性も高めました。
Microsoftも4月23日にPhi-3 Miniモデル(3.8Bパラメータ)を最初に公開し、今後7BサイズのPhi-3 Smallと14BサイズのPhi-3 Mediumもリリースする予定です。Phi-3 Miniはオープンモデルであり、誰でも無料で商用利用が可能です。新しいPhi-3シリーズのモデルは全て、MSのクラウドサービスAzureで提供される予定です。
Meta(旧Facebook)は、昨年4月18日にLlama 3モデルの8Bと70Bバージョンを最初に公開し、大規模な400Bモデルは夏に公開する予定です。特に8Bモデルは、小さいサイズにもかかわらず優れた性能を示しており、開発者コミュニティから好評を得ています。
これは、Metaが膨大な量の学習データを入力して効率的なモデル構造を構築したためであると分析されています。パラメータ数を増やすのではなく、データとアルゴリズムの最適化に注力した結果と言えるでしょう。
3月38日に発表されたxAIのGrok 1.5モデルは、最大128Kの長いコンテキストトークンを処理できるため、複雑で長いプロンプトを使用できます。これまでの言語モデルの開発トレンドは、単にパラメータサイズを大きくすることに焦点を当てていましたが、Grok 1.5は、長い文脈の理解力向上という新たな方向性を示しました。
このように、ここ1週間でApple、MS、Metaなどのトップ企業が新しい大規模言語モデルを発表したことで、AI技術の進化の方向性がさらに多様化しています。モデルサイズの縮小と軽量化、データ/アルゴリズムの最適化、文脈理解力の強化など、様々な面で新たな試みが相次いでいます。今後、AIエコシステムがどのように進化していくのか注目されます。
コメント0