Pengungkapan OpenELM Apple / Phi-3 Microsoft / Llama 3 Meta

Berita Terbaru tentang Peluncuran Model Bahasa Besar yang Patut Diperhatikan

Dalam seminggu terakhir, perusahaan-perusahaan teknologi besar seperti Apple, Microsoft, dan Meta secara beruntun meluncurkan model bahasa besar baru, yang menimbulkan dampak signifikan di industri AI. Mari kita bahas lebih dalam mengenai karakteristik utama dan makna dari model-model yang diluncurkan kali ini.

OpenELM dari Apple

Pada tanggal 25 April, Apple meluncurkan rangkaian model bahasa OpenELM buatannya sendiri. Rangkaian ini terdiri dari empat model dengan berbagai ukuran, yaitu 0.27B, 0.45B, 1.08B, dan 3.04B. Bahkan model terbesarnya pun hanya memiliki 3 miliar parameter, yang tergolong kecil. Jika kita bandingkan dengan model bahasa besar lainnya yang umumnya memiliki setidaknya 3B parameter, OpenELM memiliki ukuran yang sangat kecil.
Hal ini disebabkan karena Apple mengembangkan OpenELM dengan fokus pada penggunaan di perangkat kecil. Dahulu, meningkatkan jumlah parameter adalah cara utama untuk meningkatkan performa. Namun, belakangan ini, trennya bergeser ke arah pengecilan dan pengurangan bobot model. Apple meningkatkan keterbukaan dengan merilis seluruh komponen, termasuk bobot model, kode inferensi, dataset, dan kerangka kerja.

Seri Phi-3 dari MS

Microsoft juga meluncurkan model Phi-3 Mini (3.8B parameter) pada tanggal 23 April, dan berencana untuk merilis Phi-3 Small (7B parameter) dan Phi-3 Medium (14B parameter) di kemudian hari. Phi-3 Mini merupakan model terbuka yang dapat digunakan siapa pun secara gratis untuk tujuan komersial. Semua model seri Phi-3 baru akan tersedia di layanan cloud Azure milik Microsoft.

Llama 3 dari Meta

Meta (sebelumnya Facebook) meluncurkan model Llama 3 versi 8B dan 70B pada tanggal 18 April, dan berencana untuk meluncurkan versi 400B di musim panas mendatang. Khususnya model 8B, meskipun berukuran kecil, menunjukkan performa yang baik dan mendapat pujian dari komunitas pengembang.
Hal ini diduga karena Meta menggunakan sejumlah besar data pelatihan dan membangun struktur model yang efisien. Dapat dikatakan bahwa mereka lebih fokus pada pengoptimalan data dan algoritma daripada sekadar meningkatkan jumlah parameter.

Grok 1.5 dari xAI

Model Grok 1.5 dari xAI yang diumumkan pada tanggal 38 Maret mampu memproses token konteks yang panjang hingga 128K, sehingga memungkinkan penggunaan prompt yang kompleks dan panjang. Jika tren pengembangan model bahasa sebelumnya berfokus pada peningkatan ukuran parameter, Grok 1.5 menunjukkan arah baru dengan menekankan peningkatan kemampuan memahami konteks yang panjang.

⁠⁠⁠⁠⁠⁠⁠
Peluncuran model bahasa besar baru dari perusahaan-perusahaan terkemuka seperti Apple, MS, dan Meta dalam seminggu terakhir menunjukkan semakin beragamnya arah perkembangan teknologi AI. Saat ini, berbagai upaya baru muncul di berbagai aspek, seperti pengurangan ukuran dan bobot model, optimasi data/algoritma, serta penguatan kemampuan memahami konteks. Kita perlu mencermati bagaimana ekosistem AI akan berevolusi di masa depan.