![translation](https://cdn.durumis.com/common/trans.png)
Ini adalah postingan yang diterjemahkan oleh AI.
Pilih Bahasa
Teks yang dirangkum oleh AI durumis
- Apple, Microsoft, Meta, dan perusahaan big tech utama lainnya baru-baru ini merilis model bahasa besar baru, yang menyebabkan perubahan besar dalam industri AI.
- Setiap perusahaan menampilkan model yang berbeda dengan mengurangi ukuran model, mengoptimalkan data/algoritma, atau meningkatkan pemahaman konteks.
- Terutama OpenELM Apple dikembangkan untuk perangkat kecil, dan Llama 3 Meta menunjukkan kinerja yang unggul meskipun berukuran kecil melalui struktur model yang efisien.
Berita Peluncuran Model Bahasa Besar yang Menarik Perhatian Baru-baru Ini
Dalam seminggu terakhir, perusahaan teknologi besar utama seperti Apple, Microsoft, dan Meta telah secara berturut-turut meluncurkan model bahasa besar baru, yang menyebabkan gema yang cukup besar di industri AI. Mari kita bahas lebih dalam tentang fitur utama dan signifikansi model yang diluncurkan baru-baru ini.
OpenELM dari Apple
Pada tanggal 25 April, Apple meluncurkan rangkaian produk model bahasa OpenELM yang dikembangkan sendiri. Terdiri dari empat model dengan berbagai ukuran, yaitu 0.27B, 0.45B, 1.08B, dan 3.04B, model terbesarnya hanya memiliki 3 miliar parameter, yang relatif kecil. Mengingat bahwa sebagian besar model bahasa besar saat ini memiliki setidaknya 3 miliar parameter, OpenELM dapat dikatakan berukuran sangat kecil.
Hal ini dikarenakan Apple mengembangkan OpenELM dengan tujuan khusus untuk diintegrasikan dan digunakan pada perangkat kecil. Di masa lalu, meningkatkan jumlah parameter adalah cara utama untuk mencapai kinerja tinggi, tetapi baru-baru ini, trennya bergeser ke arah miniaturisasi dan ringan. Dalam peluncuran kali ini, Apple tidak hanya merilis bobot model dan kode inferensi, tetapi juga seluruh data set dan framework, menunjukkan komitmen mereka terhadap keterbukaan.
Seri Phi-3 dari MS
Microsoft juga meluncurkan model Phi-3 Mini (3,8 miliar parameter) pada tanggal 23 April, dan berencana untuk merilis Phi-3 Small berukuran 7 miliar dan Phi-3 Medium berukuran 14 miliar di masa mendatang. Phi-3 Mini adalah model terbuka yang dapat digunakan secara komersial oleh siapa saja secara gratis. Semua model dalam seri Phi-3 baru akan tersedia di layanan cloud MS, Azure.
Llama 3 dari Meta
Meta (sebelumnya Facebook) meluncurkan versi 8B dan 70B dari model Llama 3 pada 18 April, dan berencana untuk merilis model berukuran besar 400B pada musim panas. Model 8B khususnya telah mendapat pujian dari komunitas pengembang karena kinerjanya yang luar biasa meskipun berukuran kecil.
Hal ini diyakini karena Meta menginvestasikan banyak data pelatihan untuk membangun struktur model yang efisien. Dapat dikatakan bahwa ini adalah hasil dari fokus pada optimalisasi data dan algoritma daripada sekadar meningkatkan jumlah parameter.
Grok 1.5 dari xAI
Model Grok 1.5 dari xAI, yang diumumkan pada tanggal 38 Maret, dapat memproses token konteks yang panjang hingga 128K, yang memungkinkan prompting yang kompleks dan panjang. Sementara tren pengembangan model bahasa hingga saat ini berfokus pada peningkatan ukuran parameter, Grok 1.5 telah menetapkan arah baru dengan meningkatkan kemampuan pemahaman konteks yang panjang.
Peluncuran model bahasa besar baru dari perusahaan terkemuka seperti Apple, MS, dan Meta dalam seminggu terakhir telah menunjukkan bahwa arah evolusi teknologi AI menjadi semakin beragam. Upaya baru sedang dilakukan di berbagai aspek, termasuk pengurangan ukuran model dan ringan, optimalisasi data/algoritma, dan peningkatan kemampuan pemahaman konteks. Sangat menarik untuk melihat bagaimana ekosistem AI akan berkembang di masa depan.