Konu
- #AppleOpenELM
- #Phi-3
- #Llama3
- #LLM
- #Grok
Oluşturulma: 2024-04-27
Oluşturulma: 2024-04-27 10:41
Son 1 hafta içinde Apple, Microsoft, Meta gibi büyük teknoloji şirketleri, peş peşe yeni büyük dil modelleri yayınlayarak yapay zekâ sektöründe önemli yankılar uyandırdı. Bu yeni modellerin temel özelliklerini ve önemlerini daha detaylı inceleyeceğiz.
25 Nisan'da Apple, kendi geliştirdiği OpenELM dil modeli ailesini duyurdu. 0.27B, 0.45B, 1.08B, 3.04B olmak üzere 4 farklı boyutta modele sahip olan aile, en büyük modelinde bile sadece 3 milyar parametreyle göreceli olarak küçük boyuttadır. Günümüzde çoğu büyük dil modelinin en az 3 milyar parametreye sahip olduğunu düşünürsek, OpenELM oldukça küçük bir boyutta diyebiliriz.
Bunun nedeni, Apple'ın OpenELM'i özellikle küçük cihazlarda kullanılmak üzere tasarlamış olmasıdır. Eskiden yüksek performans elde etmenin temel yolu parametre sayısını artırmakken, son zamanlarda odak noktası küçültme ve hafifletmeye kaydı. Apple, bu sefer model ağırlıkları ve çıkarım kodunun yanı sıra veri kümesini ve çerçeveyi de kamuya açık hale getirerek açıklığı artırdı.
Microsoft da 23 Nisan'da Phi-3 Mini modelini (3.8 milyar parametre) yayınladı ve daha sonra 7 milyar parametrelik Phi-3 Small ve 14 milyar parametrelik Phi-3 Medium modelleri de yayınlamayı planlıyor. Phi-3 Mini, herkesin ticari amaçlarla ücretsiz olarak kullanabileceği açık bir modeldir. Yeni Phi-3 serisi modellerinin tamamı Microsoft'un bulut hizmeti Azure'da sunulacak.
Meta (eski adıyla Facebook), 18 Nisan'da Llama 3 modelinin 8B ve 70B versiyonlarını yayınladı ve 400B modelini de yaz aylarında yayınlamayı planlıyor. Özellikle 8B modeli, küçük boyutuna rağmen sunduğu üstün performansla geliştirici topluluğundan övgüler topladı.
Bunun nedeni, Meta'nın devasa miktarda eğitim verisi kullanarak verimli bir model mimarisi oluşturmuş olmasıdır. Parametre sayısını artırmak yerine veri ve algoritma optimizasyonuna odaklanmanın bir sonucu olarak görülebilir.
38 Mart'ta duyurulan xAI'nin Grok 1.5 modeli, 128K'ya kadar uzun bağlam belirteci işleyebildiği için karmaşık ve uzun istemleri mümkün kılar. Bugüne kadarki dil modeli geliştirme trendi sadece parametre boyutunu artırmaya odaklanırken, Grok 1.5 uzun metin anlama yeteneğini geliştirme adına yeni bir bakış açısı sunmuştur.
Bu şekilde, son 1 haftada Apple, Microsoft, Meta gibi önde gelen şirketlerin yeni büyük dil modelleri yayınlamasıyla yapay zekâ teknolojisinin evrimleşme yönü daha da çeşitlendi. Model boyutunun küçültülmesi ve hafifletilmesi, veri/algoritma optimizasyonu, bağlam anlama yeteneğinin güçlendirilmesi gibi birçok farklı açıdan yeni denemeler yapılıyor. Yapay zekâ ekosisteminin gelecekte nasıl evrileceğini görmek heyecan verici olacak.
Yorumlar0