विषय
- #AppleOpenELM
- #Grok
- #Llama3
- #Phi-3
- #LLM
रचना: 2024-04-27
रचना: 2024-04-27 10:41
पिछले एक हफ़्ते में, Apple, Microsoft, Meta जैसी प्रमुख बड़ी तकनीकी कंपनियों ने लगातार नए बड़े भाषा मॉडल जारी किए हैं, जिससे AI उद्योग में काफी हलचल मची हुई है। आइए, इस बार जारी किए गए मॉडल की मुख्य विशेषताओं और उनके महत्व को और विस्तार से जानते हैं।
25 अप्रैल को, Apple ने अपने द्वारा विकसित OpenELM भाषा मॉडल उत्पादों की श्रृंखला जारी की। यह 0.27B, 0.45B, 1.08B, 3.04B जैसे चार अलग-अलग आकार के मॉडल से बना है, जिसमें सबसे बड़ा मॉडल भी केवल 3 बिलियन पैरामीटर का है, जो अपेक्षाकृत छोटा है। वर्तमान में अधिकांश बड़े भाषा मॉडल में कम से कम 3B से अधिक पैरामीटर हैं, इसलिए OpenELM को बहुत छोटा माना जा सकता है।
ऐसा इसलिए है क्योंकि Apple ने OpenELM को मुख्य रूप से छोटे उपकरणों में उपयोग के लिए विकसित किया है। अतीत में, उच्च प्रदर्शन प्राप्त करने का मुख्य तरीका पैरामीटर की संख्या बढ़ाना था, लेकिन हाल ही में ध्यान छोटा और हल्का बनाने पर केंद्रित है। Apple ने इस बार मॉडल वज़न और अनुमान कोड के साथ-साथ डेटासेट और फ़्रेमवर्क को भी सार्वजनिक किया है, जिससे खुलापन बढ़ गया है।
Microsoft ने भी 23 अप्रैल को Phi-3 Mini मॉडल (3.8B पैरामीटर) जारी किया, और भविष्य में 7B आकार का Phi-3 Small और 14B आकार का Phi-3 Medium जारी करने की योजना है। Phi-3 Mini एक ओपन मॉडल है जिसका कोई भी व्यक्ति व्यावसायिक उद्देश्यों के लिए मुफ्त में उपयोग कर सकता है। नई Phi-3 सीरीज़ के सभी मॉडल MS के क्लाउड सर्विस Azure पर उपलब्ध होंगे।
Meta (पूर्व में Facebook) ने 18 अप्रैल को Llama 3 मॉडल के 8B और 70B संस्करण जारी किए, और 400B मॉडल जैसे बड़े आकार के मॉडल को गर्मियों में जारी करने की योजना है। विशेष रूप से, 8B मॉडल ने छोटे आकार के बावजूद उत्कृष्ट प्रदर्शन दिखाया है, जिसके लिए डेवलपर समुदाय से प्रशंसा मिली है।
ऐसा माना जा रहा है कि ऐसा इसलिए है क्योंकि Meta ने बड़ी मात्रा में प्रशिक्षण डेटा का उपयोग करके एक कुशल मॉडल संरचना बनाई है। यह कहा जा सकता है कि पैरामीटर की संख्या बढ़ाने के बजाय, उन्होंने डेटा और एल्गोरिथम अनुकूलन पर ध्यान केंद्रित किया है।
38 मार्च को जारी किए गए xAI के Grok 1.5 मॉडल में 128K तक के लंबे संदर्भ टोकन को संसाधित करने की क्षमता है, जो जटिल और लंबे प्रॉम्प्ट की अनुमति देता है। जब तक बड़े भाषा मॉडल के विकास में केवल पैरामीटर के आकार को बढ़ाने पर ध्यान केंद्रित किया गया था, Grok 1.5 ने लंबे संदर्भ समझ क्षमता में सुधार को एक नया लक्ष्य प्रदान किया है।
इस तरह, पिछले एक हफ़्ते में Apple, MS, Meta जैसी प्रमुख कंपनियों द्वारा नए बड़े भाषा मॉडल जारी किए जाने के साथ, AI तकनीक के विकास की दिशा और भी विविध हो गई है। मॉडल आकार को कम करना और हल्का बनाना, डेटा/एल्गोरिथम अनुकूलन, संदर्भ समझ क्षमता में सुधार जैसे विभिन्न पहलुओं में नए प्रयास किए जा रहे हैं। यह देखना दिलचस्प होगा कि भविष्य में AI पारिस्थितिकी तंत्र कैसे विकसित होता है।
टिप्पणियाँ0