![translation](https://cdn.durumis.com/common/trans.png)
यह एक AI अनुवादित पोस्ट है।
भाषा चुनें
durumis AI द्वारा संक्षेपित पाठ
- Apple, Microsoft, Meta जैसी प्रमुख बड़ी तकनीकी कंपनियां हाल ही में AI उद्योग में एक बड़ा बदलाव लाते हुए नए बड़े भाषा मॉडल जारी कर रही हैं।
- प्रत्येक कंपनी अलग-अलग मॉडल पेश कर रही है जो आकार में छोटे हैं या डेटा/एल्गोरिदम अनुकूलन, संदर्भ समझ में सुधार जैसे विभिन्न तरीकों से बेहतर हैं।
- विशेष रूप से, Apple का OpenELM छोटे उपकरणों के लिए विकसित किया गया है, जबकि Meta का Llama 3 अपनी कुशल मॉडल संरचना के माध्यम से छोटे आकार के बावजूद उत्कृष्ट प्रदर्शन दिखाता है।
हाल ही में ध्यान देने योग्य बड़े भाषा मॉडल रिलीज़ समाचार
पिछले एक हफ्ते में ऐप्पल, माइक्रोसॉफ्ट, मेटा जैसे प्रमुख बड़े टेक कंपनियों ने लगातार नए बड़े भाषा मॉडल जारी किए हैं, जिससे एआई उद्योग में काफी हलचल मची हुई है। इस बार जारी किए गए मॉडल की प्रमुख विशेषताओं और महत्व को और विस्तार से जानते हैं।
ऐप्पल का OpenELM
25 अप्रैल को, ऐप्पल ने अपना स्वयं विकसित OpenELM भाषा मॉडल उत्पादन लाइन जारी किया। इसमें 0.27B, 0.45B, 1.08B, 3.04B जैसे चार अलग-अलग आकार के मॉडल शामिल हैं, जिनमें सबसे बड़ा मॉडल भी केवल 3 अरब पैरामीटर का है, जो अपेक्षाकृत छोटा है। वर्तमान में अधिकांश बड़े भाषा मॉडल में कम से कम 3B से अधिक पैरामीटर हैं, इसलिए OpenELM को बहुत छोटा आकार माना जा सकता है।
ऐसा इसलिए है क्योंकि ऐप्पल ने OpenELM को मुख्य रूप से छोटे उपकरणों में स्थापित करने और उपयोग करने का लक्ष्य रखकर विकसित किया है। अतीत में, पैरामीटर की संख्या को बढ़ाना उच्च प्रदर्शन प्राप्त करने का मुख्य तरीका था, लेकिन हाल के वर्षों में, छोटा करने और हल्का करने पर ध्यान केंद्रित किया जा रहा है। ऐप्पल ने इस बार मॉडल वज़न और अनुमान कोड के साथ-साथ डेटासेट और ढाँचे को भी पूरी तरह से सार्वजनिक किया है, जिससे इसकी पारदर्शिता में वृद्धि हुई है।
MS का Phi-3 सीरीज़
माइक्रोसॉफ्ट ने भी 23 अप्रैल को Phi-3 मिनी मॉडल (3.8B पैरामीटर) जारी किया और भविष्य में 7B आकार का Phi-3 स्मॉल और 14B आकार का Phi-3 मीडियम भी जारी करने की योजना है। Phi-3 मिनी एक खुला मॉडल है जिसका कोई भी मुफ्त में व्यावसायिक उपयोग कर सकता है। नए Phi-3 सीरीज़ मॉडल सभी MS की क्लाउड सेवा Azure पर उपलब्ध होंगे।
मेटा का Llama 3
मेटा (पूर्व में फेसबुक) ने 18 अप्रैल को Llama 3 मॉडल का 8B और 70B संस्करण जारी किया और बड़े आकार का 400B मॉडल गर्मियों में जारी करने की योजना है। विशेष रूप से, 8B मॉडल ने अपने छोटे आकार के बावजूद बेहतर प्रदर्शन दिखाया है, जिसके लिए डेवलपर समुदाय से सराहना मिल रही है।
यह विश्लेषण किया गया है कि यह मेटा द्वारा बड़ी मात्रा में प्रशिक्षण डेटा के इनपुट के कारण संभव हुआ है, जिससे एक कुशल मॉडल संरचना का निर्माण हुआ है। यह कहा जा सकता है कि यह पैरामीटर की संख्या को बढ़ाने के बजाय डेटा और एल्गोरिथम अनुकूलन पर ध्यान केंद्रित करने का परिणाम है।
xAI का Grok 1.5
38 मार्च को जारी xAI का Grok 1.5 मॉडल 128K तक के लंबे संदर्भ टोकन को संभाल सकता है, जिससे जटिल और लंबे प्रॉम्प्टिंग संभव हो सकते हैं। अब तक के भाषा मॉडल विकास में रुझान केवल पैरामीटर आकार को बढ़ाने पर केंद्रित था, लेकिन Grok 1.5 ने लंबे संदर्भ समझ को बेहतर बनाने के एक नए लक्ष्य को प्रस्तुत किया है।
इस तरह, पिछले एक हफ्ते में ऐप्पल, MS, मेटा जैसी अग्रणी कंपनियों द्वारा नए बड़े भाषा मॉडल जारी किए जाने से एआई प्रौद्योगिकी के विकास की दिशा और अधिक विविध हो गई है। मॉडल आकार को कम करना और हल्का करना, डेटा/एल्गोरिथम अनुकूलन, संदर्भ समझ को मजबूत करना जैसे कई पहलुओं में नए प्रयास किए जा रहे हैं। भविष्य में एआई पारिस्थितिकी तंत्र कैसे विकसित होगा, यह देखना दिलचस्प होगा।