OpenELM van Apple / Phi-3 van MS / Llama 3 van Meta openbaar

Dit is een door AI vertaalde post.

해리슨 블로그

OpenELM van Apple / Phi-3 van MS / Llama 3 van Meta openbaar

Taal van de tekst: Koreaans
•
Referentieland: Alle landen
•
Informatietechnologie

해리슨

0000-00-00 00:00:00

Selecteer taal

Nederlands
English
汉语
Español
Bahasa Indonesia
Português
Русский
日本語
한국어
Deutsch
Français
Italiano
Türkçe
Tiếng Việt
ไทย
Polski
हिन्दी
Magyar

Samengevat door durumis AI

Apple, Microsoft en Meta, enkele van de grootste techbedrijven, hebben onlangs nieuwe grote taalmodellen uitgebracht en veroorzaken grote veranderingen in de AI-industrie.
Elk bedrijf heeft een gedifferentieerd model gepresenteerd door de grootte van het model te verkleinen, de gegevens/algoritmen te optimaliseren, of het begrip van context te versterken.
Met name OpenELM van Apple is ontworpen voor kleine apparaten, en Llama 3 van Meta, ondanks zijn kleine grootte, presteert goed dankzij zijn efficiënte modelstructuur.

Recente releases van opmerkelijke grote taalmodellen

In de afgelopen week hebben grote techbedrijven als Apple, Microsoft en Meta aandacht getrokken door het uitbrengen van nieuwe grote taalmodellen, wat een aanzienlijke impact heeft gehad op de AI-industrie. Laten we de belangrijkste kenmerken en betekenis van deze onlangs uitgebrachte modellen nader bekijken.

Apples OpenELM

Op 25 april bracht Apple zijn eigen OpenELM-taalmodelserie uit. Deze serie bestaat uit vier modellen van verschillende groottes: 0,27B, 0,45B, 1,08B en 3,04B. Het grootste model heeft slechts 3 miljard parameters, wat relatief klein is. Gezien het feit dat de meeste grote taalmodellen minstens 3 miljard parameters hebben, is OpenELM inderdaad klein.
Dit is omdat Apple OpenELM heeft ontwikkeld met het oog op gebruik op kleine apparaten. In het verleden was het verhogen van het aantal parameters de belangrijkste manier om hoge prestaties te bereiken, maar deze trend is aan het veranderen naar een focus op miniaturisering en lichtgewicht. Apple heeft deze keer niet alleen het modelgewicht en de inferentiecode vrijgegeven, maar ook de dataset en het framework, waardoor de openheid van het model is vergroot.

MS's Phi-3-serie

Microsoft bracht op 23 april eerst het Phi-3 Mini-model uit (3,8 miljard parameters) en heeft plannen om in de toekomst het Phi-3 Small-model (7 miljard parameters) en het Phi-3 Medium-model (14 miljard parameters) uit te brengen. Phi-3 Mini is een open model dat gratis en voor commerciële doeleinden kan worden gebruikt. Alle nieuwe modellen in de Phi-3-serie zullen worden aangeboden via de clouddienst Azure van Microsoft.

Meta's Llama 3

Meta (voorheen Facebook) heeft op 18 april de 8B- en 70B-versies van het Llama 3-model uitgebracht, en het grootste model met 400 miljard parameters staat gepland voor release in de zomer. Het 8B-model in het bijzonder heeft veel lof gekregen van de developer community vanwege de uitstekende prestaties voor zijn kleine formaat.
Dit wordt geanalyseerd als het resultaat van Meta's investering in een grote hoeveelheid trainingsgegevens en de ontwikkeling van een efficiënte modelstructuur. Dit kan worden gezien als een resultaat van het prioriteren van data- en algoritme-optimalisatie in plaats van het verhogen van het aantal parameters.

xAI's Grok 1.5

Het Grok 1.5-model van xAI, dat op 38 maart werd aangekondigd, kan lange contexttokens tot 128K verwerken, wat complexe en lange prompts mogelijk maakt. Terwijl de ontwikkeling van taalmodellen tot nu toe voornamelijk gericht was op het vergroten van de omvang van de parameters, heeft Grok 1.5 een nieuwe focus gelegd op het verbeteren van het begrip van lange context.

⁠⁠⁠⁠⁠⁠⁠
De recente release van nieuwe grote taalmodellen door toonaangevende bedrijven als Apple, MS en Meta heeft geleid tot een toenemende diversiteit in de evolutie van AI-technologie. Er worden nieuwe initiatieven ondernomen op verschillende gebieden, zoals modelminiaturisering en -lichtgewicht, data- en algoritme-optimalisatie en verbetering van het contextbegrip. De manier waarop het AI-ecosysteem zich in de toekomst zal ontwikkelen, zal met veel interesse worden gevolgd.

Onderwerp

#AppleOpenELM
#Grok
#Llama3
#LLM
#Phi-3

Samengevat door durumis AI

Apple, Microsoft en Meta, enkele van de grootste techbedrijven, hebben onlangs nieuwe grote taalmodellen uitgebracht en veroorzaken grote veranderingen in de AI-industrie.
Elk bedrijf heeft een gedifferentieerd model gepresenteerd door de grootte van het model te verkleinen, de gegevens/algoritmen te optimaliseren, of het begrip van context te versterken.
Met name OpenELM van Apple is ontworpen voor kleine apparaten, en Llama 3 van Meta, ondanks zijn kleine grootte, presteert goed dankzij zijn efficiënte modelstructuur.

해리슨: 해리슨 블로그; 해리슨의 깜짝 블로그

Meer berichten van deze auteur
Bekijk het volledige bericht

De prijs van Gemini 1.5 Flash, GPT-4o en andere LLM's Een vergelijking van de prestaties en prijzen van de nieuwste AI-modellen, waaronder GPT-4o, Gemini 1.5 Pro, Claude 3 Haiku en Gemini 1.5 Flash. We laten je zien hoe je het model kunt kiezen dat het beste bij je past. Kijk naar de grootte van de invoerto

18 mei 2024

Recente AI-services die de moeite waard zijn We presenteren recente populaire en aan te bevelen AI-services. Naast ChatGPT en Gemini, hebben we NotebookLM en Perplexity AI toegevoegd, samen met andere services die uw werk efficiënter maken. NotebookLM is een service van Google waarmee u informatie k

23 juni 2024

ChatGPT vs Gemini prijsvergelijking Dit is een vergelijking van de twee belangrijkste LLM-diensten die momenteel beschikbaar zijn: ChatGPT en Gemini. ChatGPT, op basis van tokens, kost $ 0,125 per miljoen tokens, terwijl Gemini, op basis van letters, $ 0,125 per miljoen letters in rekening

7 maart 2024