Dit is een door AI vertaalde post.
OpenELM van Apple / Phi-3 van MS / Llama 3 van Meta openbaar
- Taal van de tekst: Koreaans
- •
- Referentieland: Alle landen
- •
- Informatietechnologie
Selecteer taal
Samengevat door durumis AI
- Apple, Microsoft en Meta, enkele van de grootste techbedrijven, hebben onlangs nieuwe grote taalmodellen uitgebracht en veroorzaken grote veranderingen in de AI-industrie.
- Elk bedrijf heeft een gedifferentieerd model gepresenteerd door de grootte van het model te verkleinen, de gegevens/algoritmen te optimaliseren, of het begrip van context te versterken.
- Met name OpenELM van Apple is ontworpen voor kleine apparaten, en Llama 3 van Meta, ondanks zijn kleine grootte, presteert goed dankzij zijn efficiënte modelstructuur.
Recente releases van opmerkelijke grote taalmodellen
In de afgelopen week hebben grote techbedrijven als Apple, Microsoft en Meta aandacht getrokken door het uitbrengen van nieuwe grote taalmodellen, wat een aanzienlijke impact heeft gehad op de AI-industrie. Laten we de belangrijkste kenmerken en betekenis van deze onlangs uitgebrachte modellen nader bekijken.
Apples OpenELM
Op 25 april bracht Apple zijn eigen OpenELM-taalmodelserie uit. Deze serie bestaat uit vier modellen van verschillende groottes: 0,27B, 0,45B, 1,08B en 3,04B. Het grootste model heeft slechts 3 miljard parameters, wat relatief klein is. Gezien het feit dat de meeste grote taalmodellen minstens 3 miljard parameters hebben, is OpenELM inderdaad klein.
Dit is omdat Apple OpenELM heeft ontwikkeld met het oog op gebruik op kleine apparaten. In het verleden was het verhogen van het aantal parameters de belangrijkste manier om hoge prestaties te bereiken, maar deze trend is aan het veranderen naar een focus op miniaturisering en lichtgewicht. Apple heeft deze keer niet alleen het modelgewicht en de inferentiecode vrijgegeven, maar ook de dataset en het framework, waardoor de openheid van het model is vergroot.
MS's Phi-3-serie
Microsoft bracht op 23 april eerst het Phi-3 Mini-model uit (3,8 miljard parameters) en heeft plannen om in de toekomst het Phi-3 Small-model (7 miljard parameters) en het Phi-3 Medium-model (14 miljard parameters) uit te brengen. Phi-3 Mini is een open model dat gratis en voor commerciële doeleinden kan worden gebruikt. Alle nieuwe modellen in de Phi-3-serie zullen worden aangeboden via de clouddienst Azure van Microsoft.
Meta's Llama 3
Meta (voorheen Facebook) heeft op 18 april de 8B- en 70B-versies van het Llama 3-model uitgebracht, en het grootste model met 400 miljard parameters staat gepland voor release in de zomer. Het 8B-model in het bijzonder heeft veel lof gekregen van de developer community vanwege de uitstekende prestaties voor zijn kleine formaat.
Dit wordt geanalyseerd als het resultaat van Meta's investering in een grote hoeveelheid trainingsgegevens en de ontwikkeling van een efficiënte modelstructuur. Dit kan worden gezien als een resultaat van het prioriteren van data- en algoritme-optimalisatie in plaats van het verhogen van het aantal parameters.
xAI's Grok 1.5
Het Grok 1.5-model van xAI, dat op 38 maart werd aangekondigd, kan lange contexttokens tot 128K verwerken, wat complexe en lange prompts mogelijk maakt. Terwijl de ontwikkeling van taalmodellen tot nu toe voornamelijk gericht was op het vergroten van de omvang van de parameters, heeft Grok 1.5 een nieuwe focus gelegd op het verbeteren van het begrip van lange context.
De recente release van nieuwe grote taalmodellen door toonaangevende bedrijven als Apple, MS en Meta heeft geleid tot een toenemende diversiteit in de evolutie van AI-technologie. Er worden nieuwe initiatieven ondernomen op verschillende gebieden, zoals modelminiaturisering en -lichtgewicht, data- en algoritme-optimalisatie en verbetering van het contextbegrip. De manier waarop het AI-ecosysteem zich in de toekomst zal ontwikkelen, zal met veel interesse worden gevolgd.