Onderwerp
- #Phi-3
- #Grok
- #LLM
- #Llama3
- #AppleOpenELM
Aangemaakt: 2024-04-27
Aangemaakt: 2024-04-27 10:41
In de afgelopen week hebben grote techbedrijven als Apple, Microsoft en Meta achter elkaar nieuwe grote taalmodellen uitgebracht, wat aanzienlijke opschudding in de AI-sector teweegbrengt. Laten we de belangrijkste kenmerken en betekenis van deze nieuw uitgebrachte modellen nader bekijken.
Op 25 april bracht Apple zijn zelfontwikkelde OpenELM-taalmodelfamilie uit. Deze bestaat uit vier modellen met verschillende groottes: 0.27B, 0.45B, 1.08B en 3.04B. Zelfs het grootste model heeft slechts 3 miljard parameters, wat relatief klein is. Gezien het feit dat de meeste grote taalmodellen tegenwoordig minimaal 3 miljard parameters hebben, is OpenELM inderdaad een klein model.
Dit komt omdat Apple OpenELM voornamelijk heeft ontwikkeld met het oog op gebruik op kleine apparaten. In het verleden was het verhogen van het aantal parameters de belangrijkste manier om betere prestaties te bereiken, maar de huidige trend is gericht op miniaturisatie en lichtgewicht ontwerp. Apple heeft in dit geval niet alleen de modelgewichten en inferentiecodes openbaar gemaakt, maar ook de datasets en frameworks, wat de openheid vergroot.
Microsoft heeft op 23 april eerst het Phi-3 Mini-model (3,8 miljard parameters) uitgebracht en zal later Phi-3 Small (7 miljard parameters) en Phi-3 Medium (14 miljard parameters) uitbrengen. Phi-3 Mini is een open model dat door iedereen gratis kan worden gebruikt voor commerciële doeleinden. De nieuwe Phi-3-serie modellen zullen allemaal worden aangeboden via de Azure-cloudservice van Microsoft.
Meta (voorheen Facebook) heeft op 18 april de 8B en 70B versies van het Llama 3-model uitgebracht en is van plan om de grote 400B-versie in de zomer uit te brengen. Vooral het 8B-model wordt geprezen door de ontwikkelaarscommunity vanwege de superieure prestaties voor een klein model.
Dit wordt toegeschreven aan het feit dat Meta een enorme hoeveelheid trainingsgegevens heeft gebruikt om een efficiënte modelstructuur te creëren. In plaats van het aantal parameters te vergroten, heeft Meta zich gefocust op het optimaliseren van gegevens en algoritmen. Dit kan worden gezien als een resultaat van deze focus.
Het op 38 maart aangekondigde Grok 1.5-model van xAI kan maximaal 128K lange contexttokens verwerken, waardoor complexe en lange prompts mogelijk zijn. Terwijl de ontwikkeltrend van taalmodellen tot nu toe voornamelijk gericht was op het vergroten van het aantal parameters, heeft Grok 1.5 een nieuwe focus gelegd op het verbeteren van het begrip van lange contexten.
Zoals we hebben gezien, is er in de afgelopen week een opeenvolging van releases van nieuwe grote taalmodellen van toonaangevende bedrijven als Apple, MS en Meta geweest, wat leidt tot een toenemende diversiteit in de ontwikkelrichtingen van AI-technologie. Er worden diverse nieuwe benaderingen ondernomen op verschillende gebieden, zoals het verkleinen en verlichten van modellen, het optimaliseren van gegevens en algoritmen, en het verbeteren van het contextueel begrip. Het is de moeite waard om te zien hoe het AI-ecosysteem zich in de toekomst verder zal ontwikkelen.
Reacties0