Thema
- #LLM
- #Llama3
- #AppleOpenELM
- #Phi-3
- #Grok
Erstellt: 2024-04-27
Erstellt: 2024-04-27 10:41
In der letzten Woche haben große Technologieunternehmen wie Apple, Microsoft und Meta nacheinander neue große Sprachmodelle veröffentlicht, was in der KI-Branche für erhebliche Aufmerksamkeit gesorgt hat. Lassen Sie uns die wichtigsten Merkmale und die Bedeutung dieser neu veröffentlichten Modelle genauer untersuchen.
Am 25. April hat Apple seine selbstentwickelte OpenELM-Sprachmodellfamilie veröffentlicht. Sie besteht aus vier Modellen unterschiedlicher Größe: 0,27B, 0,45B, 1,08B und 3,04B. Selbst das größte Modell verfügt mit nur 3 Milliarden Parametern über eine relativ geringe Größe. In Anbetracht der Tatsache, dass die meisten großen Sprachmodelle derzeit mindestens 3 Milliarden Parameter haben, ist OpenELM sehr klein.
Dies liegt daran, dass Apple OpenELM hauptsächlich für die Verwendung auf kleinen Geräten entwickelt hat. Früher war die Erhöhung der Parameterzahl der wichtigste Weg zur Leistungssteigerung, aber in letzter Zeit liegt der Schwerpunkt auf Miniaturisierung und Gewichtsreduzierung. Apple hat in diesem Fall die Offenheit erhöht, indem es nicht nur die Modellgewichte und den Inferenzcode, sondern auch den Datensatz und das Framework veröffentlicht hat.
Microsoft hat am 23. April zunächst das Phi-3 Mini-Modell (3,8 Milliarden Parameter) veröffentlicht und plant, in Zukunft auch das Phi-3 Small-Modell mit 7 Milliarden Parametern und das Phi-3 Medium-Modell mit 14 Milliarden Parametern herauszubringen. Phi-3 Mini ist ein Open-Source-Modell, das jeder kostenlos und auch kommerziell nutzen kann. Die neuen Modelle der Phi-3-Serie werden alle über den Microsoft Cloud-Dienst Azure bereitgestellt werden.
Meta (ehemals Facebook) hat am 18. April zunächst die 8B- und 70B-Versionen des Llama 3-Modells veröffentlicht und plant, die große 400B-Version im Sommer herauszubringen. Insbesondere das 8B-Modell wird von der Entwickler-Community für seine im Vergleich zu seiner geringen Größe hervorragende Leistung gelobt.
Dies wird darauf zurückgeführt, dass Meta eine enorme Menge an Trainingsdaten verwendet und eine effiziente Modellstruktur aufgebaut hat. Man kann sagen, dass das Ergebnis darin besteht, dass sich Meta anstatt der Erhöhung der Parameterzahl auf die Daten und die Algorithmusoptimierung konzentriert hat.
Das am 38. März angekündigte Grok 1.5-Modell von xAI kann bis zu 128.000 lange Kontext-Token verarbeiten, was komplexe und lange Eingabeaufforderungen ermöglicht. Während sich der bisherige Trend bei der Entwicklung von Sprachmodellen auf die reine Erhöhung der Parameterzahl konzentrierte, hat Grok 1.5 ein neues Ziel gesetzt: die Verbesserung des Verständnisses langer Kontexte.
Die jüngste Veröffentlichung neuer großer Sprachmodelle durch führende Unternehmen wie Apple, MS und Meta in der letzten Woche hat zu einer zunehmenden Diversifizierung der Entwicklungstrends im Bereich der KI-Technologie geführt. In verschiedenen Bereichen wie der Reduzierung der Modellgröße und -gewichtung, der Daten- und Algorithmusoptimierung sowie der Verbesserung des Kontextverständnisses werden neue Ansätze verfolgt. Es bleibt abzuwarten, wie sich das KI-Ökosystem in Zukunft entwickeln wird.
Kommentare0