![translation](https://cdn.durumis.com/common/trans.png)
Dies ist ein von KI übersetzter Beitrag.
Sprache auswählen
Von durumis AI zusammengefasster Text
- Apple, Microsoft und Meta, wichtige Big-Tech-Unternehmen, haben kürzlich neue große Sprachmodelle veröffentlicht und damit große Veränderungen in der KI-Branche ausgelöst.
- Jedes Unternehmen präsentiert differenzierte Modelle mit unterschiedlichen Ansätzen wie Größenreduzierung, Daten-/Algorithmusoptimierung und Verbesserung des Kontextverständnisses.
- Insbesondere Apples OpenELM wurde für kleine Geräte entwickelt, während Metas Llama 3 aufgrund seiner effizienten Modellstruktur eine hervorragende Leistung bei geringer Größe erzielt.
Aktuelle bemerkenswerte Veröffentlichungen großer Sprachmodelle
In der letzten Woche haben große Technologieunternehmen wie Apple, Microsoft und Meta nacheinander neue große Sprachmodelle veröffentlicht, was in der KI-Branche für erhebliches Aufsehen sorgt. Lassen Sie uns die wichtigsten Merkmale und die Bedeutung der neu veröffentlichten Modelle genauer untersuchen.
Apples OpenELM
Am 25. April veröffentlichte Apple seine selbstentwickelte OpenELM-Sprachmodellserie. Die Serie besteht aus vier verschiedenen Modellgrößen: 0,27B, 0,45B, 1,08B und 3,04B. Das größte Modell hat mit nur 3 Milliarden Parametern eine relativ kleine Größe. Wenn man bedenkt, dass die meisten aktuellen großen Sprachmodelle mindestens 3 Milliarden Parameter haben, ist OpenELM sehr klein.
Dies liegt daran, dass Apple OpenELM in erster Linie für die Verwendung auf kleinen Geräten entwickelt hat. In der Vergangenheit war die Erhöhung der Parameterzahl die wichtigste Methode zur Steigerung der Leistung, aber in letzter Zeit liegt der Fokus auf Miniaturisierung und Gewichtsreduktion. Apple hat dieses Mal nicht nur die Modellgewichte und den Inferenzcode veröffentlicht, sondern auch den Datensatz und das Framework, um die Offenheit zu erhöhen.
MS Phi-3-Serie
Microsoft veröffentlichte zunächst am 23. April das Phi-3 Mini-Modell (3,8 Milliarden Parameter) und plant in Zukunft die Veröffentlichung von Phi-3 Small (7 Milliarden Parameter) und Phi-3 Medium (14 Milliarden Parameter). Phi-3 Mini ist ein Open-Source-Modell, das von jedem kostenlos für kommerzielle Zwecke verwendet werden kann. Alle neuen Modelle der Phi-3-Serie werden über den Microsoft-Cloud-Dienst Azure bereitgestellt.
Metas Llama 3
Meta (ehemals Facebook) veröffentlichte am 18. April zunächst die 8B- und 70B-Version des Llama 3-Modells und plant die Veröffentlichung des großen 400B-Modells im Sommer. Insbesondere das 8B-Modell zeichnet sich durch seine hervorragende Leistung trotz seiner geringen Größe aus und wird von der Entwicklergemeinschaft gelobt.
Dies wird darauf zurückgeführt, dass Meta eine große Menge an Trainingsdaten eingesetzt hat, um eine effiziente Modellstruktur zu erstellen. Es kann als Ergebnis der Fokussierung auf die Optimierung von Daten und Algorithmen anstelle der Erhöhung der Parameterzahl angesehen werden.
xAI Grok 1.5
Das am 38. März angekündigte Grok 1.5-Modell von xAI kann bis zu 128.000 lange Kontext-Token verarbeiten, was komplexe und lange Prompts ermöglicht. Während sich der bisherige Trend in der Entwicklung von Sprachmodellen auf die einfache Erhöhung der Parametergröße konzentrierte, hat Grok 1.5 eine neue Ausrichtung auf die Verbesserung des Verständnisses langer Kontexte vorgelegt.
So hat in der letzten Woche die Veröffentlichung neuer großer Sprachmodelle durch führende Unternehmen wie Apple, MS und Meta zu einer größeren Vielfalt in der Entwicklung von KI-Technologien geführt. Neue Versuche werden in verschiedenen Bereichen wie Modellgrößenreduktion und -gewichtsreduktion, Daten-/Algorithmusoptimierung und Verbesserung des Kontextverständnisses unternommen. Es bleibt abzuwarten, wie sich das KI-Ökosystem in Zukunft entwickeln wird.