Lanzamiento de OpenELM de Apple / Phi-3 de MS / Llama 3 de Meta

Noticias recientes sobre el lanzamiento de modelos de lenguaje a gran escala dignos de mención

En la última semana, las principales empresas de tecnología como Apple, Microsoft y Meta han lanzado sucesivamente nuevos modelos de lenguaje a gran escala, generando un gran impacto en la industria de la IA. Examinaremos con más detalle las características principales y el significado de estos modelos lanzados recientemente.

OpenELM de Apple

El 25 de abril, Apple presentó su propia gama de modelos de lenguaje OpenELM. Está compuesta por cuatro modelos de diferentes tamaños: 0.27B, 0.45B, 1.08B y 3.04B. Incluso el modelo más grande solo tiene 3 mil millones de parámetros, lo que lo convierte en un modelo relativamente pequeño. Teniendo en cuenta que la mayoría de los modelos de lenguaje a gran escala actuales tienen al menos 3 mil millones de parámetros, se puede decir que OpenELM es de un tamaño muy pequeño.
Esto se debe a que Apple desarrolló OpenELM con la intención principal de implementarlo y utilizarlo en dispositivos pequeños. En el pasado, aumentar el número de parámetros era la principal forma de lograr un alto rendimiento, pero recientemente la tendencia se ha centrado en la miniaturización y la reducción de peso. Apple también ha mejorado la apertura al publicar no solo los pesos del modelo y el código de inferencia, sino también el conjunto de datos y el marco.

Serie Phi-3 de MS

Microsoft también lanzó primero el modelo Phi-3 Mini (3.8B parámetros) el 23 de abril, y planea lanzar Phi-3 Small de 7B parámetros y Phi-3 Medium de 14B parámetros en el futuro. Phi-3 Mini es un modelo abierto que cualquier persona puede utilizar comercialmente de forma gratuita. Todos los nuevos modelos de la serie Phi-3 se ofrecerán a través del servicio en la nube de MS, Azure.

Llama 3 de Meta

Meta (anteriormente Facebook) lanzó primero las versiones de 8B y 70B del modelo Llama 3 el 18 de abril, y planea lanzar la versión de 400B, que es de gran tamaño, en verano. En particular, el modelo de 8B está recibiendo elogios de la comunidad de desarrolladores por su excelente rendimiento a pesar de su pequeño tamaño.
Se analiza que esto se debe a que Meta ha construido una estructura de modelo eficiente invirtiendo una gran cantidad de datos de entrenamiento. Se puede considerar que es el resultado de centrarse en la optimización de datos y algoritmos en lugar de aumentar el número de parámetros.

Grok 1.5 de xAI

El modelo Grok 1.5 de xAI, anunciado el 38 de marzo, puede procesar tokens de contexto largo de hasta 128K, lo que permite indicaciones complejas y largas. Mientras que la tendencia de desarrollo de modelos de lenguaje hasta ahora se ha centrado simplemente en aumentar el tamaño de los parámetros, Grok 1.5 ha presentado un nuevo objetivo: mejorar la comprensión de contextos largos.

⁠⁠⁠⁠⁠⁠⁠
Como se ha visto en la última semana, con el lanzamiento continuo de nuevos modelos de lenguaje a gran escala por parte de empresas líderes como Apple, MS y Meta, la dirección de la evolución de la tecnología de IA se está volviendo más diversa. En la actualidad, se están realizando nuevos intentos en varios aspectos, como la reducción y aligeramiento del tamaño de los modelos, la optimización de datos y algoritmos, y el fortalecimiento de la comprensión del contexto. Será interesante observar cómo evolucionará el ecosistema de la IA en el futuro.