![translation](https://cdn.durumis.com/common/trans.png)
Esta é uma postagem traduzida por IA.
Selecionar idioma
Texto resumido pela IA durumis
- Apple, Microsoft e Meta, entre outras grandes empresas de tecnologia, estão causando grande impacto no setor de IA com o lançamento recente de novos modelos de linguagem de grande porte.
- Cada empresa está apresentando modelos diferenciados por meio de redução de tamanho, otimização de dados/algoritmos e melhoria da compreensão de contexto, entre outras abordagens.
- O OpenELM da Apple, em particular, foi desenvolvido para dispositivos pequenos, enquanto o Llama 3 do Meta, com sua estrutura de modelo eficiente, oferece desempenho superior mesmo em tamanhos pequenos.
Notícias recentes sobre o lançamento de grandes modelos de linguagem
Nas últimas semanas, empresas de tecnologia importantes como Apple, Microsoft e Meta lançaram novos modelos de linguagem de grande porte, causando grande impacto na indústria de IA. Vamos explorar em mais detalhes as características e o significado desses modelos lançados recentemente.
OpenELM da Apple
Em 25 de abril, a Apple lançou sua linha de modelos de linguagem OpenELM. Composto por quatro modelos de tamanhos diferentes — 0,27B, 0,45B, 1,08B e 3,04B —, o maior deles tem apenas 3 bilhões de parâmetros, um tamanho relativamente pequeno. Considerando que a maioria dos grandes modelos de linguagem atualmente possui pelo menos 3 bilhões de parâmetros, o OpenELM é realmente pequeno.
Isso se deve ao fato de a Apple ter desenvolvido o OpenELM com foco em usá-lo principalmente em dispositivos pequenos. No passado, aumentar o número de parâmetros era a principal maneira de atingir alto desempenho, mas a tendência atual é se concentrar em tamanhos menores e mais leves. A Apple também aumentou a transparência ao lançar não apenas os pesos e o código de inferência do modelo, mas também o conjunto de dados e o framework.
Série Phi-3 da MS
A Microsoft também lançou primeiro o modelo Phi-3 Mini (3,8 bilhões de parâmetros) em 23 de abril, e planeja lançar o Phi-3 Small (7 bilhões de parâmetros) e o Phi-3 Medium (14 bilhões de parâmetros) em breve. O Phi-3 Mini é um modelo aberto, disponível para uso comercial gratuito por qualquer pessoa. Todos os novos modelos da série Phi-3 serão oferecidos no Azure, o serviço de nuvem da Microsoft.
Llama 3 da Meta
O Meta (antigo Facebook) lançou as versões de 8 bilhões e 70 bilhões de parâmetros do modelo Llama 3 em 18 de abril, e planeja lançar a versão de 400 bilhões de parâmetros no verão. Em particular, o modelo de 8 bilhões de parâmetros está recebendo elogios da comunidade de desenvolvedores por seu desempenho superior, considerando seu tamanho menor.
Isso é atribuído ao investimento do Meta em uma quantidade significativa de dados de treinamento para criar uma estrutura de modelo eficiente. Isso pode ser visto como resultado da concentração na otimização de dados e algoritmos, em vez de aumentar o número de parâmetros.
Grok 1.5 da xAI
O modelo Grok 1.5 da xAI, apresentado em 38 de março, pode lidar com tokens de contexto longos de até 128K, permitindo prompts complexos e longos. Enquanto a tendência de desenvolvimento de modelos de linguagem até agora estava concentrada em aumentar o tamanho dos parâmetros, o Grok 1.5 apresentou um novo objetivo: melhorar a capacidade de compreensão de longos contextos.
Com o lançamento de novos grandes modelos de linguagem por empresas líderes como Apple, MS e Meta nas últimas semanas, a direção da evolução da tecnologia de IA está se tornando mais diversificada. Novas tentativas estão surgindo em vários aspectos, incluindo a redução do tamanho do modelo e a leveza, a otimização de dados/algoritmos e o fortalecimento da compreensão de contexto. Acompanharemos como o ecossistema de IA evoluirá no futuro.