Assunto
- #Llama3
- #LLM
- #AppleOpenELM
- #Grok
- #Phi-3
Criado: 2024-04-27
Criado: 2024-04-27 10:41
Na última semana, empresas de tecnologia de ponta como Apple, Microsoft e Meta lançaram novos modelos de linguagem de grande porte, causando grande impacto no setor de IA. Vamos explorar com mais detalhes as principais características e o significado desses modelos recém-lançados.
Em 25 de abril, a Apple revelou sua linha de modelos de linguagem OpenELM de desenvolvimento próprio. Composta por quatro modelos de diferentes tamanhos: 0.27B, 0.45B, 1.08B e 3.04B, sendo que o maior modelo possui apenas 3 bilhões de parâmetros, o que o torna relativamente pequeno. Considerando que a maioria dos grandes modelos de linguagem atualmente possui pelo menos 3 bilhões de parâmetros, o OpenELM pode ser considerado de tamanho muito reduzido.
Isso se deve ao fato de a Apple ter desenvolvido o OpenELM com foco em sua aplicação em dispositivos compactos. No passado, aumentar o número de parâmetros era a principal forma de alcançar alto desempenho, mas atualmente há uma tendência crescente de priorizar a miniaturização e leveza. Ao disponibilizar os pesos do modelo, código de inferência, conjunto de dados e estrutura, a Apple promoveu maior abertura nesse lançamento.
A Microsoft também lançou o modelo Phi-3 Mini (3,8 bilhões de parâmetros) em 23 de abril, com planos de lançar futuramente o Phi-3 Small (7 bilhões de parâmetros) e o Phi-3 Medium (14 bilhões de parâmetros). O Phi-3 Mini é um modelo aberto e pode ser usado comercialmente por qualquer pessoa gratuitamente. Todos os novos modelos da série Phi-3 serão disponibilizados por meio do serviço em nuvem Azure da Microsoft.
O Meta (antigo Facebook) lançou as versões 8B e 70B do modelo Llama 3 em 18 de abril, com planos de lançar a versão 400B no verão. O modelo de 8B em particular tem recebido elogios da comunidade de desenvolvedores por seu desempenho superior, apesar de seu tamanho relativamente pequeno.
Acredita-se que isso seja resultado do uso de uma grande quantidade de dados de treinamento e da construção de uma estrutura de modelo eficiente pelo Meta. Em vez de aumentar o número de parâmetros, a empresa priorizou a otimização de dados e algoritmos.
Anunciado em 38 de março, o modelo Grok 1.5 do xAI consegue processar tokens de contexto longos de até 128K, permitindo prompts complexos e extensos. Enquanto a tendência de desenvolvimento de modelos de linguagem até então se concentrava no aumento do tamanho dos parâmetros, o Grok 1.5 apresenta uma nova perspectiva, focada na melhoria da capacidade de compreensão de contextos longos.
Com o lançamento de novos grandes modelos de linguagem por empresas líderes como Apple, MS e Meta na última semana, a direção da evolução da tecnologia de IA se torna cada vez mais diversificada. Em meio a várias novas tentativas, como a redução e leveza dos modelos, a otimização de dados e algoritmos e a melhoria da compreensão de contextos, o futuro do ecossistema de IA é aguardado com grande expectativa.
Comentários0