选择语言
durumis AI 总结的文章
- 蘋果、微軟、Meta 等主要科技巨頭最近公開了新的大型語言模型,為 AI 行業帶來了巨大的變化。
- 各家公司都在模型尺寸縮減、數據/算法優化、上下文理解能力增強等方面進行了多種嘗試,推出了各自的差異化模型。
- 尤其是蘋果的 OpenELM 是專為小型設備開發的,而 Meta 的 Llama 3 通過高效的模型結構,在尺寸較小的前提下仍然展現了優異的性能。
近期值得关注的大型语言模型发布消息
最近一周,苹果、微软、Meta 等主要科技巨头相继发布了新的大型语言模型,在 AI 行业引起了相当大的反响。 我们将深入了解此次发布的模型的主要特点和意义。
苹果的 OpenELM
4 月 25 日,苹果发布了其自行开发的 OpenELM 语言模型系列。该系列包含 0.27B、0.45B、1.08B、3.04B 四种不同大小的模型,其中最大的模型只有 30 亿个参数,相对较小。考虑到目前大多数大型语言模型至少拥有 3B 以上参数,OpenELM 的尺寸可以称得上是相当小。
这是因为苹果在开发 OpenELM 时主要考虑的是将其应用于小型设备。过去,增加参数数量是实现高性能的主要方法, 但近年来,小型化和轻量化成为主流趋势。苹果这次不仅公开了模型权重和推理代码,还公开了数据集和框架, 提高了开放性。
微软的 Phi-3 系列
微软也在 4 月 23 日率先发布了 Phi-3 Mini 模型(3.8B 个参数),并计划未来发布 7B 大小的 Phi-3 Small 和 14B 大小的 Phi-3 Medium。Phi-3 Mini 是一个开放模型,任何人都可以免费进行商业使用。 新的 Phi-3 系列模型都将在微软的云服务 Azure 上提供。
Meta 的 Llama 3
Meta(前身为 Facebook)于 4 月 18 日率先发布了 Llama 3 模型的 8B 和 70B 版本,计划在夏季发布 400B 的大型模型。特别是 8B 模型在尺寸较小的情况下表现出优异的性能,获得了开发者社区的认可。
分析认为,这是因为 Meta 输入了大量的学习数据,并构建了高效的模型结构。可以认为,这是注重数据和 算法优化,而不是增加参数数量的结果。
xAI 的 Grok 1.5
3 月 38 日发布的 xAI 的 Grok 1.5 模型可以处理最大 128K 的长上下文令牌,支持复杂且长的提示。 如果说以往的语言模型开发趋势都集中在单纯地增加参数数量上,那么 Grok 1.5 则提出了一种新的方向, 即提升长文本理解能力。
像这样,最近一周苹果、微软、Meta 等领先企业接连发布新的大型语言模型,AI 技术的发展方向更加多样化。 在模型尺寸缩减和轻量化、数据和算法优化、上下文理解能力增强等多个方面,不断涌现新的尝试。 未来 AI 生态系统将如何演变值得关注。