![translation](https://cdn.durumis.com/common/trans.png)
Đây là bài viết được dịch bởi AI.
Chọn ngôn ngữ
Văn bản được tóm tắt bởi AI durumis
- Apple, Microsoft, Meta và các công ty công nghệ lớn khác đang tạo ra những thay đổi lớn trong ngành AI bằng cách phát hành các mô hình ngôn ngữ lớn mới gần đây.
- Mỗi công ty đều giới thiệu các mô hình khác biệt bằng cách giảm kích thước mô hình hoặc tối ưu hóa dữ liệu/thuật toán, tăng cường khả năng hiểu ngữ cảnh.
- Đặc biệt, OpenELM của Apple được phát triển phù hợp với các thiết bị nhỏ, trong khi Llama 3 của Meta thể hiện hiệu suất vượt trội mặc dù có kích thước nhỏ nhờ cấu trúc mô hình hiệu quả.
Tin tức về việc phát hành các mô hình ngôn ngữ lớn đáng chú ý gần đây
Trong vòng một tuần qua, các công ty công nghệ lớn hàng đầu như Apple, Microsoft và Meta đã liên tiếp ra mắt các mô hình ngôn ngữ lớn mới, tạo nên tiếng vang đáng kể trong ngành AI. Chúng ta hãy cùng tìm hiểu chi tiết hơn về các tính năng chính và ý nghĩa của các mô hình được phát hành gần đây.
OpenELM của Apple
Vào ngày 25 tháng 4, Apple đã công bố bộ mô hình ngôn ngữ OpenELM do chính hãng phát triển. Bộ mô hình này bao gồm 4 mô hình với kích cỡ khác nhau: 0.27B, 0.45B, 1.08B, 3.04B. Mô hình lớn nhất chỉ có 3 tỷ tham số, tương đối nhỏ so với các mô hình ngôn ngữ lớn khác hiện nay.
Điều này cho thấy Apple đang nhắm mục tiêu sử dụng OpenELM chủ yếu trên các thiết bị nhỏ. Trước đây, việc tăng số lượng tham số là cách chính để đạt được hiệu suất cao, nhưng gần đây xu hướng tập trung vào việc thu nhỏ và nhẹ hóa mô hình. Apple đã tăng cường tính minh bạch bằng cách công khai toàn bộ, bao gồm trọng số mô hình, mã suy luận, bộ dữ liệu và khung phát triển.
Phi-3 series của MS
Microsoft cũng đã công bố Phi-3 Mini (3,8 tỷ tham số) vào ngày 23 tháng 4, và dự kiến sẽ ra mắt Phi-3 Small với kích cỡ 7B và Phi-3 Medium với kích cỡ 14B trong tương lai. Phi-3 Mini là một mô hình mở, cho phép bất kỳ ai sử dụng miễn phí cho mục đích thương mại. Tất cả các mô hình trong bộ Phi-3 series mới sẽ được cung cấp thông qua dịch vụ đám mây Azure của MS.
Llama 3 của Meta
Meta (trước đây là Facebook) đã công bố phiên bản 8B và 70B của mô hình Llama 3 vào ngày 18 tháng 4, và dự kiến sẽ phát hành phiên bản 400B vào mùa hè này. Đặc biệt, mô hình 8B được đánh giá cao bởi cộng đồng nhà phát triển bởi hiệu suất vượt trội so với kích cỡ nhỏ.
Điều này được phân tích là do Meta đã đầu tư vào việc đào tạo với khối lượng dữ liệu khổng lồ và xây dựng cấu trúc mô hình hiệu quả. Có thể nói, kết quả này là minh chứng cho việc tập trung tối ưu hóa dữ liệu và thuật toán thay vì tăng số lượng tham số.
Grok 1.5 của xAI
Mô hình Grok 1.5 của xAI được công bố vào ngày 38 tháng 3 có thể xử lý các token ngữ cảnh dài tối đa 128K, cho phép các câu lệnh phức tạp và dài. Trong khi xu hướng phát triển mô hình ngôn ngữ trước đây tập trung vào việc tăng kích cỡ tham số, Grok 1.5 đã mang đến một hướng đi mới, đó là nâng cao khả năng hiểu ngữ cảnh dài.
Với chuỗi ra mắt mô hình ngôn ngữ lớn mới từ các công ty hàng đầu như Apple, MS, Meta trong vòng một tuần qua, hướng phát triển của công nghệ AI ngày càng đa dạng. Nhiều nỗ lực mới đang được thực hiện trên nhiều khía cạnh, bao gồm thu nhỏ và nhẹ hóa mô hình, tối ưu hóa dữ liệu/thuật toán, tăng cường khả năng hiểu ngữ cảnh. Chúng ta cùng chờ xem hệ sinh thái AI sẽ phát triển như thế nào trong tương lai.