Apple công bố OpenELM / MS công bố Phi-3 / Meta công bố Llama 3

Những tin tức đáng chú ý về việc ra mắt các mô hình ngôn ngữ lớn gần đây

Trong vòng một tuần qua, các công ty công nghệ lớn như Apple, Microsoft, Meta đã liên tiếp công bố các mô hình ngôn ngữ lớn mới, gây ra làn sóng phản hồi đáng kể trong ngành AI. Chúng ta hãy cùng tìm hiểu kỹ hơn về các đặc điểm chính và ý nghĩa của những mô hình được ra mắt lần này.

OpenELM của Apple

Vào ngày 25 tháng 4, Apple đã công bố dòng sản phẩm mô hình ngôn ngữ OpenELM do chính họ phát triển. Bao gồm 4 mô hình với kích thước khác nhau: 0.27B, 0.45B, 1.08B, 3.04B, trong đó mô hình lớn nhất cũng chỉ có 3 tỷ tham số, tương đối nhỏ. Nếu so sánh với đa số các mô hình ngôn ngữ lớn hiện nay, thường có ít nhất 3 tỷ tham số trở lên, thì OpenELM có kích thước rất nhỏ.
Điều này là do Apple chủ yếu nhắm đến việc tích hợp OpenELM vào các thiết bị nhỏ. Trước đây, việc tăng số lượng tham số là cách chính để đạt được hiệu năng cao, nhưng gần đây xu hướng đang chuyển sang tập trung vào việc thu nhỏ và giảm tải trọng. Apple đã công khai toàn bộ hệ thống, bao gồm trọng số mô hình, mã suy luận, bộ dữ liệu và khung làm việc, từ đó tăng cường tính mở.

Phi-3 series của MS

Microsoft cũng đã công bố mô hình Phi-3 Mini (3.8B tham số) vào ngày 23 tháng 4 và dự kiến sẽ ra mắt Phi-3 Small (7B tham số) và Phi-3 Medium (14B tham số) trong tương lai. Phi-3 Mini là một mô hình mở, bất kỳ ai cũng có thể sử dụng miễn phí cho mục đích thương mại. Tất cả các mô hình trong dòng Phi-3 mới sẽ được cung cấp trên dịch vụ đám mây Azure của MS.

Llama 3 của Meta

Meta (trước đây là Facebook) đã công bố phiên bản 8B và 70B của mô hình Llama 3 vào ngày 18 tháng 4, và dự kiến sẽ ra mắt phiên bản 400B vào mùa hè này. Đặc biệt, mô hình 8B được đánh giá cao bởi cộng đồng nhà phát triển vì hiệu năng vượt trội so với kích thước nhỏ của nó.
Điều này được cho là do Meta đã đầu tư một lượng lớn dữ liệu huấn luyện và xây dựng cấu trúc mô hình hiệu quả. Có thể nói, thay vì tăng số lượng tham số, họ đã tập trung vào tối ưu hóa dữ liệu và thuật toán.

Grok 1.5 của xAI

Mô hình Grok 1.5 của xAI được công bố vào ngày 38 tháng 3 có khả năng xử lý tối đa 128K token ngữ cảnh dài, cho phép người dùng đưa ra các lời nhắc phức tạp và dài. Nếu xu hướng phát triển mô hình ngôn ngữ trước đây tập trung vào việc tăng kích thước tham số, thì Grok 1.5 đã đề xuất một hướng đi mới, đó là cải thiện khả năng hiểu ngữ cảnh dài.

⁠⁠⁠⁠⁠⁠⁠
Như vậy, việc các công ty hàng đầu như Apple, MS, Meta liên tục ra mắt các mô hình ngôn ngữ lớn mới trong tuần qua đã làm cho hướng phát triển của công nghệ AI trở nên đa dạng hơn. Hiện tại, các nỗ lực đang được tập trung vào nhiều khía cạnh, từ việc thu nhỏ và giảm tải trọng mô hình, tối ưu hóa dữ liệu/thuật toán cho đến tăng cường khả năng hiểu ngữ cảnh. Chúng ta hãy cùng chờ xem hệ sinh thái AI sẽ phát triển như thế nào trong tương lai.