Chủ đề
- #Giá cả
- #Điểm chuẩn
- #Gemini
- #Hiệu năng
- #Mô hình AI
Đã viết: 2024-09-03
Đã viết: 2024-09-03 12:06
Google gần đây đã phát hành các mô hình mới của Gemini.
Thực ra, đây không phải là phiên bản chính thức mà là phiên bản thử nghiệm (Experimental).
Các mô hình đó là:
Trước hết, đối với Gemini 1.5 Pro Exp và 1.5 Flash Exp, bạn có thể coi chúng là bản cập nhật của phiên bản cũ. Trên thực tế, khi thử nghiệm, Gemini 1.5 Pro Exp có hiệu năng cao hơn một chút so với Gemini 1.5 Pro cũ (hiệu năng chuẩn cũng được cải thiện. Mặc dù không có dữ liệu nhưng có thể coi đây là phiên bản tốt nhất trong số các phiên bản đã phát hành). Đối với Gemini 1.5 Flash Exp, mặc dù không phải là tốt nhất nhưng cũng đã được cải thiện đáng kể so với các phiên bản cơ bản khác.
Theo thông tin, hai phiên bản này sẽ được phản ánh vào phiên bản 1.5 Pro và 1.5 Flash cũ trong vòng vài tuần tới. (Phiên bản cũ là 001, vì vậy có vẻ như sẽ được cập nhật lên phiên bản 002).
Nguồn: Chatbot Arena
Nếu xem bảng, bạn sẽ thấy Gemini 1.5 Pro Exp ở vị trí thứ 2 và Gemini 1.5 Flash Exp ở vị trí thứ 6.
Điều thú vị là Gemini 1.5 Flash Exp lại xếp hạng cao hơn cả Gemini 1.5 Pro ở vị trí thứ 10 và 11.
Từ vị trí thứ 1 đến 5 là các phiên bản hàng đầu của từng công ty (GPT 4o, Gemini 1.5 Pro, Grok 2), và vị trí thứ 6 và 7 là dòng sản phẩm cơ bản của từng công ty (GPT 4o mini, Gemini 1.5 Flash). Claude 3.5 Sonnet đã đứng đầu trong một thời gian dài... tốc độ phát triển của ngành này thực sự...
Dù sao thì cá nhân tôi nghĩ rằng hai phiên bản này (1.5 Pro, 1.5 Flash) sẽ sớm trở thành phiên bản chính thức, và điều tôi đang thắc mắc là phiên bản 1.5 Flash 8b.
Trước hết, hãy xem qua kết quả đánh giá chuẩn.
Nguồn: Chatbot Arena
Nhìn vào kết quả đánh giá chuẩn ở trên, hiệu năng của Gemini 1.5 Flash 8B Exp gần tương đương với Claude 3 Sonnet, và hiệu năng cao hơn hoặc thấp hơn một chút so với Gemini 1.5 Flash, nhưng tương đương với Llama 3 70b.
Flash là phiên bản rút gọn của Pro, nhưng Flash 8b lại được rút gọn nhiều hơn nữa. (Có lẽ là vậy?)
Trước hết, tôi đã thử nghiệm một số thứ, đó là các bài kiểm tra câu lệnh thường được sử dụng trong dịch vụ của chúng tôi, cụ thể là:
Có rất nhiều bài kiểm tra khác ở những nơi khác, vì vậy tôi chỉ thử nghiệm một vài thứ đơn giản. Khi dịch văn bản có cấu trúc JSON phức tạp, Flash không tạo ra kết quả mong muốn, nhưng dòng sản phẩm Pro thì lại cho ra kết quả thỏa đáng. Hơn nữa, phiên bản Pro Exp tạo ra kết quả rõ ràng hơn.
Đối với việc tóm tắt và viết bài, cả Flash và Flash 8b đều cho ra kết quả tốt. Điều này cho thấy rằng Flash 8b có thể được sử dụng cho các tác vụ đơn giản, không phải là tác vụ phức tạp.
Dựa trên hiệu năng và thông số, Google có vẻ sẽ định giá Flash 8b khá thấp khi phát hành chính thức.
Có lẽ họ sẽ định giá thấp đến mức gây thiệt hại đáng kể cho các dòng sản phẩm của các công ty khác. Khi nó được phát hành, tôi sẽ quay lại đây với bảng giá "một lần nữa".
Bình luận0