Alibaba ra mắt mô hình trí tuệ nhân tạo Qwen3-Next hiệu quả hơn
Jinse Finance đưa tin, Tongyi Qianwen thuộc Alibaba đã phát hành kiến trúc mô hình nền tảng thế hệ tiếp theo Qwen3-Next, đồng thời mã nguồn mở loạt mô hình Qwen3-Next-80B-A3B dựa trên kiến trúc này. So với cấu trúc mô hình MoE của Qwen3, kiến trúc mới đã thực hiện các cải tiến cốt lõi sau: cơ chế chú ý hỗn hợp, cấu trúc MoE có độ thưa cao, một loạt các tối ưu hóa thân thiện với sự ổn định khi huấn luyện, cũng như cơ chế dự đoán nhiều token giúp nâng cao hiệu suất suy luận. Dựa trên cấu trúc mô hình Qwen3-Next, Alibaba đã huấn luyện mô hình Qwen3-Next-80B-A3B-Base, mô hình này có 80 tỷ tham số nhưng chỉ kích hoạt 3 tỷ tham số. Mô hình Base này đạt hiệu suất tương đương hoặc thậm chí tốt hơn một chút so với mô hình dense Qwen3-32B, trong khi chi phí huấn luyện (giờ GPU) chỉ bằng chưa đến một phần mười của Qwen3-32B, và thông lượng suy luận trong ngữ cảnh trên 32k cao hơn gấp mười lần so với Qwen3-32B, đạt được hiệu quả tối ưu về chi phí huấn luyện và suy luận.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Dữ liệu: Tổng dòng tiền ròng ra của Bitcoin spot ETF hôm qua đạt 870 triệu USD, mức cao thứ hai trong lịch sử
Dữ liệu: Meme token “哈基米” trên chuỗi BSC tiếp tục tăng mạnh, tăng 33% trong 6 giờ qua
Đối tác của Dragonfly: Thị trường gấu hiện tại so với năm 2022 chỉ là "chuyện nhỏ"
El Salvador đã mua thêm 8 bitcoin trong 7 ngày qua
