Alibaba представила більш ефективну модель штучного інтелекту Qwen3-Next
Jinse Finance повідомляє, що Tongyi Qianwen, дочірня компанія Alibaba, випустила архітектуру базової моделі наступного покоління Qwen3-Next і відкрила вихідний код серії моделей Qwen3-Next-80B-A3B, заснованих на цій архітектурі. У порівнянні з MoE-архітектурою Qwen3, ця структура має такі основні вдосконалення: гібридний механізм уваги, MoE-структура з високою розрідженістю, низка оптимізацій для стабільності тренування, а також механізм багатотокенового прогнозування для підвищення ефективності інференсу. На основі архітектури Qwen3-Next Alibaba навчила модель Qwen3-Next-80B-A3B-Base, яка має 80 мільярдів параметрів, але активує лише 3 мільярди параметрів. Ця базова модель досягає продуктивності, близької або навіть трохи кращої за щільну модель Qwen3-32B, при цьому витрати на тренування (GPU hours) становлять менше однієї десятої від Qwen3-32B, а пропускна здатність інференсу при контексті понад 32k перевищує Qwen3-32B більш ніж у десять разів, що забезпечує надзвичайну ефективність тренування та інференсу.
Відмова від відповідальності: зміст цієї статті відображає виключно думку автора і не представляє платформу в будь-якій якості. Ця стаття не повинна бути орієнтиром під час прийняття інвестиційних рішень.
Вас також може зацікавити
Patricio Worthalter продав 2,000 ETH в обмін на 8.85 мільйонів USDC
CleanCore Solutions збільшує свої запаси DOGE до 500 мільйонів монет
Ілон Маск знову попереджає про ризики державного боргу обсягом 37 трильйонів доларів
У тренді
БільшеЦіни на криптовалюти
Більше








