实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题提速10倍+性价比提升10倍-九游娱乐

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题提速10倍+性价比提升10倍

游戏攻略 2025-09-15　浏览量：　

　　线性注意力在长上下文处理中效率很高，但召回能力有限，而标准注意力计算开销大、推理效率低，单独使用均存在局限。

　　为此，Qwen团队引入Gated DeltaNet，其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2，并在采用3:1的混合策略（75%层使用 Gated DeltaNet，25%层保留标准注意力）时，兼顾性能与效率。

　　Qwen3-Next采用高稀疏度的MoE架构，总参数量达800亿，但每次推理仅激活约30亿参数。

　　相比Qwen3-MoE的128个总专家和8个路由专家，Qwen3-Next 扩展到512个总专家，并采用10路由专家加1共享专家的组合设计，在保证性能的前提下最大化资源利用率。

　　不仅如此，他们还在初始化时归一化了MoE router的参数，确保每个expert在训练早期都能被无偏地选中，减小初始化对实验结果的扰动。

　　此外，它还对MTP的多步推九游娱乐平台理进行了专项优化，即通过训练推理一致的多步策略，进一步提高了在实际应用场景下Speculative Decoding的接受率。

　　不仅如此，得益于创新的混合模型架构，Qwen3-Next在推理效率上也表现突出。

　　在4k tokens的上下文长度下，吞吐量接近前者的7倍；当上下文长度超过32k时，吞吐提升更是达到10倍以上。

　　在解码（decode）阶段，该模型同样高效。4k上下文吞吐量提升约4倍，长上下文（32k+）场景中仍可保持超过10倍的吞吐优势。

　　该模型仅使用十分之一的Non-Embedding激活参数，就已在大多数基准测试中超越Qwen3-32B-Base，并显著优于Qwen3-30B-A3B，展现出出色的效率与性能优势。

　　由于Qwen3-Next-80B-A3B支持多模态，这里我们可以直接上传图片。

　　几乎瞬九游娱乐平台间，模型就开始飞快地列出了详细解题思路和计算过程，最终得到的答案“588”与AIME标准答案完全吻合。

　　目前，新模型已在魔搭社区和抱抱脸开源，大家可通过Qwen Chat免费体验，也可直接调用阿里云百炼平台提供的API服务。

　　在指令跟踪、长文本生成、结构化数据理解和结构化输出生成方面均有显著提升。

上一个：男人四十被嘲笑“都多大了还看动画片。” 返回列表下一个：支付宝上线“短剧”入口；邵氏影城进军游戏行业；小红书回应被约<