当前位置:首页 > DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
作者:AI下载 发布时间:2025-05-29

DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!

名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。

研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。

目前,研究团队晒出了CoE技术Blog(完整论文即将发布),引起不少网友围观。

翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过