上海稀宇科技有限公司(MiniMax)近日在X平台发布重磅消息,宣布即将推出全新一代MiniMax M3系列模型。这一消息引发了人工智能领域的广泛关注,尤其是其前代M2.x系列模型在技术架构和训练系统上的创新突破,为新模型的发布奠定了坚实基础。
根据5月26日发表于arXiv平台的论文《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》披露,M2.x系列模型采用独特的"低激活、高智能"设计理念,总参数规模达2299亿,但每个词元仅激活98亿参数。这种架构在保证模型性能的同时,显著提升了计算效率。该系列配备19.2万词元的超长上下文窗口,预训练数据量高达29.2万亿词元,为复杂任务处理提供了强大支撑。
在模型结构方面,M2系列采用62层解码器式Transformer架构,创新性地引入256个细粒度专家模块。每个词元处理过程中会动态激活8个专家模块,这种混合专家(MoE)设计使模型能够更精准地分配计算资源。论文特别指出,这种架构在保持模型规模可控的前提下,实现了参数利用率的指数级提升。
训练系统层面的突破同样引人注目。MiniMax研发的Forge强化学习系统实现了白盒与黑盒智能体的统一接入,通过训练、推理与智能体的解耦设计,配合窗口化FIFO调度算法和前缀树合并技术,将长轨迹训练成本降低了30%以上。该系统还集成了推理加速模块,进一步优化了模型运行效率。
M2.7版本最令人瞩目的创新是实现了"自我进化"的初步能力。实验数据显示,该模型已具备自主排查训练故障、分析日志文件、修改脚手架代码的能力,并在内部任务中完成了100轮自主迭代。这种自我优化机制使模型能够参与自身开发闭环,据团队统计,该系统已承担30%-50%的日常迭代工作量,并在编程脚手架优化中带来30%的性能提升。
技术专家分析指出,MiniMax M2系列的技术突破标志着大模型发展进入新阶段。其创新的参数激活机制、混合专家架构和自主进化能力,为解决模型规模与效率的矛盾提供了全新思路。随着M3系列的即将发布,业界普遍期待看到更多技术细节和实际应用场景的落地。















