近日,小米宣布对其MiMo-V2.5系列API进行永久性价格调整,最高降幅达99%,这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化,使得推理成本大幅降低,为AI应用的普及提供了新的可能。
小米MiMo大模型团队通过系统性重构推理栈,包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路,成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著,推理成本大幅下降,为大规模AI应用提供了经济高效的解决方案。
在技术实现上,MiMo-V2.5系列模型采用了Hybrid SWA架构,其中SWA层占比高达6/7,计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量,还显著降低了KV Cache的存储需求,使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施,提升了KV Cache的命中率,进一步降低了推理成本。
小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出,输入(缓存命中)部分降幅高达99%,主要得益于推理框架对SWA分层键值缓存优化的支持。而输入(缓存未命中)和输出价格降低60%-80%,则是因为Hybrid SWA架构中SWA层的高占比,使得计算量大幅减少。罗福莉还强调,尽管API价格大幅下调,但小米的生产推理引擎仍能基本实现收支平衡。
在调度优化方面,小米开发了可动态扩展的无状态调度器LLM-Router,通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。同时,小米还引入了计算量感知优先调度策略,优先处理真实计算token数更少的请求,进一步降低了推理延迟。
Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化,小米成功提升了KV Cache的有效容量,使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出,进一步降低了智能体场景下的真实decode成本。
在多模态推理方面,MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复,将Encoder吞吐提升至2倍,显著提高了多模态推理的效率。















