小米近期悄然上线了新一代旗舰模型MiMo-V2.5-Pro,这款在匿名测试阶段以Hunter Alpha代号引发关注的模型,正式完成从V2到V2.5版本的迭代升级。伴随模型更新,小米同步调整了用户Token额度体系,所有用户的Token使用配额被重置,此举被开发者社区戏称为"复活年轻人的第一个Coding Plan"。
在基础能力测试中,新模型展现出显著进步。面对"洗车"场景测试,模型不仅准确完成任务,还主动添加"注意剐蹭"的温馨提示。通过分析其英文思考过程可见,模型先识别问题复杂性,再精准定位关键信息。当被问及"用户驾驶车型"时,模型结合上下文给出正确推断,印证其对细节的把握能力。不过在"父亲为何崩溃"的情感推理测试中,初始回答未能通过,经2分钟深度思考后才给出正确答案,暴露出零散线索整合能力的不足。
真正展现模型实力的场景出现在Vibe Coding开发测试中。当要求用10分钟开发仿SBTI测试系统时,模型首先确认技术栈选择,最终采用将JS/CSS内嵌HTML的最简方案,仅用2分钟就完成基础架构开发。生成的页面支持折叠展开功能,浏览器控制台无报错,搜索结果可清晰展示汇报路径。尽管使用数据较为陈旧,但开发团队认为这属于数据源问题,不影响模型能力评估。
在复杂项目开发测试中,模型展现出强大的任务拆解能力。面对搭建Harness框架的挑战,模型自动将项目分解为引擎、数据结构、界面、内容四大模块,并制定四阶段开发路线图。特别在路线规划环节,自动生成的"gsd-roadmapper"子智能体成功实现并行开发建议。整个项目从规划到落地仅耗时10分钟,最终成品完整复刻SBTI算法,支持30种题型和25种测试类型,实现数据与代码分离的模块化设计。
不过测试也暴露出模型的一些特性倾向。在开发过程中,模型更倾向于采用直接编码而非调用预设技能,这种"最短路径"策略虽提升效率,但未完全发挥框架的并行处理优势。项目负责人解释,这种选择与模型优化目标相关——只要能完成任务,系统会优先选择资源消耗更少的方式。
伴随新模型发布,小米调整了Token计费策略。旗舰模型消耗额度从4倍降至最高2倍,非高峰时段享受8折优惠,连续包月用户可再获折扣。这种调整源于模型效率提升带来的成本优化,测试数据显示,在完成相同任务时,新模型资源消耗显著降低。此举引发行业连锁反应,多家模型公司陆续跟进调整计费模式,市场逐渐形成新的定价标准。















