DeepSeek新模型发力:以创新技术缩小差距,与巨头正面交锋

   时间:2025-12-03 16:19 来源:快讯作者:冯璃月

在人工智能领域,开源模型与闭源模型的竞争愈发激烈。近期,DeepSeek凭借新发布的两款模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale,再次成为行业焦点。这两款模型不仅在性能上与国际顶尖闭源模型展开正面交锋,更在技术路径上展现出独特创新。

DeepSeek V3.2在基准测试中展现出与GPT-5相当的实力,而其高性能版本V3.2-Speciale更是在多项评测中超越GPT-5,与谷歌Gemini系列形成分庭抗礼之势。值得关注的是,该模型在国际数学奥林匹克(IMO 2025)和中国数学奥林匹克(CMO 2025)等权威赛事中斩获金牌,验证了其在复杂推理任务上的突破性进展。这是DeepSeek今年第九次发布新模型,尽管备受期待的R2版本尚未亮相,但此次技术更新已引发行业广泛关注。

技术团队通过论文披露了核心创新:稀疏注意力机制(DSA)的正式应用成为关键突破。该机制通过为模型构建"智能目录",将计算资源聚焦于关键信息关联,显著提升长文本处理能力。传统模型在处理长句子时,计算量会随文本长度呈平方级增长,而V3.2通过动态划分注意力范围,使推理成本保持稳定。实验数据显示,当输入文本长度增加时,V3.2的推理成本增幅明显低于前代模型,展现出卓越的效率优势。

后训练阶段的强化学习策略构成另一重要创新。研究团队设计了一套新型训练协议,投入超过总训练算力10%的资源进行专项优化。这种"名师辅导班"式的训练模式,有效弥补了开源模型在复杂任务处理上的短板。特殊版本V3.2-Speciale更取消了传统模型对思考长度的限制,鼓励模型进行深度推理,从而在需要多步骤逻辑的任务中表现出色。

在智能体能力建设方面,DeepSeek构建了包含2.4万余个真实代码环境、5万余个搜索任务和4千余个合成场景的虚拟训练环境。团队重点优化了工具调用流程,使模型在连续任务中保持推理连贯性。改进后的系统将工具调用记录完整保留在上下文中,避免重复构建推理链,显著提升了复杂任务处理效率。这种设计特别适用于需要多步骤交互的场景,如代码调试或信息检索。

尽管取得显著进步,DeepSeek团队在论文中坦诚指出模型存在的不足。测试数据显示,V3.2-Speciale在解答复杂问题时需要消耗更多token,其token使用量较Gemini 3 Pro高出近60%。不过从成本角度看,DeepSeek仍保持显著优势——相同任务下,其费用仅为谷歌模型的二十分之一。这种"效率优先"的技术路线,与行业巨头依赖算力堆砌的模式形成鲜明对比。

DeepSeek的技术演进路径,与OpenAI前首席科学家Ilya Sutskever的观点不谋而合。这位AI领域权威专家近期指出,单纯扩大模型参数规模已非可持续发展方向。他回顾深度学习发展史强调,AlexNet仅用两块GPU,早期Transformer实验规模多在8-64块GPU范围内。DeepSeek的技术实践印证了这种判断——从MoE架构到稀疏注意力机制,其创新始终聚焦于算法效率提升而非参数规模扩张。这种技术路线选择,为资源有限的研发团队提供了重要参考范本。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群