DeepSeek冲上Hugging Face榜第三,“深度思考”功能与R1解绑,可能不会有R2了?
出品|搜狐科技
作者|郑松毅
编辑|杨锦
没有V4也没有R2,DeepSeek这次选择用升级模型V3.1交卷。
数小时前,DeepSeek在用户群低调通知,“线上模型版本已升级至V3.1,上下文长度拓展至128K,欢迎前往官方网页、App、小程序测试,API接口调用方式保持不变。”
搜狐科技观察发现,DeepSeek当前已开源DeepSeek V3.1-Base版本,相关文件已上传至Hugging Face平台。尽管发布方式低调,但DeepSeek在Hugging Face趋势榜单中已上升至第3名。
本次发布有一个细节值得注意,DeepSeek 的官方网站上,原本在 “深度思考” 这个功能的开关按键上有 “R1” 的标识,现在这个标识被去掉了。
展开全文
业内猜测,DeepSeek是否也要走OpenAI的路线,把V系列的快速响应模型和R系列的深度思考模型整理合并,实现GPU共用,调度起来更方便?
这样来看,大家都在等的R2是否还会发布亮相,可能要打上一个问号。
编程能力提升,推理和“幻觉”问题并未改善
从DeepSeek官方宣传点来看,V3.1更新最大的宣传点在于上下文长度升级到了128K(之前64K)。也就是一次性能承载和处理更多信息,例如篇幅较长的文档和代码。
技术方面,V3.1在架构层面继承了DeepSeek V3系列的关键技术,包括MLA、MoE等,参数量与V3版本相同。
模型一发布,全网粉丝争先上手体验。从普遍实测反馈来看,新模型V3.1在Token使用上有较大改进,使用量较0324版本下降约13%,意味着成本的进一步节约。但综合推理能力方面着实没有明显进步,“幻觉”问题依然被诟病。
有业内测评员提到,“V3.1并未看到‘幻觉’问题的改善迹象,比如在年报总结任务上,V3.1在关键信息摘录上错误频发,甚至表现不如旧版。”
另有测评者表示,“我从六个维度实测了新模型的变化,包括数学推理、逻辑分析、代码生成等。结果让人意外:V3.1的推理能力没有提升,某些场景下甚至不如之前的旧版本。”
被抱怨最多的,要属“中英文混杂”问题。“(这个问题)几乎在旧版本是不存在的,而在V3.1里,中英夹杂却随处可见。尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。”有测试者表示。
有一种解释是,“这是强化学习的副作用,因为最新的论文中有提到混杂使用各种语言反而能使模型的推理能力增强,大模型厂商在做类似的尝试。”
但新模型V3.1的更新也并非毫无亮点。比如V3.1在回答内容信息上有进一步增加,提供了更多细节,语气也更为活泼。在代码编程、可视化效果、物理遵循能力上也有所提升。
此外,在多语言支持方面,V3.1版本能处理超过100种语言,尤其对亚洲语言和资源较少的语种进行了明显的能力优化。
从关键测试结果来看,V3.1 在AIME2025数学竞赛测试中准确率提升至87.5%,较旧版R1的70%有所提升。LiveCodeBench编程测试中,V3.1的表现几乎与OpenAI o3-high相当,展示出优秀的编程能力。
DeepSeek坐不住了?
2024年1月5日,DeepSeek发布了首个大模型DeepSeek LLM。同年12月,正式上线DeepSeek-V3模型,并同步开源。到2025年1月20日,DeepSeek-R1推理大模型发布,凭借低成本比肩海外顶尖模型,引起全球轰动。
自此,DeepSeek被视为国产“AI黑马”, 圈内始终对其保持高度关注。
但半年多时间过去了,备受期待的R2模型连续“跳票”,反而在这时用“不痛不痒”的模型轻量更新交卷,难免让人猜疑起背后原因。
除了开头提到的,一种猜测是DeepSeek在做合并V系列和R系列模型的重新思考,但也有另一种声音认为,“面对竞争压力,DeepSeek有些坐不住了。”
从进入夏天开始,Google、xAI、OpenAI等AI赛道头部玩家相继发布新模型“亮剑”。相较之下,尽管大众一直期待DeepSeek能有所动作回应,但其一直在保持“沉默”状态。
对于连续“跳票”,业内普遍认为有两个主要原因:其一是面对美国新一轮芯片出口限制,算力问题给DeepSeek带来新的挑战;另一原因在于CEO梁文锋对目前新模型的能力提升还不满意,想“憋个大招”出来。
“沉默”本身并非有失,但从市场的现实选择来看,用户的流失率正在“敲警钟”。
QuestMobile 在《2025 年二季度AI应用价值榜》中提到,DeepSeek 月均下载量从第一季度的 8111.3 万猛降至 2258.9 万,下滑超过 70%。活跃用户规模方面,从2025年3月的1936.1万降至6月的1629.5万,下滑趋势明显。
虽有360集团创始人周鸿祎对此解释,“DeepSeek本身是开源模型,它的技术底座被广泛应用于第三方平台。也就是说,有大量应用场景并没有直接体现在流量数据中,其实际价值远非简单的下载数据所能体现。”但DeepSeek的热度正在退潮,的确是不争的事实。
更现实的是,在技术日新月异的AI赛道,长时间不更新版本的后果是在排名榜单中呈现可见的“落后”。
根据Artificial Analysis最新大模型排名榜单,DeepSeek已从昔日“领跑”变为“中游”水平,OpenAI、Google、阿里巴巴等竞争对手跃至前位。
对DeepSeek来说,显然不会甘愿于此。
从另一角度看,也许是市场对DeepSeek的关注热情显著超过国内其他大模型团队,甚至令其背起对抗OpenAI、Google的重任。但现实规律是,技术奇点的爆发从来不是一蹴而就。对DeepSeek也是同样,需要再多些耐心。
正如梁文锋所说,“创新本就是昂贵且低效的,最让我们兴奋的是搞清猜想而不是既定事实。在这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是真正走到技术的前沿,推动整个生态发展。”
评论