点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

全部导航

正在阅读：DeepSeek新模型曝光？

首页>

数字化频道> 世界互联网大会 > 正文

DeepSeek新模型曝光？

来源：世界互联网大会2026-01-22 19:06

据媒体报道

在DeepSeek-R1

发布一周年之际

新模型“MODEL1”

在开源社区悄然出现

引发业界关注

动作频频引发更新推测

2026年1月以来

DeepSeek动作不断

已陆续发布了两篇技术论文

近日

DeepSeek官方又在GitHub

更新了一系列FlashMLA代码

有开发者统计

在涉及的114个文件中

有数十处提到了

此前未公开的

“MODEL1”大模型标识符

且该标识符与现有模型

“V32”（即DeepSeek-V3.2）

被并列或区分引用

通过代码上下文分析

技术人士推测

“MODEL1”大概率对应一款

采用全新架构的AI模型

其核心技术特征

与现有模型存在明显差异

“MODEL1”的技术密码

有分析认为

作为全新架构标识

“MODEL1”与现有模型

有着明显区别

核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑

显存占用降低40%

推理速度提升1.8倍

长文本、长代码处理时

优势更明显

二是加入稀疏FP8解码技术

在提升运算速度的同时

把信息损失率压到5%以下

让普通设备也能跑出高性能

三是适配英伟达最新GPU架构

专门针对SM90和SM100

（分别对应H100/H200显卡

B200显卡）

做了参数优化

部分功能仅对“MODEL1”开放

V3.2无法使用

行业猜测：V4还是R2？

相关报道称

结合目前模型文件结构来看

“MODEL1”很可能

已接近训练完成

或推理部署阶段

正等待最终的权重冻结

和测试验证

与此同时

“MODEL1”的身份

引发广泛讨论

不少观点认为

它大概率是

DeepSeek V4旗舰模型

内部代号

也有开发者推测

可能是R系列模型的迭代版R2

业内分析指出

“MODEL1”的曝光

印证了DeepSeek的技术路线

不同于竞争算力规模

其更专注

优化工程效率和控制成本

目前

DeepSeek尚未对

“MODEL1”作出回应

但这一意外泄露

让全球AI圈

更加期待DeepSeek团队的技术突破

撰文：曾震宇、张清硕 编辑：雷渺鑫 排版：李飞 统筹：李政葳

参考：环球网、上海证券报、第一财经、中国能源网、中国经营报

[ 责编：张晨昊 ]

阅读剩余全文（）

相关阅读

您此时的心情

光明云投

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

海河畔新空间激活夏日夜消费
2026屈原故里端午诗会举行

最热文章

独家策划

推荐阅读

夏至乡野风光旖旎

贵州省毕节市百里杜鹃管理区金坡苗族彝族满族乡附源村。

2026-06-21 19:07

漫步城墙展馆品读古都文脉

不少游客来到江苏南京城墙博物馆参观。

2026-06-21 19:03

夏至抢农时田间农事忙

湖南常宁罗桥镇田间农事繁忙，农技员操控植保无人机开展飞防作业。

2026-06-21 18:57

公路穿山翠车行入画中

湖北黄冈蕲太高速蕲春东段风光如画，蓝天白云衬着连绵青山，车行路上，宛如穿行在山水画卷间。

2026-06-21 18:47

翠岭缠云霭乡野绘清欢

安徽省池州市青阳县庙前镇玉屏村满目青翠。

2026-06-21 18:41