点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

据媒体报道
在DeepSeek-R1
发布一周年之际
新模型“MODEL1”
在开源社区悄然出现
引发业界关注

动作频频引发更新推测
2026年1月以来
DeepSeek动作不断
已陆续发布了两篇技术论文
近日
DeepSeek官方又在GitHub
更新了一系列FlashMLA代码
有开发者统计
在涉及的114个文件中
有数十处提到了
此前未公开的
“MODEL1”大模型标识符
且该标识符与现有模型
“V32”(即DeepSeek-V3.2)
被并列或区分引用
通过代码上下文分析
技术人士推测
“MODEL1”大概率对应一款
采用全新架构的AI模型
其核心技术特征
与现有模型存在明显差异
“MODEL1”的技术密码
有分析认为
作为全新架构标识
“MODEL1”与现有模型
有着明显区别
核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑
显存占用降低40%
推理速度提升1.8倍
长文本、长代码处理时
优势更明显
二是加入稀疏FP8解码技术
在提升运算速度的同时
把信息损失率压到5%以下
让普通设备也能跑出高性能
三是适配英伟达最新GPU架构
专门针对SM90和SM100
(分别对应H100/H200显卡
B200显卡)
做了参数优化
部分功能仅对“MODEL1”开放
V3.2无法使用
行业猜测:V4还是R2?
相关报道称
结合目前模型文件结构来看
“MODEL1”很可能
已接近训练完成
或推理部署阶段
正等待最终的权重冻结
和测试验证
与此同时
“MODEL1”的身份
引发广泛讨论
不少观点认为
它大概率是
DeepSeek V4旗舰模型
内部代号
也有开发者推测
可能是R系列模型的迭代版R2
业内分析指出
“MODEL1”的曝光
印证了DeepSeek的技术路线
不同于竞争算力规模
其更专注
优化工程效率和控制成本
目前
DeepSeek尚未对
“MODEL1”作出回应
但这一意外泄露
让全球AI圈
更加期待DeepSeek团队的技术突破
撰文:曾震宇、张清硕 编辑:雷渺鑫 排版:李飞 统筹:李政葳
参考:环球网、上海证券报、第一财经、中国能源网、中国经营报
