点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:DeepSeek新模型曝光?
首页> 数字化频道> 世界互联网大会 > 正文

DeepSeek新模型曝光?

来源:世界互联网大会2026-01-22 19:06

据媒体报道

在DeepSeek-R1

发布一周年之际

新模型“MODEL1”

在开源社区悄然出现

引发业界关注

动作频频引发更新推测

2026年1月以来

DeepSeek动作不断

已陆续发布了两篇技术论文

近日

DeepSeek官方又在GitHub

更新了一系列FlashMLA代码

有开发者统计

在涉及的114个文件中

有数十处提到了

此前未公开的

“MODEL1”大模型标识符

且该标识符与现有模型

“V32”(即DeepSeek-V3.2)

被并列或区分引用

通过代码上下文分析

技术人士推测

“MODEL1”大概率对应一款

采用全新架构的AI模型

其核心技术特征

与现有模型存在明显差异

 

“MODEL1”的技术密码

有分析认为

作为全新架构标识

“MODEL1”与现有模型

有着明显区别

核心优化主要聚焦三大方向

一是重构键值缓存存储逻辑

显存占用降低40%

推理速度提升1.8倍

长文本、长代码处理时

优势更明显

二是加入稀疏FP8解码技术

在提升运算速度的同时

把信息损失率压到5%以下

让普通设备也能跑出高性能

三是适配英伟达最新GPU架构

专门针对SM90和SM100

(分别对应H100/H200显卡

B200显卡)

做了参数优化

部分功能仅对“MODEL1”开放

V3.2无法使用

 

行业猜测:V4还是R2?

相关报道称

结合目前模型文件结构来看

“MODEL1”很可能

已接近训练完成

或推理部署阶段

正等待最终的权重冻结

和测试验证

与此同时

“MODEL1”的身份

引发广泛讨论

不少观点认为

它大概率是

DeepSeek V4旗舰模型

内部代号

也有开发者推测

可能是R系列模型的迭代版R2

业内分析指出

“MODEL1”的曝光

印证了DeepSeek的技术路线

不同于竞争算力规模

其更专注

优化工程效率和控制成本

目前

DeepSeek尚未对

“MODEL1”作出回应

但这一意外泄露

让全球AI圈

更加期待DeepSeek团队的技术突破

 

撰文:曾震宇、张清硕 编辑:雷渺鑫 排版:李飞 统筹:李政葳

参考:环球网、上海证券报、第一财经、中国能源网、中国经营报

[ 责编:张晨昊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 探访京津中关村科技城新貌

  • 江苏泰州:溱湖冬捕年味浓

独家策划

推荐阅读
【回顾】2024年网络公益行动优秀网络公益项目
2025-12-29 11:25
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】阿里公益天天正能量
2025-12-28 11:10
【优秀案例展示|海报】淘宝手艺人·星火扶持计划
2025-12-28 11:10