点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:聚焦教育、科研等专项能力,《通用大模型评测体系2.0》发布
首页> 数字化频道> AI+ > 正文

聚焦教育、科研等专项能力,《通用大模型评测体系2.0》发布

来源:光明网2025-06-25 11:20

  6月24日,认知智能全国重点实验室联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟,发布《通用大模型评测体系2.0》。相较于1.0版本,新标准在评测规模和技术覆盖面上均有所提升。

  随着大模型技术趋于成熟,大模型产业竞争焦点正从技术参数转向实用性能,从通用化竞争转向垂直领域深耕。此次评测体系的升级为这一转变提供了有力的标准化支撑。

  据了解,在评测规模上,2.0版本评测任务从原来的481项大幅扩展至1186项,评测模态从单一的文本、图片扩展到文本、图片、语音、视频的全模态覆盖,实现多模态评测。在语言支持方面,新版评测体系从以中文为主调整为中英文并重,更好地适应大模型国际化发展趋势。

  2.0版本更关注专项领域的能力。新升级的评测体系以行业场景需求为锚点,新增教育、科研等重点专项评测领域,构建起技术与产业深度融合的价值验证桥梁。为确保评测质量,2.0版本建立了严格的数据构建准则,在确保数据高质量的准则下进行构建:通用任务测试采用来源、题型、类别等多样性采样机制,确保数据真实性和多样性;专项任务测试数据在规范性、可用性、可解释性、合规性4个方面15个子维度进行严格质量把控。在评测方法上,采用“人工+自动”结合模式,以多人主观双盲评测为主,JudgeModel(判断模型)为辅;并建立了“1+4”评价体系,即总体评分加上相关度、连贯度、完整度、有效度四个维度的细分评价。

  值得一提的是,2.0版本还强化了安全评测,设计了16项风险指标,涵盖内容安全和指令安全两大类别。这一设置契合了当下行业对AI应用安全重视程度不断提升的趋势,为大模型安全部署提供重要保障。(孔繁鑫)

[ 责编:李政葳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西康高铁沿线车站挂牌

  • 中国妇女事业发展成就图片展在莫斯科举行

独家策划

推荐阅读
山东省荣成市美术馆,一场集中展示胶东地域特色的非物质文化遗产精品展火热开展,胶东花饽饽、剪纸、捏塑、根雕、钩针编织等多项非遗技艺作品集中亮相
2026-03-21 17:34
贵州省毕节市威宁自治县双龙镇杨湾桥水库清水沟尾水区的小树林旁,一群国家一级保护动物黑颈鹤正在水边悠游觅食、梳理羽毛,时而引颈高歌,时而结伴嬉戏
2026-03-21 17:26
河南省洛阳市洛浦公园内樱花竞相绽放,景色怡人,吸引市民驻足观赏。
2026-03-21 17:23
组织开展"学气象,知冷暖 "主题活动,学生们通过观察了解气象设备的功能与作用、体验设备的使用方式,探索气象奥秘,感受气象科技魅力
2026-03-21 17:19
江苏苏州天气转暖,春和景明。古运河畔绿柳依依,桃花、玉兰花竞相绽放,古城、街坊,河道在碧蓝晴空映衬下,呈现出水清岸绿、春意盎然的生态景观,别有一番江南水乡独特风韵
2026-03-21 17:15