点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
首页> 数字化频道> 产业·技术 > 正文

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好

来源:科技日报2025-03-04 15:35

  近日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

  《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

  《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

  例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

  知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

  意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。 (记者王祝华)

[ 责编:王一涵 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 福建:守护母亲河 共续闽江情

  • 巴山:美丽春日画卷

独家策划

推荐阅读
2026年"苍天千峰驼羔"文化旅游系列活动在内蒙古自治区阿拉善盟额济纳旗拉开帷幕。此次活动为期3天,将举办赛驼、赛马、搏克、射箭以及削鼻棍、搓驼毛绳、驼糕选美等26项传统体育竞技和民俗赛事
2026-04-26 18:09
山西省运城市盐湖区持续推进五龙峪河道生态综合治理,加大绿化提质力度,通过植被补植、景观升级持续扩充绿地面积,全面改善生态廊道风貌
2026-04-26 18:08
安徽池州市贵池区文旅小镇傩仙镇大型非遗实景演艺《鳌鱼飞天》精彩上演,凭借独特的民俗魅力吸引大批各地游客慕名前来打卡,在山水之间感受非遗魅力与文脉传承
2026-04-26 18:07
本届科交会以"科技打头阵创新赢未来"为主题,聚焦"十五五"重点产业领域,旨在搭建科技成果、技术需求、科技金融、科技人才、科技招商"五大对接"服务平台
2026-04-26 18:05
从高空俯瞰辽宁省辽阳市弓长岭区一尾矿池,宛如一幅大地的调色盘,各种颜色的废料被水冲刷形成了斑斓的色彩和奇特的肌理,宛如一幅幅抽象的油画
2026-04-26 18:03