点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:对话更 “懂人” ,OpenAI 双向语音模型正在研发中
首页> 数字化频道> 云上生活 > 正文

对话更 “懂人” ,OpenAI 双向语音模型正在研发中

来源:环球网2026-03-12 14:25

  【环球网科技综合报道】3月6日消息,据The Information报道,人工智能企业OpenAI正研发一款名为BiDi的双向语音模型,旨在优化用户与ChatGPT的语音交互体验,让人机对话更贴近自然的人际沟通模式,即便对话过程中被打断,模型也能实时调整回应内容。

  当前ChatGPT的高级语音模式采用回合式对话机制,存在交互体验上的局限。用户需完整表达后,模型才会处理语音并生成回答;若在模型发言过程中,用户做出“okay”“mm-hm”等回应或进行打断,系统通常会直接停止发言,无法像正常人际对话那样继续衔接。

  此次研发的BiDi双向语音模型,核心优势在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成回答,输出内容便基本固定、无法根据新输入调整的特点不同,BiDi模型在被用户打断时,可立即根据新的语音信息调整回应内容,实现更流畅的实时交互。

  不过该技术目前仍处于开发阶段,尚未成熟。据了解项目情况的人士透露,BiDi原型模型在持续对话数分钟后易出现故障,还可能发出不自然的声音。原本研发团队计划在今年第一季度推出该模型,目前发布时间已大概率推迟至第二季度甚至更晚。

  OpenAI方面认为,若语音模型的性能能逐步接近文本模型,人工智能的应用范围将得到进一步拓展。原因在于,语音交流是大多数人更习惯的交互方式,相较于文字输入,语音交互能降低使用门槛,让AI触达更多用户。

  从应用场景来看,BiDi双向语音模型的实用价值颇具想象空间,在客服领域的表现尤为值得期待。例如顾客与零售商的AI客服通话时,若在对话中临时改变需求,将退货改为换货,BiDi模型可让AI客服顺畅调整对话逻辑,避免出现突然停止或回应混乱的情况,提升服务效率与体验。此外,该模型在调用外部工具和应用方面也具备更高的灵活性。

  据悉,OpenAI此前已透露相关规划,计划为未来一款主打语音交互的AI设备优化语音模型,还考虑开发智能音箱类产品,用户通过语音指令,即可实现查看邮件、预订服务等操作,而此次BiDi双向语音模型的研发,或将为相关产品的落地提供技术支撑。(纯钧)

[ 责编:曾震宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 一册繁花 满目春色

  • 新疆多地降温降雪

独家策划

推荐阅读
湖北省武汉市东湖樱花园内早樱竞相绽放,粉黛满枝,春意盎然。市民与游客沉醉于烂漫花海,共赴春日之约,尽享江城浪漫春光
2026-03-12 14:21
江苏省宿迁市沭阳县实验小学的学生来到县文化馆,通过学习淮海戏知识、参观服饰、道具以及与淮海戏演员互动,模仿唱腔、动作等,沉浸式体验淮海戏文化
2026-03-12 14:20
随着气温回暖,安徽省黄山市歙县深渡镇漳潭村新安江畔的油菜花进入渐次绽放,金灿灿的花海绵延起伏,与粉墙黛瓦的古村落交相辉映,构成一幅春意盎然的江南水乡画卷,令人陶醉
2026-03-12 14:20
中国科学技术馆主办的"流动科普启新程巡展送教暖山乡"2026年科普大篷车社会化服务活动走进河北省邢台市广宗县,通过12场"科普展览+互动体验+知识讲座"的多元科普形式,点燃当地学生航天梦想和科学热情
2026-03-12 14:20
昌吉市2026年中小学生校园篮球赛在昌吉市第一中学体育馆正式拉开帷幕。来自全市13所中小学的25支代表队、400余名运动员齐聚一堂,将在为期4天的赛程中展开激烈角逐,用激情与汗水点燃春日校园
2026-03-12 14:19