点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

全部导航

正在阅读：OpenAI让模型“开口说话”

首页>

数字化频道> 世界互联网大会 > 正文

OpenAI让模型“开口说话”

来源：世界互联网大会2026-05-08 19:30

近日

据媒体报道

OpenAI面向开发者

正式发布

三款全新高阶语音智能模型

OpenAI让模型“开口说话”

OpenAI发布三款模型

据媒体报道

OpenAI发布的这三款模型

全面强化了

AI实时听觉

口语交互

翻译与转录能力

同时大幅降低了

企业开发智能语音应用的

技术门槛

OpenAI让模型“开口说话”

旗舰模型

GPT-Realtime-2

具备GPT-5级别的推理能力

可高效处理各类复杂请求

实现自然连贯的实时对话

支持工具调用

可灵活处理

对话中的打断与更正

GPT-Realtime-Translate

以实时翻译为核心优势

支持70+种语言识别

13种语言语音输出

可接近同声传译效果

适配跨语言通话

会议等多元场景

GPT-Realtime-Whisper

聚焦低延迟语音转写能力

在用户发言的同时

即时完成转录

适配直播字幕

会议记录等高频场景

OpenAI让模型“开口说话”

OpenAI表示

本次升级的智能语音系统

实用性显著提升

应用场景广泛

商业化空间广阔

语音交互成AI竞争前沿

传统的语音识别

主要是把声音转换成文字

然后对文字进行处理

随着AI的发展

近年来

实时语音交互已成为

大模型竞争核心赛道

全球多家厂商均有布局

OpenAI让模型“开口说话”

百度推出端到端语音大模型

支持低延迟实时交互

对话自然流畅

阿里通义推出Fun-Audio-Chat模型

主打语音对语音交互

兼顾低算力成本与交互体验

科大讯飞星火同传大模型

可实现近同声传译

覆盖多领域专业术语

Google、Meta等

推出实时语音模型

在低延迟、多语种交互

持续发力

……

有分析认为

当前

大模型整体性能

不再是行业竞争的主要焦点

真实交互体验

与应用场景优化

开始变得越来越重要

这也让语音交互成AI竞争新前沿

但也有分析指出

语音交互领域仍面临多重挑战

如延迟与自然度难以平衡

噪声、口音下识别准确率不足

模型幻觉影响使用可靠性

算力消耗高等

撰文：杨经国 编辑：李飞 统筹：李政葳

参考：环球网、网易科技、腾讯科技

[ 责编：杨经国 ]

阅读剩余全文（）

相关阅读

您此时的心情

光明云投

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

贵州贵阳：学习防灾减灾筑牢安全防线
广西钦州：大学生抱团创业传承发扬坭兴陶文化

最热文章

独家策划

推荐阅读

5月4日-5月10日光明图片一周见报作品精选

5月4日-5月10日光明图片一周见报作品精选

2026-05-11 15:46

普及防灾知识守护校园平安

2026年5月12日是第十八个全国防灾减灾日，为切实筑牢校园安全防线、普及防灾减灾知识，各地中小学、幼儿园纷纷提前行动，精心组织开展各类主题活动。

2026-05-11 14:09

炒茶高手围炉竞技非遗匠心淬炼茶香

本次活动以赛育匠、以技传韵，既传承了省级非遗"日照绿茶手工炒制技艺"，也推动了茶产业融合发展，让"一片叶子"成为赋能乡村振兴、带动茶农增收的"致富叶"。

2026-05-11 13:48

云端之中赏杜鹃

安徽省池州市石台县七都镇七井山迎来了最美的赏花季，游客在山顶欣赏云端之中杜鹃。立夏过后，石台县七都镇七井山漫山遍野的野生杜鹃竞相怒放，构成了一幅多姿多彩的生态画卷，美不胜收

2026-05-11 13:42

成人礼致青春

湖南省娄底市曾国藩高级中学举办2026年度高二年级成人礼活动，学生们通过跨越"成人门"、佩戴"成人帽"、亲子共读家书、听取励志报告、向未来寄语等方式致敬青春

2026-05-11 13:41