点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:世界模型WHALE来了!
首页> 数字化频道> 要闻 > 正文

世界模型WHALE来了!

来源:人民邮电报2024-11-22 12:48

人类能够在脑海中设想一个想象中的世界,以预测不同的动作可能导致不同的结果。受人类智能这方面的启发,世界模型被设计用于抽象化现实世界的动态,并提供这种“如果……会怎样”的预测。

因此,具身智能体可以与世界模型进行交互,而不是直接与现实世界环境交互,以生成模拟数据,这些数据可以用于各种下游任务,包括反事实预测、离线策略评估、离线强化学习。

世界模型在具身环境的决策中起着至关重要的作用,使得在现实世界中成本高昂的探索成为可能。为了促进有效的决策,世界模型必须具备强大的泛化能力,以支持分布外(OOD)区域的想象,并提供可靠的不确定性估计来评估模拟体验的可信度,这两者都对之前的可扩展方法提出了重大挑战。

近日,来自南京大学、南栖仙策等机构的研究者在论文中引入了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning),这是一个用于学习可泛化世界模型的框架,由两种可以与任何神经网络架构普遍结合的关键技术组成。

在确定策略分布差异是泛化误差的主要来源的基础上,研究者引入了一种行为—条件(behavior-conditioning)技术来增强世界模型的泛化能力,该技术建立在策略条件模型学习的概念之上,旨在使模型能够主动适应不同的行为,以减小分布偏移引起的外推误差。此外,研究者还提出了一种简单而有效的技术,称为retracing-rollout,以便对模型想象进行有效的不确定性估计,作为一种即插即用的解决方案,可以有效地应用于各种实施任务中的末端执行器姿态控制,而无需对训练过程进行任何更改。

通过整合WHALE的这两种技术,研究者提出了WHALE-ST,这是一种可扩展的基于时空transformer的世界模型,旨在实现更有效的决策。研究者进一步提出了WHALE-X,这是一个在970K机器人演示上预训练的414M参数世界模型。最后,研究者进行了大量的实验,以证明WHALE-ST和WHALE-X在模拟和现实世界任务中的卓越可扩展性与泛化性,突出了它们在增强决策方面的效果。

为了评估WHALE-X在实际物理环境中的泛化能力,研究团队在ARX5机器人上进行了全面实验。与预训练数据不同,评估任务调整了摄像机角度和背景等,增加了对世界模型的挑战。他们收集了每个任务60条轨迹的数据集用于微调,任务包括开箱、推盘、投球和移动瓶子,还设计了多个模型从未接触过的任务来测试模型的视觉、运动和任务泛化能力。

结果显示,WHALE-X在真实世界中展现出明显的优势:与没有行为—条件的模型相比,WHALEX的一致性提高了63%,表明该机制显著提升了OOD泛化能力;在97万个样本上进行预训练的WHALE-X,比从零开始训练的模型具有更高的一致性,凸显了大规模互联网数据预训练的优势;增加模型参数能够提升世界模型的泛化能力,WHALE-X-base(203M)动态模型在三个未见任务中的一致性比率是77M版本的3倍。此外,视频生成质量与一致性的结果一致。通过行为—条件策略、大规模预训练数据集和扩展模型参数,三种策略结合,显著提高了模型的OOD泛化能力,尤其是在生成高质量视频方面。 (人民邮电报 陈陈 佳琪)

 


[ 责编:王一涵 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 2025中医医院传承创新发展大会在北京开幕

  • “玉见文明:良渚文化特展”亮相上海

独家策划

推荐阅读
民族文化宫里珍宝千千万,但说到“镇馆之宝”,首先想到的便是1300多年前文成公主带到西藏的长鼓,许多观众慕名而来只为一睹它的“芳容”。
2025-11-28 13:02
为庆祝新疆维吾尔自治区成立70周年,“异元汽车杯”首届新疆国际摄影大赛9月28日正式启动。
2025-09-29 14:31
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44