当前位置: 首页 > news >正文

会走会聊还会求抱抱!迪士尼造出“真”雪宝,把热力学公式写进强化学习

迪士尼“真·活”雪宝机器人来了!不仅会走会聊,还能卖萌求抱抱。

在机器人领域,我们习惯了波士顿动力的 Spot,它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人,为了实用长成了圆盘。

但在迪士尼的世界里,规则是反过来的。雪宝必须是雪宝,哪怕它的身体结构完全违背了物理直觉。

迪士尼研究院刚刚在 arXiv 上公开了他们如何制造一台完全无线、自由行走、且 1:1 还原动画的雪宝机器人。

〓 图1. 真实世界中的雪宝

这篇论文展示了他们如何利用非对称机械设计与热感知强化学习,在物理约束与角色可信度之间找到完美的平衡点。

论文标题:

Olaf: Bringing an Animated Character to Life in the Physical World

论文链接:

https://arxiv.org/pdf/2512.16705

这不仅是一个有趣的玩具,更是一个关于如何在极端受限的硬件条件下,利用算法把硬件性能榨干的经典案例。

极限空间内的非对称美学

雪宝的原始设定给工程师出了个大难题,硕大的头部意味着极高的重心,纤细的树枝手臂无法容纳电机,分离式的双脚雪球更是把腿部机构的活动空间压缩到了极致。

为了在这些白球里塞进 25 个自由度(DoF),团队不得不打破常规,搞出了一套非对称的 6-DoF 腿部设计。

〓 图2. 机电内部结构,注意腿部非对称的电机布局以及隐藏在躯干内的肩部连杆

为了防止双腿在紧凑的球体内部打架,左腿的髋关节 Roll 轴电机被置于后方,右腿则置于前方。这种非对称设计虽然最大化了空间利用率,但也让动力学建模变得更加复杂。

至于雪宝标志性的树枝手,为了保持纤细,工程师采用了球形五杆连杆机构(Spherical 5-bar Linkage),将驱动电机远程放置在躯干内部。

这不仅解决了空间问题,还把重量集中到了身体核心,稍微缓解了头重脚轻的尴尬。

算法架构

硬件只是基础,要让雪宝动起来且不翻车,才是真正的难点。

整个控制架构采用了明智的动静分离策略:

身体与腿部(Backbone):这是动力学的核心,采用强化学习进行端到端的全身控制,负责平衡和行走。

表情与手臂(Show Functions):为了保证表演的确定性和精度,眼部、嘴部等低惯量部件并未通过 RL 学习,而是采用了经典控制方法(如 PD 控制与正运动学映射),因为它们对整体动力学影响较小 。

〓 图3. 系统架构概览,左侧为硬件模块,右侧为包含热模型与各类奖励函数的 RL 训练闭环

为了把这些复杂的动作串联起来,团队还必须解决一个特殊的定位问题,雪宝的脚在动画里是浮动的。为此,他们引入了 Path Frame 的概念。

〓 图4. Path Frame 示意图,用于对齐漂浮脚设定的虚拟坐标系

如上图所示,Path Frame 是一个随行进方向移动的虚拟坐标系,它让机器人能够将动画师制作的那些非物理的 Reference Motion(参考动作)映射到物理世界中。

如何防止机器人“中暑”?

雪宝头大脖子细,为了支撑这个巨大的脑袋,颈部电机承受着巨大的静态力矩。更糟糕的是,它还穿着厚厚的保暖戏服,散热条件基本为零。

如果简单粗暴地设置温度阈值(比如 >80°C 停机),那雪宝可能会在跟小朋友互动到一半时突然瘫痪。团队的解法非常硬核,把热力学公式直接写进强化学习的状态空间里。

不同于常规足式机器人仅关注本体感知,Olaf 的策略网络接收的状态向量中,包含了一个温度项

为了让 Agent 学会处理温度,他们首先基于焦耳热效应建立了一个一阶热动力学模型:

这个公式告诉 AI 一个物理真理:力矩 τ 越大,发热是呈平方级增长的。经过验证,该模型与真机的误差极小(见下图)。

〓 图5. 热模型验证曲线,仿真预测温度与真机实测高度吻合

接着,利用控制障碍函数(Control Barrier Function, CBF),他们设计了一个“软约束” :

这个约束并不强制机器人在低温时省力,但当温度逼近上限时,它会强迫策略网络限制升温速率

这意味着,机器人必须学会主动调整姿态。比如稍微低头,或者改变重力支撑方式,以减少高力矩输出。

〓 图6. 热策略效果对比,开启热奖励后策略主动限制力矩输出以防止过热

上图对比堪称智能的完美体现:

蓝线(无热感知):策略傻乎乎地维持昂头姿势,40秒内温度飙升至 100°C,直接过热保护停机。

紫线(有热感知):当温度接近 80°C 时,Agent 主动选择了“偷懒”。虽然关节追踪误差(Joint error)略微上升,但力矩(Torque)显著下降,成功将温度控制在安全线内。

既要静音,又要走得像

如果雪宝走起路来像铁甲钢拳一样哐哐作响,观众的沉浸感会瞬间消失。为了解决这个问题,团队在奖励函数中加入了一个特殊的冲击减少项(Impact Reduction Reward):

这项奖励专门惩罚脚部落地时的垂直速度突变

〓 图7. 冲击抑制效果,开启奖励后脚部落地速度更加平滑

实验数据显示,这一策略让行走的平均噪声降低了 13.5 dB。但光安静还不够,还得“像”。动画里的雪宝走路时有一种独特的脚跟-脚尖(Heel-Toe)滚动步态。

论文的对比实验表明,如果去掉这个步态约束,虽然机器人也能走稳,但看起来就会变得生硬、机械,失去了角色的灵魂。

结语

迪士尼的这项工作,本质上是在探究角色可信度的工程边界。为了让雪宝真的像那个动画角色,工程师们没有追求 SOTA 的运动速度或地形适应性,而是把算力用在了“怎么在过热前优雅地偷懒”和“怎么走路没声音”这些看似琐碎的细节上。

这种将物理约束(如热力学)深度融合进强化学习状态空间的方法,让机器人展现出了一种类似生物本能的自我保护机制。对于未来的服务机器人而言,这种能够感知自身生理极限并动态调整策略的能力,或许比单纯的“强壮”更具普适价值。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.cnnetsun.cn/news/176870.html

相关文章:

  • Excalidraw贡献者入门:如何提交第一个PR?
  • Excalidraw镜像已部署至全球节点,访问更快更稳定
  • Excalidraw绘制品牌建设路径:市场定位演进图
  • Excalidraw镜像提供稳定API接口,便于二次开发
  • 5、敏捷软件开发中的流程管理与产品所有权
  • 7、敏捷开发:从产品待办事项到冲刺执行的全流程解析
  • Excalidraw镜像提供详细日志,便于运维排查
  • Excalidraw手绘白板结合NLP技术,实现智能图表生成
  • Excalidraw如何通过Token机制实现资源公平分配?
  • Excalidraw AI功能可通过REST API调用,便捷集成
  • Excalidraw镜像提供SDK,方便集成到现有系统
  • Excalidraw如何通过AI减少重复性绘图工作?
  • Excalidraw AI生成功能开放公测,注册送500Token
  • 3、应用生命周期管理与TFS工具全解析
  • Excalidraw Schema.org标记丰富摘要实现
  • Excalidraw AI协作平台正式发布,赠送算力Token
  • 基于DWA的动态环境下多智能体自主避障路径优化,MATLAB代码
  • Excalidraw手绘风格太惊艳!AI加持后更适合产品原型设计
  • Excalidraw实时协作白板上线AI插件,绘图效率翻倍
  • 计算机Java毕设实战-基于springboot的物业报修系统的设计与实现物业工程报修系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Excalidraw用户停留时间优化:内容黏性提升
  • 基于Excalidraw的AI绘图解决方案,现可免费试用GPU资源
  • Excalidraw移动端适配meta设置:viewport优化
  • cesium126,240506,Ce for Ue 建筑单体高亮的实现P2 - 下 - 多色染色和控制切换染色效果:
  • Excalidraw内容更新频率建议:保持活跃度
  • 41、系统性能问题排查案例解析
  • 13.5 扩散模型:前向过程、反向过程与得分匹配
  • Java毕设项目:基于springboot的游泳用品专卖店系统的设计与实现(源码+文档,讲解、调试运行,定制等)
  • 39、Windows XP 辅助功能使用指南
  • 图片自适应缩放实战指南:从算法到多端实现与优化