当前位置：首页 > news >正文

会走会聊还会求抱抱！迪士尼造出“真”雪宝，把热力学公式写进强化学习

news 2026/7/2 7:35:02

迪士尼“真·活”雪宝机器人来了！不仅会走会聊，还能卖萌求抱抱。

在机器人领域，我们习惯了波士顿动力的 Spot，它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人，为了实用长成了圆盘。

但在迪士尼的世界里，规则是反过来的。雪宝必须是雪宝，哪怕它的身体结构完全违背了物理直觉。

迪士尼研究院刚刚在 arXiv 上公开了他们如何制造一台完全无线、自由行走、且 1:1 还原动画的雪宝机器人。

〓图1. 真实世界中的雪宝

这篇论文展示了他们如何利用非对称机械设计与热感知强化学习，在物理约束与角色可信度之间找到完美的平衡点。

论文标题：

Olaf: Bringing an Animated Character to Life in the Physical World

论文链接：

https://arxiv.org/pdf/2512.16705

这不仅是一个有趣的玩具，更是一个关于如何在极端受限的硬件条件下，利用算法把硬件性能榨干的经典案例。

极限空间内的非对称美学

雪宝的原始设定给工程师出了个大难题，硕大的头部意味着极高的重心，纤细的树枝手臂无法容纳电机，分离式的双脚雪球更是把腿部机构的活动空间压缩到了极致。

为了在这些白球里塞进 25 个自由度（DoF），团队不得不打破常规，搞出了一套非对称的 6-DoF 腿部设计。

〓图2. 机电内部结构，注意腿部非对称的电机布局以及隐藏在躯干内的肩部连杆

为了防止双腿在紧凑的球体内部打架，左腿的髋关节 Roll 轴电机被置于后方，右腿则置于前方。这种非对称设计虽然最大化了空间利用率，但也让动力学建模变得更加复杂。

至于雪宝标志性的树枝手，为了保持纤细，工程师采用了球形五杆连杆机构（Spherical 5-bar Linkage），将驱动电机远程放置在躯干内部。

这不仅解决了空间问题，还把重量集中到了身体核心，稍微缓解了头重脚轻的尴尬。

算法架构

硬件只是基础，要让雪宝动起来且不翻车，才是真正的难点。

整个控制架构采用了明智的动静分离策略：

身体与腿部（Backbone）：这是动力学的核心，采用强化学习进行端到端的全身控制，负责平衡和行走。

表情与手臂（Show Functions）：为了保证表演的确定性和精度，眼部、嘴部等低惯量部件并未通过 RL 学习，而是采用了经典控制方法（如 PD 控制与正运动学映射），因为它们对整体动力学影响较小。

〓图3. 系统架构概览，左侧为硬件模块，右侧为包含热模型与各类奖励函数的 RL 训练闭环

为了把这些复杂的动作串联起来，团队还必须解决一个特殊的定位问题，雪宝的脚在动画里是浮动的。为此，他们引入了 Path Frame 的概念。

〓图4. Path Frame 示意图，用于对齐漂浮脚设定的虚拟坐标系

如上图所示，Path Frame 是一个随行进方向移动的虚拟坐标系，它让机器人能够将动画师制作的那些非物理的 Reference Motion（参考动作）映射到物理世界中。

如何防止机器人“中暑”？

雪宝头大脖子细，为了支撑这个巨大的脑袋，颈部电机承受着巨大的静态力矩。更糟糕的是，它还穿着厚厚的保暖戏服，散热条件基本为零。

如果简单粗暴地设置温度阈值（比如 >80°C 停机），那雪宝可能会在跟小朋友互动到一半时突然瘫痪。团队的解法非常硬核，把热力学公式直接写进强化学习的状态空间里。

不同于常规足式机器人仅关注本体感知，Olaf 的策略网络接收的状态向量中，包含了一个温度项：

为了让 Agent 学会处理温度，他们首先基于焦耳热效应建立了一个一阶热动力学模型：

这个公式告诉 AI 一个物理真理：力矩 τ 越大，发热是呈平方级增长的。经过验证，该模型与真机的误差极小（见下图）。

〓图5. 热模型验证曲线，仿真预测温度与真机实测高度吻合

接着，利用控制障碍函数（Control Barrier Function, CBF），他们设计了一个“软约束” ：

这个约束并不强制机器人在低温时省力，但当温度逼近上限时，它会强迫策略网络限制升温速率。

这意味着，机器人必须学会主动调整姿态。比如稍微低头，或者改变重力支撑方式，以减少高力矩输出。

〓图6. 热策略效果对比，开启热奖励后策略主动限制力矩输出以防止过热

上图对比堪称智能的完美体现：

蓝线（无热感知）：策略傻乎乎地维持昂头姿势，40秒内温度飙升至 100°C，直接过热保护停机。

紫线（有热感知）：当温度接近 80°C 时，Agent 主动选择了“偷懒”。虽然关节追踪误差（Joint error）略微上升，但力矩（Torque）显著下降，成功将温度控制在安全线内。

既要静音，又要走得像

如果雪宝走起路来像铁甲钢拳一样哐哐作响，观众的沉浸感会瞬间消失。为了解决这个问题，团队在奖励函数中加入了一个特殊的冲击减少项（Impact Reduction Reward）：

这项奖励专门惩罚脚部落地时的垂直速度突变。

〓图7. 冲击抑制效果，开启奖励后脚部落地速度更加平滑

实验数据显示，这一策略让行走的平均噪声降低了 13.5 dB。但光安静还不够，还得“像”。动画里的雪宝走路时有一种独特的脚跟-脚尖（Heel-Toe）滚动步态。

论文的对比实验表明，如果去掉这个步态约束，虽然机器人也能走稳，但看起来就会变得生硬、机械，失去了角色的灵魂。

结语

迪士尼的这项工作，本质上是在探究角色可信度的工程边界。为了让雪宝真的像那个动画角色，工程师们没有追求 SOTA 的运动速度或地形适应性，而是把算力用在了“怎么在过热前优雅地偷懒”和“怎么走路没声音”这些看似琐碎的细节上。

这种将物理约束（如热力学）深度融合进强化学习状态空间的方法，让机器人展现出了一种类似生物本能的自我保护机制。对于未来的服务机器人而言，这种能够感知自身生理极限并动态调整策略的能力，或许比单纯的“强壮”更具普适价值。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.cnnetsun.cn/news/176870.html

Excalidraw贡献者入门：如何提交第一个PR？

Excalidraw镜像已部署至全球节点，访问更快更稳定

Excalidraw绘制品牌建设路径：市场定位演进图

Excalidraw镜像提供稳定API接口，便于二次开发

5、敏捷软件开发中的流程管理与产品所有权

7、敏捷开发：从产品待办事项到冲刺执行的全流程解析

Excalidraw镜像提供详细日志，便于运维排查

Excalidraw手绘白板结合NLP技术，实现智能图表生成

Excalidraw如何通过Token机制实现资源公平分配？

Excalidraw AI功能可通过REST API调用，便捷集成

Excalidraw镜像提供SDK，方便集成到现有系统

Excalidraw如何通过AI减少重复性绘图工作？

Excalidraw AI生成功能开放公测，注册送500Token

3、应用生命周期管理与TFS工具全解析

Excalidraw Schema.org标记丰富摘要实现

Excalidraw AI协作平台正式发布，赠送算力Token

基于DWA的动态环境下多智能体自主避障路径优化，MATLAB代码

Excalidraw手绘风格太惊艳！AI加持后更适合产品原型设计

Excalidraw实时协作白板上线AI插件，绘图效率翻倍

计算机Java毕设实战-基于springboot的物业报修系统的设计与实现物业工程报修系统的设计与实现【完整源码+LW+部署说明+演示视频，全bao一条龙等】

Excalidraw用户停留时间优化：内容黏性提升

基于Excalidraw的AI绘图解决方案，现可免费试用GPU资源

Excalidraw移动端适配meta设置：viewport优化

cesium126，240506，Ce for Ue 建筑单体高亮的实现P2 - 下 - 多色染色和控制切换染色效果：

Excalidraw内容更新频率建议：保持活跃度

41、系统性能问题排查案例解析

13.5 扩散模型：前向过程、反向过程与得分匹配

Java毕设项目：基于springboot的游泳用品专卖店系统的设计与实现(源码+文档，讲解、调试运行，定制等)

39、Windows XP 辅助功能使用指南

图片自适应缩放实战指南：从算法到多端实现与优化

相关文章：