星工说 X 伯克利｜对话具身智能新星Haoran Geng：从Demo到System，机器人还必须学会自我修正 - 新闻资讯

人物简介

Haoran Geng，伯克利BAIR实验室博士生，师从Jitendra Malik教授，同时是伯克利人工智能研究实验室（BAIR）的核心成员之一。他专注于具身智能、通用操作与3D视觉，致力于让机器人从底层理解世界而非浅层拟合数据。其代表性成果包括UniDexGrasp++、ShapeLLM、RoboVerse等，多篇论文发表于CVPR、ICCV等顶会并获满分或亮点论文。

耿浩然（Haoran Geng）照片

我们和 Haoran的这场对话是从一个清晨开始的。虽然伯克利的 BAIR 实验室并不在校园最核心的位置，而是坐落在外围一个略显普通的商业区办公楼里，但当电梯门打开的那一刻，这种“普通感”瞬间被打破。

这里并不像一个典型的实验室，而是更像一个正在高速运转的神经网络。没有隔断、没有团队边界、所有人都在同一个空间里工作。不同方向的人，彼此之间因为没有物理上的阻隔，你可以随时走过去，开启讨论。

这意味着在BAIR实验室里，“组织结构”在被刻意削弱，取而代之的是问题流动性和密度。而某种程度上，这里也像是一个被压缩过的伯克利文化，把开放、交叉压缩进一个空间里，就像前两天我们参观Jacobs Institution for Design Innovation一样，让“碰撞”发生。

伯克利BAIR实验室内部

Haoran是那种，一出现就会改变场域的高能量人。与我们常见的“技术型研究者”不太一样，他一见面就语气轻快、状态松弛地打着招呼，对话还没真正开始，气氛和节奏就已经被他带了起来。

但更明显的，是他的“快”——他说话很快，思考很快。我们可以很清楚地感受到他的每一句话，都像是已经在脑子里反复推演、验证，甚至推翻过几轮之后留下来的那条最短路径。

在整个交流中，我们印象很深的瞬间是他在交流中提到当时他们当时有一篇论文已经到了可以提交的阶段，但在最后他们发现了一条更优的技术路径。于是他们做了一个决定——不发了，全部推翻重做。

这是一个在学术体系中是一个非常勇敢的选择。因为大多数时候论文意味着确定性的回报，而新的技术路径意味着不确定性，在短期利益面前，他没有犹豫的选择了长期价值。

这也让我们进一步对他有了直观的了解，他并不是在做研究发表论文，而是在做一个可以真正让具身智能work的系统产生更大的价值。

如果说还有一个细节可以进一步了解Haoran，那就是他在对话中反复提到的三个词：底层、系统、结构。这些词不是技术层面的表达，而是他思考问题的入口。他几乎很少从“表面现象”出发，而是不断往下追问：这个问题，在更底层，是如何成立的？

而这，也成为了我们后面整场对话真正展开的起点。

星工聚将总经理李梓正与耿浩然合影

1.“学习方式”是核心

当我们把问题直接抛向当前具身智能的核心瓶颈时，Haoran 的回答非常直接：现在的问题，不在模型而在于学习方式。

当前主流的两条路径——Imitation Learning（模仿学习）和 Reinforcement Learning（强化学习），在他看来本质上都存在结构性问题。

模仿学习的问题在于，它是记忆数据，而不是理解任务。数据不仅昂贵，而且与具体硬件强绑定，一旦硬件迭代升级数据几乎失效。更关键的是，机器人数据无法像语言模型一样扩展到 billion 级别——这意味着这条路径从一开始就限制了泛化能力。

而强化学习则是另一种极端。它并不是在学会做事，而是在优化一个任务的奖励。其结果就是：可以把单一任务做到极致，但几乎无法迁移。

他说了一句很关键的话：“现在的大多数机器人，其实是在 overfit reward，而不是理解世界。”所以Haoran团队真正想解决的，不是“做更多数据”，而是一个更底层的问题：能不能让机器人像人一样，用极少的数据学会一个新任务？

这也是他们后来走向 Human-Centric Learning 的起点：通过人的拍摄视频提取出物体结构、手部位姿以及动作的时序关系，并将其直接转化为机器人可执行的数据。因为Haoran认为人类行为，本身就是最丰富的数据源。

2.仿真平台比模型更重要

目前更多的共识是“大模型”被视为具身智能的核心，而Haoran 给出了一个完全不同的判断：在机器人领域，仿真平台的重要性远高于模型本身。

原因很简单：现在整个行业的基础设施是碎片化的。

每个公司都有自己的仿真环境、数据体系和评测方式，这些系统彼此之间无法兼容，导致数据无法共享、Benchmark 无法统一并且研究难以复现。最终的结果是每一个机器人，都只能在“自己的世界里泛化”。

而Haoran 团队构建了一套类似“机器人世界的 PyTorch”的基础设施，把所有不同的仿真系统统一到一个平台上，这样做可以达到：

不同 simulator 可以统一调用
不同机器人本体可以接入
数据与评测体系可以标准化

基于这个平台之上，Haoran的团队进一步探索生成视频对于机器人理解世界的可行性。在实际部署中可以达到只用 50 条数据，即可完成训练并实现稳定执行，甚至在某些任务中，可以连续运行 100 次而不失败。

这听起来像是一个“数据效率”的问题，但背后的逻辑是：模型在预训练阶段就已学会了“如何学习任务”，机器人不再需要为每个任务重新学习，而是可以把新任务当作一个变体。这也是为什么Haoran一直在强调人类视频到机器学习的路径如此关键，机器人可以通过生成的视频就能理解这个世界的运作机制。

3.从 Demo 到 System之间的真正鸿沟

在对话的后半段，我们没有再继续讨论模型或数据。

话题开始转向一个更简单、但也更残酷的问题：为什么机器人可以完成任务，但却无法稳定完成？

在Haoran的演示视频里，机器人已经可以完成很多复杂动作：抓取、放置、排序，甚至完成多步骤任务。但一旦进入真实环境，这些能力会迅速瓦解，这在工业系统中也意味着“偶尔失败”其实等同于“不可用”。Haoran 提到现在很多模型可以做到 90% 甚至 95% 的成功率，但这仍然不够，因为真实世界的系统不是单次执行，而是连续执行。

当一个系统需要运行 100 次、1000 次时，哪怕只有 5% 的失败率，也会迅速累积成系统级的崩溃。于是问题开始发生转移：机器人领域真正的挑战，不再是“让它完成一次任务”，而是如何让它在不确定性中，持续做对。这背后其实暴露了一个更深层的断裂：今天的大多数机器人系统，本质上仍然是“单次优化”的产物。

强化学习在优化 reward
模仿学习在拟合数据
控制系统在减少误差

但这些方法，都默认了一个前提：环境是可控的、稳定的、可复现的。

而真实世界恰恰相反。光照会变化、物体会偏移、材料会变形、传感器会抖动，甚至硬件本身都会产生微小偏差。这些“非理想条件”，才是系统的常态，在这种情况下，“成功执行一次”没有意义。所以Haoran也提到真正重要的是当事情出错时，系统能不能自我修正，并继续运行。

Haoran 也在对话中提到一个很有意思的观察：在某些操作中，他们的系统已经开始会尝试“重新对齐”，当动作发生偏差时，它不会立即失败，而是会一点一点把动作修正回来。

这听起来只是一个细节，但它背后其实意味着系统开始从“执行指令”，转向“理解任务”。而一旦进入这一层，问题的性质也就发生了变化。这也是为什么，他会说出那句看似简单但其实非常重要的一句话：有些场景，现在就是不适合机器人。

所以具身智能的下一步是一个更难的问题：如何让一个系统，在持续的不确定性中，仍然可以稳定运行。

当系统无法形成闭环时，任何能力都无法被放大。

走出 BAIR 的时候，我们一直在回想整个对谈并逐渐认识到这场对话，表面上是在讨论模型、数据、仿真、系统，但更深一层它其实在讨论一个更本质的问题：机器人到底在学什么？

是“动作”吗？

如果是，那它只是一个工程问题。

但如果不是，那这件事情才刚刚开始。