星工说 X 斯坦福｜对话李飞飞团队：具身智能从来不是统一解，而是一组适配自己的权衡 - 新闻资讯

斯坦福图片坦福图片

本期我们邀请到了李飞飞团队博士后张教授（Mike Zhang），在斯坦福带我们拆解具身智能技术的未来图谱。他是斯坦福大学计算机系、人工智能中心研究员，同时也是国际顶尖机器人和机器视觉学科会议委员会成员和评审人。

——

4月27日下午，我们在Stanford University Jewish House见到了李飞飞团队的张教授。第一眼的印象很微妙，他虽然有着中国人的沉稳风格但也同时眼神坚定带光，是一种非常清晰、甚至带着锋芒的确定感。

对话发生的空间，也恰好承接了这种气质。窗外是典型的加州春天，阳光斜落在木桌上，让整个场域不像“会议”，而是一个可以放下表达负担的地方。空气安静，但信息密度随时对话的深入却在持续抬升。

张教授的研究路径，本身就横跨两个世界：一端是学术体系的长期积累，另一端是工业一线的深度参与，与Tesla等公司有过实际协作。他谈具身智能，从来不是抽象的“技术路线”，而是每一条路径在真实环境中——如何work、为什么work，以及为什么最终不work。

他的表达方式同样克制而高效。语速不快，但几乎没有冗余；每一句话都像是被反复推演后的压缩结果。你能明显感受到，这不是“现场思考”，而是一套已经被长期验证过的认知结构。

我们在对谈的过程中也聊到了他自己的信仰路径，虽然不是一个技术人常见的直接表达，但某种程度上也解释了他为什么总是把问题拆到最本质：什么是可以被长远相信的？什么是可以被验证的？

而这场对谈真正有意思的地方在于它不是张教授的“观点输出”，而是一次张教授带着我们面向具身智能技术未来的整个图谱的“拆解”。

——

在真正进入对谈之前，我们也简单向张教授介绍了星工聚将正在做的事情：我们从本体出发，构建工业场景的具身智能系统——基于一个轮式双臂的机器人XG Z1以“快慢中央大脑 + 数字风洞”的方式，试图在真实工厂环境中解决泛化问题，而不是停留在Demo层面。

某种程度上，这也成为了这场对话的一个“隐形坐标系”：我们在做的，和硅谷正在发生的，到底处在什么位置？

真正的讨论，从这里开始。

以下是星工聚将团队与张教授的核心节选。（为了方便阅读，做了文本优化）

也出于对张教授的尊重，对谈过程中不做任何拍摄。

具身智能，本质上还是“数据问题”

张教授一开始就把整个话题拉回到一个大家都知道但‘’没想透”的点：你没有见过的数据，模型就没有任何保证。

原因很简单：

互联网为大模型提供了“免费数据”，而物理世界不会。你每天用手机、键盘、摄像头，其实都在为模型贡献数据；但机器人要完成一个真实操作，比如拧瓶盖、插插头。每一条数据，都是成本极高的。

所以张教授反复强调：具身智能的核心瓶颈，从来不是模型，而是数据链条。这也是为什么整个硅谷在讨论技术路径时，其实本质上是在讨论：如何更便宜、更高质量地获得数据、更高效地利用数据。

硅谷的6条技术路径，其实是6种“放弃”

张教授给我们拆解了当前硅谷具身智能的6条主流技术路径。但如果你仔细听，会发现一个有意思的共性：每一条路径，本质上都在“放弃某种东西”。

路线1 放弃泛化（垂直场景）

只在特定场景work，比如中央厨房、物流分拣。

张教授还开玩笑说：“世上无难事，只要肯放弃。”

但这条路，反而是目前最成功的落地路径。很多硅谷尤其是斯坦福孵化的具身智能公司都在这条路径上融资到B轮，但他们又同时很“隐形”，比较难发现。

路线2 仿真 + 强化学习

用仿真代替真实数据。

但问题在于：

物体建模极其困难
Sim-to-Real gap巨大
最终还是要回到真实数据

路线3 真实数据派

（张教授的信仰路径）

张教授说，随着不同的路线探索，最后大家还是会回归到老老实实采数据的方式：

人类动捕
同构遥操作
半本体（UMI-like）

虽然这是目前最“笨”，但这也最有效的方法。

路线4 大模型驱动（Code as Policy）

这也是Google现在正在做的方式：不采数据，全部靠大模型：

感知
推理
生成控制策略

优点很直接，就是直接利用目前大模型的能力。

而缺点也很直接，对人才的门槛要求极高——他既要能vibe coding, 又要能清楚知道什么环境下可以用什么模型得到最好的结果。

路线5 特斯拉路径（Human-in-the-loop）

用人类纠错数据（human correction）持续优化。

这条路径之所以是特斯拉的选择路径，核心逻辑不是技术，而是一个经济问题：用世界各地低成本人力的遥操，来换取高质量数据的输入，随时纠正数据问题。

路线6 世界模型（争议最大）

用于反事实推理（counterfactual reasoning）。

但现实是：在绝大多数工业场景中，并不需要“思考不同可能性”，只需要稳定完成任务。

这6条路径，并不是谁对谁错。

而是不同公司，在不同约束下做出的选择。

硅谷的背后洞察

这是整场对话中最有洞察力的一点。

张教授说：硅谷之所以有这么多天才性的探索，是因为这里有大量AI Native的开发者。

他们不是传统机器人出身，所以他们看问题的方式更多是从AI和机器学习的角度出发：

如何提高数据利用率
如何让模型更高效
如何用机器学习思维重构机器人

所以在硅谷这样导致了具身智能，不是“机器人问题”，而是“数据与学习问题”。

底层的问题——你到底在解决什么？

如果把整场对谈压缩成一句话，其实是：

具身智能不是一个“统一解”，而是一组权衡。

你要选择：

泛化 vs 落地
成本 vs 精度
数据规模 vs 数据质量
技术优雅 vs 工程可行

而张教授的分享，最有价值的地方在于：他没有告诉你“哪条路是对的”，而是把每一条路的成本全部摊开，我们可以相应地选择最适配自己的。

跟张教授对谈结束后当我们走出Jewish House，我们有了更多的问题和对未来发展更清晰的路径，和对我们现在走的“物理对齐”的确定。

同时，我们也好像有那么一丝触摸到了硅谷科技的独特底色：硅谷的科技探索从来不是更快给答案，而是更早地看到科技发展的边界。

而真正的分化，也许正是从这里开始。