坦福图片
本期我们邀请到了李飞飞团队博士后张教授(Mike Zhang),在斯坦福带我们拆解具身智能技术的未来图谱。他是斯坦福大学计算机系、人工智能中心研究员,同时也是国际顶尖机器人和机器视觉学科会议委员会成员和评审人。
——
4月27日下午,我们在Stanford University Jewish House见到了李飞飞团队的张教授。第一眼的印象很微妙,他虽然有着中国人的沉稳风格但也同时眼神坚定带光,是一种非常清晰、甚至带着锋芒的确定感。
对话发生的空间,也恰好承接了这种气质。窗外是典型的加州春天,阳光斜落在木桌上,让整个场域不像“会议”,而是一个可以放下表达负担的地方。空气安静,但信息密度随时对话的深入却在持续抬升。
张教授的研究路径,本身就横跨两个世界:一端是学术体系的长期积累,另一端是工业一线的深度参与,与Tesla等公司有过实际协作。他谈具身智能,从来不是抽象的“技术路线”,而是每一条路径在真实环境中——如何work、为什么work,以及为什么最终不work。
他的表达方式同样克制而高效。语速不快,但几乎没有冗余;每一句话都像是被反复推演后的压缩结果。你能明显感受到,这不是“现场思考”,而是一套已经被长期验证过的认知结构。
我们在对谈的过程中也聊到了他自己的信仰路径,虽然不是一个技术人常见的直接表达,但某种程度上也解释了他为什么总是把问题拆到最本质:什么是可以被长远相信的?什么是可以被验证的?
而这场对谈真正有意思的地方在于它不是张教授的“观点输出”,而是一次张教授带着我们面向具身智能技术未来的整个图谱的“拆解”。
——
在真正进入对谈之前,我们也简单向张教授介绍了星工聚将正在做的事情:我们从本体出发,构建工业场景的具身智能系统——基于一个轮式双臂的机器人XG Z1以“快慢中央大脑 + 数字风洞”的方式,试图在真实工厂环境中解决泛化问题,而不是停留在Demo层面。
某种程度上,这也成为了这场对话的一个“隐形坐标系”:我们在做的,和硅谷正在发生的,到底处在什么位置?
真正的讨论,从这里开始。
以下是星工聚将团队与张教授的核心节选。(为了方便阅读,做了文本优化)
也出于对张教授的尊重,对谈过程中不做任何拍摄。
01
具身智能,本质上还是“数据问题”
张教授一开始就把整个话题拉回到一个大家都知道但‘’没想透”的点:你没有见过的数据,模型就没有任何保证。
原因很简单:
互联网为大模型提供了“免费数据”,而物理世界不会。你每天用手机、键盘、摄像头,其实都在为模型贡献数据;但机器人要完成一个真实操作,比如拧瓶盖、插插头。每一条数据,都是成本极高的。
所以张教授反复强调:具身智能的核心瓶颈,从来不是模型,而是数据链条。这也是为什么整个硅谷在讨论技术路径时,其实本质上是在讨论:如何更便宜、更高质量地获得数据、更高效地利用数据。
02
硅谷的6条技术路径,其实是6种“放弃”
张教授给我们拆解了当前硅谷具身智能的6条主流技术路径。但如果你仔细听,会发现一个有意思的共性:每一条路径,本质上都在“放弃某种东西”。
路线1 放弃泛化(垂直场景)
只在特定场景work,比如中央厨房、物流分拣。
张教授还开玩笑说:“世上无难事,只要肯放弃。”
但这条路,反而是目前最成功的落地路径。很多硅谷尤其是斯坦福孵化的具身智能公司都在这条路径上融资到B轮,但他们又同时很“隐形”,比较难发现。
路线2 仿真 + 强化学习
用仿真代替真实数据。
但问题在于:
- 物体建模极其困难
- Sim-to-Real gap巨大
- 最终还是要回到真实数据
路线3 真实数据派
(张教授的信仰路径)
张教授说,随着不同的路线探索,最后大家还是会回归到老老实实采数据的方式:
- 人类动捕
- 同构遥操作
- 半本体(UMI-like)
虽然这是目前最“笨”,但这也最有效的方法。
路线4 大模型驱动(Code as Policy)
这也是Google现在正在做的方式:不采数据,全部靠大模型:
- 感知
- 推理
- 生成控制策略
优点很直接,就是直接利用目前大模型的能力。
而缺点也很直接,对人才的门槛要求极高——他既要能vibe coding, 又要能清楚知道什么环境下可以用什么模型得到最好的结果。
路线5 特斯拉路径(Human-in-the-loop)
用人类纠错数据(human correction)持续优化。
这条路径之所以是特斯拉的选择路径,核心逻辑不是技术,而是一个经济问题:用世界各地低成本人力的遥操,来换取高质量数据的输入,随时纠正数据问题。
路线6 世界模型(争议最大)
用于反事实推理(counterfactual reasoning)。
但现实是:在绝大多数工业场景中,并不需要“思考不同可能性”,只需要稳定完成任务。
这6条路径,并不是谁对谁错。
而是不同公司,在不同约束下做出的选择。
03
硅谷的背后洞察
这是整场对话中最有洞察力的一点。
张教授说:硅谷之所以有这么多天才性的探索,是因为这里有大量AI Native的开发者。
他们不是传统机器人出身,所以他们看问题的方式更多是从AI和机器学习的角度出发:
- 如何提高数据利用率
- 如何让模型更高效
- 如何用机器学习思维重构机器人
所以在硅谷这样导致了具身智能,不是“机器人问题”,而是“数据与学习问题”。
04
底层的问题——你到底在解决什么?
如果把整场对谈压缩成一句话,其实是:
具身智能不是一个“统一解”,而是一组权衡。
你要选择:
- 泛化 vs 落地
- 成本 vs 精度
- 数据规模 vs 数据质量
- 技术优雅 vs 工程可行
而张教授的分享,最有价值的地方在于:他没有告诉你“哪条路是对的”,而是把每一条路的成本全部摊开,我们可以相应地选择最适配自己的。
跟张教授对谈结束后当我们走出Jewish House, 我们有了更多的问题和对未来发展更清晰的路径,和对我们现在走的“物理对齐”的确定。
同时,我们也好像有那么一丝触摸到了硅谷科技的独特底色:硅谷的科技探索从来不是更快给答案,而是更早地看到科技发展的边界。
而真正的分化,也许正是从这里开始。