星工说 X 硅谷人工智能研究院｜对话硅谷哲人Piero教授（上篇）：探索具身智能的本质定义 - 新闻资讯

Piero Scaruffi教授照片

人物简介

硅谷人工智能研究院（Silicon Valley Artificial Intelligence Research Institute, SVAIRI）创始人兼院长。该研究院成立于2016年，是硅谷首个以人工智能与大数据、区块链等跨领域科技融合为核心研究特色的机构。

硅谷人工智能研究院（SVAIRI）标志硅谷人工智能研究院（SVAIRI）标志

Piero代表作品

《硅谷百年史》——2015年获评亚马逊中国“人生必读100本书”
《智能的本质》
《人类2.0：在硅谷探索科技未来》
《人工智能通识课》
《智能非人工》

在与Piero真正进入对话之前，我们一直对Piero Scaruffi 这样的人保持着好奇——他似乎从来不按一条线性逻辑去讲述世界，而是像在脑海中同时运行着多条时间轴，把历史、技术、哲学与个体经验不断交叉、重组。与他坐下来聊天，很难有一个真正的起点，我们随时会因为提到的一个点进入到Piero的思想中，像是就突然接入一条已经流动了几十年的思想河流，你只能顺着水势方向流，而不是试图控制它的方向。

我们的破冰从他刚刚结束在北京中关村论坛的行程开始，他刚回到美国不久，语气中仍带着对中国技术现场的鲜活感知。他也会突然提起今年一些被忽略的AI与机器人发展细节，发散着开始从上世纪的研究脉络讲到今天的系统范式，又随时跳到中国春晚的机器人表演——那些在很多人看来只是“节目效果”的片段，在他这里却成为理解技术演化路径的线索。他的讲述更像是回忆，虽然时不时横跳历史上的关键节点但相互之间又非常息息相关，就像是一个经历过多个技术周期的“见证者”，在不经意间把碎片拼接成结构。

有意思的是在关于机器人的一个核心判断上，当我们分享了前几天见到Barry Katz的观点时，他与Barry 的观点几乎完全一致：机器人不是“人类的延伸工具”，而更接近一种“新物种”。这意味着，我们无法再用人类的行为逻辑、审美习惯甚至伦理框架去简单套用它们。真正重要的问题不再是“它像不像人”，而是我们是否愿意为这种新物种留出理解与共存的空间。这种观点的一致性，使得对话还未正式开始时就把我们一瞬间拉在了同一个水平位上，开启了一个更有深度的对谈。

而当话题进一步落到智能Intelligence本身时，Piero的一番回答让我们意识到大咖之所以有他们独特的高维见解，就是他们的元思考认知几乎是从词义层面重新拆解并理解智能intelligence这个概念的。在他看来，人类的智能是一种持续变化的生物过程：神经元在不断生成新的连接，而经验也在不断重塑神经结构；而机器的“智能”则来自一套相对固定的系统与参数更新机制，本质上缺乏真正的自我演化能力。这也解释了他为何反复强调：我们今天所谈论的AI，可能更接近一种高度复杂的计算产物，而非真正意义上的“智能生命”。

对话结束时发生了一件很有意味的小事。在开始之前，我曾问他是否了解过像宇树这样的中国机器人公司，他的回答是“还没有”。但在交流之后他主动提起——这次对话让他意识到，或许下一次来中国，他应该更认真地去看一看这些正在发生的变化。这种“观点被轻微撬动”的瞬间，或许正是对话真正发生的地方：我们没有相互说服，而是让彼此的认知边界，出现了新的可能性。

星工聚将总经理李梓正（右）与Piero（左）教授合照

以下是星工聚将总经理李梓正对谈Piero Scaruffi教授的核心节选（上篇）。（为了方便阅读，做了文本优化）

上篇：探索具身智能的本质定义

Piero Scaruffi 认为，人类智能的核心是“不精确”——那是碳基生命亿万年演化的结果，而机器的智能只是高能耗的精确模仿。我们执着于让机器人像人，却忽略了它更应被理解为一个全新的物种。

下面，我们将跟随Piero教授一起探索具身智能的本质定义。

“AI 是否会拥有真正的意识？”

Piero 对“智能”概念的重新拆解

在他看来，人类今天对于“意识”其实几乎仍一无所知。我们知道自己拥有意识、情感、记忆与主观体验，但这些东西究竟从何而来，至今仍是哲学与神经科学都无法真正解释的问题。意识是否来自大脑？如果来自大脑，为什么人类至今找不到那个真正产生意识的“区域”？而如果意识并不单纯来源于大脑，那它又是否与身体、器官、感知系统乃至整个生命结构密不可分？

他说，很多关于AI的讨论之所以容易陷入误区，是因为人们默认“机器智能”与“人类智能”是同一种东西。

但在他看来，它们从根本上就不是同一种存在。

人类的大脑是一种生物演化的产物。它并不完美，却异常高效；它会遗忘、会模糊、会重构记忆、会被情绪改变。而机器恰恰相反——机器的“记忆”记住一切，精确、稳定、可复制，但也因此失去了生物性的特征。某种意义上，人类智能的核心，恰恰不是“精确”，而是“不精确”。

所以他甚至认为，“Artificial Intelligence（人工智能）”这个词本身就带有误导性。机器当然可以表现得“聪明”，但那并不等同于人类意义上的智能。就像计算机的“memory（存储）”并不是真正的人类记忆一样，我们只是借用了相同的词汇，去描述两种本质完全不同的事物。

在他的理解里，人类与机器最大的区别，并不只是算法能力，而是底层生命结构的不同。人类的神经系统建立在碳基生物之上，而机器建立在硅基计算之上。即使未来机器人拥有再接近人的行为，它依然更像一种高度复杂的“模拟”，而不是生命本身。

于是他最后把问题重新推回到一个更根源的地方：

也许真正的问题从来不是——“机器会不会变成人？”

而是——我们为什么总执着于让机器看起来像人？

“机器是在思考，还是只是在模仿？”

Piero 对“人工智能”最根本的怀疑

当我们继续谈到“大模型是否会真正拥有智能”时，Piero Scaruffi把话题重新拉回到人类智能的“神经元”本身。

在他看来，今天所有基于Transformer的大模型，本质上仍然建立在硅基计算之上——无论参数量如何膨胀，无论动作如何逼真，它的底层逻辑依然只是0和1的排列组合。

但人类的大脑并不是这样运作的。

他提到一个经常被忽略的事实是：人类大脑中的每一个神经元，几乎都是不同的。

它们并不像人工神经网络那样是一组被预先设定好的统一节点。真实的大脑里，神经元之间存在着极其复杂且动态变化的连接关系，甚至不同神经递质都会持续改变神经系统的状态。人的认知，并不是一套固定系统的重复调用，而是一种不断变化、不断生长、不断被环境重塑的生命过程。

所以在他看来，即便未来机器人能够完美模仿人类动作、语气甚至情感，它依然更接近一种“高度复杂的模仿系统”，而不是真正意义上的生命智能。

他说，人类其实已经制造了很多会模仿人的“玩具”，而今天的AI，只是把这种模仿推进到了一个前所未有的精细程度。

但真正让他认为问题的核心的还不是机器“像不像人”，而是另一个更根本的问题——能耗。

他举了一个非常典型的例子：一个人类大脑，只需要大约20瓦功率，就可以完成语言、推理、感知与复杂决策；而今天的大语言模型，仅仅为了回答“英国首都是哪里”这样的问题，背后却可能需要一个庞大数据中心与数百万瓦级别的能源系统。

在他看来，这种差异本身，就说明了机器与生物智能之间存在着本质性的鸿沟。

人类的大脑之所以如此高效，并不是因为它“设计得好”，而是因为它是数百万年自然选择与生物进化的结果。今天人类看似轻而易举完成的一切，背后其实是整个生命演化史的累积。

而机器没有经历过这种进化。

它们没有自然选择，没有代际淘汰，也没有真正意义上的生存压力。

所以今天AI需要巨大能耗去完成的事情也许并不是因为它“不够聪明”，而是因为它缺失了那段属于生命本身的演化过程。

具身智能是否只是又一次的技术轮回？

Piero 对“技术周期”的判断

当我把“具身智能是否只是80年代机器人浪潮的重演”抛给Piero Scaruffi时，他并没有像很多技术从业者那样急于否定，反而先纠正了一个当下非常流行的判断。

他认为，今天的具身智能，其实还远远没有到“泡沫”阶段。

在他看来，真正的技术泡沫意味着资本、市场与社会情绪已经全面失控，但目前起码在硅谷，获得超大规模资金支持的具身公司其实并不多。所以他更愿意把今天的现状理解为：一个正在逐渐成熟、开始寻找真实落地路径的新行业。

而更重要的是，他认为今天这一轮具身智能，与80年代的专家系统或早期移动机器人，并不是同一种技术逻辑。

他说，很多人习惯性地把今天所有AI都归为一类，但实际上，大语言模型与具身智能背后所依赖的是完全不同的技术路径。过去AI更多建立在“符号规则”或“转换逻辑”之上，而今天很多新的系统正在转向另一种范式——它们不再只是处理抽象信息，而开始通过物理交互、环境反馈与动态运动去形成能力。

也因此，他并不认同“今天的一切只是旧技术换了包装”这种说法。

不过，他也提到一个很有意思的现象。

比如很多人会说，李飞飞今天推动的一些方向，其实十年前就已经存在类似研究，只是当时没有人真正关注。

但在Piero看来，“没有被时代看见”本身，就是技术历史的一部分。

很多技术并不是今天才被发明，而是在今天才第一次拥有了被使用、被理解、被连接进产业现实的机会。

同样一项技术，在不同历史阶段，会因为算力、资本、社会需求甚至叙事方式的变化，而拥有完全不同的命运。

所以他说，今天真正发生变化的，也许不只是技术本身，而是整个世界，终于开始为这些技术准备好了土壤。

AGI 能只靠语言诞生吗？

Piero 对于“身体”的定义

当我们问Piero Scaruffi：具身智能的“AGI 是否能够只通过语言实现？还是你觉得它必须通过身体去学习物理世界的语法？”

他没有立刻进入技术层面，而是先连续反问了两个问题：“什么是智能？”，“什么又是AGI？”

他说，如果你去问20位心理学家，他们会给出20种不同的“智能”定义；而如果去问20位AI科学家，“AGI”又会得到另外20种答案。

在他看来，今天整个AI世界其实仍然没有真正定义清楚，自己究竟在追逐什么。

但即便如此，他仍然认为：如果人们期待机器拥有“接近人类”的能力，那么它最终一定无法脱离物理世界。

因为人类从来不是通过语言进化的。

我们首先是在三维空间中生存、跌倒、碰撞、受伤、移动，然后才逐渐形成语言、抽象与文明。所谓“常识”，本质上其实是长期身体经验沉淀下来的结果。也因此，他对很多人执着于“类人机器人”这件事本身是带着怀疑的。

他说，一直有一个问题始终困扰着他：“为什么机器人一定要有两条腿？”

在他看来，人类身体并不是宇宙中最优的机械结构。

两条手臂、两条腿，只是生物演化过程中形成的一种偶然结果，而不是唯一答案。他甚至半开玩笑地说，自己看到那些拥有更多肢体的动物时，总会觉得“它们反而更高效”。

但真正重要的并不是外形，而是它是否真正理解这个世界的物理逻辑。

比如，它需要知道：一把椅子为什么会倒，一个杯子为什么会碎，什么东西可以被放置，什么东西会失去平衡；以及，一个孩子、一只猫和一个成年人之间，在物理互动上究竟有什么不同。而这些能力无法仅靠阅读文本获得。

他提到，在受限环境里机器人其实学习得非常快。工厂、厨房、固定流水线——这些结构明确、变量有限的空间，对机器而言并不困难。甚至很多时候，机器人在重复学习上的速度远超人类。

但真正困难的是开放世界，因为现实世界不是一个静态系统。

现实中会突然跑出孩子、宠物、陌生人、噪音、光线变化与无数不可预测的细节。而人类所谓的“物理智能”，恰恰是在这种无穷无尽的动态环境中被24小时持续训练出来的。所以他说，具身智能真正难的部分，其实从来不是“让机器人动起来”，而是如何让它在真实世界里可以持续学习。

机器人真的理解世界了吗？

关于“感知”与“共情”的边界

当我们继续追问Piero Scaruffi：如果一个机器人通过数百万次物理交互，学会了重力、摩擦、空间与碰撞，它是否算真正“理解”了这个世界？

Piero的回答很有意思，他并没有否认这种学习的价值。

在他看来，机器人当然需要学习“重力”——因为只要进入现实世界，它就必须理解现实世界的规则。

它需要知道太阳会发热、雨水会损坏电子系统、不同材质会产生不同反馈、物体会因为角度与受力而倒塌。

但问题在于：世界并不是只有“重力”这一条规则。

他说，自然界真正复杂的地方，是它存在着几乎无穷无尽的变量。而人类所谓的“常识”，其实正是长期浸泡在这种复杂环境中后形成的一种综合感知能力。

所以在他看来，机器人即便学会了物理规律，它获得的也更像是一种“不同类型的智能”，而未必是人类意义上的理解。

但随后Piero突然把话题跳转向了另一个方向——情感。

他说，人类其实很容易对“并不真实”的东西产生真实情感：比如我们会因为电影中的角色哭泣、愤怒、共鸣；我们明知道那只是虚构，却仍然会被触动。

而这并不是电影的问题，而是人类大脑本身的机制—大脑会对“它认为真实的东西”产生反应。

于是他提到一个今天已经越来越明显的现象：很多人开始对大语言模型产生情感依赖。

有人会认真地对OpenAI的ChatGPT说“谢谢”；

有人会向AI倾诉；

甚至开始把它当作一种情感对象。

Piero对此并不惊讶。

他说，这并不意味着机器真的拥有了情感。更多时候，是人类的大脑天然会为“能够回应自己”的东西赋予人格与情绪。

某种意义上，人类其实一直都在“主动创造共情”。

对话Piero的上半部分，我们一起探索对话了具身智能的一些本质鸿沟，下半部分的对话，我们将与Piero一起把目光从哲学拉回到现实，共同探讨具身智能落地的更多现实问题。