第一章:通感错觉——当图灵测试通过了,但鞋带还没系好
最近,新华视点最新的一篇报道引起了我的注意。文章借人形机器人制造商之口,断言产业已抵达三重“蜕变”的临界点:供应链完善、出货量扩大、真实世界验证反哺技术。字里行间,仿佛那个科幻电影中人机共生的未来,已然随着大模型的爆发而触手可及。
然而,作为一名长期游走在代码与硬件边缘的观察者,这种烈火烹油般的行业热情,却让我感到一种巨大的、难以言喻的“体感温差”。
当我们把目光从热气腾腾的融资通稿移开,投向真实的物理世界,你会发现一种极其荒诞的割裂感:在比特的世界里,GPT-4 已经能通过图灵测试,用几十种语言写出精妙绝伦的十四行诗;但在原子的世界里,那些造价高达几十万美金的钢铁之躯,依然会因为地毯上的一个微小褶皱而轰然倒地,或者在试图拿起一个且软且滑的西红柿时,笨拙得像个帕金森患者。
这便是我们当下所处的真实坐标:灵魂(AI)跑得太快,已经冲过了终点线;而肉身(机器人)还蹲在起跑线上,正在笨拙地系着那一根叫做“运动控制”的鞋带。
为什么我们会对这种割裂视而不见?为什么大众,甚至许多资深投资人,都会理所当然地认为:“既然 AI 连最复杂的编程和逻辑推理都学会了,区区走路、洗碗这种‘低级’体力活,岂不是手到擒来?”
我将这种群体性的认知误判,称为 “通感错觉” 。
这是一种典型的认知映射错误。我们习惯于将人类的技能树投射给机器。在人类的成长经验里,学习走路是一岁婴儿的本能,而学习微积分和写作是成年后的高阶智力活动。既然机器已经征服了微积分和写作(高阶),我们本能地推导它一定早就征服了走路(低阶)。
但进化的真相,恰恰与我们的直觉相反。
汉斯·莫拉维克(Hans Moravec)早在几十年前就揭示了这个悖论:“让计算机在智力测验中如成人般表现很容易,但要让它如一岁小孩般感知和行动,却难如登天。”
如果我们拉长时间的镜头,从演化生物学的尺度去审视,这个悖论就变得极易理解:
人类的大脑皮层(负责语言、逻辑、规划的部分)是进化的“新贵”,满打满算只有几百万年的历史。因为年轻,所以它很脆弱,但也因为它是基于符号和规则的,所以极易被计算机模拟——LLM 的胜利,本质上就是对大脑皮层功能的暴力破解。
然而,负责我们走路、保持平衡、条件反射的小脑和基底核,却是进化的“活化石”。它们是生物界在数亿年的残酷优胜劣汰中,为了在复杂的物理世界生存而打磨出的终极算法。每一次肌肉的微调、每一毫秒的动态平衡,背后都是无数次试错和死亡堆出来的基因记忆。
这才是“通感错觉”的根源:我们正在傲慢地试图用硅基芯片短短几年的“算力大跃进”,去暴力填补碳基生物几亿年的“运动进化史”。
那个报道中的所谓“临界点”,在商业计划书上或许已经画出了漂亮的指数曲线。但在生物进化的尺子面前,我们甚至还没学会如何像蟑螂一样灵敏地逃跑。
灵魂已经飞升,但肉身沉重如铁。接下来,我们需要通过这具沉重的肉身,去撞击那些被我们忽视的、坚硬的物理之墙。而第一堵墙,就是我们为了那张虚荣的“人类入场券”,所付出的形态代价。
第二章:形态的虚荣——功能性恐怖谷与反向奥卡姆
既然我们的肉身进化如此缓慢,为何还要执着于让机器人模仿这种最不稳定的形态?
如果从纯粹的工程效率视角审视,制造一个“双足机器人”简直是对物理学发起的自杀式袭击。轮子在平地上的能效比碾压双腿,四足机器人在稳定性上完胜双足。双足直立,本质上是在维护一个随时可能倾覆的“倒立摆”,每一秒钟,电机都在与重力进行着精疲力竭的拔河。
但我必须保持智识上的诚实:在这个“非结构化”的人类世界里,双足确实是唯一的通用“入场券”。
我们的世界是为两脚兽设计的。楼梯的高度、门把手的位置、过道的宽度、甚至是洗碗槽的进深,都是基于人类的解剖学参数定制的。如果我们想让机器人彻底融入家庭,而不是像扫地机那样永远被挡在门槛之外,我们确实不能要求全人类为了机器人去把楼梯改成坡道。
从这个逻辑出发,双足并非伪需求,而是为了适应非结构化环境的终极适配器。
然而,理论的合理性,掩盖不了当下的荒谬。我看过无数个机器人的演示视频,那种荒谬感挥之不去:工程师们似乎违背了 “奥卡姆剃刀” (如无必要,勿增实体)的原则,正在进行一场 “反向奥卡姆” 的狂欢。
为了获得那张“直立行走的入场券”,我们在机器人身上堆砌了极其复杂的动力学算法和昂贵的关节模组。结果造就了什么?造就了一群造价高昂、却步履蹒跚的“精密废物”。在平整的物流仓库里,几百块钱的 AGV 小车跑得飞快,而几十万的人形机器人却在小心翼翼地挪动脚步,仿佛脚下踩的不是水泥地,而是薄冰。
这直接导致了一种商业上的 “功能性恐怖谷” 。
我们熟知的“恐怖谷”通常指视觉上的:当机器人长得太像人又不够像人时,会引发心理恐惧。但当下的泡沫,更多源于功能的断层。
资本市场的 PPT 给了大众极高的心理暗示:它长得像人,有手有脚,还有 GPT-4 的大脑,那么它理应像人一样干活。但现实是残酷的——你期待它像管家一样优雅地端来咖啡,实际上它端起杯子时手臂的颤抖、转身时僵硬的停顿、以及遇到地毯边缘时那种不知所措的死机,瞬间就会将用户的期望值从云端砸入谷底。
这种 “长着一张施瓦辛格的脸,却走着僵尸步态” 的反差,不仅不可爱,反而令人尴尬。它时刻提醒着我们:这具躯壳的运动智能,根本配不上它那颗昂贵的大脑。
那么,为什么行业内依然在疯狂追逐“人形”?
这就不得不戳破那层窗户纸了:因为“人形”在资本市场上拥有最高的溢价。
如果一家公司做的是“带轮子的机械臂”,它会被归类为枯燥的“工业自动化”,估值逻辑是市盈率(PE),撑死几十倍;但如果它做的是“人形机器人”,它立刻就摇身一变,成为了“AGI 的终极载体”或“下一个特斯拉”,估值逻辑变成了市销率(PS)甚至纯粹的市梦率。
于是,双足不再是为了解决物理问题,而是为了解决融资问题。我们制造了最复杂的实体,不是为了更高效地工作,而是为了讲一个更性感的故事。
但这还不是最糟糕的。哪怕我们容忍了它走路像僵尸,哪怕我们接受了它昂贵的溢价,依然有一道更绝望的鸿沟横亘在前面。它能歪歪扭扭地走到你面前,这已经是奇迹了,但当它伸出手,试图替你洗一只沾满泡沫的瓷碗时,真正的绝望才刚刚开始。
因为在那里,等待着它的是物理学中不可逆的熵增,和名为“触觉”的黑洞。
第三章:感知的鸿沟——不可逆的熵增
让我们延续那个隐喻:灵魂(AI)此刻正试图指挥这具肉身去干点精细活——比如,拿起一颗熟透的草莓,或者洗干净一只沾满洗洁精的瓷碗。
在大模型的指挥中心里,这简直太简单了。GPT-4 瞬间就能分解出完美的任务链:“识别物体 -> 伸出手臂 -> 抓取 -> 移动 -> 放下”。在它的认知里,这和生成一段 Python 代码没有任何区别,都是一串清晰的 Token。
但当指令传导到指尖的那一刻,世界变了。灵魂仿佛瞬间戴上了一双厚重的航天手套,不仅笨拙,而且麻木。
这里存在一个被大多数人,包括许多 AI 信仰者所忽略的根本性鸿沟:旁观者与参与者的鸿沟。
现有的 AI 革命,本质上是建立在“视觉”和“听觉”基础上的。无论是识别图像还是理解语音,本质上都是一种 “旁观者模式” 。摄像机被动地接收光子,麦克风被动地接收声波。这些是纯粹的信息流,带宽极高,且在采集过程中不会对被观测对象造成任何影响。更重要的是,视觉数据极易数字化和仿真——Sora 生成的视频,在像素层面已经可以欺骗人类的视网膜。
但触觉不一样。触觉是 “参与者模式” 。
当机器人的手指接触到草莓的那一毫秒,它不再是旁观者,而是入侵者。它必须施加力,而反作用力会瞬间改变环境。这是一个极其复杂的物理耦合过程:指尖的压力、草莓表皮的剪切力、果肉的非线性形变、表面的摩擦系数、以及温度和湿度的变化……
这是一个 “维度的诅咒” 。视觉只是 RGB 三通道的矩阵,而触觉是一个包含了力学、热力学、材料学的无限维度集合。最要命的是,这一切都发生在毫秒级的接触瞬间,无法像视觉那样远程采集,也无法像文本那样离线学习。
AI 可以在虚拟的仿真器里训练一万次自动驾驶,让车辆在比特构成的公路上撞毁一万次而不伤分毫。在那个世界里,物理定律是简化的,错误是可以回滚的。
但在现实世界里,捏碎一块豆腐,就是一次不可逆的熵增。
你无法在现实中通过“试错”来训练一个机器人洗碗。因为如果你让它试错一万次,你就需要准备一万个碗,清理一万次地上的碎片,处理一万次水漫金山的灾难。这种物理世界的“破坏性测试”成本,是比特世界无法想象的。
这就是著名的 Sim-to-Real Gap(仿真到现实的鸿沟)。
目前的算法,依然无法精准模拟软体(如海绵、皮肤)的非线性形变,无法模拟流体(如洗洁精泡沫)的动态摩擦力。在这个鸿沟面前,那个在云端无所不知的 GPT-4,瞬间变成了一个没有本体感觉的残疾人。它看着手里的碗,以为自己抓住了,但那微米级的滑动它感觉不到;它以为在这个力度下草莓不会破,但现实中的草莓比数据库里的模型软了 5%。
结果就是灾难性的。
所以,当我们惊叹于大模型能写诗作画时,请不要忘记:写诗只需要处理符号,而洗碗需要对抗物理定律。在这个充满了摩擦、形变和不可逆破坏的真实世界里,最聪明的灵魂,也常常输给最滑腻的肥皂泡。
而这一课,物理学还要向我们收取一笔更昂贵的学费——不仅是技术上的难,更是经济上的贵。这就是“原子的复仇”。
第四章:原子的复仇——为什么“数据飞轮”转不起来?
如果你是一位特斯拉的信徒,或者Figure AI的投资人,此刻或许会按捺不住反驳的冲动:
“不管是触觉的维度诅咒,还是熵增的不可逆,归根结底不就是数据不够吗?只要我们像训练 GPT-4 那样,把成千上万台机器人撒出去,7x24 小时采集物理交互数据,一旦跨过那个 Scaling Law 的临界点,物理直觉难道不会像语言能力一样‘涌现’出来吗?”
这听起来无懈可击。毕竟,我们亲眼见证了“大力出奇迹”在文本领域的辉煌。但这种反驳犯了一个致命的错误:它试图用“摩尔定律”的支票,去支付“牛顿定律”的账单。
这就是 “原子的复仇” :物理世界的长尾混乱,与原子数据的高昂边际成本,构成了两道刚性的铁闸,死死卡住了那个想象中的飞轮。
首先,让我们看看这个世界的本质。
在文本世界里,长尾词汇只是概率分布上的一条细尾巴。但在物理世界里,长尾不是尾巴,长尾是主体。
对于一辆无人车或一个机器人来说,平直的公路和整洁的实验室是特例,而暴雨、泥泞、乱穿马路的行人、突然倒下的路障、甚至只是一个乱放的插线板,才是世界的常态。这就是 “Corner Case 的物理无限性” 。AI 的概率模型是基于过往数据的拟合,它永远无法穷尽物理世界那近乎无限的混沌组合。
其次,也是最残酷的——数据的价格。
OpenAI 训练 GPT-4,用爬虫扫荡整个互联网的文本,其边际成本接近于零。文字是静态的、免费的、无害的。
但在原子世界,获取一条“有效的高质量物理交互数据”,成本高得令人咋舌。
想象一下,为了让机器人学会“不捏碎鸡蛋”,你需要真的让它去捏碎成千上万个鸡蛋。每一次采集,都伴随着硬件的磨损、电力的消耗、甚至是昂贵的维修费用。如果是无人车,每一次失败的边缘数据采集,甚至可能意味着一起交通事故和法律诉讼。
原子世界的试错成本,不支持比特世界的指数级增长。 你无法像复制粘贴代码一样复制物理经验。每一台机器人都是一个独立的实体,都要独自面对重力、摩擦力和材料疲劳。这些物理量不会因为你的云端大脑变聪明了而减少分毫。
这就是为什么“数据飞轮”在机器人领域转得如此艰难。它不是转不起来,而是转动的摩擦力大到足以烧毁轴承。
最后,我们必须面对一个尴尬的 “时间错配” 。
确实,从长远来看,AI(灵魂)也许能通过 AlphaFold 这样的工具帮我们发现更轻、更硬、能量密度更高的新材料,从而彻底解决机器人的硬件短板。
但这是一个以“十年”为单位的科研周期。而资本市场炒作的,是“明年量产”、“后年进家庭”的商业神话。这种用“20年后的材料科学突破”来支撑“明年的股价泡沫”的逻辑,本身就是一种巨大的透支。
所以,当我们冷静下来审视这一切,会发现物理定律依然像一位严厉的债主,站在那里冷冷地看着我们。
但这并不意味着绝望。泡沫终将破裂,喧嚣终将退去。当那些只会翻跟头的马戏团散场后,我们会看到,在一片狼藉的舞台角落,依然有一群人,正在默默地做着最枯燥、也最伟大的工作。
第五章:结语——磨镜片的人
历史总是押着相似的韵脚。
三百多年前,被驱逐出犹太教会的斯宾诺莎,独自居住在海牙的阁楼里。白天,他忍受着玻璃粉尘的刺痛,在那台简陋的车床上日复一日地打磨光学镜片;夜晚,他在烛光下写出了照亮西方哲学的《伦理学》。
那个时代,所有仰望星空的伟大理论(灵魂),最终都不得不依赖于那一片片被精心打磨的透镜(肉身),才能让人类真正看清宇宙的轮廓。没有那一块块物理上足够精密的玻璃,伽利略的星空和列文虎克的微生物世界,都只能是纸上的猜想。
今天,我们正站在另一个类似的十字路口。
AI 的灵魂已经觉醒,它迫不及待地想要拥抱这个物理世界。但眼下的泡沫终将破裂,那些靠着 PPT 融资、靠着加速剪辑视频来展示“智能”、只会翻几个跟头却端不稳一杯水的机器人公司,终将在资本的退潮中裸泳。
但这并不意味着失败。相反,泡沫往往是基建的先声。
当喧嚣散去,真正的掌声应该送给那些在角落里“磨镜片”的人。
他们是那些在实验室里死磕六维力传感器精度的工程师,试图让机器指尖能感知到羽毛落下的重量;他们是那些在材料学前沿寻找谐波减速器抗疲劳极限的研究员,试图让关节的每一次转动都顺滑如丝;他们是那些致力于构建灵巧手触觉阵列与高功率密度驱控一体关节的苦行僧,试图为这具沉重的钢铁肉身,注入真正的敏捷与感知。
在这个灵魂跑得太快、常常忍不住回头张望的时代,正是这群低头打磨“镜片”、笨拙地为肉身系上鞋带的人,在维系着技术与现实的最后一丝连接。
因为他们知道,无论大脑多么聪明,如果不解决这最后一厘米的触碰,灵魂将永远被困在屏幕的背后,无法真正拥抱这个粗糙、坚硬、却又无比真实的原子世界。