小鹏VLA 2.0的科普解析-老车主和ai研究者的一点看法

言辞和善

03-24 16:37

在上个星期天，我试驾了小鹏的VLA 2.0车型，在极其混乱复杂的车流、人流、商贩、二轮、三轮都在一条只允许两个车紧密通行的车道上，是在我们所在赣州市的城中心，却实现了20公里级别的零接管，这让我不由得惊叹现在智驾能力的跃升。这两天我广泛搜集了访谈、论文、相关资料，想以娓娓道来的方式给各位鹏友们解析一下，VLA 2.0

一、为什么传统自动驾驶是“拼乐高”？

在讲小鹏的VLA 2.0之前，你得先理解一个问题：传统自动驾驶是怎么工作的？

传统自动驾驶（包括市面上绝大多数高阶智驾）本质上是一个“模块化流水线”。它把“开车”这件事拆成三个步骤：

1. 感知：用摄像头、雷达看到世界，识别出“这里有一辆车”、“那里有一个行人”、“车道线在这里”。这一步的输出，是离散的标签——就像给照片里的人贴上“人”“车”“路”的标签。
2. 规划：根据这些标签，规划出一条路线。比如“前车减速了，我应该在3秒后向左变道”。这一步的输出，是离散的指令——就像导航告诉你“前方300米右转”。
3. 控制：把指令变成方向盘、油门、刹车的具体动作。

这套架构的问题在哪里？它把“连续的物理世界”切碎了。

物理世界是连续的：车的运动是连续的，路面的起伏是连续的，人的动作是连续的。
但传统架构把它切成了离散的“标签”（车、人、路）→离散的“指令”（变道、刹车）→最后再拼回连续的动作。

这就像用乐高积木拼一个球体。你可以拼得越来越像，但每一块积木之间的缝隙，就是信息的损耗。而且，你永远拼不出一个真正的球体。

这就是刘先明说的“缝合怪”——高速一套逻辑，城区一套逻辑，停车又是一套，拼在一起，总有接缝。

---

二、小鹏VLA 2.0的底层变革——放弃“乐高”，直接感受“水”

VLA 2.0做了一个根本性的改变：它不再把世界切碎，而是直接“感受”连续的世界。

怎么做到的？

第一，输入不再是“标签”，而是连续的信号。

传统架构：摄像头看到画面 → 识别出“一辆白色轿车”这个标签。
VLA 2.0：摄像头看到画面 → 直接把连续的像素流和连续的车身运动状态（速度、角度、时间）一起输入模型。

这意味着，模型看到的不是“一辆车”，而是一辆车在画面里怎么动、怎么变、和我的车怎么相对运动。它看到的是连续的“水流”，而不是离散的“水滴”。

第二，输出不再是“指令”，而是连续的控制信号。

传统架构：模型说“方向盘左转15度”，然后执行器去转。
VLA 2.0：模型直接输出连续的角速度、加速度——就像你开车时，脑子里想的不是“方向盘转多少度”，而是“往左靠一点”，你的身体会连续地输出这个“一点”。

刘先明的原话是：“我们将系统设计从「图文/语言+推理」的显性链路，转为以连续的物理信号（video + 状态/轨迹）为主的端到端训练与推理路径。”

翻译成人话：让模型直接“看”连续的世界，“摸”连续的运动，然后直接“输出”连续的控制。中间不经过任何“翻译”成文字或标签的环节。

这才是最底层的变革：从处理“符号”到处理“信号”。

---

三、没有语言了，模型怎么“思考”？——视觉思维链

你可能要问：如果模型不再用语言来描述世界，那它怎么“思考”？怎么“推理”？

这是一个好问题。传统AI的“思考”靠的是Chain of Thought（思维链）——就是模型在脑子里自言自语：“因为前面有车，所以我要减速；因为右边有空，所以我要变道……”

但VLA 2.0把语言去掉了，那它的“思考”怎么办？

答案是：它用一种全新的方式思考，叫Visual Chain of Thought（视觉思维链）。

什么意思？模型不是在脑子里“自言自语”，而是在视觉空间里同时推演多条可能的路径。

刘先明用了一个很形象的例子：

“在‘看’到前方慢车时，第二代VLA的Visual CoT将会自动生成多个方案：激进变道、稳健变道以及保持跟随，并会根据其他道路信息推理出最优解执行。”

你可以把它想象成：你不是在脑子里默念“我应该变道还是不变道”，而是你的眼睛看着前方的路，脑子里同时出现三条虚线：一条激进插过去的轨迹，一条稳扎稳打的轨迹，一条继续跟车的轨迹。你“看”了一下，觉得第二条最安全，于是身体就执行了。

这就是并行的视觉推理，而不是串行的语言推理。

技术指标上，这个改变带来的提升非常惊人：

推理效率提升了32倍（因为并行比串行快得多）
预测误差降低了33%（因为没经过语言翻译，信息没损耗）

---

四、模型到底在学什么？——世界基座模型

现在你可能在想：这个模型到底有多大？它在学什么？

传统自动驾驶模型是任务模型——它的任务就是“学会开车”。训练数据里全是“驾驶场景”，模型的目标是学会怎么开。

但VLA 2.0不是。它是一个720亿参数的“世界基座模型”。

720亿参数是什么概念？这和训练ChatGPT这种大语言模型的规模是同一个量级。但关键不是参数多，而是它在学什么。

刘先明说：

“自动驾驶本质上是物理AI问题。我们研发了一个720亿超大参数规模的世界基座模型。”

什么叫“物理AI”？它不是在学习“怎么开车”，而是在学习“物理世界怎么运转”。

它学的是：一个物体会怎么运动？
它学的是：如果我踩刹车，车会怎么减速？
它学的是：前面那个小孩如果跑过马路，会发生什么？

就像婴儿看世界一样，他不是在学习“怎么走路”，他是在学习“重力是怎么回事”、“我的身体怎么控制”。等他学会了物理世界，走路自然就会了。

最底层的是：这个模型不需要人工标注。

刘先明说：

“自监督成功的前提是能够以海量数据替代人工标注，从而把训练变成‘无限制地用数据’而不是受限于标注效率。”

意思是：不用人告诉它“这是车”、“这是路”。它自己从海量的驾驶视频里学，看多了，自然就知道什么是车、什么是路、什么是行人。就像你看了一万张猫的照片，不用人告诉你“这是猫”，你也知道什么是猫了。

训练数据有多大？相当于人类驾驶65000年才能遇到的所有场景。也就是说，这个模型见过的“驾驶经验”，比任何一个人类司机一辈子见过的都多得多。

---

五、模型是怎么装进车里的？——软硬一体

一个大问题来了：720亿参数的模型，怎么可能装进一辆车里？车里的芯片可没这么大算力。

这就是小鹏另一个底层的创新：模型和芯片一起设计。

传统做法是：先设计模型，然后找一个现成的芯片来跑。这就像你先设计了一双鞋，然后去店里找一双能穿的脚——不一定合脚。

小鹏的做法是：我设计了一双鞋，同时设计了一双脚。这双脚叫“图灵AI芯片”。

刘先明说：

“我们从模型到软件、到编译器再到芯片做联合优化：自行设计编译器以榨取芯片每一比特算力、优化网络结构与算子以适配量化。”

翻译：我们从最底层的芯片开始，一层一层往上，全部是针对这个模型定制的。芯片的电路是为了跑这个模型设计的，编译器（把模型指令翻译成芯片能懂的语言）是为这个模型写的，模型本身也是为这个芯片优化的。

结果就是：

一颗图灵芯片的有效算力，接近10颗英伟达Orin-X（Orin-X是目前主流的智驾芯片）
推理延迟从200ms压缩到80ms以内（这80ms就是模型从“看到”到“做出反应”的时间）

这就像F1赛车：发动机和底盘是一起设计的，而不是随便找个发动机塞进去。

---

六、为什么说它有“涌现能力”？——模型自己学会了没教过的事

这是大模型最神奇的地方，也是VLA 2.0最底层的价值：它能学会没有被明确训练过的事情。

什么叫“涌现”？就是当模型足够大、数据足够多的时候，它会突然“悟”出一些它没有被直接教过的东西。

刘先明举了一个例子：

“一些极限通过场景并非专门写死或单独强化训练出来，而是当数据量和模型到达临界点时自然表现出来的能力。”

翻译：有些场景，工程师并没有专门写代码去处理，也没有专门找数据去训练。但当模型学到一定程度，它自己就“会”了。

两个被反复验证的案例：

1. 救护车让行

“行车时遇到后面驶来救护车，第二代VLA准确识别，能像人类司机一样让出‘生命通道’。”

模型没有被教过“救护车来了要让行”这条规则。但它从海量的驾驶视频中，看到过无数辆车是怎么让行的。它“理解”了：后面那个闪灯的车需要快速通过，我应该让开。

2. 交警手势

“面对交警查酒驾时，第二代VLA停在交警边上让主驾司机吹气，当交警示意可以离开时，又很聪明地及时驶离。”

模型没有被教过“交警挥手是什么意思”。但它看过的视频里，交警挥手的场景出现了无数次。它“悟”出了：这个手势的意思是“你可以走了”。

这就是“理解物理世界”和“记住规则”的区别。

刘先明说：

“做不到感知物理世界，就没有真正的自动驾驶。”

而VLA 2.0的底层架构——连续信号输入、视觉思维链、世界基座模型——都是为了这一个目标：让模型真正理解物理世界，而不是记住一堆规则。

---

总结：五层架构，一个核心

我们把五层串起来：

第一层连续化 vs 离散化不再用乐高拼球体，而是直接感受水流
第二层视觉思维链脑子里不是自言自语，而是同时推演多条路径
第三层世界基座模型学的不是“怎么开车”，而是“物理世界怎么运转”
第四层软硬一体模型和芯片一起设计，就像鞋和脚一起长
第五层涌现能力自己学会没被教过的事，因为理解了世界

所有这些，最终指向一个底层逻辑：

不再用“离散的符号”去模拟“连续的世界”，而是用“连续的信号”去理解“连续的世界”。

这就是小鹏VLA 2.0最底层的创新。它不是对传统自动驾驶的改进，而是换了一条赛道：从“教AI开车”变成了“让AI理解世界，然后自己学会开车”。