
小鹏VLA 2.0的科普解析-老车主和ai研究者的一点看法


在上个星期天,我试驾了小鹏的VLA 2.0车型,在极其混乱复杂的车流、人流、商贩、二轮、三轮都在一条只允许两个车紧密通行的车道上,是在我们所在赣州市的城中心,却实现了20公里级别的零接管,这让我不由得惊叹现在智驾能力的跃升。这两天我广泛搜集了访谈、论文、相关资料,想以娓娓道来的方式给各位鹏友们解析一下,VLA 2.0
一、为什么传统自动驾驶是“拼乐高”?
在讲小鹏的VLA 2.0之前,你得先理解一个问题:传统自动驾驶是怎么工作的?
传统自动驾驶(包括市面上绝大多数高阶智驾)本质上是一个“模块化流水线”。它把“开车”这件事拆成三个步骤:
1. 感知:用摄像头、雷达看到世界,识别出“这里有一辆车”、“那里有一个行人”、“车道线在这里”。这一步的输出,是离散的标签——就像给照片里的人贴上“人”“车”“路”的标签。
2. 规划:根据这些标签,规划出一条路线。比如“前车减速了,我应该在3秒后向左变道”。这一步的输出,是离散的指令——就像导航告诉你“前方300米右转”。
3. 控制:把指令变成方向盘、油门、刹车的具体动作。
这套架构的问题在哪里?它把“连续的物理世界”切碎了。
物理世界是连续的:车的运动是连续的,路面的起伏是连续的,人的动作是连续的。
但传统架构把它切成了离散的“标签”(车、人、路)→离散的“指令”(变道、刹车)→最后再拼回连续的动作。
这就像用乐高积木拼一个球体。你可以拼得越来越像,但每一块积木之间的缝隙,就是信息的损耗。而且,你永远拼不出一个真正的球体。
这就是刘先明说的“缝合怪”——高速一套逻辑,城区一套逻辑,停车又是一套,拼在一起,总有接缝。
---
二、小鹏VLA 2.0的底层变革——放弃“乐高”,直接感受“水”
VLA 2.0做了一个根本性的改变:它不再把世界切碎,而是直接“感受”连续的世界。
怎么做到的?
第一,输入不再是“标签”,而是连续的信号。
传统架构:摄像头看到画面 → 识别出“一辆白色轿车”这个标签。
VLA 2.0:摄像头看到画面 → 直接把连续的像素流和连续的车身运动状态(速度、角度、时间)一起输入模型。
这意味着,模型看到的不是“一辆车”,而是一辆车在画面里怎么动、怎么变、和我的车怎么相对运动。它看到的是连续的“水流”,而不是离散的“水滴”。
第二,输出不再是“指令”,而是连续的控制信号。
传统架构:模型说“方向盘左转15度”,然后执行器去转。
VLA 2.0:模型直接输出连续的角速度、加速度——就像你开车时,脑子里想的不是“方向盘转多少度”,而是“往左靠一点”,你的身体会连续地输出这个“一点”。
刘先明的原话是:“我们将系统设计从「图文/语言+推理」的显性链路,转为以连续的物理信号(video + 状态/轨迹)为主的端到端训练与推理路径。”
翻译成人话:让模型直接“看”连续的世界,“摸”连续的运动,然后直接“输出”连续的控制。中间不经过任何“翻译”成文字或标签的环节。
这才是最底层的变革:从处理“符号”到处理“信号”。
---
三、没有语言了,模型怎么“思考”?——视觉思维链
你可能要问:如果模型不再用语言来描述世界,那它怎么“思考”?怎么“推理”?
这是一个好问题。传统AI的“思考”靠的是Chain of Thought(思维链)——就是模型在脑子里自言自语:“因为前面有车,所以我要减速;因为右边有空,所以我要变道……”
但VLA 2.0把语言去掉了,那它的“思考”怎么办?
答案是:它用一种全新的方式思考,叫Visual Chain of Thought(视觉思维链)。
什么意思?模型不是在脑子里“自言自语”,而是在视觉空间里同时推演多条可能的路径。
刘先明用了一个很形象的例子:
“在‘看’到前方慢车时,第二代VLA的Visual CoT将会自动生成多个方案:激进变道、稳健变道以及保持跟随,并会根据其他道路信息推理出最优解执行。”
你可以把它想象成:你不是在脑子里默念“我应该变道还是不变道”,而是你的眼睛看着前方的路,脑子里同时出现三条虚线:一条激进插过去的轨迹,一条稳扎稳打的轨迹,一条继续跟车的轨迹。你“看”了一下,觉得第二条最安全,于是身体就执行了。
这就是并行的视觉推理,而不是串行的语言推理。
技术指标上,这个改变带来的提升非常惊人:
推理效率提升了32倍(因为并行比串行快得多)
预测误差降低了33%(因为没经过语言翻译,信息没损耗)
---
四、模型到底在学什么?——世界基座模型
现在你可能在想:这个模型到底有多大?它在学什么?
传统自动驾驶模型是任务模型——它的任务就是“学会开车”。训练数据里全是“驾驶场景”,模型的目标是学会怎么开。
但VLA 2.0不是。它是一个720亿参数的“世界基座模型”。
720亿参数是什么概念?这和训练ChatGPT这种大语言模型的规模是同一个量级。但关键不是参数多,而是它在学什么。
刘先明说:
“自动驾驶本质上是物理AI问题。我们研发了一个720亿超大参数规模的世界基座模型。”
什么叫“物理AI”?它不是在学习“怎么开车”,而是在学习“物理世界怎么运转”。
它学的是:一个物体会怎么运动?
它学的是:如果我踩刹车,车会怎么减速?
它学的是:前面那个小孩如果跑过马路,会发生什么?
就像婴儿看世界一样,他不是在学习“怎么走路”,他是在学习“重力是怎么回事”、“我的身体怎么控制”。等他学会了物理世界,走路自然就会了。
最底层的是:这个模型不需要人工标注。
刘先明说:
“自监督成功的前提是能够以海量数据替代人工标注,从而把训练变成‘无限制地用数据’而不是受限于标注效率。”
意思是:不用人告诉它“这是车”、“这是路”。它自己从海量的驾驶视频里学,看多了,自然就知道什么是车、什么是路、什么是行人。就像你看了一万张猫的照片,不用人告诉你“这是猫”,你也知道什么是猫了。
训练数据有多大?相当于人类驾驶65000年才能遇到的所有场景。也就是说,这个模型见过的“驾驶经验”,比任何一个人类司机一辈子见过的都多得多。
---
五、模型是怎么装进车里的?——软硬一体
一个大问题来了:720亿参数的模型,怎么可能装进一辆车里?车里的芯片可没这么大算力。
这就是小鹏另一个底层的创新:模型和芯片一起设计。
传统做法是:先设计模型,然后找一个现成的芯片来跑。这就像你先设计了一双鞋,然后去店里找一双能穿的脚——不一定合脚。
小鹏的做法是:我设计了一双鞋,同时设计了一双脚。这双脚叫“图灵AI芯片”。
刘先明说:
“我们从模型到软件、到编译器再到芯片做联合优化:自行设计编译器以榨取芯片每一比特算力、优化网络结构与算子以适配量化。”
翻译:我们从最底层的芯片开始,一层一层往上,全部是针对这个模型定制的。芯片的电路是为了跑这个模型设计的,编译器(把模型指令翻译成芯片能懂的语言)是为这个模型写的,模型本身也是为这个芯片优化的。
结果就是:
一颗图灵芯片的有效算力,接近10颗英伟达Orin-X(Orin-X是目前主流的智驾芯片)
推理延迟从200ms压缩到80ms以内(这80ms就是模型从“看到”到“做出反应”的时间)
这就像F1赛车:发动机和底盘是一起设计的,而不是随便找个发动机塞进去。
---
六、为什么说它有“涌现能力”?——模型自己学会了没教过的事
这是大模型最神奇的地方,也是VLA 2.0最底层的价值:它能学会没有被明确训练过的事情。
什么叫“涌现”?就是当模型足够大、数据足够多的时候,它会突然“悟”出一些它没有被直接教过的东西。
刘先明举了一个例子:
“一些极限通过场景并非专门写死或单独强化训练出来,而是当数据量和模型到达临界点时自然表现出来的能力。”
翻译:有些场景,工程师并没有专门写代码去处理,也没有专门找数据去训练。但当模型学到一定程度,它自己就“会”了。
两个被反复验证的案例:
1. 救护车让行
“行车时遇到后面驶来救护车,第二代VLA准确识别,能像人类司机一样让出‘生命通道’。”
模型没有被教过“救护车来了要让行”这条规则。但它从海量的驾驶视频中,看到过无数辆车是怎么让行的。它“理解”了:后面那个闪灯的车需要快速通过,我应该让开。
2. 交警手势
“面对交警查酒驾时,第二代VLA停在交警边上让主驾司机吹气,当交警示意可以离开时,又很聪明地及时驶离。”
模型没有被教过“交警挥手是什么意思”。但它看过的视频里,交警挥手的场景出现了无数次。它“悟”出了:这个手势的意思是“你可以走了”。
这就是“理解物理世界”和“记住规则”的区别。
刘先明说:
“做不到感知物理世界,就没有真正的自动驾驶。”
而VLA 2.0的底层架构——连续信号输入、视觉思维链、世界基座模型——都是为了这一个目标:让模型真正理解物理世界,而不是记住一堆规则。
---
总结:五层架构,一个核心
我们把五层串起来:
第一层 连续化 vs 离散化 不再用乐高拼球体,而是直接感受水流
第二层 视觉思维链 脑子里不是自言自语,而是同时推演多条路径
第三层 世界基座模型 学的不是“怎么开车”,而是“物理世界怎么运转”
第四层 软硬一体 模型和芯片一起设计,就像鞋和脚一起长
第五层 涌现能力 自己学会没被教过的事,因为理解了世界
所有这些,最终指向一个底层逻辑:
不再用“离散的符号”去模拟“连续的世界”,而是用“连续的信号”去理解“连续的世界”。
这就是小鹏VLA 2.0最底层的创新。它不是对传统自动驾驶的改进,而是换了一条赛道:从“教AI开车”变成了“让AI理解世界,然后自己学会开车”。
暂无评论
