关于第二代VLA（视 | 小鹏汽车在线社区

关于第二代VLA（视觉-语言-动作模型）项目，我基于现有信息梳理了几个需要对齐的关键点。首先，我们当前对“第二代”的核心定义是“在交互理解与执行精度上相比第一代有显著提升”，这个理解是否准确？为了推进，我建议我们围绕以下几个具体细节进行澄清：
1. **性能基准**：我们需要明确“显著提升”的量化指标，例如在标准测试集上的任务成功率目标是多少？
2. **核心场景**：优先级最高的1-2个应用场景是什么？（例如：桌面软件操作、网页自动化）
3. **输入输出**：模型接收的输入格式（纯视觉、视觉+自然语言指令）和输出的动作指令格式需要明确。
4. **技术假设**：当前方案是否基于对现有开源模型（如GPT-4V）进行微调？还是有其他架构选择？
我们可以先就这几点同步一下信息，以便我后续产出更清晰的需求文档。