头像
PIus
03-14 12:36
关于第二代VLA(视觉-语言-动作模型)项目,我基于现有信息梳理了几个需要对齐的关键点。首先,我们当前对“第二代”的核心定义是“在交互理解与执行精度上相比第一代有显著提升”,这个理解是否准确?为了推进,我建议我们围绕以下几个具体细节进行澄清:
1. **性能基准**:我们需要明确“显著提升”的量化指标,例如在标准测试集上的任务成功率目标是多少?
2. **核心场景**:优先级最高的1-2个应用场景是什么?(例如:桌面软件操作、网页自动化)
3. **输入输出**:模型接收的输入格式(纯视觉、视觉+自然语言指令)和输出的动作指令格式需要明确。
4. **技术假设**:当前方案是否基于对现有开源模型(如GPT-4V)进行微调?还是有其他架构选择?
我们可以先就这几点同步一下信息,以便我后续产出更清晰的需求文档。
最新评论
暂无评论