首页
学习
活动
专区
圈层
工具
发布
综合排序最热优先最新优先
时间不限
开创VLA的那帮人,正在抛弃VLA
在文中,作者直指目前具身智能领域流行的 VLA(视觉 - 语言 - 动作)模型趋势。 作为 VLA 概念的共同开创者,他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义,因为在他们看来,过于在意工具的标签,反而会限制通往物理 AGI 的想象力。 让我们看看他是怎么说的。 在 Generalist,我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。 事实上,我们正是 VLA 概念的共同开创者之一;自 2023 年起,我们便持续在机器人领域发表关于世界模型的研究成果,而我们在这一领域的实际探索与耕耘,更是早在数年前便已启动。 在过去一年多的时间里,我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」(VLA)、「世界模型」(World Models),乃至更为前沿的探索方向。
Amusi
2026-04-15
1430
标签:
常用VLA模型及特点对比
1 VLA技术路线 目前主流的VLA模型主要基于三类核心技术路线,它们的根本差异在于如何处理机器人动作的生成: 自回归路线 将连续动作离散化为Token,再用类似处理文本的方式,从左到右逐个预测这些动作 对现有VLA模型的高效推理加速。局限:是加速框架,非独立模型。 VLA-Pilot 理想汽车 端到端融合 专为自动驾驶设计,能像人类司机一样处理复杂路况。 自动驾驶,非通用机器人场景。 X-VLA:跨本体泛化的高效代表 清华和上海AI Lab提出的X-VLA仅0.9B参数,但通过 流匹配+软提示 技术,在不同机器人形态间展现出强大的零样本迁移能力。 它们能对现有VLA模型进行高效加速,但对特定架构的适配性需要验证。 π系列、SmolVLA、X-VLA 三维空间理解 HoloBrain-0 全身/移动控制 GOVLA 力控友好型 π系列、X-VLA、SmolVLA 零样本能力 Goal-VLA、WALL-A 开源生态与易用性
索旭东
2026-05-22
2750
标签:
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
图 1 VLA-OS 整体概览 一、疑云密布:VLA 模型在进行任务规划时到底该怎么做? 图 2 展示了一些端到端的 VLA 代表性工作。 图 2 一些端到端的 VLA 模型(ActionOnly-VLA) 然而,目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。 图 7 VLA-OS 可组合模块家族 然后,我们针对三个 VLA 的任务规划范式,设计了可组合的 VLA-OS 模型家族,首次实现三大范式的公平对比。 针对三种 VLA 范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我们组合使用 VLA-OS 的标准模块,构建了对应的 VLA-OS 模型实现,如图所示 发现 13:相比不含任务规划的范式(ActionOnly-VLA),包含任务规划的 VLA 范式(Integrated-VLA 与 Hierarchical-VLA)在前向迁移能力上更强,但遗忘速度也更快
机器之心
2025-08-06
5840
标签:
浅析变长数组(VLA)和动态数组
1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组(variable-length array,简称VLA
休辞醉倒
2019-07-23
2.5K0
标签:
当前VLA模型的概述及解释
当前,VLA领域百花齐放,主要可以从 技术架构、核心能力和应用场景 三个维度来理解。 π0 (Pi0)、扩散VLA (dVLA) 强化学习路线 将VLA模型与强化学习结合,通过与环境交互试错来优化策略,提升在未知环境中的适应力。 3D VLA系列 (Avi, GraphCoT-VLA):尝试让模型直接基于3D点云或体素而非2D图像进行推理,以更精准地执行需要空间理解的任务。 VLA原理概述 VLA模型的核心,可以理解为一个从“感知”到“决策”再到“执行”的智能闭环,目标是让机器像人一样,通过“眼睛”(视觉)和“耳朵”(语言)来理解世界,并用“身体”(动作)去执行任务。 VLA模型代表了机器人向通用智能迈进的关键一步,其强大的泛化能力和理解能力使其在家庭服务、柔性制造、特种作业等领域拥有广阔前景,然而,当前VLA模型仍面临 精度、效率、推理能力和数据效率 等核心挑战。
索旭东
2026-05-09
4280
标签:
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
OpenHelix以及LLaVA-VLA的研究团队。 尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接:  https://arxiv.org/pdf/2506.13725 代码链接:  https://github.com/OpenHelix-Team/CEED-VLA 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。  
机器之心
2025-07-14
5190
标签:
VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化
从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。 放眼全球,VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界,并催生出了各具特色的技术分支。 这不仅印证了VLA的巨大潜力,也预示着,它正在重塑智能机器人与人类交互的未来。 或许你一定好奇,VLA为何成为了具身智能的「新范式」? VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 短短三年的时间,VLA技术完成了从实验室走向工业落地的华丽蜕变。 随着GROOT N1、Helix、FiS-VLA等模型的部署,VLA将在人形机器人、智能制造等领域大放异彩。
新智元
2025-07-09
1.3K0
标签:
基于SmolVLA 实现快速VLA落地步骤
核心作用:为整个 VLA 生态系统提供了标准化的数据处理、模型训练和部署流程,是一个通用的“操作系统”。 4.5 亿参数的 VLA 模型。 conda create -n vla_env python=3.10 conda activate vla_env git clone https://github.com/huggingface/lerobot.git # server.py from vla import VLA model = VLA.load("your_finetuned_smolvla") model.serve_zmq("tcp://*:5555 其效果非常显著:能将VLA模型的推理速度提升超过1.5倍,同时任务成功率仅下降0.6%,几乎可以忽略不计。
索旭东
2026-05-09
2750
标签:
VLA不同思路实践的效果及示例
核心方法 :开源模型 + 高质量微调,行业实践证明,这是提升VLA模型在新场景下性能的黄金组合。 高效的Sim2Real迁移是关键,相关技术如 Sim2Real-VLA 、已有突破。 选定VLA微调框架 :推荐从以下成熟的框架中选择: OpenVLA :基于Llama 2,生态完善,社区活跃,是目前最流行的开源VLA框架之一,OpenVLA-OFT是其改进版本,提供了正交微调(OFT 第二步:数据采集 VLA模型对数据的数量和质量极其敏感,这一步是决定项目成败的核心。 对于清洁这种接触任务,可以考虑引入一个 传统PID控制器 来处理力控,让VLA模型负责高层决策(如“沿着壁面移动”),形成混合控制架构,这样既能发挥VLA的智能,又能保证力控的精准稳定。
索旭东
2026-05-09
2510
标签:
自动驾驶VLA的过去、现在和未来
VLA模型的理论框架 形式化定义与核心组件 从数学角度来看,VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑",它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。 端到端VLA架构深度解析 端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。 同时,VLA相关研究的快速推进和演化,也为VLA的量产落地提供了更清晰的技术实现路径。 亟待解决的技术挑战 实时性约束是VLA模型面临的首要工程挑战。 结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA,自动驾驶系统经历了从简单反射到复杂推理的演进。
小陡坡香菜
2025-12-29
1.2K0
标签:
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档