腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

综合排序丨最热优先丨最新优先

开创VLA的那帮人，正在抛弃VLA

在文中，作者直指目前具身智能领域流行的 VLA（视觉 - 语言 - 动作）模型趋势。作为 VLA 概念的共同开创者，他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义，因为在他们看来，过于在意工具的标签，反而会限制通往物理 AGI 的想象力。让我们看看他是怎么说的。在 Generalist，我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。事实上，我们正是 VLA 概念的共同开创者之一；自 2023 年起，我们便持续在机器人领域发表关于世界模型的研究成果，而我们在这一领域的实际探索与耕耘，更是早在数年前便已启动。在过去一年多的时间里，我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」（VLA）、「世界模型」（World Models），乃至更为前沿的探索方向。

2026-04-15

1430

标签:

常用VLA模型及特点对比

1 VLA技术路线目前主流的VLA模型主要基于三类核心技术路线，它们的根本差异在于如何处理机器人动作的生成：自回归路线将连续动作离散化为Token，再用类似处理文本的方式，从左到右逐个预测这些动作对现有VLA模型的高效推理加速。局限：是加速框架，非独立模型。 VLA-Pilot 理想汽车端到端融合专为自动驾驶设计，能像人类司机一样处理复杂路况。自动驾驶，非通用机器人场景。 X-VLA：跨本体泛化的高效代表清华和上海AI Lab提出的X-VLA仅0.9B参数，但通过流匹配+软提示技术，在不同机器人形态间展现出强大的零样本迁移能力。它们能对现有VLA模型进行高效加速，但对特定架构的适配性需要验证。 π系列、SmolVLA、X-VLA 三维空间理解 HoloBrain-0 全身/移动控制 GOVLA 力控友好型 π系列、X-VLA、SmolVLA 零样本能力 Goal-VLA、WALL-A 开源生态与易用性

2026-05-22

2750

标签:

VLA-OS：NUS邵林团队探究机器人VLA做任务推理的秘密

图 1 VLA-OS 整体概览一、疑云密布：VLA 模型在进行任务规划时到底该怎么做？图 2 展示了一些端到端的 VLA 代表性工作。图 2 一些端到端的 VLA 模型（ActionOnly-VLA）然而，目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。图 7 VLA-OS 可组合模块家族然后，我们针对三个 VLA 的任务规划范式，设计了可组合的 VLA-OS 模型家族，首次实现三大范式的公平对比。针对三种 VLA 范式（ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA），我们组合使用 VLA-OS 的标准模块，构建了对应的 VLA-OS 模型实现，如图所示发现 13：相比不含任务规划的范式（ActionOnly-VLA），包含任务规划的 VLA 范式（Integrated-VLA 与 Hierarchical-VLA）在前向迁移能力上更强，但遗忘速度也更快

2025-08-06

5840

标签:

浅析变长数组(VLA)和动态数组

1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组（variable-length array,简称VLA

2019-07-23

2.5K0

标签:

当前VLA模型的概述及解释

当前，VLA领域百花齐放，主要可以从技术架构、核心能力和应用场景三个维度来理解。 π0 (Pi0)、扩散VLA (dVLA) 强化学习路线将VLA模型与强化学习结合，通过与环境交互试错来优化策略，提升在未知环境中的适应力。 3D VLA系列 (Avi, GraphCoT-VLA)：尝试让模型直接基于3D点云或体素而非2D图像进行推理，以更精准地执行需要空间理解的任务。 VLA原理概述 VLA模型的核心，可以理解为一个从“感知”到“决策”再到“执行”的智能闭环，目标是让机器像人一样，通过“眼睛”（视觉）和“耳朵”（语言）来理解世界，并用“身体”（动作）去执行任务。 VLA模型代表了机器人向通用智能迈进的关键一步，其强大的泛化能力和理解能力使其在家庭服务、柔性制造、特种作业等领域拥有广阔前景，然而，当前VLA模型仍面临精度、效率、推理能力和数据效率等核心挑战。

2026-05-09

4280

标签:

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

OpenHelix以及LLaVA-VLA的研究团队。尽管相关技术取得了显著进展，但在实际部署中，尤其是在高频率和精细操作等任务中，VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接: https://arxiv.org/pdf/2506.13725 代码链接: https://github.com/OpenHelix-Team/CEED-VLA 图 1：不同解码方法加速效果对比 Method 图 2：CEED-VLA 模型架构示意图我们提出的框架首先通过预训练的 VLA 模型（例如 LLaVA-VLA和OpenVLA）进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高，机械臂动作更加顺畅，成功完成了灵巧操作任务。图 11：CEED-VLA 在真实世界中的实验结果。

2025-07-14

5190

标签:

VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化

从美国RT-2的开创性突破，到中国最新FiS-VLA「快慢双系统」，VLA正以光速硬核进化。 2025年，具身智能可真是太火了。近日，国内具身智能代表性创企——智平方，联合头部高校发布了一款全新的VLA模型——Fast-in-Slow（FiS-VLA）。放眼全球，VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界，并催生出了各具特色的技术分支。这不仅印证了VLA的巨大潜力，也预示着，它正在重塑智能机器人与人类交互的未来。或许你一定好奇，VLA为何成为了具身智能的「新范式」？ VLA超进化谷歌RT-2成关键节点若想破除这一疑问，前提是必须理解VLA模型的重要性。短短三年的时间，VLA技术完成了从实验室走向工业落地的华丽蜕变。随着GROOT N1、Helix、FiS-VLA等模型的部署，VLA将在人形机器人、智能制造等领域大放异彩。

2025-07-09

1.3K0

标签:

基于SmolVLA 实现快速VLA落地步骤

核心作用：为整个 VLA 生态系统提供了标准化的数据处理、模型训练和部署流程，是一个通用的“操作系统”。 4.5 亿参数的 VLA 模型。 conda create -n vla_env python=3.10 conda activate vla_env git clone https://github.com/huggingface/lerobot.git # server.py from vla import VLA model = VLA.load("your_finetuned_smolvla") model.serve_zmq("tcp://*:5555 其效果非常显著：能将VLA模型的推理速度提升超过1.5倍，同时任务成功率仅下降0.6%，几乎可以忽略不计。

2026-05-09

2750

标签:

VLA不同思路实践的效果及示例

核心方法：开源模型 + 高质量微调，行业实践证明，这是提升VLA模型在新场景下性能的黄金组合。高效的Sim2Real迁移是关键，相关技术如 Sim2Real-VLA 、已有突破。选定VLA微调框架：推荐从以下成熟的框架中选择： OpenVLA ：基于Llama 2，生态完善，社区活跃，是目前最流行的开源VLA框架之一，OpenVLA-OFT是其改进版本，提供了正交微调(OFT 第二步：数据采集 VLA模型对数据的数量和质量极其敏感，这一步是决定项目成败的核心。对于清洁这种接触任务，可以考虑引入一个传统PID控制器来处理力控，让VLA模型负责高层决策（如“沿着壁面移动”），形成混合控制架构，这样既能发挥VLA的智能，又能保证力控的精准稳定。

2026-05-09

2510

标签:

自动驾驶VLA的过去、现在和未来

VLA模型的理论框架形式化定义与核心组件从数学角度来看，VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑"，它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。端到端VLA架构深度解析端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。同时，VLA相关研究的快速推进和演化，也为VLA的量产落地提供了更清晰的技术实现路径。亟待解决的技术挑战实时性约束是VLA模型面临的首要工程挑战。结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA，自动驾驶系统经历了从简单反射到复杂推理的演进。

小陡坡香菜

2025-12-29

1.2K0

标签: