让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。
为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统 VLA 模型。
它通过将慢系统 2 最后几层的 Transformer 模块重新构建为一个高效的执行模块,用作快系统 1,从而在一个模型中实现了快慢系统融合。
这种创新范式首次在单一预训练模型内实现慢速推理与快速执行的协同,突破了传统双系统分离瓶颈。
从此,系统 1 不再是"门外汉",它直接继承了 VLM 的预训练知识,能无缝理解系统 2 的"思考结果"(中间层特征),同时自身设计保证其能高速运行。
在真机测试中,研究团队在 AgileX 和 AlphaBot 两个双臂机器人平台上分别设计了 8 项任务,如"擦黑板"、"倒水"、"折叠毛巾"等。FiS-VLA 成功率分别达到 68% 和 74%,比 Pi0 模型提升超过 10 个百分点。
此外,FiS-VLA 在泛化任务中表现也十分稳健。无论是未见过的新物体、复杂背景干扰,还是光照条件变化,它都能保持 50% 以上的成功率,而其他模型则普遍出现性能大幅下滑。
方法:首个" 异构输入 + 异步频率"双系统 VLA 模型
尽管近年来的视觉 - 语言 - 动作模型(VLA)开始借助互联网规模预训练的视觉 - 语言模型(VLMs)提升常识推理能力,但这类模型动辄数十亿参数,以及基于自回归生成动作的策略,导致在执行速度上往往表现不佳。
受心理学家丹尼尔•卡尼曼大脑快慢双系统理论的启发,业界把"双系统"设计引入 VLA 大模型,利用基于 VLM 的慢系统 2 模块处理高级推理,并使用独立的快系统 1 动作模块负责实时控制。
但是,现有的设计是将两个系统保持为独立模块,限制了快系统 1 充分利用慢系统 2 的丰富预训练知识,即系统 1 这个"运动员"很难充分吸收系统 2 "学霸"的渊博知识。
团队提出的Fast-in-Slow(FiS-VLA),实现了在一个模型中快慢系统融合。
考虑到 FiS-VLA 中两个系统在角色上的根本差异,研究者引入异构模态输入与异步运行频率策略,使得模型既能实现快速反应,也具备精细操控能力。
此外,为提升两个系统之间的协调性,研究者提出了一种双系统感知协同训练策略(dual-aware co-training strategy):一方面为系统 1 注入动作生成能力,另一方面保留系统 2 的上下文推理能力。
这样就有效解决了传统 VLA 模型执行频率低、推理与动作割裂的问题,真正做到"谋动并行"。
在模型评估中,相比于现有的 SOTA VLA 方法,FiS-VLA 在仿真任务中提升了 8% 的平均成功率,在真实环境下提升了 11%,并实现了 117.7 Hz 的控制频率(动作块大小为 8)。
由于系统 2 与系统 1 在职责上存在根本差异:系统 2 负责理解,它处理语言指令和 2D 图像,提取任务语义,节奏偏慢;系统 1 负责执行,它读取机器人状态、3D 点云和当前图像,生成高频控制动作,节奏极快。
因此,FiS-VLA 对这两个系统进行了专门设计:它们接收不同模态的输入,并以异步的频率运行。
两套系统虽任务不同,但运行逻辑连贯、数据互通。系统 1 使用系统 2 的中间语义表示作为指导,同时结合自身输入,实现高速精准的动作生成。
为了处理点云数据,研究者设计了一个轻量级的 3D tokenizer。它可以把复杂的空间信息压缩成高维 token,并通过视觉编码器提取局部几何特征。这一做法不仅高效,还让系统 1 拥有敏锐的空间感知能力。
在系统运行节奏上,FiS-VLA 采用异步频率设计。系统 2 慢慢思考,系统 1 快快执行。比如系统 2 每跑一次,系统 1 可以连续运行 4 次。这种机制让推理不会成为瓶颈,而动作响应也足够及时。
值得一提的是,快慢双系统融合正在成为 VLA 大模型领域的共识,但在异步架构的突破设计上,FiS-VLA 目前仍是领跑同行。
训练:"双系统"协同训练,相辅相成
训练过程也很有讲究。
FiS-VLA 的核心目标是生成精确且可执行的动作,因此特地采用了"双系统感知协同训练"策略:
对于执行模块(系统 1)使用了扩散建模(diffusion modeling)中概率性与连续性的特点,通过向系统 1 的嵌入空间注入带噪动作作为潜在变量,来学习动作生成,具体如下:
给定初始动作序列 ãτ,研究者在随机时间步 τ ∼ U ( 1, T ) (其中 τ ∈ Z,T = 100)注入高斯噪声 η ∼ N ( 0, I ) 。前向过程以闭式添加噪声:
其中 βτ 为预定义调度表的噪声缩放因子。为训练系统 1(π _{ θ _f}),将学习过程建模为以下目标的优化问题:
其中 c 表示条件源,包含系统 2 提取的低频潜在特征和系统 1 的高频输入。由于系统 1 执行模块嵌入在系统 2 的 VLM 中,若仅针对扩散动作生成训练模型,可能导致其自回归推理能力灾难性遗忘。
因此,研究者提出联合训练目标,对于推理模块(系统 2)保留其高维推理能力,采用自回归逐 token 预测的范式作为训练目标,生成离散的语言或动作,避免慢系统发生灾难性遗忘。
以离散动作为例:
其中 D_t 为离散动作词元总长度,â _i 为第 i 个真实动作词元,P ( â _i | context, θ ) 为 LLM 在输入上下文和参数 θ(θ _f ⊆ θ)下的预测概率。最终整体训练目标为:
从上面可以看出,两个系统的目标不同,但训练是同步进行的。系统 1 学"怎么动",系统 2 学"想清楚再动"。这种策略避免了模型遗忘系统 2 的推理能力,也让两个系统在统一模型中共同优化。
此外,在预训练阶段,研究者用到了超过 86 万条机器人任务轨迹,涵盖多个机器人平台。FiS-VLA 主干采用的是参数量 7B 的 LLaMA2 大语言模型,视觉部分采用了 SigLIP 和 DINOv2 编码器,兼顾语义和空间表达。
效果:仿真 & 真机成功率提升显著
在 RLBench 仿真任务中,FiS-VLA 在 10 个任务上取得了 69% 的平均成功率,明显优于 CogACT(61%)和 Pi0(55%)。尤其值得注意的是,FiS-VLA 在 10 个任务中有 8 个任务表现优越,突显了其在动作生成方面的鲁棒性。
同时,在控制频率方面,FiS-VLA 在动作块大小设为 1 的情况下达到了 21.9 Hz 的控制频率,运行速度是 CogACT(9.8 Hz)的 2 倍以上,也比 Pi0(13.8 Hz)快超过 1.6 倍。
消融实验
为了更细致地验证模型设计,研究者进行了多轮消融实验。
首先测试了系统 1 在系统 2 中共享的 Transformer 块数量。结果显示,随着共享块数量的增加,操控性能逐步提升,并在使用两个块时趋于饱和。
然后考察系统 1 的输入模态。实验表明,机器人状态、2D 图像、3D 点云缺一不可。尤其是 3D 点云,在精细动作控制中发挥了关键作用。
他们还研究了系统运行频率的配比。系统 2 与系统 1 之间的异步运行频率比为 1:4 时,FiS-VLA 取得了最佳性能,在慢速推理与快速动作生成之间达到了理想平衡。这验证了异步协调频率设计不仅提升了动作生成速率,同时也增加了传递给执行模块的观察信息的丰富度。
为了进一步提升控制效率,FiS-VLA 还引入了"动作分块"机制。即每次预测多个连续动作,而不是逐步推理。这样做能降低误差积累风险,同时提升动作连续性。
结果表明,在动作块设置为 8 的情况下,模型成功率保持稳定,而控制频率则飙升至 117.7Hz。机器人行为更加流畅,决策更少、执行更稳。
泛化能力
更难得的是,FiS-VLA 在泛化任务中表现依旧稳健。无论是未见过的新物体、复杂背景干扰,还是光照条件变化,它都能保持 50% 以上的成功率。而其他模型则普遍出现性能大幅下滑。
这背后正是快慢系统融合带来的好处:系统 2 能够理解语义,找到任务核心;系统 1 能够根据感知迅速反应。二者结合,使模型具备强泛化能力与鲁棒性。
目前 FiS-VLA 的结构仍是静态配置:Transformer 共享层数、系统频率比都需提前设定。研究者计划在未来探索动态调参机制,让模型能根据任务复杂度和环境自动调整运行策略。
这种自适应机制将进一步释放 FiS-VLA 的潜力,让它更接近通用智能机器人的核心大脑。
总结来看,FiS-VLA 不是对已有模型的简单优化,而是一种全新的架构思路。它打通了思考与行动、语义与物理、计划与执行之间的壁垒。
它不仅让机器人"会想",更让它"快动";不仅理解复杂任务,还能高频率完成。
这或许就是未来通用智能机器人的基础形态——既有认知大脑,又有灵巧身体,统一于同一个神经系统中。
论文链接 : https://arxiv.org/pdf/2506.01953
项目主页 : https://fast-in-slow.github.io/
代码链接 :
https://github.com/CHEN-H01/Fast-in-Slow
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
出彩速配-配资股票-配资平台排名一览表-普通人怎么加杠杆买股票提示:文章来自网络,不代表本站观点。