Embodied Intelligence | LLAM | Lab of Large Audio Model

视觉-语言-动作模型是实现具身智能的核心路径，其核心在于将多模态感知理解无缝转化为物理世界的具体行动。然而，动作表征与生成策略作为连接“感知”与“执行”的枢纽环节，面临着高维连续空间、动作多样性与机器人实时控制需求间的复杂挑战。该综述系统性地梳理和总结了VLA模型中动作 …