1

Revisiting Aliasing in GAN Vocoders: Improving Intermediate Feature Representations

Jianzong Wang, Zitong Li, Xiaoyang Qu, Kang Wei, Xulong Zhang

DIVA: Harnessing the Representation Divergence in Unified Multimodal Models for Mutual Reinforcement

Unified Multimodal models (UMMs) built on a single architecture have shown impressive performance in both understanding and generation. …

Renjie Lu, Xulong Zhang, Xiaoyang Qu, Shangfei Wang, Jianzong Wang

From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration

High-resolution Multimodal Large Language Models (MLLMs) face prohibitive computational costs during inference due to the explosion of …

Jiaqi Shi, Xulong Zhang, Yuechan Li, Xiaoyang Qu, Jianzong Wang

VLA-InfoEntropy: A Training-Free Vision-Attention Information Entropy Approach for Vision-Language-Action Models Inference Acceleration and Success

Chuhang Liu, Yayun He, Zuheng Kang, Xiaoyang Qu, Jianzong Wang

Evolvable Embodied Agent for Robotic Manipulation via Long Short-Term Reflection and Optimization

Achieving general-purpose robotics requires empowering robots to adapt and evolve based on their environment and feedback. Traditional …

Jianzong Wang, Botao Zhao, Yayun He, Junqing Peng, Xulong Zhang

Evolvable Embodied Agent for Robotic Manipulation via Long Short-Term Reflection and Optimization

Confusion-Aware In-Context-Learning for Vision-Language Models in Robotic Manipulation

Vision-language models (VLMs) have significantly improved the generalization capabilities of robotic manipulation. However, VLM-based …

Yayun He, Zuheng Kang, Botao Zhao, Zhouyin Wu, Junqing Peng, Jianzong Wang

Confusion-Aware In-Context-Learning for Vision-Language Models in Robotic Manipulation

Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition

The emergence of Large Audio-Language Models (LALMs) has advanced Speech Emotion Recognition (SER), but their size limits deployment in …

Qingran Yang, Botao Zhao, Zuheng Kang, Xue Li, Yayun He, Chuhang Liu, Xulong Zhang, Xiaoyang Qu, Junqing Peng, Jianzong Wang

CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control

Recent advances in Vision-Language-Action (VLA) models have shown promise for robot control, but their dependence on action supervision …

Jiaqi Shi, Xulong Zhang, Xiaoyang Qu, Jianzong Wang

CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA Models

While vision-language-action (VLA) models for embodied agents integrate perception, reasoning, and control, they remain constrained by …

Wentao Zhang, Aolan Sun, Wentao Mo, Xiaoyang Qu, Yuxin Zheng, Jianzong Wang

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA Models

Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage

Multimodal Large Language Models (MLLMs) show strong performance in Visual Question Answering (VQA) but remain limited in fine-grained …

Junfei Xie, Peng Pan, Xulong Zhang

Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage