在近日于武汉光谷举办的聚合智能产业发展大会(2025)上,香港科技大学副教授、元戎启行客座教授陈启峰详细介绍了其在具身机器人、智驾方面如何用AI技术完成应用落地。他表示,Vision-Language-Action(视觉-语言-动作,简称“VLA”)模型,将视觉、语言和行为多模态信息整合,为实现机器人和车辆在复杂环境下的自主决策与动作执行奠定了技术基础。

香港科技大学副教授、元戎启行客座教授陈启峰
陈启峰指出,在具身智能方面,机器人通过图像、深度图、地图等多种传感器获取信息,并构建“大脑”和“小脑”系统,“小脑”负责控制层面,“大脑”负责行为规划与决策。“大脑”的核心技术之一便是VLA模型。
陈启峰提到,在ChatGPT出现之前,许多的研究大多局限于单一模态,不会把视觉、语言、行为这些模态考虑到一起使用。近两三年来,像视觉语言的模型VLM,到今天的VLA,越来越多的跨模态的模型出现改变了这一局面。
“在输入端我们会有视觉的输入,把多个摄像头看到的信息进行压缩,变成了视觉上的Token(词元)。然后截取一些有用的特征,尤其是摄像头一些视觉的特征,去把它转化成输入的Token。另外,对于用户偏好的信息、指令可以通过文本输入到VLA模型里面,这个模型会参考GPT的范式,输入的是一些Token,输出的也是Token。在这个里面输出会有行为的Token,主要是以一个轨迹的形式给出的,在一个文本的解码器会输出这个推理。”陈启峰这样介绍元戎启行VLA的大致范式。
陈启峰还介绍了另一项技术热点——“世界模型”,它是一个可交互的仿真器,可以让模型在里面自我学习。目前,可以从不同的角度去看构建出来的虚拟世界,去得到一个类似于4D的世界模型。
他认为,VLA模型关注的更多是多模态的训练,包括视觉、语言、行为综合的训练,世界模型更多关注于重塑一个可交互的世界场景,它可以用于数据生成,也可以在里面进行训练,做强化学习,两者呈现一种互补的关系。
对比具身智能和智驾,陈启峰表示,尽管具身智能在机器人方面的硬件本体发展相对成熟,但由于智驾方面可以用更多的算力,还有更多的数据,电池也更加大,所以在模型发展方面,智驾会更领先一步。
“语言方面,我认为长期来看语言也是非常需要的,比如说有一个机器人如果它没有语言的话,它就是像一个‘哑巴’,虽然它可能可以做很多事情,但很难去跟人互动。在智驾里面有语言也是类似的,通过语言可以更好地去跟司机或者乘客去互动。”陈启峰说。
通过多个实车演示场景,陈启峰展示VLA系统如何处理无信号灯路口、临时停车、积水路段等多种复杂状况。系统不仅能做出减速等决策,还可以通过VLA去进行语音控车。
陈启峰强调,VLA相当于一个“透视眼”,由于其具有空间语义的理解、障碍物识别、文字识别,还有语音控车等特点。就传统感知看不到的地方,可以让它去注意这些盲区,利用这些信息去辅助驾驶的决策。(李子莘)

