23年12月来自香港中文大学、商汤科技、InnoHK 感知交互智能中心、多伦多大学和上海AI实验室的论文“LMDrive: Closed-Loop End-to-End Driving with Large Language Models“。
尽管自动驾驶领域最近取得了重大进展,但当遇到长尾不可预见事件和具有挑战性的城市场景时,现代方法仍然很困难,可能会发生严重事故。一方面,大语言模型(LLM)显示出眩目的推理能力,接近“通用人工智能”。另一方面,以前的自动驾驶方法往往依赖于有限的格式输入(例如传感器数据和导航路线点),限制了车辆理解语言信息和与人类互动的能力。为此,本文介绍LMDrive,一种语言引导、端到端的闭环自动驾驶框架。LMDrive处理并集成多模态传感器数据与自然语言指令,在现实指令设置中与人类和导航软件进行交互。方便基于语言的闭环自动驾驶的进一步研究,作者公开发布相应的数据集,包括大约64K的指令跟从数据片段,以及LangAuto基准,其测试系统处理复杂指令和具有挑战性驾驶场景的能力。
如图就是以语言为导向的闭环端到端驱动框架LMDrive。LMDrive以语言指令和多模态多视图传感器数据为输入,实时输出控制信号,在复杂场景下进行驾驶。
自动驾驶车(AV)的智能系统可分为两种主要方法:1)模块化方法,将系统分解为感知、预测和规划等几个子模块,并设计固定接口将它们集成在一起[2,23];以及2)通过神经网络将传感器数据直接转换为控制信号的端到端方法[16,35]。虽然这两种方法都被广泛采用,并在具有挑战性的基准上不断取得突破,但它们都有一个共同的局限性,即它们只依赖于固定格式的输入,如传感器数据、目标航路点和动作命令,这限制了智体理解多模态信息以及与人类和环境交互的能力。
这项工作试图回答这个问题:“能否在LLM之上构建认知自动驾驶系统,仅通过自然语言即可与人类乘客或导航软件进行交互?”
实际上期待LLM解决许多以前不简单的问题。举几个例子:1)在长尾不可预见事件和具有挑战性的城市情况下(如复杂密集的十字路口),现代AV系统通常会遇到困难[41],甚至会发生严重事故[37],只要遵循乘客或导航软件的导航指令,语言-觉察的AV可以很容易地生存下来。2) AV可以简单地通过自然语言来适应乘客的突然通知(例如,感知系统很容易错过的小目标),以前这需要大量手工制定的规则。
许多开创性的工作已经探索了使用大语言模型来增强AV系统在开环环境中的推理能力、可解释性和整体性能的潜力。最常见的策略[6,11,28,32]是:1)首先用LLM将场景感知结果和导航命令转换为文本描述;2) 将这些文本描述输入LLM以生成文本驾驶决策;然后3)将文本驾驶决策转换为可执行的控制命令。但这种类型的方法,即不同的LLM单独处理子任务,很难以端到端的方式进行训练,失去了利用大量数据进行扩展的能力,并且对感知错误和不确定性不强。例如,由于后两个阶段中的LLM不能访问传感器数据,因此第一阶段中的不准确或检测遗漏可能导致后两个步骤中大的累积误差。
为了解决这些问题,已经提出了端到端的基于语言的驾驶方法[46]。然而,都是在开环环境中进行训练和评估,其中生成动作并采用专家动作评估,但不在实际环境中执行。值得注意的是,当执行诸如“右转”之类的导航指令时,AV智体不仅应该生成一系列动作,还应该考虑这些动作给环境带来的变化。缺乏闭环评估导致对累积误差、人机交互和动作的时间一致性等关键问题考虑不足,难以在短时间范围内扩展,在实际系统中无效。
本文工作的目
发布评论