基于强化学习的个性化变道决策
本文提出一种基于强化学习的个性化自主性变道启动方法,通过用户反馈而非人类驾驶示范来训练完全自动驾驶车辆的变道策略。该方法在多维交通情境下建模,实验结果显示定制化模型准确率达86.1%,显著优于非定制化模型的75.7%,验证了其在提升用户接受度方面的有效性。
学习个性化自主性变道启动用于完全自动驾驶的强化学习方法
摘要
本文中,作者提出了一种新方法,通过人机交互学习完全自动驾驶车辆的个性化自主性变道发起策略。该方法并未从人类驾驶示范中学习,而是采用强化学习技术,根据交通上下文、自动驾驶车辆的动作以及车内用户的反馈来学习如何发起变道。所提出的离线算法在用户给出正面反馈时奖励动作选择策略,在负面反馈时进行惩罚。同时,考虑了多维度驾驶场景,以体现更真实的变道权衡。结果表明,通过该方法获得的变道起始模型能够复现个人的变道策略,且定制化模型的性能(平均准确率 86.1%)明显优于非定制化模型(平均准确率75.7%)。该方法使得在没有人类驾驶经验的情况下,仍可在完全自动驾驶过程中持续提升对用户的个性化定制水平,从而显著提高用户对高级别自动驾驶车辆的接受度。
关键词 ——自动驾驶,变道启动,个性化模型,强化学习,人机界面
一、引言
预计在未来十年内,自动驾驶车辆将变得普遍,有望减少因人为错误导致的道路交通事故死亡人数,并提高车内工作效率。除此之外,人们对自动驾驶过程中的用户体验提出了更高的要求。许多研究表明,驾驶风格因人而异[1]。一个出色的以人为本的自动驾驶系统应提供安全、可靠且适应用户个性化的驾驶体验。
在如图1所示的自动驾驶系统中,决策与规划模块[2]充当“大脑”,接收并分析来自感知模块的信息,并向执行器发出决策指令。顺序规划或分层控制被广泛用作工具为自动驾驶车辆构建决策模块。三级层级结构是一种被广泛接受的用于描述人类驾驶员分层决策的结构,该结构最早在1985[3]中提出,并已被许多先前的研究用于驾驶员建模[4]5。这三个层级分别是战略层、战术层和操作层,其内容总结于表I。战略层关注长期或大规模的决策,例如路线规划和模式选择。战术控制是指规划特定操作以实现短期目标,例如通过与其他道路用户和基础设施的交互,决定是跟随还是超越前方车辆。操作层涵盖直接的车辆控制操作,如转向和换挡。上层不仅在时间尺度上包含下层,还对下层产生影响。一些研究分别对这些层级进行建模,在这种情况下,上层的输出即为下层的输入。

表I. 驾驶的分层控制
| 控制层级 | 层级 | 时间尺度 | 示例 |
|---|---|---|---|
| 战略级 | 1 | 长期 (分钟/小时) | 路线规划;模式选择; |
| 战术级 | 2 | 短期 (秒) | 转弯、变道 停车; |
| 操作的 | 3 | 关键的 (数百毫秒) | 转向、踩踏板和换挡; |
A. 变道决策是道路上最频繁的驾驶行为之一。10%的高速公路事故发生在变道过程中[6]。以往大多数对变道行为建模的研究主要集中于操作层,旨在生成舒适且高效的变道轨迹[4]7。例如,在已做出变道决策的情况下,如何生成变道轨迹并执行该轨迹。而战术行为规划并未像操作层驾驶那样受到广泛关注[8]。战术变道决策更关注变道的决策问题,即在何时、何地发起变道,这在时间和顺序上先于操作层的变道控制。关于如何生成战术决策的问题,答案往往是随意且主观的。大多数研究人员将变道视为一种碰撞避免的替代手段,即由于紧急情况(如可能与前车发生碰撞)而被迫进行变道。然而,大多数变道实际上是驾驶员在与其他道路使用者交互过程中出于自身意愿自然发起的。前者被称为强制性变道,后者则称为自主性变道[9]。
变道决策模型通常可分为物理模型和统计模型。物理模型是过程驱动的,其数学规律和过程是预先定义的。在[10]和11,中,作者使用物理模型分别确定了优化节省时间和节省能耗条件的参数化轨迹。然而,物理模型无法应对意外或未考虑的情况,有时需要大量人工调参。统计模型是一种数据驱动模型,该模型基于数据进行估计,而无需明确了解系统的物理行为。在[12]13,中,轨迹通过机器学习技术从真实驾驶数据中学习得到。统计方法正成为一种新兴趋势,因为它不仅能利用大数据智能地学习某些规则,还能应对多样化的实际驾驶情况和各种个性化需求。在用户自适应建模方面,基于学习的方法比过程驱动方法更易于实现。
B. 相关研究
有两项研究基于驾驶员示范对自主性变道发起进行建模[14]15。在14,中,作者将这种自主性变道描述为当车辆接近前车且前车速度低于自身速度时的情形。他们提出了一种自动驾驶变道启动与控制结构,该结构融合了战术和操作层面。在战术决策方面,他们使用支持向量机(一种监督学习算法)来判断是继续保持车道还是启动变道,该分类器通过实际人类驾驶员示范的数据进行训练。在[15],中,变道行为被分解为纵向位置调整、用于启动变道的间隙接受以及变道操作。作者使用线性回归(同样是一种监督学习算法)从三名受试者数据中构建个性化模型。
在研究[14]15,中,个性化的变道策略是通过学习人类驾驶员自主变道的演示获得的,该方法依赖于称为监督学习(SL)在机器学习中。直观地说,这种方法意味着人类驾驶员通过自身的正确示范来教会“机器”如何发起变道,换句话说,“机器”直接从正确答案中学习策略。然而,对于完全自动驾驶汽车而言,克隆人类驾驶行为可能过于随意且有时难以实现。首先,在完全自动驾驶车辆中,技术上并不存在驾驶员,因此智能体无法从个人以往的驾驶经验中学习“驾驶员模型”。此外,人类驾驶车辆的行为具有一些内在特性,这些特性与自动驾驶汽车的行为不同。例如,人类的认知过程在感知与执行之间导致了延迟(有时称为反应时间),驾驶员在跟车任务中的行为(如间距保持)基于其认知特性。而作为人类认知过程的对应,自动驾驶汽车的决策过程依赖于基于计算机的架构,这意味着不存在人类认知延迟。如果我们在自动驾驶系统中引入人类驾驶时发生的这种认知延迟,可能会牺牲系统的效率。总体而言,提升完全自动驾驶系统的个性化水平仍然具有迫切需求,因此对于完全自动驾驶车辆而言,有必要采用无需直接人类驾驶示范的个性化建模方法。
本研究中,我们采用强化学习(RL)来提供一种实现自动驾驶自主性变道发起个性化的替代方案。在此方法中,学习代理通过试错游戏学习某种策略,其中车内用户对其行为给出反馈作为奖励,学习代理则从错误中学习。据我们所知,该方法此前从未被用于获得个性化变道起始模型。
C. 目的
在许多情况下,找到合适的变道启动时机始终是一种权衡。变道启动不仅取决于上下文线索(例如其他道路使用者的运动学、基础设施),还依赖于先前的重要决策(即高层级决策)。本研究考虑了高速公路中的一种自主性变道情况:当用户车辆需要以较高速度自动驾驶时,前方出现一辆较慢的前车阻碍其行驶。这种情况可通过三层层次层级结构进行良好解释,其中用户车辆的战略决策处于省时模式(即以较高速度行驶,以最小化到达目的地的总时间消耗),从而限制了相应的战术推理。我们提出了一种在此情况下判断保持车道或变道的决策逻辑,如图2所示。
除非满足特定条件,否则将启动变道。除此之外,车辆将继续保持车道,并持续测量与前车之间的距离。为确保安全,设置了阈值。如果车距小于或等于该阈值,车辆将与前车保持安全距离以避免碰撞。该阈值基于中性驾驶员的期望车头时距,并结合个性化因素确定—跟车驾驶员模型[16]。在以80公里/小时的速度驾驶的情况下,阈值计算为40米。

我们假设每位用户都有其自身可接受的变道条件。因此,本研究的任务是在完全自动驾驶情况下,从不同个体中学习个性化的“条件”,并验证我们的假设。定制化模型应能在一定程度上表征个人的意图。变道起始模型对用户实际意图的还原程度越高,用户接受度就越高。
基于对相关研究的讨论,本文并未采用直接学习人类驾驶数据的监督学习技术,而是利用强化学习技术来复现个人可接受的变道发起条件。我们借助基于键盘的人机界面,在完全自动驾驶情境下直接获取车内用户的反馈信息。同时,我们在自主变道情境中考虑了多维情境因素。该解决方案更适用于面向人类需求的完全自动驾驶系统的改进,更具适用性和现实性。
本研究的目的如下:(1)提出一种基于强化学习的方法,结合多维驾驶上下文,推导个性化的变道启动战术决策模型;(2)通过模拟驾驶实验验证该方法。本文结构如下:第二节阐述强化学习问题的正式定义及所提出的算法;第三节描述在模拟自动驾驶实验中用于训练和测试模型的数据采集过程;第四节给出并讨论实验结果;第五节对本研究进行总结。
II. 方法
强化学习(RL)是机器学习(ML)的一种范式,涉及智能体通过与动态环境的试错交互来学习某种行为[17]。在强化学习中,智能体并不直接从行为的明确示例中学习,而是通过探索环境,并在一个重复博弈中根据环境给予的奖励或惩罚来更新其知识。在标准RL问题中,每次试验时,智能体在给定状态下选择一个动作,并因其行为获得奖励。此外,其行为将影响它在下一次试验中转移至的状态。
K个臂的上下文赌博机(CB)问题是强化学习问题的一种扩展,其中“上下文”指的是状态,而赌博机可拉动的k个臂表示k个可选动作。基本上,在每次上下文赌博机问题的试验中,会在特定上下文中选择一个臂进行拉动,并因此获得一个奖励。与强化学习问题不同的是,前一次试验中拉动的臂不会导致下一次试验进入某个特定状态,也就是说不存在状态转移。请注意,上下文赌博机问题中的术语和符号与强化学习中的不同。在本部分中,我们采用赌博机问题领域的表达方式来定义和构建我们的目标问题及算法。
A. 问题表述
在本研究中,从一系列交通状况下的人类反馈中离线学习自主变道决策可被建模为一个离线上下文双臂赌博机问题,其中“上下文”指不同的交通状况,“双臂”代表动作决策:变道和保持车道。
如图3所示,离线CB问题是一个智能体通过与环境的交互,利用策略π′尝试获取一系列观测的博弈。基于标准CB问题的定义[18],,本文中的离线CB问题形式化定义如下:a ∈{0,1}表示在自主变道情境中被选择的臂,其中a= 0和a= 1分别表示选择变道和保持车道。存在一个关于(X, R0, R1)的分布P,其中X是驾驶场景的上下文,Ra ∈{−1,1}为选择臂a所获得的奖励。在如图3所示的重复CB博弈的第t次试验中,从P中抽取一个样本点(x(t), r0(t), r1(t)),其中x(t)是上下文,即环境的部分表示,也就是驾驶场景;r0(t)、r1(t)分别为车内人员在上下文x(t)下对选择臂a= 0和a= 1所给出的奖励。智能体根据其策略π′ ~Bernoulil(p= 0.5)选择一个臂a(t),随后相应的奖励r(t) = ra(t)(t)被揭示。因此,在第t次试验中获得一个观测(x(t), a(t), r(t))。从包含T次试验的实验中,将得到一个样本集{(x(1), a(1), r(1)), (x(2), a(2), r(2)), ⋯, (x(T), a(T), r(T))}。本研究中将此类样本集记为(X, A, R)。

其中X={x(1), …, x(T)}, A={a(1), …, a(T)}, R={r(1), …, r(T)}, T是该集合的大小。
B. 算法
在本研究中,我们采用离策略上下文赌博机算法作为求解器,从上下文赌博机问题的观测序列中学习类人变道起始。我们的目标是学习策略π以选择最优动作,从而获得最大期望奖励。策略π= π(a|x)是从动作a和上下文x的映射关系。需要注意的是,在上下文赌博机问题中用于选择动作的策略π′并不是我们旨在评估和优化的策略π,这正是“离策略”(off-policy)的由来。策略π是我们希望从数据样本中学到的目标策略,它反映了在上下文赌博机问题中提供反馈的人类观察者的决策策略。在此设置下,学习代理只能访问预先采样的离线经验数据集。一些研究者认为,在许多真实世界强化学习应用中,与环境的直接在线交互受限,而已记录的经验的先前收集数据集则更容易获取[19]。因此,我们首先通过离策略上下文赌博机方法来利用现有数据进行实验。
1) 优化目标
CB算法的目标是为智能体寻找一种最优策略以获得最大奖励。该算法直接针对策略进行建模与优化。策略通常通过关于θ, πθ(a|s)的参数化函数来建模。目标函数对所有奖励求和,其值基于策略。因此,可以应用一种算法来优化θ,以使目标函数的值最大化。目标函数定义如下。
$$ J(\theta) = \rho + \sum_{t} \pi_\theta(a(t)|x(t)) \cdot r(t) \quad (1) $$
其中a(t)、x(t)和r(t)分别为试验t中的动作、上下文和奖励,πθ(a|x)是根据上下文x决定采取哪个动作的策略,r(t)∈{−1,1}是在上下文x(t)中拉动臂a(t)所获得的奖励。ρ是一个用于防止过拟合的正则化项。优化目标是最大化目标函数,即maxθ J(θ)。
我们使用人工神经网络(ANN)来建模策略πθ(a|x)。人工神经网络输入为上下文x,x的维度取决于我们选择多少因素来表示该上下文,这将在第三节中详细讨论。输出层包含两个单元,激活函数为sigmoid函数。sigmoid函数的取值范围为0到1,因此这两个输出单元分别被解释为a= 0和a= 1获得正向奖励的概率。
直观地说,当用户给出正面反馈r(t)= 1时,优化目标等价于maxθ πθ(a(t)|x(t)),这意味着奖励策略以促使a(t)向x(t)靠拢;而如果是负面反馈r(t)= −1,则目标等于minθ πθ(a(t)|x(t)),这意味着惩罚策略以阻止a(t)向x(t)靠拢。
2) CB算法的伪代码
我们使用tBatcGD作为优化器来更新我们的目标函数。CB算法的伪代码如图4所示。

III. 数据收集与实验
用于训练和评估的数据是在模拟自动驾驶实验中收集的。在本节中,我们将介绍实验设置、驾驶场景以及收集的数据的详细信息。实验在驾驶模拟器(DS)中进行,如图5所示。四名受试者参加了该实验。

驾驶模拟器中的用户车辆被设定为在双车道高速公路上自动驾驶。驾驶场景如图6所示,其中在用户车辆所在车道前方和相邻车道后方分别有一辆车辆行驶。用户车辆和车辆#1的速度分别设定为90公里/小时和80公里/小时,用户车辆的优先级是保持其速度,从而形成一种非紧急变道情况。此外,在该场景中考虑了四个自变量,总结于表II中。一个自变量的水平数即为实验条件的数量。表II中的前三个变量用于描述上下文,最后一个变量表示用户车辆的动作。尽管许多国家建议采用“三秒/两秒规则”(要求驾驶员保持至少三秒或两秒的车头时距),以帮助驾驶员维持安全车距并避免碰撞,但许多驾驶员仍保持其原有的跟车习惯,通常车头时距短于建议值。因此,变量x1基于在日本国道上进行的实际车头时距分布调查进行采样,其中67.1%的观测车辆处于0.5s~2.5s的车头时距范围内,而1.5s~2.0s区间占比最高,达到19.5%[20]。我们根据高速公路上车头时距的分布,采样前车最常见的间距。值得注意的是,无论是实际车头时距还是建议车头时距,均基于人工驾驶情况,这可能与自动驾驶情况下的情况有所不同。例如,自动驾驶汽车可以避免人为延迟由于人类驾驶的反应时间较长,因此我们假设在自动驾驶情况下,用户对较短车头时距的接受度更高。在本实验中,通过引入汽车处于自动驾驶状态并具备避免碰撞机制的概念,使受试者处于完全自动驾驶状态的心理情境中。
表II. 自变量
| 自变量 | 描述 | 水平 |
|---|---|---|
| x1 | 从车辆#1到用户车辆 | {40, 50, 60, 70, 80}(米) |
| x2 | 用户车辆与车辆#2 | {10, 20, 30, 40, 50, 60}(米) |
| x3 | 车辆#2的速度 | {80, 90, 100}(公里/小时) |
| a | 用户车辆的动作 | {变道, 保持车道} |
实验分为两个阶段,分别用于收集训练数据和测试数据。在用于收集训练数据的第一次会话中,受试者经历所有选定自变量的可能组合,并通过键盘对用户车辆的动作提供反馈。在用于收集测试数据的第二次会话中,受试者根据一系列上下文指定其自身的动作选择。
第一次会话包含具有不同上下文和动作的片段式场景。在每个片段中,驾驶模拟器向受试者展示一个由上述自变量特定组合构成的场景。受试者首先通过屏幕上显示的一个图标获知用户车辆的决策,与此同时,受试者开始分别从前挡风玻璃和右侧后视镜观察车辆#1和车辆#2。三秒钟后,用户车辆开始执行其决策。受试者的反馈为负面或正面,取决于其是否同意用户车辆在此上下文中的决策。一个片段总共持续16秒,为受试者提供了足够的时间来做出反应。总体而言,每位受试者经历了约180个不同片段,使其能够尽可能多地体验各种上下文。在此会话中,为每位受试者获得了一个包含上下文、动作和奖励的数据集。我们从中抽取一部分数据作为验证数据集,其余部分用作训练数据集。收集受试者反馈的界面是键盘,其中仅有两个可用按键,分别代表“是”和“否”(即正面和负面反馈)。
第二次会话总体上与第一次会话相同,只是用户车辆的动作不再预先确定,而是由受试者根据自身意图通过转向灯直接指定动作。
IV. 结果与讨论
A. 反馈一致性
高质量数据是成功实现机器学习的基础。为了确认受试者在实验中表现的可靠性,我们检验了其反馈的一致性。在该实验中,用户车辆的动作在场景中是二元的(即变道或保持车道),这意味着在相同上下文中,受试者必须仅认同两个动作中的一个。如果某受试者在某一上下文中对变道给予正面反馈,则其在同一上下文中应对保持车道持负面反馈,反之亦然。如果某受试者在上下文相同但动作相反的两次试验中给出了相同的反馈,则该受试者的反馈属于自相矛盾,此类反馈将被视为不一致。我们将一致性比率定义为具有一致性反馈的试验占总试验次数的比例。由此计算出四名受试者的一致性比率分别为89%、86.7%、78.7%和44%。
我们假设在某些上下文中,参与者可能存在一些反馈不一致的情况,但在大多数情况下应保持一致。使用质量较差的学习数据可能无法得到满意的结果。因此,我们拒绝了一致性比率为44%的受试者的数据,仅在其他三名受试者的数据上对我们的算法进行实验。
B. 模型选择与训练
学习曲线如图7所示,它展示了学习代理在训练试验中的表现情况(横轴表示训练轮次,纵轴表示准确率)。性能通过训练得分(即在训练数据上的估计准确率)和验证得分(即在验证数据上的估计准确率)来评估。可以通过学习曲线监控训练过程。当验证准确率变得稳定且平滑时,训练即完成。

我们使用最近1000个训练轮次中验证准确率的标准差(STD)作为衡量验证性能稳定性的指标,如图8所示。随着训练的进行,标准差逐渐变小。当验证准确率高于80%且标准差值低于0.01时,停止训练。

超参数是指不可训练的参数,其数值必须在最终训练过程之前确定。我们模型中的超参数包括人工神经网络结构(即隐藏层数量、每层隐藏层的神经元单元数量、激活函数)、目标函数中的正则化项以及优化器的学习率。这些超参数经过了仔细调优。最优组合的超参数是指能够提供最大测试性能的组合。最终设置一个包含四个神经元单元且无激活的隐藏层,正则化项设为1,学习率设为0.1。
C. 训练结果与评估
分别使用三位受试者的训练集训练了三个模型。然后我们依次使用各受试者的测试集对这些模型进行测试。测试结果如表III所示。当模型使用同一个人的数据进行测试时,我们称其为定制化模型。表III对角线上的数值分别为受试者#1、#2和#3的定制化模型的测试准确率,其余数值为非定制化模型的测试准确率。我们可以观察到,对于任意一位受试者,定制化模型的性能始终优于非定制化模型。
表III. 模型测试准确率
| 模型 / 测试集 | 受试者 #1 | 受试者 #2 | 受试者 #3 |
|---|---|---|---|
| 受试者 #1 | 0.8541 | 0.75 | 0.8541 |
| 受试者 #2 | 0.5625 | 0.8333 | 0.6458 |
| 受试者 #3 | 0.8542 | 0.875 | 0.8958 |
我们通过散点图进行比较,如图9所示。定制化模型和非定制化模型的平均准确率分别为86.1%和75.7%。显然可以看出,定制化模型的测试准确率更高且离散度更小,这表明针对个体而言,定制化模型比非定制化模型具有更好且更稳定的表现。

D. 与相关研究的比较
我们在表IV中比较了3项具有相同研究目的的研究(包括我们的研究)。这些研究均旨在利用机器学习技术从自动驾驶车辆用户中学习个性化的变道启动策略。值得注意的是,由于驾驶场景和测试指标不同,这些方法的性能无法进行精确比较。但所有研究都通过各自的方法取得了满意的结果。本研究在方法和算法上与其他研究有很大不同。
[14]和[15]的作者依赖于监督学习,而本工作创造性地采用强化学习来解决该问题。我们的方法实现了无需人类示范的个性化建模,不仅可用于驾驶辅助驾驶(SAE级别:L1)和半自动驾驶(L2,L3),还可用于高阶和完全自动驾驶(L4,L5)。
表IV. 与相关研究的比较
| 本研究 | [14] | [15] | |
|---|---|---|---|
| 方法 | 强化学习 | 监督学习 | 监督学习 |
| 算法 | 上下文赌博机 | 支持向量机器 | 线性回归 |
| 实验设置 | 模拟的 | 实路 | 实路 |
| 驾驶场景 | 三车辆场景 | 三车情况 | 四车情况 |
| 受试者 | 三 | - | 三 |
| 模型性能 | 86.1%(平均准确率) | 76%(平均归一化误差) | 能够捕捉个性化驾驶 |
| 是否需要人类驾驶 | 无需 | 需要 | 需要 |
| 应用SAE级别 | L1~L5 | L1,L2,L3 | L1,L2,L3 |
V. 结论
本文中,我们提出了一种新的强化学习方法,用于在完全自动驾驶背景下学习自主性变道发起的多维个性化策略。与大多数从真实人类驾驶经验中学习个性的机器学习解决方案不同,该方法可以在日常的完全自动驾驶中实施,即使没有人类驾驶员,用户仍可通过一个简单界面持续改进并个性化自己的车辆。我们在三名受试者上测试了离线的上下文赌博机算法,发现定制化模型的性能显著优于非定制化模型,证明了该方法能够区分自动驾驶中变道启动决策的个人特征。未来,我们将把该方法扩展到实时环境中,并在更复杂多样的驾驶场景中进行测试。
更多推荐
所有评论(0)