先说句题外话,这个问题如果换成"强化学习是否会成为自动驾驶决策规划的最终选择"对我而言可能会更有意思些,不过评论区估计要变成口水区了。自觉对DRL和Autonomous Driving里的决策规划还算是初入门径,所以也就谈点自己的体会。不过笔者比较懒(最近在肝论文),所以也就不贴具体的索引和文献,就当随笔了~~
大家一开始可能会忽视一个很关键的问题:为什么要在自动驾驶里面用DRL?我的看法是因为传统方法搞不定。再具体点说决策规划用传统的决策树和状态机之类的方法局限性很大,维护成本高,也无法应对这个非常weird的世界里的各种场景。另一方面轨迹规划也不简单,实时性和稳定性在实际中直接过滤掉大部分运动规划算法。简言之,传统的工作流很难直接解决自动驾驶中的核心问题。自然而然,大家就开始探讨利用AI技术来实现decision and planning。
先扯点题外话。DL在感知方向上应用目前来看已经很成熟了,但是从现在的目标检测跟踪到自动驾驶所需要的完整语义环境的构建还有很大的步子要迈,单纯依靠DL和IL用端到端的方式还没有看到实质性的成果。不过特斯拉显然是这个方向的拥护者,从最近Tesla的Autonomy Day上可能很清晰的看到他们的技术路线,而其中的shadow mode也即影子模式称得上是一种真正可商业落地的学习机制。
但是这种狭义AI真的能够完全解决问题吗?可能大部分还是无法相信缺乏解释性的大规模的神经网络和监督学习机制完全主导整个工业流程和驾驶场景。而RL作为一种更高级的学习范式从很多角度更像是AI来做决策的学习机制。MDP和序贯决策比单帧的模仿更符合人类驾驶员的思维。目前学术和工业界的应用也非常多,比较典型的就是拿来作变道决策。可以说像这样的许多决策子问题理论上都有很漂亮的结果了,但是落地依旧很难,莫说完全的依靠DRL的自主决策。原因也很显然:样本利用率低,仿真和现实存在鸿沟。对于企业来讲,只能在仿真器里演示但无法大规模的部署到车上,并且能够有类似shadow mode的机制能够在线优化,终究是不行的。另一方面,把DL里调参的工作量转变成RL里调reward function的工作量看起来并没有显得省力气了很多(逆强化学习如果深究的话就会知道目前来说实际应用有诸多限制)。
所以总结来说,我想要强调的两点是DRL真正可行的落地闭环和如何将自动驾驶决策规划转变成RL问题,这两点本身也相互关联。这里我一直疑惑也是一直想探讨的一点是稀疏奖励下的高效RL算法和现实世界的奖励机制这二者之间的权衡。举个例子,假如RL的目标是尽可能在一个交通流里最大化智能体的平局时速或者说最小化目标点到达时间,那么最好的期望是我只设置一个目标点处的正奖励,任意情况下的事故都给负奖励,然后RL算法能够最终找到最优或者较优策略。但是现实场景则完全不同,舒适性和安全性以及aggressive的程度等等都是需要考量的评价因素,其中一些因素还相互矛盾。而人在驾驶行为中确实是会依照这些因人而异的评价指标来具体操作和得到所谓的乘车体验。所以建立RL问题本身就是一个不小的难题,仅仅从reward func的角度看,很多时候我们都不确信是不是太刁难RL算法了抑或是RL算法本身需要改进。
当然RL算法目前的缺点仍旧无法忽视,探索和利用,有模型还是无模型等等都还是open problem。但是在gym这类的benchmark上尽可能用RL方法达到更高的性能和用RL方法解决自动驾驶完全是两个问题,难度也不在一个层次。所以写到最后我也没有什么vision和idea分享,希望过一两年能有新的体会(´・_・`)
来源:知乎 www.zhihu.com
作者:zzd12
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载
此问题还有 7 个回答,查看全部。
延伸阅读:
自动驾驶的决策系统如果使用深度学习方式实现,当实际使用中出现错误决策时,如何判断错误原因并修改系统?
如何看待《我为什么逃离无人车公司》?
没有评论:
发表评论