知识驱动范式并非完全脱离原有的数据驱动方法,而是在数据驱动方法的基础上增加了知识或常识的设计,如常识判断、经验归纳、逻辑推理等。知识驱动方法需要不断从数据中进行总结,并依靠人工智能体探索环境、获取一般知识,并不是执行预先定义的⼈类规则或从收集的数据中描绘抽象特征。
一、基于规则驱动
基于规则场景理解:在规则驱动的范式中,自动驾驶系统依赖于专家定义的规则来理解驾驶场景。这些规则通常基于对交通规则、道路条件、车辆行为等的深入理解。

通过规则指导驾驶:系统使用这些规则来做出决策,如路径规划、速度控制和障碍物避让。例如,遇到红灯时停车,或者在特定路段限速行驶。
在自动驾驶刚刚开发的时候,由于这种方法强调逻辑性和确定性,仅仅适用于那些可以明确定义规则的场景。但随着自动驾驶场景增多、道路越来越复杂,基于规则的范式以及不能满足自动驾驶相关技术的需求。
二、基于数据驱动
驾驶场景建模:数据驱动范式侧重于通过大量数据来学习和模拟驾驶场景。这些数据可能包括传感器数据、驾驶员操作、交通流量、环境条件等。
现实世界推断:通过机器学习算法,系统能够从数据中学习模式,并将其应用于现实世界的驾驶任务。例如,通过分析不同路况下的数据来优化行驶策略。
在这个阶段,尽管数据驱动范式能够处理复杂的和不断变化的环境,但需要大量的训练数据。随着收集的数据量的增长,新极端情况的覆盖可能性降低,能力增强的边际效应会越来越弱。数据驱动的方法只适合少数特定任务的数据集输入和输出,这使得所获得的能力只能处理与收集的数据集密切相关的驾驶场景,而不能推广和扩展到其他新出现的场景。尽管数据驱动方法可以从数据集中提取特征来获得驾驶能力,但单域学习和多域学习都是高维空间中的抽象,泛化能力有限。
数据驱动的方法正逐渐接近其发展瓶颈。在预期的L1至L2的迭代过程中,通过增加传感器数量从L1升级至L2,再通过增加数据量实现L3,并使其适应更多场景,以达到L4甚至L5的级别。然而,实际情况是,尽管在L2阶段通过增加数据量,却似乎遇到了一道难以逾越的障碍,始终只能达到接近L3的L2.999水平,感觉始终存在一个瓶颈。
三、基于数据+知识驱动
知识增强表示空间:知识驱动范式结合了自动驾驶领域的知识和数据。它通过将驾驶场景的信息引入一个知识增强的表示空间,来丰富模型对场景的理解。
泛化知识推导:系统不仅学习场景特定的模式,还试图推导出更泛化的知识,这些知识可以跨不同场景和条件进行应用。
知识反思引导:通过反思和优化其决策过程,以更智能和适应性更强的方式引导驾驶。例如系统可能会使用交通规则的知识来解释和预测其他车辆的行为。
在此阶段知识驱动的方法可以通过对多领域数据的经验进行求和来构建具有通用理解能力的基础模型,从而将驾驶能力空间压缩到低维流形空间。这个空间对应的驾驶场景不仅包括训练时收集的数据,还涵盖了大量未见过的数据,包括大量的极端情况。
知识驱动的范式:知识驱动系统的关键组件如图所示,包括数据集和基准测试的开发,如何构建高质量的环境,以及利用自动驾驶的知识驱动具身智能。
(1)知识驱动的数据集
下图(a)是传统的数据集和(b)是知识增强的自动驾驶数据集。箭头表示知识增强数据集是通过二次注释从相应的源数据集派生而来的。知识驱动的方法将人类知识和常识融入自动驾驶系统,促进了从现实世界驾驶场景中衍生生的不同驾驶领域之间建立互连。类似于人类只需要在动物园里见过鸵鸟就能认出路上奔跑的鸵鸟,知识驱动的方法通过在其他领域获得的广义场景理解能力,实现对复杂自动驾驶场景的理解和决策推理。知识驱动数据对于自动驾驶技术的发展至关重要,自动驾驶技术依赖海量数据来优化算法模型,以便能够识别和理解道路环境,从而做出正确的决策和行动。
(2)具身智能的运用
具身智能感知到场景后,尝试理解该场景并制定计划。执行计划后,可能产生两种结果:成功或失败。成功则作为经验保存;失败则需要模型进行反思,并重新生成成功方案,以避免类似事故。这些信息均存储于记忆库中。遇到类似场景时,系统首先查询记忆库,判断是否曾处理过类似情况,并结合当前场景特性和以往经验,做出决策。整个过程要求具身智能具备推理和决策能力。
LLM在帮助具身智能系统理解和感知周围环境、解释复杂的任务描述、制定任务规划、与其他系统模块无缝协作、适应动态环境以及通过自然语言交流促进与人类的社会互动方面发挥着关键作用。自动驾驶可以被视为具身智能领域,而自动驾驶所面临的开放和动态的交通环境需要高度关注系统可靠性和通用性。虽然自动驾驶可以依靠LLM的常识理解和逻辑推理能力,但它们不能完全依赖LLM的输出作为最终决策。因此,采用知识驱动的范式可以通过整合长期学习和知识积累的机制来增强自动驾驶,通过即时反馈和调整促进对环境变化的快速适应。
(3)构建知识驱动的环境
将知识和数据结合起来构建世界模型,有助于对驾驶环境有一个真实的理解。这种方法强调了不仅仅是数据收集,还包括对数据的深入理解和知识的运用,通过从多个来源收集数据来渲染模拟环境。世界模型的预测能力包括根据当前和过去的场景信息推断其他车辆的相对位置和运动趋势,从而能够对各种行动的潜在影响进行建模,并做出明智的决策。除了预测原始传感器信号之外,世界模型还能在模拟人类对现实世界的思考和理解。
Wayve的GAIA-1的学习表征能力捕获了对未来事件的预测,结合其生成真实样本的能力,增强和加速了自动驾驶技术的训练。GAIA-1允许视频、文本和动作作为提示来生成多样化和逼真的驾驶场景。Wayve通过在真实世界的英国城市驾驶数据的大型语料库上进行训练GAIA-1,其学会理解和理清重要的概念,如静态和动态元素,包括汽车、公共汽车、行人、骑自行车的人、道路布局、建筑物,甚至交通灯。此外通过动作和语言条件反射提供了对自我车辆行为和其他场景特征的细粒度控制。
另外神经渲染技术的出现也能构建知识驱动的环境,如神经辐射场(NeRF)。神经渲染通过隐式表示对目标进行建模,计算渲染结果与真值之间的差异,并使用反向传播来细化表示,最终实现高质量的3D重建和渲染。随着神经渲染技术的引入,它迅速从单目标重建扩展到室内环境、静态场景(BlockNeRF)和动态场景(NeuRAD)中的应用。UniSim实现了前景目标的解耦3D重建,展示了泛化能力和生成新数据的能力。StreetSurf实现了近距离、中距离(街道)和远距离(天空)场景的解耦重建,进一步提高了街景重建的质量。MARS还利用NeRF技术构建了一个自动驾驶模拟引擎。此外,ReSimAD验证了将神经渲染生成的数据应用于感知算法训练所带来的性能改进,证明了高保真传感器模拟的重要性。
数据+知识驱动的自动驾驶是一种革命性的范式,有望突破当前自动驾驶的瓶颈。其中知识驱动强调终身学习、迭代革命和多模态数据的集成,有望提高自动驾驶系统的性能、安全性和可解释性。
本文参考资料:论文《Towards Knowledge-driven Autonomous Driving》、2024年6月智能驾驶 | 2024北京智源大会——上海人工智能实验室科学家石博天演讲《多模态大模型与知识驱动自动驾驶》。