绑定手机

获取验证码

注册、登录代表你已阅读并同意《用户协议》

取消
当前位置: 首页 > 详情

大数据+大模型+大算力,毫末智行冲刺数据驱动的自动驾驶3.0时代

汽车之心 2022-11-15 15:14:00 4141

2022 年行至年终,就在外界纷纷惊呼自动驾驶步入寒冬的时候,中国自动驾驶行业实则是迎来了新前景。

首先是自动驾驶路线之争的结束。

跨越式路线主动将 L4 技术释放到辅助驾驶赛道,以实现大规模的数据积累,渐进式路线则继续以量产乘用车为载体,获得规模数据优势,加速布局城市辅助驾驶场景。

国外头部玩家特斯拉,国内新势力代表的蔚小理,国内本土自动驾驶公司毫末智行、华为等更成为主机厂迈入量产智能驾驶的代表。

图片16.png

就在这个时间点上,毫末智行率先喊出了「自动驾驶 3.0 时代」的观点。

自动驾驶 3.0 时代是相较于之前的硬件驱动的 1.0 和当下的软件驱动的 2.0 时代,就是在突破软硬件时代的技术禁锢后,进入到以数据驱动为代表,采用大数据、大模型,标志性特点就是智能驾驶行驶里程要达到 1 亿公里,感知以多模态传感器联合输出结果,认知以可解释的场景化驾驶常识。

3.0 时代的标志,可以用「大数据+大模型+大算力」概括。从这时开始,自动驾驶获取的数据量与数据多样性将呈现指数级膨胀,而云端大模型的作用也将由此得到更进一步显现。

在深度学习主导中,大数据与大模型相辅相成,真正去解决自动驾驶最后的长尾难题。

那么问题来了,自动驾驶公司如何适应 3.0 时代的挑战,如何实现数据驱动自动驾驶技术的迭代升级?

毫末智行在这里不仅提出了问题,也同样给出了答案。下面我们就看下毫末在数据智能上的一些思考。

图片17.png

如同早晚高峰时段拥堵的通勤道路一样,最难的并不是道路能够容纳多少车辆,而是如何能够快速疏解车辆。

对于数据来说,如何提升数据处理效率已经越发重要,尤其在面对 3.0 时代的 1 亿公里自动驾驶场景数据时,以当前的数据标注、训练及仿真能力根本无力应对如此规模的数据。

想要建立数据闭环、实现量产辅助驾驶向自动驾驶得更快速度迭代,首先就必须得掌握足够强大的数据处理能力。

考虑到人工及自动标注&训练的提升空间终究是有限的,毫末智行提出了迎接自动驾驶 3.0 时代的总体策略:在尽可能提升传统数据处理能力的基础上,采用更高效的方式,充分发挥出毫末智行数据规模的优势。

一、自监督学习,解决数据标注效率难题

在这之中,第一个问题就是如何解放标注能力。

在传统数据处理过程中,由终端获取的数据首先要通过人工或自动标注,才会被运用到接下来的感知结果输出或算法模型训练中。

在这一模式下,数据处理效率首先就将被标注效率所控制,而增加人工、自动标注效率的方法是有限的,这不仅会大幅增加标注成本,最终也还是无法满足 1 亿公里后的海量数据。

图片18.png

对此,毫末智行决定引入无标注的自监督学习。

这一模式的主要逻辑是,以引入大模型的方式统一所有感知任务的 backbone,再使用以无标注数据为主的数据进行预训练,使其获得能够使用无标注数据训练的能力,而少量经过标注的数据也会参与到这一过程中,对大模型的剩余部分进行训练。

这样做的效果是显而易见的,首先是成功扩大了大模型在自动驾驶中的使用范围,其次则是在这一基础上实现了无数据标注的自监督学习。

毫末智行介绍到,由此能够更有效迫使模型理解道路场景的三维结构,从而更好地适应自动驾驶的各种感知任务需求,且训练效率与精度也有了显著提升。

二、增量式学习,加速新数据训练进程

第二个问题是,如何让数据库始终对新数据保持敏感度。

在突破 1 亿公里后,毫末智行的数据库将膨胀到前所未有的规模,而此时如果从终端获取到了重要的 corner case 数据,则可能出现两个隐患:

第一个隐患是,由于体量差距悬殊,新数据在加入数据库的一瞬间,可能会被立刻稀释掉,导致算法模型无法从 corner case 数据中得到应有的训练效果;

第二个隐患则是,训练整个数据库的成本过高,既占用算力,又消耗时间,算是一种「笨办法」。

图片19.png

为此,毫末智行选择引入增量式学习训练平台,这一方法的逻辑是,从数据库中抽取出一小部分,再结合新数据进行训练。

在这一过程中,带有新数据的数据集训练结果将会与旧数据的数据库保持一致,由此既带来了同样的训练结果,又提升了训练效率。

三、真实场景仿真,让训练效果更逼真

前两个问题旨在提升训练效率,第三个问题则在于如何提升训练效果。

通过仿真系统进行训练已经成为了自动驾驶企业验证算法、加速迭代的重要途径,但仿真世界是否逼真,能够仿真多少真实的复杂场景,也会对训练起到决定性影响。

图片20.png

对此,毫末智行选择与阿里和德清政府合作,通过向仿真系统中引入真实的交通流,提升仿真系统的仿真能力。

经过更多样、更真实的仿真系统训练,得到的算法模型在安全性、舒适性与高效性方面自然也更有保障。

四、时序 Transformer 提供实时场景建模能力

第四个问题也是特斯拉、毫末智行、小鹏选择「重感知」的重要原因,因为在大模型得到广泛运用前,自动驾驶的算法模型多为独立制作的小模型,这些小模型不仅效率低下,彼此也缺乏通用性,很难作为整体进行协同高效的运行。

Transformer 大模型的到来,改变了这一现状。

相较小模型,Transformer 对数据量有着极高的饱和区间,并且具备并行计算的能力,这使得其能够带来更高效的训练效率,并且数据量越大,效率越高。

图片21.png

另一方面,如果首先使用大数据对 Transformer 进行预训练,再基于验证后的大模型去训练其它模型,此前通用性过低的问题也将随之化解,因为所有的模型都「师出同门」。

除了以上这两点,Transformer 的优势还有很多,例如在具备并行能力的基础上,还兼顾不错的时序预测能力,这使其能够在诸如车道线中断、重合、消失的情况下还能建立拓扑关系,以保持自动驾驶;

此外,即使摄像头视线因障碍物、极端天气导致被遮挡,Transformer 也能给予更高的鲁棒性与泛化性,提升自动驾驶的稳定性。

图片22.png

具体到毫末智行,其解决方案就是使用 Transformer 建立强感知的时空理解能力。通过在 BEV 空间上做虚拟实时建图,让诸如感知车道线这样的项目输出更加准确和稳定,与此同时对障碍物的判断也能更准确。

最终,毫末智行不仅借助 Transformer 大模型建立起了带有时序特征的 3D 感知空间,还实现了对多摄像头图像的更真实融合,并由此提高了车道线识别与红绿灯绑路能力,「重感知」路线也得以像顺水推舟一样,在这一系列的提升中得到了实现。

五、感知交互更丰富,运动决策更像人

最后两个问题建立在前四个问题带来的解决方案上,也是大众最终评判自动驾驶效果的关键,即如何让自动驾驶表现得更加拟人化。

和人类驾驶的思维逻辑不同,自动驾驶对人类世界的交互窗口并不感冒,比如前车的刹车灯和转向灯,如果不参考这些数据,其输出的规控策略很难说足够拟人。

此外,人类的驾驶过程是连续的,场景与决策也是实时且多样的,而自动驾驶负责输出规控策略的模型却是分场景的,彼此之间衔接差异很大,这显然也不符合人类驾驶的逻辑,其结果也必然像是缝合怪一样,让驾驶者和乘客难以接受。

图片23.png

这两个问题的答案,同样来自大模型。

在此之前,毫末智行已经实现了对红绿灯的识别,而在之后,则会加强对车灯在内的更多人类交互窗口的识别;

此外,使用大模型来逐步取代小模型,也能够统一自动驾驶输出的规控策略风格,由此逐步化解长尾难题。

图片24.png

经过对数据标注、训练、仿真能力的提升,毫末智行为 1 亿公里后的海量数据提供了一套能力匹配的数据处理系统,由此实现数据闭环的搭建;

而在此之后,毫末智行的认知能力也将得到不断提升,由 corner case 数据带来的长尾难题也将被逐步化解,直到彻底消失。

到那时,毫末智行也将彻底完成从量产辅助驾驶到完全自动驾驶的质变。

此外,毫末智行也一直在进行云端超算中心的搭建,这将为其更快进入自动驾驶 3.0 时代,建立「大数据+大模型+大算力」的组合提供算力支撑。

毫末智行从成立起,就确立了基于量产乘用车辅助驾驶产品、以数据智能为核心的自动驾驶发展路线,这使其能够在层层竞争中突围,成为仅次于特斯拉的渐进式头部自动驾驶企业。

除此之外,毫末智行也始终在坚定执行这一发展路线,这又使其能够不断深研重感知的高阶辅助驾驶技术,为自动驾驶行业发展提供借鉴。

当前,特斯拉、毫末智行、小鹏、华为等自动驾驶代表玩家在「重感知」路线达成共识,由渐进式路线所引导的数据驱动已成趋势。

想必未来更多自动驾驶企业也把数据闭环当做核心任务,加速从 2.0 时代跃迁到硕果丰收的 3.0 时代。

作者:汽车之心,如需转载,请联系授权。违规转载法律必究。
1

0

分享

好文章,需要你的鼓励

参与评论

相关评论(共0条)

Copyright ©2019-2025 深圳市卡尔之心信息科技有限公司 版权所有

备案号:粤ICP备19151757号