当前位置：首页 > 详情

大数据+大模型+大算力，毫末智行冲刺数据驱动的自动驾驶3.0时代

汽车之心 2022-11-15 15:14:00 4939

2022 年行至年终，就在外界纷纷惊呼自动驾驶步入寒冬的时候，中国自动驾驶行业实则是迎来了新前景。

首先是自动驾驶路线之争的结束。

跨越式路线主动将 L4 技术释放到辅助驾驶赛道，以实现大规模的数据积累，渐进式路线则继续以量产乘用车为载体，获得规模数据优势，加速布局城市辅助驾驶场景。

国外头部玩家特斯拉，国内新势力代表的蔚小理，国内本土自动驾驶公司毫末智行、华为等更成为主机厂迈入量产智能驾驶的代表。

图片16.png

就在这个时间点上，毫末智行率先喊出了「自动驾驶 3.0 时代」的观点。

自动驾驶 3.0 时代是相较于之前的硬件驱动的 1.0 和当下的软件驱动的 2.0 时代，就是在突破软硬件时代的技术禁锢后，进入到以数据驱动为代表，采用大数据、大模型，标志性特点就是智能驾驶行驶里程要达到 1 亿公里，感知以多模态传感器联合输出结果，认知以可解释的场景化驾驶常识。

3.0 时代的标志，可以用「大数据+大模型+大算力」概括。从这时开始，自动驾驶获取的数据量与数据多样性将呈现指数级膨胀，而云端大模型的作用也将由此得到更进一步显现。

在深度学习主导中，大数据与大模型相辅相成，真正去解决自动驾驶最后的长尾难题。

那么问题来了，自动驾驶公司如何适应 3.0 时代的挑战，如何实现数据驱动自动驾驶技术的迭代升级？

毫末智行在这里不仅提出了问题，也同样给出了答案。下面我们就看下毫末在数据智能上的一些思考。

图片17.png

如同早晚高峰时段拥堵的通勤道路一样，最难的并不是道路能够容纳多少车辆，而是如何能够快速疏解车辆。

对于数据来说，如何提升数据处理效率已经越发重要，尤其在面对 3.0 时代的 1 亿公里自动驾驶场景数据时，以当前的数据标注、训练及仿真能力根本无力应对如此规模的数据。

想要建立数据闭环、实现量产辅助驾驶向自动驾驶得更快速度迭代，首先就必须得掌握足够强大的数据处理能力。

考虑到人工及自动标注＆训练的提升空间终究是有限的，毫末智行提出了迎接自动驾驶 3.0 时代的总体策略：在尽可能提升传统数据处理能力的基础上，采用更高效的方式，充分发挥出毫末智行数据规模的优势。

一、自监督学习，解决数据标注效率难题

在这之中，第一个问题就是如何解放标注能力。

在传统数据处理过程中，由终端获取的数据首先要通过人工或自动标注，才会被运用到接下来的感知结果输出或算法模型训练中。

在这一模式下，数据处理效率首先就将被标注效率所控制，而增加人工、自动标注效率的方法是有限的，这不仅会大幅增加标注成本，最终也还是无法满足 1 亿公里后的海量数据。

图片18.png

对此，毫末智行决定引入无标注的自监督学习。

这一模式的主要逻辑是，以引入大模型的方式统一所有感知任务的 backbone，再使用以无标注数据为主的数据进行预训练，使其获得能够使用无标注数据训练的能力，而少量经过标注的数据也会参与到这一过程中，对大模型的剩余部分进行训练。

这样做的效果是显而易见的，首先是成功扩大了大模型在自动驾驶中的使用范围，其次则是在这一基础上实现了无数据标注的自监督学习。

毫末智行介绍到，由此能够更有效迫使模型理解道路场景的三维结构，从而更好地适应自动驾驶的各种感知任务需求，且训练效率与精度也有了显著提升。

二、增量式学习，加速新数据训练进程

第二个问题是，如何让数据库始终对新数据保持敏感度。

在突破 1 亿公里后，毫末智行的数据库将膨胀到前所未有的规模，而此时如果从终端获取到了重要的 corner case 数据，则可能出现两个隐患：

第一个隐患是，由于体量差距悬殊，新数据在加入数据库的一瞬间，可能会被立刻稀释掉，导致算法模型无法从 corner case 数据中得到应有的训练效果；

第二个隐患则是，训练整个数据库的成本过高，既占用算力，又消耗时间，算是一种「笨办法」。

图片19.png

为此，毫末智行选择引入增量式学习训练平台，这一方法的逻辑是，从数据库中抽取出一小部分，再结合新数据进行训练。

在这一过程中，带有新数据的数据集训练结果将会与旧数据的数据库保持一致，由此既带来了同样的训练结果，又提升了训练效率。

三、真实场景仿真，让训练效果更逼真

前两个问题旨在提升训练效率，第三个问题则在于如何提升训练效果。

通过仿真系统进行训练已经成为了自动驾驶企业验证算法、加速迭代的重要途径，但仿真世界是否逼真，能够仿真多少真实的复杂场景，也会对训练起到决定性影响。

图片20.png

对此，毫末智行选择与阿里和德清政府合作，通过向仿真系统中引入真实的交通流，提升仿真系统的仿真能力。

经过更多样、更真实的仿真系统训练，得到的算法模型在安全性、舒适性与高效性方面自然也更有保障。

四、时序 Transformer 提供实时场景建模能力

第四个问题也是特斯拉、毫末智行、小鹏选择「重感知」的重要原因，因为在大模型得到广泛运用前，自动驾驶的算法模型多为独立制作的小模型，这些小模型不仅效率低下，彼此也缺乏通用性，很难作为整体进行协同高效的运行。

Transformer 大模型的到来，改变了这一现状。

相较小模型，Transformer 对数据量有着极高的饱和区间，并且具备并行计算的能力，这使得其能够带来更高效的训练效率，并且数据量越大，效率越高。

图片21.png

另一方面，如果首先使用大数据对 Transformer 进行预训练，再基于验证后的大模型去训练其它模型，此前通用性过低的问题也将随之化解，因为所有的模型都「师出同门」。

除了以上这两点，Transformer 的优势还有很多，例如在具备并行能力的基础上，还兼顾不错的时序预测能力，这使其能够在诸如车道线中断、重合、消失的情况下还能建立拓扑关系，以保持自动驾驶；

此外，即使摄像头视线因障碍物、极端天气导致被遮挡，Transformer 也能给予更高的鲁棒性与泛化性，提升自动驾驶的稳定性。

图片22.png

具体到毫末智行，其解决方案就是使用 Transformer 建立强感知的时空理解能力。通过在 BEV 空间上做虚拟实时建图，让诸如感知车道线这样的项目输出更加准确和稳定，与此同时对障碍物的判断也能更准确。

最终，毫末智行不仅借助 Transformer 大模型建立起了带有时序特征的 3D 感知空间，还实现了对多摄像头图像的更真实融合，并由此提高了车道线识别与红绿灯绑路能力，「重感知」路线也得以像顺水推舟一样，在这一系列的提升中得到了实现。

五、感知交互更丰富，运动决策更像人

最后两个问题建立在前四个问题带来的解决方案上，也是大众最终评判自动驾驶效果的关键，即如何让自动驾驶表现得更加拟人化。

和人类驾驶的思维逻辑不同，自动驾驶对人类世界的交互窗口并不感冒，比如前车的刹车灯和转向灯，如果不参考这些数据，其输出的规控策略很难说足够拟人。

此外，人类的驾驶过程是连续的，场景与决策也是实时且多样的，而自动驾驶负责输出规控策略的模型却是分场景的，彼此之间衔接差异很大，这显然也不符合人类驾驶的逻辑，其结果也必然像是缝合怪一样，让驾驶者和乘客难以接受。

图片23.png

这两个问题的答案，同样来自大模型。

在此之前，毫末智行已经实现了对红绿灯的识别，而在之后，则会加强对车灯在内的更多人类交互窗口的识别；

此外，使用大模型来逐步取代小模型，也能够统一自动驾驶输出的规控策略风格，由此逐步化解长尾难题。

图片24.png

经过对数据标注、训练、仿真能力的提升，毫末智行为 1 亿公里后的海量数据提供了一套能力匹配的数据处理系统，由此实现数据闭环的搭建；

而在此之后，毫末智行的认知能力也将得到不断提升，由 corner case 数据带来的长尾难题也将被逐步化解，直到彻底消失。

到那时，毫末智行也将彻底完成从量产辅助驾驶到完全自动驾驶的质变。

此外，毫末智行也一直在进行云端超算中心的搭建，这将为其更快进入自动驾驶 3.0 时代，建立「大数据+大模型+大算力」的组合提供算力支撑。

毫末智行从成立起，就确立了基于量产乘用车辅助驾驶产品、以数据智能为核心的自动驾驶发展路线，这使其能够在层层竞争中突围，成为仅次于特斯拉的渐进式头部自动驾驶企业。

除此之外，毫末智行也始终在坚定执行这一发展路线，这又使其能够不断深研重感知的高阶辅助驾驶技术，为自动驾驶行业发展提供借鉴。

当前，特斯拉、毫末智行、小鹏、华为等自动驾驶代表玩家在「重感知」路线达成共识，由渐进式路线所引导的数据驱动已成趋势。

想必未来更多自动驾驶企业也把数据闭环当做核心任务，加速从 2.0 时代跃迁到硕果丰收的 3.0 时代。

标签：毫末智行自动驾驶特斯拉小鹏华为

作者：汽车之心，如需转载，请联系授权。违规转载法律必究。

好文章，需要你的鼓励

参与评论

请您注册或者登录汽车之心社区账号即可发表回复

去登录

登录或注册

绑定手机

大数据+大模型+大算力，毫末智行冲刺数据驱动的自动驾驶3.0时代

参与评论

相关评论(共0条)

相关推荐