绑定手机

获取验证码

注册、登录代表你已阅读并同意《用户协议》

取消
当前位置: 首页 > 详情

毫末 COO 侯军:自动驾驶攀峰要经历「可行、可靠、可商用」三阶段丨 2023 世界人工智能大会

田溪 2023-07-07 18:10:00 1441

7 月 6 日至 7 月 8 日为期 3 天的世界人工智能大会(WAIC 2023)在上海召开。毫末智行 COO 侯军受邀参会并发表《「可行、可靠、可商用」的自动驾驶解决方案探索与规模落地》的主题演讲。

image.png

(毫末智行 COO 侯军进行主题演讲)

演讲中侯军重点介绍了毫末智行发布的业内首个自动驾驶生成式大模型 DriveGPT 雪湖·海若,他强调目前任何公司都承担不了数百亿 4D Clips 的标注成本。利用 DriveGPT 的自动化标注能力,可以降本 98%。

侯军表示,自动驾驶成功最核心的问题,不仅仅是技术本身,而是企业机制。首先位于顶层的人工智能包含三项基本要素即大模型、大数据和大算力。对于科技公司来说大数据是目前面临的最大挑战。往下看企业的机制和人才获取是上层三要素能否聚集的关键。最底层则是认知的一致,有了强大的认知才能把上面的差异和关键点统一结合起来。

image.png

经过多年的发展,自动驾驶经历了以硬件驱动为主的 1.0 时代、以软件驱动为主的 2.0 时代,目前正在进入由数据驱动的自动驾驶 3.0 时代。数据智能方面,毫末打造的中国首个数据智能体系 MANA,学习时长已超 67 万小时,相当于人类司机的 8.2 万年。有了数据智能体系的加持,毫末得以利用成本和规模的优势,不断持续落地自动驾驶产品。

image.png

大模型方面,毫末于 2023 年 4 月 11 日正式推出了行业首个自动驾驶生成式大模型 DriveGPT,中文名「雪湖·海若」。作为生成式大模型,DriveGPT 的运行需要大量的数据作为基础。目前,毫末 DriveGPT 已经完成基于 5500 万公里驾驶数据的训练,参数规模达 1200 亿。DriveGPT 雪湖·海若的底层模型采用 GPT(Generative Pre-trained Transformer)生成式预训练大模型,不过与 ChatGPT 使用自然语言进行输入与输出不同,DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景 Token 化,形成「Drive Language」,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

另外毫末在使用数据过程中,逐步建立起一套基于 4D Clips 驾驶场景识别方案,目前自动驾驶数据包含三种形态,分别为 Frame(单视角单帧数据)、Bundle(环视单组数据)以及 4D Clips(环视连续数据 Clips)。 image.png

如果使用 DriveGPT 雪湖·海若的场景识别服务,一张图片的价格将由 5 元下降到 0.5 元,单帧图片整体标注成本降低 90%。「任何公司都承担不了数百亿 4D Clips 的标注成本。利用 DriveGPT 的自动化标注能力,基本上可以降本 98%」。毫末 DriveGPT 雪湖·海若已开启对首批生态伙伴的开放合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等高校与企业加入。另外近期毫末受邀成为「北京市通用人工智能产业创新伙伴计划」第一批模型伙伴观察员。DriveGPT 雪湖·海若也成功入选北京市首批人工智能 10 个行业大模型应用案例。

2023 年 1 月,毫末还发布了中国自动驾驶领域最大智算中心 MANA OASIS(雪湖·绿洲),每秒浮点运算达 67 亿亿次,全面保障毫末大模型训练的稳定性、效率和速度提升。

演讲最后侯军表示,自动驾驶今天已经进入了规模商用的阶段,「我们希望以客户为中心,进行全栈共创开放合作,提供全栈解决方案、云端服务、硬件、软件、模块、原型代码 6 个产品层面的合作方式。你的灵魂你保留, 我的灵魂你带走,全力助力我们的客户更上一层楼。」

本文为汽车之心原创文章,作者:田溪,如需转载,请联系授权。违规转载法律必究。
0

0

分享

好文章,需要你的鼓励

参与评论

相关评论(共0条)

Copyright ©2019-2025 深圳市卡尔之心信息科技有限公司 版权所有

备案号:粤ICP备19151757号