
让自动驾驶系统顺应新环境和不同地区的风气和法例是自动驾驶限度永恒濒临的挑战。NVIDIA Research 团队建议的自动驾驶智能体 LLaDA 约略期骗 LLM 生成顺应不同环境的驾驶计策和提醒,为驾驶员和自动驾驶汽车提供多话语和地区交通规章的及时勾通,匡助他们更放肆地在生分的地方导航。此外,LLaDA 还能匡助自动驾驶汽车从头规画出与当地环境愈加匹配的开通轨迹,鬈曲自动驾驶汽车的开通规画计策。联系论文效能收录于 CVPR 2024 。
关联词,LLaDA 无法达成场景的自动识别,且对场景刻画的质料有着较高条目。尽管 GPT-4V 约略提供这种刻画,然而却不够准确。为此,NVIDIA Research 建议一个鼎新的自动化视频字幕生成框架 Wolf。Wolf 选拔群众搀和步调,期骗视觉话语模子(VLMs)的互补上风,约略普及自动驾驶智能体的场景融会智商。
此外,LLaDA 时时是与用户径直交互,并主要处理文本信息。比拟之下,自动驾驶系统则需要提供具体的位置和轨迹规画信息。基于这些互异,NVIDIA Research 团队专为自动驾驶限度野心出一种多模态大型话语模子(MM-LLM)TOKEN。TOKEN 通过将复杂的交通环境激荡为对象级别的学问单位,增强了自动驾驶车辆在面对长尾事件时的规画智商。该模子还聚会了端到端驾驶模子的上风,处理了数据稀缺和美艳化效能低下的问题。联系论文收录于 CoRL 2024 。
在上述布景下,智猩猩与 NVIDIA 筹备推出「智猩猩公开课 NVIDIA 自动驾驶智能体专场」,并将于10月22日以视频直播时势进行。公开课邀请到 LLaDA 论文第一作家、VIDIA Research 自动驾驶处所究诘科学家李柏依进行主讲,主题为《探索基于多模态LLM 的自动驾驶智能体》。
李柏依博士领先会要点耕作 LLaDA 若何期骗 LLM 生成顺应不同环境的驾驶计策和提醒;之后会解读若何使用 Wolf 框架生成字幕普及智能体的场景融会智商。接下来,李柏依博士会耕作若何基于 TOKEN 领会复杂交通场景普及智能体在长尾事件的规画智商,临了会共享在自动驾驶智能体上的异日究诘处所,并进行瞻望。
Powered by 银川祁源科技有限公司 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024