研报下载就选股票报告网
您好,欢迎来到股票分析报告网!登录   忘记密码   注册
>> 申万宏源-机器人行业系列深度研究之12:大模型迭代,智能驾驶、机器人算法进化-230919
上传日期:   2023/9/19 大小:   2305KB
格式:   pdf  共35页 来源:   申万宏源
评级:   -- 作者:   施鑫展,刘洋,洪依真
下载权限:   此报告为加密报告
强化感知:空间-时序维度,多模态数据融合
  在2021 TESLAAIDAY将引入Transformer进行大规模的无监督学习。2022年后国内公司跟进。
  特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征,并使用Transformer、CNN、3D卷积中的一种或者多种组合完成跨时间的图像融合,实现基于2D图像形成具有3D信息输出。
  毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题,如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。
  数据标注升级:大模型无标注自监督学习
  先统一所有感知任务的backbone,再使用以无标注数据为主的数据,对大模型进行预训练,使大模型获得能够使用无标注数据训练的能力。这里同样使用了大模型并行计算的能力
  风险:1)智联汽车的竞争和外部政策,有时候会带来波动。2)毕竟行业仍然面临价格变化的可能,公司的相对竞争优势需要跟踪。3)国产方案推广后,对行业价格和竞争格局的跟踪需要持续性
研究报告全文:大模型迭代智能驾驶机器人算法进化机器人系列深度研究之12证券分析师洪依真A0230519060003施鑫展A0230519080002刘洋A0230513050006王珂A0230521120002戴文杰A0230522100006黄忠煌A0230519110001胡雪飞A0230522120002屠亦婷A02305120800032023919模型AI小结理解不同参与者的环节大机器人具身智能图例控制器传动部件减速器丝杠其他等MCU电子和半导体范畴传感器电机光芯片电流环控制力矩被伺服步进空心杯通信范畴动力控制视觉大机械ASIC边缘计范畴算处理器大智联汽车定位导航IMU等大汽车范畴DSA传感器高速连接器TeslaDOJO软件互联网AI为例摄像头视觉激光雷达范畴毫米波雷达高压传感器GPU超声波雷达其他连接器大模型尝试谷歌微软TeslaMeta等发力视觉4D成像跟踪尝试人车互动人机互动自动行走为主的传感器Tracking局部尝试大模型AI的端对端自动驾驶路径规划运动预测占用预测含防碰撞控制检测MotionOccupancyPlanner执行映射地图Mappingwwwswsresearchcom2大模型AI小结理解不同参与者的环节大机器人具身智能理解运动如UCLA两篇机器人相关论文DesignofaHighlyDynamicHumanoid图例控制器传动部件RobotDevelopment减速器丝杠and其他等Real-TimeMCU电子和半导体Optimization-basedControlofaFull-范畴sizedHumanoidforDynamicWalking传感器andRunning电机光芯片电流环控制力矩被伺服步进空心杯通信范畴动力控制视觉2022年大机械ASIC边缘计机器人硬件范畴算处理器大智联汽车定位导航IMU等大汽车范畴DSA传感器高速连接器TeslaDOJO软件互联网AI为例摄像头视觉激光雷达范畴毫米波雷达高压传感器GPU超声波雷达2020-2022年硬件预埋其他连接器AI视觉的3D化NerfBEV占用网络AI端到端CVPR2023最佳论文为代表AI视觉大模型局部尝试大模型AI的端对端自动驾驶脸书SAMdinoV2谷歌微软TeslaMeta等发力尝试人车互动人机互动自动行走ViTMAESwin跟踪Tracking路径规划运动预测占用预测含防碰撞控制检测MotionOccupancyPlanner执行尝试映射地图Mapping视觉4D成像为推理理解视觉理解运动泛化零样本主的传感器例如谷歌PaLM-E例如谷歌RT-1RT-2例如李飞飞VoxPoserwwwswsresearchcom3主要内容1智能驾驶端到端的算法新范式2视觉泛化大模型带来何种改变3机器人从google看算法迭代4投资机会和标的选择411AI感知机器人驾驶具身智能的智能化曾都卡在这里原始数据检测-激光雷达雷达感知算法Rawdata识别结果1预测L1-L2时代大约2018传融控检测-毫米波毫米波雷达年以前原始数据识别结果2合制感雷达感知算法决算执Rawdata策器法行后融合ADAS算法摄像头识别结果3算检测-摄像头原始数据感知算法法Rawdata原始数据检测-激光雷达检测Rawdata端预L2L3时代到感测多种传感器崛起数控检测-毫米波端原始数据据知制ADAS域控制器崛起雷达融跟踪决融执Rawdata合算策合行前融合ADAS算法算算检测-摄像头法原始数据法预测法RawdataL3-L4时代尝试尝试人车互动视觉4D成像跟踪局部尝试大模型AI的端对端自动驾驶为主的传感器Tracking路径规划运动预测占用预测含防碰撞控制检测MotionOccupancyPlanner执行映射地图Mappingwwwswsresearchcom512AI感知以毫末智行为例中美简单对比表截至2022中美主要自动驾驶公司全栈AI技术对比公司对比维度特斯拉毫末智行发展路线大模型大数据大算力整体战路核心产品智能辅助驾驶发展阶段已经进入30阶段的领跑者加速进入30阶段的冲刺者发展路线引入Transformer大模型提升4D时空理解能力大模型数据来源基于自动标注数据基于真实人驾数据算法设计3D占据栅格网络多模态自监督覆盖感知认知自动标注发展路线重感知为主减少对高精度地图的依赖数据体系建立数据闭环大数据成本控制依靠量产车数据回传和自动标注标注方式人工标注团队自动标注能力4D自动标注人工纠偏感知方式纯视觉感知视觉LIDAR等多模态融合感知发展路线重视算力建设数据计算中心车端计算平台大算力车端硬件平台144TOPS车端FSD计算平台高中低计算平台并举最高算力360TOPS云端计算中心自研云端超算中心Dojo毫末智算中心资料来源毫末智行申万宏源研究wwwswsresearchcom613自动驾驶大模型AI对感知和标注的改造强化感知空间-时序维度多模态数据融合在2021TESLAAIDAY将引入Transformer进行大规模的无监督学习2022年后国内公司跟进特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征并使用TransformerCNN3D卷积中的一种或者多种组合完成跨时间的图像融合实现基于2D图像形成具有3D信息输出毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题如车道线检测障碍物检测可行驶区域分割红绿灯检测识别道路交通标志检测点云检测分割等数据标注升级大模型无标注自监督学习先统一所有感知任务的backbone再使用以无标注数据为主的数据对大模型进行预训练使大模型获得能够使用无标注数据训练的能力这里同样使用了大模型并行计算的能力图特斯拉的多模态数据融合图毫末智行MANA基于十亿级未标注数据的自监督学习资料来源TeslaAIDay毫末智行官网申万宏源研究wwwswsresearchcom713自动驾驶大模型的BEVtransformer重要BEV的通俗理解把不同视角的观察合成一个天眼模式整体图了解全局传统驾驶算法下时序信息很难与已有3D目标检测融合3DBEV优势1将不同视角在BEV下统一方便后续规划控制模块任务2BEV下的物体没有图像视角下的尺度scale和遮挡occlusion问题时序信息自动驾驶感知任务重要但现阶段基于视觉的3D目标检测方法并没有很好的利用BEVformer基于Transformer的自动驾驶BEV纯视觉感知BEVFormer的两大核心任务mutil-camera多视角相机和bird-eye-view鸟瞰图BEVBEVFormer利用了Transformer的特征提取能力以及Timestamp结构的时序特征的查询映射能力在时间维度和空间维度对两个模态的特征信息进行聚合增强整体感知系统的检测效果图BEVFormer在目标检测和地图分割的视觉结果图使用Transformer进行BEV数据融合相比CNN更加便捷BEV-CNNBEV-Transformer资料来源nullmaxBEVFormerLearningBirds-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers中文可翻译为通过时空变换器从多摄像机图像中学习鸟瞰图表示申万宏源研究wwwswsresearchcom813自动驾驶BEVtransformerBEV的通俗理解把不同视角的观察合成一个天眼模式整体图了解全局Pre-BEV特征提取如果输入特征提取的是3D信息得到3DBEV压缩到2DBEV3D坐标离散化到体素空间高效率3D卷积提取特征3D特征高度压缩变成2DBEV特征体素稀疏不规则3D卷积计算量大落地困难Post-BEV特征提取如果输入特征提取数据是BEV信息先将3D的点云转化为BEV表示然后再使用2D卷积等方式提取BEV特征图2D到3DBEV层的转化包括两维特征提取视角转化三维解码图融合的视角融合图融合的BEV融合图雷达是点云数据上半部分点云到三维提高精度下半部分把BEV转化到两维提高效率资料来源nullmaxBEVFormerLearningBirds-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers中文可翻译为通过时空变换器从多摄像机图像中学习鸟瞰图表示申万宏源研究wwwswsresearchcom914AI感知NeRF神经辐射场-大模型和自动驾驶的交集NeRF即NeuralRadianceFields神经辐射场其通俗理解给予海量不同视角的二维图合成同一场景不同视角下的图像还可以通俗理解为X-Y-Z到三维极坐标的转化第三视角到第一视角的转化辐射场如果我们从一个角度向一个静态空间发射一条射线我们可以查询到这条射线在空间中每个点xyz的密度以及该位置在射线角度下呈现出来的颜色ccRGB即FxyzRGB密度是用来计算权重的对点上的颜色做加权求和就可以呈现像素颜色给定Fxyz直接查表获得RGB值和密度给体渲染方法训练体渲染用Tensor输入5D数据三个位置两个角度对上述辐射场的密度和颜色做积分就可以得到像素的颜色得到颜色和密度遍历所有像素这个视角下的图像就渲染出来了端到端训练把原图和训练结果的损失做梯度回传图从相机焦点出发往一个像素连出一条射线获取射穿过空间中每个点的属图5维输入输出颜色和密度并且做端到端的训练性进行积分得到这个像素的颜色wwwswsresearchcom资料来源NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesis申万宏源研究1014AI感知预测OccupancyNetwork占用网络OccupancyNetwork的通俗理解两维的鸟瞰BEV变为三维的鸟瞰而增加运动序列预测2022CVPR放大的占用网络2022CVPR中TeslaFSD新负责人AshokElluswamy推出了OccupancyNetwork借鉴了机器人领域常用的思想基于occupancygridmapping是一种简单形式的在线3D重建将世界划分为一系列网格单元然后定义哪个单元被占用哪个单元是空闲的考虑速度预测轨迹等通过预测3D空间中的占据概率来获得一种简单的3d空间表示关键词是3D使用占据概率而非检测多视角对BEV鸟瞰图的加强和改进图多摄像头稀疏雷达到3D稀疏占用网络稠密占用网络首先是纯视觉AI大模型路线国内更可能用传感器路线BEV感知高水平视觉为主的自动驾驶方案的起点占用网络OccupancyNetwork纯视觉自动驾驶技术的里程碑CVPR2022优势有哪些泛化2D变3D像素变体素2DBEV栅格变成3D栅格高度方向又增加了一个维度变成了3D栅格借鉴了NeRF输出3D栅格特征和栅格流增加语义输出和速度信息可以变分辨率聚焦体现了泛化可以识别之前未知物体现了语义感知超过雷达资料来源TeslaAIday申万宏源研究wwwswsresearchcom1115从AI感知到端到端感知预测规划控制CVPR20231在Backbone环节特征提取其中涉及BEV和多模态等大模型技术将一系列多相机图像输入特征提取器并将生成的特征通过BEVFormer中的现成BEV编码器转换为统一鸟瞰图BEV特征UniAD可利用其他替代方案通过长期时间融合或多模态融合2在感知环节目标检测与跟踪模块可以实现对动态元素的特征提取帧间物体跟踪MapFormer将mapqueries作为道路元素例如车道和分隔线的语义抽象semanticabstractions并对地图进行全景分割图自动驾驶大模型尝试多种子任务目标检测目标跟踪场景建图轨迹预测栅格预测和路径规划整合到统一的端到端网络框架资料来源YihanHu等Planning-orientedAutonomousDriving中文翻译为以路径规划为导向的自动驾驶CVPR2023申万宏源研究wwwswsresearchcom1215AI端到端CVPR2023的启发3预测模块实现动静态元素交互与长时序轨迹预测而且已经有联合训练AI由于每个单元的动作都会显着影响场景中的其他因此该模块对所有考虑的单元进行联合预测4在规划模块基于轨迹预测做防碰撞其中涉及占用网络Occupancynetwork等大模型技术基于自身的轨迹预测和基于占据栅格的碰撞优化并使自己远离OccFormer预测的占用区域occupiedregions以避免碰撞图论文指出每个环节的重要指标且指出联合训练AI的作用例如两个识别子任务大大帮助了运动预测资料来源YihanHu等Planning-orientedAutonomousDriving中文翻译为以路径规划为导向的自动驾驶CVPR2023申万宏源研究wwwswsresearchcom13主要内容1智能驾驶端到端的算法新范式2视觉泛化大模型带来何种改变3机器人从google看算法迭代4投资机会和标的选择1421大模型能带来视觉底层能力怎样的迭代大模型自动驾驶实际并未使用到视觉泛化能力3D占据栅格网络主要预测了空间中点被占据的概率并未识别出三维物体是什么大模型主要改变了自动驾驶工作范式然而在机器人工作中需要识别出具体物体是什么小模型时代特征提取梯度下降训练在特定领域已经非常成熟如人脸识别但是区分物体是什么有难度泛化能力欠缺视觉大模型相对于传统的小型模型具有以下的优缺点更高的准确性视觉大模型一般具有千万级别或更多参数相比小型模型具有更强大的表示能力因此可以更好地捕捉图像中的细节和特征从而提高模型的准确性更强的泛化能力视觉大模型在训练过程中可以学习到更多的特征因此具有更好的泛化能力可以适应更多的场景和数据分布FewshotZeroshot下的CV能力图像分类语义分割目标检测实例分割物体追踪最终可能通过跨模态实现Zeroshotwwwswsresearchcom1522AI感知的泛化理解VIT将Transformer引入CV任务在CV领域为何基于传统CNN大参数的思路遇到瓶颈从算子层面看传统的CNNs算子缺乏长距离依赖和自适应空间聚合能力从结构层面看传统CNNs结构缺乏先进组件TransformerCV提升了视觉模型参数上限2021年后随着vitSwintransformerMAE等论文推出transformer在CV和跨模态等应用增加2021年3月google将尝试将自注意力机制和transformer直接应用在图像领域基于ViT和SwinTransformer等方法首次将CV模型扩大到20亿和30亿参数级别其单模型在ImageNet数据集的分类准确率也都突破了90远超传统CNN网络和小规模模型突破了技术瓶颈Google的VisionTransformer的核心思路微软的SwinTransformer的核心思路资料来源ANIMAGEISWORTH16X16WORDSTRANSFORMERSFORIMAGERECOGNITIONATSCALE中文可翻译为一张图像就像16X16个单词Transformer架构用在大规模图像识别申万宏源研究wwwswsresearchcom1623AI感知的泛化理解METASAM通过一个绿点的提示Prompt选择分割范围提出SegmentAnythingSAM项目用一个基础大模型可以实现Zero-shot下的通用分割能力基本涵盖了分割的各个子领域即CV中某个重要领域的通用模型出现了零样本zero-shot或者简单prompt比如一个点下图中绿点线框或者一小段文字下就对任意图片进行分割一个用于图像分割的新任务模型和数据集110亿掩码在数据收集循环中使用高效模型构建了迄今为止到目前为止最大的分割数据集在1100万张授权和尊重隐私的图像上有超过10亿个掩码2将发布SAM模型和数据集数据集SA-1B其中包含1B个掩码和1100万张图像以促进对计算机视觉基础模型的研究SAM的任务模型数据综述资料来源SegmentAnything中文名为分割一切申万宏源研究wwwswsresearchcom1724AI感知的泛化理解METAdinoV2DinoV2的三个重要功能深度估计语义分割目标检索暂时无法做到实例分割实例分割目标检测语义分割数据集142亿没有文字标签但是图片特征相似模型参数量是10亿级也仍然是视觉Transformer架构ViT但与DINO不太一样的是这次DINOv2在数据集上经过了精心挑选DINOv2构建了一个数据筛选pipeline将内容相似的图片筛选出来同时排除掉相同的图片DinoV2视觉任务上的表现图像分类判别图中物体是什么比如是猫还是狗橙色dino是自监督方法的效果深粉色是弱监督方法的效果语义分割对图像进行像素级分类预测每个像素属于的类别目标检测寻找图像中的物体并进行定位实例分割定位图中每个物体进行像素级标注区分不同个体wwwswsresearchcom资料来源DINOv2ASelf-supervisedVisionTransformerModel申万宏源研究1825什么是泛化尤其CV视觉和感知方面视觉的Zero-shot一个案例如何在没有见过斑马的情况下认出斑马我们期待的通用视觉大模型应做到什么用同一个模型完成分割识别检测追踪等各种类型的常见CV任务可以是单目标也可以是多目标同时在Zero-shotFew-shot下也可以获得较好的效果视觉zero-shot示意图wwwswsresearchcom资料来源中国专业IT社区CSDN申万宏源研究19主要内容1智能驾驶端到端的算法新范式2视觉泛化大模型带来何种改变3机器人从google看算法迭代4投资机会和标的选择20
 
Copyright © 2005 - 2021 Nxny.com All Rights Reserved 备案号:蜀ICP备15031742号-1