一直以来,双目立体感知技术是辅助驾驶赛道的小众路线。
支持者认为,立体感知接近人眼仿生概念,基于三角测量原理,利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取三维几何信息,最显著的优势就是对于深度信息的有效解读。
从目前市场的整体情况来看,2MP双目立体感知将主要用于低阶智能驾驶,8MP将主要用于高阶智能驾驶。同时,市场还在演化出一些新的技术路线,比如双目立体感知基础上的AI深度学习,增加红外感知能力等等。
近年来,除了传统几家海外玩家(比如,Veoneer、大陆集团、博世),来自中国的华为、大疆等企业也在布局双目立体感知方案,国内也有不少车型陆续开始搭载这种方案。
而在此之前,双目立体感知方案仅限于斯巴鲁、宝马、奔驰、捷豹路虎等少数品牌车型。
近年来,一些企业还通过与空气悬架的概念结合,推出了基于双目立体感知的“魔毯”功能。不过,这也受制于空气悬架的前装搭载能否成为主流趋势。当然,还有其他技术可以替代双目立体感知方案。
但质疑者也有很多,比如,硬件上需要两个精确配准的摄像头,而且需要保证在车辆运行过程中始终保持配准的正确性。软件上的算法需要同时处理来自两个摄像头的数据,计算复杂度较高,算法的实时性难以保证。
这也是大疆在推广双目立体感知方案时,特别强调的部分:双目立体视觉感知系统采用在线自标定技术,能有效避免因温变、振动等环境因素而引起的基线变化所导致的感知性能下降,让产品更稳定可靠。
此外,尽管近年来双目立体感知方案的成本在逐步下降,但和单目方案相比,车企的供应商可选择性(替代)较少,相应的算法和规控技术,尤其是底层技术堆栈的软件工程师相对缺乏。同时,包括基线、耐久之后的像素匹配鲁棒性,还有容错率的评估,对于大部分车企验证系统来说,都非常困难。
与此同时,“短基线”间距的问题依然困扰双目立体视觉的可靠感知测距范围,尽管也有企业开始在研发不依赖于固定基线的解决方案。而从市场进展来看,前装量产搭载仍然是难以起量。
高工智能汽车研究院监测数据显示,2022年1-6月中国市场(不含进出口)乘用车新车搭载双目立体感知方案交付上险仅为11.23万辆(占所有感知方案比重不到3%),同比更是下滑1.66%。
同时,双目立体感知方案的安全可靠是否真的能够超过目前的单目方案?
作为全球最早大规模搭载双目立体感知方案的斯巴鲁,在去年权威机构发布的辅助驾驶事故调查报告中,其与特斯拉、本田一起成为三家提交事故报告最多的品牌。
就在今年初,有不少车主投诉,斯巴鲁EyeSight系统的AEB紧急制动功能会出现随机激活的问题,包括在道路上没有障碍物的情况下。这意味着,双目立体视觉技术同样和单目一样,存在一定的感知盲区。
有意思的是,日前在斯巴鲁最新推出的EyeSight辅助驾驶系统中额外增加了一颗单目广角摄像头,用于识别立体相机视角无法覆盖的范围。按照该公司给出的报告称,当车辆以低速进入十字路口时,额外的单目摄像头提高了识别行人和自行车(骑行人)的性能。
显然,在经历了数次技术迭代之后,斯巴鲁EyeSight这套经典的双目立体感知方案也感受到了系统在面临不同场景时的可靠性压力。而主流的单目感知方案,也在不断升级。
比如,2019年,在第三代视觉产品IFVS-500的研发中,智驾科技MAXIEYE通过算法的创新,提出基于单帧图像的深度估计,实现三维立体场景构建,并基于三维信息,实现精准测距测速,平均精度误差达到5%以内。
这一代产品突破了传统单目视觉的感知局限,能够识别实线、虚线、双实线等7种以上车道线以及停止线、斑马线,支持三维数据输出。同时可以进行可行驶区域的检测,预估路面坡度、地形。
此外,随着车身环绕摄像头数量的增加、摄像头像素的提升,类似特斯拉、Mobileye的单目多摄像头感知技术已经成为市场的主流方案。同时,4D成像雷达 激光雷达的组合,提供充分的感知冗余。
高工智能汽车研究院监测数据显示,今年上半年单目多摄像头环绕感知方案交付上险达到27.63万辆,同比增长95.82%,加上今年下半年还有多款主力车型上市交付,将继续保持高增速趋势。
考虑到单目感知技术的成熟,再加上4D雷达 激光雷达的融合,充分发挥4D感知传感器的作用,从而弥补传统深度学习方法无法实现的动态精度感知。
比如,按照Mobileye给出的方案,L4级系统是基于360度环绕的摄像头(前向可以采用多颗单目摄像头)、4D成像雷达,只需要一个高分辨率的前置FMCW激光雷达,就可以实现纯视觉感知、4D成像雷达 激光雷达两套并行的冗余感知组合。
同时,为了充分利用多摄像头环绕的优势,包括特斯拉、Mobileye等公司也在推动不受限于特定位置摄像头(仅仅解决前向还是不够的)的Vidar感知技术(产生类似双目立体的点云),利用神经网络模型来实现3D深度感知。
比如, 通过多个计算机视觉感知引擎,并在后期进行融合,配合基于神经网络的三维物体检测引擎、基于神经网络的场景分割引擎和经典的计算机视觉引擎。多个视图进行三角测量(或单一摄像头的多帧图像)并创建深度图(转换为点云),基于类似激光雷达的点云处理算法。