TPVFormer Summary
本文最后更新于:2024年8月14日 下午
Title: Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
ChatGPT says:
Comments
该论文提出了一种三角视图(Tri-Perspective View,简称TPV)的表示方法,用于描述 3D 场景。与传统的体素(voxel)表示相比,TPV 复合了鸟瞰图(bird’s-eye view)和两个垂直的平面,能够更好地描述场景的细粒度 3D 结构。为了将图像特征映射到 3D TPV 空间,论文提出了一种基于Transformer的TPV编码器(TPVFormer),通过注意力机制有效地获取TPV特征。研究表明,在仅使用稀疏点云监督进行训练的情况下,我们的模型可以准确预测所有体素的语义占据情况。此外,我们首次证明了仅使用相机输入的视觉方法在LiDAR分割任务上与基于LiDAR的方法的性能可媲美。
Summary
中文摘要:
该论文提出了一种三角视图(Tri-Perspective View,简称TPV)的表示方法,用于描述 3D 场景。通过复合鸟瞰图和两个垂直平面,TPV能够更好地描述场景的细粒度三维结构。为了将图像特征映射到3D TPV空间,论文提出了一种基于Transformer的TPV编码器(TPVFormer),通过注意力机制有效地获取TPV特征。实验结果表明,在仅使用稀疏点云监督训练的情况下,该模型能够准确预测所有体素的语义占据情况。另外,该研究也首次证明了仅使用相机输入的视觉方法在LiDAR分割任务上与基于LiDAR的方法的性能可媲美。
英文摘要:
In this paper, we present a Tri-Perspective View (TPV) representation method for describing 3D scenes. TPV combines bird’s-eye view and two vertical planes to better capture fine-grained 3D structures of the scene. To map image features to the 3D TPV space, we propose a TPV encoder, called TPVFormer, based on Transformer that effectively captures TPV features using attention mechanism. Experimental results demonstrate that our model can accurately predict the semantic occupancy of all voxels with only sparse point cloud supervision. Additionally, we show for the first time that vision-based approaches using only camera inputs achieve comparable performance to LiDAR-based methods in the task of LiDAR segmentation.
Transtranslation
Abstract
现代基于视觉的自动驾驶感知方法广泛采用鸟瞰(BEV)表示来描述3D场景。尽管其比体素表示更高效,但它难以用单一平面描述场景的细粒度3D结构。为了解决这个问题,我们提出了一种三视图(TPV)表示,它在BEV表示的基础上附加了两个垂直平面。我们通过将三个平面上投影特征相加来对3D空间中的每个点建模。为了将图像特征提升到3D TPV空间,我们进一步提出了基于transformer的TPV编码器(TPVFormer)来有效获取TPV特征。我们利用注意机制来聚合每个TPV平面内与每个查询相对应的图像特征。实验证明,我们的模型在稀疏监督下有效地预测了所有体素的语义占据情况。我们首次证明仅使用相机输入即可在LiDAR分割任务上实现与基于LiDAR的方法可比较的性能。
Introduction
准确和全面地感知三维环境对于自动驾驶系统至关重要。基于视觉的三维感知最近成为与基于LiDAR感知相比的一种有前景的替代方案,可以从二维图像中有效提取三维信息。虽然缺乏直接的深度信息感知,但由周围摄像机支持的基于视觉的模型在各种三维感知任务上表现出有希望的性能,如深度估计[18,45]、语义地图重建[1,20,51]和三维物体检测[28,31,49]。
感知三维环境的核心在于如何有效表示三维场景。传统方法将三维空间分割为体素,并为每个体素分配一个向量来表示其状态。尽管精度较高,但大量的体素数量对计算提出了巨大挑战,并且需要使用稀疏卷积等专门的技术[13]。由于室外场景的信息不是各向同性分布的,现代方法将高度维度折叠起来,主要关注地面平面(鸟瞰)上的信息变化最大的地方[21,27,29,32,38,49,51]。他们通过在每个BEV网格中隐式编码每个物体的三维信息。尽管更高效,基于BEV的方法在三维物体检测任务上表现出色[29,32]。这是因为三维物体检测只需要对常见物体(如汽车和行人)进行粗粒度边界框的预测。然而,在实际场景中可能会遇到具有不同三维结构的物体,用扁平化的向量编码所有这些物体是困难的(如果不是不可能的)。因此,为了实现更全面、更细致的对三维环境的理解,更安全、更健壮的基于视觉的自动驾驶系统,需要对BEV进行更全面和细粒度的3D结构建模,同时保持其效率和检测性能。
在这篇论文中,我们在这个方向上取得了进展,并提出了三角视图(TPV)表示来描述一个三维场景。受到最近在显式-隐式混合场景表示方面的进展的启发[7,8],我们通过伴随着两个垂直平面的BEV来推广BEV,以构造互相垂直的三个交叉平面。每个平面模拟了一个视角下的三维环境,并通过组合它们提供了对三维结构的全面描述。具体而言,为了获得三维空间中点的特征,我们首先将其投影到三个平面之一,并使用双线性插值获得每个投影点的特征。然后将三个投影特征相加,作为三维点的综合特征。因此,TPV表示能够以任意分辨率描述三维场景,并为三维空间中的不同点产生不同的特征。我们进一步提出了一种基于Transformer的编码器(TPVFormer),以从二维图像中有效地获取TPV特征。我们首先在TPV网格查询和相应的二维图像特征之间执行图像交叉注意力,将二维信息提升到三维空间。然后,在TPV特征之间执行交叉视图混合注意力,以实现三个平面之间的交互。为了证明TPV的优越性,我们制定了一个实际但具有挑战性的任务,即基于视觉的三维语义占用预测,在训练阶段仅提供稀疏的激光雷达语义标签,并要求对所有体素进行预测,如图2所示。然而,由于在这种具有挑战性的设置中没有提供基准,我们只进行了定性分析,但在两个代理任务上进行了定量评估:在nuScenes [4]上进行激光雷达分割(稀疏训练,稀疏测试)和在SemanticKITTI [2]上进行三维语义场景完成(稠密训练,稠密测试)。对于这两个任务,我们仅使用RGB图像作为输入。对于激光雷达分割,我们的模型仅使用激光雷达数据进行点查询以计算评估指标。可视化结果显示,TPVFormer在训练过程中仅使用稀疏的点监督产生了一致的语义体素占用预测,如图1所示。 我们还首次证明了我们基于视觉的方法在激光雷达分割上取得了与基于激光雷达的方法相当的性能。
关于 weekly reading
我会将每周所写周报中paper reading部分上传至我的blog供参考,希望能为你提供一些帮助。
LLM现已被引入来加速我的工作流,本篇文章在ChatGPT辅助下完成。