做ppt到哪个网站找图片网站优化师

张小明 2026/1/1 9:03:41
做ppt到哪个网站找图片,网站优化师,做网站好的网络公司,龙泉网站开发在自动驾驶与机器人领域#xff0c;3D 场景理解是核心技术难题#xff0c;而 3D 目标检测作为其关键组成部分#xff0c;直接影响着智能系统对周围环境的感知与决策能力。当前主流的 3D 目标检测方法高度依赖激光雷达#xff08;LiDAR#xff09;传感器#xff0c;凭借其…在自动驾驶与机器人领域3D 场景理解是核心技术难题而 3D 目标检测作为其关键组成部分直接影响着智能系统对周围环境的感知与决策能力。当前主流的 3D 目标检测方法高度依赖激光雷达LiDAR传感器凭借其精准的 3D 信息获取能力各类基于 LiDAR 点云的检测算法取得了显著进展。然而LiDAR 存在数据分辨率稀疏、设备成本高昂等固有缺陷限制了其大规模普及应用。相比之下摄像机设备成本更低、数据分辨率更高基于图像的 3D 目标检测方法具有更强的实用性。但由于 2D 图像到 3D 空间的信息映射存在天然瓶颈现有单目或双目图像 - based 检测方法在精度上与 LiDAR-based 方法仍存在较大差距。为此香港中文大学与 SmartMore 联合提出了一种名为 Deep Stereo Geometry NetworkDSGN的端到端立体视觉 3D 目标检测框架通过创新的 3D 几何体积表示有效缩小了图像 - based 与 LiDAR-based 方法的性能差距为低成本 3D 感知系统提供了新的解决方案。原文链接https://arxiv.org/pdf/2001.03398代码链接https://github.com/dvlab-research/DSGN沐小含持续分享前沿算法论文欢迎关注...一、研究背景与核心挑战1.1 3D 目标检测技术现状3D 目标检测方法主要分为三大类LiDAR-based 方法通过激光雷达直接获取场景的 3D 点云数据基于体素voxel-based或点云point-based的网络架构如 VoxelNet、PointRCNN 等能精准提取 3D 几何特征检测精度领先但设备成本高64 线 LiDAR 约 7.5 万美元点云数据稀疏。单目图像 - based 方法仅依赖单张 2D 图像进行 3D 目标检测如 MonoGRNet、M3D-RPN 等设备成本最低但需通过单目视觉线索如目标尺度、上下文信息间接估计深度3D 几何信息缺失严重检测精度有限。立体图像 - based 方法利用双目相机的视差信息计算深度如 Stereo R-CNN、Pseudo-LiDAR 等兼顾成本与信息丰富度但现有方法多采用 “深度估计 目标检测” 两阶段分离设计或通过非可微转换生成伪点云存在信息损失、网络优化困难等问题。1.2 核心挑战基于图像的 3D 目标检测面临两大核心难题3D 表示困境2D 图像是 3D 场景的投影同一 3D 特征在不同姿态下会产生不同的 2D 外观导致 2D 网络难以提取稳定的 3D 信息现有中间表示如伪点云存在非可微性、目标伪影streaking artifacts等问题影响检测精度。深度与语义融合难题深度信息是 3D 检测的基础但立体匹配得到的视差与真实 3D 深度存在非线性映射关系且如何将深度几何信息与高层语义特征有效融合是提升检测性能的关键。1.3 本文核心贡献为解决上述挑战DSGN 提出了以下三大核心贡献构建了一种从平面扫描体积Plane-Sweep Volume, PSV到 3D 几何体积3D Geometric Volume, 3DGV的可微转换机制在 3D 规则空间中同时编码几何结构与语义线索搭建了 2D 图像与 3D 空间的桥梁。设计了端到端的一体化 pipeline联合优化立体匹配深度估计与 3D 目标检测任务同时学习像素级匹配特征与高层语义特征无需复杂后处理。在 KITTI 3D 目标检测基准数据集上以简洁的网络设计超越了所有现有立体视觉 - based 方法AP 提升约 10 个百分点甚至在部分场景下达到了与经典 LiDAR-based 方法如 MV3D相当的性能。二、相关工作综述2.1 立体匹配与多视图立体视觉立体匹配传统方法通过构建 3D 代价体积cost volume计算视差如 GC-Net 采用拼接 - based 代价体积PSMNet 引入金字塔池化与堆叠沙漏模块在 KITTI 立体匹配基准上实现了低于 2% 的 3 像素误差。多视图立体视觉MVSMVSNet 通过在相机视锥内构建平面扫描体积生成深度图Point-MVSNet 将平面扫描体积转换为点云以节省计算量Kar 等人提出了可微的投影与反投影操作为多视图 3D 重建提供了新思路。2.2 3D 目标检测方法分类LiDAR-based分为体素 - based如 VoxelNet、PointPillars和点云 - based如 PointNet、PointRCNN直接处理 3D 点云几何信息完整但依赖昂贵设备。图像 - based带深度预测的检测方法如 Stereo R-CNN 通过多分支显式处理约束条件MonoGRNet 仅依赖语义线索渐进式定位 3D 目标但像素匹配未被充分利用。基于 3D 表示的检测方法3DOP 通过立体视觉生成点云并编码先验知识Pseudo-LiDAR 系列将深度图转换为伪点云后使用 LiDAR-based 检测器但存在多网络分离、信息损失等问题。三、DSGN 核心方法详解DSGN 的整体架构如图 2 所示主要包含四大模块2D 特征提取、平面扫描体积与 3D 几何体积构建、深度估计、3D 目标检测。其核心思想是通过可微的体积转换将立体图像的视差信息与语义特征融合到 3D 规则空间中实现深度估计与 3D 检测的联合优化。注(a) 2D 特征提取器捕获像素级与高层特征(b) 构建平面扫描体积PSV与 3D 几何体积3DGV(c) 基于 PSV 的深度估计(d) 基于 3DGV 的 3D 目标检测。3.1 动机3D 表示的选择与优化现有 3D 表示方法存在明显缺陷点云 - based 表示需通过深度预测与非可微转换生成存在目标边缘伪影多目标场景下难以优化。体素 - based 表示如 OFT-Net 直接将图像特征映射到 3D 体素网格但未显式编码 3D 几何信息仍依赖 2D 视图特征。DSGN 的核心洞察的是立体相机提供了显式的像素匹配约束可用于计算深度通过构建中间体积表示将该约束与 3D 几何信息结合能更有效地学习 3D 目标特征。具体而言DSGN 先在相机视锥空间构建平面扫描体积PSV以学习像素匹配约束再通过可微转换将其映射到 3D 世界空间的 3D 几何体积3DGV实现几何信息与语义特征的统一编码。3.2 2D 特征提取立体匹配与目标检测对特征的需求不同立体匹配需要细粒度的像素级特征目标检测则依赖具有判别力的高层语义特征。为此DSGN 基于 PSMNet 的 backbone 进行改进主要修改如下调整卷积块数量分配将 conv2-conv5 的基础块数量从 {3,16,3,3} 改为 {3,6,12,4}将计算量向高层卷积转移增强语义特征提取能力。调整输出通道数conv1 的输出通道数从 32 改为 64基础残差块的输出通道数从 128 改为 192提升特征表达能力。保留 SPP 模块拼接 conv4 与 conv5 的输出融合多尺度特征。该设计在保证立体匹配精度的同时为目标检测提供了充足的高层语义信息且未引入过多计算开销。3.3 3D 几何体积构建3D 几何体积3DGV的构建是 DSGN 的核心创新分为平面扫描体积PSV构建与可微转换两步流程如图 3 所示。注左图为 3D 世界空间中图为相机视锥空间PSV 所在右图为转换后的 3D 几何体积3DGV汽车在 PSV 中存在畸变转换后恢复真实形状。3.3.1 平面扫描体积PSV传统立体匹配的代价体积基于视差构建存在远距离目标视差相近、3D 空间特征映射不平衡的问题如 KITTI 数据集中 40 米与 39 米处目标的视差差小于 0.25 像素。DSGN 采用平面扫描策略构建 PSV具体步骤如下对左右目图像的 2D 特征图尺寸为进行处理将右目特征图重投影到左目相机坐标系。在预定义的深度范围内按等间隔采样深度候选值构建沿深度维度的特征体积。将左目特征与重投影后的右目特征在每个深度平面拼接形成 PSV尺寸为为深度采样数。PSV 的坐标系为其中为图像像素坐标为深度维度该体积能自然地在相机视锥内施加像素匹配约束且等间隔深度采样保证了 3D 空间特征映射的平衡性。3.3.2 可微转换至 3D 几何体积3DGV通过相机内参矩阵将 PSV 从相机视锥空间可微地转换到 3D 世界空间转换公式如下其中为相机水平与垂直焦距为相机主点坐标。转换过程通过三线性插值实现具有完全可微性可通过反向传播联合优化。3DGV 的参数设置在相机视角下沿右X、下Y、前Z方向将感兴趣区域单位米离散化为的体素网格每个体素尺寸为米。该体积保留了 PSV 中的像素匹配信息同时将其映射到真实 3D 空间为 3D 目标检测提供了富含几何结构的特征表示。3.4 深度估计深度估计基于 PSV 进行具体步骤如下对 PSV 应用 1 个 3D 沙漏模块与额外 3D 卷积将特征压缩为 1D 代价体积尺寸为。采用软.argmin 操作计算深度期望公式如下其中为深度对应的匹配代价为 softmax 函数鼓励每个像素选择单一深度平面。3. 通过三线性插值将代价体积上采样至图像尺寸得到最终深度图。相比 PSMNet 使用 3 个 3D 沙漏模块DSGN 仅使用 1 个以节省计算量且通过后续 3D 检测网络的联合优化补偿了精度损失。3.5 3D 目标检测3D 目标检测基于 3DGV 的鸟瞰图BEV特征进行借鉴 FCOS 的中心度分支思想设计了基于距离的目标分配策略。3.5.1 BEV 特征提取将 3DGV 沿高度维度Y 轴下采样得到 BEV 特征图F尺寸为该特征图编码了目标在水平面上的位置与形状信息。3.5.2 锚点设计在 BEV 特征图的每个位置放置 4 个不同朝向的锚点锚点尺寸按目标类别预定义汽车Car行人Pedestrian自行车Cyclist锚点的垂直中心分别设为 0.825汽车和 0.74行人和自行车。3.5.3 基于距离的目标分配考虑目标朝向定义锚点与真实框的距离为 8 个角点的平均欧氏距离为平衡正负样本选择与真实框距离最近的个锚点作为正样本为真实框在 BEV 上覆盖的体素数用于汽车用于行人和自行车。中心度定义为 8 个角点归一化距离的负指数用于过滤低质量检测框。3.5.4 回归与分类回归目标对锚点的位置、尺寸和朝向进行偏移回归公式如下其中为朝向数量为学习到的偏移量。回归策略汽车采用联合优化 8 个角点的方式行人和自行车采用分离优化各参数的方式因行人朝向难以准确标注。分类采用 Focal Loss 解决类别不平衡问题中心度采用二元交叉熵BCE损失。3.6 多任务训练损失DSGN 采用多任务损失函数联合训练深度估计与 3D 目标检测总损失为各损失项定义如下深度回归损失采用 Smooth L1 损失仅对有 LiDAR 真实深度的像素计算其中为有真实深度的像素数。分类损失Focal Loss仅对正样本计算其中为正样本数。3D 边界框回归损失Smooth L1 损失基于锚点与真实框的 L1 距离中心度损失BCE 损失用于优化中心度预测。四、实验设置与结果分析4.1 数据集与评估指标数据集采用 KITTI 3D 目标检测数据集包含 7481 对训练立体图像与点云7518 对测试数据。训练集按常规协议分为训练集3712 张与验证集3769 张测试集提交至 KITTI 排行榜评估。评估指标KITTI 数据集按遮挡程度、截断程度和目标尺寸分为 Easy、Moderate、Hard 三个难度等级评估指标为平均精度AP其中汽车的 IoU 阈值为 0.7行人和自行车为 0.5涵盖 2D 检测、鸟瞰图BEV检测和 3D 检测三个任务。4.2 实现细节硬件配置4 块 NVIDIA Tesla V10032GGPU批次大小为 4每块 GPU 处理 1 对 384×1248 的立体图像。优化器Adam 优化器初始学习率 0.00150 个 epoch 后学习率降低 10 倍总训练时间约 17 小时。数据增强仅采用水平翻转。预训练策略行人和自行车的标注数据仅占 1/3因此先使用所有训练数据预训练立体匹配网络再用带 3D 框标注的数据微调检测分支。4.3 主要实验结果4.3.1 KITTI 测试集结果表 1DSGN 在测试集上的性能全面超越现有立体视觉 - based 方法具体表现如下3D 检测 APModerate汽车 52.18%远超 Stereo R-CNN30.23%和 Pseudo-LiDAR42.43%BEV 检测 APModerate汽车 65.05%接近 LiDAR-based 方法 MV3D78.98%2D 检测 APModerate汽车 86.43%保持领先水平。值得注意的是DSGN 未使用额外数据集预训练如 Pseudo-LiDAR 使用 Scene Flow 数据集仅在 KITTI 7K 训练数据上从头训练且为单网络架构而其他方法多依赖多网络串联。此外DSGN 在 Easy 难度下的 3D 检测 AP73.50%已超过 MV3D68.35%证明其在近距离场景下的有效性。注PL/PL使用 Scene Flow 数据集预训练Stereo R-CNN使用 ImageNet 预训练的 ResNet-101。4.3.2 KITTI 验证集结果表 2在验证集上DSGN 同样保持领先优势3D 检测 APModerate汽车 54.27%超过 Pseudo-LiDAR50.1%BEV 检测 APModerate汽车 63.91%与 Pseudo-LiDAR64.0%相当2D 检测 APModerate汽车 83.59%保持稳定性能。4.3.3 推理时间在 NVIDIA Tesla V100 GPU 上DSGN 处理一对立体图像的平均推理时间为 0.682 秒各模块耗时如下2D 特征提取0.113 秒PSV 与 3DGV 构建0.285 秒3D 目标检测0.284 秒计算瓶颈主要在于 3D 卷积层未来可通过模型压缩或高效卷积算子进一步优化。4.4 消融实验分析4.4.1 3D 体积构建的影响表 3该实验探究了输入数据、体积转换方式和深度监督对性能的影响核心结论如下深度监督的重要性基于 LiDAR 点云的深度监督能显著提升性能例如立体图像输入 IMG→3DV 转换有监督比无监督的 3D AP 提升 31.54 个百分点。立体图像的优势在有深度监督的情况下立体图像输入的性能远超单目输入42.57% vs 13.66% 3D AP证明像素匹配约束对 3D 几何学习的重要性。平面扫描体积的有效性IMG→PSCV→3DGV 的转换方式54.27% 3D AP优于 IMG→CV→3DGV45.89%和直接 IMG→3DV42.57%说明平面扫描体积能更均衡地映射特征到 3D 空间保留更多深度信息。注“PSCV” 表示在平面扫描代价体积上施加监督“3DV” 表示在 3D 体积上施加监督。4.4.2 深度估计的影响表 4该实验对比了 DSGN 与 PSMNet-PSV*修改为 1 个 3D 沙漏模块的深度估计精度与检测性能结论如下仅训练深度估计分支时DSGN 的深度误差均值 0.5279 米中位数 0.1055 米略优于 PSMNet-PSV*均值 0.5337 米中位数 0.1093 米证明其 2D 特征提取器的有效性。联合训练深度估计与 3D 检测时两者的深度误差均略有上升但 DSGN 的 3D AP54.27%比 PSMNet-PSV*46.41%高出 7.86 个百分点说明 DSGN 的特征提取器能更好地平衡像素级匹配特征与高层语义特征。4.4.3 3D 几何表示的影响表 6该实验探究了不同体素特征编码方式的性能结论如下“Last Features”使用代价体积的最后一层特征映射到 3DGV的性能最优54.27% 3D AP远超 “Occupancy”二值体素占用37.86%和 “Probability”体素占用概率43.24%。证明潜特征嵌入能更有效地编码 3D 几何信息与语义线索而显式的体素占用表示会丢失部分细节信息。4.4.4 网络组件的影响表 7该实验验证了各关键组件对性能的贡献核心结论如下联合优化边界框角点JOINT比分离优化参数提升 4.80 个 3D AP。图像特征加权注意力ATT能提升 1.01 个 3D AP证明深度概率加权的语义特征融合有效。3DGV 中加入沙漏模块HG和水平翻转增强Flip能进一步提升性能最终达到 54.27% 的 3D AP。注“JOINT” 表示联合优化角点“IMG” 表示拼接图像特征“ATT” 表示深度概率加权注意力“Depth” 表示 warp 代价体积“HG” 表示 3D 沙漏模块“Flip” 表示水平翻转增强。4.5 补充实验分析4.5.1 深度估计精度与检测性能的相关性表 5、图 4实验发现当深度误差阈值为 0.3 米时深度估计精度与检测性能的皮尔逊相关系数PCC最高0.450说明适度的深度误差可通过 3D 检测网络的回归分支补偿端到端训练能有效缓解深度估计误差对检测性能的影响。注左图为误差阈值 0.3 米右图为 0.1 米仅显示 IoU0.01 且得分 0.1 的真阳性样本。4.5.2 目标距离对检测性能的影响图 5随着目标距离增加3D AP、BEV AP 和 2D AP 均呈下降趋势其中 3D AP 下降最快2D AP 下降最慢。在 25 米范围内平均检测精度保持 80% 以上证明 DSGN 在近距离场景如低速自动驾驶中表现优异超过 20 米后BEV 定位精度成为影响 3D 检测性能的关键。注将距离范围 [0,40] 米分为 8 个区间每个区间 5 米分别计算各精度指标。4.5.3 行人和自行车检测结果表 8、表 9DSGN 在行人检测上表现优于 Pseudo-LiDAR33.85% vs 27.4% 3D AP但在自行车检测上略逊24.27% vs 25.2%主要原因是自行车的姿态变化更复杂且标注数据有限。在 KITTI 测试集上DSGN 的行人 3D AP15.55%和自行车 3D AP18.17%仍领先于其他立体视觉 - based 方法。五、结论与未来展望5.1 主要结论DSGN 提出了一种基于立体视觉的端到端 3D 目标检测框架通过创新的平面扫描体积PSV与 3D 几何体积3DGV的可微转换在 3D 规则空间中统一编码几何信息与语义特征实现了深度估计与 3D 检测的联合优化。该方法无需额外数据集预训练以简洁的单网络架构超越了所有现有立体视觉 - based 方法在 KITTI 数据集上达到了与部分 LiDAR-based 方法相当的性能为低成本 3D 感知系统提供了高效解决方案。5.2 未来工作方向缩小与顶尖 LiDAR-based 方法的差距当前 DSGN 在 BEV 检测的 Moderate 和 Hard 难度下与顶尖 LiDAR 方法仍有 12 个 AP 的差距未来可结合高分辨率立体匹配技术提升远距离、遮挡目标的深度估计精度。3D 体积构建的深入研究现有体积转换机制的理论基础仍需进一步探索如何更高效地平衡深度信息与语义信息以及多视图图像的体积构建方法值得深入研究。计算效率优化3D 卷积是当前的计算瓶颈未来可借鉴稀疏卷积、动态卷积等高效算子或通过网络架构搜索NAS平衡性能与速度。低速自动驾驶应用DSGN 在近距离场景下的性能已接近 LiDAR-based 方法且硬件成本更低Tesla V100 约 1.1 万美元 vs LiDAR 7.5 万美元未来可针对低速场景如园区物流、港口调度进行定制化优化推动实际应用落地。六、总结DSGN 通过创新的 3D 几何体积表示与端到端联合优化有效解决了基于图像的 3D 目标检测中几何信息缺失、深度与语义融合困难等核心问题显著缩小了与 LiDAR-based 方法的性能差距。其设计思路为后续研究提供了重要借鉴在 2D 图像与 3D 空间之间构建可微的中间表示充分利用立体视觉的像素匹配约束是提升图像 - based 3D 检测性能的关键。随着硬件计算能力的提升与算法的持续优化基于立体视觉的 3D 目标检测有望在更多实际场景中替代 LiDAR推动自动驾驶与机器人技术的规模化应用。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站要怎么上传wordpress博客页面无法显示

基于Spring Boot 山东中医药大学考研信息管理系统 一、系统背景与目的 高等教育普及和考研热升温,山东中医药大学众多学生选择考研。考研信息获取与管理复杂繁琐,基于 Spring Boot 开发此系统,旨在助力该校学生便捷获取、管理考研信息&#x…

张小明 2025/12/27 18:12:21 网站建设

服务器销售网站源码成品网站货源

语言模型(LLM),如 GPT-3,无疑开启了自然语言处理的新纪元。它们强大的零样本和少样本学习能力,让我们看到了通用人工智能的一丝曙光。然而,任何与 GPT-3 有过深入“交流”的开发者或研究员都会发现一个问题…

张小明 2025/12/27 18:11:50 网站建设

广州开发网站报价网站建设验收报告

轻松搭建ARK服务器:一站式管理工具完整指南 【免费下载链接】ark-server-tools 项目地址: https://gitcode.com/gh_mirrors/ark/ark-server-tools 想要打造属于自己的ARK: Survival Evolved游戏服务器吗?不用再为复杂的命令行操作而头疼&#xf…

张小明 2025/12/27 18:11:18 网站建设

郉台网站建设西安网站开发软件

Kotaemon框架安全性设计:保障企业数据不出域 在金融、医疗和政务等高敏感领域,AI系统的每一次“智能”响应背后,都可能潜藏着数据泄露的风险。当大语言模型(LLM)成为企业服务的核心组件时,一个根本性问题浮…

张小明 2025/12/27 18:10:46 网站建设

单页网站制作工具一个网站主页开发费用

一文搞懂全志刷机:USB Burning Tool 安装、驱动、配置与实战避坑指南在做嵌入式开发时,你有没有遇到过这样的场景?手里的开发板突然“变砖”,无法开机;产线同事急着要烧录一百台设备,却卡在“设备未识别”上…

张小明 2025/12/31 10:56:26 网站建设

深圳公司建设网站制作免费注册网

Florence-2大模型量化加速:从理论到实践的完整指南 【免费下载链接】Florence-2-large-ft 项目地址: https://ai.gitcode.com/hf_mirrors/microsoft/Florence-2-large-ft 为什么你的模型需要"减肥"? 你是否遇到过这样的困境&#xff…

张小明 2025/12/27 18:09:42 网站建设