移动端实时3D目标检测,谷歌开源出品,安

选自GoogleAIBlog

作者：AdelAhmadyan、TingboHou

机器之心编译

机器之心编辑部

常规目标检测，已经不能满足移动端了，谷歌开源的3D实时目标检测了解一下？

目标检测是一个得到广泛研究的计算机视觉问题，但大多数研究侧重于2D目标检测。值的注意的是，2D预测仅能提供2D边界框。所以，如果扩展至3D预测，人们可以捕捉到目标的大小、位置与方向，从而在机器人、无人驾驶、图像检索和AR等领域得到更广泛的应用。

尽管2D目标检测已经相当成熟，并在工业界广泛应用，但由于数据缺乏以及同类别下目标形状和外观的多样性，从2D转向3D目标检测依然会面临较大的挑战。

今日，谷歌宣布推出MediaPipeObjectron，这是一种适用于日常物体的移动端实时3D目标检测pipeline，它能够检测2D图像中的目标，并通过新创建3D数据集上训练的机器学习模型来估计这些目标的姿态和大小。

具体而言，MediaPipe是一个用于构建pipeline进而处理不同模态感知数据的跨平台开源框架，Objectron则在MediaPipe中实现，其能够在移动设备上实时计算目标的定向3D边界框。

从单个图像进行3D目标检测。MediaPipe可以在移动端上实时确认目标对象的位置、方向以及大小。整个模型非常精简，速度也非常快，研究者将整套方案都开源了出来。

框架