选自GoogleAIBlog
作者:AdelAhmadyan、TingboHou
机器之心编译
机器之心编辑部
常规目标检测,已经不能满足移动端了,谷歌开源的3D实时目标检测了解一下?
目标检测是一个得到广泛研究的计算机视觉问题,但大多数研究侧重于2D目标检测。值的注意的是,2D预测仅能提供2D边界框。所以,如果扩展至3D预测,人们可以捕捉到目标的大小、位置与方向,从而在机器人、无人驾驶、图像检索和AR等领域得到更广泛的应用。
尽管2D目标检测已经相当成熟,并在工业界广泛应用,但由于数据缺乏以及同类别下目标形状和外观的多样性,从2D转向3D目标检测依然会面临较大的挑战。
今日,谷歌宣布推出MediaPipeObjectron,这是一种适用于日常物体的移动端实时3D目标检测pipeline,它能够检测2D图像中的目标,并通过新创建3D数据集上训练的机器学习模型来估计这些目标的姿态和大小。
具体而言,MediaPipe是一个用于构建pipeline进而处理不同模态感知数据的跨平台开源框架,Objectron则在MediaPipe中实现,其能够在移动设备上实时计算目标的定向3D边界框。
从单个图像进行3D目标检测。MediaPipe可以在移动端上实时确认目标对象的位置、方向以及大小。整个模型非常精简,速度也非常快,研究者将整套方案都开源了出来。
框架