CO3D – 三维重建数据集3D对象重建是 AR/VR 技术应用的重要计算机视觉问题(eg:远程呈现和游戏 3D 模型的生成)用于逼真 3D 重建的新兴技术可以将真实物体与传统智能手机、笔记本电脑甚至未来增强现实眼镜上的虚拟物体无缝混合。总而言之,当前的 3D 重建方法依赖于各种对象类别的学习模型,由于缺乏包含真实世界对象视频和准确 3D 重建的数据集,这些模型是有限的。由于模型使用这些示例来创建足够的重建,因此研究人员通常只使用本质上具有近似匹配的合成对象。Facebook AI部门发布了一个大规模数据集,其中包含带有 3D (CO3D) 注释的常见对象类别的真实视频。新的 CO3D 拥有来自近 19,000 个视频的 150 万帧,这些视频捕获了广泛使用的 MS-COCO 数据集中 50 种不同类型的对象,以提高准确性和覆盖范围。Facebook AI 也发布了一种他们称之为 NeRFormer 的新方法的成果。它可以通过观察 CO3D 数据集中的视频(而不仅仅是静止图像)来学习从不同视角合成物体的图像。这实现了结合最近两个机器学习贡献的高效合成:变压器和神经辐射场,在为对象生成新视图时,与最接近的竞争对手的方法相比,准确度提高了 17%。为了收集用 3D 形状标注的野外常见物体的大规模现实生活数据集,Facebook AI 研究人员设计了一种摄影测量方法,只需要以物体为中心的多视图图像。1、数据集下载地址:https://ai.facebook.com/datasets/co3d-downloads/2、代码地址:https://github.com/facebookresearch/co3d?为了实现这一目标,他们在 Amazon Mechanical Turk (AMT) 上众包了以对象为中心的视频。每个 AMT 任务都要求工作人员在给定类别中选择一个对象,将其放置在固体表面上,并在围绕整个对象移动的同时录制视频。他们选择了 50 个 MS-COCO 类别,包括具有明确定义的形状的静止物体,它们是成功 3D 重建的良好候选者。成熟的摄影测量框架 COLMAP 使用 3D 注释并跟踪相机以创建密集的对象点云。为了确保高质量的 3D 注释,作者对精度较低的视频使用了主动学习算法。除了CO3D数据集的发布,Facebook AI还提出了NeRFormer。这是一种新颖的深度架构,通过差异化渲染其神经辐射场 (NeRF) 进行学习。这些属性是基于分析视频内容并沿着光线行进以进行渲染来预测的。因此,一旦神经形成器学习了一个类别的共同结构,它就可以合成一个不可见对象的新视图,只给出它的已知视图。CO3D 数据集将是同类中的第一个,它已经对 3D 现实生活对象重建产生了重大影响。它为他们的 NeRFormer 提供训练数据,以处理新视图合成 (NVS) 任务。借助逼真的 NVS,它们离完全身临其境的 AR/VR 效果又近了一步。
本文出自快速备案,转载时请注明出处及相应链接。