广告

选自googleblog

编译机器之心

编辑部机器之心

来自谷歌研究团队提出了一种 3D 新的视觉体验生成方法 Infinite Nature,只有一张自然景观图片才能生成高质量的场景 3D 「航拍」视频。

今天,我们你去看一组「航拍」自然景观:

雄伟的山脉:

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图

壮丽的海景:

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图1

怎么样,你意识到鸟儿的幸福了吗?但你能想象这些景观视频都是电脑制作的!

近年来,人们开始思考计算机如何合成细节丰富的三维视觉体验,以构建沉浸式虚拟现实体现。谷歌的研究团队最近做了一个名字「Infinite Nature」研究表明,计算机可以通过观看自然视频和照片来学习生成丰富的研究 3D 视觉体验。新模型 InfiniteNature-Zero 甚至可以在静态照片上训练,以单个图像为例「种子」,生成高分辨率、高质量的景观视频是前所未有的突破。

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图2

项目主页:https://infinite-nature-zero.github.io/

谷歌称其为主要研究问题「生成永久性视图(perpetual view generation)」,也就是说,对于给定场景的单个输入视图,根据给定的相机路径合成照片级的真实输出视图集。这项任务非常具有挑战性,因为系统必须在输入图像的另一侧生成新内容,并以高逼真度和高分辨率渲染新内容。

下图是使用 InfiniteNature-Zero 飞行效果示例:只需输入单个自然场景图像,即可生成模型运行「飞入」这一幕的新内容,体验非常真实。

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图3

该研究首先收集了一组沿海岸线飞行无人机在线视频的最初想法是学习合成类似于这些真实视频的新飞行视频。这组在线视频被称为 ACID 数据集(Aerial Coastline Imagery Dataset)。

研究人员发现,为了学习合成动态响应 3D 相机路径的场景不能简单地将这些视频视为像素的原始集合——它们的底部必须计算 3D 几何图形,包括每帧的相机位置。

给出一个起始视图,研究首先使用单图像深度预测计算深度图,然后使用深度图向前渲染图像到新的相机视点,从新的视点生成新的图像和深度图。

本研究构建了一个神经图像细化网络,使用低质量的中间图像(缺乏部分像素)输出完整、高质量的图像和相应的深度图像,并重复上述步骤作为输入图像。由于该研究同时优化了图像和深度图,因此该过程可以根据需要重复多次——当相机进一步进入场景时,系统会自动学习生成新的风景,包括山脉、岛屿和海洋。

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图4

使用本研究 ACID 数据集训练这种渲染 – 优化 – 重复合成方法。具体来说,研究从数据集中采样视频,然后从视频中采样一帧,然后使用上述方法渲染几个新视图,沿着与地面视频相同的摄像头轨迹移动到场景,并将这些渲染帧与相应的地面视频帧进行比较,以获得训练信号。它还包括一个对抗设置,试图将合成帧与真实图像区分开来,使生成的图像看起来更真实。Infinite Nature 该方法可合成任何相机轨迹对应的视图。

具体来说,整个研究的核心问题是:如何从静态图像中生成场景视频?

为了解决这个问题,研究提出了一个关键的想法:如果我们拍摄一个图像并渲染一个循环的相机路径,即最后一个图像来自与第一个图像相同的视角,那么沿这条路径合成的最终图像应该与输入图像相同。这种循环一致性提供了一种训练约束,帮助模型学习填补视图生成的每一步中缺失的区域,并提高图像分辨率。

然而,使用相机周期进行训练并不足以生成一个稳定的视图序列,因此该研究包含了考虑长、非循环相机路径的对抗策略,如下图所示。

iphone实况照片变视频,iphone实况照片变视频怎么办啊插图5

如果从起始帧开始渲染 T 本研究将优化上述帧「渲染 – 优化 – 重复」该模型使得识别器网络无法区分哪个是起始帧,哪个是最终合成帧。最后,该研究还添加了一个训练有素的组件来生成高质量、高真实性的合成图像。

与以往的视频合成方法相比,Infinite Nature 该方法的生成结果显著提高了内容的质量和多样性。此外,该方法还允许用户交互控制相机,并生成更长的相机路径。

原文链接:

https://ai.googleblog.com/2022/11/infinite-nature-generating-3d.html

广告