在过去的十年里,我们消费视频的方式发生了很大的变化。现在,我们可以从任何地方在移动设备上观看视频,因此视频内容有多种格式。谷歌意识到了这一变化,所以上周,他们的AI团队宣布了“自动唇”开源框架,用于“智能视频重组”。
用于电视和桌面观看的传统视频通常以16: 9、4: 3或2: 1的横向格式拍摄。如果你像我一样好奇为什么,那么这里有一个快速课程。首先,我们的周围是风景——因为重力,你周围的房间现在是水平排列的。因此,如果我们创作电影来表现我们的日常生活,以风景格式捕捉图像是有意义的。其次,人类的视觉水平约为200度,垂直约为135度,因此创建了原始的35mm胶片来模拟这个视野。这也是为什么我总是建议你在录视频或者拍照的时候把手机水平转动。
那么,为什么我们需要一个自动翻转工具呢?我们现代的智能手机是垂直的。像Instagram Stories和YouTube Stories这样的快速视频是垂直格式化的,因此用户可以在不旋转设备的情况下查看内容。从水平拍摄的视频中创建这种垂直格式可以在后期制作中通过静态裁剪手动完成,但这一过程通常会导致取景效果不佳。为了克服这个问题,创作者可以逐帧调整镜头,但这个过程耗时且容易出错。
使用自动翻转工具,创建者现在可以水平拍摄项目,然后使用自动翻转为其他平台动态调整相同视频的大小。使用谷歌的人脸和图像检测模型来完成这项任务,以“在框架中找到有趣和突出的内容”。谷歌表示,这种机器学习过程将适用于多种内容,如动物、框架中的单词/徽标或运动中的球。最后,“自动唇”将为创作者提供最大的后期制作灵活性。
如果你和我一样对视频科学感兴趣,那么这个项目的全文值得一读。对于那些只想尝试自动唇工具的人,你不能在网上使用或现在下载。开源代码将来可能会包含在谷歌服务中,但现在,您将不得不编译来自Github的项目,或者等待开发人员将代码包含在他们的应用程序中。类似的技术可以在一些Adobe视频编辑软件中找到。
标签: