财联社6月21日讯(记者 唐植潇),中国版SORA来了?
日前,快手推出视频生成大模型——可灵,支持文生视频、图生视频以及视频续写功能。
财联社记者了解到,可灵大模型基于Diffusion Transformer架构打造的文本视频语义理解能力,支持输出1080P30帧最长2分钟的视频,生成时长直接赶超Sora。
6月21日,可灵上线的视频续写功能中,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。
快手可灵的内测申请在快手的剪辑软件快影App的“AI创作”功能模块中,财联社记者申请通过后,进行了深入的体验。
目前可灵的生成速度上表现尚可,财联社记者每次文生5s视频基本都能在2–3分钟之内完成。根据公开信息,快手、Sora之外,Luma AI发布了文生成图模型Dream Machine,并开启内测;Adobe的Firefly新增生成式扩展功能,生成音频和视频功能即将推出;美图构建AI短片工作流,开发了AI短片创作工具MOKI,预计将于今年7月31日上线。
有研究机构指出,在当前AI大模型的输出内容不能完全保证正确性与精准度的背景下,对“幻觉”问题不敏感的文生文、文生图、文生视频、数字人等AIGC领域有望率先实现商业化落地。
文生视频更自然,图生视频仍有进步空间为了展示可灵AI的能力,财联社记者从对于语言的识别精准程度、视频表现精度这两个层面对可灵大模型进行测试。其中在精度层面上,主要从两个层面上进行考虑,首先是光影效果的呈现,其次是物体关系(如人与人互动,人与物体互动)等。
为了便于观看,财联社记者将视频转换成了动图,因此会对视频质量和帧数造成一定的影响,但基本能够展现可灵的视频生成能力。
首先是对文字识别和处理层面上,财联社记者尝试详细描述了一个场景:“满头白发的中年女人,穿着深蓝色西服,向一台佳能相机展示白色瓶身绿色瓶盖的蓝月亮洗衣液,背景是沙滩与海洋的落日场景。”
可灵基本按需复现了描述文字的需求,只是文字描述中的相机并未出现在视频画面中,以及可能是出于版权争议方面的考虑,洗手液的品牌被涂上了马赛克。
接下来记者又尝试了更为简短的描述:“一只比熊犬穿着宇航服和高跟鞋在夜店跳舞。”
虽然比熊犬身上的服装与真实的宇航服尚有差异,但这次的还原度要高不少。
接下来,财联社记者又描述了两个场景,以测试可灵的光影展现效果,以及对于物体关系的还原的程度。
以上的视频描述文本为:“在灯光复杂的深海隧道中,一辆银白色引擎盖加上黑色外观的迈巴赫,开着远光灯,以时速120公里每小时行驶过一摊积水,水花四溅到镜头上。”
以上视频的描述文本为:“荒芜的死亡星球上,一群假面骑士通过光剑进行对战,并砍下了对方的头盔。”
以上视频的描述文本为:“两个壮汉在水立方里互扇巴掌。”
以上视频的描述文本为:“小猫送外卖,抽象风格,把披萨送到人手上。”
以上视频的描述文本为:“小猫用前爪把头上的头盔脱下来,放入到电动车的前框里。”
以上视频的描述文本为:“一个小女孩吃面条”。
以上视频的描述文本为:“女性推着自行车,往后倒退,一片樱花花瓣落到她的头上。”
目前图生视频的功能更多是让画面主体运动起来,通过准确的关键词做动作,但复杂的物体互动,呈现效果不佳。
如小猫咪用前爪脱下头盔,AI并未正确识别图中猫咪的前爪,而是生成了另外的前爪,并且没有脱下头盔的动作,而是将生成的前爪搭在了前框里的头盔上。
小女孩吃面条基本生成了“吃播”效果,五官与食物清晰。
而女子推车倒退变成了骑车倒退,虽然动作方向正确,但花瓣只落到了镜头的前方,并未落到女子的头上。
通过上述的测试,我们基本可以推断出以下几个结论:
可灵对于光影关系,流体与人物的关系呈现大致上是没有问题的,在文生视频的准确度上与sora差别不大。比如,当灯光扫过车顶时,前挡风与引擎盖金属反光变化的差异;车辆驶过积水时溅起的水花等。
可灵对于物体关系的处理仍存在改进的空间。比如决斗时光剑出现了“穿模”的情况。
此外,可灵基本可以做到符合真实的运动规律。在测试中,车辆行驶、女生吃东西等基本符合现实规律与关键词输入要求。
对于有关键词未被识别的问题,有观点认为,造成这种问题的原因在于,目前视频生成大模型基本是直接从视频数据中学习物理知识,但真实视频往往包含很多信息,因此大模型很难精准区分每个物理规律并学习。
财联社记者了解到,快手大模型团队自研了3D VAE网络和全注意力机制(3D Attention),借助多模态技术更好地实现时空建模。
快手视觉生成与互动中心负责人万鹏飞公开表示:“快手是一个拥有海量视频数据的平台,可实现全流程、自动化、高效率的支持模型的训练和评估。”
他还补充道,快手拥有多维度视频标签体系,可精细化的筛选数据,或对数据的分布进行调整。
商用可能性到底在哪?落地场景或更偏商业端据财联社记者了解,目前可灵内测申请人数已超14万人,有不少创作者都在其中。
有视频内容创作者对财联社记者表示,使用AI工具生成的视频看上去很酷,但这类工具在普通人手中意义不大。AI生成视频的成本也不低,这一点从ChatGPT和Sora的开放程度就能看出来,ChatGPT可以开放给亿级用户,而Sora至今只有少数人试过。”
不过,部分视频平台也不鼓励AI合成内容,这类视频分到的流量不多,有的甚至会被限流。目前,各大内容平台都有相关限制,AI生成内容均会标注 “作品疑似AI合成,请谨慎甄别”。
该名内容创作者补充道,AI视频生成功能的真正意义在于简化了视频制作流程,既可以帮助成熟的内容创造者生成无版权纠纷的素材,加速内容创作,也可以帮助传统的图文创造者基于已有内容视频化,加速内容迁移。
他认为,通过精准描述,内容创作者可以省下挑选合适素材的时间。本身职业内容创作者也会自己购买视频素材,或者开通相应的会员。现在唯一的问题只在于,收费是否合理。
但从长远来看,无论可灵还是sora都不会将C端应用作为未来主要发展方向,根据场景应用落地的能力,才更具想象力。
另一位影视行业的从业者告诉财联社记者,AIGC工具已经被应用在了影视行业了,比如《瞬息全宇宙》里面主角高速穿越多个宇宙的镜头,可以用AI技术快速生成出来,能够降低制作成本。“如果使用传统制作流程,哪怕只是为了制作一分钟的视频,也需要一个庞大的团队工作好几个月才能完成,涉及到脚本、建模和后期渲染等多个过程。”
财联社记者了解到,有部分电影人在接受Luma发布的Dream Machine内测邀请后,使用该款AI工具制作了一些微电影以及预告影片。继生成短剧剧本之后,AI视频生成工具将有可能被用于直接生成短剧,而这一尝试也会让短剧赛道的链路更短。
当下,可灵在B端的商用还未开启,但从此前AIGC技术应用来看,短视频切片、评论区互动、数字人主播等均是内容电商可以落地的场景。
据悉,包括京东、快手、抖音在内的电商平台已经使用AI大模型辅助商家进行运营。比如京东免费数字人代播服务,能24小时不断进行直播;快手的“AI脚本生成+智能高光切片+全模态检索大模型”功能等等。
快手方面提供的数据显示,AIGC技术的应用已经开始提升营销转化效率,通过盘古视频AIGC素材整体提升营销转化率33%。
有业内人认为,未来文生视频工具也有可能被商家应用在产品功能、场景短视频展示上面。“相较于对每个产品进行实际拍摄,直接使用AI工具生成视频的时间成本和人力成本可能会更低。”
对成本端的影响,也能从当前数字人主播应用效果得出一定结果。快手磁力引擎项目招商负责人、磁力学堂负责人王思洵分享了一组数据:“在尽量过滤掉干扰项的前提下,我们测试发现真人直播间和数字人直播间数据表现几乎一样。AIGC技术自动生成直播/短视频素材,使得企业的直播风险可控,运营效率也得到了提升。”
天风证券分析师认为,生成式AI在视频创作和世界模型的大踏步进步将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域,可灵、Sora等AI原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低创作成本,并极大拓展创作者能力边界。
该名证券分析师补充道:“与OpenAI其他产品不同,Sora代表的DiT架构路径复刻难度在算力充足的前提下相对较低,国内 头部大厂在生成式视频工具上的布局速度可能会持续超预期。”
来源:财联社
标签: