快手AI文生视频大模型体验：更偏商业端，“国产版Sora” 来了？

导读财联社6月21日讯（记者唐植潇），中国版SORA来了？日前，快手推出视频生成大模型——可灵，支持文生视频、图生视频以及视频续写功能。财...

财联社6月21日讯（记者唐植潇），中国版SORA来了？

日前，快手推出视频生成大模型——可灵，支持文生视频、图生视频以及视频续写功能。

财联社记者了解到，可灵大模型基于Diffusion Transformer架构打造的文本视频语义理解能力，支持输出1080P30帧最长2分钟的视频，生成时长直接赶超Sora。

6月21日，可灵上线的视频续写功能中，支持对已生成的视频一键续写和连续多次续写，单次可让视频延续约5秒，最长可生成约3分钟视频。

快手可灵的内测申请在快手的剪辑软件快影App的“AI创作”功能模块中，财联社记者申请通过后，进行了深入的体验。

目前可灵的生成速度上表现尚可，财联社记者每次文生5s视频基本都能在2–3分钟之内完成。根据公开信息，快手、Sora之外，Luma AI发布了文生成图模型Dream Machine，并开启内测；Adobe的Firefly新增生成式扩展功能，生成音频和视频功能即将推出；美图构建AI短片工作流，开发了AI短片创作工具MOKI，预计将于今年7月31日上线。

有研究机构指出，在当前AI大模型的输出内容不能完全保证正确性与精准度的背景下，对“幻觉”问题不敏感的文生文、文生图、文生视频、数字人等AIGC领域有望率先实现商业化落地。

文生视频更自然，图生视频仍有进步空间为了展示可灵AI的能力，财联社记者从对于语言的识别精准程度、视频表现精度这两个层面对可灵大模型进行测试。其中在精度层面上，主要从两个层面上进行考虑，首先是光影效果的呈现，其次是物体关系（如人与人互动，人与物体互动）等。

为了便于观看，财联社记者将视频转换成了动图，因此会对视频质量和帧数造成一定的影响，但基本能够展现可灵的视频生成能力。

首先是对文字识别和处理层面上，财联社记者尝试详细描述了一个场景：“满头白发的中年女人，穿着深蓝色西服，向一台佳能相机展示白色瓶身绿色瓶盖的蓝月亮洗衣液，背景是沙滩与海洋的落日场景。”

可灵基本按需复现了描述文字的需求，只是文字描述中的相机并未出现在视频画面中，以及可能是出于版权争议方面的考虑，洗手液的品牌被涂上了马赛克。

接下来记者又尝试了更为简短的描述：“一只比熊犬穿着宇航服和高跟鞋在夜店跳舞。”

虽然比熊犬身上的服装与真实的宇航服尚有差异，但这次的还原度要高不少。

接下来，财联社记者又描述了两个场景，以测试可灵的光影展现效果，以及对于物体关系的还原的程度。

以上的视频描述文本为：“在灯光复杂的深海隧道中，一辆银白色引擎盖加上黑色外观的迈巴赫，开着远光灯，以时速120公里每小时行驶过一摊积水，水花四溅到镜头上。”

以上视频的描述文本为：“荒芜的死亡星球上，一群假面骑士通过光剑进行对战，并砍下了对方的头盔。”

以上视频的描述文本为：“两个壮汉在水立方里互扇巴掌。”

以上视频的描述文本为：“小猫送外卖，抽象风格，把披萨送到人手上。”

以上视频的描述文本为：“小猫用前爪把头上的头盔脱下来，放入到电动车的前框里。”

以上视频的描述文本为：“一个小女孩吃面条”。

以上视频的描述文本为：“女性推着自行车，往后倒退，一片樱花花瓣落到她的头上。”

目前图生视频的功能更多是让画面主体运动起来，通过准确的关键词做动作，但复杂的物体互动，呈现效果不佳。

如小猫咪用前爪脱下头盔，AI并未正确识别图中猫咪的前爪，而是生成了另外的前爪，并且没有脱下头盔的动作，而是将生成的前爪搭在了前框里的头盔上。

小女孩吃面条基本生成了“吃播”效果，五官与食物清晰。

而女子推车倒退变成了骑车倒退，虽然动作方向正确，但花瓣只落到了镜头的前方，并未落到女子的头上。

通过上述的测试，我们基本可以推断出以下几个结论：

可灵对于光影关系，流体与人物的关系呈现大致上是没有问题的，在文生视频的准确度上与sora差别不大。比如，当灯光扫过车顶时，前挡风与引擎盖金属反光变化的差异；车辆驶过积水时溅起的水花等。

可灵对于物体关系的处理仍存在改进的空间。比如决斗时光剑出现了“穿模”的情况。

此外，可灵基本可以做到符合真实的运动规律。在测试中，车辆行驶、女生吃东西等基本符合现实规律与关键词输入要求。

对于有关键词未被识别的问题，有观点认为，造成这种问题的原因在于，目前视频生成大模型基本是直接从视频数据中学习物理知识，但真实视频往往包含很多信息，因此大模型很难精准区分每个物理规律并学习。

财联社记者了解到，快手大模型团队自研了3D VAE网络和全注意力机制（3D Attention），借助多模态技术更好地实现时空建模。

快手视觉生成与互动中心负责人万鹏飞公开表示：“快手是一个拥有海量视频数据的平台，可实现全流程、自动化、高效率的支持模型的训练和评估。”

他还补充道，快手拥有多维度视频标签体系，可精细化的筛选数据，或对数据的分布进行调整。

商用可能性到底在哪？落地场景或更偏商业端据财联社记者了解，目前可灵内测申请人数已超14万人，有不少创作者都在其中。

有视频内容创作者对财联社记者表示，使用AI工具生成的视频看上去很酷，但这类工具在普通人手中意义不大。AI生成视频的成本也不低，这一点从ChatGPT和Sora的开放程度就能看出来，ChatGPT可以开放给亿级用户，而Sora至今只有少数人试过。”

不过，部分视频平台也不鼓励AI合成内容，这类视频分到的流量不多，有的甚至会被限流。目前，各大内容平台都有相关限制，AI生成内容均会标注 “作品疑似AI合成，请谨慎甄别”。

该名内容创作者补充道，AI视频生成功能的真正意义在于简化了视频制作流程，既可以帮助成熟的内容创造者生成无版权纠纷的素材，加速内容创作，也可以帮助传统的图文创造者基于已有内容视频化，加速内容迁移。

他认为，通过精准描述，内容创作者可以省下挑选合适素材的时间。本身职业内容创作者也会自己购买视频素材，或者开通相应的会员。现在唯一的问题只在于，收费是否合理。

但从长远来看，无论可灵还是sora都不会将C端应用作为未来主要发展方向，根据场景应用落地的能力，才更具想象力。

另一位影视行业的从业者告诉财联社记者，AIGC工具已经被应用在了影视行业了，比如《瞬息全宇宙》里面主角高速穿越多个宇宙的镜头，可以用AI技术快速生成出来，能够降低制作成本。“如果使用传统制作流程，哪怕只是为了制作一分钟的视频，也需要一个庞大的团队工作好几个月才能完成，涉及到脚本、建模和后期渲染等多个过程。”

财联社记者了解到，有部分电影人在接受Luma发布的Dream Machine内测邀请后，使用该款AI工具制作了一些微电影以及预告影片。继生成短剧剧本之后，AI视频生成工具将有可能被用于直接生成短剧，而这一尝试也会让短剧赛道的链路更短。

当下，可灵在B端的商用还未开启，但从此前AIGC技术应用来看，短视频切片、评论区互动、数字人主播等均是内容电商可以落地的场景。

据悉，包括京东、快手、抖音在内的电商平台已经使用AI大模型辅助商家进行运营。比如京东免费数字人代播服务，能24小时不断进行直播；快手的“AI脚本生成+智能高光切片+全模态检索大模型”功能等等。

快手方面提供的数据显示，AIGC技术的应用已经开始提升营销转化效率，通过盘古视频AIGC素材整体提升营销转化率33%。

有业内人认为，未来文生视频工具也有可能被商家应用在产品功能、场景短视频展示上面。“相较于对每个产品进行实际拍摄，直接使用AI工具生成视频的时间成本和人力成本可能会更低。”

对成本端的影响，也能从当前数字人主播应用效果得出一定结果。快手磁力引擎项目招商负责人、磁力学堂负责人王思洵分享了一组数据：“在尽量过滤掉干扰项的前提下，我们测试发现真人直播间和数字人直播间数据表现几乎一样。AIGC技术自动生成直播/短视频素材，使得企业的直播风险可控，运营效率也得到了提升。”

天风证券分析师认为，生成式AI在视频创作和世界模型的大踏步进步将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域，可灵、Sora等AI原生产品有望融入工作流，增强用户体验、降低用户使用壁垒、进一步降低创作成本，并极大拓展创作者能力边界。

该名证券分析师补充道：“与OpenAI其他产品不同，Sora代表的DiT架构路径复刻难度在算力充足的前提下相对较低，国内头部大厂在生成式视频工具上的布局速度可能会持续超预期。”

来源：财联社

标签：

猜你喜欢

最新文章