从文生图到文生视频，AI行业卷疯了

来源：互联网更新时间2024-01-03 08:48:55 点击数：

前不久，身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂，让人不可思议的是，动画版的马斯克不仅神形兼备，背景和动作也非常连贯合理，而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服，3D动画”的关键词，一个身穿太空服的卡通马斯克便能跃然于屏上。

近几年，随着AIGC赋能多业态应用的加速落地，整个行业的热潮，已经逐渐从文生文、文生图，转向了文生视频领域。事实上，AIGC从文字到视频是大的发展趋势，不少产业人士已经感知到了市场的风向，国内字节跳动、阿里、百度等科技大厂均已跑步入场。

AIGC迈入视频时代

据了解，字节跳动于11月18日推出了文生视频模型PixelDance；阿里紧随其后也上线了Animate Anyone模型；百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。显然，AI技术与文生视频的融合已经在业界掀起了一股新的热潮。而国内玩家之所以如此积极地下场布局，其中的原因不言而喻。

首先，文生视频应用非常广泛，具备巨大的市场潜力。短视频市场虽然方兴未艾，但短视频的制作能力却跟不上各个平台爆发的短视频需求。而文生视频技术的日趋成熟和广泛应用，或将为当下热门的短视频市场带来一些变数。比如，影视和游戏等行业就是文生视频落地的重要场景，文生视频用文字就可以编辑和生成想要的故事情节，实现创意辅助和降本增效。而凭借为内容生成赋能这一独特优势，文生视频的前景也是毋庸置疑。

其次，文生视频操作十分便利，能有效降低各项成本。众所周知，个性化的视频制作麻烦、成本高昂，所以一款简单的视频生成工具，就成了不少行业和企业的渴望，而AI文生视频技术能力的突破则为这一问题带来全新解决方案。文生视频顾名思义就是无需视频制作技巧，仅用简单文字就可以生成想要的视频素材，不仅如此，还能随着输入场景和关键词不断更新，简直大大降低了视频制作的门槛和成本，可以说是创作者在数字化时代下的“福音”。

最后，文生视频产品功能惊艳，能进一步增强企业竞争力。在当下的AI赛道上，文生图的应用早已层出不穷，相比较而言，能够完全“攻下”文生视频这一阵地的玩家却是寥寥无几。归根结底，是文生视频的产品功能更加强大，其难度自然也就可想而知了。只不过，高难度往往伴随着高价值，若是有哪一个企业能凭借强大的算力、跨领域合作能力和技术自主性等优势引领这一赛道，那么其在行业内形成差异化优势也将指日可待。

万丈高楼平地起

文生视频作为一种新兴的传媒形式，正以前所未有的方式影响着我们的日常生活。目前，在企业宣传、数字化人、科普创作、线上社交等领域都对文生视频技术有所运用。而为了提高视频生成的流畅度、真实感，国内入局的玩家如字节跳动、阿里和百度等都在多个方面下足了功夫。

一方面，各玩家收集了大量数据，以提高视频生成效果的多样性。文本生成视频模型往往需要大量数据来学习字幕的相关性、帧照片的写实感和时间的动态信息，而缺乏高质量配对的数据集，就难以合理组合人物、难以合理架构场景，因此，生成视频的合理性及连贯性就会大打折扣。阿里为了提高生成效果的多样性，就让其研究人员收集了大约3500万单的文本视频对和60亿文本图像对来优化模型，让生成的视频达到了预期效果。

另一方面，各玩家设计了分层编辑器，以提高文生视频语义的一致性。从简单文字生成高质量视频，就需要文生视频产品能够准确预测文字的意图，然后在保持输入文字内容和结构的同时生成精确的运动。为了达到这一目标，阿里的研究者设计了两个分层编码器，即固定CLIP编码器和可学习内容编码器，分别提取高级语义和低级细节，然后将其合并到视频扩散模型中，更好地确保了低分辨率下生成视频的语义连贯。

除此之外，各玩家还提高了视频分辨率，以保证视频生成效果的高质量。文生视频最理想的效果就是用户给出提示词，系统自动生成任何风格相对应的视频，但这就对视频分辨率提出了不小的考验。阿里的文生视频将视频分辨率提高到了1280×720，还优化了初始的600个去噪step，以改进生成视频中存在的细节、伪影和噪音问题。字节跳动文生视频也提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性变得更强。

打铁还需自身硬

随着人工智能和视频技术的快速发展，AIGC行业正在向AI视频倾斜，AI文生视频的爆发期或许即将到来，而参与到AI视频创作中的玩家也将会越来越多。即便是在这样的大环境下，不管是已经推出模型的字节跳动和阿里，还是正准备推出插件的百度，能入局文生视频赛道，其自身都有着不可忽视的倚仗。

一来，参与玩家算力储备充足，能很好地克服文生视频在技术上的不足。作为文生文、文生图的升级，文生视频对算力以及模型的工程化能力要求更高。据了解，文生视频的人工智能模型参数为10亿级别至100亿级别。而国内在文生视频领域有所布局的头部玩家中，无论是字节跳动还是阿里、百度，其在参数上的积累都已经十分深厚。可见，这些具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

二来，参与玩家行业经验丰富，能大大加速文生视频面世和迭代的速度。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性，一定程度上来说，文生视频可以看作是文生图的进阶版技术，这也就意味着，文生图的技术和经验可供文生视频加以运用和参考。而众所周知，字节跳动、阿里、百度等玩家早已在文生图领域有所深耕，甚至有的产品也已投入商用，凭借在文生图技术上的积淀，其在文生视频领域也有望实现大幅进步。

三来，参与玩家资源整合能力强大，能够为其文生视频的发展提供助力。相较于文字和图片，视频能承载的信息量更大，这也就是说，想要生产出更加生动、高清，真实感更强的视频，各玩家在文生视频上的投入成本也将更高。不过，值得一提的是，作为互联网大厂，阿里、百度、字节跳动经过多年发展，其在人才、资金、算力等众多资源和实力上的优势和权利不容小觑，得益于此，其文生视频产品也将拥有更强的竞争力和影响力。

山雨欲来风满楼

文生视频不仅颠覆了传统媒体行业，也为内容升级和产业进化带来了许多新的商机和可能性。只不过，目前国内文生视频技术还在发展的初级阶段，虽然看上去文生视频与文生图的逻辑极其相似，但事实上，文生视频的难度要大得多，需要突破的瓶颈也有很多。

一是，文生视频数据要求高、计算难度大，参与玩家离产出令人满意的视频还有很大距离。相较于文字和图片，视频在多维信息表达、画面丰富性及动态性方面有更大优势，但这同时也意味着，文生视频对算力的需求将进一步加大；文生视频所涉及的自然语言处理、视觉处理、画面合成等领域，需要攻克的技术难点也在增加。而国内的玩家，目前仍然缺乏高质量配对数据集，因此其在语义准确性、清晰度和连续性等方面将会面临严峻挑战。

二是，文生视频成本耗费大，商业模式较单一，参与玩家想要将商业化跑通还有一定难度。与文生图相比，文生视频的计算复杂性提升，其成本耗费也会相应有所增加。另外，图片生成类的商业模式较为单一，收费模式和收费依据较为趋同，而视频生成模型的收费依据则与其类似。虽然图片生成类在多模态大模型中的商业化程度较高，可为视频生成的商业化前景提供一定参考，但作为新兴产业，文生视频的商业化想要跑通仍需一定时间。

三是，国内外企业纷纷加大了对文生视频的投入和研究，该赛道的竞争将会进一步升级。AI视频生成赛道已然十分热闹，不仅有美国AI初创公司Pika labs发布的“Pika 1.0”，还有谷歌推出的AI视频生成模型“W.A.L.T”等。而除了国外企业对文生视频技术的高度重视外，国内百度、阿里、字节、腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足该领域，并推出了相关的人工智能模型，显然，视频生成领域的竞争正日趋白热化。

从文生图到文生视频，AIGC赛道的竞争已经非常激烈。虽然国内文生视频的进展相对缓慢，尚且没有明星产品的出现，但更多有人才、有技术的文生视频公司正在不断涌现。只不过，除了上述挑战之外，文生视频目前还有一些数据隐私和安全性问题需要解决，真正的商业化运作和盈利能力也还有待验证。而谁能在这次“跑马圈地”中成为最终的赢家，我们也只能拭目以待。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟