继发布最新AI大模型“Genmini”仅一星期后,谷歌又公布了自己的最新AI研究成果。
12月12日,谷歌宣布,其与全球顶级计算机视觉专家、华裔AI教母李飞飞及其学生团队合作,推出了AI视频生成模型“W.A.L.T(全称为Window Attention Latent Transformer)”。
与前段时间刷屏全网、A股信雅达董事长女儿创业研发的PIKA 1.0类似,W.A.L.T也是一款AI视频生成模型。
此前在12月6日晚间,谷歌曾发布其最新一代的多模态AI大模型Gemini,并同步发布了演示视频。
但Gemini发布后不久,即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此,谷歌也一度陷入“造假”指控中。
仅仅6天过去,谷歌又通过发布W.A.L.T瞄准了AI视频生成,这也是如今AI应用落地最为火热的领域之一。
01 携手华裔AI女神,谷歌抢滩AI文生视频
与此前走红的Pika 1.0类似,W.A.L.T同样支持文生视频、图片生成视频、3D视频生成等功能。
而视频效果方面,根据演示视频及论文,W.A.L.T可以通过自然语言提示,生成3秒长的每秒8帧、分辨率为512x896的视频。
▲(图源/W.A.L.T)
产业人士“歸藏”公开评价称,W.A.L.T的效果“比Pika 1.0还要好得多,清晰度和动作都非常好”。
有趣的是,Pika的创始人、信雅达董事长的女儿郭文景,其实与李飞飞颇有渊源。
在退学创业之前,郭文景曾在斯坦福大学AI实验室(NLP&图形学方向)攻读博士学位,而李飞飞则是斯坦福大学首位红杉讲席教授,亦曾在斯坦福大学AI实验室中任职。
与后起之秀郭文景相比,李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗,也是包括谷歌在内、全球科技大厂争夺的人才资源。
根据公开信息,1976年,李飞飞出生于北京,并在成都长大。1992年,16岁的李飞飞随父母远赴美国定居,并在三年后进入普林斯顿大学攻读物理学。
在之后的求学生涯之中,李飞飞一步步确立了对于AI的研究兴趣,并将研究重点转移至彼时十分冷门的计算机视觉领域。2007年,李飞飞在经费短缺的情况下,开始了自己的首个项目ImageNet(教机器识别图像的数据集)。
当时,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。
而李飞飞的设想是,如果有一个足够大的、经过标注的数据集,就能训练出理论上“无所不知”的计算机视觉模型。
2009年,ImageNet正式发布,很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此“一战成名”,拥有了“华人AI教母”等头衔。至今,ImageNet仍是全球AI产学界最知名的大型视觉数据库之一。
无论是一周内连发两大模型,还是与李飞飞团队的合作,都说明谷歌在多模态AI模型研发方面正铆足了劲。
02 AI视频“神仙打架”,国内玩家怎么看?
在刚刚过去的一段时间内,AI视频生成赛道十分热闹。除了Pika 1.0、W.A.L.T,有不少AI视频生成工具密集涌现出来或进行了功能更新。
举例而言,11月初,美国生成式AI独角兽企业Runway对其自研视频生成模型Gen-2进行了功能更新,着力提升生成结果的保真度和一致性。
11月中旬,以社交产品起家的科技大厂Meta发布了Emu Video模型。
11月末,美国文生图片创企Stability AI推出了名为Stable Video Diffusion的视频生成模型,提供SVD和SVD-XT两个模型。
▲(图源/W.A.L.T)
而国内方面,字节跳动、阿里、百度等科技大厂均已跑步入场。
其中字节跳动于11月18日推出了文生视频模型PixelDance,提出了基于文本指导+首尾帧图片指导的视频生成方法,使得视频生成的动态性更强。
紧随其后,阿里上线了Animate Anyone模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作(或姿势序列),就能得到该角色的动画视频。
根据此前的公开信息,百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。
国内外玩家的积极下场,在某种程度上说明AI视频生成赛道将成为这一轮AI技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向,英伟达高级研究科学家、曾在OpenAI工作过的Jim Fan就在社交媒体上写道:“2022年是图像之年,2023是声波之年,2024(将是)视频之年!”
中信证券研报则指出:“参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本、创作门槛,促使AIGC技术产业化进程加速。我们认为从能力的角度出发,文生视频有望率先在短视频和动漫两个领域落地。”
不过,技术革新的另一面,则是对现有业态的冲击。
在国内一家视频创作工具企业工作的Leo告诉「市界」:“今年早些时候我们一直认为AIGC主要还是作用在图文创作领域,但距离满足商业视频要求还要经过一两年的时间。”他补充道,这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。
而现在看来,视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下,现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的,可能是被时代抛弃的结局。