这是一个巧妙的时刻。去年11月末,ChatGPT横空出世,在全世界掀起了人工智能的狂潮,并以史上最快速度实现了上亿活跃用户。一年后,同样的时间,硅谷又出现一枚“AI新星”,一夜之间迅速爆红。
11月29日,AI视频生成公司Pika Labs官宣了最新的视频生成模型Pika1.0,并推出了新网站。据了解,Pika1.0能够生成和编辑3D动画、动漫、卡通和电影。几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频。此外,用户还能够通过Pika实现画布延展、局部修改、视频时长拓展等编辑需求。
在宣传片中,Pika1.0拥有强大的语义理解能力,输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便出现了,身后还有SpaceX的火箭。文生视频的清晰度和连贯性,远超市面上其他AI视频生成产品。
Pika Labs的创始团队同样富有传奇色彩——整个团队目前只有4个人。联合创始人郭文景,是来自杭州的一位“95后”女孩,曾被誉为“天才少女”。郭文景与另一位联合创始人孟晨琳同为斯坦福AI Lab的华人女博士,今年4月,二人一起从斯坦福退学创业。
郭文景的父亲,是A股上市公司信雅达实控人郭华强。Pika走红后,信雅达在11月30日、12月1日连续收获两个涨停,被调侃为“父凭女贵”“女儿概念股”。
随后,信雅达发布公告,承认郭文景与郭华强的父女关系,但“除上述关系外,公司与Pika无其他关系。截至目前,郭文景未在公司担任任何职务,公司未投资Pika,也未与Pika有任何业务往来。”
目前,Pika1.0正式的网页版需要排队预约,尚未有用户实际测评过。有人借此质疑,横空出世的Pika一夜爆红,是否为一场营销骗局?毕竟,在11月之前,Pika还只是一个无名之辈。
事实上,Pika的第一个版本今年4月下旬就在Discord上进行了公测。7月,在Discord正式推出服务器,并在几个月时间内收获了50万用户。由于Pika团队精简,寄生在Discord平台,能够最大限度地减少开发量。
来源:Pika官网截图
最初,Pika只支持文生视频,后来逐渐支持图片转视频、相机控制、文字和Logo嵌入视频中等。Pika1.0宣传片中的许多功能,目前Discord上的版本并不支持,只能等网页版开放测评后验证。
Pika也并非第一次在众人前亮相。今年11月初,《流浪地球3》的发布会上,电影工业化实验室G!Lab官宣成立。郭帆导演介绍了一批战略合作的科技公司,包括商汤科技、小米、华为等,还有Pika Labs。
至今,成立仅6个月的Pika已经完成了三轮融资,总金额5500万美元,估值超10亿元人民币。投资人阵容也可谓豪华——包括OpenAI董事会成员Adam D'Angelo与前特斯拉AI总监Andrej Karpathy、前Github CEO Nat Friedman、YC合伙人Daniel Gross,以及硅谷著名投资人Elad Gil等。
01
全员“天才”
Pika的创始团队,可谓全员天才。
郭文景早在2015年就在社交媒体上走红。当年,郭文景作为浙江第一个被哈佛本科提前录取的学生,被央视报道,被称为“天才少女”。
高一期间,郭文景便获全国青少年信息学奥林匹克联赛(浙江省赛区)一等奖,随后两次拿到奥林匹克数学比赛冠军;此后受美国麻省理工学院邀请参加比赛,获北美编程邀请赛第2名,超过来自哈佛、斯坦福、卡内基梅隆等大学代表队。
进入哈佛后,郭文景一边攻读学业,一边先后去了Meta AI Research、微软、谷歌大脑、Epic Games等公司实习。大二时,郭文景就成为了Meta AI研究部门最年轻的全职员工,并获得了许多国际软件开发大奖。拿到数学本科与计算机硕士学位后,郭文景又到斯坦福大学继续读博。
联合创始人孟晨琳和郭文景为斯坦福同学。过去三年,孟晨琳曾发表多篇研究论文,其中包括已成为内容生成默认方法,并被OpenAI的DALLE-2、谷歌的Imagen以及Stability AI的Stable Diffusion广泛使用的降噪扩散隐式模型(DDIM)。
另一位创始人陈思禹,据透露,与郭文景是杭州二中的同班同学。陈思禹是信息学和物理双料国家集训队成员,后保送北大,也是第一届图灵班的成员之一。4号员工Matan Cohen-Grumi的经验主要在创意领域。
郭文景在接受采访时表示,Pika将持续轻体量化发展,随用户暴增,2024年或将团队拓展到20人。
创办Pika的契机,源于一次不被认可的比赛。2022年,郭文景与几位博士同学决定利用寒假时间使用生成式AI制作一部电影,参加Runway为其首届“AI电影节”举办的大奖赛。郭文景对拿奖很有信心,但现实是几个学霸认真备赛,最终却没能入围。
在备赛过程中,郭文景发现目前市面上制作视频的AI工具异常麻烦,她花了数小时使用Runway和Adobe Photoshop等工具,却收效甚微。这让郭文景嗅到了创业的机会——为何不创造一个更易于普通人使用的AI视频生成器?
想法萌生后,郭文景立刻行动起来。今年4月,郭文景与孟晨琳一同从斯坦福退学,共同开发Pika。
在创业做视频生成之前,郭文景考虑过做游戏行业,因为游戏更容易商业化,为此,在斯坦福读博期间,她还专门去了Epic Games实习,了解游戏行业的痛点。但后来,她发现游戏行业太卷,而AI视频生成还是一片蓝海,机会更多,目前的创业方向“至少可以做十年”。
02
视频生成的“GPT时刻”
在今年ChatGPT掀起的人工智能大模型热潮中,基于语言大模型的聊天机器人成为最热门创业方向;而在泛内容生成类AI应用中,图像生成是最主要的场景,其次是写作工具、视频生成工具。
相较于语言模型,AI生成视频是完全不同的一类模型。其与AI生成图片的模型有共通之处,但难度更高。
郭文景在接受媒体采访时表示,视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的GPU内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。但如果要一帧一帧生成,又要怎么做?很多都是图片生成不会面临的新的技术问题。
孟晨琳补充,视频的每一帧都是一张图片,比图片困难得多。因为每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。
在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将100帧图片传输到GPU上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。
此外,控制视频生成更难,因为模型需要生成每一帧发生的事情,而用户不会希望为每一帧都提供详细的描述。此外,视频生成涉及到更多的空间维度,让问题变得更复杂。再加上互联网上视频生成的训练数据集相对于图像更少,也给获取高质量数据增加了难度。
来源:Pika官网截图
目前,AI生成视频领域的创业已经开始加速。仅11月,除了Pika1.0发布,还有多家企业发布了新的视频生成工具。
11月16日,社交媒体巨头Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑;几乎同时,字节跳动发了PixelDance模型,通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),即可生成包含复杂场景和动作的视频。
11月21日,Runway动态笔刷Motion Brush面世,其特别之处在于,只需在任意图片上抹一笔,就能让其变成一段动态视频。作为最早探索视频生成领域的领头羊之一,过去一年,Runway先后发布了Gen1、Gen2。
11月24日,专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型),这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸。
除此之外,Adobe也在文生视频领域有新动作。日前,该公司宣布已收购AI视频生成创业公司Rephrase.ai,后者主要通过AI技术将文本转换为虚拟形象视频。Adobe高级副总裁兼总经理Ashley Still称,Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。
随着Pika在文生视频领域的应用验证,业内普遍认为游戏传媒类上市公司或将率先受益。值得关注的是,目前多家游戏传媒类上市公司已成功将AIGC技术运用到视频或游戏素材的创作中。
可见,视频领域的竞争日渐激烈,或许将成为下一阶段AI竞争的主要场景。在孟晨琳看来,视频领域的竞争可能会类似语言模型的竞争格局——一家公司发布新模型的时候,他们内部可能已经有了更先进的模型,领先其他公司一到两年。未来在视频领域也会是一家公司领先一到两年、在冲锋,其他公司在追赶。
Pika的爆红,也许意味着AI视频生成的“GPT时刻”,即将来临。