OpenAI突然发布首款文生视频模型——Sora。简单来说就是,AI视频要变天了!它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。
OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型——Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。
如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。
技术方面,目前OpenAI透露的不多,简单介绍如下:
Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,
关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。
在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。
通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。
Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。
除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。
该模型还可以获取现有视频并对其进行扩展或填充缺失的帧,请参阅技术论文了解更多信息(晚些时候发布)。
Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。
三六零创始人周鸿祎发文表示:【Sora 意味着 AGI实现将从10年缩短到1年】对于OpenAI发布的首个视频生成模型Sora,2月16日,周鸿祎在表示,这次很多人从技术上、从产品体验上分析Sora,实际这些都比较表象,最重要的是 Sora 的技术思路完全不一样。周鸿祎表示,这次 OpenAl利用大语言模型优势,把 LLM 和 Diffusion 结合起来训练,让 Sora 实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。周鸿祎认为,Open Al训练这个模型应该会阅读大量视频。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube 上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。
以下是A股“AI视频”概念股梳理:
信雅达:虽然公司没有AI视频业务,但这波AI视频的热度要靠信雅达来维持。信雅达表示,Pika开发团队创始人之一郭文景系公司实际控制人郭华强先生女儿。除上述关系外,公司与Pika无其他关系。(应用)
万兴科技:万兴科技很早布局AI视频领域,万兴发布的“天幕”大模型,是国内首个专注于以视频创意应用为核心的多媒体大模型,只需输入故事概要,就可以通过大模型能力实现全新视频内容的完整生成。近期,万兴科技AI视频创作软件Filmora13在东京举办发布会。果麦文化:11月,公司介绍,公司布局的AI漫画大模型进展顺利,未来将陆续推出动画电影、短剧、互动漫画等。网达软件:根据公司半年报的内容,公司持续加大在融合媒体智能化生产及视频AI行业应用领域的研发投入,研发费用较去年同期上升。(应用)
因赛集团:8月接受调研时表示,目前公司国风虚拟人“姜小黄”已接入AI大模型实现了超写实化,正在接入和并用多个AI模型测试虚拟人视频生成功能。(应用)
捷成股份:根据公司半年报内容,公司结合AI技术的发展及在智能媒体资产管理系统的布局,加大在AIGC领域的技术开发和应用力度,推动AIGC 相关技术在内容创意、影视剧内容制作、短视频创作等领域的深度应用。(应用)
昆仑万维:公司正式发布“天工SkyAgents”平台,用户在上面可以创建自己的大模型。公司“All in”人工智能,4月发布自研大语言模型“天工”,近期转让子公司股权,更好的聚焦于AGI和AIGC业务。目前,昆仑天工已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵。(应用)
易点天下:8月在接受调研时表示,还有内测中的AI电商视频广告工具,目前内部已经可以实现10倍的广告素材生产效率。(应用)
蓝色光标:8月,蓝色光标全资子公司蓝色宇宙发布一款在线AI视频生产平台——蓝标分身,可以降低了音视频制作的难度。
焦点科技:5月份接受调研时表示,公司将持续迭代AI麦可,并计划在未来的版本中增加视频处理、AI数字营销和24小时AI客服等相关功能。(应用)
美亚柏科:公司发布的AI-3300“慧眼”视频图像鉴真工作站,可对生成式人工智能产生内容进行检测识别和鉴定。(检测)
盛天网络:AI+音乐,根据最新的调研,海外有数款产品在Q3搭载了AI歌声进化功能并收获了较好口碑。(应用)
当虹科技:公司目前在一些演播室、智能媒资平台等业务上已有AIGC方面的落地,可为电视台、新媒体、互联网、泛媒体行业等客户提供通过AI技术进行短视频、长视频的生产/加工等解决方案。包括比如:AI智能剪辑;用AIGC的方式自动生成对应短视频,大大简化了流程提高了效率,保证了视频上线的时效性。(应用)
国科微:公司布局的AI视觉处理芯片主要用于机器视觉领域。在视频编码系列芯片市场,公司将持续推进视频编码系列芯片的研发,通过深度学习等人工智能前沿技术与智能视觉的结合,实现对视频中目标检测、目标跟踪、目标分类和行为分析,并通过以大数据分析为代表的智能信息分析技术,实现恶性袭击事件预警、人流管控等应用,提升公司视频编码系列芯片的研究和产业化水平,支撑我国人工智能芯片产业的迅速发展。
AI文生视频在线使用:https://ai.cy211.cn/web/#/video