技术科普:热闹的百模大战,着急的音频模型
1.1 从大语言到多模态,AI进入「日更」模式
2023年被誉为「生成式AI元年」。2022年11月,OpenAI 发布以GPT-3.5 模型为内核的ChatGPT。ChatGPT涌现出了上下文学习、思维链等高度智能,被认为具有颠覆式的技术突破、跨领域的应用价值,AI Agent等衍生方向也被认为具有平台和入口级意义。以此为节点,大规模参数、大算力、「暴力求解」风格的大语言模型(LLM)开启了历时性进程。短短几月,大量AI创业公司和科技厂商纷纷入场,LLM领域进入百模大战。
自然语言、图像、视频、音频等不同信息形式,在计算机领域被称为不同「模态」。多模态研究一直是人工智能领域的不同分支。大语言模型爆发后,多模态大模型也成为技术热点。计算机视觉领域,文生图模型在两年内有了快速飞跃。Midjourney在2022年2月发布了初版,同年11月的V4版的真实度和艺术感大幅提升;开源模型Stable Diffusion在2022年8月首次出现,2023年7月推出XL1.0版,体现了出色的写实性和提示词理解力。
视频生成向来被认为是大模型的技术高地,Runway、Pika等公司在此深耕已久。2024年2月,OpenAI推出了Sora模型生成的高质量视频范例,给定一段描述或一张静态图片,就能生成1080P的逼真视频,包含丰富的角色、动作和场景。文生视频领域从此被推入全新阶段。
1.2 音频模型:范式持续发展,爆发来得晚了些
在音乐领域,大模型技术突破似乎比想象中来得更晚一些。直到2024年3月Suno V3的发布,才引起了行业与社会的广泛关注。TME天琴实验室的音频技术负责人赵伟峰介绍到,其实2023年以来,音乐生成领域一直在持续深耕,不断有新模型和范式出现。如今技术范式有了一定共识。主要表现为:从符号音乐到音频模型研究、大模型领域Diffusion和Transformer架构引入、逐渐解决人声唱词问题、文本/语音/音乐/音效综合一体等。
业内代表性的音频模型技术范式:
202301,谷歌的MusicLM(以及202306,Meta的MusicGen)——采用MuLan/Clap跨模态和自回归的Transformer模型。根据文本提示词生成24kHz频率、长达5分钟的音乐,可指定曲风、乐器、情绪等,以纯音乐为主,基本不带人声。
202302,英国萨里大学和帝国理工学院的AudioLDM——采用Latent Diffusion模型架构,明显降低了Diffusion模型对算力的要求。实现了音乐、语音、音效等一体化。
202403,Suno V3(以及202404,Udio)——没有公开技术细节。根据文本提示词,生成不同风格的歌曲,长达2分钟。包含人声唱词,用户也可手动输入歌词。
202404,Stability AI的Stable Audio 2.0——采用类似Stable Diffusion 3的Diffusion Transformer(DiT)架构,长序列处理效果更好。可生成44.1kHz频率、3分钟的歌曲。除了文本提示词,可上传音乐或哼唱来生成。但人声唱词依然存在问题。
*谁是真正的里程碑?
MusicLM & MusicGen:从噪声生成音乐,技术里程碑
一线技术从业者指出,2023上半年,MusicLM和MusicGen就已解决了音乐生成中的大部分问题。在已公开的技术架构中,Transformer也是效果较好的(如何评价生成音乐效果,详见后文)。从技术层面而言,MusicLM和MusicGen更有里程碑意义。因为它将自然语言模态和音频模态进行了连接,并从噪声中生成了音乐。
Suno & Udio:解决人声唱词,成为一个好产品
Suno和Udio则重点解决了另一个问题:人声唱词。这让生成音乐真正变成了生成歌曲。从业者推测,它可能采用了类似MusicLM的架构生成音乐,或是使用一个现成伴奏,再将歌词(用户手动输入或调用大语言模型生成)用TTS技术演唱出来,产生对位效果。由于未公布技术方案,难以断定其技术突破性,但它很好地整合了相关技术,成为了一个好产品。
TIPS:评价AI生成音乐的主要指标(天琴实验室及合作团队经验总结)
1. 音乐性/乐理性:涉及旋律、和弦、编曲、节奏、乐器组合等,音乐的艺术性也作为考量。
2. 标签匹配度:用户希望生成的音乐和最终生成的音乐是否匹配。
3. 唱词(语义):具有语义能力,包括多语言、语义的可懂度、语义的完整性。
4. 长序列的连贯性和结构性:虽然属于音乐性,但长序列是当前技术瓶颈,所以重点关注。短时的音乐性,不一定具备长序列的音乐性。
5. 音质:音质是否能达到可供用户欣赏的艺术作品水平。
6. 更多功能:比如支持更多输入、可编辑能力等。
1.3 技术路线:音频生成走热,或与符号音乐融合
以上可见,2023至2024年间,音频模型取得了快速的突破发展,这在几年前是不可想象的。在更早的阶段,AI音乐生成的技术热点是另一条技术路线:音乐符号生成。
音乐符号路线:词曲编录混均可控,但整体性不足
技术原理:提取出音频中的音乐知识(如词曲、和弦、乐器),类似MIDI,把它变成类似音乐功能谱的数据形式,拆分成「词曲编录混」各个环节来生成,包含AI作曲、AI编曲、AI歌声合成等技术。
长短版:最大优势是每个环节都可被控制,能更好地嵌入音乐人的工作流,成为辅助创作工具。但由于串联了多种技术,很难做到整体效果好。音乐是词曲编录混的有机融合,有时候词很好、曲很好,组合在一起却比较糟糕。另一个问题是,曲谱的训练数据相对音频要少得多。
音频模型路线:整体效果较好,但编辑/分轨困难
技术原理:端到端直接生成完整音乐。可以理解为,把一段音乐看作一个频谱图,把频谱图当作图片来训练AI,类似图片生成,找到自然语言和音频之间的对位关系。
长短版:生成的作品整体性强,但因为是端到端,想要进一步编辑调整(比如修改单句旋律)比较困难,获取分轨、MIDI这类制作文件也很难实现。另一个问题是,由于音频复杂度高(每秒至少有44100个数据点),提升音质需要投入极高的算力。
*路线之争?路线融合!
两条技术路线的竞赛中,随着MusicLM和Suno等模型产品的发布,让技术热点的天平又转向了音频模型一侧。不得不感叹,大模型的暴力求解风格在音乐领域也在被验证。但是,目前的音频模型依然面临几大技术卡点:可编辑性不足、长序列的音乐性、音质较差。
其中,「可编辑能力」的实用价值和行业呼声都很高,它也正是音频路线的短板,符号路线的长板。端到端模型反向解决编辑问题,则要对音频训练数据做更精细化的标注——回到了符号路线的逻辑。因此,DeepMusic灵动音科技的创始人兼CEO刘晓光认为,未来的音频模型和符号模型一定是协同起来的。我们可以用不同维度的音乐符号,通过音频模型来生成音乐。
应用变革:放下路线之争,各自投石问路
虽然音乐生成的技术架构、路线尚未完全公开和统一,但大方向已被验证,各方的技术竞赛和应用探索也在加速。以Suno、Udio为代表的端到端产品,在热潮过后需要思考其应用价值;DeepMusic作为符号路线的代表,正在新态势下更新自身能力;TME天琴实验室作为平台的技术引擎,更多探索的是AI音乐生成与音娱平台的深层关联。
2.1 Suno/Udio类产品:低阶替代、创作启发及更多?
Suno类产品引发的反响,除了技术突破,很大程度在于它的大众属性:第一次让普通人体会到了「创作」歌曲的美妙。虽然这种近乎「一键生成」的方式很难等同于传统创作,但这种体验的发生,让我们得以更合理地推演AI音乐的未来。
业内几个比较有代表性的认知:
Suno音乐水平:超过X%的音乐人作品。X的范围从50%-80%不等,反映从业者的主观经验而非准确测算。这一方面肯定了AI音乐已达到一个不低水准。另一方面也因为音乐人的参差不齐,许多作品质量本就不够高。
音乐内容过剩,AI音乐难以撼动目前的音乐消费格局。AI音乐来临前,音乐行业就已经供过于求,只有少数作品能获得高热度。这些作品或十分优质,或得益于强大的宣推。因此,达到中庸水平AI音乐,不足以改变现存格局,除非宣推环境也发生变化。
但部分品类将被AI接管:低阶配乐、公播音乐、短视频BGM等。因为它们相对标准化、模式化,AI比人的产出效率更高。此外,这些品类都不具有个人IP属性(听众通常不知道创作者是谁)。许多大热流行歌曲,往往都与创作者的个人IP绑定和相互加成。
音乐人可用Suno们启发灵感,「可编辑」成为大势所趋。虽然Suno音乐离专业音乐人的工作流比较远,但对音乐创作依然有启发性,毕竟创作是一个灵感性的实践活动。但想要往实用性发展,「可编辑能力」是一个刚需,这点在视觉生成领域也已被验证。
一个面向「中度音乐实践者」的简化音乐工作流可能诞生。刘晓光认为,中度实践者是一个爱玩音乐,但未必想了解复杂乐理的人群。因此,音频模型的发展会催生一种简化的音乐工作流:1)大模型生成伴奏+歌词 2)带有自己音色的AI歌手演唱 3)简单交互实现任意颗粒度修改 4)大模型制作专辑图、MV等发行物料。目前还受制于编辑能力和音质,但未来1-2年,这样的生产体验就能比较成熟。
TIPS:音乐市场人群细分(DeepMusic的市场研究)
根据对音乐的参与度和专业性不同,音乐人群可分为3类:专业音乐人、音乐实践者、泛音乐爱好者。音乐实践是一种介于专业生产和纯粹消费之间的状态。
1.专业音乐人:规模100万级。主要参与方式为创作与表演,约10万有制作能力。
2.音乐实践者:规模1亿级。参与方式包括玩乐器、音乐APP、音乐社团等。可再分为深度、中度实践者,最大的区别在于:中度实践者不一定有创作意愿,不需要精细控制音乐内容。
3.泛音乐爱好者:规模10亿级。绝大部分为听歌,也包含唱K、看音乐演出等行为。
2.2 DeepMusic和弦派:从专业工具扩散到不懂乐理的人
与Suno类端到端产品相比,符号音乐生成天然具有可编辑性,在服务专业音乐人上更具优势。DeepMusic是一家深耕符号路线的国内代表性的AI音乐创业公司。刘晓光对此分析到:音频模型如同「大力出奇迹」,具很高的不确定性,且国内训练成本是国外的10倍。去赌一个不一定花费多高和多久能成功的音频模型,ROI非常低;但符号模型在效果不够好时,有中间产物让用户自行修改,更具有阶段性价值。
随着音频模型的突破,DeepMusic会等到基础音频模型开源后跟进;并且发挥自身积累的优势,用精细化标注的闭源数据对音频模型进行控制。可见,从端到端产品突破可编辑能力,到符号路线公司整合音频模型,两种技术路线正在发生融合回归,且看谁能跑出更理想的成果。
DeepMusic的旗舰产品「和弦派」是一款辅助创作工具。2024年初进行过一次智能化升级,融入AI编曲、AI歌声等功能,能够一站式生成高质量Demo,并且各环节可控。但用户还需面对门槛较高的音乐功能谱。当前用户构成也偏专业化:20%音乐人、30%音乐老师、25%懂乐理的中度实践者、25%不懂乐理的中度实践者。4月底「和弦派」2.0版上线,刘晓光指出,下一步目标用户会泛化,面向不懂乐理和功能谱的人,正式进入中度实践者赛道。
2.3 TME天琴实验室:技术能力先行,寻找B/C端价值场景
大模型技术爆发后,国内不少互联网及硬件厂商均以不同程度加入竞赛。作为音乐娱乐平台的TME,面对语言、视觉、音频模型的技术演进,思考也从未停止。
TME天琴实验室高级总监吴斌认为,大模型有一个重要特点:核心模型数量很少,当结构足够通用时,就要靠堆算力堆数据去实验。与此同时,更优秀的开源模型不断出现,让许多公司的早期投入失去意义。整个行业还处在一个很动荡的状态,盲目投入并不可取。最关键的决策在于「怎么去跟进大模型趋势才最合理」。平台的核心能力是用户与场景,我们可以在开源模型基础上,重新理解场景,做更好的应用服务。
即便没有选择「All IN大模型」,但在技术快速更新期,天琴实验室仍做了这3件事:
认知能力跟进:吴斌强调,哪怕不去硬训模型,对它的一线认知、训练能力还是要先具备。等到时机成熟,能够马上发力。视觉模型成为天琴的早期大模型发力点,2022年7月开始自主研发了Muse音乐视觉技术,并从图片进阶到视频领域。2024年3月,MuseV虚拟人视频生成框架正式开源,在视频一致性、时长和口型生成方面领先行业,受到业界好评。
AI应用试点:基于技术储备,天琴也活跃地进行应用试点。例如应用于直播间的礼物生成,可让用户文字生成有创意、个性化定制的礼物,丰富了直播玩法,带来了可观的商业收益。有时看似微小的场景,会有超出预期的反响,这也进一步加深了平台对用户场景的理解。
大模型加速:大模型的技术特点决定了它的高昂的调用成本。大模型加速,即是降低模型的推理成本。天琴研发了MUSELight大模型推理加速引擎,并发现加速版Stable Diffusion的成本能达到原版的1/10甚至更低。这对一个服务海量用户的C端平台,非常有意义。2023年5月,天琴也将关联的3项加速版本向全行业开源。
由于视觉、语言模型技术成熟较早,早期天琴的音频模型投入占比并不高。赵伟峰介绍到:2023至2024年,天琴的音频模型投入在不断加大,研发重点也从歌声合成模型「琴韵」转向了歌曲生成模型「琴乐」。
「琴韵」歌声合成:2023年起,天琴的「琴韵」歌声合成模型逐渐成熟。与此同时,业内出现了「AI孙燕姿」事件,反映出歌声技术可能被滥用的风险。于是,天琴找出了两个合规应用的场景:一是作为用户玩法,在K歌场景下用户上传自己的声音,生成任意演唱作品;二是歌手授权合作,促成了「AI王力宏」演唱《Letting Go》等大热歌曲的事件。
「琴乐」歌曲生成:去年以来,基于符号路线的AI作曲、编曲技术已在QQ音乐上线多个应用。2024年,天琴发力音频生成模型「琴乐」。4月完成了文生纯音乐的1.0版,已整合到「启明星」音乐制作服务平台中。「琴乐」还参与到上海民族乐团的音乐会创作中,取得了不错反响。歌曲生成等复杂能力可以拭目以待。作为这一轮AI技术下的用户平台,TME选择踊跃但理性投入,争取打造技术能力与用户价值之间的最佳桥梁。
AI安全:应对未知的一道防线 ,重要的应是多方参与
AI技术与应用昭示着潜在巨大的产业变革和社会影响,如今这些变革已近在眼前。反思技术的社会影响,以科技伦理视角,尽可能干预技术走向,是我们应对不确定性的底线。在大语言模型领域,价值观对齐问题已经成为产学界和政策制定者的关注重点。在AI音乐领域,围绕音乐版权、创作者生存的议题也成为了讨论焦点。
3.1 音乐版权:回到「鼓励创作」的初衷
在语言、视觉、音频模型领域,相关版权争议同时存在。主要涉及两个关键问题:①模型训练阶段,训练数据的版权合规问题;②内容生成阶段,AI生成物的可版权性问题。
在训练阶段,AI模型需要使用海量数据做预训练。如果训练数据中包含受著作权法保护的版权作品,需要符合著作权法中「合理使用」规则,或得到版权方授权。
在这一问题上,ChatGPT、Stable Diffusion等产品及背后公司都面临着来自《纽约时报》等版权方或艺术家的诉讼,案件尚在推进中。一方面,通过版权保护来鼓励创作,是内容行业长远发展的命脉;另一方面,新技术带来的潜在机会、竞争者挑战正在倒逼产业加速。两种诉求需要得到平衡共赢。目前全球范围内,这一问题还没有明确进展。随着技术产品走向成熟,AI公司与版权方也正积极谋求谈判,寻求许可授权并分享收益,这是未来的一个重要推动方向。
在生成阶段,AI生成的内容是否具有版权?版权归属于谁?目前在大部分国家,著作权法都不认可人类以外的主体。但生成式AI发展至今,各国立法、司法都在积极探讨相关保护方式,一个重要原因在于:人类在AI生成中还起着非常重要的作用。以ChatGPT为例,人类在3个环节中体现了干预或创造:①模型训练中的“人工反馈强化学习”环节、②用户使用中的创造性提问、③内容生成后的调整优化。注:参考《2023植德人工智能年刊》
2023年末,国内首个「AI文生图」著作权案件在北京互联网法院审结,做出了开创性探索。了解这一案件的审理思路,有助于我们理解问题的实质和走向。
国内首个「AI文生图」著作权案件:(参考人民法院报)
案件回顾:原告李某使用Stable Diffusion,通过提示词生成图片,发布于小红书平台;此后被告刘某在百家号的一篇文章配图中使用此图,未获原告许可,并截去了署名水印。
审理要点及结果:原告在最初构思到最终选定图片过程中,通过设计人物呈现方式、选择提示词、设置参数、多轮图片优化等活动,投入了原告的审美选择和个性判断。涉案图片体现出原告的「独创性智力投入」,故被认定为作品,著作权归属原告,被告侵害了信息网络传播权和署名权。
裁判解析:利用AI生成的内容,是否构成作品,需要个案判断,不能一概而论。本案坚持著作权法只保护“自然人的创作”的观点,同时进行两点考量:①传统理论的全新应用场景。AI时代,人类创作工具已发生根本性变化,但并不意味着人类对画面元素不需要选择和安排;二是法律判断之外的价值判断。认可「作品」属性和「创作者」身份,有利于鼓励人利用AI工具进行创作,促进AI生成内容的标识和监管,强化人在AI发展中的主导地位,推动AI技术的创新发展和应用。
业内法律专家也指出,这一判决只适用于案件自身,还不能作为类似案件的参照。AI生成内容的「可版权性」依然存在争议。一个较为普遍的操作思路是:并非有人参与的就是创作,需要判断人的参与程度。且在语言、视觉、音频等不同领域,参与程度有不同的认定方法。
这两个问题均有很高的复杂性,找到共赢解法仍需时间。但我们能看到,背后一以贯之的价值逻辑:著作权法的立法目的,是通过保护人类的「独创性智力投入」,来「鼓励创作和传播」。AI技术有着解放生产力、促进内容行业发展的巨大潜力,却不能以牺牲人类创造力为代价。我们期望通过辨析、约束和利用,让它能正向推动创造力的繁荣。
3.2 人机关系:放下竞争,寻求协作
人类创作者会不会被AI替代?是另一个讨论热点。不只AI音乐,大模型技术乃至每一轮技术革命出现时,人们都有类似的不安。但历史结果表明,新技术一定会淘汰一部分低阶工种,但它不替代整体人类。并且随着低阶工种的淘汰,倒逼人们去创造更能体现自身价值的工作。于是就有了这句调侃:淘汰你的不是AI,而是会用AI的人。
具体到AI音乐行业,前文对Suno的几则判断也大致表明:由于音乐内容供过于求,想要获得市场认可,往往需要做到极高水准,或被强大的宣推驱动,这是AI音乐所不具备的。优质作品中蕴含了人类艺术家的独特个性、经验与情感,这也是AI音乐所不具备的。但是,罐头音乐等低阶工种,应该逐渐就被AI接管了。
与此同时,速成的AI音乐能够启发音乐人的灵感,AI工具能够解决音乐人工作流中的非创造力劳动。所以,更好的视角不是与之竞争,而是站在AI的肩膀上。知名音乐人、制作人陈珊妮曾鲜明地表达:创作人该在意的或许不是「我们是否会被取代」,而是「我们还可以做些什么」。回到人类的能动性。对于音乐人发展,技术从业者们也给出了一些友善建议:
技术从业者对音乐人的友善建议:
吴斌:我觉得大家不妨多听一下,多玩一下。因为这个趋势是挡不住的,哪怕你不拥抱,大部分音乐人也会拥抱,最后还是被倒逼,那不如早一点。去了解AI能轻易做到什么,做不到的是什么。有些东西AI就是做不好,这时候音乐人就能发挥自己的优势了。
刘晓光:简化的音乐工作流将一定程度上成为新的音乐生产方式,建议音乐人了解,并和AI配合。也请相信AI会越来越可控,让音乐人实现自己想要的创作。但是非IP化歌曲,应该慢慢就真做不过AI了,音乐人需要越来越注重自己的IP属性,做自己的专属表达。
3.3 多元视角:再强调也不为过
李飞飞(斯坦福大学首任红杉讲席教授、前谷歌云人工智能及机器学习首席科学家)曾指出,训练人工智能的高昂成本,正在将学术界排除在外,成为商业公司的特权。斯坦福大学报告指出,2022年科技行业贡献了32个关键的机器学习模型,而学术界仅有3个。这导致一个问题:商业用途的技术快速发展,公共价值、解决社会风险的技术显著落后。
虽然这一问题难被彻底解决,但当质疑之声变大之后,也会带来更多公共领域的保障行动发生,并能激发商业公司的更多自省和安全部署。
技术、产业、学界、第三方等,拥有不同的价值导向和专业能力,这种多元视角的参与,更可能让新技术朝符合人类价值的方向发展。在音乐领域,艺术家与产业、技术之间也存在多元视角。但由于高昂的技术门槛、艺术门槛,这两类人群之间存在很大的信息差。
赵伟峰指出,在天琴实验室,研发团队8成以上的人员都要具备一定音乐素养,尤其符号路线需要更深的音乐知识。音频模型路线中,还需与专业音乐团队合作,对AI生成内容做评判。这样的互动才能让AI音乐更符合艺术家的标准。
专业评判只是最基础的参与形式,这种多元视角的对话协作,还有助于解决更为重大的问题。例如,陈珊妮曾提出一个锐利的见解,认为如今特异的音乐越来越少。因为数字音乐以来,音乐一直在被分类,让人便于管理和更快聆听。但如果有个人特质的东西不在电子类、嘻哈类,那它是什么?它的流量就会降低。AI音乐也类似,它容易让各种技术指标趋于均值,但美感并不是这样的。
又例如,吴斌从技术原理视角给出了对于AI音乐水准上限的判断:大模型技术路线的实质是,从人类内容中学习,它本质上没有一个抓手去超越人类内容;但如果我们讨论AGI,就涉及另一个技术路线:强化学习。它能让AI在一个环境中自行探索试错,理论上就有可能突破人类已有内容的瓶颈。
我们需要来自艺术家的审美经验、人文关怀及理性的质疑声音,也需要来自技术从业者从底层原理出发的可靠推论,以及产业、学界及更多人......通过多元视角,用理性精神和技术力量去修复技术变革中的偏误,引导人工智能领域的良性发展。
AI音乐在线生成:https://ai.cy211.cn/