首页 > AI资讯 > AI创业头条

英伟达出品！AI音频模型Fugatto：输入文本、音频可生成音乐、音效

来源：互联网更新时间2024-11-26 10:19:58 点击数：

在音乐和声音创作领域，技术与创意的结合总是面临诸多挑战。现有的 AI 模型往往只擅长特定的任务，缺乏广泛的适应性，这使得 AI 在音乐制作中的辅助作用受限。为了让 AI 更好地服务于音乐与音频生产，亟需一款能够灵活应对各种创作需求的通用模型。为此，NVIDIA 推出了 Fugatto，这是一款拥有25亿参数的音频生成与处理模型。

Fugatto 的设计旨在通过结合文本提示与先进的音频合成能力，提供高灵活度的声音输入和创作实验空间。例如，它可以将钢琴旋律转变为人声演唱，或者让小号发出意想不到的声音。

Fugatto 不仅支持文本输入，还支持可选的音频输入，打破了传统音频生成模型的局限，使得艺术家和开发者能够实时进行创作与修改，流畅地生成新类型的声音。

在技术方面，Fugatto 采用了一种创新的数据生成方法，超越了传统的监督学习。它的训练不仅依赖于常规数据集，还结合了专门生成的数据集，从而创建了丰富多样的音频与转换任务。此外，Fugatto 借助大语言模型（LLM）来增强指令生成能力，更好地理解音频与文本提示之间的关系。

一个重要的创新是 “可组合音频表示变换”（ComposableART），这是一种在推理时使用的技术，能够灵活地结合、插值或否定不同的音频生成指令。ComposableART 使得用户在音频合成过程中拥有更高的控制力，可以精确地导航 Fugatto 的声音调色板，创造出独特的声音现象。

Fugatto 的架构基于增强型的 Transformer 模型，采用了自适应层归一化等特定修改，能够在多种输入条件下保持一致性，支持复杂的组合指令。初步测试表明，Fugatto 在常见基准测试中表现不俗，特别是在声音合成和变换方面，与其他专业模型相比，显示出更强的能力。

Fugatto 的推出标志着音频生成 AI 的一次重要进步，突破了传统的局限，为创意音频制作提供了强大且灵活的工具。其在音乐、游戏、娱乐和教育等多个领域的潜在应用，意味着 AI 技术将继续在助力人类创造力方面发挥重要作用。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

AI创作系统

随便看看

推荐文章

黄新伟实战拆解：Kimi 专属 GEO 优化全套技巧，抢占月之暗面 AI 搜索优先推荐位

黄新伟实战拆解：Kimi 专属 GEO 优化全套技巧，抢占月之暗面 AI 搜索优先推荐位

AI时代流量新蓝海：一文看懂什么是GEO生成式引擎优化

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

AI主权新突破：德国研究联盟发布开源大模型Soofi S

AI主权新突破：德国研究联盟发布开源大模型Soofi S

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

上一篇

返回

下一篇

AI创业之家

转人工 ×