在周二的re:Invent大会上,亚马逊网络服务(AWS)宣布推出其新型多模式生成AI模型系列——Nova。此次发布的Nova系列包括四种文本生成模型:Micro、Lite、Pro和Premier,此外还推出了图像生成模型Nova Canvas和视频生成模型Nova Reel。
亚马逊首席执行官Andy Jassy表示,Micro、Lite和Pro模型将在当天开始向AWS客户推出,而Premier模型预计将在2025年初发布。Nova系列专为处理多种输入形式(包括文本、图像、视频)而设计,其中文本生成模型特别优化了15种语言,主要支持英语。
Nova文本生成模型
Nova文本生成模型具有不同的功能和规格。Micro模型以最低延迟和快速响应著称,但仅支持文本输入输出,适合快速处理任务。Lite模型支持文本、图像和视频的快速输入处理,而Pro模型则在准确度、速度和成本之间提供了平衡。Premier是最强大的模型,专为复杂工作负载设计,适合需要定制模型的高级应用。
这些模型的上下文窗口大小也有所不同。Micro支持最多约100,000个单词,Lite和Pro模型可处理大约225,000个单词、15,000行代码或30分钟的音频内容。而AWS表示,到2025年初,某些Nova模型的上下文窗口将扩展到200万个标记。
Jassy强调,Nova系列是同类产品中速度最快、成本最低的AI模型。它们能够在AWS的AI开发平台AWS Bedrock上进行微调,进一步提高速度和效率。此外,Nova系列可以与专有系统和API无缝配合,执行多种自动化任务。
Nova Canvas和Nova Reel
除了文本生成,AWS还推出了两款图像和视频生成工具:Nova Canvas和Nova Reel。Nova Canvas允许用户通过提示生成和编辑图像,并提供对生成图像的配色方案和布局的控制。Nova Reel则可以根据提示或参考图像生成长达6秒的视频,并允许用户调整摄像机运动,包括平移、旋转和缩放。
以下是来自 Canvas 的图片:
尽管目前Reel仅限于制作6秒短视频,AWS表示更长的视频版本将在不久后推出。此外,AWS为这些工具内置了责任使用控制措施,包括水印和内容审核,以避免生成有害内容。
Jassy还透露,AWS正在开发一款语音到语音模型,预计于2025年第一季度推出,这款模型将支持语音输入并生成自然的人类语音。此外,AWS还在开发一个“任意到任意”模型,预计在2025年中期发布,支持跨文本、语音、图像和视频的多模态转换。
AWS对于其训练数据的保密性保持谨慎,并表示在版权问题上会提供赔偿政策,以保障客户的合法权益。