字节豆包语音模型和视觉模型再升级 综合能力提升20.3%

来源:互联网 更新时间2024-08-22 08:51:25 点击数:

在2024年8月21日举办的火山引擎AI创新巡展上海站上,火山引擎展示了其豆包大模型的全面升级,以及对话式AI实时交互解决方案的增强。

豆包大模型自5月15日发布以来,日均tokens使用量已超5000亿,企业客户使用量增长22倍。新版豆包大语言模型的综合能力提升了20.3%,其中角色扮演能力提升38.3%,语言理解能力提升33.3%。

2024060309311804730.jpg

其中,豆包·文生图模型对长文本有更精准的图文匹配能力,多主体、多位置、手部结构等复杂场景的生图能力更强,更善于理解中国特色元素,创造更具美感的中国风图片。豆包·语音识别模型基于大语言模型丰富的知识和推理能力,通过上下文感知,提升语音识别准确性,在多个公开测试集中,与国内公开发布的语音识别大模型相比,错误率最高降低40%;支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等方言。豆包·语音合成模型升级了流式语音合成能力,能够实时响应、精准断句,支持“边想边说”。

此外,火山引擎发布对话式 AI 实时交互解决方案,该方案整合了豆包大模型和实时音视频(RTC)技术,提供端到端的大模型实时对话方案。企业可以轻松地在自己 AI 应用中嵌入该实时语音功能,用户不仅能用语音与 AI 进行交谈,还能像平时说话一样,在对话过程中适时打断或插话,经过升级后的 AI 声音具备较好表现力和感情色彩,对话更自然、更真实、更流畅,让大模型交互体验更强。

火山引擎还宣布与多点DMALL联合成立零售大模型生态联盟,旨在推动零售行业智能化升级,加速行业创新步伐。首批18家成员单位参与了启动仪式。此外,汽车大模型生态联盟也迎来了新成员,火山引擎正与联盟成员在AI汽车行业定义、评测标准发布等方面进行协作。


首页 视频 资讯 我的