首页 > AI资讯 > AI创业头条

微软研究院推AI框架E5-V:用文本对的单模态训练简化多模态学习降低成本

来源：互联网更新时间2024-07-23 15:25:34 点击数：

最近，微软研究院与北京航空航天大学的研究团队联合推出了一个名为 E5-V 的全新框架，旨在为多模态嵌入提供一种更高效的解决方案。随着人工智能的不断进步，多模态大语言模型（MLLMs）已经成为研究的热点，它们能够同时理解文本和视觉信息，从而更好地处理复杂的数据关系。但在多模态学习中，有效表示多种信息仍然是一个重大挑战。

项目入口:https://github.com/kongds/E5-V/

以往的模型如 CLIP，虽然通过对比学习将视觉与语言表示对齐，但多数模型仍然依赖于图像和文本对的独立编码器，这导致输入整合的效果不佳。此外，这些模型通常需要大量的多模态训练数据，成本高昂，且在复杂的语言理解和视觉 - 语言任务中表现不足。

E5-V 框架的创新之处在于，它采用了单模态训练的方式，仅使用文本对进行训练，这样不仅大幅降低了训练成本，也避免了需要收集多模态数据的麻烦。在训练过程中，E5-V 框架通过将多模态输入转化为单词来消除模态差距。这一方法让模型能够更准确地执行诸如复合图像检索等复杂任务。

根据研究团队的实验结果，E5-V 在多个任务上的表现都非常出色，比如文本 - 图像检索、复合图像检索等。它在零样本图像检索任务中表现优异，超越了现有的顶尖模型 CLIP ViT-L，在 Flickr30K 和 COCO 数据集上的 Recall@1分别提高了12.2% 和15.0%。

此外，在复合图像检索任务中，E5-V 也超越了目前的最先进方法 iSEARLE-XL，在 CIRR 数据集上提高了8.50% 和10.07%。

正在上传...

E5-V 框架代表了多模态学习的重大进步。通过利用单模态训练和基于提示的表示方法，E5-V 解决了传统方法的局限性，为多模态嵌入提供了更高效、更有效的解决方案。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

AI创作系统

Tag： AI训练

随便看看

推荐文章

中关村AI北纬社区启动“一人公司”创业加速营

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

靠AI做一人公司 (OPC)，如何实现千万级营收？

深圳兴起“一人公司”创业模式的原因

上一篇

返回

下一篇