微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

来源：互联网更新时间2024-01-04 16:06:19 点击数：

1月4日消息:微软公司的研究团队最近提出了一种独特且简单的方法，用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤（少于1，000步），就取得了令人瞩目的成果。相比于现有的方法，该方法不依赖于多阶段的预训练和有限的标记数据微调，避免了繁琐的训练流程和手动收集数据集的问题，这些数据集通常在任务多样性和语言覆盖方面存在问题。

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同，该方法使用基本的对比损失函数，将开源的仅解码的大型语言模型在生成的合成数据上进行微调。

研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果，而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时，该模型在 BEIR 和 MTEB 基准测试上取得了新的记录，成为了文本嵌入领域的最先进方法。

专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力，该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。

该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求，相较于当前的多阶段系统，更加简洁高效。

论文网址:https://arxiv.org/abs/2401.00368

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag： AI 微软 AI数据

微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

随便看看

推荐文章

AIGC时代的内容产业究竟会怎么发展？

栽倒在AI创业潮的创始人

李想：专业人士只要能用好 AI，就会走上一个新高度

腾讯重磅宣布：小程序与 AI 的深度融合将引领未来

腾讯云：部分DeepSeek模型升级及切换安排公告