大型科技公司拥才有承担 AI 训练数据成本的能力

来源：更新时间2022-07-25 10:13:27 点击数：

AI 的发展离不开数据，而这种数据的成本越来越高，这使得除了最富有的科技公司外，其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章，AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器，通过大量示例来猜测最 “合理” 的数据分布，因此模型所依赖的数据量越大，性能就越好。

AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出，Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型，这解释了其在许多流行 AI 基准测试中的优势。然而，并不是数据量越大，模型性能就会线性提升，数据质量和整理同样重要，有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的，质量较高的标注对模型性能有巨大影响。

然而，Lo 等专家担心，对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑，但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统，让整个 AI 研究社区备受其害。

一些独立、非营利性的组织尝试开放大规模数据集，如 EleutherAI 和 Hugging Face，但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒，数据收集和整理成本不再是问题时，这些开放性的数据集才有希望与科技巨头竞争。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag： AI数据 AI网站 AI训练 AI科技

大型科技公司拥才有承担 AI 训练数据成本的能力

随便看看

推荐文章

中关村AI北纬社区启动“一人公司”创业加速营

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

靠AI做一人公司 (OPC)，如何实现千万级营收？

深圳兴起“一人公司”创业模式的原因