近十年科学论文分析显示,研究人员发现人工智能模型滥用了一些 “风格” 词汇,而这些词汇在几年前还很少被使用。
在一项尚未经同行评审的新研究中,研究人员采用了一种新颖的方法,类似于流行病学,通过分析生物医学论文中的 “多余词汇使用”,来揭示大型语言模型往往滥用某些词汇的情况。研究结果为人工智能在学术界的影响提供了有趣的见解,表明至少有10% 的摘要是在2024年使用了大型语言模型进行处理。
图源备注:图片由AI生成,图片授权服务商Midjourney
这项研究是对2010年至2024年间 PubMed 上发布的1400万篇生物医学摘要的广泛分析。研究人员以2023年之前发表的论文为基准,对比了在 ChatGPT 等大型语言模型广泛商用时发表的论文。他们发现,一些曾被认为 “不常见” 的词汇,如 “深入”,现在使用的频率比过去增加了25倍,而其他词汇,如 “展示” 和 “强调”,则出现了类似的增加。然而,一些 “常见” 词汇也有所增加:像 “潜在”、“发现” 和 “关键” 等词汇的使用频率增加了最多4%。
研究人员指出,这种显著的增加在没有一些紧迫的全球事件的解释下基本上是前所未有的。他们发现,在2013年至2023年间的多余词汇中,出现了像 “埃博拉”、“冠状病毒” 和 “封锁” 等与现实事件紧密相关的名词。然而,在2024年的多余词汇中,几乎全部是 “风格” 词汇。从数量上看,2024年的280个多余 “风格” 词汇中,三分之二是动词,约五分之一是形容词。
根据这些多余风格词汇作为 ChatGPT 使用的 “标记”,研究人员估计,如中国、韩国和台湾等非英语国家发表的约15% 的论文现在是由人工智能处理的,而在英语为母语的国家如英国,这一比例为3%。因此,大型语言模型可能是非母语使用者在一个英语主导的领域取得成功的有效工具。
划重点:
🔍 通过分析生物医学论文,研究人员发现人工智能模型滥用了一些 “风格” 词汇,这些词汇在几年前还很少被使用。
🔍 大型语言模型的广泛商用导致了一些词汇的使用频率显著增加,表明人工智能对学术界的影响可能是前所未有的。
🔍 在非英语国家发表的论文中,由人工智能处理的论文比例高达约15%,显示大型语言模型可能是非母语使用者在英语主导领域取得成功的有效工具。