大规模研究在1500万篇科研论文中检测AI指纹
研究发现,2024年近七分之一论文含AI痕迹,学术写作悄悄被改写。
你可能毫无察觉地读过一篇令人信服的文章,而它其实部分或完全是由大型语言模型生成的。随着像ChatGPT、Google Gemini这样的人工智能工具不断精进,它们产出的文字越来越接近人类水准,真假难辨。
在学术界,这种模糊的边界引发了越来越多的担忧。研究人员开始怀疑,AI生成的内容正在悄无声息地渗透进经过同行评审的正式论文之中。
为了揭示这种渗透到底有多广泛,一支由美国与德国学者组成的研究团队对PubMed上超过1500万篇生物医学论文的摘要进行了深入分析。他们想知道,大型语言模型是否已经对学术论文中的用词产生了可被量化的影响。
分析结果显示,自从大型语言模型问世以来,一些特定风格的词汇在学术写作中出现得越来越频繁。这些数据表明,仅在2024年,就有至少13.5%的发表论文经历了AI工具的加工。相关研究已发表在开放获取期刊《Science Advances》。
ChatGPT发布还不到三年,但AI和LLM(大型语言模型)内容在网络上的爆炸式增长已让研究人员对一些论文的可信度产生了质疑。
过去的研究试图衡量AI在学术写作中的使用程度,但往往依赖于人工撰写与AI撰写的文本对比。这种方法容易带来偏差,因为它假设科学家所用的AI模型种类、使用方式都是已知的,而这些假设往往并不准确。
为避免这些限制,这次的研究团队另辟蹊径。他们没有将文章一一分类、打标签,而是选择对比ChatGPT问世前后的用词变化,寻找是否存在“语言指纹”的趋势。
他们借鉴了新冠疫情期间公共健康研究的思路——当时科学家通过比较疫情前后的“超额死亡率”来估算病毒的真实影响。而现在,研究者用同样的方法去追踪“超额词汇使用”:某些词在AI出现前较少使用,但在AI普及后频率暴涨,便可能说明AI正在默默参与写作。
结果显示,在LLM发布之后,学术语言发生了显著转变。过去,超额使用的通常是描述具体内容的“信息型”词汇,而现在则变成了更具修饰性、表达流畅度的“花哨”词,比如“showcasing”(展示)、“pivotal”(关键的)、“grappling”(应对)。
进一步分析这些词的词性后,研究人员发现,2024年以前,79.2%的这类词是名词;而到了2024年,有明显转向,66%变成了动词,14%是形容词。这说明AI影响了不仅仅是用词数量,更是整体语言风格。
研究还指出,不同国家、不同学科、甚至不同的发表渠道之间,对AI写作工具的依赖程度也存在明显差异。
这项研究的重点,不是去揭露具体哪一篇论文用了AI,而是展示一种变化:在短短几年里,人工智能已悄然改变了人类最具严谨性的表达方式——学术写作。这背后,既藏着效率提升的可能,也埋着可信度流失的隐忧。