本文来自数字出版研究,原文链接https://mp.weixin.qq.com/s/0dK5ja9y5Ppcy2bCirmjgA
行业观察
INDUSTRY OBSERVATION
AIGC 时代学术不端的新形式及其治理
李新新 | 文
原文刊载于《数字出版研究》2024年第2期行业观察栏目文章。
引用本文请注明文献来源:
李新新.AIGC时代学术不端的新形式及其治理[J].数字出版研究,2024,3(2):113-118.
作者简介
李新新
- 李新新,女,《北京印刷学院学报》副主编,编辑。研究方向:编辑出版。
摘要:随着生成式AI和人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的迅速发展, 学术不端出现了新形式,学术不端治理面临新的挑战。本文分析了直接生成更加逼真的包含文字和图片的论文、生成论文的辅助材料和生成审稿意见三种学术不端新形式,并提出及时总结论文造假规律、开发更加智能的检测工具、推广专家分层审稿模式和加强科研道德建设这四条治理措施,以期为促进学术期刊高质量发展提供参考。
关键词:学术不端;AIGC;治理措施;科研诚信;学术期刊高质量发展
DOl: 10.3969/j.issn.2097-1869.2024.02.014
2019年5月,国家新闻出版署发布了行业标准《学术出版规范期刊学术不端行为界定(CY/T174- 2019)》,对学术不端行为进行了明确的界定。近年来,各界对学术不端现象有着越来越深刻的认知,对期刊学术不端现象更加重视。随着互联网、生成式AI等技术的迅速发展,各种新形式的学术不端随之出现,从而给学术不端的治理带来新的挑战。
1 学术不端治理文献综述
学术不端历来是学术界关注的问题,研究者们已经对此开展了若干细致的工作,对于学术不端的表现、成因和治理措施的研究都有了若干成果。生成式AI和人工智能生成内容(Artificial Intelligence Generated Content,AIGC)时代的到来,也使部分学术期刊和学者制定新规定、开展新研究来作为回应。
1.1 学术不端的表现、成因和治理
在学术不端的表现方面,刘金波等将学术不端现象总结为抄袭剽窃、一稿多投、多稿并投、重复发表、拆分发表、数据造假、不当署名、无端撤稿、买卖代写和学术泄密十种类型。冯婷等针对公众对16种学术不规范行为的认知进行了问卷调查,这些学术不端行为涉及论文写作、投稿、论文发表、署名、基金标引和参考文献六个方面。刘普列举了学术不端的六种形式:学术抄袭、学术剽窃、学术造假、侵占他人学术成果、伪造学术身份和履历及贪污科研经费。从已有的研究工作可知,学术不端集中表现为论文抄袭、代写、实验数据造假等形式。在学术不端的成因方面,刘金波等从权力碰撞、机制不全、学术腐败、惩戒不力、职业倦怠和个人主义六个方面探讨了学术不端的根源。许蔚萍指出,高校学术不端形成的原因是内在动机从“探究学问”异化为“追逐利益”,外部评价由“价值追求”异化为“量化评价”。朱冬梅在分析期刊论文学术不端原因时指出,作者是产生期刊论文学术不端的源头,专家审稿造成的学术不端不容小觑。冯婷等通过问卷调查,从个人因素、制度因素和环境因素三个角度分析造成学术不端的原因,个人因素包括科研成果产出、职称晋升和获取学位等方面造成的压力,制度因素中相关规范对学术不端界定不清晰、监管制度不完善和惩戒措施不力是前三位因素,环境因素中学术研究功利主义和浮躁现象排在首位。刘普指出,学术不端有六个原因:受社会大环境影响、学术不端具有一定隐蔽性、对学术不端行为容忍度高、少数管理部门和责任人把关不严、缺乏完善的追究惩戒机制和考核评价机制不够科学合理。从文献可知,科研考核压力、制度不完善和把关不严是造成学术不端的主要原因。在学术不端的治理方面,朱冬梅提出,期刊编辑可以借助融媒体来防范学术不端,具体举措包括完善采编系统信息采集以加强前端控制、加强期刊编辑的初审工作及完善同行评议送审机制和送审方法。刘金波等提出从以下两个方面来防范 学术不端:从平台、主体、制度、技术、环境层面构建“五位一体”的学术出版伦理防范机制;从网络出版、供需错配、融合出版、规范建设等方面构建“四位一体”的学术不端立体防范网络。许蔚萍提出,高校治理学术不端的对策包括确立以学术共同体为核心的治理理念、建立诚信自律与法治约束相结合的制度及推进数字化与智能化相融合的治理方式。刘普建议,通过教育引导增强对于学术不端的免疫力、真正落实对学术不端“零容忍”的查处力度、完善预防与处理学术不端的相关机制、发挥媒体和学术打假专业人士的作用、加强防范和发现学术不端的技术手段建设及完善学术与人才考核评价机制六个方面治理学术不端。综上可知,加强论文发表前的学术不端检测是一项重要措施,使用技术手段辅助检测是一个重要方向。
1.2 AIGC对科研诚信的影响
AIGC时代下的学术不端是指在该技术广泛应用的背景下,学术界中出现违反学术道德和规范的行为,这些行为获取不当的学术利益,损害学术研究的公正性、准确性和可信度。例如,中华医学会杂志社在对医学科技论文写作和评审过程中使用生成式AI(GenAI)相关事宜的规定中指出: “GenAI不能用于整篇论文或论文重要部分的撰写(如研究方法、结果和对结果的解释分析等)。所有属于科学贡献或智力劳动范畴的内容均应由作者完成。如论文主要内容使用GenAI完成,编辑部将按照学术不端行为进行处理……编辑部经研判认为作者在论文写作中存在违反GenAI使用规定的情形,将直接退稿或撤稿;情节严重者,将列入作者学术失信名单,两年内禁止作者向中华医学会系列杂志投稿;如作者是期刊审稿人,同时禁止其参与审稿工作。”使用计算机生成论文并非近年才开始出现的现象。2005年,美国3名计算机专业的研究生开发了论文生成软件SCIgen,该软件能够生成带有图片、表格和参考文献的论文。十几年来,不断有研究人员使用该软件和其他论文生成器生成论文后向会议和期刊投稿并被录用,其中不乏国际知名学术期刊。当这些论文被曝光为计算机生成后,论文接收方的声誉会受到影响。Nature在2021年报道,在计算机科学领域,100万篇文章中约有75篇论文是由计算机程序SCIgen自动生成的。
AIGC时代来临后,学术不端出现了新的形式,这给传统的学术不端治理带来了挑战。在AIGC时代,人工智能能够以令人惊讶的准确度生成文字、图片、视频和代码等内容。学者们研究了以ChatGPT为代表的AIGC工具可能对学术不端造成的影响。罗云梅等指出,ChatGPT可能导致真实性、侵权及偏见问题,产出的内容并不受我国著作权法的保护,还会引起署名方面的问题。王少指出,ChatGPT对学术不端的内涵和外延都造成了冲击,而应对ChatGPT的策略包括三个方面,即构建主客体合作网络、更新治理程序与标准和构建流动式治理框架。
2 AIGC时代学术不端的新形式
2.1 直接生成更加逼真的包含文字和图片的论文
2023年12月,谷歌发布了人工智能大模型“双子座”,该模型在大多数指标上超过了GPT-4,能够生成文字和图片混合的文章。论文工厂在该模型及未来功能更强大的大模型的基础上,基于大量已发表的学术论文进行训练,有可能生成包含更逼真图片的学术论文,将更容易通过审稿专家的评审和编辑的把关并最终发表。2024年2月,《中国科学报》报道,我国科研人员在开放获取期刊Frontiers in Cell and Developmental Biology 上发表的一篇论文,由于使用人工智能绘图工具Midjourney生成的插图,在上线发表3天后被期刊紧急撤稿。这篇论文的插图画风和科研论文明显不符,因此在发表后引发热议并引起期刊编辑部的重视。Midjourney并不是一个专门用来生成科研论文插图的人工智能绘图工具,其生成的图片比较容易被识别。当前大模型普遍采用“预训练+微调” 的方式进行训练,论文工厂如果在图片生成通用大模型基础上使用已有科研论文中的图片进行微调,很可能生成足以以假乱真的图片,给论文审理带来巨大困扰。
2.2 生成论文的辅助材料
按惯例,编辑对论文进行把关的一个方法是要求作者提供辅助材料,包括文字、图片、源代码和视频等,其能够证明论文的作者确实进行了实验和调查并得到了论文中的结果,原本其中最强有力的是视频。2024年2月,OpenAI发布了文生视频大模型Sora,其能够根据用户的指令来生成视频。虽然目前该模型生成的一些视频还有若干问题,但是相信OpenAI未来正式向公众推出该模型时会修复大部分问题。国内一些高校和相关企业也在大力开发具有自主知识产权的文生视频大模型,相信在不远的将来,市面上会有若干针对不同场景的文生视频大模型。如果论文工厂使用文生视频大模型来生成视频作为论文的辅助材料,很有可能通过审稿专家和编辑的评审。传统上,计算机科学领域的论文可以通过要求论文作者提供程序源代码来避免弄虚作假,一些研究人员也会在个人主页上公开论文中实验使用的源代码。但是重复论文中的实验往往涉及比较复杂的运行环境的搭建,有的计算机实验如大模型实验的重复需要较高的成本,因此在论文评审过程中,评审专家往往不会通过运行作者提供的源代码来判断实验结果是否存在学术不端,这就使得大模型生成的源代码很有可能通过审稿专家的评审。这种情况下,传统上通过文字、图片、源代码和视频等辅助材料来帮助评审方确定论文学术水平的方法很可能面临失效。
2.3 生成审稿意见
王蕴嘉等在探讨ChatGPT在学术期刊编辑领域的应用时指出,可以使用Chat GPT来判断稿件的价值,如直接生成供编辑参考的判断结果。中国知网提供了AI辅助研读工具、单篇问答和文章伴读功能,单篇问答功能能够提炼出文章的大纲、观点和研究方法等,而文章伴读功能能够挖掘文章的价值并指出存在的问题。这两个功能的合理使用无疑能够在一定程度上提高审稿速度。合理、适度地使用大语言模型可以提高审稿效率,但是也存在过度使用的风险。随着投稿数量的激增,审稿专家面临着越来越大的挑战。有些审稿专家科研和教学任务繁重,有时会把稿件交给他人代审,如部分高校教师会把稿件交给自己的研究生去审阅,然而研究生学术水平参差不齐,有些学术审稿经验不丰富,难以检查出稿件中存在的学术不端问题。在AIGC时代,审稿专家如果使用大语言模型来自动生成审稿意见,可能无法发掘出稿件中的亮点,尤其是可能无法发现稿件中隐含的学术不端问题,从而使这类稿件“错误” 地通过评审。
3 AIGC时代学术不端的治理措施
针对AIGC时代出现的学术不端新形式,可以从总结规律、提升技术水平、优化审稿机制及加强科研道德等方面进行治理。
3.1 及时总结论文造假规律
使用人工智能大语言模型生成论文的现象引起了学术界的关注,有研究对人工智能大语言模型生成的论文的特点进行了分析。人工智能大语言模型生成论文对不同学科的渗透程度不同,应用于社科和医学学科较为容易,需要对这两个学科的论文进行更严格的把关。人工智能大语言模型生成的论文能够体现出一定的创新性,但是在不同学科领域的创新程度不同。大语言模型能够表现出一定的推理性,但其生成的论文大多属于组合创新和应用创新范畴,而在最重要的原始创新上则能力不足。期刊编辑可以据此对来稿分别处理:扩大原始创新论文的接收比例,这是大语言模型所不擅长的;对组合创新的论文加大审查力度,因为这类论文也在大语言模型生成的能力范围内;对应用创新的论文严加审查,因为这类论文有很明显的模式, 正是大语言模型所擅长的。分类处理措施使编辑作为把关人能够在很大程度上避免大语言模型生成论文的接收。加强大语言模型的推理能力是当前人工智能技术发展发力的重点,未来生成论文的甄别难度将会越来越高,期刊编辑需要密切关注这些科技新动态。
3.2 开发更加智能的检测工具
大模型的训练需要高水平的技术人员、较多的硬件资源和大量的训练数据,这些都需要大量的资金。在当前的科研考核中,论文级别和论文数量仍是非常重要的考核指标,一些科研人员有可能花费大量的资金购买由AIGC生成的论文,以完成科研考核、职称晋升和申报课题等目标。大量资金流向论文工厂,论文工厂就会持续优化大模型,生成更加难以被识别的论文。
论文工厂能够在大模型的基础上进行微调来生成论文,论文检测方也可以在大模型的基础上进行微调来开发检测深度伪造论文的工具。实际上,自从深度伪造出现以来,就一直有研究者在研究如何对其进行检测。
在论文学术不端检测这个细分领域,如果使用大量学术论文对现有大模型进行微调,有可能训练出检测准确率足够高的学术不端检测大模型。可以针对论文中的文字和图片及辅助材料中的文字、图片、程序源代码和视频分别进行检测,最后汇总多种媒介形式的检测结果。
3.3 推广专家分层审稿模式
大模型的一个固有问题是“幻觉”。“幻觉”是指“ 模型在处理输入任务、维持输出语境连贯性以及与现实世界事实保持一致性时存在偏差或错误”。李国杰指出,科研大模型必须找到解决“幻觉”的办法。更有效的“幻觉”检测方法和“幻觉”的生成机制仍是当前人工智能界致力于探究的问题。尽管大模型生成的论文能够通过很多审稿专家的评审,但是资深审稿专家还是能够凭借多年的经验和深刻的学术洞察力看出论文中存在的“幻觉”问题,这成为发现AIGC内容的有效抓手。不过资深审稿专家是稀缺资源,无法满足海量的审稿需求。期刊可以根据学科特点和既往经验,建立与机器检测配套的内部评价体系。在使用检测工具对稿件进行评分后,可以将人类撰写置信度较高的稿件交由一般审稿专家来评阅,将人类撰写置信度居中的稿件交由资深审稿专家来评阅,而对人类撰写置信度较低的稿件建议按拒稿处理。该措施能够减轻资深审稿专家的审稿压力,审稿专家一方面不至于将自己无暇审阅的稿件交由他人代审,另一方面也能够充分发挥自身的作用,对稿件进行更精准的评判。此外,也可以考虑采用预发表模式,将通过专家评审和编辑把关的论文先在预印本平台推出,进行开放评价,这或许能成为一种有效预防“漏网之鱼”的方法。
3.4 加强科研道德建设
首先,增强科研人员的道德意识,坚守出版属性,加强规范化管理。通过入职时及定期的道德教育和培训活动,使科研人员明确自身的职责、义务,增强自律意识。其次,建立健全监管机制,包括有效的举报预处理机制,鼓励科研人员积极参与道德监督,对于违反科研道德规范的行为进行严肃处理。再则,完善科研评价体系。一套科学、公正的评价体系会明确科研活动的目标和导向,激发科研人员的积极性和创新精神,同时也能够规范其行为,促使其自觉遵守科研道德规范,从而形成良好的学术风气。具体到论文评价和科研考核,要做到“ 重质量、轻数量”。欧美高校往往对发表论文的数量没有硬性要求,评判个人成就主要依据成果质量,高校会邀请同行对成果质量开展匿名、公平的评审,从学术影响力、成果质量等多个维度来评判。
4 结语
学术不端是阻碍学术期刊高质量发展的问题之一,打击“学术水货”势在必行。基于大模型的AIGC能够以较高的准确度生成文字、图片、代码、音频和视频,其快速发展催生了学术不端的新形式,学术期刊要根据自身实际情况,及时归纳总结论文造假规律,采取积极的防范和处理措施,坚定明确的办刊宗旨和方向,坚持实事求是的科学精神和科学态度,保持本职工作的专业性,杜绝学术不端,确保学术期刊高质量发展。
本文摘自《数字出版研究》2024年第2期 李新新《AIGC时代学术不端的新形式及其治理》,注释及参考文献从略。阅读全文或学术引用请参见原文。