生成式人工智能时代引用指标的脆弱性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

生成式人工智能时代引用指标的脆弱性

《Publications》：On the Vulnerability of Citation Metrics in the Era of Generative Artificial Intelligence Kay Smarsly

【字体：大中小】 时间：2026年04月14日 来源：Publications 2.5

编辑推荐：

　　当前，大语言模型（LLM）类聊天机器人作为生成式人工智能（generative artificial intelligence）的广泛应用形态，已显著降低了撰写出版风格手稿的边际成本，并拓展了在出版生态系统中操纵引用指标的可行途径。基于引用的指标（如h指数、h

当前，大语言模型（LLM）类聊天机器人作为生成式人工智能（generative artificial intelligence）的广泛应用形态，已显著降低了撰写出版风格手稿的边际成本，并拓展了在出版生态系统中操纵引用指标的可行途径。基于引用的指标（如h指数、h₁₀-指数及总被引频次）仍深度嵌入科研评价体系，且对文献计量数据库的索引实践高度敏感；其中，Google Scholar以覆盖广泛但策展（curation）相对有限为特征。本研究开展了一项系统性文献综述，以综合已有报道的引用指标操纵机制，并考察引用指标应用的局限性，包括土木工程领域已有的实证证据。此外，一项基于Google Scholar的概念验证（proof-of-concept）案例研究检验了如下问题：在非同行评审的LLM辅助文档被索引、且其中包含高度集中的指向特定目标作者的参考文献时，该平台特定条件下是否会导致作者层面引用指标的变化。索引后观察到了作者层面指标的阶梯式上升，证实了在该平台特定条件下操纵引用指标的可行性。最后，本文讨论了对科研诚信及生成式人工智能时代引用操纵的影响，并分别针对研究人员、学术机构与评审委员会、出版商与编辑、文献计量数据库提供方，以及 funding机构与政策制定者提出了建议。

本研究聚焦生成式人工智能时代引用指标脆弱性这一核心议题，旨在系统揭示大语言模型技术普及背景下，传统文献计量评价体系面临的新型操纵风险及其治理路径。

**一、研究背景与问题缘起**

学术评价中长期存在对引用指标的过度依赖。h指数、h₁₀-指数及总被引频次等指标被广泛应用于 faculty promotion（ faculty晋升）、聘用程序、绩效薪酬、机构基准比较及研究经费分配等正式评估环节。然而，这些指标自诞生之初作为学术影响力的代理变量（proxy），却日益被直接等同于研究质量的指示器，形成了"以指标为中心"的评价文化。这种文化在土木工程等领域表现尤为突出，出版数量与引用统计逐渐替代了对研究质量与个人成就的真实考量。

引用指标的固有脆弱性已引发广泛担忧。自引、引用卡特尔（citation cartels）、强迫性引用（coercive citation）等操纵手段长期存在，而文献计量数据库间的差异——特别是在覆盖范围、质量保障与错误率方面的分歧——进一步加剧了问题的复杂性。Google Scholar因覆盖广泛、索引迅速而备受研究者青睐，但其相对有限的策展机制使其较经策展的数据库更易遭受有意操纵。已有文献记载了伪造论文通过故意自引成功在Google Scholar上 inflate引用计数的案例，以及商业引用提升服务通过策略性索引文档 inflate作者层面指标的证据。

大语言模型技术的突破性进展使情况急剧恶化。以ChatGPT为代表的LLM能够流畅生成出版物风格的文本，包括摘要、完整手稿及文献综述，但其中可能包含令人信服却完全虚构的引用。尽管期刊政策已针对人工智能工具的披露与署名问题作出调整，但人工智能被署名为作者、伪造参考文献嵌入学术作品等事件仍有记录。一旦LLM辅助文档进入预印本服务器、知识库或期刊并被索引，扭曲的参考文献元数据即可传播至引用数据库，进而 inflate引用计数，影响基于指标的评估及后续决策。在此背景下，本研究旨在评估生成式人工智能时代出版生态系统中引用指标操纵的可行性，并以Google Scholar为焦点平台开展概念验证案例研究。土木工程作为应用背景用于解读评价实践与领域特定指标，而非平台演示的实证焦点。

**二、关键技术方法**

本研究综合采用系统性文献综述与Google Scholar概念验证案例研究两种方法。系统性文献综述遵循修正的PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）方法论，涵盖四个方法学阶段：（i）识别——设计并执行结构化文献检索，包括核心概念界定、检索词扩展、初始检索、检索式优化、最终检索执行及去重；（ii）筛选——基于主题相关性、方法学严谨性、目标人群适宜性及明确内容相关性进行摘要筛选；（iii）合格性评估——对保留记录进行全文评估；（iv） snowballing与纳入——对合格记录进行迭代反向 snowballing以识别额外相关记录。综述数据源自Scopus数据库2026年6月21日至23日期间检索的英文文献，涵盖文章、综述及会议论文类型，并应用布尔运算符与截词技术优化检索策略。

Google Scholar概念验证案例研究采用实验设计方法。研究人员撰写两篇由LLM（ChatGPT, GPT-4.5）辅助起草、后修订至符合学术标准的论文，两篇论文均于2025年5月5日在德国汉堡工业大学举办的第七届土木工程可解释人工智能国际研讨会（XAICE）上报告，随后通过网页发布以供Google Scholar索引。论文A含110篇参考文献，其中50篇（约45%）引用目标作者既往工作；论文B含115篇参考文献，其中75篇（约65%）引用目标作者既往工作。两论文由不同个体署名发表以消除自引，采用顺序发布策略以检验不同引用集中度下的索引结果差异，通过监测目标作者Google Scholar profile的总被引次数、h指数及h₁₀-指数变化评估指标影响。

**三、研究结果**

**3.5.1 关于RQ1"已有报道的引用指标操纵方法有哪些"**

引用指标操纵可通过多种方法实施。常见方法包括：过度自引以 artificially inflate个人引用计数；引用卡特尔即研究者群体系统性、不成比例地相互引用；客座署名以提升文章可见性与被引可能性；荣誉性引用即因社会或战略动机而非科学价值纳入引用。作者合作规模与撤稿文献中的伪造或操纵发生率正相关。商业引用服务允许研究者购买整合至其他出版物的引用；个体上传含策略性引用的AI生成文章至未审核预印本服务器亦可 artificially inflate引用计数。编辑操纵是另一关键问题，包括期刊编辑强迫作者插入无关引用以提升期刊引用指标，编辑发表自引社论或综述直接增强期刊影响因子，以及期刊间协调性的相互引用协议即"引用堆叠"（citation stacking）。文献计量数据库普遍缺乏有效检测机制，非策展数据库如Google Scholar的质量控制有限，使引用操纵大量存在且难以被发现。

**3.5.2 关于RQ2"引用指标在正式研究评估程序中的应用程度"**

引用指标构成全球正式评估框架的标准组成部分。h指数与h₁₀-指数频繁用于概括个体出版影响力以支持 tenure与晋升决策，总被引次数亦广泛应用。实证研究表明较高h指数与增加的机构及政府 funding分配相关。然而，引用指标存在显著局限：强烈依赖学术生涯长度而非仅反映研究质量；h指数未调整学科特定引用实践，无法区分合作者贡献。尽管存在这些缺陷，约92%的分析晋升政策明确引用基于引用的指标，在上中收入国家及全球南方 prevalence更高。g指数、z分数等补充指标已被引入正式评估程序，但引用指标的相对权重因学科而异。

**3.5.3 关于RQ2.1"土木工程领域中引用指标在正式研究评估程序中的应用程度"**

土木工程领域研究奖励与出版引用指标紧密关联。正式研究评估程序使用专门指标及领域特定的统计优化排名公式以反映合作与持续贡献。多作者指数如h_m-指数、g_m-指数、h_i-指数、h_f-指数、g_f-指数或h_F-指数应用于作者排名，h指数变体如h_g-指数用于国际土木工程学会奖项提名的定性判断。引用指标驱动的职业晋升影响研究者行为：意大利土木工程教授在基于引用的学术认证实施后自引率显著上升，形成"计数文化"并可能鼓励过度自引等非道德实践。然而，引用指标亦影响ASCE、CSCE、ACI、ICE等土木工程学会颁发的 prestigious奖项，但少于半数获奖者符合这些指标建议的顶级排名；奖项委员会倾向于青睐作者数较少的出版物，并对每年引用次数及复合指标赋予额外权重。

**3.5.4 关于RQ3"大语言模型用于生成科学论文的广泛程度"**

大语言模型通过ChatGPT、Gemini等在线聊天机器人 freely accessible，已广泛整合至科学写作工作流程，影响手稿准备的多阶段：起草初始文本、增强概念清晰度、改进语法结构、将笔记转化为结构化学术内容、支持引用格式及辅助文献综述。截至2023年，人工智能辅助约占手稿写作的25%及基金申请的15%，主要用于编辑、校对及技术任务。早期职业研究者、计算领域及非英语母语地区研究者是主要采用者，常为未明确披露的使用。学生使用LLM以减少学术任务的时间与精力，应用范围从轻微编辑到大量改写。然而，LLM整合已引发生成虚假引用、传播至不存在的论文等伦理与可靠性问题， entirely fabricated实证研究甚至渗入 reputable出版物。高影响因子期刊曾引用虚构的LLM生成文章，凸显编辑与同行评审程序的脆弱性。检测此类欺诈活动目前主要依赖人工核查。"论文工厂"（paper mills）及掠夺性期刊中AI生成欺诈论文的 rise进一步复杂化局面，某些研究领域假论文占比约24%。约三分之二的被检手稿（截至2024年）含未披露的LLM生成内容，在加速审稿流程的期刊中更为 prevalence。LLM用于起草同行评审报告、编辑决定函及摘要的采用亦日益增加，但将生成式人工智能明确署名为共同作者仍具高度争议。

**4. Google Scholar概念验证案例研究**

**4.1-4.3 案例研究结果**

两论文先后发布并索引后，目标作者引用指标呈现可测量的变化。论文A于发布后14天被Google Scholar索引，总引用从2555升至2615（+60，其中50归因于论文A）；论文B于发布后19天被索引，总引用从2629升至2715（+86，含75来自论文B）。论文A索引至论文B索引期间，h₁₀-指数从69升至71，h指数维持27不变。结果表明，在特定平台条件下，LLM辅助、非同行评审文档的索引与作者层面引用指标的阶梯式上升相关，集中引用单一作者出版物在索引后转化为引用计数增加。但该案例研究范围有意受限，应视为概念验证演示而非 prevalence或系统层面效应的证据。

**五、讨论、影响与建议**

**5.1 讨论与影响**

RQ1发现，引用指标操纵对学术评价系统的诚信与可靠性构成根本威胁，文献计量数据库检测机制的持续失效使非道德活动大量未被发现且未受纠正。生成式人工智能的可获得性进一步加剧风险，因其能够自动创建看似合理却具误导性的学术文档。

RQ2揭示，对引用指标的依赖鼓励以最大化引用为目标的策略性出版行为，从而减少对高风险、创新性或跨学科研究的激励；年轻研究者及新兴学科研究者因指标固有偏好资深学者及成熟学科而处于不利地位；统一应用引用指标加剧不平等，使低引用频率或较少期刊索引覆盖区域的研究者 disadvantaged。最关键的是，对Google Scholar等非策展平台的依赖使研究者能够直接操纵自身引用指标， artificial inflation可能影响关键评估流程、 tenure决策、 funding分配乃至与指标挂钩的薪酬。

RQ2.1表明，土木工程领域与其他学科类似，过度强调引用指标使研究者趋向引用丰富主题而非创新、跨学科或实际影响力大的研究；具有 substantial行业经验的研究者可能因指标权重过高而 disadvantaged，因为其职业实践期对出版产出产生负面影响；基于引用的评估系统性地低估实际相关研究领域的价值。多作者指标权重较高可能使个体或较小合作群体 disadvantaged，尤其在引用较少但实践意义重大的研究中。

RQ3显示，尽管LLM在学术出版中的采用重塑了学术写作实践，但 widespread未披露使用、 entire fabricated引用及虚构论文的传播暴露了编辑程序与同行评审标准的关键脆弱性，根本挑战了学术诚信与作者身份的传统概念。

RQ4的概念验证表明，在非策展平台上，引用指标可能对策略性传播、弱策展文档 sensitive，这一发现在引用指标用于评价时若未充分关注底层文献数据出处与策展水平则尤为重要。

研究发现与Leiden Manifesto、DORA、CoARA Agreement及Metric Tide等负责任研究评估框架一致，强调避免狭隘依赖单一量化指标，并在更广泛制度、学科与社会情境中评估学术贡献。

**5.2 建议**

本研究向五类利益相关者提出15项具体建议：研究者应遵守伦理引用规范、披露并验证人工智能使用、优先考虑质量而非指标；学术机构与委员会应多样化研究评估、认可行业与跨学科工作、建立伦理与透明度政策；出版商与编辑应加强编辑指南、实施明确的AI与作者身份政策、增强评审过程中的AI意识；文献计量数据库提供方应检测引用异常、标记可疑内容、确保索引透明度； funding机构与政策制定者应奖励长期影响而非短期指标、建立反指标博弈政策、鼓励人工智能透明度与伦理标准。

**六、研究结论**

生成式人工智能，特别是基于大语言模型的聊天机器人， substantially增加了引用指标在学术评价中遭受操纵的脆弱性。虽然基于引用的指标历史上已通过自引和策略性行为遭受操纵，但生成式人工智能因其前所未有的规模与自动化能力引入了质的新脆弱性。本研究以土木工程领域为重点，系统综述了指标操纵的现有研究，并通过概念验证案例研究进一步验证了关键关切。实证结果表明，在平台特定条件下，Google Scholar上LLM辅助、策略性引用文档的索引与作者层面引用指标的增加相关。需要强调的是，这些发现应视为 bounded setup内的概念验证演示，而非跨平台或跨评价系统更广泛因果效应的证据。

本研究识别的关键脆弱性包括：研究者可能直接操纵自身引用指标，这在评价委员会依赖Google Scholar等非策展数据库时尤为关键；引用指标亦可被第三方 external manipulated，即通过上传大量引用特定"目标研究者"的伪造论文，在研究者不知情的情况下扭曲其指标，可能导致不端行为的错误指控；尤为令人担忧的是，由于伪造论文的持续上传不会在引用轨迹中引发可疑激增，文献计量数据库可能无法检测此类操纵模式。

上述发现在土木工程领域尤为 pertinent，因该领域行业实践期可能导致出版产出减少，使有经验的研究者在当前指标驱动评估中 disadvantaged；此外，多作者指标及合作产出的高权重可能无意中使个体及较小研究群体 disadvantaged，尤其那些在实际意义重大但引用密集度较低的领域工作的群体。基于研究结果，本研究已向研究者、学术机构与委员会、出版商与编辑、文献计量数据库提供方及 funding机构与政策制定者提出系列建议，强调实施严格质量保障措施、避免依赖非策展文献计量数据库、增强生成式人工智能使用透明度、使评估程序超越基于引用的指标，以及为所有相关群体建立明确的伦理指南。

联系信箱：

粤ICP备09063491号

热点排行