综述:在大规模文本评论中,利用特征增强的BiLSTM和CRF进行命名实体识别以实现细粒度方面识别 作者:Shaheen Khatoon、Jibran Mir 和 Azhar Mahmood

《Machine Learning and Knowledge Extraction》:Named Entity Recognition with Feature-Enhanced BiLSTM and CRF for Fine-Grained Aspect Identification in Large-Scale Textual Reviews Shaheen Khatoon, Jibran Mir and Azhar Mahmood

【字体: 时间:2026年04月08日 来源:Machine Learning and Knowledge Extraction 6

编辑推荐:

  摘要:网络钓鱼仍然是一个主要的网络安全威胁,然而将量子机器学习(QML)应用于钓鱼检测仍处于早期阶段。本研究旨在通过系统性的文献回顾,提供现有基于QML的钓鱼检测方法的概览,识别方法论趋势、局限性以及未来的研究方向。采用PRISMA指导的回顾协议,对2021年至2025年间发表在

  摘要:网络钓鱼仍然是一个主要的网络安全威胁,然而将量子机器学习(QML)应用于钓鱼检测仍处于早期阶段。本研究旨在通过系统性的文献回顾,提供现有基于QML的钓鱼检测方法的概览,识别方法论趋势、局限性以及未来的研究方向。采用PRISMA指导的回顾协议,对2021年至2025年间发表在同行评审期刊和会议论文中的文章进行了分析,这些文章来自主要的科学数据库。通过对符合条件的研究进行QML模型、特征编码策略、实验设置、评估指标以及使用调整后的Newcastle–Ottawa量表研究质量的分析,发现当前的研究在数量上有限,且主要集中在混合量子-经典模型上,特别是量子支持向量机和变分量子分类器。报告的性能高度依赖于编码方法、电路深度和基于模拟器的实验,很少有研究评估真实的量子硬件。常见的挑战包括数据集较小、缺乏外部验证、硬件噪声、可扩展性限制以及缺乏标准化的基准测试。总体而言,该回顾表明,QML在钓鱼检测方面仍处于探索阶段,尚未能与成熟的经典方法竞争,但作为实验研究方向具有潜力,前提是未来的研究能够解决鲁棒性、可重复性和实际部署的限制问题。

1. 引言
网络钓鱼是最普遍和最具破坏性的网络威胁之一,因为它直接针对人类的信任,并通过数字渠道高效传播。大多数钓鱼活动通过模仿可信网站([1])的可点击链接来实施,单个恶意URL就可以触发凭证盗窃、恶意软件传播或大规模的金融欺诈。反钓鱼工作组报告称([2]),SaaS和网页邮件类别是受攻击最多的领域(17.6%),而在线支付和银行业务合计占30.9%。零售、社交媒体、电信和物流也遭受了大量攻击。此外,攻击者越来越多地利用通过电子邮件发送的二维码将受害者引导到钓鱼页面或促进恶意软件的安装。在六个月的时间内,共识别出超过170万个不同的恶意二维码,平均每天发送270万封包含二维码的电子邮件。涉及电汇的商业电子邮件欺诈活动也增加了33%。虽然每次BEC事件的平均索赔金额降至42,236美元,但礼品卡欺诈仍然是主要手段(占51%的案例),薪资挪用和与加密货币相关的诈骗也频繁发生。
大量研究已经使用机器学习(ML)和深度学习(DL)方法来解决钓鱼检测问题。以往的研究通常从URL词汇模式、主机和域名注册特征以及某些情况下的页面或内容属性中学习,经常结合特征选择和集成学习来提高鲁棒性和部署可行性。最近的工作转向了表示学习,作者直接学习URL嵌入或将URL字符串与上下文信号结合,以提高对不断变化的攻击的泛化能力([3,4])。现有的调查和系统回顾表明,ML和DL主导了实践现状,经常使用基于树的集成和神经架构,并且公共仓库如PhishTank被广泛用于构建钓鱼数据集([5])。这些研究共同证明了自动化检测是可行的,并且在受控评估环境下可以实现高性能。然而,尽管取得了这些进展,经典方法仍然受到特征工程限制、可扩展性挑战以及建模复杂非线性关系的困难,这激发了对替代计算范式的探索。
量子机器学习(QML)最近作为一种潜在的替代方案出现。一些先前的研究在网络安全背景下调查了基于QML的分类器,并报告了有希望的结果和显著的局限性。例如,研究人员评估了量子增强型支持向量机变体及相关流程,通常使用模拟器、策划的数据集或受限的特征集([6,7])。专注于钓鱼URL检测的工作还探讨了量子增强模型,以评估量子特征空间或混合量子-经典工作流程是否能够与强大的经典基线竞争([8])。除了作为分类器之外,QML模型引入了根本不同的数据表示机制,其中经典特征通过量子特征映射嵌入到高维希尔伯特空间中。从这个角度来看,QML可以被解释为一个知识表示框架,而不仅仅是一个预测工具,使得探索替代的几何结构、干涉效应和在经典特征空间中难以实现的非线性相关性成为可能。
与钓鱼相关的特征,如URL长度、字符分布、子域名深度、词汇熵和协议指标,自然形成了结构化的高维向量。当这些特征被编码成量子状态时,它们被映射到希尔伯特空间中,其维度随着量子比特数的增加而呈指数级增长,从而可能通过量子叠加和纠缠来表示良性URL和恶意URL之间的微妙关系。这种映射为钓鱼数据提供了独特的表示视角,在这种视角下,可分离性不仅由特征值决定,还由所选的量子编码和电路架构引起的几何形状决定。
原则上,QML提供了新的特征映射、核构建和优化行为形式,这些与经典学习器不同,可能有助于处理涉及复杂高维决策边界的问题([9,10])。然而,QML目前受到噪声中等规模量子(NISQ)时代的限制,其中有限的量子比特数、硬件噪声和浅层电路深度显著影响性能和可重复性,使得仔细的编码策略、特征缩放和错误缓解成为核心设计考虑因素([6,11])。这些限制引发了关于报告的QML性能改进是否反映了真正的算法优势还是基于模拟器实验条件的伪影的不确定性,突显了系统评估的必要性。
尽管兴趣日益增长,但QML在钓鱼检测中的知识基础仍然不充分。现有的研究分散且异质,通常在不一致的假设下进行评估,使得ML研究人员难以提取可转移的教训。特别是,目前还没有系统性地回顾哪些QML分类器最适合钓鱼检测、钓鱼特征如何编码成量子表示、报告了哪些性能和局限性,以及在现实硬件限制下QML是否提供了有意义的优势。
因此,这项系统文献回顾的主要目标是探索当前QML分类器在钓鱼检测中的状态,特别关注识别主导技术、编码策略、报告的性能、实际限制和研究空白。这项回顾不仅总结了以往的研究,还旨在评估QML方法在钓鱼检测领域的方法论成熟度、性能趋势和部署准备情况。
该研究应用了PRISMA指导的系统回顾方法,识别、筛选和分析2021年至2025年间发表的相关研究。通过结构化的定性和描述性分析,该回顾提供了对QML应用方式的连贯理解,剩余的局限性以及推进该领域所需的未来方向。这项工作的主要贡献如下:
我们采用了SLR方法论,使用预定义的搜索和选择标准来确保方法论的严谨性和透明度。
我们回顾并综合了应用于钓鱼检测的现有QML分类器,包括它们的特征编码策略、优势和局限性。
我们确定了影响QML性能和部署准备的关键技术、方法论和硬件相关挑战。
我们提供了对当前证据的批判性综合,以评估QML分类器在钓鱼检测中的实际可行性和研究成熟度。
本文的其余部分组织如下。第2节提供了关于钓鱼攻击和QML的背景研究。第3节描述了SLR方法论,包括搜索策略、筛选和选择过程。第4节展示和分类了结果。第5节讨论和解释了发现。第6节概述了研究的局限性。第7节总结了本文并指出了未来研究的更广泛方向。

2. 背景
以下部分将钓鱼检测的结构特征与QML的计算原理联系起来,为这项回顾建立技术基础,强调经典方法的局限性如何激发了对QML的探索。
本节不是将钓鱼检测和QML视为独立的主题,而是发展了一个连续的技术论点,从钓鱼特征空间的复杂性开始,逐步探讨量子学习模型提供的表示能力。

2.1. 钓鱼
钓鱼是一种网络攻击技术,攻击者冒充合法实体,诱使用户泄露敏感信息,如登录凭据、财务数据或个人标识符([12]),自20世纪90年代出现以来已经发生了显著演变,从简单的电子邮件诈骗发展到使用自动化、混淆和社会工程技术的复杂活动([13,14])。这些攻击通常通过恶意URL、电子邮件链接、伪造网站或旨在模仿可信网站的嵌入式脚本来实施([15])。
钓鱼攻击通常遵循一个多阶段的生命周期(图1),包括计划、交付、数据收集和利用阶段([16,17])。这个生命周期表明,钓鱼检测系统必须在对抗性条件下运行,攻击者不断修改特征以逃避分类模型。因此,钓鱼检测模型不仅需要高准确性,还需要鲁棒性、泛化和可扩展性。
图1. 钓鱼攻击生命周期。URL级别的特征工程已成为自动钓鱼检测的有效方法。词汇特征,如URL长度、子域名深度、基于IP的主机使用和从字符n-gram中得出的熵,为分类模型提供了强大的区分信号。结构特征,包括特殊字符的比例、URL路径中品牌相关关键词的存在以及重定向模式,进一步增强了特征空间。此外,基于主机的属性,如从WHOIS记录中获得的域名年龄、DNS行为和页面排名,通常被纳入集成模型中,以提高对不同钓鱼活动的泛化能力([18]。
在机器学习框架内,钓鱼URL检测被构建为一个二元分类问题。给定一个URL ??,目标是将它分配到两个类别之一:钓鱼或合法,即:
???(??)={1, ????? ?? ????? ?? ????????????????????? ????????0, ????? ?? ????? ?? ????????????????????????????? ????????}
这种分类依赖于从URL字符串、相应网页的HTML内容和其他上下文属性中提取的特征集 ?? ={???1,???2,…,?????}。关键的是,结果特征空间是高维的、异构的,并且特征之间存在复杂的非线性交互。一个主要挑战是从高维且可能充满噪声的特征空间中识别最具信息量和区分度的特征,同时保持高检测准确性、低误报率和高效的实时性能。
经典的ML方法,包括支持向量机、随机森林和神经网络,在钓鱼检测任务中表现出强大的性能。然而,仍然存在几个局限性。首先,这些模型通常依赖于手工制作的特征表示,可能无法捕捉到微妙和不断变化的钓鱼模式。其次,在高维空间中建模复杂的非线性决策边界在计算上可能非常密集。第三,经典模型容易受到对抗性操纵和特征混淆技术的影响。
这些局限性表明,经典特征表示和学习机制可能不足以完全捕捉钓鱼数据中固有的复杂高维关系,从而激发了对替代计算框架的探索。

2.2. 量子机器学习
为了应对这些挑战,QML作为一种计算范式出现,它引入了根本不同的数据表示和学习机制,为建模高维和非线性分类问题(如钓鱼检测)提供了潜在的优势。
QML是一个新兴的跨学科领域,它将量子计算原理与ML算法结合起来,以改进数据表示和模式识别([19,20]。与仅处理二进制位的经典ML不同,QML处理量子比特(qubits),它们可以处于叠加状态并表现出纠缠。一个量子比特可以表示为基态|0?和|1?的叠加,即|ψ? = α|0? + β|1?,其中α和β是满足归一化条件|α|2 + |β|2 = 1的复数幅度。n个量子比特的系统可以同时表示2^n个状态,形成了量子并行性的基础([21])。这一属性对于钓鱼检测特别相关,因为URL结构和内容特征的微妙变化需要能够捕捉复杂和非线性决策表达的能力。
量子核方法是一种基于量子电路作为特征映射来定义核的成熟方法,适用于近期QML。对于经典输入x ∈ ??,量子特征映射?: ?? → ?通过参数化的编码电路将数据编码成量子状态|?(x)?。由此产生的核函数κ(x?, x?) = |??(x?)|?(x?)?|2,用于衡量量子编码状态之间的相似性,并可以通过量子电路评估来估计([22]。重要的是,这种转换隐式地将经典数据映射到高维特征空间中,这与网络钓鱼检测问题的结构要求相一致,在原始空间中类别边界是非线性的且难以区分的。这种核函数可以集成到经典分类器中,例如支持向量机(Support Vector Machines),形成量子支持向量机(Quantum Support Vector Machines,QSVM)。其他架构包括变分量子分类器(Variational Quantum Classifiers,VQC)、量子神经网络(Quantum Neural Networks,QNN)和量子卷积神经网络(Quantum Convolutional Neural Networks,QCNN)[23,24,25,26,27],通常在混合量子-经典框架内实现。从计算角度来看,量子机器学习(QML)提供了几个理论优势。首先,量子特征图可以将经典数据投影到更高维的特征空间中,从而可能提高类别的可分性。其次,量子电路可以通过纠缠和干涉来模拟复杂的非线性关系。第三,量子算法可能在某些优化任务中提供计算速度优势。因此,QML通过利用量子增强的特征表示,为解决网络钓鱼检测的核心挑战提供了理论基础,特别是高维度、非线性和对抗性特征变化问题。尽管有这些理论优势,但由于硬件限制、实验不一致性以及缺乏跨研究的统一证据,QML在实际应用到网络钓鱼检测中的效果仍不清楚。

3. 方法论
为了填补这一空白,进行了一项系统文献综述(Systematic Literature Review,SLR),以综合现有关于QML分类器在网络钓鱼检测中的研究。该综述遵循PRISMA指南[28],以确保方法论的严谨性和透明度。研究选择过程总结在PRISMA流程图中[29],如图2所示。这项方法论的主要目的不仅是识别相关研究,还要系统地识别技术方法,并综合证据来评估QML在网络钓鱼检测中的成熟度和可行性。
这项系统综述旨在解决五个关键研究问题(RQs),这些问题定义了研究的范围:
RQ1:哪些QML模型已被应用于网络钓鱼检测?
RQ2:在QML模型中使用了哪些特征编码策略来表示网络钓鱼数据?
RQ3:现实的量子硬件限制如何影响这些模型的性能和泛化能力?
RQ4:现有的QML分类器有哪些优势和局限性?
RQ5:文献中发现了哪些挑战和未来的研究方向?
预定义的综述协议已在开放科学框架(Open Science Framework,DOI: 10.17605/OSF.IO/MHAC7)上注册,补充材料可以下载自:https://www.mdpi.com/article/10.3390/make8040086/s1。综述过程包括五个主要阶段:搜索策略、研究选择、纳入的研究、数据提取和定性综合。

3.1. 搜索策略
首先,我们在多个电子数据库中进行了广泛的搜索,包括ACM数字图书馆、IEEE Xplore、MDPI、ScienceDirect和SpringerLink。选择这些来源是因为它们涵盖了广泛的计算机科学和网络安全研究,并能够访问相关的高质量研究。搜索字符串如表1所示。搜索范围限制在过去的五年内发表的研究,即2021年1月初至2025年12月初,以捕捉反映网络安全威胁和QML发展的最新进展。

3.2. 研究选择
研究选择过程分为三个连续阶段。首先,将所有从数据库中检索到的记录合并(n = 19)。接下来,在筛选阶段,检查标题、摘要和关键词以排除不相关的研究;如果文章不涉及QML、不涉及网络钓鱼检测,或者是评论文章、社论或没有实证评估的理论论文,则将其排除(n = 12)。然后,评估全文文章的相关性和方法论适当性,只包括用英语撰写的同行评审的期刊和会议论文,并排除了一篇文章。最终选择了六篇符合所有纳入标准的研究。

3.3. 纳入的研究
最终选择的结果是纳入了六篇研究文章,如图2下半部分所示。纳入的研究数量有限,反映了QML在网络钓鱼检测领域早期的应用情况。尽管如此,所有符合条件的研究都进行了系统分析,以确保全面覆盖可用的证据。纳入研究的关键细节,如来源数据库、出版年份、参考文献和引用次数,在表2中报告,提供了选择结果的透明概览。

3.4. 数据提取和综合
进行了结构化的数据提取过程,以系统地从每篇纳入的研究中收集相关信息。提取的数据包括QML分类器的类型、特征编码策略、数据集特征、评估指标、报告的性能以及每种方法的优点和局限性。此外,还记录了使用的平台信息,如量子模拟器或真实的量子设备。数据提取由第一作者独立完成,随后由第二作者验证,以确保准确性、一致性,并尽量减少综述过程中的潜在偏见。综合分析使用了描述性统计分析和主题分组。频率分析用于识别主要的QML分类器和编码策略,而主题综合则用于分类优点、局限性和研究挑战。

3.5. 质量评估
使用改编的新castle–Ottawa量表(Newcastle–Ottawa Scale,NOS)[35]对纳入的研究进行了质量评估。NOS分为三个领域:选择、可比性和结果,最高得分为九星。该量表被调整以适应使用QML或受量子启发的方法进行实证网络钓鱼检测的研究,其中质量很大程度上取决于数据集的完整性、公平的基准测试和透明的评估。
在选择领域,我们评估了:(1)数据集的相关性和代表性,(2)标记和真实值的质量,(3)预处理的透明度和泄漏控制,以及(4)训练-测试设计的适当性,包括分割策略和不平衡处理。在可比性领域,我们评估了:(5)基线的强度和比较的公平性,以及(6)实验混杂因素的控制,包括超参数调整、特征选择、编码或特征图设置、电路或方案配置和训练条件。在结果领域,我们评估了:(7)结果度量的适当性和完整性,(8)鲁棒性和统计可靠性,以及(9)可重复性和泛化能力。
质量评分由两名研究人员独立进行。得分7-9星的研究被归类为高质量,4-6星为中等质量,1-3星为低质量,如表3所示。

4. 结果
本节展示了关于QML在网络钓鱼检测中的综述发现,按研究问题组织。综述首先识别了应用于网络钓鱼检测的QML模型,并将它们分为四类。然后,它研究了用于将经典网络钓鱼特征映射到量子表示的特征编码策略。在此基础上,该部分分析了现实部署因素(包括有限的量子比特数、电路深度和硬件噪声)如何影响量子机器学习模型的学习行为、稳定性和泛化能力。该部分报告了与每种技术相关的优点和缺点,如所选研究中记录的那样。最后,它总结了当前限制QML实际应用的挑战,并总结了文献中报告的未来研究方向。

4.1. RQ1:哪些QML模型已被应用于网络钓鱼检测?
图3显示了在综述研究中应用于网络钓鱼检测的QML分类器的出现频率。结果显示,确定了四个主要的分类器类别:QSVM/QSVC、VQC、QCNN和QNN。其中,QSVM/QSVC是最常采用的方法,在六项研究中的四项中出现,其次是VQC和QCNN,每项研究中有三项,而QNN使用最少,仅出现在两项研究中。这一结果表明,研究倾向于基于核函数和变分的量子分类器。

4.2. 在QML模型中使用了哪些特征编码策略来表示网络钓鱼数据?
图4展示了在综述研究中用于将经典网络钓鱼特征映射到量子表示的特征编码策略的出现频率。结果揭示了编码采用的显著差异,反映了表示表达能力和硬件可行性之间的权衡。在确定的方法中,ZZ Feature Map是最常用的编码方法,在三项研究中出现,其次是Z Feature Map、Angle Encoding和Amplitude Encoding,每项研究中有两项。其余的编码策略,包括Quantum Random Access Coding(QRAC)、Qudit-based Encoding、Pauli-feature maps、Rotation Angle Setting、Cascaded或Concatenated QRAC、Categorical and Binary Feature Embedding和One-Hot Encoding,每项研究各使用一次。

4.3. RQ3:现实的量子硬件限制如何影响这些模型的性能和泛化能力?
图3显示了在综述研究中应用于网络钓鱼检测的QML分类器的出现频率。QSVM/QSVC代表了经典支持向量机(SVM)的量子等效物,其中经典数据使用量子特征图(如ZZFeatureMap)嵌入到量子状态中,并使用量子核函数进行分类。QSVM通过将网络钓鱼URL特征投影到高维希尔伯特空间中,提高了类别的可分性,特别是在网络钓鱼和合法URL在词汇和结构模式上表现出细微差异时。这种能力在网络钓鱼检测中尤为重要,因为攻击者会故意操纵特征以模仿合法网站。图3中QSVM/QSVC的高出现频率反映了其坚实的理论基础、在混合量子-经典框架中的简单实现,以及与当前噪声中等规模量子(NISQ)硬件限制的兼容性。
VQC在三项研究中被识别,代表了另一种广泛探索的方法。VQC结合了量子特征编码和参数化的量子电路(称为变分方案),其参数使用经典优化器进行优化以最小化分类错误。这种混合优化过程允许VQC利用量子叠加和纠缠属性来学习非线性决策边界。在网络钓鱼检测中,这使得模型能够捕捉复杂的特征交互并提高恶意和良性URL之间的区分能力。VQC在图3中的相对高出现频率表明了其灵活性和适应性,特别是在混合量子-经典学习环境中。
QCNN也在三项研究中出现,通过结合类似卷积的量子电路层扩展了量子学习,以学习结构化的特征表示。这些架构旨在通过多个量子处理层学习特征表示,类似于经典卷积神经网络。在网络钓鱼检测中,QCNN能够逐步转换和抽象输入特征,从而可能提高检测性能。然而,尽管具有理论优势,但由于其较高的电路复杂性、对量子噪声的敏感性以及更大的硬件资源需求,QCNN的 dominance不如QSVM,这限制了其在当前NISQ限制下的实际应用。

4.4. RQ4:现有的QML分类器有哪些优势和局限性?
图4展示了在综述研究中用于将经典网络钓鱼特征映射到量子表示的特征编码策略的出现频率。结果揭示了编码采用的显著差异,反映了表示表达能力和硬件可行性之间的权衡。在确定的方法中,ZZ Feature Map是最常用的编码方法,在三项研究中出现,其次是Z Feature Map、Angle Encoding和Amplitude Encoding,每项研究中有两项。其余的编码策略,包括Quantum Random Access Coding(QRAC)、Qudit-based Encoding、Pauli-feature maps、Rotation Angle Setting、Cascaded或Concatenated QRAC、Categorical and Binary Feature Embedding和One-Hot Encoding,每项研究各使用一次。

4.5. 质量评估
使用改编的新castle–Ottawa量表(Newcastle–Ottawa Scale,NOS)[35]对纳入的研究进行了质量评估。NOS分为三个领域:选择、可比性和结果,最高得分为九星。该量表被调整以适应使用QML或受量子启发的方法进行实证网络钓鱼检测的研究,其中质量强烈依赖于数据集的完整性、公平的基准测试和透明的评估。
在选择领域,我们评估了:(1)数据集的相关性和代表性,(2)标记和真实值的质量,(3)预处理的透明度和泄漏控制,以及(4)训练-测试设计的适当性,包括分割策略和不平衡处理。在可比性领域,我们评估了:(5)基线的强度和比较的公平性,以及(6)实验混杂因素的控制,包括超参数调整、特征选择、编码或特征图设置、电路或方案配置和训练条件。在结果领域,我们评估了:(7)结果度量的适当性和完整性,(8)鲁棒性和统计可靠性,以及(9)可重复性和泛化能力。
质量评分由两名研究人员独立进行。得分7-9星的研究被归类为高质量,4-6星为中等质量,1-3星为低质量,如表3所示。

4. 结果
本节展示了关于QML在网络钓鱼检测中的综述发现,按研究问题组织。综述首先识别了应用于网络钓鱼检测的QML模型,并将它们分为四类。然后,它研究了用于将经典网络钓鱼特征映射到量子表示的特征编码策略。在此基础上,该部分分析了现实部署因素(包括有限的量子比特数、电路深度和硬件噪声)如何影响量子机器学习模型的学习行为、稳定性和泛化能力。该部分报告了与每种技术相关的优点和缺点,如所选研究中记录的那样。最后,它总结了当前限制QML实际应用的挑战,并总结了文献中报告的未来研究方向。这使得振幅编码在理论上对于高维的网络钓鱼数据集具有吸引力。然而,其实现需要严格的数据标准化和复杂的量子态准备,这限制了在当前硬件和模拟器限制下的实际应用。Pauli特征图是另一种基于量子核的编码策略,也被用于将网络钓鱼数据加载到量子态中进行分类。这些编码使用Pauli旋转算符的组合将经典特征转换为量子表示,从而能够灵活构建量子核。与ZZ特征图类似,Pauli特征图提供了强大的表示能力,但由于量子比特的要求而面临可扩展性挑战。量子随机访问编码(QRAC)及其级联或串联变体作为基于压缩的编码策略被引入,以解决量子比特的限制问题。QRAC能够将多个经典比特编码到更少的量子比特中,同时保持部分可恢复性,允许高维网络钓鱼特征被压缩到更小的量子电路中。级联QRAC通过组合多个QRAC编码来提高压缩效率,据报道硬件压缩效率提高了多达3.5倍。这种方法显著提高了硬件的可行性,并使得在量子硬件资源有限的情况下实现更现实的部署场景成为可能。基于qudit的编码通过使用更高维度的量子单元(称为qudit)来表示网络钓鱼数据,从而扩展了传统的量子比特编码。这种方法增加了表示能力,并允许对复杂的网络钓鱼模式(特别是恶意URL的语言和结构特征)进行更细致的编码。然而,由于基于qudit的量子硬件仍然有限,这种编码的探索较少。旋转角度设置是一种专门的编码方法,其中特定的数值网络钓鱼特征(如IP地址值)被转换为量子旋转角度。这使得可以直接将数值数据映射到量子电路中,而无需额外的转换步骤,从而提高了编码效率。分类和二进制特征嵌入在将网络钓鱼特征编码到量子态之前,首先将其转换为二进制或分类表示。这种方法简化了编码复杂性,并使得与量子电路的兼容性成为可能,特别是在网络钓鱼数据集包含协议类型或域名类别等分类属性时。独热编码主要用作预处理步骤,将分类网络钓鱼特征转换为二进制向量,然后再进行量子编码。这种方法确保了经典特征格式与量子编码电路之间的兼容性,但并不直接提供量子优势。

4.3. 现实量子硬件限制如何影响这些模型的性能和泛化能力?
在本节中,我们区分了硬件噪声(设备级别的退相干和门/读出错误,这些会降低电路的保真度)、类似噪声的正则化效应(来自有限次实验或训练动态的随机性,有时可以提高泛化能力)以及对抗性扰动(旨在逃避检测的故意输入操纵),因为这些因素以根本不同的方式影响QML的学习行为。当前嘈杂的中等规模量子(NISQ)时代的现实限制强烈塑造了用于网络钓鱼检测的QML模型的学习行为和性能。有限的量子比特可用性迫使研究人员采用高效的特征编码策略,例如QRAC,它可以将多个经典特征压缩到少量的量子比特中。这种方法不仅缓解了硬件稀缺的问题,还加快了训练和评估周期。尽管有这些优势,电路深度仍然是一个主要瓶颈。增加特征图或变分假设的重复次数以捕捉URL中的微妙语言模式会大幅增加执行时间,并由于量子比特的短相干时间而增加错误率。此外,硬件噪声和量子干涉经常导致测量到的状态概率与理想模拟结果偏离,从而在实际量子设备上导致明显的性能下降,这促使人们使用错误缓解技术。有趣的是,一些研究表明,在某些情况下,内在的量子噪声可以通过作为一种正则化形式来提高泛化能力。这种效应有助于模型抵抗过拟合,特别是在暴露于URL混淆等对抗性操纵时。此外,虽然量子支持向量机在高维希尔伯特空间中表现出高稳定性和强召回率,但更复杂的架构(如量子卷积神经网络)由于在噪声条件下调整量子参数的难度而难以有效泛化。

4.4. 现有QML模型有哪些优势和局限性?
所包含的研究被分为四种QML模型,报告的优势和劣势在以下小节中进行了总结。

4.4.1. QSVM/QSVC
本小节报告了QSVM或QSVC在网络钓鱼检测中的优势和劣势。表4总结了所审查研究中QSVM/QSVC的优点和局限性。审查的研究报告称,QSVM或QSVC通过使用量子核和特征图将经典特征嵌入高维希尔伯特空间,从而增强了良性和网络钓鱼样本之间的区分能力。几项研究报告称,在相同的数据集上,QSVM或QSVC的预测性能优于经典SVM基线,包括准确率高达92%,而经典SVM的准确率为85-89%,并且召回率有所提高,减少了漏检的网络钓鱼案例。一项研究报告称,在对抗性扰动下,QSVM的性能保持在88%以上,而经典模型的性能下降到75%以下。另一项研究报告称,在相同的实验设计下,训练时间减少了大约40%。这种比较指的是作者设置中报告的优化器或核训练运行时间,而显著更高的“资源成本”反映了端到端模拟的开销(状态向量更新、实验采样和重复电路评估),而不是经典SVM求解器本身。对于基于图的网络钓鱼检测,基于QSVM的方法报告称产生的假阴性较少。此外,一项研究报道称,QRAC编码将QSVM的性能提高了大约3%。表4总结了QSVM/QSVC在网络钓鱼检测中的优势和劣势。审查的研究还报告了几项局限性。实现受到NISQ硬件噪声和稳定真实设备执行的限制。多项研究报告称,基于模拟的QSVM或QSVC产生了大量的计算成本,包括一项实验中QSVM模拟所需的资源几乎是经典SVM的2000倍。许多评估主要在模拟器上进行,而不是在物理量子处理器上进行,这限制了操作验证和部署的相关性。

4.4.2. VQC
本小节报告了VQC在网络钓鱼检测中的优势和劣势。表5总结了所审查研究中VQC的优点和局限性。审查的研究报告称,VQC结合了量子特征图和变分假设,并利用叠加和纠缠来支持分类任务中的表达性决策边界。一项评估报告称,QRAC-VQC的性能比ZZ特征图提高了大约13%。基于QRAC的VQC模型还报告了高召回率,减少了假阴性,特别是在安全敏感的检测设置中特别有价值。一项研究报告称,PhishVQC实现了最高的宏观平均F1分数0.89,比早期的基于VQC的结果提高了22%,并且在某些数据集上,VQC的F1分数在QML技术中名列前茅,超过了选定的经典基线如SVM。然而,审查的研究报告称,由于噪声的影响,VQC在真实量子硬件上的性能经常下降,表明需要有效的错误缓解措施。研究还报告称,随着数据集大小的增加,计算负担也在增加,执行时间显著增加,某些假设设计(如EfficientSU2)始终需要比RealAmplitudes等替代方案更多的执行时间。当前的硬件限制限制了VQC扩展到更大样本规模和更复杂特征表示的能力。

4.4.3. QCNN
本小节报告了QCNN在网络钓鱼检测中的优势和劣势。表6总结了QCNN在网络钓鱼检测中的关键优势和劣势。审查的研究报告称,QCNN支持分层学习和特征提取,表明它有可能捕捉URL特征之间的复杂依赖关系。在一些评估中,QCNN的复杂性报告称在网络钓鱼检测性能上略有改进。QCNN还被报告称能够在保持混合效率的同时导航高维特征空间,与完全量子架构相比。选定的研究还报告了QCNN的局限性,其性能被描述为对量子噪声敏感,并且在NISQ限制下难以调整电路参数。QCNN架构也被报告称不太适合纯数值特征结构,通常设计时带有更自然地适应图像类或空间结构数据的归纳偏差。此外,QCNN电路的复杂性报告称相对于简单的QNN模型收敛较慢,一些研究报告称添加量子层并不总是带来预期的收益,有时还会增加训练难度和运行时间。

4.4.4. QNN
本小节报告了QNN在网络钓鱼检测中的优势和劣势。表7总结了审查研究中报告的QNN的优势和劣势。审查的研究报告称,QNN结合了经典神经原理和参数化的量子电路,在混合量子-经典架构中。一项研究报告称,QNN在合法样本分类上的表现强劲,表明它有可能用于设计互补的检测策略。然而,审查的研究报告称,QNN在网络钓鱼检测的准确性和类别特异性敏感性方面通常不如经典神经网络和QSVC。这些模型在合法样本上的学习效果更好,这增加了将网络钓鱼实例误分类为合法样本的风险。一项评估报告称,平均网络钓鱼检测性能约为70%。

4.5. 文献中发现了哪些挑战和未来的研究方向?
本小节综合了审查研究中报告的发现,总结了当前限制QML在网络钓鱼检测中实际应用的挑战以及提出的未来研究方向。

4.5.1. 当前挑战
表8总结了审查研究中报告的当前挑战。审查的研究报告称,QML的性能受到NISQ硬件限制的强烈约束。门错误、退相干和测量不稳定性被反复报告为在实际设备上降低性能的原因,与基于模拟器的结果相比。有限的量子比特可用性也被报告为限制特征维度并阻碍扩展到真实世界网络钓鱼数据集的原因。几项研究报告了高计算和模拟成本,其中QML流程所需的资源远多于经典方法,且随着数据集大小的增加,执行时间急剧增加。特征编码一直被报告为瓶颈,因为效率低下的特征图增加了量子比特的需求并增加了开销。

4.5.2. 未来研究方向
表9提出了审查研究中最常报告的未来研究方向。审查的研究强调了通过噪声感知建模和错误缓解技术来提高在NISQ硬件上的鲁棒性。它们还强调了需要更高效的量子特征编码方案来减少量子比特需求和编码开销。多项研究呼吁开发能够处理大型真实世界网络钓鱼数据集的可扩展QML架构,并增加混合量子-经典流程的采用,以平衡量子表达能力和经典效率。通过系统化基准测试将评估从模拟器扩展到真实量子硬件被反复推荐。几项研究还提出了自适应或渐进式QML框架,以应对不断演变的网络钓鱼策略和概念漂移。电路简化和优化假设设计被报告为减少执行时间和训练成本的重要措施。此外,研究一致推荐开发标准化的数据集和评估协议,以实现与经典方法的可重复和公平比较。最后,审查的研究建议将QML应用扩展到更广泛的网络钓鱼场景,包括多模态和零样本设置,并提高可解释性和可解释性,以支持在网络安全环境中的可信部署。未来的研究还应强调在不同量子硬件平台上的标准化基准测试实践。这包括在多个量子处理器上评估QML模型,比较不同噪声环境下的性能,以及进行跨设备验证。研究应进一步报告详细的硬件配置信息,如量子比特(qubit)连接性、门(gate)的保真度、校准数据以及测量错误率,以支持结果的可重复性和公平比较。此外,通过消融研究(ablation studies)来考察电路深度、连接性限制和编码策略的影响,将有助于更深入地了解量子机器学习(QML)模型的实际局限性和可扩展性。

5. 讨论
本讨论强调了主要发现,并指出用于网络钓鱼检测的QML研究主要集中在少数几种技术上,其中量子支持向量机(QSVM/QSVC)和变分量子电路(VQC)出现频率最高,而量子卷积神经网络(QCNN)和量子神经网络(QNN)则较为少见且更具实验性。在这些技术中,结果一致表明,在受控环境下(通常是在模拟器上)虽然分类性能表现良好,但由于噪声、量子比特稀缺、编码开销和高计算成本等问题,实际应用准备程度有限。

5.1. 解读用于网络钓鱼检测的QML模型现状
研究表明,所审查的研究采用了四类主要的QML技术,即QSVM或QSVC、VQC、QCNN和QNN。QSVM或QSVC和VQC在文献中占主导地位,这一现象可以从实用性角度进行解释。在这些研究中,这两种技术都被集成在混合量子-经典(quantum-classical)流程中,其中经典预处理生成紧凑的特征表示,随后量子电路用于计算核函数(如QSVM或QSVC)或实现参数化决策函数(如VQC)。这种设计与网络钓鱼数据集的表示方式非常契合,数据集通常以URL派生的特征向量形式存在,在某些情况下则表现为用于节点分类的交易或交互网络。QCNN被认为是一种能够通过分层参数化量子门实现层次学习和隐式降维的模型;然而,由于数据适用性和当前硬件限制,其应用频率较低。

量子特征图将经典输入特征嵌入到具有指数级表示能力的高维希尔伯特空间中。这一特性对于网络钓鱼检测尤为重要,因为攻击者会刻意模仿合法网站,导致类别边界非常复杂。从理论和实证角度来看,量子核可以利用传统特征工程方法无法访问的特征空间,这种能力已被证明可以在实际学习场景中提高类别可分性[36]。这些发现表明,基于核和变分的QML模型目前最符合网络钓鱼数据的结构特性以及NISQ时代硬件的限制。

相比之下,QNN模型在评估中的网络钓鱼分类性能较弱,这可能降低了其相对于QSVM和VQC基线的采用率。尽管QNN架构作为混合量子-经典神经模型具有概念上的灵活性,但报告的结果显示,在当前的噪声和扩展限制下,其优势有限。

未来的研究应系统地比较QSVM、VQC和新兴的混合架构在标准化数据集和评估协议下的表现。此外,还应探索抗噪声的电路设计、高效量子比特编码以及自适应学习机制,以提高对不断演变的网络钓鱼策略的鲁棒性。随着量子硬件的成熟,未来的研究应将实验验证扩展到真实设备,并探讨更深层次的电路或混合扩展策略是否可以在不牺牲实用性的前提下实现更具表现力的QML模型。

5.2. 各种技术的优缺点
QSVM和QSVC通过使用量子核和特征图将网络钓鱼特征投影到高维希尔伯特空间中,从而提高了类别可分性,这一点尤为重要,因为网络钓鱼指标在原始特征空间中往往难以区分,尤其是在攻击者模仿合法模式时。如表10所示,基于QSVM的方法在混合环境下实现了高达92%的准确率,在受控子集中实现了100%的完美分类,而精确度和召回率也达到了1.00。相比之下,经典SVM基线的准确率通常在85-89%之间,表明量子特征映射功能起到了强大的非线性转换作用,而不仅仅是直接替代模型。表10显示了量子模型和经典模型在网络钓鱼检测中的比较性能。此外,这些方法在对抗性干扰下的鲁棒性也得到了保持,QSVM的性能保持在88%以上,而经典模型的性能则降至75%以下,表明它们对诸如字符替换或子域混淆等小规模特征操作不敏感[37]。编码策略的影响也在表10中得到体现,QRAC-QSVM的召回率(0.96)和F1分数(0.93)高于其他配置,支持了编码选择对性能提升有显著贡献的观点[38]。

然而,这些优势也受到实际限制的制约。量子模拟的计算成本可能约为经典SVM的2000倍,这引发了关于可扩展性和实时网络钓鱼检测系统部署可行性的担忧。此外,大多数结果仍然依赖于模拟器而非真实量子硬件,限制了外部有效性。

VQC方法结合了量子特征图和通过经典方法优化的变分假设电路,提供了模型设计的灵活性。如表10所示,VQC模型在基于QRAC的配置中实现了较高的召回率(0.93)和有竞争力的F1分数(最高达0.89)。PhishVQC模型表现出高精度(0.97),但召回率相对较低(0.81),表明其分类倾向较为保守。在这种情况下使用宏观平均F1分数是合适的,因为类别不平衡会导致较高的操作风险[39]。此外,基于QRAC的编码方法将性能提高了约13%,进一步强调了编码策略的重要性。

尽管有这些优势,VQC模型对NISQ噪声敏感,并且随着数据集规模的增加计算开销也会增加。假设选择也会影响效率,EfficientSU2电路的计算成本高于RealAmplitudes电路,从而限制了在动态威胁环境中的可扩展性和重新训练频率[40]。

QCNN模型引入了能够捕捉特征交互的层次结构,理论上适合处理组合型网络钓鱼模式。然而,表10中的实证结果显示性能不稳定,准确率低至0.65,F1分数仅为0.62。即使在改进的配置下,QCNN的准确率也只有85.22%,仍低于QSVM的表现。这些发现表明,QCNN架构对噪声敏感,需要复杂的调整,并且由于依赖于空间归纳偏差,不太适合表格形式的网络钓鱼数据集[41]。

基于QNN的方法表现中等,PhishStorm数据集上的准确率为0.9107,但缺乏完整的指标报告。现有的精确度(约0.94)表明其具有合理的分类能力,但缺乏召回率和F1分数限制了其解释性。更重要的是,现有结果表明其存在偏向于合法类别预测的倾向,网络钓鱼检测性能约为70%,这在高风险环境中不足以用于实际应用。

5.3. 实际性能与准备就绪度的对比
结果显示,许多报告的性能提升是在受限的评估环境下获得的,主要使用的是模拟器,而在真实量子硬件上的性能则反复受到NISQ相关噪声的影响。图5展示了QML用于网络钓鱼检测的模型准备就绪度与报告性能之间的关系。模拟器结果与真实设备行为之间的差距反映了NISQ时代量子计算的持续局限性。在理想化或轻度噪声模拟条件下评估的方法往往无法在物理设备上实现类似的性能,因为包括退相干、门错误、退极化和状态准备不准确在内的多种噪声源会随着电路深度和量子比特数量的增加而逐渐降低保真度。在需要可靠且可重复操作的网络钓鱼检测中,这种差异构成了实际验证和部署的重大障碍[42]。

5.4. 当前挑战与影响
结果显示,硬件限制主导了模拟器与真实硬件之间的差距。最一致的局限性是NISQ噪声,包括门错误、退相干和不稳定测量,这些因素导致真实设备上的性能相对于模拟器有所下降。这些噪声源在不同的时间尺度上起作用:相干错误在电路执行过程中系统累积,而退相干则来自与环境的相互作用,这两种效应还受到同一设备上日间校准漂移的影响。在这种情况下,仅靠算法层面的设计无法消除模拟器与真实硬件之间的差距,需要具备硬件感知的编译和有针对性的错误缓解措施。这种差距很重要,因为网络钓鱼检测需要在现实世界条件下可靠运行。如果模拟器的优势无法转移,QML仍然只是一个研究原型,而不是可部署的防御组件。

结果还显示,量子比特的稀缺性和特征维度限制了模型的扩展性。有限的量子比特数量限制了可编码的特征数量,从而限制了其在大型真实世界网络钓鱼数据集上的应用。尽管NISQ设备可能提供大约50到100个量子比特,但由于连接性限制、校准质量不均和位置依赖的错误率,有效利用率较低。两量子比特门比单量子比特操作噪声更大,这在通过纠缠建模更复杂关系与保持电路保真度之间造成了权衡[43]。这一限制尤为重要,因为强大的经典网络钓鱼检测器通常受益于更丰富的特征集和更大的训练数据。在严格的量子比特预算下,QML必须压缩特征或采用更高效的编码方式,这两种方法都可能引入新的故障模式。

第三个挑战是高计算和模拟成本,有时比经典基线高出几个数量级,同时随着数据集规模的增加和执行时间的延长,可扩展性也较差。这与操作型网络钓鱼防御直接冲突,因为模型必须频繁重新训练并快速处理大量URL。

结果还显示,特征编码造成了持续的瓶颈。低效的特征图增加了量子比特的需求并增加了电路深度。编码选择(如角度编码、块编码、QRAC或基于纠缠的方案)直接影响资源使用和保真度。没有一种编码策略始终是最优的,因为性能取决于数据集属性、假设选择以及硬件因素(如原生门和连接性)。因此,编码通常需要通过手动调整或自动搜索方法进行优化。在变分电路中,假设设计必须平衡表达能力和可训练性。更具表现力的假设(如EfficientSU2)可以表示更丰富的功能,但往往会增加训练时间和优化难度,包括出现训练平台期的情况。相反,更简单的电路虽然降低了成本,但增加了欠拟合的风险。这些发现表明,当前的QML结果在很大程度上受到表示工程的影响,特别是编码-假设组合的影响,而不仅仅是分类器家族(QSVM、VQC或QNN)的选择。

5.5. 未来研究方向:清晰的路线图
结果显示,最受重视的方向是开发抗噪声和错误缓解的QML模型,以提高在真实NISQ硬件上的可靠性。错误缓解方法,如动态解耦、用于零噪声外推的电路折叠以及噪声感知编译,被报道为提高物理设备上精确度的有效手段。然而,这些方法也通过增加电路深度、提高门数量或额外的经典后处理引入了开销。研究进一步表明,将设备特定的校准数据整合到编译和优化过程中可以提高性能,但这种定制性降低了跨硬件平台的可移植性[44]。这种权衡很重要,因为可信的网络钓鱼防御需要在真实设备上表现出强大的性能,而不仅仅是在模拟器上。结果还显示,设计更高效的量子特征编码方案被反复提出,以减少量子比特的使用和编码开销。最近关于可训练嵌入、进化架构搜索和量子数据压缩的工作表明,通过结构化优化可以提高编码效率。例如,基于QRAC的嵌入被报道可以在使用更少量子比特的情况下提高准确性,而量子运行长度编码被报道可以为特定数据结构提供显著的资源收益[45]。本综述中提到的与基于QRAC的方法相关的改进强化了编码选择可以显著影响召回率和F1分数的观点。此外,研究指出迫切需要可扩展的QML架构,以处理大型网络钓鱼数据集,并需要混合量子-经典管道,以平衡量子能力和经典效率。在混合设计中,量子电路支持特征提取或中间表示学习,而经典模型执行最终分类,这种设计更具可扩展性,因为经典组件可以在不受量子比特预算限制的情况下处理大型数据集。短期内,这种方法似乎最为实用,因为它既考虑了硬件限制,又能够评估有针对性的量子组件。结果还显示,提出了自适应和渐进式的QML模型来应对概念漂移和不断演变的网络钓鱼策略。网络钓鱼本质上是对抗性和非静态的,因为攻击者不断改变URL和社会工程策略以逃避检测。在网络安全中广泛使用了对漂移有意识和自适应的学习框架来监控性能变化并触发重新训练,但这些机制在所审查的QML研究中基本上缺失。这一差距很重要,因为准备部署的网络钓鱼检测需要持续适应,而不仅仅是一次性训练。最后,本研究强调了标准化数据集和评估协议、在真实量子硬件上的系统基准测试、扩展到更广泛的场景(如交易网络和多模态或零样本场景)以及提高可解释性的需求,以支持可信的部署。这些方向将使该领域从概念验证演示转向可复制且与安全相关的研究。

5.6. 对当前证据的解释意义
研究结果支持这样的解释:QSVM或QSVC和VQC是最成熟的候选者,值得进一步研究,因为它们一致地报告了具有竞争力的指标,包括准确率、召回率和F1分数的提高,以及在扰动下的鲁棒性,以及由编码选择带来的收益。这些方法还受益于更强的理论基础,在Qiskit和PennyLane等平台上有广泛可用的实现,并且比新的以网络钓鱼为重点的方法(如QCNN或QNN)拥有更广泛的实证基础。然而,更高的研究成熟度并不自动意味着操作就绪[46]。同时,结果并不支持强烈的部署主张。模拟器依赖性、NISQ噪声、量子比特限制以及成本和延迟限制被反复报告为未解决的障碍。总体而言,现有文献更多地说明了QML可能增加的价值,而不是它何时能够取代或可靠地超越经过良好优化的经典网络钓鱼检测器。短期内,QML应被视为用于特定任务的补充工具,例如在结构化网络数据中的异常检测或捕捉复杂交互模式的特征选择,而不是完全替代经典网络钓鱼检测系统。这种有针对性的策略将使得在真实量子硬件上进行渐进式验证成为可能,积累操作证据,并随着量子设备的改进和QML方法变得更加稳健而逐步扩展应用范围。

6. 局限性
虽然这项早期的系统综述提供了关于QML在网络钓鱼检测中研究的结构化综合,但在解释研究结果时应承认几个局限性。首先,证据基础仍然较小,因为只包括了六项符合条件的主要研究。这一限制削弱了跨研究比较的力度,并降低了将观察到的趋势推广到早期阶段或概念验证实现之外的能力。其次,搜索策略和资格标准引入了潜在的选择偏差。综述仅限于预定义的数据库集、最近的出版时间窗口以及英文的同行评审文章。因此,使用替代术语的相关研究(如“恶意URL检测”而没有明确提到“网络钓鱼”),以及受量子启发的方法、技术报告、预印本或行业评估可能没有被涵盖。此外,由于全文访问限制,一些潜在相关的研究也被排除在外,这进一步限制了覆盖范围。最后,许多报告的结果是在模拟或高度控制的实验条件下获得的。在真实量子硬件上的性能仍然对NISQ噪声和量子比特限制敏感。因此,本综述的结论主要反映了当前的实验可行性,而不是在实际网络钓鱼检测系统中的部署就绪情况。

7. 结论
这项系统综述综合了关于QML在网络钓鱼检测中的新兴文献。由于证据基础仍然较小,只有六项研究符合资格标准,并且研究设计各不相同,这些结论应被视为早期证据,而不是最终指导。报告的性能和声称的优势是特定于研究的,并且由于数据集、特征集、编码、后端和评估协议的差异,并不总是可以直接比较的。在包括的研究中,有四种QML模型被应用于网络钓鱼检测:QSVM/QSVC、VQC、QCNN和QNN。QSVM/QSVC和VQC被评估得最频繁,并且经常在受控或模拟环境下报告出有竞争力的结果。然而,结果因特征编码选择、电路深度、假设设计和泄漏控制而有所不同,只有有限的证据支持与强大的经典基线的直接比较。总体而言,现有文献将QML定位为一个实验性组件,可以补充经典网络钓鱼管道,特别是作为一种可能在高维希尔伯特空间中引入不同归纳偏差的表示机制。目前,证据并不支持广泛的优越性或部署就绪性的主张。这项综述提供了一个结构化的综合,映射了模型、特征编码策略、报告的优势和劣势以及NISQ时代的实际限制,并将挑战和未来方向整合为一个实用的路线图。它还指出了限制可重复性的常见问题,包括不完整的数据集描述、不一致的训练-测试划分以及超参数调整和资源成本的有限披露。未来的工作应优先考虑在真实量子后端上进行噪声感知训练和推理、针对网络钓鱼特征定制的量子比特高效编码,以及在反映攻击行为演变的大型、时间上真实的数据库上进行评估。应建立具有共享划分、明确泄漏控制和透明预处理和调整报告的社区基准测试,并且混合设计应证明量子组件在哪些方面能够超越经典替代方案。未来的研究还应超越仅报告分类准确性的做法,纳入实际性能指标,包括执行时间、射击效率和错误缓解开销。这些因素直接影响实际部署的可行性,并提供了对算法效率的更全面评估。在采用这些评估实践之前,跨研究比较应谨慎对待。以部署为导向的测试平台和开放基准测试将有助于将模拟器中心的概念验证转化为与操作网络钓鱼防御相关的证据。

补充材料
以下支持信息可以在以下链接下载:https://www.mdpi.com/article/10.3390/make8040086/s1。参考文献[47]在补充材料中被引用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号