《FinTech》:Trust, Security, and Nonlinear Retention Dynamics in FinTech Neobanking: An Explainable Machine Learning (XAI) Approach
编辑推荐:
本研究采用理论驱动的可解释机器学习框架,考察新银行环境中的客户留存意向。现有数字银行研究通常依赖线性建模方法解释留存行为,这可能忽视非线性、依赖取值区间以及基于交互的预测模式。研究基于一项公开可得的305名新银行用户调查数据,在重复嵌套交叉验证下比较了正则化线
本研究采用理论驱动的可解释机器学习框架,考察新银行环境中的客户留存意向。现有数字银行研究通常依赖线性建模方法解释留存行为,这可能忽视非线性、依赖取值区间以及基于交互的预测模式。研究基于一项公开可得的305名新银行用户调查数据,在重复嵌套交叉验证下比较了正则化线性模型、受偏最小二乘结构方程模型(PLS-SEM)启发的基准模型,以及XGBoost(version 3.2.0)。研究采用基于SHapley Additive exPlanations(SHAP)的可解释性分析、SHAP交互分析、广义可加模型(GAM)诊断、构念层级聚合以及构念敏感性检验,以解释模型行为并评估稳健性。结果显示,XGBoost显著优于线性基准模型,在100次样本外测试折估计中取得最低平均均方根误差(RMSE)和最高平均R2。与信任相关的指标提供了模型预测重要性的最大份额,其后依次为感知安全和转换成本。SHAP与GAM诊断提示,信任和转换成本可能以异质且非线性的方式促进留存意向,而感知安全表现出更稳定的正向预测模式。与年龄相关的非线性现象较弱,鉴于样本以年轻群体为主,应谨慎解释。分析还提示信任与感知安全之间可能存在非加性关系。该研究通过展示可解释机器学习如何补充理论驱动的留存模型、识别潜在的非线性预测模式并保持可解释性,为数字银行与金融科技研究作出贡献。研究发现还为新银行情境中的信任构建、可视化安全保障以及留存诊断提供了实践启示。
该文发表于《FinTech》,围绕新银行(neobanking)客户留存这一数字金融核心议题展开。研究背景在于,金融科技(FinTech)推动零售金融服务快速数字化,新银行作为完全依托移动平台与云生态运行的数字化金融机构,在降低运营成本、提升可达性和开户效率方面表现突出,但也因缺乏物理网点、面对面接触和传统制度背书,使客户更加依赖对平台的信任、对安全性的感知以及对退出成本的判断。既有数字银行与金融服务留存研究虽已反复证明信任、感知风险、安全和转换成本的重要性,但多数研究主要采用回归或结构方程模型等线性方法,将变量影响设定为加性、对称且边际效应恒定,因而可能忽略用户留存行为中存在的非线性反应、阈值特征、异质性差异以及跨构念交互放大机制。正因如此,研究人员开展本项研究,旨在检验新银行客户留存意向是否包含传统线性模型难以揭示的非线性、依赖取值区间和交互驱动的预测结构,并在保留解释性的前提下,引入可解释人工智能(XAI)框架拓展理论驱动的留存研究。
研究人员使用来源于墨西哥情境的公开调查数据,对305名至少持有一个新银行账户的用户进行分析。论文承接既有刺激—机体—反应(S-O-R)框架研究,但并未停留于感知金融安全经由信任影响留存和转换成本的线性中介结构,而是进一步将理论构念与可解释机器学习方法结合,系统比较正则化线性模型、PLS-SEM启发式基准模型以及非线性梯度提升模型XGBoost的样本外预测能力,并利用SHAP、SHAP交互值与GAM对模型学习到的行为模式进行诊断性解释。研究得出的核心结论是:在新银行客户留存预测中,非线性模型相较线性模型具有显著更强的预测表现;信任相关指标是最主要的预测来源,感知安全和转换成本也具有重要影响;信任和转换成本呈现出更明显的异质性和非线性模式,而感知安全则表现为相对稳定的正向预测因素;年龄的非线性效应较弱,现有证据不足以支持强结论;信任与感知安全之间可能存在非加性联合贡献,但由于测量条目存在概念重叠,相关结果需谨慎解释。该研究的重要意义在于,它证明了可解释机器学习不仅能提升数字金融留存研究的预测精度,还能在不放弃理论解释框架的前提下,帮助研究者识别传统线性路径模型难以揭示的复杂模式,从而为FinTech领域的客户诊断、细分管理和理论深化提供方法论补充。
就主要技术方法而言,研究首先基于墨西哥Puebla和Mexico City线下商业区域及电子邮件、WhatsApp、Facebook等社交媒体渠道收集的305份问卷数据,构建包含信任(T)、感知安全(PS)、支付便利(EP)、转向传统银行的转换成本(SCTB)及客户留存(CR)等多指标Likert量表数据集。随后采用Ridge、Lasso、Elastic Net与PLS-SEM启发式线性基准进行比较,并以重复嵌套交叉验证评估样本外性能。研究进一步使用XGBoost进行非线性预测,以SHAP值、SHAP交互值、构念层级聚合和留存响应曲面解释变量贡献,再通过GAM与二元分类稳健性分析检验结论稳定性。
在研究结果部分,论文首先在“Model Comparison and Repeated Cross-Validation”中报告模型比较结果。通过70/30训练—测试划分及重复嵌套交叉验证,研究人员发现XGBoost在均方根误差(RMSE)、平均绝对误差(MAE)和R
2三个指标上均优于Ridge、Lasso、Elastic Net及PLS-SEM启发式线性基准模型。重复嵌套交叉验证共生成100个样本外测试折估计,结果显示XGBoost的平均RMSE最低、平均R
2最高,且Wilcoxon符号秩检验表明其对线性模型的误差改善具有统计学显著性。这一部分说明,新银行客户留存意向确实包含线性加性规格难以充分表示的预测结构,支持论文关于“非线性模型具有更优样本外预测能力”的核心判断。
在“Linear Baseline Structure (Lasso Selection)”中,研究人员通过Lasso选择结果考察线性框架下的主导预测因子。结果显示,信任条目,尤其是T4与T3,在线性加性结构中也拥有最大系数,其后是转换成本和安全相关条目。这表明即便在线性模型内,信任与安全仍然是留存的重要驱动因素,但结合上一部分结果可知,仅靠加性线性系数不足以完整刻画客户留存行为。
在“Mean Absolute SHAP Ranking”与“SHAP Construct Aggregation”中,研究人员利用SHAP绝对值重要性对特征和构念层级贡献进行评估。结果显示,T4是单个最重要预测因子,T1、T2、T3紧随其后,说明信任相关指标主导了模型对留存意向的预测。构念层级聚合进一步表明,信任相关指标贡献了最大比例的模型预测重要性,其后依次为感知安全和转换成本,支付便利及人口统计变量贡献较小。这些结果在预测意义上支持信任是新银行留存核心驱动因素的判断。不过论文同时强调,最重要的信任条目T4涉及“应用是安全的”,与感知安全存在概念交叠,因此对“信任主导性”的解释必须保持谨慎。
在“Directional Effects (Signed SHAP)”中,研究人员比较了平均绝对SHAP值与平均有符号SHAP值。结果表明,虽然信任构念贡献最大,但其有符号均值接近零甚至略为负值,这并不意味着信任降低留存,而是说明其作用在不同观测值和交互情境中表现不一。相比之下,感知安全既有较高的绝对贡献,又显示出更稳定的正向方向性。转换成本则具有一定重要性,但方向性更复杂。该部分为后续非线性和异质性分析提供了诊断依据。
在“SHAP Dependence Analysis”中,论文重点解释了关键变量的函数形态。对信任(T4)的SHAP依赖图显示,较低信任水平对应负向SHAP贡献,而较高信任水平则对应更强的正向贡献,提示信任可能在达到较高水平后对留存意向产生更强促进作用。感知安全(PS2)则表现出较稳定且总体正向的变化模式,说明安全感提升通常伴随更高的预测留存。转换成本(SCTB5)呈现出依赖取值区间的变化特征,在较高水平时正向贡献更强,显示出近似阈值型但并不绝对单一的机制。支付便利(EP2)也有正向关系,但贡献明显弱于信任与安全。年龄则呈现一定非线性迹象,但由于样本年轻化特征明显,该模式仅能视作探索性信号。
在“Binary Retention Classification Robustness”中,研究人员将连续留存得分转化为高留存与低留存二元分类问题,以检验非线性结构是否稳健。结果显示,XGBoost分类模型在保留测试集上获得较高AUC,同时Precision、Recall和F1-score也表现良好,说明非线性模型不仅能预测连续留存强度,也能较好地区分高留存与低留存用户。这一结果强化了非线性预测结构的稳健性。
在“SHAP Interaction Analysis”与“Predicted Retention Surface Analysis”中,论文分析了信任与安全之间的非加性交互。SHAP交互值表明,Trust × Security是所有跨构念交互中最强的交互模块,其中T4 × PS2和T4 × PS4尤其突出。三维留存响应曲面进一步显示,当信任和感知安全同时较高时,预测留存意向最高;当两者同时较低时,预测留存最低;若只有其中之一较高,则难以达到二者共同较高时的预测效果。这一发现从模型行为角度支持信任与安全可能具有联合强化作用。但论文同样反复提醒,由于T4本身含有“安全使用”的表述,交互强度可能部分来源于测量内容重合,因此不能将其直接等同于行为机制上的严格互补性证据。
在“Generalized Additive Model (GAM) Robustness Analysis)”中,研究人员采用GAM作为透明的非线性稳健性检验工具。结果显示,信任的平滑项最显著,且呈明显非线性正向关系;感知安全同样显著,说明其在构念层级上保持重要作用;转换成本也显示较弱但仍有意义的非线性关系;支付便利和年龄则未达到显著水平。特别是年龄平滑项不显著,表明先前SHAP中观察到的年龄非线性可能受到建模方式和样本结构影响,因而不足以支持稳健的年龄U型结论。
在“Construct-Sensitivity Robustness Analysis”中,研究人员针对T4与感知安全概念重叠的问题进行了敏感性检验。一种设定将T4从信任构念中剔除,另一种设定将T4重分类为安全条目。结果显示,两种替代规格下XGBoost仍保持较强预测性能,虽相较原始设定略有变化,但总体结论并未消失。这说明论文主要发现并非完全由某一单一条目驱动,但也进一步证明安全相关知觉嵌入在信任测量中的确对留存预测具有实质影响。
讨论部分指出,该研究整体上支持如下认识:新银行客户留存意向是由信任、感知安全、转换成本和一定程度上的人口统计异质性共同塑造的,其中信任最关键,但信任的作用并非简单线性递增;感知安全提供了更稳定的制度性保障;转换成本体现为依赖情境和取值区间的结构性留存机制;年龄效应在现有年轻样本中证据不足。论文特别强调,SHAP、GAM和交互诊断解释的是模型如何利用变量进行预测,而非变量之间的因果作用机制,因此所有非线性、阈值和互补关系都应理解为探索性的预测证据,而不是确认性的行为因果结论。
研究结论部分可译述如下:本研究采用理论驱动的可解释机器学习框架,考察了新银行环境中的客户留存。研究结果表明,数字金融服务中的留存意向预测可能包含异质且潜在非线性的关系,这些关系并不能被传统线性模型充分捕捉。在各项分析中,信任相关指标是模型留存预测中最强的贡献来源,感知安全和转换成本也提供了有意义的预测影响。通过整合行为理论与可解释预测建模,研究为理解数字银行情境中的客户留存提供了更全面的视角。同时,相关发现应被谨慎理解为预测性和探索性而非因果性或确认性证据。研究结果强调了信任构建实践、可视化安全保障以及生态整合策略在支持数字银行平台长期用户参与中的潜在重要性。更广泛地说,该研究展示了可解释机器学习方法如何补充理论驱动的金融科技研究,通过识别值得进一步检验的潜在非线性与交互式预测模式,推动该领域研究深化。