《Sport Management Review》:Machine learning and churn: predicting season ticket holder behaviour
编辑推荐:
摘要:赛季票持有者(Season Ticket Holder, STH)流失是职业体育组织长期面临的持续性挑战。尽管机器学习在该领域具有显著潜力,但既往研究多依赖横截面数据集或聚合层面特征,限制了预测效用的发挥。基于客户终身价值(Customer Lifeti
摘要:赛季票持有者(Season Ticket Holder, STH)流失是职业体育组织长期面临的持续性挑战。尽管机器学习在该领域具有显著潜力,但既往研究多依赖横截面数据集或聚合层面特征,限制了预测效用的发挥。基于客户终身价值(Customer Lifetime Value, CLV)理论,本研究旨在:(1)开发并评估融合纵向个体层面数据的流失预测模型;(2)比较多种机器学习算法的性能表现及特征重要性差异;(3)探究COVID-19大流行等破坏性事件对模型性能的影响。研究人员采集了澳大利亚某单一职业体育俱乐部六个赛季(2018–2023)的个体层面数据,涵盖118,469条STH决策记录,并对比六种机器学习算法在不同时间窗口下的预测性能与特征重要性。研究结果显示,围绕破坏性事件构建的短期两赛季纵向数据集训练出的模型,其性能显著优于完整的六赛季全周期模型。其中,梯度提升树算法表现最为优异,CatBoost在疫情后时期取得了最高的准确率(0.821?±?0.002)与AUC-ROC值(0.901?±?0.002)。特征重要性分析揭示了一组稳定的核心流失预测因子(即 tenure(持票年限)、driving distance(驾车距离)及 late-season attendance(赛季末出勤率)),且提升树模型表现出较高的内部一致性。本研究具有重要的理论与实践双重意义。理论上,研究结果与客户终身价值框架一致,同时表明支撑留存的行为信号在破坏性事件后会发生偏移。实践上,结果表明体育组织可利用相对较短的纵向数据集构建高效的流失预测模型,以支持精准化、数据驱动的留存策略制定。
研究背景与意义
职业体育组织中,赛季票持有者(Season Ticket Holder, STH)是重要的高价值客户群体,也是稳定收入的核心来源。然而,STH流失率常超过20%,给组织带来严重的财务损失。客户终身价值(Customer Lifetime Value, CLV)理论强调,客户留存时间越长,其带来的累计收益越高,因此精准识别潜在流失用户并实施干预至关重要。尽管机器学习技术在预测用户行为方面展现出巨大潜力,但在体育管理领域的现有应用存在明显局限:多数研究依赖横截面数据或公开聚合数据,缺乏针对个体的长期行为追踪;且少有研究关注COVID-19这类破坏性事件引发的结构性突变(即概念漂移,Concept Drift)对预测模型的冲击。此外,CatBoost等新兴梯度提升算法虽在处理分类特征方面表现优异,但尚未在体育流失预测场景中得到验证。鉴于此,研究人员开展此项研究,旨在通过整合纵向个体数据,对比多种算法性能,并评估大流行病对行为模式的干扰,从而为体育组织提供更具实操性的数据驱动留存策略。该研究成果发表于《Sport Management Review》。
关键技术方法
研究人员采用了澳大利亚某职业体育俱乐部2018至2023年共六个赛季的个体级数据,包含会员人口统计学信息、购票记录及每场比赛的出席行为,共计118,469条有效决策记录。经过严格的数据清洗与特征工程,提取了持票年限(Tenure)、主场出勤率(AttEnt)、距场馆距离(Distance)、票价分组(Fee Group)等关键特征。为避免数据泄露与过拟合,研究采用去重处理及分层抽样。核心实验设计将全周期数据划分为疫情前(2018–2019)、疫情期间(2020–2021)及疫情后(2022–2023)三个子集,并分别采用五折分层交叉验证(k-fold stratified cross-validation)和时间序列分割(TimeSeriesSplit)进行模型评估。研究人员对比了逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、XGBoost(XGB)及CatBoost(CatB)六种算法,并利用排列重要性(Permutation Importance)分析特征权重。
研究结果
特征选择
通过相关性分析与方差膨胀因子检验,研究人员剔除了高度冗余的特征(如LastAttHome与LastAttSeason,相关系数r?=?0.9931),最终保留了包括持票年限、距离、出勤率在内的低共线性特征集。所有保留特征均与流失结果显示出弱相关性,符合建模要求。
成员去重的影响
敏感性分析证实,通过随机种子控制的数据去重过程具有极高的稳健性。各模型间的AUC-ROC标准差仅为0.009?±?0.013,证明了实验设计的可靠性与结果的可复现性。
模型性能指标
疫情前、疫情期间及疫情后数据子集
在不同时期的独立测试中,CatBoost模型均表现出最优判别能力。值得注意的是,模型性能随时间推移显著提升:疫情前AUC-ROC为0.766?±?0.004,疫情期间为0.772?±?0.003,而疫情后跃升至0.901?±?0.002,相比疫情前提升了13.5%。这表明疫情后用户行为模式变得更加结构化,更易于被模型捕捉。
全数据集(所有赛季)
与预期相反,将六个赛季数据混合训练的全周期模型表现最差,预测精度仅略高于随机猜测。线性模型(如SVM)在全周期数据中反而表现相对较好,这归因于线性模型对概念漂移具有更强的鲁棒性,而复杂的树模型则因数据分布随时间剧变而失效。
特征重要性
疫情前、疫情期间及疫情后数据子集
特征重要性随时间发生演变。疫情前,持票年限(Tenure)是最重要的预测因子,解释了约19.5%的预测力。疫情期间,出勤率(AttEnt)与最近出席情况(LastAttHome)的重要性上升,反映了行为特征在动荡时期的权重增加。疫情后,持票年限的重要性急剧集中,成为主导性因子,且在非线性模型中表现出强烈的阈值效应。
全数据集(所有赛季)
在全周期模型中,特征重要性的一致性极低(平均相关系数仅0.437),且出现了负重要性特征,表明混合不同时期的数据会掩盖真实的预测信号,导致模型无法学习到有效的决策边界。
讨论与结论
研究人员指出,本研究成功构建了基于纵向个体数据的STH流失预测模型,证实了短周期纵向数据优于长周期混合数据。CatBoost算法凭借其在处理分类特征和防止过拟合方面的优势,在疫情后时期取得了高达0.901的AUC-ROC值,优于此前研究中常用的XGBoost和逻辑回归。研究发现,破坏性事件(如COVID-19)并非暂时性的异常值,而是引发了数据生成机制的结构性断裂(Structural Shock)。因此,依赖历史全量数据进行预测会导致模型性能大幅下降,体育组织应实施动态模型重训练机制。
在特征层面,持票年限、距离和赛季末出勤率是跨时期稳定的核心预测因子,这与CLV理论中强调的历史行为预测未来的观点一致。然而,这些因子的权重关系在疫情后发生了显著变化,提示管理者需重新审视留存策略的侧重点。从实践角度看,体育组织无需积累长达数年的海量数据即可启动预测项目,利用近两个赛季的高质量个体行为数据,配合CatBoost等提升树算法,即可实现高效的流失预警,从而打破因缺乏实证支持而不敢投资数据分析的循环。
尽管研究存在单中心样本限制及未纳入态度变量等局限,但其明确揭示了在动荡环境下,数据的时间结构与算法选择同等重要。未来的研究可进一步探索超参数优化以应对过拟合风险,并延伸至会员层级迁移(Partial Churn)的预测分析。