无限隐马尔可夫模型(infinite Hidden Markov Model, iHMM)初始化策略的比较研究

《Computational Statistics & Data Analysis》：A comparison between initialization strategies for the infinite hidden Markov model

【字体：大中小】 时间：2026年06月18日 来源：Computational Statistics & Data Analysis 1.6

编辑推荐：

　　：无限隐马尔可夫模型(infinite Hidden Markov Model, iHMM)为建模具有结构突变和复杂动态的时间序列提供了灵活框架，无需预先指定潜状态(latent state)数目，其灵活性通过分层狄利克雷过程先验(Hierarchical

：无限隐马尔可夫模型(infinite Hidden Markov Model, iHMM)为建模具有结构突变和复杂动态的时间序列提供了灵活框架，无需预先指定潜状态(latent state)数目，其灵活性通过分层狄利克雷过程先验(Hierarchical Dirichlet Process, HDP)实现，而高效的贝叶斯推断则由beam sampler完成（结合动态规划与切片采样(slice sampling)来自适应截断无限状态空间）。尽管方法论已有广泛发展，该框架中初始化(initialization)的作用却鲜受关注。研究人员通过系统评估有限隐马尔可夫模型(finite Hidden Markov Model, HMM)中常用的初始化策略并考察其在无限设定下的适用性以弥补此不足。模拟与真实数据集结果表明，基于距离的聚类初始化（K-means与围绕中心点划分(Partitioning Around Medoids, PAM)）始终优于基于模型的初始化及均匀(uniform)初始化（后者为现有文献中最常用）。

论文解读：

《Computational Statistics 》刊载的此文针对无限隐马尔可夫模型(infinite Hidden Markov Model, iHMM)在使用beam sampler进行后验推断时初始化策略缺乏系统研究的问题展开。传统有限状态HMM需通过信息准则或交叉验证确定潜状态数K，计算昂贵且结果受样本量与初始化影响；iHMM基于分层狄利克雷过程(Hierarchical Dirichlet Process, HDP)赋予转移矩阵无限维概率向量，由数据自适应推断状态数，通常用beam sampler采样。虽然Van Gael等人声称beam sampler对初始化稳健并推荐均匀初始化，但有限HMM文献表明期望最大化(Expectation-Maximization, EM)算法结果强烈依赖初始潜状态分配，而iHMM中此问题从未被检验。研究人员因此首次系统比较四种经典有限HMM初始化法（均匀初始化、K-means聚类、围绕中心点划分(Partitioning Around Medoids, PAM)、高斯混合模型(Gaussian Mixture Model, GMM)初始化）在多元高斯iHMM beam sampler下的表现，通过模拟（高斯与Student-t_ν=5生成过程）与两个实证应用（欧洲工业生产指数、金融市场多资产收益率），以调整兰德系数(Adjusted Rand Index, ARI)、收敛速度、Geweke诊断及自相关时间(Autocorrelation Time, ACT)评估，发现距离基聚类初始化显著优于均匀与GMM初始化，推翻了默认采用均匀初始化的惯例，为iHMM实践提供了明确指导。

研究人员采用以下关键技术方法：建立多元高斯iHMM（观测y_t|s_t=k ～ N_P(μ_k, Σ_k)，(μ_k, Σ_k)设正态-逆威沙特(Normal-Inverse-Wishart, NIW)先验，浓度参数α～Gamma(1,1)、γ～Gamma(2,1)）；用beam sampler（引入辅助切片变量u_t～U(0,π_{s_t-1,s_t})截断无限状态空间，结合前向-后向采样(Forward-Filtering Backward-Sampling, FFBS)更新潜状态序列s_1:T，再更新转移概率π_k、全局棒break权重β及发射参数θ_k）；比较四种初始化——(i)均匀初始化：s_t～U{1,…,K₀}，K₀～U{2,3,4,5}；(ii)K-means聚类：用GAP统计量（25次置换，取全局最大）选K初始化潜状态；(iii)PAM聚类：同GAP选K，基于medoid更鲁棒于离群值；(iv)高斯混合初始化：用mclust包以贝叶斯信息准则(Bayesian Information Criterion, BIC)选K拟合GMM后取后验众数分配状态；模拟设计：有限HMM生成数据（K∈{2,4}，P∈{5,20}，T∈{500,1000}，重叠ω∈{0,0.10}控制簇分离度，对角线转移概率π_ii=0.95），各设置50次重复，beam sampler运行1500次迭代无burn-in/thinning；评估指标为ARI（真vs估计状态序列）、Geweke成功率（|Z|<2占比）、ACT（97.5%分位数）。实证数据：(1)2002年3月–2025年8月九国月度工业生产量指数(T=282)；(2)2019年1月–2026年3月六类日度金融资产对数收益率（欧股、欧元债券、黄金、比特币、欧元美元汇率、布伦特原油，T≈1800），各跑10条链5000次迭代（弃前3000为burn-in）。

2. Model formulation and posterior inference

研究人员回顾有限HMM联合分布，定义iHMM：每行转移概率π_k～DP(α, β)，全局权重β～GEM(γ)，发射参数θ_k～H；观测y_t|s_t=k ～ f(·|θ_{s_t})。本文采用多元高斯iHMM，θ_k=(μ_k, Σ_k)，Σ_k～IW(ν₀, Λ₀)，μ_k|Σ_k～N_P(μ₀, Σ_k/κ₀)，设μ₀=0，Λ₀=I_P，κ₀=0.01，ν₀=P+2；α～Gamma(1,1)，γ～Gamma(2,1)。

2.2. The beam sampler

研究人员采用Van Gael等的beam sampler：引入辅助切片变量u_t～U(0,π_{s_t-1,s_t})，仅保留满足π_{s_t-1,s_t}> u_t的转移使无限状态空间被有限截断，用FFBS采样s_1:T，随后从DP(α, β)更新π_k（基于转移计数），从含辅助表计数的Dirichlet后验更新β，从NIW后验更新(μ_k, Σ_k)，最后从Gamma后验更新α, γ。每轮复杂度最坏O(TK²)但通常更低。

3. Initialization strategies

研究人员评估四种策略：(i)均匀初始化——随机分配无先验结构；(ii)K-means——最小化簇内平方和，GAP统计量（clusGap函数，25次置换，全局最大准则）定K∈{2,…,5}，用R cluster包；(iii)PAM——类似K-means但基于medoid距离，同样GAP选K；(iv)高斯混合(mixtures)——mclust包拟合多个协方差结构GMM，按BIC选最优K∈{2,…,5}。上限K≤5兼顾计算效率与实证合理性（多数宏观/金融HMM应用状态数少）且弱信息超先验使iHMM仍可从数据恢复所需状态数。

4. Simulation study

4.1. First scenario: Gaussian data

高斯生成过程下，K-means、PAM与GMM初始化ARI快速升至近1（ω=0时中位ARI=1.00），均匀初始化收敛慢且变异大；ω=0.10重叠增加时K-means中位ARI=0.92(K=2)/0.98(K=4)，PAM相近，GMM稍降，均匀降至0.88/0.69且分散；K=4时均匀与GMM估计状态数波动大，K-means与PAM稳定回收正确K? =4。T增大改善所有方法，P增至20时K-means/PAM维持高精度而GMM与均匀恶化。结论：K-means与PAM最稳健。

4.2. Second scenario: Student-t data

Student-t(ν=5)生成（模型误设）下，K-means与PAM仍快速收敛（ω=0中位ARI=1.00，ω=0.10中位ARI≈0.84/0.82），GMM因强高斯假设失效（ω=0.10中位ARI=0.29），均匀最差；K=2时GMM与均匀过估状态数，K-means/PAM正确估K? =2或4。T增大助益有限，P增大K-means/PAM略优。结论：距离基聚类对非高斯亦稳健，GMM与均匀不宜用。

4.3. Convergence analysis

高斯数据Geweke成功率K-means/PAM/mixtures≈0.83–0.94，均匀≈0.77–0.85；ACT 97.5%分位数K-means/PAM/mixtures多≤1.88，均匀可达6.01。Student-t数据K-means/PAM Geweke≈0.73–0.92（重叠大时降），mixtures与均匀波动大，ACT 97.5%分位数K-means/PAM最高至7.60但中位近1。结论：K-means/PAM促更好混合与更高收敛诊断通过率，均匀初始化链混合最差。

5. Applications

5.1. Industrial Production index data

九国月度IP指数，K-means与PAM初始化6/10链收敛（R? ≈1），后验支持K? =3态（低波动稳增、中波动恢复、高波动异质如金融危机/新冠初段），MAP分类两法ARI=0.92且经济解释合理；GMM初值仅1链收敛且协方差结构不同；均匀初值全不收敛且K? =2。K-means与PAM给出一致可解释宏观周期划分。

5.2. Financial markets data

六资产日度收益率，K-means与PAM全链收敛，后验K? =2（牛市均值回报正、熊市负尤股/油，自转移概率0.89/0.57）；GMM收敛链仅半且K? =3难解释；均匀不收敛且K?不定。K-means与PAM给出一致牛/熊区制及过渡概率。

6. Conclusions（讨论与结论翻译）

本研究表明iHMM beam sampler估计中初始化策略选择显著影响潜结构推断质量与收敛行为。均匀初始化始终表现不佳，即便簇分离良好时也无法可靠恢复真状态；基于K-means或围绕中心点划分(PAM)的距离基聚类初始化产生更准确、更稳定的估计，高斯混合模型(Gaussian mixture)初始化虽具竞争性但在特征维度增高或数据违背高斯假定时性能下降。实证应用证实K-means与PAM能正确识别宏观经济阶段及金融市场牛熊市态，提供合理解释的状态条件参数。各实验显示K-means与PAM即使在模型误设下亦达高分类精度，提示采用更灵活发射分布（如Student-t或偏t）可进一步增强稳健性，此与初始化策略的交互作用系未来研究方向。

热点排行