基于机器学习的投资组合优化：与“全天候”投资组合策略的比较分析

《Financial Innovation》：Machine learning-based portfolio optimization: comparative analysis with the all-weather portfolio strategy

【字体：大中小】 时间：2026年04月28日 来源：Financial Innovation 7.2

编辑推荐：

　　摘要本研究探讨了机器学习是否能够有效处理高维数据——这对传统预测模型来说是一项具有挑战性的任务——从而优化投资组合策略。利用2004年12月至2024年7月的每日数据，我们比较了多种机器学习模型在包含标准普尔500指数交易型基金（ETFs）、长期国债和黄金的全天候投资组合中

　　摘要
本研究探讨了机器学习是否能够有效处理高维数据——这对传统预测模型来说是一项具有挑战性的任务——从而优化投资组合策略。利用2004年12月至2024年7月的每日数据，我们比较了多种机器学习模型在包含标准普尔500指数交易型基金（ETFs）、长期国债和黄金的全天候投资组合中的资产配置表现。研究发现，LASSO和弹性网络（ENet）模型的整体表现更为出色，而基于树的模型在预测长期国债回报方面表现优异。采用这些模型的投资组合策略实现了接近0.70的夏普比率（Sharpe ratio），显著优于静态基准指数。结果表明，机器学习在实际投资环境中能够优化投资组合的表现。

引言
由于机器学习能够捕捉到传统方法常忽略的高维交互作用和复杂非线性关系，因此在金融建模中受到了广泛关注。然而，尽管在过去十年中机器学习在金融决策中的角色日益重要，但将其技术优势转化为实际投资策略仍面临挑战。这种理论与实际结果之间的差距通常归因于预测模型未能充分考虑实际交易中遇到的各种约束。为了解决这些问题，本研究利用了交易型基金（ETFs）——它们具有高流动性、低交易成本和内在多样性——来评估基于机器学习的投资策略的实际可行性和局限性。

尽管准确预测资产回报对策略设计至关重要，但将预测信号转化为实际收益仍取决于实施的可行性。市场摩擦（如交易成本、买卖价差和价格影响）可能会侵蚀预期回报，从而导致预测回报与可实现回报之间存在显著差异（Avramov等人，2023年）。此外，管理数百个单独资产会引入根本性的操作复杂性。随着投资组合规模的扩大，将不同资产的流动性条件和实际约束纳入模型变得极为困难。因此，需要一个能够缓解单个资产管理复杂性的投资环境，以便有效利用机器学习的优势。

从这一角度来看，使用ETFs评估机器学习在投资组合管理中的应用具有多重优势。通过将整个资产类别整合到一个廉价的交易工具中，ETFs允许通过统一交易直接调整资产配置，而不是单独管理各个组成部分（Glosten等人，2021年）。对于使用动态配置策略的短期投资者来说，主要ETFs的深度二级市场流动性提供了竞争优势，使得频繁调整投资组合成为可能（Ben-David等人，2018年；Khomyn等人，2024年）。此外，由于跟踪误差小且税收结构高效（保护未实现的收益），ETFs的运营成本始终低于其他投资工具。

我们采用Dialio（2017年）提出的全天候投资组合作为基准，来检验基于机器学习的动态资产配置策略的有效性。全天候投资组合因其在不同市场环境下的稳定表现而受到广泛认可。其基本理念与基于机器学习的投资组合策略相契合，两者都旨在有效适应市场变化。实际上，全天候投资组合本身就是一种基于ETF的策略，便于进行直接和现实的比较。根据全天候投资组合框架，我们选择了三种对不同宏观经济状况有响应的核心资产：用于增长的股票、用于通缩的长期债券以及用于危机对冲的黄金。

我们应用机器学习模型，基于核心资产类别的每日回报预测来构建投资组合。具体而言，我们使用47个预测变量（包括美国经济指标、股市指标和全球指数）来预测跟踪这些资产的ETFs的每日回报：SPY（标准普尔500指数ETF）、TLT（美国长期国债ETF）和GLD（黄金ETF），时间范围为2004年12月至2024年7月。由于数据具有高维度特性，我们使用了多种机器学习模型：惩罚回归方法（如岭回归（Ridge）、LASSO和ENet）；基于树的模型（如随机森林（RF）、轻量级梯度提升机（LGBM）和极端梯度提升（XGB）；以及深度学习模型。

研究结果表明，LASSO和ENet在预测标准普尔500指数、长期国债和黄金回报方面表现优于其他模型。根据样本外决定系数（out-of-sample coefficient of determination），LASSO和ENet的预测精度最高，分别达到了3.75%和3.60%。对于黄金，LGBM的预测精度最高，而基于线性模型的机器学习方法表现也相当。基于树的模型在预测长期国债回报方面表现优异，而人工神经网络在所有资产上的预测能力较弱。这些预测优势也体现在投资组合表现上。基于LASSO的策略平均年度回报率为13.24%，夏普比为0.71；ENet紧随其后，年度回报率为12.90%，夏普比为0.69。相比之下，使用全天候投资组合的三种静态资产配置策略年均回报率仅为7.00%，夏普比介于0.58左右。在简单的指数投资策略中，SPY的表现最佳，年均回报率为10.56%，夏普比为0.47。即使考虑了交易成本，这些结果依然具有稳健性，因为LASSO和ENet的夏普比仍高于传统基准指数。

本研究通过将ETFs作为实用且成本效益高的投资工具，重新评估了这些策略的有效性。此外，我们将静态和动态配置策略与广泛采用的全天候投资组合进行了对比，突显了机器学习在改进资产配置方面的实际作用，而不仅仅是模型之间的统计差异。总体而言，我们的研究结果证实了在当今复杂快速变化的市场环境中，基于机器学习的策略相比传统方法具有优势。

本文的其余部分结构如下：“相关文献”部分回顾了金融领域中关于机器学习的现有研究；“方法论”部分介绍了本研究使用的机器学习模型和投资组合优化方法；“实证分析”部分展示了实证分析结果，包括预测准确性和投资组合表现；“结论”部分提出了研究结论。

相关文献
早期关于投资组合分配的研究基于Markowitz（1952年）的均值-方差优化框架，该框架 formalize 了风险-回报权衡，并为现代投资组合理论奠定了理论基础。然而，尽管均值-方差优化在理论上很有吸引力，但在实际应用中存在诸多挑战。Frankfurter等人（1971年）指出，均值-方差优化后的投资组合对估计误差非常敏感。Michaud（1989年）以及Chopra和Ziemba（1993年）进一步指出，输入参数的微小变化可能导致投资组合构成和表现的显著变化。为了解决这些问题，人们提出了各种高级技术，包括收缩方法（Jorion 1986年）、结合投资者观点的贝叶斯框架（Black和Litterman 1992年）以及实际投资组合约束（Jagannathan和Ma 2003年）。尽管如此，DeMiguel等人（2009年）指出，传统优化方法往往无法持续优于简单的启发式策略（如等权重分配）。

因此，研究人员越来越多地采用机器学习技术进行回报预测和资产配置。正则化线性模型（如岭回归（Hoerl和Kennard 1970年）和LASSO（Tibshirani 1996年）通过缩减或选择系数来控制方差并减轻多重共线性；弹性网络（Zou和Hastie 2005年）结合L1和L2惩罚，以在变量高度相关时提供更稳定的解决方案。Rapach等人（2013年）实证表明，自适应弹性网络在估计高维国际股票回报的预测模型中很有用。Kozak等人（2020年）指出了高维环境下过拟合的风险，强调了正则化线性模型在构建随机折现因子方面的有效性。Freyberger等人（2020年）发现，基于LASSO的框架在特征选择方面表现良好。

基于树的技术通过捕捉非线性和交互作用来解决不同问题。Gu等人（2020年）表明，随机森林和梯度提升回归树在横截面回报预测中优于线性模型，并改善了投资组合表现，这部分是因为它们能够灵活地模拟预测变量之间的非线性关系。Bryzgalova等人（2023年）提出了基于树的投资组合构建方法，有效捕捉了企业特征之间的复杂非线性关系。总体而言，基于树的模型在违约预测、系统风险应用（Khandani等人，2010年）和信用违约预测（Alonso Robisco和Carbó 2022年）中表现出稳健性。随着数据变得更加丰富且计算成本降低，更复杂的模型在实证实践中获得了认可。特别是深度学习利用多层神经网络将非线性转换成层次化表示，使得高维、异构信号的建模更加灵活和数据驱动。Feng等人（2018年）证明了神经网络在预测股票市场风险溢价方面的有效性。Gu等人（2020年）和Wang（2024年）使用神经网络模型研究股票回报的横截面特征，体现了深度学习在实证资产定价中的潜力。除了股票市场，Foroutan和Lahmiri（2024年）还证明这些模型在预测主要商品价格（包括原油、黄金和白银）方面表现良好。此外，尽管监督学习依赖于标记数据，Cong等人（2021年）发现深度强化学习在通过与环境互动直接优化投资组合目标时具有优势。Jiang和Liang（2017年）将深度强化学习应用于加密货币市场，直接输出投资组合权重而无需价格预测，并展示了在管理投资组合方面的强大实证效果。

在这些进展的基础上，Vaswani等人（2017年）引入了自注意力机制，为自然语言处理开辟了新的方向，并推动了基于Transformer的方法的研究。例如，Lim等人（2021年）通过结合注意力机制和可解释组件，在多时段设置中展示了预测股票指数未来波动性的强大性能。Wang等人（2022年）和Zhang等人（2022年）将Transformer模型应用于股票市场预测，并报告了相对于传统方法的显著改进。此外，机器学习还在波动性时机判断和基于情境的投资组合选择中找到了应用（Chen等人，2024年；Cong等人，2021年；Lim等人，2021年）。

机器学习在金融领域日益重要的原因有多种。首先，机器学习通过非线性降维和主成分分析有效处理高维数据挑战，从复杂数据结构中提取有意义的见解（Freyberger等人，2020年；Gu等人，2021年；Kelly等人，2023年，2019年；Lettau和Pelger 2020年；Yan和Yu 2023年）。其次，机器学习克服了传统计量经济学模型假设依赖变量和解释变量之间存在线性关系的局限，从而实现准确的回报预测和改善的投资组合表现（Chun等人，2024年；Feng等人，2024年；Gu等人，2020年；Htun等人，2023年）。越来越多的实证证据表明，机器学习在各种金融和经济背景下都有效（Ban等人，2018年；Chinco等人，2019年；Martin和Nagel 2022年；Rapach等人，2013年；Awan等人，2021年）。然而，将这些技术优势转化为可行的投资策略仍然是一个挑战，尤其是在现实世界的交易摩擦下。最近的研究通过将成交量惩罚、交易成本和再平衡约束直接纳入训练和优化过程，解决了这些问题，发现即使考虑这些成本后仍能获得有意义的阿尔法收益（例如，Aleti等人，2025年；Freyberger等人，2020年；Leippold等人，2022年）。同时，新兴证据也揭示了基于机器学习的策略在实时交易环境中的脆弱性。例如，Avramov等人（2023年）发现，由于高成交量或极端头寸，基于机器学习的投资组合在交易成本存在的情况下可能会出现表现损失。Wolff和Echterling（2024年）指出，基于机器学习的策略的实际可行性需要低交易成本的高效交易。

方法论
机器学习模型
传统金融模型使用普通最小二乘法（OLS）回归，该方法假设因变量和解释变量之间存在线性关系。考虑到估计的系数向量β，最小二乘法（OLS）通过以下方式最小化残差平方和（L2）：$$b=argmin\_{β }\frac{1}{T}\sum_{t=1}^{T}{\left({y}_{t+1}-{X}_{t}\beta \right)}^{2},$$ （1）其中T代表观测值的数量，y是因变量，${X}_{t}=({X}_{1,t}, {X}_{2,t}, \dots , {X}_{R,t})$表示自变量，$\beta ={\left({\beta }_{1},\dots ,{\beta }_{R}\right)}{\prime}$表示参数向量，R是自变量的数量。然而，简单线性模型不适用于高维数据分析。随着维度的增加，数据密度降低，削弱了OLS方法的效果，该方法旨在最小化回归线与观测数据点之间的距离。为了解决过拟合问题，必须减少估计参数的数量。与传统模型不同，机器学习通过应用正则化来减少对特定自变量的依赖，这有助于稳定样本外预测，同时能够处理大型数据集。岭回归引入了一个惩罚项ν来最小化OLS中的估计误差，得到以下目标函数：$${b}^{r}=argmin\_{β }\frac{1}{T}\sum_{t=1}^{T}{\{\left({y}_{t+1}-{X}_{t}\beta \right)}^{2}+\nu {\Vert \beta \Vert }_{2}^{2}\}$$ （2）其中${\| \beta \| }_{2}^{2}$表示参数的平方和。岭回归通过在L2范数中加入收缩正则化来平衡偏差和方差，这将不显著的变量系数推向零，从而减少过拟合。LASSO回归应用的惩罚函数不同于岭回归，其目标函数包含L1范数惩罚：$${b}^{l}=argmin\_{β }\frac{1}{T}\sum_{t=1}^{T}{\{\left({y}_{t+1}-{X}_{t}\beta \right)}^{2}+\nu {\Vert \beta \Vert }_{1}\}$$ （3）其中${\| \beta \| }_{1}$表示参数值的绝对值之和。与岭回归不同，LASSO通过将不显著变量的系数设置为零来实现特征选择，进一步增强了模型的可解释性。弹性网回归（Elastic Net regression）结合了L1和L2范数惩罚，以解决标准回归模型的局限性。其目标函数定义如下：$${b}^{e}=argmin\_{β }\frac{1}{T}\sum_{t=1}^{T}{\{\left({y}_{t+1}-{X}_{t}\beta \right)}^{2}+\nu {(1-\lambda )\Vert \beta \Vert }_{1}+{\nu \lambda \Vert \beta \Vert }^{2}_{2}\}$$ （4）当λ?=?0时，弹性网回归等同于LASSO回归；当λ?=?1时，它对应于岭回归。

基于树的模型
如前所述，惩罚线性回归通过限制系数来减轻普通最小二乘法（OLS）中的过拟合问题。然而，它在捕捉预测变量之间的非线性关系和交互作用方面仍然有限。基于树的模型通过三种方式克服了这些限制。首先，与需要正态残差分布的线性模型不同，基于树的模型对数据分布没有假设。其次，基于树的模型通过根据预定义的标准迭代分割特征来识别复杂的交互作用。第三，基于树的模型既适用于回归（预测连续值）任务，也适用于分类（对数据进行分类）任务。
决策树是基础的基于树的模型。它采用树状结构，根据最优分割标准递归地将数据划分为子节点。目标是在每次分割中最大化同质性，使用Gini指数、熵和卡方统计量等不纯度指标来衡量。决策树演变成了随机森林（random forest）和梯度提升（gradient boosting），后者又进一步发展为LightGBM（LGBM）和XGBoost（XGB）。随机森林集成了多棵独立的决策树，减少了过拟合并提高了预测精度。梯度提升类似于随机森林，也使用多棵决策树，每棵新树都试图最小化前一棵树的损失函数。LGBM通过采用逐叶分割（leaf-wise splitting）来修改梯度提升，允许树结构不对称。本研究应用了随机森林、LGBM和XGB。

人工神经网络
人工神经网络（ANNs）模仿生物神经网络的结构和功能来训练计算机。这种方法也称为深度学习，基于类神经元的计算单元构建。前馈神经网络是最简单的人工神经网络模型，包括一个输入层用于输入变量，隐藏层用于学习交互作用和非线性结构，以及一个输出层，用于从这些隐藏层合成最终结果。这种学习方法使用每层的给定权重值来输出最终结果，然后通过反向传播（backpropagation）方法调整权重，以减少实际值与输出值之间的误差。这个过程持续进行，直到模型达到可接受的误差阈值。本研究采用多层感知器（MLP）架构，最多有五层隐藏层。

超参数优化
本研究预测了三种ETF的每日回报——SPY（标准普尔500指数ETF）、TLT（国债ETF）和GLD（黄金ETF）。基本上，预测未来回报的函数可以表示为${\widehat{r}}_{t+1}^{m}={g}^{m}({X}_{t})$，其中${g}^{m}(\cdot )$表示通过上述模型得到的函数。为了确定每个模型的最佳配置，我们使用滚动窗口方法，在包含1,000个每日观测值的训练集上估计参数，然后在250天的验证集上评估参数。在这个框架内，我们执行附录表A1中详细说明的参数搜索空间的网格搜索，以识别在验证窗口内最小化均方误差（MSE）的最佳参数。这种顺序分割验证的设计严格确保没有未来观测的信息污染参数估计。该过程每年6月更新一次，因为我们发现更频繁的重新训练带来的改进微不足道。因此，样本外预测覆盖了从2007年12月1日到2024年7月24日的4,165天期间。每个估计周期选出的最佳超参数在附录表A2中报告。表1提供了描述性统计信息。

样本外预测
我们使用MSE和样本外决定系数（${R}_{oos}^{2}\）来评估样本外预测的准确性。MSE定义为实际回报与预测回报之间平方差的总和。\({R}_{oos}^{2}$计算如下：$$R}_{oos}^{2}=1-\frac{\frac{1}{{T}_{p}}{\sum }_{t\in \text{P}}{\left({r}_{t}-{\widehat{r}}_{t}\right)}^{2}}{\frac{1}{{T}_{p}}{\sum }_{t\in \text{P}}{\left({r}_{t}-{\overline{r} }_{t}\right)}^{2}},$$ （5）其中P代表预测点，${T}_{p}$代表预测周期，${\overline{r} }_{t}$代表20天移动平均数。为了比较模型的预测性能，我们应用Diebold和Mariano（1995, DM）测试，计算如下：$$K_{{m_{1} ,m_{2} }} = \frac{{\overline{k}_{{m_{1} ,m_{2} }} }}{{se\left( {k_{{m_{1} ,m_{2} }} } \right)}}, \quad k_{{m_{1} ,m_{2} }} = \frac{1}{{T_{p} }}\mathop {\sum}_{{t \in {\text P}}} \{ \left( {\hat{r}_{t}^{{m_{2} }} - r_{t} } \right)^{2} - \left( {\hat{r}_{t}^{{m_{1} }} - r_{t} } \right)^{2} \}$$ （6）其中$\overline{k }$和$se(k)$分别代表k的平均值和标准差。此外，${k}_{{m}_{1},{m}_{2}}$显示了模型${m}_{1}$和${m}_{2}$在预测期间与实际值的相对偏差。如果${K}_{{m}_{1},{m}_{2}}$具有显著的正值，模型${m}_{1}$的预测比模型${m}_{2}$更准确；反之亦然。最后，我们使用历史平均值（定义为前一个月的平均日回报）作为基准。图1总结了方法论框架。

研究框架
实证分析
数据
本研究使用了2004年12月1日至2024年7月24日的日数据（共5,126个观测值），涵盖了44个金融和经济指标以及三种ETF——SPY（标普500指数ETF）、TLT（iShares 20年国债ETF）和GLD（SPDR黄金ETF）。虽然原始的全天气投资组合包括商品，但由于它们在样本期间表现不佳，一致性地降低了所有策略的投资组合表现，因此我们排除了它们。我们的样本周期有意包含了重大市场危机——2008年金融危机、欧洲债务危机和COVID-19大流行——以确保结果反映了各种市场状况。预测变量包括美国经济指标（信用利差、通胀预期、利率和经济意外）、股市指标（VIX、行业指数和情绪指标）、外汇汇率（美元指数和主要货币对）以及全球市场指数（国际股票、商品和经济意外）。所有变量都以原始形式按日频率观测，详细定义见附录表A3。我们应用Yeo–Johnson幂变换（Yeo和Johnson 2000）对变量进行标准化，仅在训练集上估计参数，以防止数据泄露。结合三种ETF的滞后回报，这产生了47个输入变量。表1展示了样本期间三个目标变量的描述性统计和相关性。表3 Diebold–Mariano测试

样本外预测
本节评估了机器学习模型的预测性能。表2使用MSE和${R}_{oos}^{2}$作为预测准确性的指标，如“超参数优化”部分所述。面板（a）、（b）和（c）分别展示了标准普尔500指数、长期国债和黄金ETF回报的预测准确性。此外，LASSO和ENet对标准普尔500指数的预测准确性最高，这些模型的误差（MSE值分别为1.27和1.28）和解释能力最强，${R}_{oos}^{2}$值分别为3.75%和3.60%。相比之下，OLS的表现低于历史平均水平。基于树的模型——随机森林、LGBM和XGB——在长期国债回报方面取得了最佳结果，这些模型的表现相似。对于人工神经网络，在所有资产上的表现都较差。特别是对于标准普尔500指数，模型产生的${R}_{oos}^{2}$为负值，表明其预测准确性低于历史平均水平。

为了正式测试模型的相对预测性能，我们进一步对每个资产类别内的所有模型对进行了DM测试。表3展示了结果，其中正的测试统计量表示列模型在给定资产上的预测准确性高于行模型，反之亦然。与样本外性能结果一致，LASSO和ENet对标准普尔500指数的预测效果最好，而基于树的方法如LGBM和XGB在黄金和长期国债上的表现特别出色。然而，在资产类别之间，DM测试并未显示出正则化线性和基于树模型之间的统计学显著差异。

机器学习模型在处理高维数据方面根据其结构设计有所不同。例如，LASSO和ENet通过进行变量选择和消除不相关变量来提高预测准确性，从而降低过拟合风险。相比之下，其他模型通过将信息量较少的特征的系数缩减到接近零来提高准确性，而不是从模型中移除它们。由于金融数据通常具有较低的信噪比——一些关键特征驱动了大部分样本外预测性能——能够进行变量选择的模型（如LASSO和ENet）往往优于仅仅调整系数权的模型。

关键预测因子的分析
我们研究了预测因子的重要性及其边际关联，以识别预测SPY、TLT和GLD回报的关键变量。为了评估重要性，我们测量了在保持其他变量不变的情况下将每个预测因子设为零时${R}_{oos}^{2}$的减少量。${R}_{oos}^{2}$的大幅下降表明该预测因子起着重要作用，而小幅变化则表明其影响有限。图2-4展示了预测每种资产的最重要变量。例如，基于线的模型如Ridge、LASSO和ENet发现Euro STOXX指数（eurstoxx）和30年期美国国债收益率（USGov30yr）是预测标准普尔500的重要变量。基于树的模型通常选择VIX和SPY作为重要预测因子，而MLP模型强调一个月LIBOR（USDlibor1m）和全球惊喜指数（surpind_global）作为重要变量。如图3所示，对于TLT，30年期美国国债收益率对LASSO和ENet仍是一个重要预测因子，而VIX在基于树的模型中起着关键作用。图4中，基于线的模型将Euro STOXX指数识别为GLD的重要预测因子，而基于树的模型则重复选择EMBI信用利差（JPMEMBIspd）。MLP模型选择MSCI ACWI指数（msciacwi）作为最重要的变量。

SPY预测特征重要性。这些图表显示了每个模型中预测SPY回报的20个最显著变量，按特征重要性排序。特征重要性是根据${R}^{2}$的减少量确定的，并归一化到总和为一。变量按重要性降序排列。

TLT预测特征重要性。这些图表显示了每个模型中预测TLT回报的20个最显著变量，按特征重要性排序。特征重要性是根据${R}^{2}$的减少量确定的，并归一化到总和为一。变量按重要性降序排列。

GLD预测特征重要性。这些图表显示了每个模型中预测GLD回报的20个最显著变量，按特征重要性排序。特征重要性是根据${R}^{2}$的减少量确定的，并归一化到总和为一。变量按照重要性降序排列。为了研究各个预测因子对目标回报的边际效应，我们将所有预测因子标准化到-1到1的范围内。然后，我们通过一次调整一个预测因子来评估其对目标变量的影响，同时保持其他所有因子的中位数不变。通过边际关联分析，我们探讨了目标回报与各个预测因子之间的功能关系。图5-7展示了在早期阶段被识别为有影响力的选定预测因子的边际关联。例如，在图5中，Euro STOXX指数与SPY呈正相关，而在大多数模型中，30年期美国国债收益率与SPY呈负相关。在图6中，关于TLT，Euro STOXX指数仅在MLP模型中表现出正面效应，而30年期美国国债收益率通常具有正面影响。如图7所示，在LASSO或ENet模型中，GLD与Euro STOXX指数呈正相关，在大多数模型中，GLD也与MSCI新兴市场指数（msciemerg）呈正相关。

图5
此图的替代文本可能是使用AI生成的。
全尺寸图片
SPY预测的边际关联。这些图表展示了关键变量对每个模型中SPY预测回报的边际效应。所有预测因子都被标准化到-1到1的范围内，通过改变其值来计算每个因子的边际效应，同时保持所有其他变量处于中位数水平。

图6
此图的替代文本可能是使用AI生成的。
全尺寸图片
TLT预测的边际关联。这些图表展示了关键变量对每个模型中TLT预测回报的边际效应。所有预测因子都被标准化到-1到1的范围内，通过改变其值来计算每个因子的边际效应。

图7
此图的替代文本可能是使用AI生成的。
全尺寸图片
GLD预测的边际关联。这些图表展示了关键变量对每个模型中GLD预测回报的边际效应。所有预测因子都被标准化到-1到1的范围内，通过改变其值来计算每个因子的边际效应。

投资组合表现
本节探讨了利用机器学习超越现有策略的投资组合策略的潜力。在均值-方差优化中，单个风险资产的权重被限制在-1到1之间。

脚注1 协方差矩阵是使用过去20个交易日的日回报率计算得出的。基于这个协方差矩阵和预测回报，我们构建了一个最大化夏普比率的投资组合。投资组合的表现使用夏普比率来评估，公式如下：
$$
{\text{Sharpe}}\,{\text{ratio}} = \frac{{E\left( {r_{p,t} - r_{f} } \right)}}{{\hat{\sigma }_{p,t + 1} }} = \frac{{\frac{1}{T}\sum\nolimits_{t = 0}^{T} {\left( {r_{p,t} - r_{f} } \right)} }}{{\sqrt {\frac{{\sum\nolimits_{t = 0}^{T} {\left( {r_{p,t} - r_{f} } \right)}^{2} }}{T-1}} }
$$
其中 ${r}_{p,t}$ 表示投资组合回报；${r}_{f}$ 是无风险利率；${\widehat{\sigma }}_{p,t+1}$ 表示投资组合回报的标准差。为了提供全面的风险评估，我们还检查了Sortino比率和最大回撤（MDD）。Sortino比率与夏普比率不同，因为它仅考虑了下行偏差，通过在公式（7）的分母中使用负的超额回报来计算标准差。MDD代表了投资期间投资组合价值的最大峰值到谷底跌幅。

表4报告了涉及S&P 500指数、长期国债和黄金的策略表现。表（a）展示了基于机器学习的策略的结果，而表（b）显示了广泛使用的传统投资组合策略的表现。传统策略包括静态资产配置（SAA）、指数跟踪ETF回报、OLS和历史均值（HM）模型。静态资产配置策略包括：（1）SAA1，对S&P 500指数、长期国债和黄金分配相等的权重；（2）SAA2，将30%分配给S&P 500指数，40%分配给国债，15%分配给黄金，15%分配给无风险资产；（3）SAA3，将30%分配给S&P 500指数，55%分配给国债，15%分配给黄金。在机器学习策略中，LASSO和ENet表现最强劲，年化回报率分别为13.24%和12.90%，夏普比率接近0.70。

脚注2 这些结果显著优于静态的全天候投资组合策略，后者的年化回报率分别为6.81%（SAA1）、5.52%（SAA2）和5.79%，对应的夏普比率分别为0.58、0.55和0.49。
表4 投资组合表现
全尺寸表格

对于大多数策略来说，Sortino比率与夏普比率的数值相似，表明回报分布是对称的，并且业绩提升并非由负偏度或过度尾部风险驱动。此外，MDD分析显示，机器学习策略实现的回撤幅度显著低于单资产投资。例如，LASSO和ENet的MDD分别为-33.21%和-34.33%，远低于SPY（-55.19%）或TLT（-48.35%）的回撤幅度。全天候投资组合往往表现出较小的MDD，这与它们在市场环境中提供稳定表现的目标一致。由于我们的基于机器学习的策略旨在追求稳定性和最大化回报，因此它们似乎能够容忍稍大的回撤作为提高盈利能力的代价，从而实现了更高的夏普比率。图8展示了样本期间代表性模型的累计回报，按最终回报排名。LASSO和ENet始终表现出优越的表现，其次是随机森林。

图8
此图的替代文本可能是使用AI生成的。
全尺寸图片
累计回报。该图表展示了使用不同模型构建的投资组合的累计回报。为了便于直接比较，图例按照最终累计回报的降序排列。评估期从2007年12月持续到2024年7月。

尽管结果突出了基于机器学习的策略的强劲表现，但其实际实施不可避免地引入了一些摩擦，最明显的是频繁交易和相关的交易成本。正如Avramov等人（2023年）所记录的，考虑交易成本可以显著降低模型的实际表现，尤其是在极端交易量或高度集中的头寸情况下影响更为显著。为了解决这个问题，我们构建了包含交易成本的投资组合，并在附录表A5中展示了结果。

脚注3 即使考虑了交易成本，LASSO和ENet仍然优于传统方法。例如，LASSO策略的夏普比率从0.71下降到0.63，ENet策略的夏普比率从0.69下降到0.61；两者都高于SAA1的夏普比率。投资组合的交易量在附录表A6中报告。

结论
本研究考察了机器学习是否能够在复杂的金融环境中克服传统模型的局限性。我们使用了一整套金融和经济指标，评估了各种模型对S&P 500指数、长期国债和黄金的预测准确性，这些资产是全天候投资组合中的关键资产。我们发现，通过整合多样化的特征并捕捉复杂的相互依赖性，机器学习提高了预测性能。正则化线性模型（LASSO和ENet）在预测S&P 500指数方面表现优异，基于树的模型在预测国债方面表现出色，两种方法都能有效预测黄金回报。在构建投资组合时，使用LASSO和ENA能够实现接近0.70的夏普比率，显著优于静态全天候投资组合（0.58），即使考虑了交易成本后这一优势仍然存在。

我们的发现以两种关键方式为学术界做出了贡献。首先，我们的结果补充了基于机器学习的投资组合策略文献，证明了机器学习技术可以提供优于众所周知的SAA策略和简单指数ETF的表现。其次，通过利用ETF的流动性、透明度和低交易成本，我们的每日频率策略在考虑交易成本后仍然具有竞争力，证明了机器学习技术在日常投资组合管理中的有效性。然而，仍存在一些局限性。尽管我们考虑了潜在的交易成本，但现实世界中的其他复杂性可能会进一步侵蚀实际表现。这些包括市场摩擦，如抵押品要求、借入费用、批量大小和流动性限制，以及运营因素，如隐藏成本、人为错误和税收。当我们的结果扩展到股票级别的投资组合管理时，这些问题变得更加突出。此外，机器学习并不是万能的。神经网络容易过拟合，基于树的模型对超参数调整非常敏感，进一步增加了机器学习过程的可解释性难度。虽然我们的序列验证框架保持了严格的时间分离，但嵌套交叉验证可以在控制超参数引起的乐观偏差方面提供额外的稳健性。在这种情况下，重要预测因子集在模型之间经常变化，这使得很难得出有意义的经济直觉。通过具有现实约束的先进机器学习和人工智能技术来解决这些复杂性将是未来研究的一个有价值的方向。

热点排行