30,000只股票、900个预测变量、一个问题
从1957年到2016年,一个使用宏观经济指标和公司特征训练的神经网络对个股美国股票收益率实现了0.40%的样本外R平方。这个数字看起来很小,但在30,000多只股票的投资范围中,即使是收益率预测中微小的优势也能转化为经济上显著的投资组合收益。基于这些神经网络预测构建的多空组合获得了超过1.8的夏普比率——比同期最佳线性模型所能达到的数值高出一倍多。
这些是现代实证金融中被引用最多的论文之一——"Empirical Asset Pricing via Machine Learning"的核心发现。该论文由Sheng Gu、Bryan Kelly和Dacheng Xiu撰写,2020年发表于Review of Financial Studies(Gu, Kelly & Xiu, 2020)。这篇论文是对应用于金融核心问题——预测股票收益率——的所有主要机器学习方法的系统性比较,其结论同时挑战了有效市场阵营和因子动物园怀疑论者。
问题:太多因子,信号不足
资产定价存在数据问题。过去三十年中,研究人员提出了数百个据称能预测股票收益率的变量。账面市值比、动量、盈利能力、投资、应计项目、股票发行、特质波动率——该列表现已超过400个已发表的异象。Harvey、Liu和Zhu在2016年的论文中记录了这一爆炸性增长,认为这些"发现"中的大多数是被数据挖掘放大的统计噪声(Harvey, Liu & Zhu, 2016)。
对这一问题的传统方法是线性的。选择少数几个因子,运行回归,检查t统计量。Fama-French五因子模型使用五个变量。即使是最雄心勃勃的线性模型也很少使用超过几十个。原因很简单:线性回归无法在不严重过拟合的情况下处理数百个相关的预测变量。向线性模型添加更多变量最终会使预测变差而不是变好。
机器学习改变了这一计算。随机森林、梯度提升树和神经网络等方法专门设计用于从高维、嘈杂的数据中提取信号。它们能够捕捉线性模型完全遗漏的变量间非线性关系和交互作用。Gu、Kelly和Xiu提出的问题是:当这些方法应用于所有已提出的股票预测变量的完整范围时,是否真正改善了收益率预测。
方法论竞赛
该论文测试了一套全面的方法,全部使用相同数据训练并在相同的样本外条件下评估。方法从传统计量经济学方法到最先进的机器学习:
| 方法 | 样本外 R² | 月度夏普 (L/S) |
|---|---|---|
| OLS(全部预测变量) | -1.01% | 0.60 |
| OLS(3个预测变量) | 0.16% | 0.89 |
| Elastic Net | 0.21% | 1.12 |
| Random Forest | 0.23% | 1.35 |
| Gradient-Boosted Trees | 0.34% | 1.51 |
| Neural Network (NN3) | 0.40% | 1.80 |
| Neural Network (NN5) | 0.36% | 1.71 |
这些结果揭示了几个模式。
首先,使用所有预测变量的OLS是灾难性的。负的R平方意味着对每只股票预测历史平均收益率都比使用OLS预测更好。这证实了线性模型在高维度下过拟合的标准直觉。
其次,正则化极大地帮助了预测。Elastic Net是带有缩小系数和选择变量的惩罚项的线性回归,将负的R平方转为正值。但由于Elastic Net从根本上仍然是线性的,改善很快达到瓶颈。
第三,基于树的方法优于线性方法。随机森林和梯度提升树捕捉预测变量与收益率之间的非线性关系,将R平方推高并使夏普比率超过1.3。
第四,神经网络获胜。三层神经网络(NN3)达到了最高的样本外R平方和最高的夏普比率。五层网络(NN5)略逊一筹,暗示在此应用中深度的收益递减。
神经网络发现了什么
该论文最具启发性的贡献不仅是竞赛结果,还有对获胜模型实际学到了什么的分析。使用变量重要性分析技术,作者分解了每个模型的预测,以识别哪些输入驱动了预测。
在所有非线性模型中,主导预测变量是动量——但不是简单的12个月动量。神经网络识别出短期反转(1个月收益率)、中期动量(2-12个月)和长期反转(13-60个月)之间的复杂交互作用,这些交互作用随市场条件而变化。在高波动率环境中,短期反转占主导。在平静的市场中,中期动量接管。
第二重要的类别是流动性和交易活动。股票换手率、买卖价差和美元交易量等变量以线性模型无法捕捉的方式与规模和动量交互。具有强劲动量的小型非流动股票与具有相同动量信号的大型流动股票表现不同。
第三个关键发现是宏观经济交互作用的重要性。神经网络学到了公司特征的预测力随商业周期而变化。价值股(高账面市值比)在经济衰退期间对收益率的预测更强,而动量在经济扩张期间效果更好。这些时变关系在估计固定系数的标准线性模型中是不可见的。
驯服因子动物园
Feng、Giglio和Xiu的配套论文为机器学习在此环境中有效的原因提供了额外的理论基础(Feng, Giglio & Xiu, 2020)。他们的框架解决了一个根本问题:面对400多个已提出的因子,如何确定哪些真正捕捉了风险,哪些只是噪声?
传统方法——对现有模型逐一测试因子——由于忽略了多重检验问题而在统计上有缺陷。如果测试400个变量,大约20个将纯粹因偶然而在5%水平上显得显著。
Feng、Giglio和Xiu提出了一种双重选择程序,使用机器学习(具体是LASSO)在控制其他因子的同时选择重要因子。应用于150多个已发表因子后,他们发现绝大多数是冗余的。在正确考虑多重检验和因子间相关性后,只有少数因子存活。存活的因子——市场、规模、价值、动量、盈利能力及少数其他因子——与Gu、Kelly和Xiu的神经网络识别为重要的因子密切吻合。
这种收敛令人安心。神经网络并非在发现某种奇异的、不可解释的信号。它发现的是众所周知的因子以线性模型遗漏的非线性方式交互作用。
实践意义
实践含义因投资者类型不同而有很大差异。
对于机构投资者和对冲基金,该论文验证了量化策略向机器学习的转变。样本外收益足够大,能够承受能够高效交易的投资组合的交易成本。几家系统性对冲基金目前将基于神经网络的收益率预测作为核心信号,尽管具体的架构和训练程序远远超出论文所描述的范围。
对于散户投资者,含义更加微妙。这些策略无法在家中复制。该论文使用了30,000只股票的月度再平衡,这需要机构级别的执行基础设施。多空组合还需要卖空,这对散户账户来说成本高昂,有时甚至不可能。
然而,这些发现对散户投资者思考因子投资的方式有间接含义。如果真正的收益生成过程是非线性的——如果动量在波动市场和平静市场中表现不同,如果价值取决于商业周期——那么简单、固定的因子敞口只能捕获可用溢价的一部分。这有助于解释为什么将固定规则应用于单一特征的因子ETF经常跑输其回测结果。真正的溢价来自机器学习方法能够捕捉但固定规则无法捕捉的动态、条件性因子敞口。
局限性与未解决问题
该论文的优势同时也是其局限。60年的样本期(1957-2016)涵盖了多个市场体制,有利于泛化。但以接近零的利率、前所未有的央行干预和被动投资崛起为特征的最近十年可能代表了一个结构性断裂。在1957-2016数据上训练的模型在后疫情环境中可能无法达到同样的表现。
尽管有谨慎的样本外设计,过拟合仍然是一个担忧。作者使用滚动窗口方法定期重新训练模型,但超参数(网络深度、正则化强度、学习率)的选择仍然包含一些前瞻偏差。Kelly、Malamud和Zhou(2024)在后续论文中为复杂模型在高维环境中能够真正超越而不仅仅是过拟合提供了理论依据(Kelly, Malamud & Zhou, 2024)。
交易成本被承认但未完全纳入。该论文报告的是成本前夏普比率,最有利可图的策略涉及在实施成本最高的小型非流动股票中的大量交易。经过现实的交易成本调整后,神经网络相对于更简单方法的优势缩小,但并未消失。
最后,该论文仅关注美国股票。相同模式是否适用于国际市场、固定收益或其他资产类别仍是一个活跃的研究问题。国际研究的早期证据是有前景的,但并非决定性的。
更大的图景
Gu、Kelly和Xiu的论文标志着实证资产定价的一个转折点。它证明了统计方法的选择——线性与非线性、简单与复杂——与预测变量的选择同样重要。几十年来,资产定价研究在使用相同的线性回归工具包的同时专注于发现新变量。这篇论文表明,工具包本身才是瓶颈。
含义超越了收益率预测。如果股票收益率确实由非线性因子交互作用驱动,那么主导学术和实务金融的标准因子模型——三因子、五因子和六因子模型——从根本上是错误设定的。它们捕捉了一阶效应但遗漏了机器学习方法所利用的高阶交互作用。
这并不意味着因子模型毫无用处。作为概念框架和风险归因工具,它们仍然有价值。但作为预测工具,它们在桌面上留下了大量预测力。线性方法和非线性方法之间的差距是市场比标准模型假设的更为复杂的实证证据。
对于投资量化策略的每一个人——无论是通过对冲基金、智能贝塔ETF还是自己的系统化方法——这篇论文的核心信息是明确的:方法与数据同样重要,最简单的模型并不总是最好的模型。
本文仅供教育目的,不构成投资建议。过去的表现不保证未来的结果。
本分析由 Gu, Kelly & Xiu (2020), Review of Financial Studies 经 QD Research Engine — Quant Decoded 的自动化研究平台 — 综合分析,并经编辑团队审核确保准确性。 了解我们的方法论.
参考文献
-
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
-
Feng, G., Giglio, S., & Xiu, D. (2020). Taming the Factor Zoo: A Test of New Factors. The Journal of Finance, 75(3), 1327-1370. https://doi.org/10.1111/jofi.12883
-
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the Cross-Section of Expected Returns. The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
-
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
-
Fama, E. F., & French, K. R. (2015). A Five-Factor Model of Expected Stock Returns. Journal of Financial Economics, 116(1), 1-22. https://doi.org/10.1016/j.jfineco.2014.10.010