为什么大多数机器学习对冲基金会失败？

López de Prado（2018）识别了十种系统性失败模式，最常见的是对样本内噪音的过拟合、应用忽视金融时间序列序列依赖性的标准交叉验证技术、以及忽略现实交易成本。许多ML基金将金融预测视为通用的监督学习问题，忽视了金融市场特有的低信噪比、非平稳性和对抗性动态。

机器学习真的能预测股票收益吗？

可以，但有重要附带条件。Gu、Kelly和Xiu（2020）证明神经网络对美国股票收益实现了有意义的样本外预测能力，捕捉传统模型遗漏的非线性因子交互。但预测R平方仅为0.40%——很小但在机构规模上具有经济意义。关键发现不是ML能完美预测，而是它能捕捉静态线性模型无法捕捉的因子间条件关系。

量化投资中的机器学习：真正的优势还是过拟合？

那个"知道太多"的算法

Data analysis and financial analytics visualization

2017年，一家知名系统化对冲基金以15亿美元资本启动，团队汇集了从顶级科技公司招募的机器学习博士，其宣传理念不言自明：深度神经网络将发现传统量化模型无法察觉的收益预测模式。然而不到十八个月，该基金便损失了三分之一的资产——原因并非市场崩盘，而是模型持续缓慢失血，因为它记住了训练数据，而非真正学会了市场规律。它所检测到的模式不过是幻影：仅存在于历史数据中的统计伪像，一旦接触实盘交易便烟消云散。

这样的故事并非个例。据业内多数估计，自2015年以来推出的机器学习驱动型量化基金中，大部分已关闭或显著跑输基准。然而，机器学习在资产定价领域的学术证据却从未如此有力。Gu、Kelly与Xiu（2020）的研究表明，神经网络预测个股收益的样本外R平方可达0.40%，构建的多空组合夏普比率超过1.8。Kelly、Malamud与Zhou（2024）的研究则显示，当信号环境包含大量微弱预测因子时，模型复杂度非但不是泛化的敌人，反而能够提升预测效果。

如何调和这两个现实？答案不在于机器学习是否适用于投资——证据表明确实可以——而在于"知道机器学习能捕捉到真实信号"与"构建一个不会对噪声过拟合的系统"之间那道巨大的鸿沟。这一区分正是现代量化金融的核心挑战。

机器学习证据最为有力的领域

机器学习在收益预测中的优势建立在一个具体的实证发现之上：股票收益受数百个特征之间非线性交互作用的驱动，而这些交互作用随市场环境变化而变化。传统线性因子模型——从CAPM到Fama-French五因子模型——将每个预测变量独立处理并估计固定系数。它们能捕捉一阶效应，却遗漏了蕴含额外预测内容的条件结构。

Gu、Kelly与Xiu在1957年至2016年间的完整CRSP数据库上，使用900多个公司层面和宏观经济预测变量，对所有主流机器学习方法进行了测试。他们的三层神经网络取得了最高的样本外R平方，生成的多空组合其风险调整后表现大约是最佳线性替代方案的两倍。这一优势的来源并非奇异的阿尔法，而是条件因子交互：动量在高波动率环境中的表现不同于平静市场，价值因子的预测能力随商业周期波动，流动性与规模的交互方式是任何固定系数模型都无法表达的。

这一发现已获得独立研究的证实。Israel、Kelly与Moskowitz（2020）确认，机器学习方法的价值主要体现在对非线性交互作用的建模能力上，而非发现全新的预测变量。最为重要的输入变量——动量、价值、规模、盈利能力——与传统因子投资数十年来识别的变量别无二致。机器学习的贡献不在于发现新变量，而在于对现有变量的条件交互方式进行建模。

金融机器学习中的过拟合问题

如果信号是真实的，为什么大多数机器学习基金会失败？答案在于，金融预测对机器学习而言是一个极其恶劣的环境，那些在图像分类、自然语言处理和蛋白质折叠方面表现出色的工具，在应用于收益预测时面临着本质上不同的挑战。

微弱的信号，巨大的噪声

样本外R平方为0.40%意味着个股收益变动中有99.6%是不可预测的噪声。在计算机视觉中，训练良好的模型分类准确率超过95%。在自然语言处理中，大语言模型在许多基准测试上达到人类水平。而在金融领域，文献中最好的模型所解释的收益变动不到百分之零点五。这种极低的信噪比意味着，除非采取极其严格的预防措施，否则任何具有足够容量的模型都会在噪声中发现虚假模式。

非平稳性

金融市场是非平稳的：数据生成过程随时间变化。波动率体制会发生转换，危机期间相关性会崩溃，监管变化会改变市场微观结构，其他参与者的策略也会根据观察到的模式做出调整。一个在2010-2020年数据上训练的模型，在2025年面对的市场与它所学习的市场有着本质不同。标准机器学习实践假设训练集和测试集的分布来自同一过程——这一假设在金融领域经常被违反。

对抗性动态

与自然现象不同，金融市场中的参与者会主动与你的预测进行博弈。当一个有利可图的机器学习信号被广泛知晓后，其他交易者会加以利用，拥挤效应推高交易成本，信号随之衰减。McLean与Pontiff（2016）记录了这一现象：已发表的学术异象在研究公开后，其收益溢价平均损失约四分之一，后续的数据挖掘则造成进一步衰减。回测陷阱直接延伸至机器学习领域：模型在历史数据中检测到的模式，可能恰恰是在实盘交易中衰减最快的那类信号。

交叉验证的失效

也许技术层面最具破坏性的问题是，标准交叉验证——机器学习模型评估的基石——在序列相关性存在时会失效。金融时间序列具有自相关性：今天的收益携带着关于明天的信息。标准k折交叉验证将数据随机打乱分配到训练集和验证集中，这意味着与验证观测值时间上相邻的训练观测值会将前瞻信息泄露到模型评估中。在k折验证下表现良好的模型，可能只是在利用时间邻近性，而非真正的样本外信号。

López de Prado（2018）将此列为大多数机器学习基金失败的十大原因之一，他认为金融业从科技公司整体搬用机器学习技术，却未考虑金融预测问题与非金融预测问题之间的结构性差异。解决方案——清洗与隔离交叉验证，即从训练集中移除与验证集相邻的观测值——概念上简单，但在实践中很少被真正实施。

严谨的机器学习实践是什么样的

失败的机器学习基金与学术证据之间的差距，在很大程度上是方法论的差距。能够持续交付机器学习衍生阿尔法的从业者，往往共享一种将他们与大多数过拟合者区分开来的共同纪律。

清洗式前向滚动验证

严谨的从业者不是在单一的留出测试集上评估模型性能，而是使用滚动前向验证。模型在时间t之前的数据上训练，在t+1到t+k的数据上测试，然后窗口向前推进。关键在于，训练期和测试期之间插入了缓冲期（隔离期），以防止自相关观测值造成的信息泄露。Arnott、Harvey与Markowitz（2019）将此正式化为专门针对机器学习时代设计的回测协议，证明标准的训练-测试分割会系统性地高估模型表现。

经济先验作为正则化

金融领域最成功的机器学习实现并不将问题视为黑箱。它们将经济结构作为归纳偏置纳入其中：以因子模型残差而非原始收益作为目标变量，约束网络架构使其尊重已知的风险结构，并对需要不合理换手率的预测施加惩罚。这种方法将机器学习视为金融理论的补充工具，而非替代品，用以捕捉理论所遗漏的非线性残差。

Israel、Kelly与Moskowitz强调，金融领域的机器学习模型应当"以经济理论为指导，而非取代经济理论"。他们的实验表明，受因子结构约束的机器学习模型在样本外测试中优于无约束模型——这一发现直接反驳了"更大灵活性总是更好"的朴素假设。

真实的成本建模

机器学习识别出的阿尔法中，相当大一部分存在于小盘股和流动性差的证券中，而这些恰恰是执行成本最高的领域。学术文献通常报告的是扣除成本前的收益。当应用真实的交易成本——包括随交易规模相对于日均成交量的比例而增加的市场冲击——之后，小盘股的机器学习阿尔法大多蒸发殆尽。严谨的从业者评估的是扣除成本后的净表现，并明确针对组合换手率约束进行优化，以较低的总阿尔法换取可执行的策略。

多重检验修正

Harvey与Liu（2021）证明，许多看似显著的机器学习信号不过是"幸运因子"——大量规格搜索的产物。当研究者尝试了数百种模型配置（网络深度、学习率、特征子集、训练窗口）后仅报告最佳结果时，发现虚假显著信号的概率会急剧上升。修正夏普比率及相关修正方法会针对评估的总配置数量进行调整，严谨的从业者在宣称其模型具有预测能力之前会应用这些调整。

Bailey、Borwein、López de Prado与Zhu（2017）精确量化了这一问题，表明回测过拟合的概率随测试的策略变体数量急剧上升。对于一个评估了数百种配置的典型研究流程，表现最佳的模型真正具有正预期收益的概率可能降至50%以下——即便其样本内表现看起来非常出色。

复杂性悖论

近期机器学习研究中最反直觉的发现之一是：在横截面收益预测这一特定领域，更复杂的模型可能泛化得更好而非更差。Kelly、Malamud与Zhou证明，过度参数化的神经网络——参数数量远超训练观测值的网络——优于简约模型，因为它们充当了隐式正则化机制。梯度下降找到的最小范数解将估计风险分散到众多参数中，防止任何单一预测变量主导模型，从而使模型能够在数百个特征中汇聚微弱但真实的信号。

这种"双重下降"现象意味着，在股票收益预测这一信号确实分散于众多微弱预测因子的特定环境中，保持模型简约的经典建议实际上可能损害模型表现。然而，这一结论仅在特定条件下成立：模型必须使用适当的正则化（显式或隐式）进行训练，通过严格的样本外协议进行验证，并在真实成本假设下进行评估。复杂性只有在伴随着防止其沦为过拟合借口的纪律时，才是一种优势。

其实际含义是微妙的。对过拟合的经典恐惧并没有错——只是不够完整。在金融领域，真正的危险不是复杂性本身，而是缺乏纪律的复杂性：模型虽然庞大灵活，却缺少适当验证、经济先验和成本感知评估的护栏。

如何评估机器学习量化策略

对于考虑配置机器学习驱动策略的投资者，研究文献提供了一个具体的评估框架。

首先，了解验证方法论。任何可信的机器学习策略都应使用带有隔离期的清洗式前向滚动验证。如果业绩记录基于简单的80/20训练-测试分割，那么报告的数字几乎必然被高估了。应具体询问如何处理训练数据中的序列相关性。

其次，要求扣除成本后的净表现。对于在流动性差的证券中频繁交易的策略，总夏普比率毫无意义。相关指标应是扣除真实买卖价差、按实际组合规模缩放的市场冲击估计以及做空头寸借券成本后的净阿尔法。总夏普比率1.8可能在扣除成本后变为0.6——仍然为正，但本质上是完全不同的命题。

第三，检验体制稳健性。一个在趋势市场中表现出色却在波动率飙升时崩溃的模型，很可能只是捕捉了在压力时期会反转的动量信号。真正的机器学习阿尔法应当在不同市场环境中逐步衰减，而非表现出二元化的开关行为。应要求按波动率体制、市场方向和流动性条件分解的业绩归因。

第四，询问模型的可解释性。虽然可解释性并非模型运作的必要条件，但一个无法——至少在高层次上——解释模型捕捉了什么的团队，可能也不了解模型何时以及为何会失效。最优秀的机器学习从业者能够阐明其模型所利用的经济机制：条件因子交互、时变风险溢价，或微观结构驱动的信号。一个没有任何经济叙事的纯黑箱模型，值得加倍审慎地对待。

前路展望

机器学习既不是投资中人类判断的终结，也不是稳赚不赔的优势。学术证据确立了机器学习方法确实能够捕捉横截面收益中的预测信号——这些信号来自条件性、非线性的因子交互，而非来自奇异的新变量。但从这一学术发现到一个盈利的、可持续的投资策略之间的距离是巨大的。它需要为非平稳、序列相关、对抗性数据量身设计的验证方法；需要防止模型拟合噪声的经济先验；需要承认机器学习阿尔法中流动性溢价的真实成本建模；还需要对任何机器学习研究流程中固有的多重检验进行诚实核算。

经受住这一考验的基金，往往看起来更像是将机器学习作为众多工具之一的传统系统化量化公司，而非硅谷式的数据科学团队。它们使用神经网络来建模条件因子暴露，但将模型建立在经济理论的基础上。它们在证据支持的地方拥抱复杂性，但以大多数金融领域之外的机器学习从业者会认为过于严苛的标准进行验证。它们认识到0.40%的R平方是一项真正的成就而非舍入误差，并构建基础设施从这一微薄优势中提取价值，而不因过度交易将其摧毁。

问题不在于机器学习在量化投资中是否有效。证据表明确实有效。问题在于实施过程是否足够严谨，能够将0.40%的信号从99.6%的噪声中分离出来——以及随着市场演变和竞争加剧，这种纪律能否持续维持。

本文探讨了机器学习在投资领域应用的学术研究，并非对所讨论策略的投资建议。模型化的绩效指标反映特定的学术研究条件，大多数个人投资者无法复制。

参考文献

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
López de Prado, M. (2018). The 10 Reasons Most Machine Learning Funds Fail. The Journal of Portfolio Management, 44(6), 120-133. https://doi.org/10.3905/jpm.2018.44.6.120
Israel, R., Kelly, B., & Moskowitz, T. (2020). Can Machines 'Learn' Finance? Journal of Investment Management, 18(2), 23-36. https://ssrn.com/abstract=3624052
Harvey, C. R., & Liu, Y. (2021). Lucky Factors. Journal of Financial Economics, 141(2), 413-435. https://doi.org/10.1016/j.jfineco.2021.04.014
Arnott, R. D., Harvey, C. R., & Markowitz, H. (2019). A Backtesting Protocol in the Era of Machine Learning. The Journal of Financial Data Science, 1(1), 64-74. https://doi.org/10.3905/jfds.2019.1.1.064
McLean, R. D., & Pontiff, J. (2016). Does Academic Research Destroy Stock Return Predictability? The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365
Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2017). The Probability of Backtest Overfitting. Journal of Computational Finance, 20(4), 39-69. https://doi.org/10.21314/JCF.2017.332