复杂性的美德：为什么过参数化模型能更好地预测收益

并不存在的过拟合陷阱

每本量化金融教科书都教授同样的课程：保持模型简单。添加过多参数，模型就会记住噪声而非学习信号。每位统计学学生都被反复灌输的偏差-方差权衡告诉我们，超过某个最优点后，额外的复杂性会损害样本外表现。几十年来，这一原则指导着从业者构建收益率预测模型的方式——精简变量列表，惩罚大系数，偏好简约而非预测力。

然后，奇怪的事情发生了。在金融领域之外的机器学习研究中，从业者发现那些参数数量远超训练观测数、拥有数百万乃至数十亿参数的超大规模模型，比更小的模型具有更好的泛化能力。GPT风格的语言模型、深度图像分类器和蛋白质折叠网络都违反了经典的权衡关系。这一现象被称为"良性过拟合（benign overfit）"，它颠覆了统计学习的理论基础。

Bryan Kelly、Semyon Malamud和Kangying Zhou将这一洞见引入了资产定价领域。他们2024年发表在Journal of Finance上的论文"The Virtue of Complexity in Return Prediction"提供了理论框架和全面的实证证据，证明过参数化模型在预测股票收益率方面优于简约模型（Kelly, Malamud & Zhou, 2024）。这对我们构建和评估量化策略的方式具有深远的影响。

复杂性为何有效：理论

该论文的理论贡献解决了一个长期困扰量化金融的难题：如果股票收益率难以预测（低R平方），为什么向模型添加更多参数会改善而非恶化预测效果？

答案在于信号环境的结构。股票收益率受到数百个特征的影响——规模、价值、动量、盈利能力、投资、流动性、波动率、应计项目等等。每个单独的预测变量只携带极少量的信息。信号是真实存在的，但分散在许多维度上，每个维度贡献微小的预测力增量。

在这种环境中，简约模型面临两难困境。如果选择一小部分预测变量（如LASSO或逐步回归所做的），就会丢弃被排除变量中的弱信号。如果以相等权重包含所有预测变量，无关变量的噪声就会淹没弱信号。无论哪种方式，模型都会表现不佳。

过参数化模型通过作者们称之为"隐式收缩（implicit shrinkage）"的机制来解决这一困境。当模型的参数多于观测数时，存在无穷多个能完美拟合训练数据的参数向量。梯度下降自然找到的最小范数解将权重分散到所有参数上，在没有任何显式惩罚项的情况下有效地执行了一种岭正则化。这种隐式收缩防止任何单一预测变量占据主导地位，并允许模型在所有可用维度上汇聚弱信号。

数学结果令人瞩目：随着参数数量相对于观测数量（过参数化比率）的增长，样本外预测误差先升高（经典过拟合区间），然后在超过关键阈值后再次下降。这就是在深度学习中记录的"双重下降（double descent）"曲线。Kelly、Malamud和Zhou证明了它在现实条件下适用于收益率预测。

实证竞争比较

该论文全面检验了这一理论。使用与Gu, Kelly, and Xiu (2020)相同的数据集——1957年至2021年整个CRSP宇宙的月度收益率，以900多个公司特征作为潜在预测变量——作者们系统地改变模型复杂度并衡量样本外表现。

结果与理论精确吻合。参数少于观测数的模型（欠参数化区域）显示出预期模式：性能提升到某一点后，过拟合开始出现。但一旦复杂度越过插值阈值——模型拥有足够参数可以完美拟合训练数据的临界点——性能开始再次提升。拥有数万个参数的最复杂模型产生了最佳的样本外R平方值。

经济效果的规模相当可观。基于神经网络收益率预测构建的多空组合产生的月度alpha随模型复杂度单调递增。最复杂的模型产生的年化夏普比率超过2.0，显著优于传统计量经济学所偏好的简约替代方案。

复杂模型捕捉到什么

该论文超越了简单的竞争比较，深入研究复杂模型捕捉到了简单模型遗漏的什么内容。分析揭示了额外预测力的三个关键来源。

第一，预测变量之间的非线性交互。简单模型独立处理每个特征——动量就是动量，不论公司规模或市场环境如何。复杂模型发现，动量的预测力随波动率、流动性和商业周期而剧烈变化。这些条件性关系在线性模型中不可见，但包含大量收益率预测信息。

第二，时变因子暴露。公司特征与预期收益率之间的关系随市场状态而变化。价值因子在衰退期和扩张期的表现不同。低波动率股票在利率上升和下降环境中的行为不同。具有足够容量的复杂模型能够从数据中学习这些依赖状态的关系。

第三，尾部行为和极端事件。复杂模型能更好地捕捉市场压力时期的非线性动态。该论文记录了过参数化模型在高波动率时期的收益率预测方面特别有效——而这恰恰是精确预测最有价值的时期。最复杂的模型在样本中15次NBER正式认定的衰退中成功降低了14次风险，这是任何简约模型都未能匹配的记录。

双重下降曲线

该论文视觉上最引人注目的结果是将样本外R平方对模型复杂度作图得到的双重下降曲线。该曲线显示：

复杂度区域	行为	表现
欠参数化 (p < n)	经典偏差-方差权衡	中等，达峰后下降
插值阈值 (p ≈ n)	模型完美拟合训练数据	最差表现（过拟合峰值）
过参数化 (p >> n)	良性过拟合，隐式收缩	最佳表现，随复杂度提升

这一U形模式（更准确地说，插值峰值之后的第二次下降）解释了为什么在经典过拟合点停止增加复杂度的从业者错过了预测力。关键洞见是，你必须穿越过拟合区域才能到达另一侧的良性过拟合区域。

与Gu, Kelly, and Xiu (2020)的关联

该论文是那项里程碑式ML竞争比较研究的自然续篇。Gu, Kelly, and Xiu (2020)实证地证明了神经网络在收益率预测中优于线性模型，而本论文解释了原因。前一项研究展示了是什么；本研究提供了理论机制。

这一关联也化解了前一项研究中的一个矛盾。Gu、Kelly和Xiu发现三层神经网络（NN3）的表现优于五层网络（NN5），这似乎暗示了深度的边际收益递减。Kelly、Malamud和Zhou重新解释了这一发现：复杂度的相关度量不仅仅是深度，而是总参数数量。当复杂度被正确衡量时——作为过参数化比率——更多始终意味着更好。

这也与正在进行的"因子动物园（factor zoo）"辩论相关。面对400多个已发表的异象，许多研究者主张积极剪枝——将预测变量集缩减为少数稳健因子。复杂性之美德的结论对此进行了反驳：与其选择几个强预测变量而丢弃其余的，不如将所有变量都纳入，让模型的隐式正则化来整理权重。被丢弃变量中的弱信号包含真实的预测信息，这些信息汇聚起来具有有意义的经济价值。

局限性与注意事项

该论文的结论伴随着从业者应仔细考量的重要限定条件。

交易成本是最重大的实务关切。复杂模型主要在交易成本最高的小盘、低流动性股票中产生alpha。在考虑现实的成本调整后，最复杂模型的优势有所收窄——尽管并未完全消失。对于管理大型组合的机构投资者而言，扣除成本后的收益取决于执行质量和组合换手率约束。

理论框架假设了一种特定的信号结构：具有独立噪声的大量弱预测变量。如果真实信号集中在少数强预测变量上（在某些另类资产类别中可能如此），复杂性之美德可能不成立。该论文在分散信号假设得到充分支持的美国股票市场上证明了这一结果，但向其他市场的推广需要进一步验证。

模型可解释性仍然是一个挑战。在样本外测试中表现优异的过参数化神经网络难以向投资者、风险管理者和监管机构解释。该论文为复杂模型为何有效提供了理论依据，但并未化解预测力与可解释性之间的实务矛盾。

最后，这一结果对于这些模式是否会持续并未给出任何说明。如果复杂模型的alpha是由行为偏差或制度摩擦驱动的，随着更多资本追逐类似策略，它可能会减弱。如果它反映的是承担复杂性风险的真实风险补偿，它可能会持续，但在对模型不利的市场状态下会出现显著的回撤。

对模型构建的启示

实务要点是微妙的。该论文并非主张复杂性总是更好——它主张经典的偏差-方差权衡（即认为超过某一点后复杂性总是有害的）在横截面收益率预测的特定结构中是错误的。

对于构建基于ML的股票策略的从业者，启示如下：

不要将变量选择作为主要的正则化策略。纳入更多预测变量，即使是弱预测变量，如果模型具有足够的容量，也可以改善样本外表现。

使用通过过参数化实现的隐式正则化（早停、最小范数解），而非强制稀疏性的显式正则化（LASSO、Dropout）。前者保留弱信号；后者则将其丢弃。

在整个复杂度谱上评估模型性能，而非仅在简约端评估。最优模型可能远比传统实践所建议的更加复杂。

始终通过严格的样本外测试进行验证。良性过拟合是在特定条件下成立的理论性质；它不是跳过验证的许可证。

该论文标志着量化金融对模型复杂性思考方式的重大转变。几十年来，简单性本身被视为一种美德。Kelly、Malamud和Zhou证明，在收益率预测的特定背景下——信号微弱、分散且数量众多——复杂性才是美德。

本文仅用于教育目的，不构成金融建议。过往表现不保证未来结果。

References

Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116