複雜性的美德：為什麼過參數化模型能更好地預測報酬

並不存在的過擬合陷阱

每本量化金融教科書都教授同樣的課程：保持模型簡單。添加過多參數，模型就會記住雜訊而非學習訊號。每位統計學學生都被反覆灌輸的偏差-變異數權衡告訴我們，超過某個最優點後，額外的複雜性會損害樣本外表現。幾十年來，這一原則指導著從業者構建報酬率預測模型的方式——精簡變數列表，懲罰大係數，偏好簡約而非預測力。

然後，奇怪的事情發生了。在金融領域之外的機器學習研究中，從業者發現那些參數數量遠超訓練觀測數、擁有數百萬乃至數十億參數的超大規模模型，比更小的模型具有更好的泛化能力。GPT風格的語言模型、深度影像分類器和蛋白質摺疊網路都違反了經典的權衡關係。這一現象被稱為「良性過擬合（benign overfit）」，它顛覆了統計學習的理論基礎。

Bryan Kelly、Semyon Malamud和Kangying Zhou將這一洞見引入了資產定價領域。他們2024年發表在Journal of Finance上的論文「The Virtue of Complexity in Return Prediction」提供了理論框架和全面的實證證據，證明過參數化模型在預測股票報酬率方面優於簡約模型（Kelly, Malamud & Zhou, 2024）。這對我們構建和評估量化策略的方式具有深遠的影響。

複雜性為何有效：理論

該論文的理論貢獻解決了一個長期困擾量化金融的難題：如果股票報酬率難以預測（低R平方），為什麼向模型添加更多參數會改善而非惡化預測效果？

答案在於訊號環境的結構。股票報酬率受到數百個特徵的影響——規模、價值、動量、獲利能力、投資、流動性、波動率、應計項目等等。每個單獨的預測變數只攜帶極少量的資訊。訊號是真實存在的，但分散在許多維度上，每個維度貢獻微小的預測力增量。

在這種環境中，簡約模型面臨兩難困境。如果選擇一小部分預測變數（如LASSO或逐步迴歸所做的），就會丟棄被排除變數中的弱訊號。如果以相等權重包含所有預測變數，無關變數的雜訊就會淹沒弱訊號。無論哪種方式，模型都會表現不佳。

過參數化模型透過作者們稱之為「隱式收縮（implicit shrinkage）」的機制來解決這一困境。當模型的參數多於觀測數時，存在無窮多個能完美擬合訓練資料的參數向量。梯度下降自然找到的最小範數解將權重分散到所有參數上，在沒有任何顯式懲罰項的情況下有效地執行了一種嶺正則化。這種隱式收縮防止任何單一預測變數佔據主導地位，並允許模型在所有可用維度上彙聚弱訊號。

數學結果令人矚目：隨著參數數量相對於觀測數量（過參數化比率）的增長，樣本外預測誤差先升高（經典過擬合區間），然後在超過關鍵閾值後再次下降。這就是在深度學習中記錄的「雙重下降（double descent）」曲線。Kelly、Malamud和Zhou證明了它在現實條件下適用於報酬率預測。

實證競爭比較

該論文全面檢驗了這一理論。使用與Gu, Kelly, and Xiu (2020)相同的資料集——1957年至2021年整個CRSP宇宙的月報酬率，以900多個公司特徵作為潛在預測變數——作者們系統地改變模型複雜度並衡量樣本外表現。

結果與理論精確吻合。參數少於觀測數的模型（欠參數化區域）顯示出預期模式：性能提升到某一點後，過擬合開始出現。但一旦複雜度越過插值閾值——模型擁有足夠參數可以完美擬合訓練資料的臨界點——性能開始再次提升。擁有數萬個參數的最複雜模型產生了最佳的樣本外R平方值。

經濟效果的規模相當可觀。基於神經網路報酬率預測構建的多空組合產生的月alpha隨模型複雜度單調遞增。最複雜的模型產生的年化夏普比率超過2.0，顯著優於傳統計量經濟學所偏好的簡約替代方案。

複雜模型捕捉到什麼

該論文超越了簡單的競爭比較，深入研究複雜模型捕捉到了簡單模型遺漏的什麼內容。分析揭示了額外預測力的三個關鍵來源。

第一，預測變數之間的非線性交互。簡單模型獨立處理每個特徵——動量就是動量，不論公司規模或市場環境如何。複雜模型發現，動量的預測力隨波動率、流動性和商業週期而劇烈變化。這些條件性關係在線性模型中不可見，但包含大量報酬率預測資訊。

第二，時變因子曝險。公司特徵與預期報酬率之間的關係隨市場狀態而變化。價值因子在衰退期和擴張期的表現不同。低波動率股票在利率上升和下降環境中的行為不同。具有足夠容量的複雜模型能夠從資料中學習這些依賴狀態的關係。

第三，尾部行為和極端事件。複雜模型能更好地捕捉市場壓力時期的非線性動態。該論文記錄了過參數化模型在高波動率時期的報酬率預測方面特別有效——而這恰恰是精確預測最有價值的時期。最複雜的模型在樣本中15次NBER正式認定的衰退中成功降低了14次風險，這是任何簡約模型都未能匹配的紀錄。

雙重下降曲線

該論文視覺上最引人注目的結果是將樣本外R平方對模型複雜度作圖得到的雙重下降曲線。該曲線顯示：

複雜度區域	行為	表現
欠參數化 (p < n)	經典偏差-變異數權衡	中等，達峰後下降
插值閾值 (p ≈ n)	模型完美擬合訓練資料	最差表現（過擬合峰值）
過參數化 (p >> n)	良性過擬合，隱式收縮	最佳表現，隨複雜度提升

這一U形模式（更準確地說，插值峰值之後的第二次下降）解釋了為什麼在經典過擬合點停止增加複雜度的從業者錯過了預測力。關鍵洞見是，你必須穿越過擬合區域才能到達另一側的良性過擬合區域。

與Gu, Kelly, and Xiu (2020)的關聯

該論文是那項里程碑式ML競爭比較研究的自然續篇。Gu, Kelly, and Xiu (2020)實證地證明了神經網路在報酬率預測中優於線性模型，而本論文解釋了原因。前一項研究展示了是什麼；本研究提供了理論機制。

這一關聯也化解了前一項研究中的一個矛盾。Gu、Kelly和Xiu發現三層神經網路（NN3）的表現優於五層網路（NN5），這似乎暗示了深度的邊際報酬遞減。Kelly、Malamud和Zhou重新解釋了這一發現：複雜度的相關度量不僅僅是深度，而是總參數數量。當複雜度被正確衡量時——作為過參數化比率——更多始終意味著更好。

這也與正在進行的「因子動物園（factor zoo）」辯論相關。面對400多個已發表的異象，許多研究者主張積極剪枝——將預測變數集縮減為少數穩健因子。複雜性之美德的結論對此進行了反駁：與其選擇幾個強預測變數而丟棄其餘的，不如將所有變數都納入，讓模型的隱式正則化來整理權重。被丟棄變數中的弱訊號包含真實的預測資訊，這些資訊匯聚起來具有有意義的經濟價值。

局限性與注意事項

該論文的結論伴隨著從業者應仔細考量的重要限定條件。

交易成本是最重大的實務關切。複雜模型主要在交易成本最高的小型、低流動性股票中產生alpha。在考慮現實的成本調整後，最複雜模型的優勢有所收窄——儘管並未完全消失。對於管理大型投資組合的機構投資者而言，扣除成本後的收益取決於執行品質和投資組合周轉率約束。

理論框架假設了一種特定的訊號結構：具有獨立雜訊的大量弱預測變數。如果真實訊號集中在少數強預測變數上（在某些另類資產類別中可能如此），複雜性之美德可能不成立。該論文在分散訊號假設得到充分支持的美國股票市場上證明了這一結果，但向其他市場的推廣需要進一步驗證。

模型可解釋性仍然是一個挑戰。在樣本外測試中表現優異的過參數化神經網路難以向投資者、風險管理者和監管機構解釋。該論文為複雜模型為何有效提供了理論依據，但並未化解預測力與可解釋性之間的實務矛盾。

最後，這一結果對於這些模式是否會持續並未給出任何說明。如果複雜模型的alpha是由行為偏差或制度摩擦驅動的，隨著更多資本追逐類似策略，它可能會減弱。如果它反映的是承擔複雜性風險的真實風險補償，它可能會持續，但在對模型不利的市場狀態下會出現顯著的回撤。

對模型構建的啟示

實務要點是微妙的。該論文並非主張複雜性總是更好——它主張經典的偏差-變異數權衡（即認為超過某一點後複雜性總是有害的）在橫截面報酬率預測的特定結構中是錯誤的。

對於構建基於ML的股票策略的從業者，啟示如下：

不要將變數選擇作為主要的正則化策略。納入更多預測變數，即使是弱預測變數，如果模型具有足夠的容量，也可以改善樣本外表現。

使用透過過參數化實現的隱式正則化（早停、最小範數解），而非強制稀疏性的顯式正則化（LASSO、Dropout）。前者保留弱訊號；後者則將其丟棄。

在整個複雜度譜上評估模型性能，而非僅在簡約端評估。最優模型可能遠比傳統實務所建議的更加複雜。

始終透過嚴格的樣本外測試進行驗證。良性過擬合是在特定條件下成立的理論性質；它不是跳過驗證的許可證。

該論文標誌著量化金融對模型複雜性思考方式的重大轉變。幾十年來，簡單性本身被視為一種美德。Kelly、Malamud和Zhou證明，在報酬率預測的特定背景下——訊號微弱、分散且數量眾多——複雜性才是美德。

本文僅用於教育目的，不構成金融建議。過往表現不保證未來結果。

References

Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116