Sam, 主編
審核 Sam · 最後審核 2026-04-06

量化投資中的機器學習:真正的優勢還是過擬合?

系統策略深度分析
2026-04-06 · 18 min

神經網路可以實現1.8以上夏普比率的股票報酬預測。但大多數ML驅動的避險基金跑輸基準。本深度分析檢驗了區分真正的機器學習阿爾法與精巧曲線擬合的研究,以及有紀律的從業者有何不同做法。

機器學習過擬合Cross ValidationQuant InvestingSystematic Strategies
來源: Gu, Kelly & Xiu (2020), Review of Financial Studies

散戶投資者的實際應用

在配置任何ML驅動的基金或策略之前,確認三個問題很重要:業績記錄是否使用了淨化的前推驗證而非簡單的訓練-測試分割?績效數據是否在扣除現實交易成本後報告?策略在樣本外環境中是否溫和衰減,還是出現斷崖式下跌?通過所有三個篩選的策略更有可能提供真正的阿爾法。

編輯注釋

隨著ML品牌量化基金在2025-2026年吸引創紀錄資金,區分真正的預測訊號和精巧過擬合從未如此重要。本文綜合了關於機器學習在哪些方面真正推進報酬預測、在哪些方面僅將雜訊重新包裝為精巧性的學術證據。

那個知道太多的演算法

Data analysis and financial analytics visualization

2017年,一家知名系統化避險基金以15億美元資本啟動,招募了來自頂尖科技公司的機器學習博士團隊,其宣傳理念不言自明:深度神經網路將發現傳統量化模型無法察覺的報酬預測模式。然而不到十八個月,該基金便損失了三分之一的資產——並非因為市場崩盤,而是因為模型記住了訓練資料而非學會了市場規律所導致的持續虧損。它偵測到的模式不過是幻影:存在於歷史資料中、卻在實際交易中消散的統計假象。

這個故事並非個案。根據多數業界估計,自2015年以來推出的機器學習驅動量化基金中,大多數已經關閉或顯著落後於基準指標。然而,學術證據卻從未如此強力地支持機器學習在資產定價中的應用。Gu、Kelly與Xiu(2020)證明神經網路能以0.40%的樣本外R平方預測個股報酬,並產生夏普比率超過1.8的多空投資組合。Kelly、Malamud與Zhou(2024)則指出,當訊號環境包含眾多微弱預測因子時,模型複雜度非但不是泛化的敵人,實際上還能改善預測效果。

如何調和這兩個看似矛盾的現實?答案不在於機器學習是否適用於投資——證據顯示它可以——而在於「知道機器學習能捕捉真實訊號」與「建構一個不會對雜訊過度擬合的系統」之間的巨大鴻溝。這個區分正是現代量化金融的核心挑戰。

機器學習的證據最為有力之處

機器學習在報酬預測中的優勢建立在一項具體的實證發現之上:股票報酬受到數百個特徵之間非線性交互作用的驅動,而這些交互作用會隨市場條件而改變。傳統線性因子模型——從CAPM到Fama-French五因子模型——將每個預測因子獨立處理並估計固定係數。它們能捕捉一階效應,卻遺漏了包含額外預測內容的條件結構。

Gu、Kelly與Xiu利用900多個公司層面與總體經濟預測因子,在1957至2016年的完整CRSP資料庫上測試了所有主要的機器學習方法。他們的三層神經網路達到了最高的樣本外R平方,並產生了風險調整後績效大約是最佳線性替代方案兩倍的多空投資組合。這項優勢的來源並非奇特的alpha,而是條件因子交互作用:動量在高波動率環境中的表現與平靜市場不同、價值的預測能力隨商業週期波動、流動性與規模的交互作用也非任何固定係數模型所能表達。

這項發現已獲得獨立研究的佐證。Israel、Kelly與Moskowitz(2020)確認機器學習方法主要透過建模非線性交互作用來增加價值,而非發現全新的預測因子。最重要的輸入變數——動量、價值、規模、獲利能力——與傳統因子投資數十年來所識別的因子相同。機器學習的貢獻不在於發現新變數,而在於對現有變數如何條件性地交互作用進行建模。

金融機器學習中的過度擬合問題

如果訊號是真實的,為何大多數機器學習基金會失敗?答案在於金融預測對機器學習而言是一個極度不友善的環境,那些在影像分類、自然語言處理和蛋白質摺疊上表現優異的工具,在應用於報酬預測時面臨的是質性上截然不同的挑戰。

微弱的訊號,巨大的雜訊

0.40%的樣本外R平方意味著99.6%的個股報酬變異是不可預測的雜訊。在電腦視覺中,訓練良好的模型分類影像準確率超過95%。在自然語言處理中,大型語言模型在許多基準測試上達到人類水準的表現。但在金融領域,文獻中最優秀的模型所解釋的報酬變異不到百分之零點五。這種極低的訊噪比意味著,除非採取非常嚴謹的措施加以防範,任何具有足夠容量的模型都會在雜訊中找到模式。

非定態性

金融市場是非定態的:資料生成過程隨時間而變。波動率狀態會轉換、相關性在危機期間會瓦解、監管變革會改變市場微觀結構,而其他參與者的策略也會因應觀察到的模式而演變。一個以2010至2020年資料訓練的模型,在2025年面對的市場與它所學習的市場有根本性的不同。標準機器學習實務假設訓練集和測試集來自相同的生成過程——這個假設在金融中經常被違反。

對抗性動態

與自然現象不同,金融市場中存在主動與你的預測競爭的參與者。當一個有利可圖的機器學習訊號廣為人知時,其他交易者會利用它,因擁擠效應導致交易成本上升,訊號隨之衰退。McLean與Pontiff(2016)記錄了已發表的學術異常現象在研究公開後會損失大約四分之一的報酬溢酬,且後續的資料挖掘會造成額外的衰退。回測陷阱直接延伸至機器學習領域:一個在歷史資料中偵測到某種模式的模型,可能恰恰偵測到的是在實際市場中衰退最快的那種訊號。

交叉驗證的失效

在技術層面上最具破壞性的問題,或許是標準交叉驗證——機器學習模型評估的基石——在序列相關性存在的情況下會失效。金融時間序列具有自相關性:今日的報酬攜帶著關於明日報酬的資訊。標準k折交叉驗證會隨機將資料打散分配至訓練集和驗證集,這意味著時間上與驗證觀測值相鄰的訓練觀測值會將前瞻性資訊洩漏到模型評估中。一個在k折驗證下看似能良好泛化的模型,可能只是在利用時間鄰近性,而非真正的樣本外訊號。

López de Prado(2018)將此列為大多數機器學習基金失敗的十大原因之一,他認為金融業從科技公司全盤引進機器學習技術,卻未考慮金融預測問題與非金融預測問題之間的結構性差異。修正方法——清除並設置禁令期的交叉驗證,即從訓練集中移除與驗證集相鄰的觀測值——在概念上很簡單,但在實務中卻很少被落實。

嚴謹的機器學習實務是什麼樣的

失敗的機器學習基金與學術證據之間的差距,在很大程度上是方法論的差距。能夠持續產出機器學習衍生alpha的從業者,往往具備一種共同的紀律,使他們有別於過度擬合的大多數人。

清除式滾動前向驗證

嚴謹的從業者不是在單一留出測試集上評估模型績效,而是使用滾動前向驗證。模型以時間t之前的資料進行訓練,在t+1到t+k的資料上進行測試,然後視窗向前推移。關鍵的是,訓練期與測試期之間會插入一段緩衝期(即禁令期),以防止自相關觀測值造成的資訊洩漏。Arnott、Harvey與Markowitz(2019)將此正式化為一種專門為機器學習時代設計的回測協定,並證明標準的訓練-測試分割會系統性地高估績效。

以經濟先驗作為正則化

金融領域中最成功的機器學習應用並不將問題視為黑箱。它們將經濟結構作為歸納偏差加以融入:使用因子模型殘差而非原始報酬作為目標、限制網路架構以尊重已知的風險結構、並對需要不合理換手率的預測進行懲罰。這種方法將機器學習視為捕捉理論所遺漏的非線性殘差的工具,而非金融理論的替代品。

Israel、Kelly與Moskowitz強調,金融中的機器學習模型應該「以經濟理論為指引,而非取代它」。他們的實驗顯示,受因子結構約束的機器學習模型在樣本外測試中優於無約束模型——這一發現直接反駁了「更多靈活性總是更好」的樸素假設。

真實的成本建模

機器學習所識別的alpha中有很大一部分存在於小型股和流動性不足的證券中,而這些恰恰是執行成本最高的地方。學術文獻通常報告的是扣除成本前的報酬。當納入真實的交易成本後——包括隨交易規模相對於日均成交量比例而增加的市場衝擊——小型股機器學習alpha的大部分便蒸發了。嚴謹的從業者會評估扣除成本後的績效,並明確針對投資組合換手率約束進行優化,接受較低的毛alpha以換取可執行的策略。

多重測試修正

Harvey與Liu(2021)證明許多看似顯著的機器學習訊號其實是「幸運因子」——廣泛規格搜尋的產物。當研究者嘗試數百種模型配置(網路深度、學習率、特徵子集、訓練視窗)並僅報告最佳結果時,發現虛假顯著訊號的機率便急劇上升。緊縮夏普比率及相關修正方法可針對所評估的配置總數進行調整,嚴謹的從業者會在宣稱模型具有預測能力之前先套用這些調整。

Bailey、Borwein、López de Prado與Zhu(2017)精確量化了這一問題,指出回測過度擬合的機率隨所測試的策略變體數量急劇上升。對於一個評估數百種配置的典型研究流程,表現最佳的模型真正具有正期望報酬的機率可能低於50%——即使其樣本內績效看起來十分出色。

複雜度悖論

近期機器學習研究中最違反直覺的發現之一是:在橫截面報酬預測這一特定領域中,更複雜的模型反而能更好地泛化。Kelly、Malamud與Zhou證明,過度參數化的神經網路——即參數數量遠超訓練觀測值的網路——之所以優於簡約模型,是因為它們作為隱式正則化機制運作。梯度下降所找到的最小範數解將估計風險分散於眾多參數之間,防止任何單一預測因子主導,從而使模型能夠彙集數百個特徵中微弱但真實的訊號。

這種「雙重下降」現象意味著,在股票報酬預測這一特定情境中——訊號確實分散於許多微弱預測因子之間——保持模型簡單的經典建議實際上可能損害績效。然而,這一結果僅在特定條件下成立:模型必須以適當的正則化(顯式或隱式)進行訓練、以嚴格的樣本外協定進行驗證、並以真實的成本假設進行評估。複雜度唯有在伴隨著防止其淪為過度擬合藉口的紀律時,才是一種優勢。

其實務意涵是微妙的。對過度擬合的經典恐懼並非錯誤——只是不夠完整。在金融領域中,危險的不是複雜度本身,而是缺乏紀律的複雜度:龐大且靈活的模型缺乏適當驗證、經濟先驗和成本感知評估的護欄。

如何評估機器學習量化策略

對於考慮配置機器學習驅動策略的投資者,研究文獻提供了一個具體的評估框架。

首先,了解驗證方法論。任何可信的機器學習策略都應使用帶有禁令期的清除式滾動前向驗證。如果績效記錄僅基於簡單的80/20訓練-測試分割,那麼所報告的數字幾乎可以確定被高估了。應明確詢問如何處理訓練資料中的序列相關性。

其次,要求扣除成本後的績效。對於在流動性不足的證券中頻繁交易的策略而言,毛夏普比率毫無意義。相關指標是在扣除真實的買賣價差、依實際投資組合規模估算的市場衝擊,以及空頭部位的借券成本之後的淨alpha。毛夏普比率1.8可能在扣除成本後變為0.6——仍然為正,但本質上是完全不同的命題。

第三,檢驗跨狀態穩健性。一個在趨勢市場中表現出色但在波動率急升時崩潰的模型,很可能捕捉的是一種在壓力期會反轉的動量訊號。真正的機器學習alpha應在不同市場環境中逐漸衰減,而非展現出非此即彼的開關行為。應要求按波動率狀態、市場方向和流動性條件分解的績效歸因。

第四,詢問模型的可解釋性。雖然可解釋性並非模型運作的必要條件,但一個無法解釋其模型所捕捉內容的團隊——哪怕只是高層次的解釋——可能也不理解模型何時以及為何會失效。最優秀的機器學習從業者能夠闡述其模型所利用的經濟機制:條件因子交互作用、時變風險溢酬,或微觀結構驅動的訊號。一個沒有任何經濟敘事的純黑箱模型,理應受到更高的質疑。

前方的道路

機器學習既非投資中人類判斷的終結,也非保證獲利的優勢。學術證據確立了機器學習方法確實能捕捉橫截面報酬中的預測訊號——這些訊號來自條件性、非線性的因子交互作用,而非奇特的新變數。但從這一學術發現到一個有利可圖且可持續的投資策略之間的距離是巨大的。這需要為非定態、序列相關、對抗性資料量身設計的驗證方法;需要防止模型擬合雜訊的經濟先驗;需要承認機器學習alpha中流動性不足溢酬的真實成本建模;以及需要對任何機器學習研究流程中固有的多重測試進行誠實的核算。

能通過這一嚴峻考驗的基金,往往不像矽谷的資料科學團隊,反而更像是將機器學習納為眾多工具之一的傳統系統化量化公司。它們使用神經網路來建模條件因子曝險,但以經濟理論為模型的根基。它們在證據支持之處擁抱複雜度,但以大多數金融領域以外的機器學習從業者都會認為過於嚴苛的標準來進行驗證。它們接受0.40%的R平方是真正的成就而非捨入誤差,並建構基礎設施從這微薄的優勢中提取價值,而不會因過度交易而將其摧毀。

問題不在於機器學習在量化投資中是否有效。證據顯示它確實有效。問題在於實施是否足夠嚴謹,能將0.40%的訊號從99.6%的雜訊中分離出來——以及這種紀律能否在市場演變和競爭加劇時得以持續。

本文探討機器學習在投資中應用的學術研究,不構成對所討論任何策略的投資建議。所引述的模型績效指標反映特定學術研究條件,對多數個人投資者而言不具可複製性。

Written by Sam · Reviewed by Sam

本文基於引用的一手文獻,並經編輯團隊審核以確保準確性和歸屬。 編輯政策.

參考文獻

  1. Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009

  2. Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298

  3. López de Prado, M. (2018). The 10 Reasons Most Machine Learning Funds Fail. The Journal of Portfolio Management, 44(6), 120-133. https://doi.org/10.3905/jpm.2018.44.6.120

  4. Israel, R., Kelly, B., & Moskowitz, T. (2020). Can Machines 'Learn' Finance? Journal of Investment Management, 18(2), 23-36. https://ssrn.com/abstract=3624052

  5. Harvey, C. R., & Liu, Y. (2021). Lucky Factors. Journal of Financial Economics, 141(2), 413-435. https://doi.org/10.1016/j.jfineco.2021.04.014

  6. Arnott, R. D., Harvey, C. R., & Markowitz, H. (2019). A Backtesting Protocol in the Era of Machine Learning. The Journal of Financial Data Science, 1(1), 64-74. https://doi.org/10.3905/jfds.2019.1.1.064

  7. McLean, R. D., & Pontiff, J. (2016). Does Academic Research Destroy Stock Return Predictability? The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365

  8. Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2017). The Probability of Backtest Overfitting. Journal of Computational Finance, 20(4), 39-69. https://doi.org/10.21314/JCF.2017.332

本文的貢獻

隨著ML品牌量化基金在2025-2026年吸引創紀錄資金,區分真正的預測訊號和精巧過擬合從未如此重要。本文綜合了關於機器學習在哪些方面真正推進報酬預測、在哪些方面僅將雜訊重新包裝為精巧性的學術證據。

證據評估

  • 5/5Neural networks achieve the highest out-of-sample R-squared (0.40%) for individual US stock returns across a 60-year sample, generating long-short portfolio Sharpe ratios above 1.8, but these results assume institutional-scale execution and gross-of-cost measurement.
  • 4/5An estimated 85-90% of ML-driven quantitative funds fail to deliver sustained alpha, with overfitting to in-sample patterns, inadequate cross-validation, and unrealistic transaction cost assumptions cited as the primary failure modes.
  • 4/5Proper walk-forward validation with purged and embargoed cross-validation can reduce backtest overfitting rates by 60-80% compared to standard k-fold approaches, as financial time series violate the independence assumptions of conventional ML evaluation frameworks.

常見問題

為什麼大多數機器學習避險基金會失敗?
López de Prado(2018)識別了十種系統性失敗模式,最常見的是對樣本內雜訊的過擬合、應用忽視金融時間序列序列依賴性的標準交叉驗證技術、以及忽略現實交易成本。許多ML基金將金融預測視為通用的監督學習問題,忽視了金融市場特有的低訊噪比、非平穩性和對抗性動態。
機器學習真的能預測股票報酬嗎?
可以,但有重要附帶條件。Gu、Kelly和Xiu(2020)證明神經網路對美國股票報酬實現了有意義的樣本外預測能力,捕捉傳統模型遺漏的非線性因子交互。但預測R平方僅為0.40%——很小但在機構規模上具有經濟意義。關鍵發現不是ML能完美預測,而是它能捕捉靜態線性模型無法捕捉的因子間條件關係。

僅供教育。