存在しなかった過学習の罠
すべてのクオンツ金融の教科書は同じ教訓を教えています:モデルをシンプルに保ちなさい、ということです。パラメータを追加しすぎると、モデルはシグナルを学習する代わりにノイズを記憶してしまいます。すべての統計学の学生に叩き込まれるバイアス-バリアンス・トレードオフは、ある最適点を超えると追加的な複雑さがアウトオブサンプル性能を損なうと述べています。何十年もの間、この原則は実務家がリターン予測モデルを構築する方法を導いてきました — 変数リストを削減し、大きな係数にペナルティを課し、予測力よりも簡潔性を好みました。
その後、奇妙なことが起きました。金融以外の機械学習研究において、実務家たちは、訓練観測数をはるかに超える数百万から数十億のパラメータを持つ途方もなく大きなモデルが、小さなモデルよりも優れた汎化性能を示すことを発見しました。GPTスタイルの言語モデル、深層画像分類器、タンパク質折りたたみネットワークのすべてが、古典的なトレードオフに反する結果を示しました。この現象は「良性過学習(benign overfit)」と名付けられ、統計的学習の理論的基盤を覆しました。
Bryan Kelly、Semyon Malamud、Kangying Zhouはこの洞察を資産価格決定に適用しました。2024年にJournal of Financeに掲載された彼らの論文「The Virtue of Complexity in Return Prediction」は、過パラメータ化されたモデルが株式リターンの予測において簡潔なモデルを上回ることを示す理論的フレームワークと包括的な実証的証拠の両方を提供しています(Kelly, Malamud & Zhou, 2024)。クオンツ戦略の構築と評価の方法に対する含意は深遠です。
複雑性が有効な理由:理論
この論文の理論的貢献は、クオンツ金融を長年悩ませてきたパズルを解決します:株式リターンの予測が難しい(低いR二乗)環境で、なぜモデルにパラメータを追加すると予測が悪化するのではなく改善されるのでしょうか。
答えはシグナル環境の構造にあります。株式リターンは数百の特性の影響を受けます — サイズ、バリュー、モメンタム、収益性、投資、流動性、ボラティリティ、発生主義会計項目など多数が該当します。各個別予測変数はごくわずかな情報しか持っていません。シグナルは実在しますが、多くの次元に分散しており、それぞれが小さな増分の予測力を提供しています。
この環境では、簡潔なモデルはジレンマに直面します。予測変数の小さなサブセットを選択すると(LASSOやステップワイズ回帰のように)、除外された変数の弱いシグナルを捨てることになります。すべての予測変数を等しい重みで含めると、無関連な変数のノイズが弱いシグナルを圧倒してしまいます。いずれの方法でも、モデルはパフォーマンスが劣ります。
過パラメータ化されたモデルは、著者らが「暗黙的縮小(implicit shrinkage)」と呼ぶメカニズムを通じてこのジレンマを解決します。モデルが観測数よりも多くのパラメータを持つ場合、訓練データを完全にフィットさせるパラメータベクトルは無限に存在します。勾配降下法が自然に見つける最小ノルム解は、重みをすべてのパラメータに分散させ、明示的なペナルティ項なしで事実上リッジ正則化の一形態を実行します。この暗黙的縮小は、いかなる単一の予測変数も支配的になることを防ぎ、モデルが利用可能なすべての次元にわたって弱いシグナルを集約することを可能にします。
数学的な結果は驚くべきものです:観測数に対するパラメータ数(過パラメータ化比率)が増加するにつれて、アウトオブサンプル予測誤差はまず増加し(古典的な過学習ゾーン)、その後臨界閾値を超えると再び減少します。これがディープラーニングで記録された「二重降下(double descent)」曲線です。Kelly、Malamud、Zhouは、これが現実的な条件下でのリターン予測にも適用されることを証明しています。
実証的競争比較
この論文は理論を包括的に検証しています。Gu, Kelly, and Xiu (2020)と同じデータセット — 1957年から2021年までのCRSPユニバース全体の月次リターンと、潜在的予測変数としての900以上の企業特性 — を使用して、著者らはモデルの複雑性を体系的に変化させ、アウトオブサンプル性能を測定しています。
結果は理論と正確に一致しています。観測数より少ないパラメータを持つモデル(過少パラメータ化領域)は予想されるパターンを示します:ある点まで性能が向上し、その後過学習が始まります。しかし、複雑性が補間閾値 — モデルが訓練データを完全にフィットさせるのに十分なパラメータを持つ点 — を超えると、性能は再び向上し始めます。数万のパラメータを持つ最も複雑なモデルが、最良のアウトオブサンプルR二乗値を生み出します。
経済的な規模は相当なものです。ニューラルネットワークのリターン予測に基づくロング-ショートポートフォリオは、モデルの複雑性が増加するにつれて単調に増加する月次アルファを生成します。最も複雑なモデルは年率シャープレシオが2.0を超え、伝統的な計量経済学が好む簡潔な代替手法を大幅に上回ります。
複雑なモデルが捉えるもの
この論文は単なる競争比較を超え、複雑なモデルが単純なモデルでは見逃すものを何を捉えるのかを調査しています。分析により、追加的な予測力の3つの重要な源泉が明らかになります。
第一に、予測変数間の非線形相互作用です。単純なモデルは各特性を独立に扱います — モメンタムは企業規模や市場環境に関係なくモメンタムです。複雑なモデルは、モメンタムの予測力がボラティリティ、流動性、景気循環によって劇的に変化することを発見します。これらの条件付き関係は線形モデルでは見えませんが、相当なリターン予測内容を含んでいます。
第二に、時変ファクターエクスポージャーです。企業特性と期待リターンの関係は市場レジームによって変化します。バリューは景気後退期と拡大期では異なる動きを見せます。低ボラティリティ株は金利上昇環境と下落環境で異なる振る舞いをします。十分な容量を持つ複雑なモデルは、これらのレジーム依存的な関係をデータから学習することができます。
第三に、テール挙動と極端なイベントです。複雑なモデルは市場ストレス期間の非線形ダイナミクスをより良く捉えます。この論文は、過パラメータ化されたモデルが高ボラティリティ期間のリターン予測に特に効果的であることを記録しています — これは正確な予測が最も価値のある時期です。最も複雑なモデルはサンプル中の15回のNBER公式景気後退のうち14回で成功裏にリスクを削減しており、これはいかなる簡潔なモデルも達成できなかった実績です。
二重降下曲線
この論文で視覚的に最も印象的な結果は、モデルの複雑性に対してアウトオブサンプルR二乗をプロットした二重降下曲線です。この曲線は以下を示しています:
| 複雑性の領域 | 挙動 | パフォーマンス |
|---|---|---|
| 過少パラメータ化 (p < n) | 古典的バイアス-バリアンス・トレードオフ | 中程度、ピーク後に低下 |
| 補間閾値 (p ≈ n) | モデルが訓練データを完全にフィット | 最悪のパフォーマンス(過学習のピーク) |
| 過パラメータ化 (p >> n) | 良性過学習、暗黙的縮小 | 最良のパフォーマンス、複雑性とともに向上 |
このU字型パターン(より正確には、補間ピーク後の二度目の降下)は、古典的な過学習ポイントで複雑性の追加を止めた実務家が予測力を取りこぼしていたことを説明しています。重要な洞察は、反対側の良性過学習領域に到達するためには、過学習ゾーンを通過しなければならないということです。
Gu, Kelly, and Xiu (2020)との関連
この論文は、画期的なML競争比較研究の自然な続編です。Gu, Kelly, and Xiu (2020)がニューラルネットワークがリターン予測で線形モデルを上回ることを実証的に示した一方、本論文はその理由を説明しています。先行研究が何を示したのに対し、本研究は理論的メカニズムを提供しています。
この関連は先行研究の一つの緊張も解消しています。Gu、Kelly、Xiuは3層ニューラルネットワーク(NN3)が5層ネットワーク(NN5)を上回ることを発見しましたが、これは深さに対する収穫逓減を示唆しているように見えました。Kelly、Malamud、Zhouはこの発見を再解釈しています:複雑性の関連する尺度は深さだけではなく、総パラメータ数です。複雑性を正しく測定すれば — 過パラメータ化比率として — より多くが一貫してより良い結果をもたらします。
これは進行中の「ファクター動物園(factor zoo)」議論とも関連しています。400以上の公表されたアノマリーに対して、多くの研究者が積極的な剪定を主張してきました — 予測変数セットを少数の頑健なファクターに縮小せよ、というものです。複雑性の美徳という結果はこれに反論しています:少数の強い予測変数を選択して残りを捨てるよりも、すべてを含めてモデルの暗黙的正則化に重みの整理を任せる方がより良い可能性があります。捨てられた変数の弱いシグナルには真の予測情報が含まれており、それが意味のある経済的価値に集約されます。
限界と注意事項
この論文の結論には、実務家が慎重に検討すべき重要な制約が伴います。
取引コストが最も重大な実務的懸念事項です。複雑なモデルは取引コストが最も高い小型の非流動的な株式で主にアルファを生成します。現実的なコスト調整後、最も複雑なモデルの優位性は縮小します — ただし完全に消失するわけではありません。大規模なポートフォリオを運用する機関投資家にとって、コスト控除後の利点は執行品質とポートフォリオ回転率の制約に大きく依存します。
理論的フレームワークは特定のシグナル構造を想定しています:独立したノイズを持つ多数の弱い予測変数です。もし真のシグナルが少数の強い予測変数に集中している場合(一部のオルタナティブ資産クラスではそうかもしれません)、複雑性の美徳は成立しない可能性があります。この論文は分散シグナルの仮定が十分に裏付けられている米国株式について結果を実証していますが、他の市場への一般化にはさらなる検証が必要です。
モデルの解釈可能性は依然として課題です。アウトオブサンプルテストで優れた性能を発揮する過パラメータ化されたニューラルネットワークは、投資家、リスク管理者、規制当局に説明するのが困難です。この論文は複雑なモデルがなぜ機能するのかについて理論的正当性を提供していますが、予測力と解釈可能性の間の実務的な緊張を解消するものではありません。
最後に、この結果はこれらのパターンが持続するかどうかについては何も述べていません。もし複雑なモデルのアルファが行動バイアスや制度的摩擦によって駆動されているならば、類似の戦略を追求する資本が増えるにつれて減少する可能性があります。もしそれが複雑性リスクを負担することに対する真のリスク補償を反映しているならば、持続する可能性がありますが、モデルに不利なレジームでは大幅なドローダウンが発生する可能性があります。
モデル構築への含意
実務的な示唆は微妙です。この論文は複雑性が常に優れていると主張しているのではありません — ある点を超えると複雑性は常に有害であるという古典的なバイアス-バリアンス・トレードオフが、横断面リターン予測の特定の構造においては誤りであると主張しています。
ML ベースの株式戦略を構築する実務家にとって、含意は以下の通りです:
変数選択を主要な正則化戦略として依存しないでください。弱い予測変数であっても、より多くを含めることで、モデルが十分な容量を持つ場合にアウトオブサンプル性能が向上する可能性があります。
過パラメータ化による暗黙的正則化(早期停止、最小ノルム解)を使用してください。スパース性を強制する明示的正則化(LASSO、ドロップアウト)の代わりに使用すべきです。前者は弱いシグナルを保存し、後者はそれらを捨ててしまいます。
簡潔な側だけでなく、複雑性スペクトラム全体にわたってモデル性能を評価してください。最適なモデルは、伝統的な慣行が示唆するよりもはるかに複雑である可能性があります。
常に厳格なアウトオブサンプルテストで検証してください。良性過学習は特定の条件下で成立する理論的性質であり、検証を省略してよいという免許ではありません。
この論文は、クオンツ金融がモデルの複雑性についてどのように考えるかにおいて重大な転換を示しています。何十年もの間、シンプルさはそれ自体が美徳として扱われてきました。Kelly、Malamud、Zhouは、リターン予測という特定の文脈において — シグナルが弱く、分散し、多数である環境では — 複雑性こそが美徳であることを実証しています。
この記事は教育目的のみで作成されたものであり、金融アドバイスを構成するものではありません。過去のパフォーマンスは将来の結果を保証するものではありません。
この分析は Kelly, Malamud & Zhou (2024), The Journal of Finance を基に QD Research Engine — Quant Decodedの自動リサーチプラットフォーム — が合成し、編集チームが正確性を確認しました。 私たちの方法論について.
References
-
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
-
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
-
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116