なぜほとんどの機械学習ヘッジファンドは失敗するのですか？

López de Prado（2018）は10の体系的な失敗モードを特定しました。最も一般的なのは、インサンプルノイズへの過学習、金融時系列の系列依存性を無視した標準的なクロスバリデーション技法の適用、現実的な取引コストの無視です。多くのMLファンドは金融予測を一般的な教師あり学習問題として扱い、金融市場に固有の低いシグナル対ノイズ比、非定常性、敵対的ダイナミクスを無視しています。

機械学習は本当に株式リターンを予測できるのですか？

重要な条件付きですが、可能です。Gu、Kelly、Xiu（2020）は、ニューラルネットワークが米国株式リターンに対して有意なアウトオブサンプル予測力を達成し、従来のモデルが見逃す非線形ファクター相互作用を捉えることを実証しました。ただし、予測R二乗はわずか0.40%です — 小さいですが機関規模では経済的に有意です。重要な発見はMLが完璧に予測することではなく、静的線形モデルでは捉えられないファクター間の条件付き関係を捉えることです。

クオンツ投資における機械学習：本物のエッジか、過学習か？

知りすぎたアルゴリズム

Data analysis and financial analytics visualization

2017年、ある著名なシステマティック・ヘッジファンドが15億ドルの資本を集めて設立されました。一流テクノロジー企業から引き抜かれた機械学習の博士号保持者を揃え、ディープニューラルネットワークが従来のクオンツモデルでは見えないリターン予測パターンを発見するという売り文句を掲げていました。しかし18ヶ月以内に、ファンドは資産の3分の1を失いました。市場の暴落によるものではなく、訓練データを記憶しただけで市場を学習できなかったモデルによる緩やかな損失の積み重ねでした。モデルが検出したパターンは幻影であり、過去のデータには存在しても実際の取引に触れた途端に消えてしまう統計的アーティファクトだったのです。

この話は特別なものではありません。業界の推定によれば、2015年以降に立ち上げられたML駆動型クオンツファンドの大半が閉鎖されるか、ベンチマークを大幅に下回っています。それにもかかわらず、資産価格決定における機械学習の学術的エビデンスはかつてないほど強固になっています。Gu, Kelly, and Xiu (2020)は、ニューラルネットワークがアウトオブサンプルR二乗値0.40%で個別株リターンを予測し、シャープレシオが1.8を超えるロングショート・ポートフォリオを構築できることを示しました。Kelly, Malamud, and Zhou (2024)は、シグナル環境に多数の弱い予測因子が含まれる場合、モデルの複雑性は汎化の敵どころか、むしろ予測を改善できることを示しました。

この二つの現実をどう整合させればよいのでしょうか。答えは、機械学習が投資に有効かどうかという点にあるのではありません。エビデンスは有効だと示しています。問題は、MLが本物のシグナルを捉えることを知ることと、ノイズへのオーバーフィッティングなしにそれを実現するシステムを構築することの間に横たわる深い溝にあります。この区別こそが、現代の定量的金融における中心的課題です。

MLのエビデンスが最も強い領域

リターン予測における機械学習の根拠は、特定の実証的発見に基づいています。株式リターンは何百もの特性間の非線形な相互作用によって駆動されており、その相互作用は市場環境とともに変化するという発見です。CAPMからFama-French 5ファクターモデルに至る従来の線形ファクターモデルは、各予測因子を独立に扱い、固定の係数を推定します。一次効果は捉えますが、追加的な予測内容を含む条件付き構造を見落としてしまいます。

Gu, Kelly, and Xiuは、1957年から2016年までのCRSPユニバース全体を対象に、900以上の企業レベルおよびマクロ経済予測因子を用いて、主要なML手法をすべてテストしました。3層ニューラルネットワークが最も高いアウトオブサンプルR二乗値を達成し、リスク調整後パフォーマンスで最良の線形代替手法のおよそ2倍となるロングショート・ポートフォリオを生成しました。この優位性の源泉はエキゾチックなアルファではなく、条件付きファクター相互作用でした。モメンタムは高ボラティリティ環境と穏やかな市場では異なる挙動を示し、バリューの予測力は景気循環とともに変動し、流動性はサイズと固定係数モデルでは表現できない形で相互作用します。

この発見は独立した研究によって裏付けられています。Israel, Kelly, and Moskowitz (2020)は、ML手法がまったく新しい予測因子を発見するのではなく、主に非線形相互作用をモデル化する能力を通じて価値を付加することを確認しました。最も重要なインプットであるモメンタム、バリュー、サイズ、収益性は、従来のファクター投資が何十年もかけて特定してきたものと同じです。機械学習の貢献は新しい変数を見つけることではなく、既存の変数が条件付きでどのように相互作用するかをモデル化することにあります。

金融MLにおけるオーバーフィッティング問題

シグナルが本物であるならば、なぜほとんどのMLファンドは失敗するのでしょうか。その答えは、金融予測が機械学習にとって極めて厳しい環境であり、画像分類、自然言語処理、タンパク質折り畳みで見事に機能するツールが、リターンに適用される際には質的に異なる課題に直面するということにあります。

微小なシグナル、膨大なノイズ

アウトオブサンプルR二乗値0.40%とは、個別株リターンの変動の99.6%が予測不可能なノイズであることを意味します。コンピュータビジョンでは、十分に訓練されたモデルは95%以上の精度で画像を分類します。自然言語処理では、大規模言語モデルが多くのベンチマークで人間レベルのパフォーマンスを達成しています。金融では、文献中の最良のモデルでさえリターン変動の0.5%未満しか説明できません。この極めて低いシグナル対ノイズ比は、十分な容量を持つモデルが、細心の注意を払わない限りノイズの中にパターンを見つけてしまうことを意味します。

非定常性

金融市場は非定常です。データ生成プロセスが時間とともに変化します。ボラティリティのレジームが転換し、危機時には相関が崩壊し、規制変更が市場のマイクロストラクチャーを変え、他の参加者の戦略が観察されたパターンに応じて進化します。2010年から2020年のデータで訓練されたモデルは、2025年には学習時とは根本的に異なる市場に直面します。標準的なMLの実務では、訓練データとテストデータが同じプロセスから生成されることを前提としていますが、金融ではこの前提が日常的に破られています。

敵対的ダイナミクス

自然現象とは異なり、金融市場にはあなたの予測に対して積極的に競合する参加者が存在します。収益性の高いMLシグナルが広く知られると、他のトレーダーがそれを利用し、群集行動により取引コストが上昇し、シグナルが減衰します。McLean and Pontiff (2016)は、公表された学術的アノマリーが研究の公開後にリターンプレミアムのおよそ4分の1を失い、その後のデータマイニングによってさらに減衰することを記録しました。バックテストの落とし穴はML領域にも直接当てはまります。過去のデータでパターンを検出したモデルは、実際の市場で最も速く減衰するタイプのシグナルを検出している可能性があります。

クロスバリデーションの失敗

技術的に最も深刻な問題は、MLモデル評価の要である標準的なクロスバリデーションが、系列相関の存在下で機能しなくなることでしょう。金融の時系列には自己相関があります。今日のリターンは明日についての情報を含んでいます。標準的なk分割クロスバリデーションはデータをランダムに訓練セットと検証セットに分割するため、検証観測値と時間的に隣接する訓練観測値がモデル評価に将来の情報を漏洩させてしまいます。k分割で汎化性能が良好に見えるモデルは、真のアウトオブサンプルシグナルではなく、単に時間的近接性を利用しているだけかもしれません。

López de Prado (2018)は、ほとんどのMLファンドが失敗する10の理由の一つとしてこの問題を列挙し、金融業界がテクノロジー企業からML技術を丸ごと導入しながら、金融予測問題と非金融予測問題の構造的差異を考慮していないと主張しました。解決策は、検証セットに隣接する観測値を訓練から除去するパージド・エンバーゴ付きクロスバリデーションであり、概念的にはシンプルですが、実務ではめったに実装されていません。

規律あるMLの実践とは

失敗したMLファンドと学術的エビデンスの間のギャップは、主に方法論のギャップです。持続的なML由来のアルファを提供できるプラクティショナーは、オーバーフィッティングに陥る大多数とは異なる共通の規律を持っています。

パージドウォークフォワード検証

単一のホールドアウトテストセットでモデルのパフォーマンスを評価するのではなく、規律あるプラクティショナーはローリングウォークフォワード検証を使用します。モデルは時点tまでのデータで訓練され、t+1からt+kまでのデータでテストされ、その後ウィンドウが前進します。重要なのは、自己相関のある観測値からの情報漏洩を防ぐために、訓練期間とテスト期間の間にバッファー期間（エンバーゴ）が挿入されることです。Arnott, Harvey, and Markowitz (2019)は、ML時代向けに特別に設計されたバックテストプロトコルとしてこれを形式化し、標準的な訓練・テスト分割がパフォーマンスを系統的に過大評価することを示しました。

正則化としての経済学的事前知識

金融における最も成功したML実装は、問題をブラックボックスとして扱いません。帰納的バイアスとして経済的構造を組み込みます。具体的には、生のリターンではなくファクターモデルの残差をターゲットとして使用し、既知のリスク構造を尊重するようにネットワークアーキテクチャを制約し、実現不可能なターンオーバーを必要とする予測にペナルティを課します。このアプローチは、MLを金融理論の代替としてではなく、理論が見落とす非線形残差を捕捉するためのツールとして扱います。

Israel, Kelly, and Moskowitzは、金融におけるMLモデルは「経済理論に導かれるべきであり、理論に取って代わるべきではない」と強調しました。彼らの実験では、ファクター構造によって制約されたML手法が、制約のないモデルをアウトオブサンプルテストで上回ることが示されました。これは、柔軟性が高いほど常に優れているという素朴な仮定に直接反する発見です。

現実的なコストモデリング

MLが特定したアルファのかなりの部分は、執行コストが最も高い小型株や流動性の低い証券に存在します。学術文献では通常、コスト控除前のリターンが報告されています。現実的な取引コスト、つまり平均日次出来高に対する取引サイズに比例するマーケットインパクトを含めて適用すると、小型株MLアルファの多くは消失します。規律あるプラクティショナーはコスト控除後のパフォーマンスを評価し、ポートフォリオのターンオーバー制約を明示的に最適化して、より低いグロスアルファと引き換えに実行可能な戦略を追求します。

多重検定補正

Harvey and Liu (2021)は、一見有意に見えるMLシグナルの多くが「幸運なファクター」、すなわち広範な仕様探索のアーティファクトであることを示しました。研究者が何百ものモデル構成（ネットワークの深さ、学習率、特徴量のサブセット、訓練期間）を試し、最良の結果のみを報告する場合、見かけ上有意なシグナルを偶然見つける確率は劇的に上昇します。デフレーテッド・シャープレシオおよび関連する補正は、評価された構成の総数を調整するものであり、規律あるプラクティショナーは自身のモデルに予測力があると宣言する前にこれらの調整を適用します。

Bailey, Borwein, López de Prado, and Zhu (2017)はこの問題を厳密に定量化し、テストされた戦略バリアントの数が増えるにつれてバックテストのオーバーフィッティングの確率が急激に上昇することを示しました。何百もの構成を評価する典型的な研究パイプラインでは、最高パフォーマンスのモデルが真に正の期待リターンを持つ確率は、インサンプルのパフォーマンスが例外的に見える場合でも、50%を下回る可能性があります。

複雑性のパラドックス

最近のML研究における最も直感に反する発見の一つは、クロスセクションのリターン予測という特定の領域において、より複雑なモデルの方が汎化性能が高くなりうるということです。Kelly, Malamud, and Zhouは、過剰パラメータ化されたニューラルネットワーク、つまり訓練観測値よりもはるかに多いパラメータを持つモデルが、倹約的なモデルを上回ることを示しました。これは、暗黙的な正則化メカニズムとして機能するためです。勾配降下法が見つける最小ノルム解は推定リスクを多くのパラメータに分散させ、特定の予測因子が支配的になることを防ぎ、何百もの特性にわたる弱いが本物のシグナルをモデルが集約できるようにします。

この「二重降下」現象は、モデルをシンプルに保つべきという古典的なアドバイスが、シグナルが真に多くの弱い予測因子に分散している株式リターン予測という特定の設定では、実際にパフォーマンスを損なう可能性があることを意味します。ただし、この結果は特定の条件下でのみ成立します。モデルが適切な正則化（明示的または暗黙的）のもとで訓練され、厳格なアウトオブサンプルプロトコルで検証され、現実的なコスト前提で評価される必要があります。複雑性が美徳となるのは、オーバーフィッティングの免罪符にならないための規律が伴う場合のみです。

実践的な含意はニュアンスに富んでいます。オーバーフィッティングに対する古典的な懸念は間違っているのではなく、単に不完全なのです。金融において危険なのは、複雑性そのものではなく、規律のない複雑性、すなわち適切な検証、経済学的事前知識、コストを考慮した評価というガードレールなしに大きく柔軟なモデルを構築することです。

ML クオンツ戦略の評価方法

ML駆動型戦略への配分を検討する投資家に対して、研究は具体的な評価フレームワークを示唆しています。

第一に、検証方法論を理解してください。信頼できるML戦略は、エンバーゴ期間を設けたパージドウォークフォワード検証を使用しているはずです。パフォーマンス実績が単純な80/20の訓練・テスト分割に基づいている場合、報告された数値はほぼ確実に過大評価されています。訓練データの系列相関がどのように処理されているかを具体的に確認してください。

第二に、コスト控除後のパフォーマンスを要求してください。流動性の低い証券で頻繁に取引する戦略においてグロスのシャープレシオは意味がありません。関連する指標は、現実的なビッド・アスクスプレッド、実際のポートフォリオサイズに合わせたマーケットインパクト推定値、およびショートポジションの借入コストを差し引いた後のネットアルファです。グロスで1.8のシャープレシオがネットでは0.6になることもあります。それでもプラスですが、根本的に異なる提案です。

第三に、レジームに対する頑健性を調べてください。トレンド相場では素晴らしいパフォーマンスを示すがボラティリティの急上昇時に崩壊するモデルは、ストレス期に反転するモメンタムシグナルを捉えている可能性が高いです。本物のMLアルファは、二値的なオン・オフの挙動を示すのではなく、異なる市場環境にわたって緩やかに低下するはずです。ボラティリティレジーム、市場の方向性、流動性条件別に分解されたパフォーマンスアトリビューションを求めてください。

第四に、モデルの解釈可能性について質問してください。解釈可能性はモデルが機能するための必須要件ではありませんが、自分たちのモデルが何を捉えているかを少なくとも大まかにでも説明できないチームは、モデルがいつ、なぜ失敗するかを理解していない可能性があります。最良のMLプラクティショナーは、モデルが利用する経済メカニズムを明確に説明できます。条件付きファクター相互作用、時変リスクプレミアム、あるいはマイクロストラクチャー駆動型シグナルなどです。経済的な説明のない純粋なブラックボックスに対しては、一段と高い懐疑心を持つべきです。

今後の展望

機械学習は、投資における人間の判断の終わりでも、保証された優位性でもありません。学術的エビデンスは、ML手法がクロスセクションリターンにおいて予測シグナルを真に捉えていることを確立しています。そのシグナルは、エキゾチックな新しい変数からではなく、条件付きの非線形ファクター相互作用から生じています。しかし、この学術的発見から収益性があり持続可能な投資戦略までの距離は膨大です。非定常で系列相関があり敵対的なデータ向けに設計された検証方法、モデルがノイズにフィットするのを防ぐ経済学的事前知識、MLアルファにおける非流動性プレミアムを認識した現実的なコストモデリング、そしてあらゆるML研究パイプラインに固有の多重検定に対する誠実な会計処理が必要です。

この試練を乗り越えるファンドは、シリコンバレーのデータサイエンスショップというよりも、MLを多くのツールの一つとして取り入れた伝統的なシステマティック・クオンツファームに近い傾向があります。ニューラルネットワークを使って条件付きファクターエクスポージャーをモデル化しますが、経済理論にモデルを基礎づけています。エビデンスが支持する場合には複雑性を受け入れますが、金融以外のほとんどのMLプラクティショナーが過剰だと考えるほどの厳密さで検証します。0.40%のR二乗値は丸め誤差ではなく真の成果であることを受け入れ、過剰売買でその薄い優位性を損なうことなく価値を引き出すためのインフラを構築します。

問題は、機械学習がクオンツ投資で機能するかどうかではありません。エビデンスは機能すると述べています。問題は、0.40%のシグナルを99.6%のノイズから分離するのに十分な規律が実装に備わっているか、そして市場が進化し競争が激化する中でその規律を維持できるかどうかです。

この記事は、投資におけるML応用に関する学術研究を検証したものです。議論されたいかなる戦略への投資も推奨するものではありません。モデル化されたパフォーマンス指標は特定の学術研究の条件を反映しており、ほとんどの個人投資家にとって再現可能なものではありません。

参考文献

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
López de Prado, M. (2018). The 10 Reasons Most Machine Learning Funds Fail. The Journal of Portfolio Management, 44(6), 120-133. https://doi.org/10.3905/jpm.2018.44.6.120
Israel, R., Kelly, B., & Moskowitz, T. (2020). Can Machines 'Learn' Finance? Journal of Investment Management, 18(2), 23-36. https://ssrn.com/abstract=3624052
Harvey, C. R., & Liu, Y. (2021). Lucky Factors. Journal of Financial Economics, 141(2), 413-435. https://doi.org/10.1016/j.jfineco.2021.04.014
Arnott, R. D., Harvey, C. R., & Markowitz, H. (2019). A Backtesting Protocol in the Era of Machine Learning. The Journal of Financial Data Science, 1(1), 64-74. https://doi.org/10.3905/jfds.2019.1.1.064
McLean, R. D., & Pontiff, J. (2016). Does Academic Research Destroy Stock Return Predictability? The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365
Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2017). The Probability of Backtest Overfitting. Journal of Computational Finance, 20(4), 39-69. https://doi.org/10.21314/JCF.2017.332