バックテストの落とし穴：なぜ大半のバックテストは嘘をつくのか

要点まとめ

ほとんどのバックテストは、訓練されていない目には見えないバイアスのために過度に楽観的です。生存者バイアス、先読みバイアス、データスヌーピング、そして執行コストに関する非現実的な仮定が組み合わさり、紙上では素晴らしく見えるが実際の取引では失敗する戦略を生み出します。これらの落とし穴を理解し、デフレーテッド・シャープレシオやウォークフォワード分析などの厳密な手法を適用することで、真のアルファと統計的幻想を区別できるようになります。

バックテストのパラドックス

バックテスティングは、クオンツ戦略開発の要です。すべてのシステマティック・トレーダーは、アイデアを過去のデータに対してテストすることから始めます。論理は単純です：過去に機能した戦略は、市場構造が根本的に変化していなければ、将来も機能する合理的な可能性があるはずです。

問題は、バックテスティングを正しく行うことが極めて難しいということです。Harvey、Liu、Zhuの2016年のReview of Financial Studies論文は、公表されたファクター発見の全体像を調査し、その大半が偽陽性である可能性が高いと結論づけました。著者らは、学術文献全体でテストされたファクターの膨大な数を考慮すると、従来の統計的基準（t統計量2.0以上）は甘すぎると主張しました。彼らはt統計量3.0以上への引き上げを提案しましたが、この基準は公表された異常現象の大半を排除するものです。

これは冷静な発見です。一流ジャーナルに発表するプロの学者がほとんど虚偽の結果を生み出しているなら、統制の少ない個人や機関のバックテストはほぼ確実にさらに悪いでしょう。

生存者バイアス

生存者バイアスは、おそらく最も広く知られたバックテスティングの誤りですが、依然として戦略開発を悩ませ続けています。これは、バックテストがサンプル期間の終了まで存続した証券のみを含むデータセットを使用し、上場廃止になった、破産した、あるいは買収された証券を除外する場合に発生します。

その影響は体系的で方向性があります：生存者バイアスは常にバックテストを現実よりも良く見せます。Elton、Gruber、Blake（1996）は、生存者バイアスが投資信託のリターンを年間約0.9パーセントポイント膨張させると推定しました。株式バックテスティングでは、その効果は年間1〜2パーセントポイントに達する可能性があります。戦略がしばしば上場廃止の可能性が不均衡に高い小型株やディストレスト銘柄にポジションを保有するためです。

原則として解決策は単純です：適切なリターン調整を含む上場廃止証券を含む、生存者バイアスのないデータベースを使用することです。CRSP、上場廃止リターン付きのCompustat、FactSetやBloombergなどのベンダーからのポイント・イン・タイム・データベースがこのカバレッジを提供します。困難な点はコストです――クリーンなポイント・イン・タイム・データは高価であるため、多くの個人研究者が依然としてバイアスのあるデータセットを使用しています。

先読みバイアス

先読みバイアスは、バックテストが取引決定の時点では利用できなかったはずの情報を不注意に使用する場合に発生します。これは生存者バイアスよりも微妙で、検出が難しいことが多いです。

一般的な原因には、財務諸表データを実際の公表日より前に使用することが含まれます。企業の第4四半期決算は2月に報告されるかもしれませんが、多くのデータベースはそのデータを12月に割り当てます。12月付けのデータを1月の取引に使用するバックテストは不正です――その情報はまだ存在していなかったのです。

もう一つの頻繁な原因はインデックス構成です。現在のS&P 500構成銘柄で戦略をバックテストすると、どの銘柄がインデックスに採用されるほど成功したかを暗黙的に知っていることになります。正しいアプローチは、ポイント・イン・タイムのインデックス構成を使用し、各過去の日付に実際にインデックスに含まれていた銘柄のみを取引することです。

株価データでさえ先読みバイアスを導入する可能性があります。将来の株式分割や配当を反映した調整終値を使用すると、シグナルが微妙に歪められることがあります。解決策は、すべてのシグナルを未調整データで計算し、リターン計算にのみ調整を適用することです。

データマイニングと多重検定問題

データマイニング・バイアス――データスヌーピングやp値ハッキングとも呼ばれる――は、完全に避けることが最も難しいため、おそらく最も危険な落とし穴です。戦略のバリエーションをテストするたびに、統計的自由度を一つ消費します。十分な数のバリエーションをテストすると、純粋にランダムなデータであっても印象的に見えるものが必然的に見つかります。

White（2000）の思考実験を考えてみてください：同じデータセットで100個の独立した戦略バリエーションを、それぞれ5パーセントの偽陽性率でテストすると、純粋な偶然によって統計的に有意に見える戦略が約5つ見つかることが予想されます。1,000バリエーションをテストすると約50個見つかります。研究者はその中から最良のものを発表し、アルファを発見したと心から信じます。

金融におけるこの問題の規模は驚くべきものです。McLeanとPontiff（2016）は97件の公表された株式市場の異常現象を研究し、公表後にリターンが平均26パーセント低下し、元の発見を複製または拡張しようとする学者による公表後のデータマイニングを調整すると58パーセントまで低下したことを発見しました。

デフレーテッド・シャープレシオ

BaileyとLopez de Prado（2014）は厳密な解決策を提案しました：デフレーテッド・シャープレシオ（DSR）。DSRは、戦略の観測されたシャープレシオを、実施した試行回数、リターンの歪度と尖度、サンプルの長さに対して調整します。

直感は単純です。最終仕様に到達するまでに200個の戦略バリエーションをテストした場合、最良のものが正の期待リターンを持つ確率は、単体のt統計量が示唆するよりもはるかに低くなります。DSRは、すべての試行を考慮した後に、観測されたシャープレシオがゼロを超える確率を計算します。

500回の試行から選ばれたシャープレシオ1.5の戦略は、DSR調整後の確率が50パーセント未満かもしれません――つまり、真に正の期待リターンを持つ確率はコイン投げ以下ということです。これは強力な現実チェックです。

非現実的な執行の仮定

統計的バイアスのないバックテストでさえ、執行に関する非現実的な仮定によって誤解を招く可能性があります。

取引コスト。 多くのバックテストはゼロまたは最小限の取引コストを仮定します。実際には、コストには手数料、ビッド・アスク・スプレッド、マーケットインパクト、スリッページが含まれます。高頻度戦略では、これらのコストがリターンを支配します。月次リバランスのポートフォリオでさえ、現実的なコスト仮定はシャープレシオを0.2〜0.4低下させる可能性があります。

マーケットインパクト。 バックテストは暗黙的に取引が価格を動かさないと仮定しています。これは小規模ポートフォリオではおおむね正しいですが、規模が大きくなると崩壊します。100万ドルで機能する戦略が1億ドルでは収益性がないかもしれません。買い圧力だけで価格が不利に動くからです。AlmgrenとChriss（2001）がマーケットインパクトのモデリングの基礎的フレームワークを提供しました。

流動性。 バックテストは通常、過去の価格で任意のサイズの取引が可能だと仮定します。現実では、非流動的な銘柄はスプレッドが広く、板が薄い場合があります。マイクロキャップに集中した戦略は見事なバックテスト・リターンを示しても、実際には取引不可能かもしれません。

空売り制約。 多くの戦略はショートポジションを必要としますが、借入コスト、ロケート要件、空売り規制は市場や時期によって劇的に異なります。韓国やインドの株式市場は特に厳格な空売り規制を設けています。

アウト・オブ・サンプル検証

オーバーフィッティングに対する最も基本的な防御策は、アウト・オブ・サンプル（OOS）テストです。原理は単純です：データの一部を使って戦略を開発し、一度も検討していない別の部分で検証するのです。

一般的な分割は60/40または70/30で、前半の期間を開発に、後半の期間を検証に使用します。戦略はパラメータの修正なしにOOS期間で良好なパフォーマンスを示さなければなりません。

しかし、OOSテストにも限界があります。OOS結果を見た後に戦略を繰り返し修正すると、OOS期間は実質的にイン・サンプルになります。これは適応的データマイニングと呼ばれ、演習全体を無効にします。厳格な規律が必要です：OOSデータを見る前に戦略を完全に定義し、OOS失敗を戦略が機能しないという真のシグナルとして受け入れてください。

ウォークフォワード分析

ウォークフォワード分析は、単一のOOSテストの限界に対処する、より洗練されたアプローチです。プロセスは以下の通りです：

初期のイン・サンプル期間を定義する（例：5年間のデータ）。
この期間で戦略を最適化する。
最適化された戦略を次のアウト・オブ・サンプル期間（例：1年間）でテストする。
ウィンドウを前にスライドさせて繰り返す。

結果は、それぞれ過去のデータのみで推定されたパラメータから生成された、一連の真のアウト・オブ・サンプル・リターンです。これらのOOS期間を連結すると、現実的なパフォーマンス推定値が得られます。

ウォークフォワード分析は、戦略の最適パラメータが時間とともにどれほど安定しているかも明らかにします。最適ルックバック期間が連続するウィンドウで3ヶ月から12ヶ月、そして1ヶ月へとジャンプするなら、戦略は真のシグナルではなくノイズに適合している可能性が高いです。

単一のOOS分割に対する重要な利点は、ウォークフォワード分析がデータセット全体を最適化と検証の両方に使用しながら、評価を一切汚染しないことです。これは過去のデータが提供できるライブ取引の最も近い近似です。

正直なバックテストの構築：チェックリスト

信頼性の高いバックテストを構築するには、体系的な規律が必要です。以下のチェックリストは、数十年にわたる学術および実務研究から得られた教訓を凝縮したものです。

データの完全性。 適切な上場廃止調整を含む、生存者バイアスのないデータベースを使用してください。すべてのファンダメンタルデータが実際の公表日を反映するポイント・イン・タイムであることを確認してください。インデックス構成が現在ではなく過去のものであることを確認してください。

シグナル構築。 取引決定時点で利用可能な情報のみを使用してすべてのシグナルを計算してください。シグナル生成と取引執行の間に現実的なラグを適用してください――最低1日、ファンダメンタルデータを使用する戦略にはより長く。

執行モデリング。 過去のビッド・アスク・スプレッドに基づく現実的な取引コストを含めてください。平均日次出来高に対する取引サイズの関数としてマーケットインパクトをモデル化してください。ショートポジションに借入コストを適用してください。非流動的な証券に対しては部分約定を仮定してください。

統計的厳密さ。 テストした戦略バリエーションの数を報告してください。デフレーテッド・シャープレシオを計算するか、ボンフェローニ補正を適用してください。単一戦略にはt統計量3.0以上、大規模検索にはさらに高い値を要求してください。単一のイン・サンプル/アウト・オブ・サンプル分割に頼らず、ウォークフォワード分析を実施してください。

頑健性チェック。 複数のサブ期間、地域、関連資産クラスにわたってテストしてください。パフォーマンスが少数の外れ値取引に依存していないことを確認してください。リターンが既知のリスクプレミアで説明されないことを確認するためにファクターエクスポージャーを検証してください。

謙虚さ。 よく構築されたバックテストでさえライブパフォーマンスを過大評価することを受け入れてください。実世界での実装の基準期待値として、バックテスト・リターンに30〜50パーセントのヘアカットを適用してください。この調整後も戦略がまだ魅力的であれば、追求する価値があるかもしれません。

限界

どのバックテスティング手法もライブ取引条件を完全に再現することはできません。レジームチェンジ、構造的ブレイク、クラウディング効果は、過去のデータからは本質的に予測不可能です。ウォークフォワード分析はオーバーフィッティングのリスクを軽減しますが、排除はしません。デフレーテッド・シャープレシオは試行回数の正直な報告に依存しますが、これは強制が困難な規律を必要とします。正直なバックテストでさえ、基礎となる市場のダイナミクスが変化すれば失敗する可能性があります。バックテストとライブパフォーマンスの乖離は、クオンツファイナンスにおける中心的な課題の一つであり続けています。

参考文献

Harvey, C. R., Liu, Y., & Zhu, H. (2016). "...and the Cross-Section of Expected Returns." The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
McLean, R. D., & Pontiff, J. (2016). "Does Academic Research Destroy Stock Return Predictability?" The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365