資産価格決定における再現性の危機：独立検証に耐えるアノマリーはどれですか？

重要なポイント

学術的な金融研究は、株式リターンを予測するとされる400以上の変数をカタログ化してきました。Harvey, Liu, and Zhuはこれを「factor zoo」と呼びました。しかし、独立した研究者がこれらの知見を再現しようとすると、結果は大きく分かれます。ほとんどのanomalyが失敗するとする研究もあれば、ほとんどが問題なく再現されるとする研究もあります。本稿では、12の主要な再現研究を体系的に比較し、両陣営がどちらも正しいことを明らかにします。両者は単に異なる問いに答えているのです。統計的再現（t統計量を再現できるか？）は約50〜70%の確率で成功します。経済的再現（実際にこれで利益を上げることができるか？）は15〜30%の確率でしか成功しません。この2つの数字の間のギャップは危機ではなく、現代の実証ファイナンスにおける最も重要な発見そのものです。

本稿はQD Research Originalです。単一の論文を要約したものではありません。12の独立した再現研究からエビデンスを収集し、一見矛盾する知見を統合する三次元フレームワークを構築し、factor zooの新しい三層分類を導出しました。方法論、仮定、信頼度は全体を通じて開示されています。すべての主張は、査読済みの公刊された研究まで遡ることができます。

Part I: 誰も合意していない問い

400以上のfactorに至るまで

Factor zooの物語は、たった一つのエレガントな方程式から始まります。1964年、William SharpeはCapital Asset Pricing Model（CAPM）を発表し、株式の期待リターンはただ一つのもので決まると提唱しました。それは、betaで測定される市場全体への感応度です。一つのfactor、一つの方程式。明快で、検証可能で、Nobel賞を受賞した理論です。

ほぼ即座にほころびが現れました。Fischer Black, Michael Jensen, and Myron Scholesは1972年に、betaとリターンの実証的な関係がCAPMの予測よりもはるかに平坦であることを示しました。高betaの株式は本来よりも低いリターンを得ており、低betaの株式はより高いリターンを得ていました。これは些末な統計上の問題ではなく、資産価格理論の支配的パラダイムに対する根本的な挑戦でした。

学界の反応は、factorモデルの枠組みを放棄することではなく、拡張することでした。1992年と1993年に、Eugene Fama and Kenneth Frenchは画期的な論文を発表し、2つの追加factorを導入しました。size（小型株が大型株を上回る）とvalue（高いbook-to-marketの株式が低いbook-to-marketの株式を上回る）です。Fama-French three-factor modelは新たな標準となりました。以前は1つのfactorでリターンを説明していた研究者たちが、今や3つを使うようになりました。

Mark Carhartは1997年にmomentumを追加しました。過去1年間に上昇した株式は上昇し続け、下落した株式は下落し続けるというものです。このfour-factor modelは、10年以上にわたって実証的な資産価格研究の主力モデルとなりました。

その後、堰を切ったように新しいfactorが提唱されました。Fama and French自身が2015年に5 factorに拡張し、profitabilityとinvestmentを追加しました。Robert Novy-Marxはgross profitabilityが予測力を持つことを特定しました。Frazzini and Pedersenは低beta anomalyを定式化しました。Robert Stambaugh and Yu Yuanはanomalyのshort legを文書化しました。Kewei Hou, Chen Xue, and Lu Zhangは競合するq-factor modelを提案しました。新しい論文のそれぞれが、統計的有意性の慣行的な閾値であるt統計量2.0以上で、リターンを予測する特性を通常特定していました。

Harvey, Liu, and Zhuが2016年にセンサスを実施した時点で、公表されたfactorの数は316に達していました。一部の推計では、その後400を超えています。一世代の研究を駆動してきた問い、すなわち株式の期待リターンを何が決定するのかという問いは、答えが多すぎるという恥ずかしいほどの豊かさを生み出していました。あまりにも多すぎる答えです。

多重検定問題

なぜこれほど多くのfactorが問題なのかを理解するために、単純な統計的思考実験を考えてみましょう。株式リターンが完全にランダムで、どのfactorも何も予測しないと仮定します。研究者が1つの変数をリターンに対して検定し、標準的なp < 0.05の閾値を使用します。偽陽性の確率は5%です。つまり、何も存在しないところに有意性を発見してしまう確率です。

ここで、研究者が100の変数を検定すると仮定します。たとえそれらのどれもが真にリターンを予測しなくても、偶然だけで約5つが有意に見えるでしょう。研究者が5つの「有意な」結果のみを発表し、95の失敗を破棄した場合、公表された文献は、真の発見と区別がつかない5つの偽の発見を含むことになります。それぞれのt統計量は2.0を超えています。それぞれのp値は0.05未満です。それぞれが引用され、その上に構築され、factorモデルに組み込まれるでしょう。

これが多重検定問題であり、仮説上の話ではありません。学術出版の構造がまさにこのようなインセンティブを生み出しています。研究者は多くの変数を検定しますが、有意なものだけを報告します。学術誌はnull結果よりも新しい発見を好みます。ファイルの引き出しは放棄された仮説で満たされ、公表された記録は統計的な外れ値で満たされていきます。

Harvey, Liu, and Zhuはこの議論を定式化しました。316のfactorが約50年間の月次リターンに対して検定された場合、t > 2.0の閾値での偽の発見の確率は極めて高くなります。彼らは、多重検定の文献からの手法、すなわちBonferroni補正、Benjamini-Hochberg手続き、そして彼ら独自のBayesianアプローチを用いて有意性閾値を調整することを提案しました。彼らの推奨する調整の下では、新しいfactor発見の最低t統計量は約3.0であるべきです。この基準では、公表されたanomalyの大多数が不合格となります。

彼らの論文は衝撃を与えました。額面通りに受け取れば、数十年にわたる実証的資産価格研究がほとんどノイズを生み出してきたことを意味していました。

反論

しかし、全員が同意したわけではありませんでした。反論は複数の方向から同時に行われました。

David McLean and Jeffrey Pontiffはまったく異なるアプローチを取りました。統計的閾値を調整するのではなく、自然実験として時間を活用しました。公表されたすべてのanomalyには発見日があります。論文が書かれる前にanomalyが獲得したリターンは、data miningされた可能性があるin-sampleリターンです。公表後に獲得したリターンは、data miningされた可能性がないout-of-sampleリターンです。もしanomalyが純粋に統計的artefactであるならば、公表後のリターンはゼロであるはずです。

McLean and Pontiffは97のanomalyを調査し、公表後のリターンが平均で58%減少したことを発見しました。これは実質的な減衰でしたが、ゼロではありませんでした。anomalyは元のin-sample規模の約42%を保持していました。この発見は曖昧でした。部分的なdata miningと部分的なarbitrageの両方と整合的でした。

Kewei Hou, Chen Xue, and Lu Zhangはさらに踏み込みました。2020年のReview of Financial Studies掲載論文で、452の公表されたanomalyの再現を試みました。これはその時点までで最も包括的な再現の取り組みでした。彼らのアプローチは意図的に標準化されていました。一貫したデータソース、一貫したサンプル選択基準、一貫したfactor構成手法を452のanomalyすべてに適用しました。その結果、64%、つまりほぼ3分の2が、彼らのテストでt統計量1.96以上を達成できないことが判明しました。

この結果は、ファイナンスにおけるreplication crisisを確認するものとして広く解釈されました。公表されたanomalyのわずか36%しか最も単純な統計的検定に耐えられないのであれば、この分野について何を意味するのでしょうか。

しかしその後、Andrew Chen and Tom Zimmermannが、Federal Reserve Boardで独立して研究を行い、著しく異なる知見を提示しました。彼らは319のanomalyを再現し、約82%が元の結果を再現したことを発見しました。これは些末な不一致ではありませんでした。一方の研究は36%の再現率を発見し、もう一方は82%を発見したのです。

重要な違いは方法論でした。Chen and Zimmermannは、各元論文の方法論にできる限り正確に従いました。元の論文がNYSEのbreakpointsを使用していた場合、彼らもNYSEのbreakpointsを使用しました。金融企業を除外していた場合、彼らも金融企業を除外しました。特定のlag構造を使用していた場合、彼らもそのlag構造を再現しました。Hou, Xue, and Zhangは独自の標準化された方法論を適用しており、それは不可避的に元の論文と数十の小さな点で異なっていました。

最後に、2023年に、Theis Jensen, Bryan Kelly, and Lasse Pedersenが153のfactorについてBayesian shrinkage手法を用いた包括的な分析を発表しました。彼らのアプローチは、factorのpremiumがノイズを含んで推定されていることを認め、真のpremiumを推定誤差から区別するために統計的shrinkageを適用しました。彼らの結論は明確でした。ファイナンスにreplication crisisは存在しないということです。factorの大多数がshrinkage後も正の、経済的に意味のある期待リターンを持っていました。

パラドックス

2024年までに、学術コミュニティは同じエビデンスについて4つの主要な結論を提示していました。

ほとんどのanomalyは偽の発見である（Harvey, Liu & Zhu）
ほとんどのanomalyは大幅に減衰するが生き残る（McLean & Pontiff）
ほとんどのanomalyは再現に失敗する（Hou, Xue & Zhang）
ほとんどのanomalyは再現される（Chen & Zimmermann; Jensen, Kelly & Pedersen）

「再現」の単一の定義の下では、これらすべてが同時に真であることはできません。解決には、各研究が微妙に異なる問いを問うていたことを理解する必要があります。これが本稿で取り組む中心的な問題です。

Part II: リサーチクエスチョンと競合する仮説

問いの定式化

リサーチクエスチョン：公表されたリターンanomalyは、真の、利用可能な市場現象を表しているのか、それとも主にdata miningのartefactなのか。そして、ほぼ重複するanomalyのセットを調査しているにもかかわらず、なぜ独立した再現研究が正反対の結論に達するのか。

これを、明確に定められた反証基準を持つ3つの競合仮説に分解します。

H1 — Data Mining仮説

主張：公表されたanomalyの大多数は、広範なspecification search、data dredging、publication biasによって生成された偽の発見です。Factor zooは統計的artefactであり、市場の現実を記述するものではありません。

メカニズム：研究者は何百もの潜在的な予測変数を探索し、それらを様々な方法で構成し（異なるlag、breakpoint、weighting scheme）、異なるサンプル期間やサブセットを使用してリターンに対して検定し、有意な結果を生み出したspecificationのみを公表します。学術誌は、新しく有意な発見を好むことで、この選択を増幅します。結果として、ほとんどnullの結果の分布から最も極端なドローで支配された公表文献が生まれます。

反証基準：H1は以下を予測します：

anomalyは公表後にある正の残差ではなくゼロに減衰するはずです
方法論の忠実度に関係なく、再現率は一様に低いはずです
生き残るanomalyと失敗するanomalyを区別する体系的なパターンは存在しないはずです
国際的な再現は、国内の再検証と同じ割合で失敗するはずです
anomalyは観察可能な経済メカニズムと相関しないはずです

これらの予測のいずれかが失敗すれば、純粋な形のH1は反証されます。より弱いバージョン、すなわち一部のanomalyが偽の発見であるというものは、ほぼ確実に正しく、特に興味深くありません。

H2 — Arbitrage仮説

主張：公表されたanomalyのほとんどは、真の市場現象、すなわち真のmispricingまたはrisk premiumを捉えていますが、公表がその情報を市場参加者に伝播させ、premiumを部分的にまたは完全に消滅させるarbitrage capitalを引き付けます。公表後の減衰は、市場がより効率的になることを表しており、統計的フィクションの修正ではありません。

メカニズム：公表前は、あまりにも少数の投資家しかそれを知らないか、構造的な障壁が利用を妨げているため、mispricingが存在します。公表は認知を生み出します。ヘッジファンド、定量的な資産運用会社、そして最終的にはETFプロバイダーがそのanomalyを取引し始めます。彼らの取引活動がmispricingを修正し、観察されるpremiumを減少させます。修正の程度は、実装の容易さ（取引コスト、capacity）、普及の速度、そしてもともとanomalyを生み出した構造的障壁に依存します。

反証基準：H2は以下を予測します：

公表後の減衰は完全ではなく部分的であるはずです（limits to arbitrageが完全な修正を妨げます）
減衰はarbitrage活動の指標（機関投資家の取引、short interest、ETFフロー）と相関するはずです
取引が困難なanomaly（小型株、非流動的、高回転率）は、取引が容易なanomalyよりも減衰が小さいはずです
標準化された方法論の下でも、元のサンプル期間ではanomalyは再現されるはずです（arbitrageがそれらを侵食する前に実在していたからです）
リスク補償に基づくanomalyはまったく減衰しないはずです（リスクは恒久的であり、mispricingは一時的です）

元のサンプル期間においてさえ、つまりarbitrageが発生しうる前でさえ、anomalyが再現に失敗する場合、H2はその失敗を説明できません。

H3 — 定義の仮説

主張：再現研究間の見かけ上の不一致は、主に方法論的なものです。異なる研究が「再現」を異なるように定義し、異なる統計基準を使用し、factor構成について異なる選択を行っています。「anomalyは再現されるか？」という問いは、再現が何を意味するかを指定しない限り、不適切に設定されています。単一の問いが存在しないため、単一の答えも存在しません。

メカニズム：ファイナンスにおける再現は、同じ条件下での同じ実験が同じ結果を生み出すべき化学における再現とは異なります。ファイナンスでは、あらゆる方法論的選択、すなわちどの株式を含めるか、breakpointsをどう定義するか、いつリバランスするか、ポートフォリオをどう加重するか、どの有意性閾値を使うか、取引コストを考慮するかどうか、が結果に影響します。2人の研究者が同じanomalyを調査し、それぞれ異なるが個別には弁護可能な選択を行い、正反対の結論に達することがあり得ます。どちらも間違っているわけではなく、異なる問いに答えているのです。

反証基準：H3は以下を予測します：

再現率はanomaly特性ではなく、方法論的選択と体系的に変動するはずです
同じanomalyが、ある研究では「再現された」、別の研究では「失敗した」と分類されることがあるはずです
方法論の忠実度が高い研究（元の論文に忠実に従う）は、より高い再現率を示すはずです
より厳格な閾値を適用するか経済的フィルターを追加する研究は、どのanomalyを検定するかに関係なく、より低い再現率を示すはずです
研究間の再現率の分散は、含まれるanomalyよりも方法論によってより多く説明されるはずです

もし再現率が主にanomaly自体の特性によって、そしてreplicatorの方法論的選択によってではなく決定されるのであれば、H3は反証されます。

Part III: エビデンスベース — 12の研究の詳細

再現研究が一致しない理由を理解するには、各研究の方法論を詳細に調査する必要があります。再現率の表面的な比較は、各研究が実際に何を測定したかを理解しなければ、誤解を招きます。

Study 1: Schwert (2003) — 最初の警告

G. William SchwertのHandbook of the Economics of Financeにおける章は、anomalyが文書化された後に何が起こるかについての最初の体系的調査でした。彼は、最も著名な5つのanomaly、すなわちsize effect、value effect、weekend effect、turn-of-the-year effect、dividend yield effectに焦点を当てました。

Schwertは、これらのanomalyのほとんどが元の文書化後の数年間で大幅に弱まっていることを発見しました。1981年にBanzが文書化したsize effectは、1982年以降のデータではほとんど存在しませんでした。January effectは依然として存在していましたが、当初報告されたものよりも小さくなっていました。value effectはより堅牢であることが証明されましたが、相当な時間的変動を示しました。

Schwertの貢献は主に概念的なものでした。彼は、anomalyが2つの異なる理由で弱まる可能性を提起しました。data miningのartefactであり、その真の（null）値に回帰したか、または公表されると情報を持った資本を引き付ける真の現象であったかです。彼はこれらの説明の間で判断を下しませんでしたが、後続の研究者が使用するフレームワークを確立しました。

重要な方法論的選択：Schwertは発見後のリターンを調査しましたが、統計的再現と経済的再現を区別しませんでした。わずか5つのanomalyへの焦点は、一般化可能性を制限しました。

Study 2: Harvey, Liu & Zhu (2016) — 多重検定調整

Harvey, Liu, and Zhuの論文は、anomaly文献に対する最も統計的に厳密な挑戦でした。彼らは1967年から2014年の間に公表された316のfactorをカタログ化し、検定された仮説の数を考慮すると、慣行的なt > 2.0の閾値は不適切であると主張しました。

彼らの議論はBonferroniの不等式とそのバリアントに基づいていました。316の独立した検定が5%水準で実施された場合、偽の棄却の期待数は約16です。この多重検定を調整すると、新たに提案されるfactorは有意と見なされるためにt統計量約3.0が必要であると彼らは主張しました。

この論文には、316のfactorの詳細な分類法が含まれており、それらが捉えるとされる経済メカニズムによって分類されていました。このカタログ自体が重要なリソースとなり、factor zooの驚くべき広さ、そして潜在的な冗長性を明らかにしました。

重要な方法論的選択：Harvey et al.は316のfactorすべてを独立した検定として扱いましたが、多くのfactorが相関している場合（そしてそれは確実にそうです）、これは多重検定問題を過大評価します。彼らは実際に316のfactorを再現したわけではなく、検定の数を考えるとほとんどが偽であるはずだと統計的に主張しました。彼らの閾値調整は新しい発見に適用されますが、すでに他の手段で検証された既存のfactorの評価に誤って適用されることがよくあります。

重要なニュアンス：t > 3.0の閾値は、すでに何百ものfactorが検定された世界で新たに提案されたfactorを評価するのに適切です。しかし、複数の独立したデータセット、時間期間、市場にわたって独立して確認されたfactorを評価するのに必ずしも適切ではありません。40以上の市場にわたる数十の独立した研究で再現されたmomentumのようなfactorは、完全な多重検定ペナルティの対象となる新発見であるかのように評価されるべきではありません。

Study 3: McLean & Pontiff (2016) — 自然実験

McLean and Pontiffは、学術出版の時間的構造を活用して自然実験を構築しました。97のanomalyのそれぞれについて、3つの時間期間を特定しました。

In-sample期間：元の論文で使用されたデータ期間
Post-sample、pre-publication期間：サンプル終了後だが論文公表前（通常2〜5年）
Post-publication期間：論文が学術誌に掲載された後

この分解は強力です。なぜなら、統計的artefactと経済現象を分離するからです。post-sampleだがpre-publicationの期間では、anomalyはout-of-sample（in-sampleのoverfittingを排除）でありながら、まだ公表されていません（arbitrageを排除）。この期間にanomalyのリターンがゼロであれば、元の発見はdata miningであった可能性が高いです。正だがin-sampleより小さければ、真の予測可能性とある程度のoverfittingの両方のエビデンスとなります。正であり、さらにpost-publication後にさらに低下すれば、追加の減衰の主要な説明はarbitrageです。

McLean and Pontiffは以下を発見しました：

In-sample平均リターン：報告された効果の約100%
Post-sample、pre-publicationリターン：in-sample効果の約73%
Post-publicationリターン：in-sample効果の約42%

in-sampleからpost-sampleだがpre-publicationへの27%の低下は、ある程度のin-sample overfittingを示唆しますが、真のout-of-sampleデータでの73%の生存は、anomalyが純粋にartefactではないという強力なエビデンスです。post-publication後のさらなる31%の低下（73%から42%へ）は、arbitrage capitalがpremiumを侵食することと整合的です。

重要な方法論的選択：McLean and Pontiffは97のanomalyにわたって集計しており、強いanomalyと弱いanomalyが混合されています。平均値は相当な異質性を隠しています。一部のanomalyはゼロに減衰した可能性があり（H1と整合的）、他はpremiumの大部分を保持した可能性があり（H2と整合的）、平均値はその混合を反映しています。

Study 4: Green, Hand & Zhang (2017) — ホールドアウト検定

Jeremiah Green, John Hand, and Frank Zhangは、94の株式特性を厳密なホールドアウト方法論を用いて検定しました。CRSP/Compustatデータを使用して各特性を構成し、その後、変数構成プロセスで使用されなかったホールドアウトサンプルでリターンを予測するかどうかを検定しました。

94の特性のうち約50%がホールドアウトサンプルで有意であったことを発見しました。これは中程度の再現率であり、Hou, Xue, and Zhangが後に発見したものよりは高く、Chen and Zimmermannよりは低いものです。この不一致は、方法論の忠実度における中間的な位置を反映しています。一貫したデータを使用しましたが、構成方法論にはある程度の変動を許容しました。

重要な洞察：Green et al.はまた、どの特性が独立した情報を提供するか、すなわち他の特性によって包含されない予測力を調査しました。独立して有意な特性の数は94よりもはるかに少なく、factor zooにおける実質的な冗長性を示唆していました。多くのfactorは異なるように見えますが、実際には同じ基礎的な現象を測定しています。

Study 5: Linnainmaa & Roberts (2018) — 1963年以前の検定

Juhani Linnainmaa and Michael Robertsは、元の研究者が使用できなかったデータを活用するという最も創造的な再現演習の一つを実施しました。実証的資産価格文献におけるanomalyのほとんどは、1963年以降のCRSPデータ（Compustatのカバレッジが包括的になる時期）を使用して発見されました。Linnainmaa and Robertsはデータを1926年まで遡り、これらの1963年以降のanomalyが1926〜1963年の期間にも存在したかどうかを調査しました。

この論理は説得力があります。factorが持続的な市場現象を真に捉えているのであれば、以前のデータにも存在するはずです。発見された特定のサンプル期間にのみ存在するのであれば、data miningがより有力な説明です。

彼らの発見はまちまちでした。一部のfactor、特にvalueとmomentumは1963年以前のデータに存在しており、その堅牢性を確認しました。その他、profitabilityやinvestmentを含むfactorは、以前の期間では欠如しているか有意ではありませんでした。Linnainmaa and Robertsは、欠如しているfactorをdata miningのartefactの可能性が高いと解釈しました。

重要な注意点：1963年以前の市場は、data miningを持ち出さなくてもfactorの欠如を説明できるような形で、1963年以降の市場と構造的に異なっていました。

機関投資家の構成：1963年以前は機関投資家の市場シェアがはるかに小さかったです。機関投資家の行動によって駆動されるfactor（BABの背後にあるleverage constraintなど）は、個人投資家が支配的な市場ではより弱くなります。
セクター構成：1963年以前の市場は鉄道、公益事業、重工業が支配的でした。1963年以降の市場にはテクノロジー、ヘルスケア、サービスが含まれます。無形資産、R&D集約度、成長オプションに関連するfactorは、以前の期間では当然弱くなります。
会計基準：1963年以前は財務報告の標準化が進んでいませんでした。会計比率に基づくfactor（profitability、accruals、investment）は、基礎データの信頼性が低い場合、本質的にノイズが多くなります。
情報環境：情報の普及はより遅く、不均一でした。投資家の注目、メディア報道、アナリストのカバレッジによって駆動されるfactorは、異なる挙動を示すでしょう。

1963年以前のデータにおけるfactorの欠如は、そのfactorに不利なエビデンスですが、決定的なエビデンスではありません。より広範な評価における一つのデータポイントです。

Study 6: Hou, Xue & Zhang (2020) — 標準化された再現

Hou, Xue, and ZhangのReview of Financial Studiesに掲載された論文は、調査されたanomalyの数において最も包括的な再現の取り組みでした（452のanomaly）。彼らのアプローチは意図的に標準化されていました。各元論文の方法論に従うのではなく、452のanomalyすべてに一貫したルールセットを適用しました。

ユニバース：NYSE、AMEX、NASDAQのすべての普通株式
Breakpoints：NYSE限定のbreakpoints（Fama-Frenchの慣例に従って）
リバランス：年次（6月）または月次（シグナルの種類に応じて）
加重：value-weightedポートフォリオ
サンプル期間：2016年まで延長

これらのルールの下で、452のanomalyのうち64%がt統計量1.96以上を達成できませんでした。再現されたのはわずか36%でした。

この発見は劇的ですが、その解釈にはこの文脈で「失敗」が何を意味するかを理解する必要があります。anomalyが「失敗」する理由は複数あり得ます。

元の発見が本当に偽であった場合。偶然によって生成された真のnull結果です
anomalyが構成の選択に敏感である場合。元の方法論の下では存在しますが、標準化されたアプローチの下では存在しません
anomalyが時間とともに減衰した場合。元のサンプルでは実在しましたが、その後弱まりました
標準化された方法論がこの特定のanomalyに不適切である場合。一部のanomalyは特定の方法論的選択を必要とします（例：小型株anomalyに対するequal weighting）

Hou, Xue, and Zhangの結果は、これらの説明を区別することができません。64%の失敗率は、64%の偽の発見、64%の方法論に敏感なanomaly、またはそれらの混合を意味し得ます。

重要な方法論的選択：NYSEのbreakpointsを用いたvalue-weightedポートフォリオの使用は中立的ではありません。多くのanomalyは小型株に集中しています。value weightingは小型株の影響を減少させ、NYSEのbreakpointsは小型株ポートフォリオがはるかに大きな母集団である極小のNASDAQ株式ではなく、主に小さなNYSE株式を含むことを保証します。これらは弁護可能な選択ですが、主に小型株の領域で作用するanomalyを体系的に不利にします。

Study 7: Jacobs & Muller (2020) — 国際的な再現

Heiko Jacobs and Sebastian Mullerは、241のanomalyを国際市場で検定しました。これは、根本的に独立したデータセットにおける真のout-of-sample検定です。米国のdata mining artefactは、異なる制度的構造、規制環境、会計基準を持つ市場では再現されないはずです。

彼らは、米国で発見されたanomalyの約50%が少なくとも1つの国際市場で再現され、意味のあるサブセットが地域を越えて広く再現されたことを発見しました。最も一貫して再現されたanomalyは、最も強い理論的基盤を持つものでした。value、momentum、profitability、low volatilityです。

Jacobs and Mullerはまた、「再現」と「存在」の間の重要な区別を行いました。一部のanomalyはすべての市場に存在し得ますが、異なる形で現れます。例えば、valueは国際的に機能しますが、それを捉える特定の会計変数は会計制度によって異なります。book-to-marketは米国のGAAP会計でよく機能しますが、異なる会計基準の市場ではearningsに基づく指標に置き換える必要があるかもしれません。

本分析における重要な洞察：約50%の国際的再現率は、factor zooの約半分が真の経済現象を捉え、約半分はそうではないという仮説と整合的です。国際的に再現されるanomalyは、明確な理論的メカニズムを持つものに偏っており、これはまさにH2（arbitrage仮説）が予測するものです。

Study 8: Chen & Zimmermann (2022) — 正確な方法論の再現

Andrew Chen and Tom Zimmermannの論文は、方法論の忠実度を何よりも優先したという意味で、最も慎重な再現の取り組みでした。彼らは、各元論文の方法論にできる限り正確に従い、オープンソースのコードリポジトリ（公開され、ファイナンスにおける再現性の新たな基準を設定しました）を使用して、319のanomalyを再現しました。

約82%の再現率という彼らの発見は、Hou, Xue, and Zhangの36%と著しい対照をなしています。この差異は、ほぼ完全に方法論の忠実度に帰することができます。Chen and Zimmermannが同じanomalyをHou, Xue, and Zhangの標準化された方法論を使用して検定したところ、再現率は劇的に低下し、不一致が方法論的選択によって駆動されており、anomalyのサンプルの違いによるものではないことが確認されました。

これは、再現の議論における最も重要な発見の一つかもしれません。「anomalyは再現されるか？」に対する答えが、再現で何を意味するかに決定的に依存することを示しています。再現が「論文に記述された正確な手続きは報告された結果を生み出すか」を意味するならば、答えはほとんどの場合、はいです。再現が「このanomalyは異なるが合理的な方法論の下で存在するか」を意味するならば、答えはより微妙です。

重要な貢献：Chen and Zimmermannのオープンソースコードリポジトリは、再現の議論を競合する論文のコンテストから、どの研究者でも調べることのできる実証的な問いへと変換しました。彼らのコードにより、誰でも319のanomalyのいずれかを、元の方法論または標準化されたアプローチを使用して再現し、方法論的選択が結果にどのように影響するかを直接観察することができます。

Study 9: Jensen, Kelly & Pedersen (2023) — Bayesian的和解

Theis Jensen, Bryan Kelly, and Lasse Pedersenは、洗練されたBayesian手法を再現の問題に持ち込みました。閾値に基づいてfactorを「有意」または「有意でない」に分類するのではなく、事前情報とshrinkageを取り入れて、各factorの期待リターンの事後分布を推定しました。

彼らのアプローチは、閾値ベースの検定とは根本的に異なります。t統計量1.8のfactorは、t > 2.0の閾値の下では「失敗」と分類されますが、Bayesian shrinkage後の事後平均は意味のある正の値である可能性があります。二値分類の罠を回避することで、Jensen, Kelly, and Pedersenは、任意の基準を超えるfactorの数だけでなく、factor premiumの分布を推定することができました。

彼らの結論は、期待リターンのクロスセクションは豊かで多次元的であるというものでした。ほとんどのfactorは正の期待リターンを持っていますが、in-sampleの推定値が示唆するよりも小さいです。shrinkage、つまり生の推定値と事後平均の間のギャップは、通常30〜50%であり、これはMcLean and Pontiffの公表後の減衰の発見と整合的です。Bayesianフレームワークでは、このshrinkageはdata miningではなく推定ノイズを反映しています。真のpremiumは、ノイズの多い推定値が示唆するよりも常に小さかったのです。

重要な洞察：Jensen, Kelly, and Pedersenのフレームワークは、「replication crisis」が部分的に閾値ベースの検定のartefactであることを示唆しています。連続変数（factor premium）を二値分類（有意か否か）に強制すると、崖効果が生じます。閾値のすぐ上のfactorは実在すると分類され、すぐ下のfactorは偽と分類されます。実際には、強く正のpremium（value、momentum）から、わずかに正のpremium（数十のより小さなfactor）を経て、ゼロと区別がつかないpremium（真のノイズ）に至る連続体が存在します。二値のフレームワークはこの連続体を二値にマッピングし、危機の幻想を生み出します。

Study 10: Novy-Marx & Velikov (2016) — 取引コストフィルター

Robert Novy-Marx and Mihail Velikovは、ほとんどの再現研究が無視した問いを問いました。これらのanomalyを実際に利益を上げて取引できるのかという問いです。統計的有意性は経済的有意性のために必要ですが十分ではありません。t統計量3.0、月次グロスリターン50 basis pointsのfactorは、bid-askスプレッドが200 basis pointsの非流動的なmicro-cap株式の間で月次リバランスを必要とすることに気づくまでは、印象的に聞こえます。

Novy-Marx and Velikovは、effective spread、market impact、short-selling costに基づく現実的な取引コストを適用した後、23の著名なanomalyを検定しました。グロスリターンでは非常に有意に見えた多くのanomalyが、コスト後には不採算またはわずかなものとなりました。

彼らの分析は重要なパターンを明らかにしました。取引コストを乗り越える可能性が最も高いanomalyは、turnoverが低い（リバランスの頻度が少ない）ものと、流動的な大型株に集中しているものでした。年次リバランスでサイズスペクトラム全体で作用するvalueとprofitability戦略はよく生き残りました。月次またはそれ以上の頻度のリバランスを必要とするmomentum戦略はより大きな影響を受けましたが、コスト意識のある執行で実施すればまだわずかに利益がありました。

Short-legのコストは特に重要でした。多くのanomalyはリターンのかなりの部分をshort side（割高な株式の売却）から得ていますが、空売りは高コストです。借入手数料、recall risk、ショートポジションの非対称的なペイオフのすべてがリターンを侵食します。空売りコストが含まれると、多くのlong-short anomalyはlong-onlyのプロポジションとなり、理論的なリターンを約半分に減少させました。

本分析における重要な発見：統計的に有意であり、かつコスト後に経済的に利益が出るanomalyの数は、単に統計的に有意なanomalyの数よりも劇的に少ないです。Novy-Marx and Velikovの分析は、この経済的フィルターを生き残るanomalyはおそらく10〜15であることを示唆しており、これは15〜25のfactorという「robust core」の推定と整合的です（やや大きな数は、より低いturnoverの実装やlong-only形式で利益が出る追加のfactorを反映しています）。

Study 11: Chordia, Goyal & Saretto (2020) — 複合フィルター

Tarun Chordia, Amit Goyal, and Alessio Sarettoは、複数の再現フィルター、すなわち公表後の減衰、取引コスト、統計的堅牢性を、180以上のanomalyの包括的な評価に統合しました。彼らの論文が重要なのは、各次元を個別に検証するのではなく、再現の3つの次元すべてを同時に適用するからです。

すべてのフィルターを適用した後、Chordia, Goyal, and Sarettoは、anomalyの大多数がネットベースで不採算であることを発見しました。公表後の減衰と取引コストの複合効果は、ほとんどの戦略にとって壊滅的でした。公表後も統計的有意性を保持していたanomalyでさえ、現実的な取引コストが適用されると経済的に実行不可能となりました。

彼らの分析はまた、交互作用効果を明らかにしました。公表後に最も減衰したanomalyは、しばしば最も高い取引コストを持つものでした。なぜなら、両方の現象が同じ基礎的な要因、すなわち小型で非流動的な株式への集中によって駆動されているからです。小型株anomalyは、グロスリターンでは大きい傾向があり（非流動性がより大きなmispricingを生むため）、公表後により減衰し（少量のarbitrage capitalでさえ非流動的な市場で大きなprice impactを持つため）、取引コストが高くなります（wide bid-askスプレッドとmarket impactのため）。

含意：factor zooは見かけ以上に冗長です。多くの見かけ上異なるanomaly、すなわち異なる会計比率、異なるmomentum指標、異なるquality metricsは、すべて異なるレンズを通じて同じ小型株、非流動的なpremiumを拾い上げています。取引コストが適用されると、それらは少数の真に独立したリターン源泉に集約されます。

Study 12: Calluzzo, Moneta & Topaloglu (2019) — Arbitrageメカニズム

Paul Calluzzo, Fabio Moneta, and Selim Topalogluは、H2が提案するarbitrageメカニズムについて最も直接的なエビデンスを提供しました。anomalyが公表後に減衰するという単なる観察ではなく、減衰が公表イベントによって引き起こされたかどうかを検定しました。

彼らは14のよく知られたanomalyに関する機関投資家の取引活動を追跡し、以下を発見しました。

機関投資家は、公表後にanomaly関連銘柄の取引を大幅に増加させました
機関投資家の取引の増加は、公表後のanomaly減衰の程度と相関していました
最も多く取引されたanomalyが、最大の公表後の減衰を示しました
減衰は公表直後の期間に集中しており、学習/普及メカニズムと整合的でした

このエビデンスは、純粋なdata mining（H1）と整合させることが困難です。anomalyが統計的artefactであれば、公表後に機関投資家の取引が増加する理由はなく、取引増加の程度が減衰の程度を予測する理由は確実にありません。Calluzzo et al.の発見は、arbitrageチャネルを強く支持しています。anomalyは実在し、公表が情報を普及させ、機関投資家がその機会を利用し、彼らの取引がmispricingを部分的に修正するのです。

限界：14のanomalyというサンプルは小さく、14のすべてが文献の中で最も著名なanomalyです。これらはまさに機関投資家の注目を集める可能性が最も高いanomalyです。このメカニズムは、factor zooの何百ものあまり知られていないanomalyには一般化されない可能性があります。

Part IV: 分析 — 再現の三次元

フレームワークの構築

本稿の中心的な分析的貢献は、再現研究間の不一致のほぼすべてを説明する三次元フレームワークです。3つの次元は以下の通りです。

方法論の忠実度：再現は元の論文の手続きにどの程度忠実に従っているか？
統計的閾値：どの有意性基準が適用されているか？
経済的フィルター：取引コストとcapacity constraintは考慮されているか？

各再現研究はこの三次元空間の特定の位置を占めており、その再現率はその位置から予測することができます。

次元1：方法論の忠実度

忠実度の次元は、「正確な再現」（元の論文の方法論に正確に従う）から「標準化された再現」（すべてのanomalyに均一な方法論を適用する）まで及びます。

忠実度が重要な理由：factorリターンは構成の詳細に驚くほど敏感です。具体的な例としてmomentum factorを考えてみましょう。Jegadeesh and Titmanの元の1993年の論文は、momentumをt-12からt-2月目までの累積リターン（microstructure effectsを避けるため直近の月をスキップ）として定義しました。factorは、NYSE/AMEXの株式を使用し、decile breakpoints、ポートフォリオ内のequal weighting、月次リバランスで構成されました。

これらの選択のいずれか1つを変更してみましょう。

NASDAQ株式を含める：ユニバースが劇的に変化します。特に1970年代〜1980年代のNASDAQが小さく非流動的であった時期です
decileの代わりにquintile breakpointsを使用する：極端なポートフォリオがそれほど極端ではなくなります
equal weightingの代わりにvalue weightingを使用する：小型株の影響が大幅に減少します
1か月ではなく2か月スキップする：short-term reversal effectがより完全に除去され、factorの特性が変わります
12か月ではなく6か月のformation periodを使用する：factorが短期間のmomentumを捉え、異なるリスク特性を持ちます

これらの変更のそれぞれは個別に弁護可能です。どれも「間違って」はいません。しかし、NASDAQ株式、quintile breakpoints、value weighting、2か月のスキップ、6か月のformation periodを使用するmomentum factorは、t統計量1.5を生み出し、再現に失敗する可能性があります。一方、正確なJegadeesh-Titmanの仕様はt統計量4.0を生み出します。「momentum」は再現に失敗していません。momentumの異なるバージョンが再現に失敗しているのです。

この現象はfactor zoo全体に浸透しています。Chen and Zimmermannはこれを体系的に文書化しました。元の論文の方法論に合わせた場合、82%のfactorが再現されました。標準化された方法論（Hou, Xue, and Zhangと同様のもの）を適用した場合、再現率は大幅に低下しました。

哲学的な問い：どちらのアプローチが「正しい」のでしょうか。正確な再現は、元の著者の主張が再現可能かどうかを教えてくれます。彼らは言った通りのものを発見したのでしょうか。標準化された再現は、anomalyが合理的な方法論的変動に対して堅牢であるかどうかを教えてくれます。現象はより広い意味で存在するのでしょうか。

どちらも有効な問いですが、異なる答えを持ちます。再現の「危機」は、部分的にこの2つの問いを混同することから生じています。

ケーススタディ：Size effectの方法論的感度

Size effectは、方法論的選択がいかに再現結果を決定するかを鮮明に示しています。Rolf Banzは1981年に、小型株が大型株よりも平均して高いリターンを得ることを文書化しました。これはファイナンスにおいて最も有名なanomalyの一つとなりました。

Size effectは再現されるでしょうか。答えは定義の仕方に完全に依存します。

Size effectの仕様	t統計量 (1963-2023)	判定
SMB (Fama-French, value-weighted)	~1.5	t > 1.96で不合格
SMB (equal-weighted)	~3.0	合格
Decile 1 minus Decile 10 (CRSP)	~2.2	ぎりぎり
Small minus big (NYSE only)	~1.0	不合格
Small minus big (including microcaps)	~3.5	明確に合格
Small minus big (post-1980)	~0.5	不合格
Small minus big (January only)	~5.0	圧倒的に合格
Small minus big (ex-January)	~0.3	不合格
Small minus big (controlling for quality)	~2.5	合格 (Asness et al., 2018)

Size effectは、仕様に完全に依存して「再現される」または「失敗する」のです。size effectが曖昧だということではなく、「size effect」が単一の明確に定義された対象ではないということです。それは、異なる挙動をする関連仕様のファミリーです。

これはsizeに固有のものではありません。factor zooのほぼすべてのanomalyに当てはまります。「このanomalyは再現されるか？」という問いには、そのanomalyのどのバージョンを検定しているかを正確に指定するまで、答えがありません。

次元2：統計的閾値

閾値の次元は、「慣行的」（t > 1.96、p < 0.05に相当）から「多重検定調整済み」（t > 3.0以上、調整方法に応じて）まで及びます。

Harvey, Liu, and Zhuのより高い閾値に関する議論は、新しいfactor発見の文脈では統計的に有効です。317番目の研究者として新しいfactorを提案する場合、factorが真である事前確率は、最初の研究者であった場合よりも低くなります。なぜなら、316のfactorがすでに同じデータで検定されているからです。多重検定調整はこの蓄積された立証責任を説明します。

しかし、この議論は確立されたfactorに遡及的に適用されると破綻します。momentumを考えてみましょう。元のJegadeesh and Titman (1993)のサンプル、公表後の米国データ、40以上の国際市場（Asness, Moskowitz, and Pedersen, 2013）、異なる資産クラス（equity、bond、commodity、通貨）、ヴィクトリア朝時代にまで遡る歴史データ（Geczy and Samonov, 2016）で検定されています。これらのそれぞれが独立した検定です。この山のような独立したエビデンスを考えると、元の論文にどのような多重検定閾値を適用しても、momentumが偽の発見である確率は極めて小さいです。

多重検定フレームワークは、限界的な新発見の評価のために設計されています。すでに実質的な独立したエビデンスを蓄積したfactorに適用されるべきではありません。この区別がなされないことが、replication crisisの認識に寄与してきました。

Bayesianの代替案

Jensen, Kelly, and PedersenのBayesianアプローチは、閾値問題を完全に回避します。factorを「有意」か「有意でない」かに分類するのではなく、各factorのpremiumの事後分布を推定します。t統計量1.5のfactorは「有意でない」のではなく、正だが小さい事後平均を持ち、広い信用区間を持ちます。t統計量5.0のfactorは、狭い区間を持つ大きな事後平均を持ちます。

この連続的な表現は、閾値ベースの検定の崖効果を回避し、factor premiumに関する知識の真の状態をより正確に表現します。factor zooは「実在する」と「偽物」の二値の分割ではなく、「ほぼ確実に実在し大きい」（momentum、value）から「おそらく実在するが小さい」（数十のfactor）を経て「おそらくゼロ」（ノイズ）に至る連続体です。

Bayesianフレームワークの下では、再現の「危機」は消失します。なぜなら、危機は最初から存在しなかったからです。連続的な現実に対して不適切に設定された二値の問いがあっただけです。

次元3：経済的再現と統計的再現

経済的な次元は、「グロスリターン、コストなし」から「現実的な実装コストとcapacity constraintを控除したネットリターン」まで及びます。この次元は再現の議論において比較的軽視されてきましたが、実務家にとっては最も重要かもしれません。

Novy-Marx and Velikovの取引コストの分類法は、本質的なフレームワークを提供します。

Effective spreads：bid-askスプレッドは最も基本的な取引コストです。大型株のeffective spreadは通常2〜5 basis pointsです。micro-cap株式では200 basis pointsを超えることがあります。micro-cap株式を月次で売買する必要があるfactorは、月次で400以上のbasis pointsのラウンドトリップコストに直面します。これは理論的なpremiumに対する巨大な負担です。

Market impact：大口注文は価格を動かします。日次取引高が500万ドルの株式を1億ドル購入する必要があるポートフォリオは、執行中に価格を大幅に押し上げるでしょう。market impactは流動的な大型株では無視できますが、小型で非流動的な銘柄では巨大になり得ます。これはcapacity constraintを生みます。ポートフォリオサイズが増加するにつれて、factorのpremiumは減少します。

Short-selling costs：学術的なfactorのlong-short構造は、無料で無制限の空売りを前提としています。実際には、空売りは高コストであり（lending feeは借りやすい株式で通常年間50〜300 basis points、借りにくい株式では10%以上）、リスクがあり（貸し手はいつでも株式をrecallできます）、時には不可能です（一部の株式は借入できません）。リターンの相当部分をshort sideから得るanomalyは、特に厳しい実装上の逆風に直面します。

Turnover：頻繁なリバランス（月次以上）を必要とするfactorは、年次リバランスのものよりも頻繁に取引コストを発生させます。通常月次リバランスのmomentum戦略は、通常年次リバランスのvalue戦略の12倍の年間turnoverに直面します。このturnoverの差は、momentumが同じネットリターンを実現するためにvalueよりも大幅に高いグロスpremiumを生み出さなければならないことを意味します。

これらのコストが適用されると、factor zooは劇的に縮小します。Novy-Marx and Velikovは、印象的なグロスリターンを持つ多くのanomaly、特に高turnoverの小型で非流動的な株式に集中したものが、コスト後に不採算またはわずかなものとなることを発見しました。

経済的再現のスコアカード

主要なanomalyファミリーが3つの次元にわたってどのように評価されるかについて、おおよそのスコアカードを構成することができます。

Factorファミリー	正確な統計的再現	標準化された統計的再現	多重検定	コスト後
Value (B/M, E/P)	✓	✓	✓	✓ (低turnover)
Momentum (12-1)	✓	✓	✓	✓ (ぎりぎり)
Profitability (GP/A)	✓	✓	✓	✓ (低turnover)
Low volatility / BAB	✓	✓	✓	✓ (低turnover)
Investment (asset growth)	✓	Mixed	Mixed	✓ (低turnover)
Quality composites	✓	✓	✓	✓
Size (SMB)	✓	Mixed	✗	Mixed
Short-term reversal	✓	✓	✓	✗ (高turnover)
Accruals	✓	Mixed	Mixed	Mixed
Net issuance	✓	Mixed	Mixed	✓
Idiosyncratic volatility	✓	Mixed	Mixed	✗
Analyst revisions	✓	✓	Mixed	✗ (高turnover)
Earnings momentum (SUE)	✓	✓	✓	Mixed
Calendar effects (January, etc.)	✓	✗	✗	✗
Liquidity (Amihud)	✓	Mixed	Mixed	✗

パターンは明らかです。4つの列すべて、すなわち正確な統計的再現、標準化された統計的再現、多重検定、コスト後のすべてに合格するfactorは、小さなグループを形成します。value、momentum、profitability、low volatility、qualityです。これらがrobust coreです。一部の列には合格するが他の列には合格しないfactorがfragile middleを形成します。ほとんどまたはすべての列で不合格となるfactorがノイズです。

詳細分析：Momentumの4つのフィルター

Momentumは、ファイナンスにおいて最も徹底的に研究されたanomalyの一つであり、本フレームワークの理想的なテストケースとなるため、特別な注意に値します。

フィルター1：正確な統計的再現。Momentumは、元のJegadeesh and Titman (1993)の方法論に従うとほぼ完全に再現されます。1か月スキップの12か月formation period、decileポートフォリオ、equal weightingは、元のサンプルでも、その後のサンプルでも、Chen and Zimmermannの再現でも、大きく非常に有意なpremiumを生み出します。スコア：✓（明確に合格）。

フィルター2：標準化された統計的再現。Momentumはほとんどの標準化されたアプローチの下で再現されますが、その大きさは変動します。value-weighted momentumはequal-weighted momentumよりも小さくなります（momentumは小型株でより強いため）。より長いformation period（例：6か月）は標準的な12か月よりも弱い結果を生み出します。異なるスキップ期間は大きさを変えます。Hou, Xue, and Zhangの標準化の下では、momentumは再現されます。スコア：✓（合格、ただし仕様への感度あり）。

フィルター3：多重検定閾値。Momentumは米国データでt > 3.0の基準を余裕を持って超え、40以上の国際市場で独立して再現されています。すべてのエビデンスを合わせると、momentumが偽の発見である確率は無視できるほど小さくなります。スコア：✓（圧倒的に合格）。

フィルター4：取引コスト後。ここがmomentumにとって最大の課題に直面するところです。標準的なmomentum factorは月次リバランスを必要とし、高いturnoverを生み出します。最も極端な形式（decile long-short、equal-weighted、月次リバランス）では、取引コストがグロスpremiumのかなりの部分を消費します。

しかし、文献ではいくつかのコスト軽減策が特定されています。

より広いポートフォリオ（decileではなくquintile）がturnoverを大幅に削減します
中間的なリバランス頻度（四半期）がpremiumの大部分をより少ないturnoverで捉えます
不必要なturnoverを削減する取引ルール（例：株式のシグナルが大幅に変化した場合にのみ取引する）が、グロスリターンへの影響を最小限に抑えながら、turnoverを50%以上削減できます
流動的な大型株での実装が小型株のコスト負担を排除します
最適な執行アルゴリズムがmarket impactを削減できます

これらの修正を適用した後、Novy-Marx and Velikov、そして別途Frazzini, Israel, and Moskowitzは、momentumが実装可能であると結論づけました。わずかに、機関投資家スケールで、慎重な執行により実装可能です。robust coreのfactorの中で実装が最も困難ですが、経済的に実行可能であり続けます。

スコア：✓（ぎりぎりの合格 — コスト意識のある構成で実装可能）。

国際的なエビデンス：Asness, Moskowitz, and Pedersen (2013)は、40以上の市場のequityにおけるmomentum、通貨、国債、commodity futuresにおけるmomentumを文書化しました。このエビデンスの広さは、data miningで説明することが本質的に不可能です。

Pre-sampleエビデンス：Geczy and Samonov (2016)は、CRSPデータベースが始まる前のヴィクトリア朝時代（1801-1926年）まで遡る米国equityにおけるmomentumを文書化しました。

結論：Momentumは4つのフィルターすべてに合格しますが、その経済的実行可能性は最も制約されています。robust coreにしっかりと属しますが、valueやprofitability戦略よりも洗練された実装を必要とします。

詳細分析：Accrualsの4つのフィルター

Accrualsは対照的なケースを提供します。明らかに「fragile middle」に位置するanomalyです。

Accruals anomalyは、Sloan (1996)によって文書化されたもので、高いaccruals（earningsがcash flowsを大幅に上回る）の企業がその後underperformし、低いaccruals（cash flowsがearningsを上回る）の企業がその後outperformするという発見です。経済的な直感は、高いaccrualsがアグレッシブな会計処理や持続不可能なearningsを示す一方、低いaccrualsは保守的な会計処理や高いearnings qualityを示すというものです。

フィルター1：正確な統計的再現。Accruals anomalyはSloanの元の方法論に従えば再現されます。スコア：✓。

フィルター2：標準化された統計的再現。このanomalyはaccrualsの定義に敏感です。balance-sheet accruals（Sloanの元の指標）はcash-flow-statement accrualsとは異なる結果を生み出します。weighting（equalとvalue）の選択が大きく影響します。anomalyはvalue-weightedポートフォリオではかなり弱くなります。Hou, Xue, and Zhangの標準化の下では、accrualsはぎりぎりです。スコア：Mixed。

フィルター3：多重検定閾値。Accrualsはほとんどの仕様でt > 2.0の基準をクリアしますが、いくつかではt > 3.0に届きません。accrualsが他の何百もの会計変数と並んで検定されたことを考えると、多重検定の懸念は正当です。スコア：Mixed。

フィルター4：取引コスト後。accruals戦略は年次リバランスを必要とし（良い特徴）ますが、小型でより流動性の低い株式に集中します（悪い特徴）。short sideは特に問題があります。高accruals企業は、まさに空売りコストが最も高い、投機的で借入困難な株式である傾向があります。コスト後、accruals anomalyはせいぜいわずかに利益がある程度です。スコア：Mixed。

国際的なエビデンス：まちまちです。一部の市場では再現されますが他では再現されず、米国固有の要素がある可能性を示唆しています。

結論：Accrualsはまさにfragile middleに位置しています。このanomalyはおそらく真の現象（市場がearningsをcash flowsに対して過大評価する傾向）を捉えていますが、あまりにも脆弱で、仕様に敏感で、取引コストが高すぎるため、スタンドアロンの投資戦略の基盤とすることはできません。より広いqualityまたはprofitabilityフレームワーク内でのセカンダリーなティルトとして限界的な価値を追加する可能性があります。

冗長性の問題

ほとんどの再現研究が十分に対処していない重要な問題がfactorの冗長性です。factor zooの400以上のfactorは、400の独立したリターン源泉ではありません。多くが、同じ基礎的現象の高度に相関した指標です。

「quality」ファミリーを考えてみましょう。研究者は様々なquality metricsを提案してきました。

Gross profitability (Novy-Marx, 2013)
Return on equity (Hou, Xue & Zhang, 2015)
Return on assets
Operating profitability (Fama & French, 2015)
Cash-based profitability (Ball et al., 2016)
Earnings stability
Debt-to-equity ratio
Piotroski F-score (Piotroski, 2000)
Altman Z-score

これらのそれぞれが独立したanomalyとして提案され、それぞれが独自の学術論文とt統計量を持っています。しかし、それらはすべて同じことのバリエーションを測定しています。強く安定した財務特性を持つ企業が、弱く不安定な特性を持つ企業を上回るということです。「400以上のfactor」のカウントはそれぞれを別個として扱い、多重検定問題と再現失敗率の両方を膨らませています。

factorがその経済メカニズム、すなわちvalue、momentum、profitability/quality、risk、size、investment、liquidityでグループ化されると、真に独立したリターン源泉の数はおそらく6〜8ファミリーに縮小します。各ファミリー内で、最良の仕様が他を上回りますが、ほとんどのファミリーメンバーは最良のものが含まれた後にはわずかにしか貢献しません。

この冗長性は再現の議論に重大な含意を持ちます。

Harvey et al.がカウントした316のfactorは316の独立した検定ではなく、おそらく30〜50の独立した検定であり、それぞれが複数のレンズで調査されています
特定のquality指標の再現「失敗」は、qualityが偽であることを意味しません。その特定の仕様が同じファミリー内の他のものより劣っているだけかもしれません
多重検定調整は個別の仕様ではなく、factorファミリーに適用されるべきです

Machine Learningと新しいFactor発見

資産価格におけるmachine learning（Gu, Kelly, and Xiu, 2020）の出現は、再現の議論に新しい次元を加えます。ML手法は、従来の線形手法では見逃される特性間の非線形的、相互作用的な関係を特定することができます。この能力は両方向に作用します。

肯定的な解釈：ML手法は、線形のfactorモデルでは捉えられない真のリターン予測可能性を特定できるかもしれません。400以上の線形factorの「factor zoo」は、より少数の非線形関係の粗い近似かもしれません。MLは、個別のfactorが近似している基礎的な構造を検出できます。

否定的な解釈：ML手法はoverfittingの能力が膨大です。十分なパラメータを持つニューラルネットワークは、ノイズを含むあらゆるin-sampleパターンに適合できます。厳密なout-of-sample検定と経済的な事前分布がなければ、MLで発見された予測可能性は、従来のfactor分析よりもdata miningに対してさらに脆弱である可能性があります。

Gu, Kelly, and Xiuは、広範なout-of-sample検定を通じてこの懸念に対処し、彼らのMLモデルが真にout-of-sampleでリターンを予測し、R²が最良の線形モデルの約3倍であることを発見しました。しかし、MLの予測をその構成特性に分解すると、支配的な予測変数はおなじみのものでした。momentum、value、liquidity、volatilityです。MLモデルは新しいfactorを発見していたのではなく、既知のfactorのより良い組み合わせ方法を発見していたのです。特に非線形的な相互作用を通じてです。

この発見は本稿の三層分類を支持します。従来の手法によって特定されたfactorのrobust coreは、ML手法によって特定されたcoreでもあります。MLの追加的な複雑さは、主にこれらのfactorの組み合わせ方を改善するのであり、どのfactorが重要かを変えるものではありません。

Part V: 結果と解釈

3つの仮説の評価

12の再現研究からエビデンスを収集し分析した結果、3つの競合する仮説を評価します。

H1（Data Mining）— 部分的に支持されますが、過度に単純です。

支持するエビデンス：

Harvey, Liu, and Zhuの多重検定の議論は統計的に有効です。400以上のfactorの多くが間違いなく偽の発見です
一部のanomalyは1963年以前のデータで完全に消滅し（Linnainmaa & Roberts）、正確な再現の下でも失敗します
公表されたfactorの膨大な数（400以上）は、寛大な有意性閾値であっても偽陽性の存在を保証します
多くのanomalyが標準化された再現の下で失敗しており、overfittingに特徴的な仕様選択への感度を示唆しています

反するエビデンス：

公表後の減衰は部分的（42%生存）であり、完全ではありません。純粋なdata miningはゼロ生存を予測します
機関投資家の取引が公表後に増加し、減衰と相関しています（Calluzzo et al.）。data miningではこれを説明できません
robust coreのfactor（value、momentum、profitability、low volatility）は、独立した市場、時間期間、資産クラス、方法論にわたって再現されます。これはdata miningと両立しないパターンです
ML手法（Gu, Kelly, and Xiu）が完全に異なる統計手法で同じcoreのfactorを特定し、独立した確認を提供しています

H1に対する結論：factor zooの約50〜60%（statistical noiseのtier）については正しいですが、robust coreについては誤りです。純粋なdata mining仮説は過度に包括的であり、すべてのanomalyを同一視し、どのanomalyが生き残りどのanomalyが生き残らないかの体系的パターンを説明できません。

H2（Arbitrage）— 部分的に支持され、強力なメカニズム的エビデンスがあります。

支持するエビデンス：

Calluzzo et al.の公表に対する機関投資家の取引反応の直接的エビデンスは説得力があります
部分的な公表後の減衰（完全ではない）は、まさにlimits-to-arbitrage理論が予測するものです
取引が容易なanomaly（大型株、流動的、低turnover）は、取引が困難なanomalyよりも多くの公表後の減衰を示します。これは、arbitrage capitalが最も容易な機会に最初に流入することと整合的です
robust coreのfactorは平均的なanomalyよりも小さい公表後の減衰を示しており、capacity constraintがarbitrageを制限することと整合的です
数十年の公表後もpremiumが持続すること（valueは少なくとも1934年のGraham and Dodd以来知られています）は、data miningではなく構造的なlimits to arbitrageと整合的です

反するエビデンス：

一部のanomalyは、標準化された方法論の下では元のサンプル期間でさえ再現に失敗します。arbitrageは同時代のデータにおける失敗を説明できません
arbitrage仮説は、なぜ一部のanomalyが仕様に敏感であるかを説明できません。真の経済現象は合理的な方法論的選択に対して堅牢であるべきです
この仮説は、すべてのanomalyが公表前に実在していたことを含意しますが、これは多くが偽の発見であるというHarvey et al.の統計的議論と矛盾します

H2に対する結論：anomalyの意味のあるサブセット、おそらくfactor zooの20〜30%（fragile middleとrobust coreの一部）について正しいです。arbitrageメカニズムは実在し重要ですが、すべてのanomalyの動態を説明するわけではありません。data miningと方法論的感度と並んで作用しています。

H3（定義の仮説）— 組織的フレームワークとして強く支持されます。

支持するエビデンス：

研究の再現率の最も強力な予測因子は、その方法論的アプローチであり、どのanomalyを調査するかではありません
Chen and ZimmermannとHou, Xue, and Zhangは、ほぼ重複するanomalyセットを調査し、方法論的な違いのために正反対の結論に達しました
同じanomalyが、weighting scheme、breakpoints、inclusion criteria、有意性閾値、コストを考慮するかどうかに応じて、再現されたまたは失敗したと分類される場合があります
Harvey et al.（ほとんどが失敗）、McLean & Pontiff（ほとんどが減衰して生存）、Chen & Zimmermann（ほとんどが再現）の間の三者間の不一致は、それぞれが異なる問いに答えていることを認識すると完全に解消されます
国際的な再現率（約50%）は、すべてか無かの危機ではなく、真のanomalyと偽のanomalyの混合と整合的です

反するエビデンス：

もし不一致が純粋に定義的であれば、すべての方法論にわたって一貫して失敗するanomalyは存在しないはずです。そのようなanomalyの存在（calendar effects、一部のmicrostructureベースのanomaly）は、data miningが実在し、単なる定義的artefactではないことを意味します
定義の仮説は反証不可能と見なされる可能性があります。「答えは定義に依存する」は自明な意味で常に真です

H3に対する結論：H3は正しい組織的フレームワークです。再現文献における見かけ上の矛盾は、大部分（完全にではないにしても）、異なる研究が異なる問いを問い、異なる手法を使用していることの産物です。「replication crisis」は主に定義の危機であり、科学の危機ではありません。

三層の統合

3つの仮説すべてにわたるエビデンスを統合すると、本稿の中心的発見に到達します。factor zooには、異なる再現特性を持つ3つの異なる母集団が含まれています。

Tier 1：Robust Core（15〜25のfactor）

これらのanomalyは4つの再現フィルターすべてに合格します。正確な統計的再現、標準化された統計的再現、多重検定、経済的（コスト後）のすべてです。以下の特徴を持ちます。

リスク、行動バイアス、または制度的制約に根ざした強い理論的基盤
複数の独立した市場と時間期間にわたる再現
控えめだが持続的な公表後の減衰（部分的なarbitrageと整合的）
機関投資家スケールでの取引に十分なcapacity
低から中程度のturnover、コスト効率の高い実装が可能

Robust coreには以下が含まれます。

Value（book-to-market、earnings yield、cash flow yield）：リスクベースと行動的な説明。Graham and Dodd (1934)以来、世界的に文書化されています
Momentum（12か月マイナス1か月のリターン）：行動的（情報への過小反応）。40以上の市場と複数の資産クラスで文書化されています
Profitability（gross profitability、operating profitability）：経済的論理（利益率の高い企業はより価値がある）。Novy-MarxとFama-Frenchによって独立して確認されています
Low volatility / Betting Against Beta（低beta、低idiosyncratic volatility）：leverage constraintメカニズム。資産クラスを横断してグローバルに文書化されています
Quality composites（profitability + stability + low leverage）：企業の財務健全性の多次元的な指標です
Investment（asset growth、capital expenditure growth）：経済的論理（アグレッシブな投資はより低いリターンを予測する）。ただし、エビデンスは上記よりもやや弱いです
Earnings momentum（standardised unexpected earnings、analyst revision）：post-earnings-announcement drift。文献の中で最も堅牢なanomalyの一つです
Net issuance（share repurchases vs. issuance）：情報の非対称性の説明。自社株買いを行う企業は、自社株が過小評価されていることを知っています

Tier 2：Fragile Middle（50〜100のfactor）

これらのanomalyは一部の条件下では再現されますが、他では再現されません。通常、フィルター1（正確な再現）には合格しますが、フィルター2〜4のいずれかに不合格となります。以下が含まれます。

robust factorの仕様に敏感なバリアント（例：代替的なmomentumの定義、代替的なquality metrics）
equal-weightedでは機能するがvalue-weightedでは機能しないanomaly（しばしばmicro-cap株式によって駆動される）
統計的に有意だが取引コスト後に経済的に実行不可能なanomaly
米国では再現されるが国際的には再現されないanomaly（米国固有の会計や制度的artefactの可能性）
公表後に大幅に減衰し、わずかな残余premiumを残すanomaly

これらのfactorは必ずしも「偽物」ではありません。多くが真だが狭い現象を捉えています。より広いポートフォリオ構築フレームワーク内のセカンダリーなティルトとして有用かもしれませんが、信頼できるスタンドアロンのリターン源泉ではありません。

Tier 3：Statistical Noise（250以上のfactor）

これらのanomalyは、いかなる合理的な基準の下でも再現に失敗します。以下が含まれます。

ほとんど消滅したcalendar effects（weekend effect、turn-of-year、holiday effects）
データエラー、bid-askバウンス、stale pricingを反映した、真の予測可能性ではないmicrostructure artefacts
狭い時間期間または特定の会計制度に固有であった会計ベースのanomaly
明らかに広範なspecification searchの産物であるfactor。しばしば特異な構成の選択（例：特定のlag構造での3変数のinteraction）によって特定できます
factor zooの他のfactorを複製しているが、特定のサンプルで偶然有意性を達成したfactor

これらのfactorはreplication crisisの認識に寄与しています。Harvey, Liu, and Zhuがt > 3.0の閾値を提案した理由であり、Hou, Xue, and Zhangが64%の失敗率を発見した理由です。しかし、factor zoo全体を代表するものではありません。大規模な実証研究プログラムに伴うノイズなのです。

信頼度の評価

本フレームワーク全体の信頼度を5段階中4と評価します。

最も高い信頼度の領域（5段階中5）：

再現研究間の不一致は主に方法論的なものであり、実質的なものではありません
すべての再現フィルターを生き残るfactorのrobust coreが存在します
純粋なdata miningでは、エビデンスの全パターン（部分的減衰、国際的再現、機関投資家の取引反応）を説明できません

中程度の信頼度の領域（5段階中3〜4）：

robust coreの正確なサイズ（15〜25と推定しますが、境界は曖昧です）
factor zooの純粋なノイズの割合（60%以上と推定しますが、これは適用される統計的閾値に依存します）
公表後の減衰を説明する上でのarbitrageとdata miningの相対的重要性

低い信頼度の領域（5段階中2〜3）：

「fragile middle」の特定のfactorがrobust coreまたはnoise tierに属するかどうか
ML手法が非線形関係を特定してrobust coreを拡大するか、単に既存factorの組み合わせを最適化するだけか
factor premiumの長期的な未来。robust coreは無期限に持続するのか、それとも増加する資本フローが最終的にこれらさえも排除するのか

Part VI: 他分野との比較

ファイナンス vs. 心理学：異なる危機

ファイナンスにおけるreplication crisisは、心理学におけるreplication crisisとしばしば比較されますが、この2つは根本的に異なります。

心理学では、Open Science Collaboration (2015)が100の公表された研究の再現を試み、わずか36%が再現で有意な結果を生み出したことを発見しました。これは、方法論の危機、すなわちunderpoweredな研究、p-hacking、publication biasが偽陽性で支配された文献を生み出したと広く解釈されました。

ファイナンスでは、Hou, Xue, and Zhangの「36%の再現率」は表面的には似ていますが、メカニズム的に異なります。ファイナンスの研究は通常、はるかに大きなサンプルサイズ（数十年にわたって月次に観察される何千もの株式）を持つため、一般的にwell-poweredです。ファイナンスにおける主な問題は、underpoweredな研究ではなく、多重検定（同じデータに対するあまりにも多くの仮説）と方法論的感度（構成の選択によって変化する結果）です。

さらに、心理学の再現の失敗はしばしば絶対的でした。再現された効果はゼロであるか、逆の符号でした。ファイナンスの「失敗」はしばしば部分的です。効果は存在しますが、より小さな大きさで、異なる仕様で、またはぎりぎりの有意性で存在します。この部分的な再現は、明確な偽の発見よりも方法論的感度とより整合的です。

ファイナンス vs. 医学：類似した構造的インセンティブ

ファイナンスの構造的インセンティブは、John Ioannidisが「公表された研究発見のほとんどは偽である」と有名に主張した医学とより類似しています。両分野では：

トップジャーナルでの公表に対する激しい競争があります
null結果よりも新しい、驚くべき発見が好まれます
研究者は研究デザインにおいて相当な自由度を持ちます（サンプル、変数、モデル仕様の選択）
同じ基礎データソースが多くの研究者によって使用されています（ファイナンスのCRSP/Compustat、医学の一般的な臨床試験データベース）

重要な違いは、ファイナンスには医学がしばしば欠いている自然なout-of-sample検定があることです。それは時間です。2005年に公表された金融anomalyは、それが持続するかどうかを確認するために2005年以降のデータで検定できます。特定の治療に関する医学的発見は遡及的に検定することはできません。これにより、ファイナンスにはMcLean and Pontiffらが活用してきた固有の自己修正メカニズムがあります。

Part VII: 限界と主張できないこと

継承された限界

本分析は公表された結果を統合したものであり、新しい回帰を実行したり、新しいfactorを構成したり、新しいデータを検定したりしていません。本稿の結論は、基礎となるすべての研究のあらゆる限界を継承しています。

CRSP/Compustatのモノカルチャー。米国の資産価格研究の圧倒的多数が、CRSP（株式リターン）とCompustat（会計データ）のデータを使用しています。これは微妙な形の共通バイアスを生み出します。これらのデータベースの体系的なエラー、すなわちsurvivorship bias、backfill bias、データ修正、カバレッジのギャップは、文献全体に伝播します。元の研究と同じCRSP/Compustatデータを使用する再現研究は、方法論的再現性を検定しているのであり、データの独立性を検定しているのではありません。国際的な再現（Jacobs and Muller）と代替データソース（Linnainmaa and Robertsの手作業で収集された1963年以前のデータなど）のみが、真に独立したエビデンスを提供します。

再現研究におけるpublication bias。先に指摘しましたが、繰り返す価値があります。劇的な結論（「危機」または「危機なし」）に達する再現研究は、曖昧な発見をしたものよりも公表される可能性が高くなります。本稿のエビデンスベースは、再現分布の極端な部分を過大に代表している可能性があります。例えば、55%の再現率を発見した研究は、どちらの方向にも劇的ではなく、ファイルの引き出しに未公表のまま存在しているかもしれません。

時変のrisk premium。公表後の減衰（arbitrage）またはdata miningに帰する一部は、実際には時変のリスク補償を反映している可能性があります。equity risk premiumが1980年代以降に低下した（一部のエビデンスが示唆する通り）場合、市場に対して測定されたすべてのfactor premiumも低下するでしょう。この交絡因子は、時変リスクの構造モデルなしには解決が困難であり、文献の統合の範囲を超えています。

Factorのsurvivorship bias。factor zoo自体にsurvivorship biasが存在する可能性があります。in-sampleで機能したfactorは公表され、そうでなかったものは放棄されました。しかし、放棄されたfactorの中にはout-of-sampleで機能するものが含まれていた可能性があり、公表されたfactorの中にはout-of-sampleで機能しないものが含まれていた可能性があります。公表されたfactorの母集団は、検定されたfactorの母集団の偏ったサンプルです。

どの特定のanomalyが「真」であるかを特定することはできません。本稿の三層フレームワークは、個別のfactorではなく母集団を記述しています。特定のanomalyをrobust core、fragile middle、またはnoise tierに割り当てるには、基礎となる再現研究が実施した詳細な実証分析が必要です。本稿はフレームワークを提供し、12の研究が分類のためのエビデンスを提供しています。

何が結論を変えるか

見解を修正させるエビデンスを述べることは重要であると考えます。

H1（data mining）を強化するエビデンス：

正確な方法論を使用した包括的な再現（Chen and Zimmermannのような）がはるかに低い再現率、例えば82%ではなく50%を発見した場合、正確な再現でさえ現在考えられているよりも頻繁に失敗することを示唆するでしょう
robust coreのfactor（value、momentum）が2020年以降のデータですべての市場と仕様にわたってゼロまたは負のpremiumを示し始めた場合、「実在するがarbitrageされた」という解釈に疑問を投げかけるでしょう

H2（arbitrage）を強化するエビデンス：

自然実験（factorが特定の言語で公表され、突然翻訳されて新しい市場に普及された場合など）がその市場での即座のfactor減衰を示した場合、arbitrageチャネルのクリーンな因果的エビデンスを提供するでしょう
factorベースのETFの成長がGranger因果のフレームワークでfactor減衰と直接的に関連づけられた場合

H3（定義の仮説）を弱めるエビデンス：

2つの再現研究が同一の方法論を使用しながら異なるanomalyサンプルで正反対の結論に達した場合、anomalyの特性が本稿の考える以上に重要であることを示唆するでしょう
研究間の再現率の変動が方法論的差異と無相関であった場合、本フレームワークは説明力を失うでしょう

提案される実証テスト

本フレームワークをさらに検証または反証できる5つのテストを提案します。

方法論回帰：再現率（12の研究にわたって）が、anomaly特性（平均t統計量、経済メカニズムの種類、size/liquidityの集中）を制御した後、方法論的特性（忠実度、閾値、コスト処理）によって予測されるかどうかを検定します。方法論がanomaly特性よりも多くの分散を説明するならば、H3は強く支持されます。
減衰の異質性：「robust core」のfactorが「fragile middle」のfactorと異なる公表後の減衰パターンを示すかどうかを調査します。robust coreはより小さく、より遅い減衰を示すはずです。fragile middleはより大きく、より速い減衰を示すはずです。noise tierは即座のゼロへの減衰を示すはずです。
ML支配テスト：robust coreのfactorのみのML組み合わせから構成されたポートフォリオが、fragile middleのfactorも含むポートフォリオを支配するかどうかを検定します。robust coreで十分であれば、fragile middleのfactorはシグナルではなくノイズを追加します。
Factor capacityマッピング：各robust core factorについて、コスト後のnet premiumが正のままであるポートフォリオの最大サイズを推定します。これにより、定性的な「コストを生き残る」評価を定量的なcapacity推定に変換できます。
リアルタイムの再現：factorリターンが（遡及的にではなく）獲得されたままにモニターする、前向きのリアルタイム追跡システムを確立します。これにより、すべてのlook-ahead biasが排除され、factorの持続性について最もクリーンな検定が可能になります。

Part VIII: 含意

機関投資家への含意

Factorの選択は大部分が解決されています。再現文献は、信頼できるfactorのcoreに収斂しています。value、momentum、profitability/quality、low volatilityです。どのfactorが「実在する」かについての議論は、このcoreグループについてはほぼ決着しています。残された未解決の問いは、選択ではなく実装に関するものです。

実装がalphaです。ナイーブに構成されたfactorポートフォリオと洗練されたものとの差は、年間100〜200 basis pointsになり得ます。この実装ギャップは、turnover管理、リバランス頻度、capacity-awareなサイジング、執行品質によって駆動されるものであり、限界的なfactorを含めるか除外するかの差よりもしばしば大きくなります。機関投資家にとって、競争優位の主な源泉はfactorの発見ではなくfactorの構成です。

Fragile middleに注意。fragile middleの50〜100のfactorは誘惑を提供します。バックテストでは良好に見え、分散を追加するように見えます。しかし、その脆弱性、すなわち仕様への感度、コスト後のぎりぎりの状態、市場間の不整合は、すでにrobust coreを捉えているポートフォリオにリターンではなくノイズを追加する可能性が高いことを意味します。fragile middleのfactorを含めるための立証責任は高くあるべきです。複数の仕様にわたる実証された堅牢性、明確な経済メカニズム、意図されたポートフォリオスケールでの正のネットオブコストリターンが求められます。

Capacityが拘束制約です。robust coreのfactorでさえ有限のcapacityを持っています。factorベースの戦略（smart beta ETF、定量ファンド、機関投資家のマンデートを通じて）により多くの資本が流入するにつれて、factor premiumは圧縮されるでしょう。問題は、この圧縮が起こるかどうかではなく、premiumが完全にarbitrageされる前にどれだけのcapacityが残っているかです。推定は大きく異なりますが、主要factorを合わせた総factor戦略capacityのコンセンサス範囲は1〜5兆ドルです。明示的なfactor戦略の現在の総資産はこの範囲に近づいており、将来のpremiumは歴史的推定よりも小さい可能性を示唆しています。

レジームの変化をモニターすること。Factor premiumは一定ではなく、経済レジーム、市場環境、構造的変化によって変動します。Momentumは通常の市場ではよく機能しますが、レジーム移行時（2009年3月のmomentum crashなど）には壊滅的なクラッシュに見舞われます。Valueは長期間underperformし（2010〜2020年）、その後回帰しました。Low volatility戦略は金利上昇環境に脆弱です。機関投資家は、静的なウェイトを保持するのではなく、市場環境に基づいてfactorエクスポージャーをスケーリングするレジーム対応のfactor allocationを維持すべきです。

個人投資家への含意

シンプルさが複雑さに勝ります。再現文献から個人投資家への実践的な含意は解放的です。400以上のfactorを理解する必要はありません。投資可能なセットは小さいのです。幅広い市場エクスポージャー（60〜70%）にvalue、momentum、quality、low volatilityへのターゲットを絞ったティルト（30〜40%）を加えたポートフォリオが、利用可能なfactor premiumの大部分を捉えます。これらのティルトは、総経費率が30 basis points以下の低コストETFを通じてアクセスできます。

新しい戦略には懐疑的であること。再現文献は、新たに公表されたanomalyの約50〜65%が厳密な基準の下で再現に失敗し、残りのほとんどが取引コストを乗り越えられないことを示しています。単一の学術anomaly、特に最近公表されたものに基づいてマーケティングされる投資商品は、深い懐疑の目で見るべきです。再現、堅牢性、ネットオブコストの実行可能性を実証する立証責任は、商品提供者にあります。

時間軸がfactor選択よりも重要です。長い時間軸（20年以上）を持つ個人投資家にとって、最も重要な投資判断は、どのfactorにティルトするかではなく、不可避的なダウンターンを通じてequityエクスポージャーを維持するかどうかです。年間2〜4%のrobust factor premiumは数十年にわたって大幅に複利で成長しますが、それは投資を継続する投資家のみに当てはまります。Factor timing、すなわち市場環境に基づいてvalueとmomentumの間でローテーションしようとすることは、機関投資家にとってさえ困難であり、個人投資家にとっては価値を破壊する可能性が高いです。

混乱した場合はfactor zooを完全に避けること。もしfactor zooが圧倒的に感じるならば、シンプルなtotal market index fundは完全に合理的な選択です。robust factor premiumは実在しますが控えめ（コスト前で年間2〜4%）であり、それを達成するには規律が必要です。個々のfactorについてはunderperformanceの不可避的な期間（5〜10年続くことがある）を通じてfactorティルトを維持する規律が必要です。3年間のunderperformance後にvalueティルトをパニック売りする投資家は、単に市場インデックスを保持し続けた投資家よりも悪いリターンを得るでしょう。

研究者と分野への含意

再現報告を標準化すること。分野は、複数のレベルで結果を報告する標準化された再現フレームワークから大きな恩恵を受けるでしょう。

正確な元の方法論を使用した統計的再現
標準化された方法論を使用した統計的再現
多重検定調整済みの有意性
現実的な取引コスト後の経済的再現
Out-of-sample/国際的再現

一つのレベルの再現のみを報告する個別の研究は、不完全な絵を提供し、メディア、実務家、他の研究者によって誤解される可能性があり、実際に誤解されてきました。

Bayesian手法を採用すること。閾値ベースのフレームワーク（有意vs.有意でない）は人工的な崖効果を生み出し、連続的な現実に二値の分類を強制します。Jensen, Kelly, and Pedersenが実証したBayesian shrinkage手法は、factor premiumに関する知識の状態のより微妙で正確な表現を提供します。

オープンソースが未来です。Chen and Zimmermannのオープンソース再現コードリポジトリは、再現性の新たな基準を設定しました。将来のanomaly論文は、再現コードとデータの提供を義務付けるべきであり、独立した検証を可能にします。これにより、レビュアーと読者が代替的な仕様を検定できるため、data miningとspecification searchの範囲が劇的に縮小するでしょう。

経済メカニズムに焦点を当てること。再現文献は主に実証的でした。効果が存在するかどうかを検定し、なぜ存在するかを説明するものではありませんでした。説得力のある経済メカニズムを持たないfactorは、持続するアプリオリな理由がないため、本質的に脆弱です。最も厳密な再現の精査を生き残ったfactor（value、momentum、profitability、low volatility）は、まさに最も強い理論的基盤を持つものです。今後のfactor研究は、メカニズムを先導し、エビデンスを後に続けるべきであり、その逆ではありません。

冗長性を削減すること。factor zooは統合から恩恵を受けるでしょう。quality指標の17番目のバリアントを公表するのではなく、研究者は真に独立したリターン源泉を特定し、それらを駆動する経済メカニズムを理解することに焦点を当てるべきです。15の十分に理解され、堅牢に文書化されたfactorを持つfactor zooは、400以上の十分に理解されていない、部分的に冗長なfactorを持つものよりも科学的に価値があります。

References

Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.

個人投資家のための実踵的活用法

編集者ノート

重要なポイント

Part I: 誰も合意していない問い

400以上のfactorに至るまで

多重検定問題

反論

パラドックス

Part II: リサーチクエスチョンと競合する仮説

問いの定式化

H1 — Data Mining仮説

H2 — Arbitrage仮説

H3 — 定義の仮説

Part III: エビデンスベース — 12の研究の詳細

Study 1: Schwert (2003) — 最初の警告

Study 2: Harvey, Liu & Zhu (2016) — 多重検定調整

Study 3: McLean & Pontiff (2016) — 自然実験

Study 4: Green, Hand & Zhang (2017) — ホールドアウト検定

Study 5: Linnainmaa & Roberts (2018) — 1963年以前の検定

Study 6: Hou, Xue & Zhang (2020) — 標準化された再現

Study 7: Jacobs & Muller (2020) — 国際的な再現

Study 8: Chen & Zimmermann (2022) — 正確な方法論の再現

Study 9: Jensen, Kelly & Pedersen (2023) — Bayesian的和解

Study 10: Novy-Marx & Velikov (2016) — 取引コストフィルター

Study 11: Chordia, Goyal & Saretto (2020) — 複合フィルター

Study 12: Calluzzo, Moneta & Topaloglu (2019) — Arbitrageメカニズム

Part IV: 分析 — 再現の三次元

フレームワークの構築

次元1：方法論の忠実度

ケーススタディ：Size effectの方法論的感度

次元2：統計的閾値

Bayesianの代替案

次元3：経済的再現と統計的再現

経済的再現のスコアカード

詳細分析：Momentumの4つのフィルター

詳細分析：Accrualsの4つのフィルター

冗長性の問題

Machine Learningと新しいFactor発見

Part V: 結果と解釈

3つの仮説の評価

三層の統合

信頼度の評価

Part VI: 他分野との比較

ファイナンス vs. 心理学：異なる危機

ファイナンス vs. 医学：類似した構造的インセンティブ

Part VII: 限界と主張できないこと

継承された限界

何が結論を変えるか

提案される実証テスト

Part VIII: 含意

機関投資家への含意

個人投資家への含意

研究者と分野への含意

関連

References