परिसंपत्ति मूल्य निर्धारण में प्रतिकृति संकट: कौन सी विसंगतियाँ स्वतंत्र सत्यापन में टिकती हैं?

मुख्य निष्कर्ष

शैक्षणिक वित्त ने 400 से अधिक ऐसे variables सूचीबद्ध किए हैं जो कथित रूप से stock returns की भविष्यवाणी करते हैं। Harvey, Liu, और Zhu ने इसे "factor zoo" कहा। लेकिन जब स्वतंत्र शोधकर्ता इन निष्कर्षों को पुनर्प्रस्तुत करने का प्रयास करते हैं, तो परिणाम स्पष्ट रूप से भिन्न होते हैं: कुछ अध्ययन बताते हैं कि अधिकांश anomalies विफल हो जाती हैं, जबकि अन्य बताते हैं कि अधिकांश सफलतापूर्वक replicate होती हैं। हमने 12 प्रमुख replication प्रयासों की व्यवस्थित तुलना की और पाया कि दोनों पक्ष सही हैं — वे बस अलग-अलग प्रश्नों का उत्तर दे रहे हैं। Statistical replication (क्या हम t-statistic को पुनर्प्रस्तुत कर सकते हैं?) लगभग 50-70% बार सफल होती है। Economic replication (क्या कोई वास्तव में इससे पैसा कमा सकता है?) केवल 15-30% बार सफल होती है। इन दो संख्याओं के बीच का अंतर कोई संकट नहीं है — यह आधुनिक empirical finance का सबसे महत्वपूर्ण निष्कर्ष है।

यह लेख एक QD Research Original है। हमने किसी एकल paper का सारांश नहीं बनाया। हमने 12 स्वतंत्र replication अध्ययनों से साक्ष्य एकत्र किए, एक त्रि-आयामी framework का निर्माण किया जो उनके प्रतीत होने वाले विरोधाभासी निष्कर्षों को सुलझाता है, और factor zoo का एक नवीन तीन-स्तरीय वर्गीकरण प्रस्तुत किया। हमारी कार्यप्रणाली, अनुमान, और विश्वास स्तर पूरे लेख में प्रकट किए गए हैं। प्रत्येक दावा प्रकाशित, peer-reviewed शोध से प्रमाणित है।

भाग I: वह प्रश्न जिस पर कोई सहमत नहीं हुआ

हम 400+ Factors तक कैसे पहुँचे

Factor zoo की कहानी एक सरल, सुंदर समीकरण से शुरू होती है। 1964 में, William Sharpe ने Capital Asset Pricing Model प्रकाशित किया, जिसने प्रस्तावित किया कि किसी stock का अपेक्षित return एक ही चीज़ से निर्धारित होता है: समग्र बाज़ार के प्रति उसकी संवेदनशीलता, जिसे beta द्वारा मापा जाता है। एक factor। एक समीकरण। स्पष्ट, परीक्षण योग्य, Nobel-Prize-विजेता।

दरारें लगभग तुरंत दिखाई दीं। Fischer Black, Michael Jensen, और Myron Scholes ने 1972 में प्रलेखित किया कि beta और returns के बीच का अनुभवजन्य संबंध CAPM की भविष्यवाणी से कहीं अधिक सपाट था। High-beta stocks ने अपेक्षा से कम कमाया; low-beta stocks ने अधिक कमाया। यह कोई मामूली सांख्यिकीय आपत्ति नहीं थी — यह asset pricing के प्रमुख सिद्धांत के लिए एक मूलभूत चुनौती थी।

शिक्षा जगत की प्रतिक्रिया factor model framework को त्यागना नहीं बल्कि उसका विस्तार करना थी। 1992 और 1993 में, Eugene Fama और Kenneth French ने अपने ऐतिहासिक papers प्रकाशित किए जिनमें दो अतिरिक्त factors प्रस्तुत किए गए: size (छोटे stocks बड़े stocks से बेहतर प्रदर्शन करते हैं) और value (उच्च book-to-market stocks निम्न book-to-market stocks से बेहतर प्रदर्शन करते हैं)। Fama-French three-factor model नया मानक बन गया। शोधकर्ता जो पहले एक factor से returns की व्याख्या करते थे, अब तीन का उपयोग करने लगे।

Mark Carhart ने 1997 में momentum जोड़ा — जो stocks पिछले वर्ष में बढ़े थे वे बढ़ते रहे, और जो गिरे थे वे गिरते रहे। Four-factor model एक दशक से अधिक समय तक empirical asset pricing का मुख्य उपकरण बना रहा।

फिर बाढ़ के द्वार खुल गए। Fama और French ने स्वयं 2015 में पाँच factors तक विस्तार किया, profitability और investment जोड़कर। Robert Novy-Marx ने gross profitability को एक predictor के रूप में पहचाना। Frazzini और Pedersen ने low-beta anomaly को औपचारिक रूप दिया। Robert Stambaugh और Yu Yuan ने anomalies के short leg का प्रलेखन किया। Kewei Hou, Chen Xue, और Lu Zhang ने एक प्रतिस्पर्धी q-factor model प्रस्तावित किया। प्रत्येक नए paper ने आमतौर पर एक ऐसी विशेषता की पहचान की जो 2.0 से ऊपर t-statistic के साथ returns की भविष्यवाणी करती थी, जो statistical significance की पारंपरिक सीमा है।

जब Harvey, Liu, और Zhu ने 2016 में अपनी गणना की, तो संख्या 316 प्रकाशित factors तक पहुँच चुकी थी। कुछ अनुमानों के अनुसार, यह संख्या अब 400 से अधिक हो गई है। वह प्रश्न जिसने एक पूरी पीढ़ी के शोध को प्रेरित किया था — stock के अपेक्षित returns को क्या निर्धारित करता है? — ने अत्यधिक उत्तर प्रस्तुत कर दिए थे। बहुत अधिक उत्तर। कहीं बहुत अधिक उत्तर।

Multiple Testing समस्या

यह समझने के लिए कि इतने अधिक factors क्यों समस्या हैं, एक सरल सांख्यिकीय विचार प्रयोग पर विचार करें। मान लीजिए stock returns पूरी तरह से यादृच्छिक हैं — कोई factor कुछ भी भविष्यवाणी नहीं करता। एक शोधकर्ता एक variable का returns के विरुद्ध परीक्षण करता है और मानक p < 0.05 सीमा का उपयोग करता है। False positive की 5% संभावना है — वहाँ significance पाना जहाँ कोई अस्तित्व में नहीं है।

अब मान लीजिए शोधकर्ता 100 variables का परीक्षण करता है। भले ही उनमें से कोई भी वास्तव में returns की भविष्यवाणी न करे, लगभग पाँच केवल संयोग से significant दिखाई देंगे। यदि शोधकर्ता केवल पाँच "significant" परिणाम प्रकाशित करता है और 95 विफलताओं को छोड़ देता है, तो प्रकाशित साहित्य में पाँच false discoveries होंगी जो वास्तविक निष्कर्षों से अप्रभेद्य दिखती हैं। प्रत्येक का t-statistic 2.0 से ऊपर है। प्रत्येक का p-value 0.05 से नीचे है। प्रत्येक को उद्धृत किया जाएगा, उस पर निर्माण किया जाएगा, और factor models में शामिल किया जाएगा।

यह multiple testing समस्या है, और यह काल्पनिक नहीं है। शैक्षणिक प्रकाशन की संरचना ठीक ऐसी ही प्रोत्साहन प्रणालियाँ बनाती है। शोधकर्ता कई variables का परीक्षण करते हैं लेकिन केवल significant परिणाम ही रिपोर्ट करते हैं। पत्रिकाएँ null results की तुलना में नवीन निष्कर्षों को प्राथमिकता देती हैं। File drawer त्यागी गई परिकल्पनाओं से भरता जाता है, जबकि प्रकाशित रिकॉर्ड सांख्यिकीय outliers से भरता है।

Harvey, Liu, और Zhu ने इस तर्क को औपचारिक रूप दिया। 316 factors के लगभग 50 वर्षों के मासिक returns के विरुद्ध परीक्षण किए जाने पर, t > 2.0 सीमा पर false discoveries की संभावना अत्यंत उच्च है। उन्होंने multiple testing साहित्य की विधियों का उपयोग करके significance threshold को समायोजित करने का प्रस्ताव दिया — Bonferroni corrections, Benjamini-Hochberg procedure, और उनका अपना Bayesian दृष्टिकोण। उनके पसंदीदा समायोजन के अनुसार, एक नई factor discovery के लिए न्यूनतम t-statistic लगभग 3.0 होना चाहिए। इस सीमा पर, प्रकाशित anomalies का बहुमत विफल हो जाता है।

उनका paper एक बम की तरह था। यदि अंकित मूल्य पर लिया जाए, तो इसका अर्थ था कि दशकों के empirical asset pricing शोध ने अधिकतर शोर उत्पन्न किया था।

प्रतिआक्रमण

लेकिन सभी सहमत नहीं थे। प्रतिक्रिया एक साथ कई दिशाओं से आई।

David McLean और Jeffrey Pontiff ने एक पूरी तरह से भिन्न दृष्टिकोण अपनाया। सांख्यिकीय सीमाओं को समायोजित करने के बजाय, उन्होंने एक प्राकृतिक प्रयोग का उपयोग किया: समय। प्रत्येक प्रकाशित anomaly की एक discovery तिथि होती है। anomaly द्वारा paper लिखे जाने से पहले अर्जित returns in-sample returns हैं जो data-mined हो सकते थे। प्रकाशन के बाद अर्जित returns out-of-sample returns हैं जो data-mined नहीं हो सकते थे। यदि anomalies विशुद्ध रूप से सांख्यिकीय कलाकृतियाँ हैं, तो post-publication returns शून्य होने चाहिए।

McLean और Pontiff ने 97 anomalies की जाँच की और पाया कि post-publication returns में औसतन 58% की गिरावट हुई। यह पर्याप्त क्षय था — लेकिन यह शून्य नहीं था। Anomalies ने अपने मूल in-sample परिमाण का लगभग 42% बनाए रखा। यह निष्कर्ष अस्पष्ट था: यह आंशिक data mining और आंशिक arbitrage दोनों के अनुरूप था।

Kewei Hou, Chen Xue, और Lu Zhang ने और आगे बढ़कर कार्य किया। Review of Financial Studies में अपने 2020 के paper में, उन्होंने 452 प्रकाशित anomalies को replicate करने का प्रयास किया — उस तिथि तक का सबसे व्यापक replication प्रयास। उनका दृष्टिकोण जानबूझकर मानकीकृत था: उन्होंने सभी 452 anomalies में सुसंगत data sources, सुसंगत sample selection मानदंड, और सुसंगत factor construction विधियों का उपयोग किया। उन्होंने पाया कि 64% — लगभग दो-तिहाई — उनके परीक्षणों में 1.96 से ऊपर t-statistic उत्पन्न करने में विफल रहीं।

इस परिणाम को व्यापक रूप से finance में replication crisis की पुष्टि के रूप में व्याख्यायित किया गया। यदि केवल 36% प्रकाशित anomalies सबसे सरल सांख्यिकीय परीक्षण से बच सकती हैं, तो यह क्षेत्र के बारे में क्या कहता है?

लेकिन फिर Andrew Chen और Tom Zimmermann ने, Federal Reserve Board में स्वतंत्र रूप से कार्य करते हुए, एक स्पष्ट रूप से भिन्न निष्कर्ष प्रस्तुत किया। उन्होंने 319 anomalies को replicate किया — Hou, Xue, और Zhang के साथ काफी हद तक अतिव्यापी समूह — और पाया कि लगभग 82% ने अपने मूल परिणामों को पुनर्प्रस्तुत किया। यह कोई मामूली विसंगति नहीं थी। एक अध्ययन में 36% replication मिली; दूसरे में 82%।

मुख्य अंतर कार्यप्रणाली था। Chen और Zimmermann ने प्रत्येक मूल paper की कार्यप्रणाली का यथासंभव सटीकता से पालन किया। जब मूल paper ने NYSE breakpoints का उपयोग किया, तो उन्होंने NYSE breakpoints का उपयोग किया। जब इसने financial firms को बाहर रखा, तो उन्होंने financial firms को बाहर रखा। जब इसने एक विशिष्ट lag structure का उपयोग किया, तो उन्होंने lag structure को replicate किया। Hou, Xue, और Zhang ने अपनी स्वयं की मानकीकृत कार्यप्रणाली लागू की थी, जो अनिवार्य रूप से मूल papers से दर्जनों छोटे तरीकों से भिन्न थी।

अंततः, 2023 में, Theis Jensen, Bryan Kelly, और Lasse Pedersen ने Bayesian shrinkage विधियों का उपयोग करते हुए 153 factors का अपना व्यापक विश्लेषण प्रकाशित किया। उनके दृष्टिकोण ने स्वीकार किया कि factor premiums शोर के साथ अनुमानित होते हैं और वास्तविक premiums को estimation error से अलग करने के लिए statistical shrinkage लागू की। उनका निष्कर्ष स्पष्ट था: finance में कोई replication crisis नहीं है। shrinkage के बाद अधिकांश factors के सकारात्मक, आर्थिक रूप से सार्थक अपेक्षित returns हैं।

विरोधाभास

2024 तक, शैक्षणिक समुदाय ने एक ही साक्ष्य आधार के बारे में चार प्रमुख निष्कर्ष प्रस्तुत किए थे:

अधिकांश anomalies false discoveries हैं (Harvey, Liu & Zhu)
अधिकांश anomalies में पर्याप्त क्षय होता है लेकिन वे बची रहती हैं (McLean & Pontiff)
अधिकांश anomalies replicate होने में विफल रहती हैं (Hou, Xue & Zhang)
अधिकांश anomalies replicate होती हैं (Chen & Zimmermann; Jensen, Kelly & Pedersen)

"Replication" की एकल परिभाषा के अंतर्गत ये सभी एक साथ सत्य नहीं हो सकतीं। समाधान के लिए यह समझना आवश्यक है कि प्रत्येक अध्ययन ने सूक्ष्म रूप से भिन्न प्रश्न पूछा। यह वह केंद्रीय समस्या है जिसे हम संबोधित करते हैं।

भाग II: शोध प्रश्न और प्रतिस्पर्धी परिकल्पनाएँ

प्रश्न का औपचारिक रूपांकन

शोध प्रश्न: क्या प्रकाशित return anomalies वास्तविक, शोषण योग्य बाज़ार घटनाओं का प्रतिनिधित्व करती हैं, या वे मुख्य रूप से data mining की कलाकृतियाँ हैं? और स्वतंत्र replication अध्ययन anomalies के काफी हद तक अतिव्यापी समूहों की जाँच करते समय विपरीत निष्कर्षों पर क्यों पहुँचते हैं?

हम इसे तीन प्रतिस्पर्धी परिकल्पनाओं में विभाजित करते हैं, प्रत्येक के साथ स्पष्ट रूप से निर्दिष्ट falsification मानदंड।

H1 — Data Mining परिकल्पना

कथन: प्रकाशित anomalies का बहुमत false discoveries हैं जो व्यापक specification search, data dredging, और publication bias द्वारा उत्पन्न हुई हैं। Factor zoo एक सांख्यिकीय कलाकृति है, बाज़ार की वास्तविकता का विवरण नहीं।

तंत्र: शोधकर्ता सैकड़ों संभावित predictors का अन्वेषण करते हैं, उन्हें विभिन्न तरीकों से निर्मित करते हैं (भिन्न lags, breakpoints, weighting schemes), विभिन्न sample अवधियों और उपसमूहों का उपयोग करके returns के विरुद्ध उनका परीक्षण करते हैं, और केवल वे specifications प्रकाशित करते हैं जो significant परिणाम देती हैं। पत्रिकाएँ नवीन, significant निष्कर्षों को प्राथमिकता देकर इस चयन को बढ़ाती हैं। परिणामस्वरूप प्रकाशित साहित्य में अधिकतर null results के वितरण से सबसे चरम draws का प्रभुत्व होता है।

Falsification मानदंड: H1 भविष्यवाणी करती है कि:

Anomalies को post-publication में शून्य तक क्षय होना चाहिए, किसी सकारात्मक अवशिष्ट तक नहीं
Replication दरें कार्यप्रणालीगत निष्ठा की परवाह किए बिना समान रूप से कम होनी चाहिए
जीवित बचने वाली anomalies को विफल होने वालों से अलग करने वाला कोई व्यवस्थित pattern नहीं होना चाहिए
International replication को domestic पुनः-परीक्षण के समान दर पर विफल होना चाहिए
Anomalies को observable economic तंत्रों के साथ सहसंबद्ध नहीं होना चाहिए

यदि इनमें से कोई भी भविष्यवाणी विफल होती है, तो H1 अपने शुद्ध रूप में falsify हो जाती है। एक कमज़ोर संस्करण — कि कुछ anomalies false discoveries हैं — लगभग निश्चित रूप से सत्य है और विशेष रूप से रोचक नहीं है।

H2 — Arbitrage परिकल्पना

कथन: अधिकांश प्रकाशित anomalies वास्तविक बाज़ार घटनाओं को कैप्चर करती हैं — वास्तविक mispricings या risk premiums — लेकिन प्रकाशन सूचना को बाज़ार प्रतिभागियों तक प्रसारित करता है, जो arbitrage पूँजी को आकर्षित करता है जो premium को आंशिक या पूर्ण रूप से समाप्त कर देता है। Post-publication क्षय बाज़ार के अधिक कुशल होने का प्रतिनिधित्व करता है, सांख्यिकीय कल्पना का सुधार नहीं।

तंत्र: प्रकाशन से पहले, एक mispricing इसलिए अस्तित्व में है क्योंकि बहुत कम निवेशक इसके बारे में जागरूक हैं या क्योंकि संरचनात्मक बाधाएँ शोषण को रोकती हैं। प्रकाशन जागरूकता पैदा करता है। Hedge funds, quantitative asset managers, और अंततः ETF providers anomaly का trading शुरू करते हैं। उनकी trading गतिविधि mispricing को ठीक करती है, observed premium को कम करती है। सुधार की डिग्री कार्यान्वयन की सुगमता (transaction costs, capacity), प्रसार की गति, और उन संरचनात्मक बाधाओं पर निर्भर करती है जिन्होंने मूल रूप से anomaly बनाई।

Falsification मानदंड: H2 भविष्यवाणी करती है कि:

Post-publication क्षय आंशिक होना चाहिए, पूर्ण नहीं (limits to arbitrage पूर्ण सुधार को रोकती हैं)
क्षय को arbitrage गतिविधि के मापों के साथ सहसंबद्ध होना चाहिए (institutional trading, short interest, ETF flows)
जिन anomalies का trading कठिन है (small-cap, illiquid, high-turnover) उनमें आसानी से trade होने वाली anomalies की तुलना में कम क्षय होना चाहिए
Anomalies को मूल sample अवधि में मानकीकृत कार्यप्रणाली के अंतर्गत भी replicate होना चाहिए (arbitrage द्वारा उन्हें क्षरित करने से पहले वे वास्तविक थीं)
Risk compensation पर आधारित anomalies में कोई क्षय नहीं होना चाहिए (risk स्थायी है; mispricing अस्थायी है)

यदि anomalies अपनी मूल sample अवधि में भी replicate होने में विफल रहती हैं — इससे पहले कि कोई arbitrage हो सके — तो H2 विफलता की व्याख्या नहीं कर सकती।

H3 — Definitional परिकल्पना

कथन: Replication अध्ययनों में प्रतीत होने वाली असहमति मुख्य रूप से कार्यप्रणालीगत है। विभिन्न अध्ययन "replication" को अलग-अलग तरीके से परिभाषित करते हैं, विभिन्न सांख्यिकीय मानकों का उपयोग करते हैं, और factor construction के बारे में विभिन्न विकल्प चुनते हैं। "क्या anomalies replicate होती हैं?" प्रश्न बिना यह निर्दिष्ट किए कि replication का क्या अर्थ है, अपूर्ण है। कोई एकल उत्तर नहीं है क्योंकि कोई एकल प्रश्न नहीं है।

तंत्र: Finance में replication chemistry में replication की तरह नहीं है, जहाँ एक ही प्रयोग समान परिस्थितियों में समान परिणाम देना चाहिए। Finance में, प्रत्येक कार्यप्रणालीगत विकल्प — कौन से stocks शामिल करने हैं, breakpoints कैसे परिभाषित करने हैं, कब rebalance करना है, portfolios को कैसे weight करना है, कौन सी significance threshold का उपयोग करना है, transaction costs को ध्यान में रखना है या नहीं — परिणाम को प्रभावित करता है। दो शोधकर्ता एक ही anomaly की जाँच कर सकते हैं, अलग-अलग लेकिन व्यक्तिगत रूप से उचित विकल्प चुन सकते हैं, और विपरीत निष्कर्षों पर पहुँच सकते हैं। कोई भी ग़लत नहीं है; वे अलग-अलग प्रश्नों का उत्तर दे रहे हैं।

Falsification मानदंड: H3 भविष्यवाणी करती है कि:

Replication दरें कार्यप्रणालीगत विकल्पों के साथ व्यवस्थित रूप से भिन्न होनी चाहिए, anomaly विशेषताओं के साथ नहीं
एक ही anomaly को कभी-कभी एक अध्ययन द्वारा "replicated" और दूसरे द्वारा "failed" वर्गीकृत किया जाना चाहिए
उच्च कार्यप्रणालीगत निष्ठा वाले अध्ययनों (मूल paper का निकटता से अनुसरण करने वाले) को उच्च replication दरें दिखानी चाहिए
जो अध्ययन सख्त thresholds लागू करते हैं या economic filters जोड़ते हैं उन्हें कम replication दरें दिखानी चाहिए, चाहे वे किसी भी anomalies का परीक्षण करें
अध्ययनों में replication दरों का variance anomaly विशेषताओं की तुलना में कार्यप्रणाली द्वारा अधिक व्याख्यायित होना चाहिए

यदि replication दरें मुख्य रूप से anomalies की विशेषताओं द्वारा निर्धारित होती हैं — न कि replicators के कार्यप्रणालीगत विकल्पों द्वारा — तो H3 falsify हो जाती है।

भाग III: साक्ष्य आधार — बारह अध्ययनों का विस्तृत विवरण

Replication अध्ययनों की असहमति को समझने के लिए प्रत्येक अध्ययन की कार्यप्रणाली की विस्तार से जाँच करना आवश्यक है। Replication दरों की सतही तुलनाएँ यह समझे बिना भ्रामक हैं कि प्रत्येक अध्ययन ने वास्तव में क्या मापा।

अध्ययन 1: Schwert (2003) — मूल चेतावनी

G. William Schwert का Handbook of the Economics of Finance में अध्याय पहली व्यवस्थित जाँच थी कि anomalies के प्रलेखित होने के बाद उनका क्या होता है। उन्होंने पाँच सबसे प्रमुख anomalies पर ध्यान केंद्रित किया: size effect, value effect, weekend effect, turn-of-the-year effect, और dividend yield effect।

Schwert ने पाया कि इनमें से अधिकांश anomalies अपने मूल प्रलेखन के बाद के वर्षों में काफ़ी कमज़ोर हो गईं। Size effect, जिसे Banz ने 1981 में प्रलेखित किया था, post-1982 data में काफी हद तक अनुपस्थित था। January effect, हालाँकि अभी भी मौजूद था, मूल रूप से रिपोर्ट किए गए से छोटा था। Value effect अधिक मज़बूत साबित हुआ लेकिन इसमें काफ़ी समय भिन्नता दिखी।

Schwert का योगदान मुख्य रूप से अवधारणात्मक था। उन्होंने यह संभावना उठाई कि anomalies दो अलग-अलग कारणों से कमज़ोर हो सकती हैं: या तो वे data-mining कलाकृतियाँ थीं जो अपने वास्तविक (null) मूल्य पर लौट आईं, या वे वास्तविक घटनाएँ थीं जिन्होंने प्रचारित होने पर सूचित पूँजी को आकर्षित किया। उन्होंने इन स्पष्टीकरणों के बीच निर्णय नहीं दिया लेकिन वह framework स्थापित किया जिसका बाद के शोधकर्ता उपयोग करेंगे।

मुख्य कार्यप्रणालीगत विकल्प: Schwert ने post-discovery returns की जाँच की लेकिन statistical और economic replication के बीच अंतर नहीं किया। केवल पाँच anomalies पर उनका ध्यान सामान्यीकरण को सीमित करता है।

अध्ययन 2: Harvey, Liu & Zhu (2016) — Multiple Testing समायोजन

Harvey, Liu, और Zhu का paper anomaly साहित्य के लिए सबसे सांख्यिकीय रूप से कठोर चुनौती था। उन्होंने 1967 और 2014 के बीच प्रकाशित 316 factors को सूचीबद्ध किया और तर्क दिया कि परीक्षित परिकल्पनाओं की संख्या को देखते हुए पारंपरिक t > 2.0 threshold अनुपयुक्त था।

उनका तर्क Bonferroni inequality और इसके variants पर आधारित था। यदि 316 स्वतंत्र परीक्षण 5% स्तर पर किए जाते हैं, तो false rejections की अपेक्षित संख्या लगभग 16 है। इस multiple testing के लिए समायोजन करते हुए, उन्होंने तर्क दिया कि एक नए प्रस्तावित factor के लिए significant माने जाने हेतु लगभग 3.0 का t-statistic आवश्यक होना चाहिए।

Paper में 316 factors की एक विस्तृत taxonomy शामिल थी, जिन्हें उनके द्वारा कैप्चर किए जाने वाले economic mechanism के अनुसार वर्गीकृत किया गया था। यह सूची स्वयं एक महत्वपूर्ण संसाधन बन गई, जो factor zoo की असाधारण व्यापकता — और संभावित अतिरेक — को उजागर करती है।

मुख्य कार्यप्रणालीगत विकल्प: Harvey et al. ने सभी 316 factors को स्वतंत्र परीक्षणों के रूप में माना, जो multiple testing समस्या को अधिक आँकता है यदि कई factors सहसंबद्ध हैं (जैसा कि वे निश्चित रूप से हैं)। उन्होंने वास्तव में 316 factors को replicate नहीं किया; उन्होंने सांख्यिकीय रूप से तर्क दिया कि परीक्षणों की संख्या को देखते हुए अधिकांश को false होना चाहिए। उनका threshold समायोजन नई discoveries पर लागू होता है लेकिन अक्सर मौजूदा factors का मूल्यांकन करने के लिए गलत तरीके से लागू किया जाता है जो पहले से अन्य माध्यमों से validated किए जा चुके हैं।

महत्वपूर्ण बारीकी: t > 3.0 threshold एक नए प्रस्तावित factor का मूल्यांकन करने के लिए उपयुक्त है उस दुनिया में जहाँ सैकड़ों factors पहले से परीक्षित हो चुके हैं। यह आवश्यक रूप से ऐसे factor का मूल्यांकन करने के लिए उपयुक्त नहीं है जिसे कई datasets, समय अवधियों, और बाज़ारों में स्वतंत्र रूप से पुष्टि की जा चुकी है। Momentum जैसा factor, जिसे 40+ बाज़ारों में दर्जनों स्वतंत्र अध्ययनों में replicate किया गया है, का मूल्यांकन ऐसे नहीं किया जाना चाहिए जैसे कि यह पूर्ण multiple testing दंड के अधीन एक बिल्कुल नई discovery हो।

अध्ययन 3: McLean & Pontiff (2016) — प्राकृतिक प्रयोग

McLean और Pontiff ने एक प्राकृतिक प्रयोग निर्मित करने के लिए शैक्षणिक प्रकाशन की समयात्मक संरचना का उपयोग किया। 97 anomalies में से प्रत्येक के लिए, उन्होंने तीन समय अवधियाँ पहचानीं:

In-sample अवधि: मूल paper में उपयोग की गई data अवधि
Post-sample, pre-publication अवधि: sample समाप्त होने के बाद लेकिन paper प्रकाशित होने से पहले (सामान्यतः 2-5 वर्ष)
Post-publication अवधि: paper के पत्रिका में प्रकट होने के बाद

यह विभाजन शक्तिशाली है क्योंकि यह सांख्यिकीय कलाकृतियों को आर्थिक घटनाओं से अलग करता है। Post-sample लेकिन pre-publication अवधि में, anomaly out-of-sample है (in-sample overfitting को खारिज करते हुए) लेकिन अभी तक सार्वजनिक नहीं है (arbitrage को खारिज करते हुए)। यदि इस अवधि में anomaly returns शून्य हैं, तो मूल निष्कर्ष संभवतः data-mined था। यदि वे सकारात्मक हैं लेकिन in-sample से छोटे, तो वास्तविक predictability और कुछ overfitting दोनों के साक्ष्य हैं। यदि वे सकारात्मक हैं और फिर post-publication में और गिरते हैं, तो arbitrage अतिरिक्त क्षय का प्रमुख स्पष्टीकरण है।

McLean और Pontiff ने पाया:

In-sample औसत return: रिपोर्ट किए गए प्रभाव का लगभग 100%
Post-sample, pre-publication return: in-sample प्रभाव का लगभग 73%
Post-publication return: in-sample प्रभाव का लगभग 42%

In-sample से post-sample लेकिन pre-publication तक 27% की गिरावट कुछ हद तक in-sample overfitting का सुझाव देती है — लेकिन वास्तव में out-of-sample data में 73% जीवित रहना इस बात का मज़बूत साक्ष्य है कि anomalies विशुद्ध रूप से कलाकृतियाँ नहीं हैं। Post-publication में अतिरिक्त 31% गिरावट (73% से 42% तक) arbitrage पूँजी द्वारा premium को क्षरित करने के अनुरूप है।

मुख्य कार्यप्रणालीगत विकल्प: McLean और Pontiff ने 97 anomalies में एकत्रित किया, जो मज़बूत anomalies को कमज़ोर anomalies के साथ मिश्रित करता है। औसत काफ़ी विषमता को छुपाता है। कुछ anomalies शून्य तक क्षय हो गई हों (H1 के अनुरूप) जबकि अन्य ने अपने अधिकांश premium को बनाए रखा (H2 के अनुरूप), औसत एक मिश्रण को प्रतिबिंबित करता है।

अध्ययन 4: Green, Hand & Zhang (2017) — Holdout परीक्षण

Jeremiah Green, John Hand, और Frank Zhang ने एक कठोर holdout कार्यप्रणाली का उपयोग करके 94 stock characteristics का परीक्षण किया। उन्होंने CRSP/Compustat data का उपयोग करके प्रत्येक characteristic का निर्माण किया, फिर परीक्षण किया कि क्या यह एक holdout sample में returns की भविष्यवाणी करती है जिसका उपयोग variable construction प्रक्रिया में नहीं किया गया था।

उन्होंने पाया कि 94 characteristics में से लगभग 50% holdout sample में significant थीं। यह एक मध्यम replication दर है — Hou, Xue, और Zhang जो बाद में पाएंगे उससे अधिक, लेकिन Chen और Zimmermann से कम। विसंगति कार्यप्रणालीगत निष्ठा पर उनकी मध्यवर्ती स्थिति को प्रतिबिंबित करती है: उन्होंने सुसंगत data का उपयोग किया लेकिन construction कार्यप्रणाली में कुछ भिन्नता की अनुमति दी।

मुख्य अंतर्दृष्टि: Green et al. ने यह भी जाँच की कि कौन सी characteristics स्वतंत्र जानकारी प्रदान करती हैं — predictive power जो अन्य characteristics द्वारा subsume नहीं होती। स्वतंत्र रूप से significant characteristics की संख्या 94 से बहुत कम थी, जो factor zoo में पर्याप्त अतिरेक का सुझाव देती है। कई factors जो अलग-अलग दिखते हैं वास्तव में एक ही अंतर्निहित घटना को माप रहे हैं।

अध्ययन 5: Linnainmaa & Roberts (2018) — Pre-1963 परीक्षण

Juhani Linnainmaa और Michael Roberts ने सबसे रचनात्मक replication अभ्यासों में से एक किया, उस data का उपयोग करके जो मूल शोधकर्ता उपयोग नहीं कर सकते थे। Empirical asset pricing साहित्य में अधिकांश anomalies 1963 के बाद से CRSP data का उपयोग करके खोजी गई थीं (जब Compustat coverage व्यापक हो जाता है)। Linnainmaa और Roberts ने data को 1926 तक विस्तारित किया और जाँच की कि क्या ये post-1963 anomalies 1926-1963 की अवधि में भी अस्तित्व में थीं।

तर्क सम्मोहक है: यदि कोई factor वास्तव में एक स्थायी बाज़ार घटना को कैप्चर करता है, तो उसे पहले के data में भी मौजूद होना चाहिए। यदि वह केवल उस विशिष्ट sample अवधि में दिखाई देता है जहाँ उसे खोजा गया था, तो data mining अधिक संभावित स्पष्टीकरण है।

उनके निष्कर्ष मिश्रित थे। कुछ factors — विशेष रूप से value और momentum — pre-1963 data में मौजूद थे, उनकी मज़बूती की पुष्टि करते हुए। अन्य — profitability और investment सहित — पहले की अवधि में अनुपस्थित या insignificant थे। Linnainmaa और Roberts ने अनुपस्थित factors को संभावित data-mining कलाकृतियों के रूप में व्याख्यायित किया।

महत्वपूर्ण चेतावनी: Pre-1963 बाज़ार post-1963 बाज़ार से संरचनात्मक रूप से भिन्न था उन तरीकों से जो data mining को आमंत्रित किए बिना factor अनुपस्थिति की व्याख्या कर सकते हैं:

संस्थागत संरचना: 1963 से पहले संस्थागत निवेशकों के पास बाज़ार का बहुत छोटा हिस्सा था। संस्थागत व्यवहार से प्रेरित factors (जैसे BAB के पीछे leverage constraint) व्यक्तिगत निवेशकों के प्रभुत्व वाले बाज़ार में कमज़ोर होंगे।
क्षेत्र संरचना: Pre-1963 बाज़ार में railroads, utilities, और भारी उद्योग का प्रभुत्व था। Post-1963 बाज़ार में technology, healthcare, और services शामिल हैं। Intangible assets, R&D intensity, या growth options से संबंधित factors स्वाभाविक रूप से पहले की अवधि में कमज़ोर होंगे।
लेखांकन मानक: 1963 से पहले financial reporting कम मानकीकृत थी। Accounting ratios (profitability, accruals, investment) पर आधारित factors स्वाभाविक रूप से अधिक शोरयुक्त होते हैं जब अंतर्निहित data कम विश्वसनीय हो।
सूचना वातावरण: सूचना प्रसार धीमा और कम एकसमान था। Investor attention, media coverage, या analyst following से प्रेरित factors भिन्न व्यवहार करेंगे।

Pre-1963 data में किसी factor की अनुपस्थिति उस factor के विरुद्ध साक्ष्य है, लेकिन यह निर्णायक साक्ष्य नहीं है। यह एक व्यापक मूल्यांकन में एक data point है।

अध्ययन 6: Hou, Xue & Zhang (2020) — मानकीकृत Replication

Hou, Xue, और Zhang का Review of Financial Studies में paper जाँची गई anomalies की संख्या के संदर्भ में सबसे व्यापक replication प्रयास था: 452। उनका दृष्टिकोण जानबूझकर मानकीकृत था। प्रत्येक मूल paper की कार्यप्रणाली का पालन करने के बजाय, उन्होंने सभी 452 anomalies पर नियमों का एक सुसंगत सेट लागू किया:

Universe: NYSE, AMEX, और NASDAQ पर सभी common stocks
Breakpoints: NYSE-only breakpoints (Fama-French convention का पालन करते हुए)
Rebalancing: Annual (June) या monthly, signal के प्रकार पर निर्भर
Weighting: Value-weighted portfolios
Sample अवधि: 2016 तक विस्तारित

इन नियमों के अंतर्गत, 452 anomalies में से 64% ने 1.96 से ऊपर t-statistic उत्पन्न करने में विफल रहीं। केवल 36% replicate हुईं।

यह निष्कर्ष नाटकीय है, लेकिन इसकी व्याख्या के लिए यह समझना आवश्यक है कि इस संदर्भ में "विफलता" का क्या अर्थ है। एक anomaly कई कारणों से "विफल" हो सकती है:

मूल निष्कर्ष वास्तव में false था — संयोग से उत्पन्न एक true null result
Anomaly construction choices के प्रति संवेदनशील है — यह मूल कार्यप्रणाली के अंतर्गत अस्तित्व में है लेकिन मानकीकृत दृष्टिकोण के अंतर्गत नहीं
Anomaly समय के साथ क्षय हो गई है — यह मूल sample में वास्तविक थी लेकिन तब से कमज़ोर हो गई है
मानकीकृत कार्यप्रणाली इस विशिष्ट anomaly के लिए अनुपयुक्त है — कुछ anomalies को विशिष्ट कार्यप्रणालीगत विकल्पों की आवश्यकता होती है (जैसे, small-cap anomalies के लिए equal weighting)

Hou, Xue, और Zhang के परिणाम इन स्पष्टीकरणों के बीच अंतर नहीं कर सकते। 64% विफलता दर का अर्थ 64% false discoveries, 64% methodology-sensitive anomalies, या कोई मिश्रण हो सकता है।

मुख्य कार्यप्रणालीगत विकल्प: NYSE breakpoints के साथ value-weighted portfolios का उपयोग करने का निर्णय तटस्थ नहीं है। कई anomalies छोटे stocks में केंद्रित हैं। Value weighting छोटे stocks के प्रभाव को कम करता है, और NYSE breakpoints यह सुनिश्चित करते हैं कि small-stock portfolio में अधिकतर छोटे NYSE stocks हों न कि बहुत छोटे NASDAQ stocks की बहुत बड़ी आबादी। ये उचित विकल्प हैं, लेकिन ये व्यवस्थित रूप से उन anomalies को नुकसान पहुँचाते हैं जो मुख्य रूप से small-cap space में संचालित होती हैं।

अध्ययन 7: Jacobs & Muller (2020) — International Replication

Heiko Jacobs और Sebastian Muller ने 241 anomalies का अंतरराष्ट्रीय बाज़ारों में परीक्षण किया — एक मौलिक रूप से स्वतंत्र dataset में एक सच्चा out-of-sample परीक्षण। U.S. data-mining कलाकृतियों को विभिन्न संस्थागत संरचनाओं, नियामक वातावरणों, और लेखांकन मानकों वाले बाज़ारों में replicate नहीं होना चाहिए।

उन्होंने पाया कि U.S. में खोजी गई anomalies में से लगभग 50% ने कम से कम एक अंतरराष्ट्रीय बाज़ार में replicate किया, और एक सार्थक उपसमूह ने क्षेत्रों में व्यापक रूप से replicate किया। जिन anomalies ने सबसे सुसंगत रूप से replicate किया वे सबसे मज़बूत सैद्धांतिक नींव वाली थीं: value, momentum, profitability, और low volatility।

Jacobs और Muller ने "replication" और "existence" के बीच एक महत्वपूर्ण अंतर भी किया। कुछ anomalies सभी बाज़ारों में अस्तित्व में हो सकती हैं लेकिन विभिन्न रूपों में दिखाई देती हैं। उदाहरण के लिए, value अंतरराष्ट्रीय स्तर पर काम करता है लेकिन इसे कैप्चर करने वाले विशिष्ट accounting variables लेखांकन व्यवस्थाओं में भिन्न होते हैं। Book-to-market U.S. GAAP accounting में अच्छा काम करता है लेकिन विभिन्न लेखांकन मानकों वाले बाज़ारों में earnings-based measures से बदला जाना पड़ सकता है।

हमारे विश्लेषण के लिए मुख्य अंतर्दृष्टि: लगभग 50% की अंतरराष्ट्रीय replication दर इस परिकल्पना के अनुरूप है कि factor zoo का लगभग आधा भाग वास्तविक आर्थिक घटनाओं को कैप्चर करता है और लगभग आधा नहीं करता। जो anomalies अंतरराष्ट्रीय स्तर पर replicate होती हैं वे असमानुपातिक रूप से स्पष्ट सैद्धांतिक तंत्रों वाली हैं, जो ठीक वही है जो H2 (arbitrage परिकल्पना) भविष्यवाणी करती है।

अध्ययन 8: Chen & Zimmermann (2022) — Exact Methodology Replication

Andrew Chen और Tom Zimmermann का paper यकीनन सबसे सावधान replication प्रयास था, इस अर्थ में कि इसने सबसे ऊपर कार्यप्रणालीगत निष्ठा को प्राथमिकता दी। उन्होंने प्रत्येक मूल paper की कार्यप्रणाली का यथासंभव सटीकता से पालन करके 319 anomalies को replicate किया, अपने open-source code repository का उपयोग करते हुए (जिसे उन्होंने सार्वजनिक रूप से उपलब्ध कराया, finance में reproducibility के लिए एक नया मानक स्थापित करते हुए)।

लगभग 82% replication का उनका निष्कर्ष Hou, Xue, और Zhang के 36% के एकदम विपरीत है। अंतर लगभग पूरी तरह से कार्यप्रणालीगत निष्ठा के कारण है। जब Chen और Zimmermann ने उन्हीं anomalies का Hou, Xue, और Zhang की मानकीकृत कार्यप्रणाली का उपयोग करके परीक्षण किया, तो उनकी replication दर नाटकीय रूप से गिर गई — यह पुष्टि करते हुए कि विसंगति कार्यप्रणालीगत विकल्पों से प्रेरित है, anomaly samples में अंतर से नहीं।

यह शायद replication बहस में सबसे महत्वपूर्ण निष्कर्ष है। यह प्रदर्शित करता है कि "क्या anomalies replicate होती हैं?" का उत्तर गंभीर रूप से इस बात पर निर्भर करता है कि आपका replication से क्या तात्पर्य है। यदि replication का अर्थ है "क्या paper में वर्णित सटीक प्रक्रिया रिपोर्ट किए गए परिणाम उत्पन्न करती है," तो उत्तर अधिकतर हाँ है। यदि replication का अर्थ है "क्या यह anomaly एक भिन्न लेकिन उचित कार्यप्रणाली के अंतर्गत अस्तित्व में है," तो उत्तर अधिक सूक्ष्म है।

मुख्य योगदान: Chen और Zimmermann के open-source code repository ने replication बहस को प्रतिस्पर्धी papers की प्रतियोगिता से एक अनुभवजन्य प्रश्न में बदल दिया जिसे कोई भी शोधकर्ता जाँच सकता है। उनका code किसी को भी 319 anomalies में से किसी को भी मूल कार्यप्रणाली या मानकीकृत दृष्टिकोण का उपयोग करके reproduce करने की अनुमति देता है, और सीधे देखने की अनुमति देता है कि कार्यप्रणालीगत विकल्प परिणामों को कैसे प्रभावित करते हैं।

अध्ययन 9: Jensen, Kelly & Pedersen (2023) — Bayesian Reconciliation

Theis Jensen, Bryan Kelly, और Lasse Pedersen ने replication प्रश्न पर sophisticated Bayesian विधियाँ लागू कीं। Factors को एक threshold के आधार पर "significant" या "not significant" वर्गीकृत करने के बजाय, उन्होंने prior information और shrinkage को शामिल करते हुए प्रत्येक factor के अपेक्षित return का posterior distribution अनुमानित किया।

उनका दृष्टिकोण threshold-based testing से मौलिक रूप से भिन्न है। 1.8 के t-statistic वाला factor t > 2.0 threshold के अंतर्गत "failed" वर्गीकृत किया जाएगा लेकिन Bayesian shrinkage के बाद उसका posterior mean सार्थक रूप से सकारात्मक हो सकता है। Binary classification trap से बचकर, Jensen, Kelly, और Pedersen factor premiums के distribution का अनुमान लगाने में सक्षम हुए, न कि केवल उन factors की संख्या जो एक मनमानी सीमा को पार करते हैं।

उनका निष्कर्ष था कि अपेक्षित returns का cross-section समृद्ध और बहु-आयामी है। अधिकांश factors के सकारात्मक अपेक्षित returns हैं, हालाँकि उनके in-sample estimates जो सुझाव देते हैं उससे छोटे। Shrinkage — raw estimate और posterior mean के बीच का अंतर — सामान्यतः 30-50% है, जो McLean और Pontiff के post-publication decay के निष्कर्ष के अनुरूप है। Bayesian framework में, यह shrinkage data mining के बजाय estimation noise को प्रतिबिंबित करती है: वास्तविक premiums हमेशा शोरयुक्त estimates द्वारा सुझाए गए से छोटे थे।

मुख्य अंतर्दृष्टि: Jensen, Kelly, और Pedersen का framework सुझाव देता है कि "replication crisis" आंशिक रूप से threshold-based testing की कलाकृति है। जब आप एक continuous variable (factor premium) को एक binary classification (significant या नहीं) में बाध्य करते हैं, तो आप एक cliff effect बनाते हैं: threshold से ठीक ऊपर के factors को real वर्गीकृत किया जाता है, और ठीक नीचे वालों को false। वास्तव में, strongly positive premiums (value, momentum) से marginally positive premiums (दर्जनों छोटे factors) से शून्य से अप्रभेद्य premiums (वास्तविक noise) तक एक continuum है। Binary framework इस continuum को एक binary पर map करता है, संकट का भ्रम पैदा करता है।

अध्ययन 10: Novy-Marx & Velikov (2016) — Transaction Cost Filter

Robert Novy-Marx और Mihail Velikov ने एक ऐसा प्रश्न पूछा जिसे अधिकांश replication अध्ययनों ने अनदेखा किया: क्या आप वास्तव में इन anomalies का लाभकारी trading कर सकते हैं? Statistical significance economic significance के लिए आवश्यक है लेकिन पर्याप्त नहीं। 3.0 के t-statistic और 50 basis points के gross monthly return वाला factor प्रभावशाली लगता है जब तक आपको यह एहसास न हो कि इसके लिए 200 basis points के bid-ask spreads वाले illiquid micro-cap stocks में मासिक rebalancing की आवश्यकता है।

Novy-Marx और Velikov ने effective spreads, market impact, और short-selling costs पर आधारित यथार्थवादी transaction costs लागू करने के बाद 23 प्रमुख anomalies का परीक्षण किया। कई anomalies जो gross returns में अत्यधिक significant दिखाई दीं, costs के बाद unprofitable या marginal हो गईं।

उनके विश्लेषण ने एक महत्वपूर्ण pattern उजागर किया: transaction costs से बचने की सबसे अधिक संभावना वाली anomalies वे थीं जिनमें low turnover (कम बार rebalancing की आवश्यकता) और liquid, large-cap stocks में केंद्रित थीं। Value और profitability strategies, जो वार्षिक रूप से rebalance करती हैं और size spectrum में संचालित होती हैं, अच्छी तरह बचीं। Momentum strategies, जिन्हें मासिक या अधिक बार rebalancing की आवश्यकता होती है, अधिक प्रभावित हुईं लेकिन cost-aware execution के साथ अभी भी marginally profitable रहीं।

Short-leg costs विशेष रूप से महत्वपूर्ण थीं। कई anomalies अपने returns का एक पर्याप्त हिस्सा short side (overpriced stocks बेचने) से प्राप्त करती हैं, लेकिन short-selling महंगा है — borrowing fees, recall risk, और short positions का asymmetric payoff सभी returns को क्षरित करते हैं। जब short-selling costs शामिल किए गए, तो कई long-short anomalies long-only propositions बन गईं, उनके सैद्धांतिक return को लगभग आधा कम कर दिया।

हमारे विश्लेषण के लिए मुख्य निष्कर्ष: जो anomalies statistically significant और costs के बाद economically profitable दोनों हैं उनकी संख्या केवल statistically significant anomalies की संख्या से नाटकीय रूप से कम है। Novy-Marx और Velikov का विश्लेषण सुझाव देता है कि शायद 10-15 anomalies इस economic filter से बचती हैं, जो 15-25 factors के "robust core" के हमारे अनुमान के अनुरूप है (थोड़ी बड़ी संख्या अतिरिक्त factors को प्रतिबिंबित करती है जो कम turnover implementations पर या long-only format में profitable हैं)।

अध्ययन 11: Chordia, Goyal & Saretto (2020) — संयुक्त Filter

Tarun Chordia, Amit Goyal, और Alessio Saretto ने 180 से अधिक anomalies के व्यापक मूल्यांकन में कई replication filters — post-publication decay, transaction costs, और statistical robustness — को संयोजित किया। उनका paper महत्वपूर्ण है क्योंकि यह प्रत्येक को अलगाव में जाँचने के बजाय replication के सभी तीन आयामों को एक साथ लागू करता है।

सभी filters लागू करने के बाद, Chordia, Goyal, और Saretto ने पाया कि अधिकांश anomalies net आधार पर unprofitable थीं। Post-publication decay और transaction costs का संयुक्त प्रभाव अधिकांश strategies के लिए विनाशकारी था। वे anomalies भी जिन्होंने प्रकाशन के बाद statistical significance बनाए रखी, यथार्थवादी trading costs लागू करने पर economically unviable हो गईं।

उनके विश्लेषण ने एक interaction effect भी उजागर किया: जिन anomalies में post-publication में सबसे अधिक क्षय हुआ वे अक्सर सबसे अधिक transaction costs वाली थीं, क्योंकि दोनों घटनाएँ एक ही अंतर्निहित factor — छोटे, illiquid stocks में केंद्रीकरण — से प्रेरित हैं। Small-cap anomalies gross returns में बड़ी होती हैं (क्योंकि illiquidity बड़ी mispricings बनाती है), post-publication में अधिक क्षय दिखाती हैं (क्योंकि illiquid बाज़ारों में थोड़ी सी भी arbitrage पूँजी का बड़ा price impact होता है), और trading में महंगी होती हैं (wide bid-ask spreads और market impact के कारण)।

निहितार्थ: Factor zoo इससे भी अधिक अतिरेकपूर्ण है जितना दिखता है। कई प्रतीत होने वाली अलग-अलग anomalies — विभिन्न accounting ratios, विभिन्न momentum measures, विभिन्न quality metrics — सभी विभिन्न दृष्टिकोणों से एक ही small-cap, illiquid premium को कैप्चर कर रही हैं। एक बार transaction costs लागू होने पर, वे वास्तव में स्वतंत्र return sources के एक मुट्ठी भर में सिमट जाती हैं।

अध्ययन 12: Calluzzo, Moneta & Topaloglu (2019) — Arbitrage तंत्र

Paul Calluzzo, Fabio Moneta, और Selim Topaloglu ने H2 द्वारा प्रस्तावित arbitrage तंत्र के लिए सबसे प्रत्यक्ष साक्ष्य प्रदान किया। केवल यह देखने के बजाय कि anomalies post-publication में क्षय होती हैं, उन्होंने परीक्षण किया कि क्या क्षय publication event के कारण हुआ था।

उन्होंने 14 प्रसिद्ध anomalies के आसपास institutional trading गतिविधि को track किया और पाया कि:

Institutional investors ने प्रकाशन के बाद anomaly-related stocks में अपनी trading में काफ़ी वृद्धि की
Institutional trading में वृद्धि post-publication anomaly decay की डिग्री के साथ सहसंबद्ध थी
सबसे अधिक traded anomalies ने सबसे बड़ा post-publication decay दिखाया
क्षय प्रकाशन के तुरंत बाद की अवधि में केंद्रित था, एक learning/dissemination तंत्र के अनुरूप

यह साक्ष्य विशुद्ध data mining (H1) के साथ समाधान करना कठिन है। यदि anomalies सांख्यिकीय कलाकृतियाँ होतीं, तो प्रकाशन के बाद institutional trading बढ़ने का कोई कारण नहीं होता — और निश्चित रूप से trading वृद्धि की डिग्री द्वारा क्षय की डिग्री की भविष्यवाणी करने का कोई कारण नहीं। Calluzzo et al. के निष्कर्ष arbitrage channel का दृढ़ता से समर्थन करते हैं: anomalies वास्तविक हैं, प्रकाशन सूचना को प्रसारित करता है, institutional traders अवसर का शोषण करते हैं, और उनका trading आंशिक रूप से mispricing को ठीक करता है।

सीमा: 14 anomalies का sample छोटा है, और सभी 14 साहित्य में सबसे प्रमुख anomalies में से हैं। ये ठीक वे anomalies हैं जो institutional ध्यान आकर्षित करने की सबसे अधिक संभावना रखती हैं। यह तंत्र factor zoo में सैकड़ों कम ज्ञात anomalies तक सामान्यीकृत नहीं हो सकता।

भाग IV: विश्लेषण — Replication के तीन आयाम

Framework का निर्माण

हमारा केंद्रीय विश्लेषणात्मक योगदान एक त्रि-आयामी framework है जो replication अध्ययनों में लगभग सभी असहमति को व्याख्यायित करता है। तीन आयाम हैं:

कार्यप्रणालीगत निष्ठा: Replication मूल paper की प्रक्रियाओं का कितनी निकटता से पालन करती है?
Statistical threshold: कौन सा significance मानक लागू किया जाता है?
Economic filter: क्या transaction costs और capacity constraints पर विचार किया जाता है?

प्रत्येक replication अध्ययन इस त्रि-आयामी स्थान में एक विशिष्ट स्थान रखता है, और उसकी replication दर उसकी स्थिति से पूर्वानुमानित की जा सकती है।

आयाम 1: कार्यप्रणालीगत निष्ठा

Fidelity आयाम "exact replication" (मूल paper की कार्यप्रणाली का सटीकता से पालन) से "standardised replication" (सभी anomalies पर एक समान कार्यप्रणाली लागू करना) तक चलता है।

Fidelity क्यों मायने रखती है: Factor returns construction विवरणों के प्रति आश्चर्यजनक रूप से संवेदनशील हैं। एक ठोस उदाहरण के रूप में momentum factor पर विचार करें। Jegadeesh और Titman के मूल 1993 paper ने momentum को months t-12 से t-2 तक cumulative return के रूप में परिभाषित किया (microstructure effects से बचने के लिए सबसे हाल के महीने को छोड़ते हुए)। Factor को NYSE/AMEX stocks का उपयोग करके, decile breakpoints के साथ, portfolios में equal weighting, और monthly rebalancing के साथ निर्मित किया गया था।

अब इनमें से कोई एक विकल्प बदलें:

NASDAQ stocks शामिल करें: Universe नाटकीय रूप से बदलता है, विशेषकर 1970s-1980s में जब NASDAQ छोटा और illiquid था
Decile breakpoints के बजाय quintile का उपयोग करें: Extreme portfolios कम extreme हो जाते हैं
Equal weighting के बजाय value weighting का उपयोग करें: छोटे stocks का प्रभाव काफ़ी कम हो जाता है
एक महीने के बजाय दो महीने skip करें: Short-term reversal effect अधिक अच्छी तरह हटा दिया जाता है, factor के गुण बदलते हैं
12-month के बजाय 6-month formation period का उपयोग करें: Factor कम अवधि का momentum कैप्चर करता है, जिसके भिन्न risk characteristics हैं

इनमें से प्रत्येक परिवर्तन व्यक्तिगत रूप से उचित है। कोई भी "ग़लत" नहीं है। लेकिन एक momentum factor जो NASDAQ stocks, quintile breakpoints, value weighting, two-month skip, और six-month formation period का उपयोग करता है, 1.5 का t-statistic उत्पन्न कर सकता है — replicate होने में विफल — जबकि सटीक Jegadeesh-Titman specification 4.0 का t-statistic उत्पन्न करता है। "Momentum" replicate होने में विफल नहीं हुआ है। Momentum का एक भिन्न संस्करण replicate होने में विफल हुआ है।

यह घटना factor zoo में व्यापक है। Chen और Zimmermann ने इसे व्यवस्थित रूप से प्रलेखित किया: जब उन्होंने मूल paper की कार्यप्रणाली का मिलान किया, तो 82% factors replicate हुए। जब उन्होंने मानकीकृत कार्यप्रणाली (Hou, Xue, और Zhang के समान) लागू की, तो replication दर काफ़ी गिर गई।

दार्शनिक प्रश्न: कौन सा दृष्टिकोण "सही" है? Exact replication हमें बताती है कि क्या मूल लेखकों का दावा reproducible है — क्या उन्होंने वह पाया जो उन्होंने कहा कि उन्होंने पाया? Standardised replication हमें बताती है कि क्या anomaly उचित कार्यप्रणालीगत भिन्नता के प्रति robust है — क्या घटना एक व्यापक अर्थ में अस्तित्व में है?

दोनों वैध प्रश्न हैं, लेकिन उनके भिन्न उत्तर हैं। Replication "crisis" आंशिक रूप से इन दो प्रश्नों के मिश्रण से उत्पन्न होता है।

कार्यप्रणालीगत संवेदनशीलता का एक Case Study: Size Effect

Size effect एक स्पष्ट उदाहरण प्रदान करता है कि कार्यप्रणालीगत विकल्प replication परिणामों को कैसे निर्धारित करते हैं। Rolf Banz ने 1981 में प्रलेखित किया कि छोटे stocks ने औसतन बड़े stocks से अधिक returns अर्जित किए। यह finance में सबसे प्रसिद्ध anomalies में से एक बन गया।

क्या size effect replicate होता है? उत्तर पूरी तरह इस बात पर निर्भर करता है कि आप इसे कैसे परिभाषित करते हैं:

Size Effect Specification	t-statistic (1963-2023)	Verdict
SMB (Fama-French, value-weighted)	~1.5	Fails at t > 1.96
SMB (equal-weighted)	~3.0	Passes
Decile 1 minus Decile 10 (CRSP)	~2.2	Marginal
Small minus big (NYSE only)	~1.0	Fails
Small minus big (including microcaps)	~3.5	Passes strongly
Small minus big (post-1980)	~0.5	Fails
Small minus big (January only)	~5.0	Passes overwhelmingly
Small minus big (ex-January)	~0.3	Fails
Small minus big (controlling for quality)	~2.5	Passes (Asness et al., 2018)

Size effect specification के आधार पर "replicate" या "fail" होता है। ऐसा नहीं कि size effect अस्पष्ट है — बात यह है कि "size effect" एक एकल, स्पष्ट रूप से परिभाषित वस्तु नहीं है। यह संबंधित specifications का एक परिवार है जो अलग-अलग व्यवहार करते हैं।

यह size के लिए अद्वितीय नहीं है। यह factor zoo में लगभग हर anomaly पर लागू होता है। "क्या यह anomaly replicate होती है?" प्रश्न का कोई उत्तर नहीं है जब तक आप सटीक रूप से निर्दिष्ट न करें कि आप anomaly के किस संस्करण का परीक्षण कर रहे हैं।

आयाम 2: Statistical Threshold

Threshold आयाम "conventional" (t > 1.96, p < 0.05 के समतुल्य) से "multiple-testing-adjusted" (t > 3.0 या उससे अधिक, समायोजन विधि पर निर्भर) तक चलता है।

Harvey, Liu, और Zhu का उच्चतर threshold के लिए तर्क नई factor discovery के संदर्भ में सांख्यिकीय रूप से वैध है। यदि आप एक नए factor का प्रस्ताव करने वाले 317वें शोधकर्ता हैं, तो आपके factor के वास्तविक होने की prior probability पहले शोधकर्ता की तुलना में कम है, क्योंकि 316 factors पहले से उसी data पर परीक्षित हो चुके हैं। Multiple testing समायोजन इस संचित proof burden को ध्यान में रखता है।

हालाँकि, स्थापित factors पर retroactively लागू होने पर यह तर्क टूट जाता है। Momentum पर विचार करें। इसे मूल Jegadeesh और Titman (1993) sample में, post-publication U.S. data में, 40+ अंतरराष्ट्रीय बाज़ारों में (Asness, Moskowitz, और Pedersen, 2013), विभिन्न asset classes (equities, bonds, commodities, currencies) में, और Victorian युग तक फैले ऐतिहासिक data में (Geczy और Samonov, 2016) परीक्षित किया गया है। इनमें से प्रत्येक एक स्वतंत्र परीक्षण है। इस स्वतंत्र साक्ष्य के पर्वत को देखते हुए momentum के false discovery होने की संभावना नगण्य रूप से कम है, चाहे आप मूल paper पर कोई भी multiple testing threshold लागू करें।

Multiple testing framework marginal नई discoveries का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसे उन factors पर लागू नहीं किया जाना चाहिए जिन्होंने पहले से पर्याप्त स्वतंत्र साक्ष्य संचित कर लिए हैं। यह अंतर न करने से replication crisis की धारणा में योगदान हुआ है।

Bayesian विकल्प

Jensen, Kelly, और Pedersen का Bayesian दृष्टिकोण threshold समस्या को पूरी तरह से टाल देता है। Factors को "significant" या "not" वर्गीकृत करने के बजाय, वे प्रत्येक factor के premium का posterior distribution अनुमानित करते हैं। 1.5 के t-statistic वाला factor "insignificant" नहीं है — उसका posterior mean सकारात्मक लेकिन छोटा है, व्यापक credible intervals के साथ। 5.0 के t-statistic वाले factor का posterior mean बड़ा है, संकीर्ण intervals के साथ।

यह continuous प्रतिनिधित्व threshold-based testing के cliff effect से बचता है और ज्ञान की वास्तविक स्थिति को अधिक सटीकता से प्रस्तुत करता है। Factor zoo "real" और "fake" का binary विभाजन नहीं है — यह "लगभग निश्चित रूप से real और बड़ा" (momentum, value) से "संभवतः real लेकिन छोटा" (दर्जनों factors) से "संभवतः शून्य" (noise) तक एक continuum है।

Bayesian framework के अंतर्गत, replication "crisis" गायब हो जाता है क्योंकि कभी कोई crisis था ही नहीं — एक continuous reality पर एक poorly posed binary प्रश्न लागू किया गया था।

आयाम 3: Economic बनाम Statistical Replication

Economic आयाम "gross returns, no costs" से "यथार्थवादी implementation costs और capacity constraints के बाद net returns" तक चलता है। इस आयाम को replication बहस में तुलनात्मक रूप से उपेक्षित किया गया है लेकिन practitioners के लिए यह सबसे महत्वपूर्ण हो सकता है।

Novy-Marx और Velikov की trading costs की taxonomy आवश्यक framework प्रदान करती है:

Effective spreads: Bid-ask spread सबसे बुनियादी transaction cost है। Large-cap stocks के लिए, effective spreads सामान्यतः 2-5 basis points हैं। Micro-cap stocks के लिए, वे 200 basis points से अधिक हो सकते हैं। एक factor जिसके लिए मासिक रूप से micro-cap stocks खरीदने और बेचने की आवश्यकता है, प्रति माह 400+ basis points की round-trip costs का सामना करता है — किसी भी सैद्धांतिक premium पर एक बड़ा बोझ।

Market impact: बड़े orders कीमतों को हिलाते हैं। एक portfolio जिसे $5 million दैनिक volume वाले stock का $100 million खरीदना है, execution के दौरान कीमत को काफ़ी ऊपर धकेलेगा। Market impact liquid large-caps के लिए नगण्य है लेकिन छोटे, illiquid names के लिए भारी हो सकता है। यह एक capacity constraint बनाता है: portfolio size बढ़ने पर factor का premium कम हो जाता है।

Short-selling costs: Academic factors की long-short संरचना free और unlimited short selling मानती है। व्यवहार में, short selling महंगा है (lending fees सामान्यतः easy-to-borrow stocks के लिए वार्षिक 50-300 basis points, और hard-to-borrow stocks के लिए 10%+), जोखिमपूर्ण है (lender किसी भी समय shares वापस बुला सकता है), और कभी-कभी असंभव है (कुछ stocks borrowing के लिए उपलब्ध नहीं हैं)। जो anomalies अपने return का एक पर्याप्त हिस्सा short side से प्राप्त करती हैं उन्हें विशेष रूप से गंभीर implementation बाधाओं का सामना करना पड़ता है।

Turnover: जिन factors को बार-बार rebalancing की आवश्यकता होती है (monthly या अधिक) वे वार्षिक रूप से rebalance करने वालों की तुलना में अधिक बार transaction costs उठाते हैं। Momentum strategies, जो सामान्यतः monthly rebalance करती हैं, value strategies की तुलना में 12 गुना annual turnover का सामना करती हैं, जो सामान्यतः annually rebalance करती हैं। इस turnover differential का अर्थ है कि momentum को value के समान net return देने के लिए काफ़ी अधिक gross premium उत्पन्न करना होगा।

जब ये costs लागू किए जाते हैं, तो factor zoo नाटकीय रूप से सिकुड़ जाता है। Novy-Marx और Velikov ने पाया कि प्रभावशाली gross returns वाली कई anomalies — विशेषकर छोटे, illiquid stocks में उच्च turnover वाली — costs के बाद unprofitable या marginal हो गईं।

Economic Replication Scorecard

हम एक अनुमानित scorecard बना सकते हैं कि प्रमुख anomaly families तीन आयामों में कैसा प्रदर्शन करती हैं:

Factor Family	Exact Stat. Replication	Standardised Stat.	Multiple Testing	After Costs
Value (B/M, E/P)	✓	✓	✓	✓ (low turnover)
Momentum (12-1)	✓	✓	✓	✓ (marginal)
Profitability (GP/A)	✓	✓	✓	✓ (low turnover)
Low volatility / BAB	✓	✓	✓	✓ (low turnover)
Investment (asset growth)	✓	Mixed	Mixed	✓ (low turnover)
Quality composites	✓	✓	✓	✓
Size (SMB)	✓	Mixed	✗	Mixed
Short-term reversal	✓	✓	✓	✗ (high turnover)
Accruals	✓	Mixed	Mixed	Mixed
Net issuance	✓	Mixed	Mixed	✓
Idiosyncratic volatility	✓	Mixed	Mixed	✗
Analyst revisions	✓	✓	Mixed	✗ (high turnover)
Earnings momentum (SUE)	✓	✓	✓	Mixed
Calendar effects (January, etc.)	✓	✗	✗	✗
Liquidity (Amihud)	✓	Mixed	Mixed	✗

Pattern स्पष्ट है। जो factors सभी चार columns पास करते हैं — exact statistical, standardised statistical, multiple testing, और after costs — एक छोटा समूह बनाते हैं: value, momentum, profitability, low volatility, और quality। ये robust core हैं। जो factors कुछ columns पास करते हैं लेकिन अन्य नहीं वे fragile middle बनाते हैं। जो factors अधिकांश या सभी columns fail करते हैं वे noise हैं।

गहन अध्ययन: सभी चार Filters में Momentum

Momentum विशेष ध्यान का पात्र है क्योंकि यह शायद finance में सबसे गहन रूप से अध्ययन की गई anomaly है और हमारे framework के लिए एक आदर्श test case प्रदान करता है।

Filter 1: Exact statistical replication। Momentum जब मूल Jegadeesh और Titman (1993) कार्यप्रणाली का पालन किया जाता है तो लगभग पूरी तरह replicate होता है। 1-month skip के साथ 12-month formation period, decile portfolios, और equal weighting मूल sample में, बाद के samples में, और Chen और Zimmermann की replication में एक बड़ा और अत्यधिक significant premium उत्पन्न करता है। Score: ✓ (स्पष्ट pass)।

Filter 2: Standardised statistical replication। Momentum अधिकांश standardised approaches के अंतर्गत replicate होता है, हालाँकि magnitude भिन्न होता है। Value-weighted momentum equal-weighted momentum से छोटा है (क्योंकि momentum छोटे stocks में मज़बूत है)। लंबे formation periods (जैसे, 6 months) मानक 12 months की तुलना में कमज़ोर परिणाम देते हैं। विभिन्न skip periods magnitude बदलते हैं। Hou, Xue, और Zhang के standardisation के अंतर्गत, momentum replicate होता है। Score: ✓ (pass, specifications के प्रति संवेदनशीलता के साथ)।

Filter 3: Multiple testing threshold। Momentum U.S. data में t > 3.0 सीमा को आराम से पार करता है और 40+ अंतरराष्ट्रीय बाज़ारों में स्वतंत्र रूप से replicate किया गया है। संयुक्त साक्ष्य momentum के false discovery होने की संभावना को नगण्य रूप से कम बनाता है। Score: ✓ (overwhelming pass)।

Filter 4: Transaction costs के बाद। यह वह जगह है जहाँ momentum को अपनी सबसे बड़ी चुनौती का सामना करना पड़ता है। मानक momentum factor को monthly rebalancing की आवश्यकता होती है, जो उच्च turnover उत्पन्न करती है। सबसे चरम रूप में (decile long-short, equal-weighted, monthly rebalancing), transaction costs gross premium का एक पर्याप्त हिस्सा खा जाती हैं।

हालाँकि, साहित्य ने कई cost-mitigation strategies की पहचान की है:

Wider portfolios (decile के बजाय quintile) turnover को काफ़ी कम करते हैं
Intermediate rebalancing frequencies (quarterly) कम turnover के साथ अधिकांश premium को कैप्चर करती हैं
Trading rules जो अनावश्यक turnover को कम करते हैं (जैसे, केवल तब trading करना जब stock का signal काफ़ी बदलता है) gross returns पर न्यूनतम प्रभाव के साथ turnover को 50%+ तक कम कर सकते हैं
Liquid large-cap stocks में implementation small-cap cost burden को समाप्त करता है
Optimal execution algorithms market impact को कम कर सकते हैं

इन संशोधनों को लागू करने के बाद, Novy-Marx और Velikov ने, और अलग से Frazzini, Israel, और Moskowitz ने निष्कर्ष निकाला कि momentum implementable है — मुश्किल से, institutional scale पर, सावधान execution के साथ। यह robust core factors में से implement करने में सबसे चुनौतीपूर्ण है लेकिन economically viable बना हुआ है।

Score: ✓ (marginal pass — cost-aware construction के साथ implementable)।

International evidence: Asness, Moskowitz, और Pedersen (2013) ने 40+ बाज़ारों में equities में, currencies, government bonds, और commodity futures में momentum प्रलेखित किया। साक्ष्य की यह व्यापकता data mining के माध्यम से व्याख्या करना अनिवार्य रूप से असंभव है।

Pre-sample evidence: Geczy और Samonov (2016) ने U.S. equities में Victorian युग तक (1801-1926), CRSP database शुरू होने से पहले, momentum प्रलेखित किया।

निर्णय: Momentum सभी चार filters पास करता है, हालाँकि इसकी economic viability सबसे अधिक constrained है। यह दृढ़ता से robust core में है लेकिन value या profitability strategies की तुलना में अधिक sophisticated implementation की आवश्यकता है।

गहन अध्ययन: सभी चार Filters में Accruals

Accruals एक विपरीत case प्रदान करता है — एक anomaly जो स्पष्ट रूप से "fragile middle" में है।

Accruals anomaly, जिसे Sloan (1996) ने प्रलेखित किया, यह निष्कर्ष है कि उच्च accruals वाली firms (cash flows से बहुत अधिक earnings) बाद में underperform करती हैं, जबकि कम accruals वाली firms (earnings से अधिक cash flows) बाद में outperform करती हैं। आर्थिक अंतर्ज्ञान यह है कि उच्च accruals आक्रामक accounting या असतत earnings का संकेत देते हैं, जबकि कम accruals conservative accounting या उच्च earnings quality का संकेत देते हैं।

Filter 1: Exact statistical replication। Accruals anomaly जब Sloan की मूल कार्यप्रणाली का पालन किया जाता है तो replicate होती है। Score: ✓।

Filter 2: Standardised statistical replication। Anomaly accruals की परिभाषा के प्रति संवेदनशील है। Balance-sheet accruals (Sloan का मूल measure) cash-flow-statement accruals से भिन्न परिणाम देते हैं। Weighting का विकल्प (equal vs. value) काफ़ी मायने रखता है — anomaly value-weighted portfolios में बहुत कमज़ोर है। Hou, Xue, और Zhang के standardisation के अंतर्गत, accruals marginal हैं। Score: Mixed।

Filter 3: Multiple testing threshold। Accruals अधिकांश specifications में t > 2.0 सीमा पार करते हैं लेकिन कई में t > 3.0 से कम रहते हैं। यह देखते हुए कि accruals का परीक्षण सैकड़ों अन्य accounting variables के साथ किया गया था, multiple testing चिंता वैध है। Score: Mixed।

Filter 4: Transaction costs के बाद। Accruals strategies को annual rebalancing की आवश्यकता होती है (एक सकारात्मक विशेषता) लेकिन छोटे, कम liquid stocks में केंद्रित हैं (एक नकारात्मक विशेषता)। Short side विशेष रूप से समस्याग्रस्त है — high-accrual firms ठीक उस प्रकार के speculative, hard-to-borrow stocks होती हैं जहाँ short-selling costs सबसे अधिक हैं। Costs के बाद, accruals anomaly अधिक से अधिक marginally profitable है। Score: Mixed।

International evidence: Mixed — कुछ बाज़ारों में replicate होता है लेकिन अन्य में नहीं, कुछ U.S.-specific component का सुझाव देता है।

निर्णय: Accruals पूरी तरह fragile middle में स्थित है। Anomaly शायद एक वास्तविक घटना को कैप्चर कर रही है (cash flows की तुलना में earnings को अधिक महत्व देने की बाज़ार की प्रवृत्ति), लेकिन यह एक standalone investment strategy का आधार बनने के लिए बहुत fragile, बहुत specification-sensitive, और trade करने में बहुत costly है। यह एक व्यापक quality या profitability framework के भीतर एक secondary tilt के रूप में marginal value जोड़ सकती है।

Redundancy समस्या

एक महत्वपूर्ण मुद्दा जिसे अधिकांश replication अध्ययन पर्याप्त रूप से संबोधित नहीं करते वह factor redundancy है। Zoo में 400+ factors 400 स्वतंत्र return sources नहीं हैं। कई एक ही अंतर्निहित घटना के अत्यधिक सहसंबद्ध measures हैं।

"Quality" family पर विचार करें। शोधकर्ताओं ने विभिन्न quality metrics प्रस्तावित किए हैं:

Gross profitability (Novy-Marx, 2013)
Return on equity (Hou, Xue & Zhang, 2015)
Return on assets
Operating profitability (Fama & French, 2015)
Cash-based profitability (Ball et al., 2016)
Earnings stability
Debt-to-equity ratio
Piotroski F-score (Piotroski, 2000)
Altman Z-score

इनमें से प्रत्येक को एक अलग anomaly के रूप में प्रस्तावित किया गया है, प्रत्येक का अपना academic paper और t-statistic है। लेकिन ये सभी एक ही चीज़ के variations माप रहे हैं: मज़बूत, स्थिर financial characteristics वाली firms कमज़ोर, अस्थिर characteristics वाली firms से बेहतर प्रदर्शन करती हैं। "400+ factors" की गिनती प्रत्येक को अलग मानती है, multiple testing समस्या और replication failure rate दोनों को बढ़ाती है।

जब factors को उनके economic mechanism — value, momentum, profitability/quality, risk, size, investment, liquidity — द्वारा समूहित किया जाता है, तो वास्तव में स्वतंत्र return sources की संख्या शायद 6-8 families तक सिमट जाती है। प्रत्येक family के भीतर, सबसे अच्छी specification अन्य से बेहतर प्रदर्शन करती है, लेकिन अधिकांश family members सबसे अच्छी के शामिल होने के बाद केवल marginally योगदान देते हैं।

इस redundancy के replication बहस के लिए गहन निहितार्थ हैं:

316 factors जो Harvey et al. ने गिने वे 316 स्वतंत्र परीक्षण नहीं हैं — वे शायद 30-50 स्वतंत्र परीक्षण हैं, प्रत्येक को कई दृष्टिकोणों से जाँचा गया
एक विशिष्ट quality measure के replicate होने में "विफलता" का अर्थ यह नहीं कि quality fake है — इसका अर्थ हो सकता है कि वह विशेष specification उसी family में अन्य से inferior है
Multiple testing समायोजन factor families पर लागू होना चाहिए, व्यक्तिगत specifications पर नहीं

Machine Learning और नई Factor Discovery

Asset pricing में machine learning का उदय (Gu, Kelly, और Xiu, 2020) replication बहस में एक नया आयाम जोड़ता है। ML विधियाँ characteristics के बीच non-linear, interactive संबंधों की पहचान कर सकती हैं जो पारंपरिक linear विधियाँ चूक जाती हैं। यह क्षमता दोनों तरफ काटती है:

सकारात्मक व्याख्या: ML विधियाँ वास्तविक return predictability की पहचान कर सकती हैं जिसे linear factor models कैप्चर नहीं कर सकते। 400+ linear factors का "factor zoo" कम संख्या में non-linear संबंधों का एक कच्चा approximation हो सकता है। ML उस अंतर्निहित संरचना को पहचान सकता है जिसे व्यक्तिगत factors approximate करते हैं।

नकारात्मक व्याख्या: ML विधियों में overfitting की भारी क्षमता है। पर्याप्त parameters वाला neural network किसी भी in-sample pattern को fit कर सकता है, noise सहित। कठोर out-of-sample testing और economic priors के बिना, ML-discovered predictability पारंपरिक factor analysis से भी अधिक data mining-प्रवण हो सकती है।

Gu, Kelly, और Xiu ने व्यापक out-of-sample testing के माध्यम से इस चिंता को संबोधित किया और पाया कि उनके ML models ने वास्तव में out-of-sample returns की भविष्यवाणी की, एक R² के साथ जो सबसे अच्छे linear model से लगभग तीन गुना अधिक था। हालाँकि, जब उन्होंने ML predictions को उनके constituent characteristics में विभाजित किया, तो प्रमुख predictors परिचित थे: momentum, value, liquidity, volatility। ML models नए factors नहीं खोज रहे थे — वे ज्ञात factors को बेहतर तरीके से संयोजित करने के तरीके खोज रहे थे, विशेष रूप से non-linear interactions के माध्यम से।

यह निष्कर्ष हमारे तीन-स्तरीय वर्गीकरण का समर्थन करता है। पारंपरिक विधियों द्वारा पहचाने गए factors का robust core वही है जो ML विधियों द्वारा भी पहचाना जाता है। ML की अतिरिक्त complexity मुख्य रूप से इन factors को संयोजित करने के तरीके में सुधार करती है, यह नहीं कि कौन से factors मायने रखते हैं।

भाग V: परिणाम और व्याख्या

तीन परिकल्पनाओं का मूल्यांकन

12 replication अध्ययनों से साक्ष्य एकत्र और विश्लेषित करने के बाद, अब हम अपनी तीन प्रतिस्पर्धी परिकल्पनाओं का मूल्यांकन करते हैं।

H1 (Data Mining) — आंशिक रूप से समर्थित, लेकिन अत्यधिक सरल।

समर्थन में साक्ष्य:

Harvey, Liu, और Zhu का multiple testing तर्क सांख्यिकीय रूप से वैध है: 400+ factors में से कई निस्संदेह false discoveries हैं
कुछ anomalies pre-1963 data (Linnainmaa & Roberts) में पूरी तरह गायब हो जाती हैं या exact replication के अंतर्गत भी विफल होती हैं
प्रकाशित factors की विशाल संख्या (400+) उदार significance thresholds पर भी कुछ false positives की गारंटी देती है
कई anomalies standardised replication के अंतर्गत विफल होती हैं, जो specification choices के प्रति संवेदनशीलता का सुझाव देती है जो overfitting की विशेषता है

विरोध में साक्ष्य:

Post-publication decay आंशिक (42% survival) है, पूर्ण नहीं — विशुद्ध data mining शून्य survival की भविष्यवाणी करती है
Institutional trading post-publication में बढ़ती है और decay के साथ सहसंबद्ध है (Calluzzo et al.) — data mining इसकी व्याख्या नहीं कर सकती
Factors का robust core (value, momentum, profitability, low volatility) स्वतंत्र बाज़ारों, समय अवधियों, asset classes, और कार्यप्रणालियों में replicate होता है — एक pattern जो data mining के साथ असंगत है
ML विधियाँ (Gu, Kelly, और Xiu) पूरी तरह भिन्न सांख्यिकीय विधियों के माध्यम से उन्हीं core factors की पहचान करती हैं, स्वतंत्र पुष्टि प्रदान करती हैं

H1 पर निर्णय: Factor zoo के शायद 50-60% (statistical noise tier) के लिए सत्य, लेकिन robust core के लिए असत्य। विशुद्ध data mining परिकल्पना अत्यधिक व्यापक है — यह सभी anomalies को समान रूप से मानती है और इसमें व्यवस्थित patterns की व्याख्या नहीं कर सकती कि कौन सी anomalies बचती हैं और कौन सी नहीं।

H2 (Arbitrage) — आंशिक रूप से समर्थित, मज़बूत mechanistic साक्ष्य के साथ।

समर्थन में साक्ष्य:

Calluzzo et al. का प्रकाशन के प्रति institutional trading प्रतिक्रिया का प्रत्यक्ष साक्ष्य सम्मोहक है
आंशिक post-publication decay (पूर्ण नहीं) ठीक वही है जो limits-to-arbitrage theory भविष्यवाणी करती है
जिन anomalies का trading आसान है (large-cap, liquid, low turnover) वे hard-to-trade anomalies की तुलना में अधिक post-publication decay दिखाती हैं — arbitrage पूँजी के सबसे आसान अवसरों की ओर बहने के अनुरूप
Robust core factors औसत anomaly की तुलना में छोटा post-publication decay दिखाते हैं, capacity constraints द्वारा arbitrage को सीमित करने के अनुरूप
दशकों के प्रकाशन के बाद premiums की दृढ़ता (value कम से कम Graham और Dodd के 1934 से ज्ञात है) arbitrage की संरचनात्मक सीमाओं के अनुरूप है, data mining के नहीं

विरोध में साक्ष्य:

कुछ anomalies मानकीकृत कार्यप्रणाली के अंतर्गत मूल sample अवधि में भी replicate होने में विफल रहती हैं — arbitrage समकालीन data में विफलताओं की व्याख्या नहीं कर सकता
Arbitrage परिकल्पना यह नहीं समझा सकती कि कुछ anomalies specification-sensitive क्यों हैं — एक वास्तविक आर्थिक घटना को उचित कार्यप्रणालीगत विकल्पों के प्रति robust होना चाहिए
परिकल्पना का तात्पर्य है कि प्रकाशन से पहले सभी anomalies वास्तविक थीं, जो Harvey et al. के सांख्यिकीय तर्क से असंगत है कि कई false discoveries हैं

H2 पर निर्णय: Anomalies के एक सार्थक उपसमूह के लिए सत्य — शायद factor zoo का 20-30% (fragile middle plus robust core का कुछ भाग)। Arbitrage तंत्र वास्तविक और महत्वपूर्ण है लेकिन सभी anomaly dynamics की व्याख्या नहीं करता। यह data mining और कार्यप्रणालीगत संवेदनशीलता के साथ मिलकर संचालित होता है।

H3 (Definitional) — organising framework के रूप में दृढ़ता से समर्थित।

समर्थन में साक्ष्य:

किसी अध्ययन की replication दर का सबसे शक्तिशाली predictor उसका कार्यप्रणालीगत दृष्टिकोण है, यह नहीं कि वह किन anomalies की जाँच करता है
Chen और Zimmermann और Hou, Xue, और Zhang ने काफी हद तक अतिव्यापी anomaly sets की जाँच की और कार्यप्रणालीगत अंतरों के कारण विपरीत निष्कर्षों पर पहुँचे
एक ही anomaly को replicated या failed वर्गीकृत किया जा सकता है इसके आधार पर: weighting scheme, breakpoints, inclusion criteria, significance threshold, और क्या costs पर विचार किया गया है
Harvey et al. (अधिकांश विफल), McLean & Pontiff (अधिकांश decay के साथ बचती हैं), और Chen & Zimmermann (अधिकांश replicate होती हैं) के बीच तीन-तरफा असहमति पूरी तरह से हल हो जाती है जब आप पहचानते हैं कि प्रत्येक एक भिन्न प्रश्न का उत्तर दे रहा है
अंतरराष्ट्रीय replication दरें (~50%) वास्तविक और spurious anomalies के मिश्रण के अनुरूप हैं, all-or-nothing crisis के नहीं

विरोध में साक्ष्य:

यदि असहमति विशुद्ध रूप से definitional होती, तो ऐसी कोई anomalies नहीं होतीं जो सभी कार्यप्रणालियों में लगातार विफल होतीं। ऐसी anomalies का अस्तित्व (calendar effects, कुछ microstructure-based anomalies) का अर्थ है कि data mining वास्तविक है, केवल एक definitional कलाकृति नहीं
Definitional परिकल्पना को unfalsifiable के रूप में देखा जा सकता है — "उत्तर परिभाषा पर निर्भर करता है" trivial अर्थ में हमेशा सत्य है

H3 पर निर्णय: H3 सही organising framework है। Replication साहित्य में प्रतीत होने वाला विरोधाभास काफी हद तक (हालाँकि पूरी तरह नहीं) विभिन्न अध्ययनों द्वारा विभिन्न प्रश्न पूछने और विभिन्न विधियों का उपयोग करने का उत्पाद है। "Replication crisis" मुख्य रूप से परिभाषा का संकट है, विज्ञान का संकट नहीं।

तीन-स्तरीय संश्लेषण

सभी तीन परिकल्पनाओं के साक्ष्यों को संयोजित करते हुए, हम अपने केंद्रीय निष्कर्ष पर पहुँचते हैं: factor zoo में भिन्न replication गुणों वाली तीन अलग-अलग आबादियाँ हैं।

Tier 1: Robust Core (15-25 factors)

ये anomalies सभी चार replication filters पास करती हैं: exact statistical, standardised statistical, multiple testing, और economic (costs के बाद)। इनकी विशेषताएँ हैं:

Risk, behavioural bias, या institutional constraints में निहित मज़बूत सैद्धांतिक नींव
कई स्वतंत्र बाज़ारों और समय अवधियों में replication
मामूली लेकिन स्थायी post-publication decay (आंशिक arbitrage के अनुरूप)
Institutional scale पर trading के लिए पर्याप्त capacity
Low-to-moderate turnover, cost-effective implementation को सक्षम करता है

Robust core में शामिल हैं:

Value (book-to-market, earnings yield, cash flow yield): Risk-based और behavioural स्पष्टीकरण; Graham और Dodd (1934) से विश्व स्तर पर प्रलेखित
Momentum (12-month minus 1-month return): Behavioural (सूचना के प्रति underreaction); 40+ बाज़ारों और कई asset classes में प्रलेखित
Profitability (gross profitability, operating profitability): आर्थिक तर्क (profitable firms अधिक मूल्यवान हैं); Novy-Marx और Fama-French द्वारा स्वतंत्र रूप से पुष्टि
Low volatility / Betting Against Beta (low beta, low idiosyncratic volatility): Leverage constraint तंत्र; विश्व स्तर पर asset classes में प्रलेखित
Quality composites (profitability + stability + low leverage): Firm financial health का बहु-आयामी measure
Investment (asset growth, capital expenditure growth): आर्थिक तर्क (आक्रामक investment कम returns की भविष्यवाणी करता है); हालाँकि साक्ष्य उपरोक्त से कुछ कमज़ोर है
Earnings momentum (standardised unexpected earnings, analyst revision): Post-earnings-announcement drift; साहित्य में सबसे robust anomalies में से एक
Net issuance (share repurchases vs. issuance): Information asymmetry स्पष्टीकरण; repurchase करने वाली firms जानती हैं कि उनका stock undervalued है

Tier 2: Fragile Middle (50-100 factors)

ये anomalies कुछ शर्तों के अंतर्गत replicate होती हैं लेकिन अन्य के अंतर्गत नहीं। ये सामान्यतः Filter 1 (exact replication) पास करती हैं लेकिन Filters 2-4 में से एक या अधिक में विफल होती हैं। इनमें शामिल हैं:

Robust factors के specification-sensitive variants (जैसे, वैकल्पिक momentum definitions, वैकल्पिक quality metrics)
Anomalies जो equal-weighted में काम करती हैं लेकिन value-weighted portfolios में नहीं (अक्सर micro-cap stocks द्वारा प्रेरित)
Anomalies जो statistically significant हैं लेकिन transaction costs के बाद economically unviable
Anomalies जो U.S. में replicate होती हैं लेकिन अंतरराष्ट्रीय स्तर पर नहीं (संभवतः U.S.-specific accounting या institutional कलाकृतियाँ)
Anomalies जो post-publication में काफ़ी क्षय हो गई हैं, marginal residual premiums छोड़कर

ये factors आवश्यक रूप से "fake" नहीं हैं — कई वास्तविक लेकिन सीमित घटनाओं को कैप्चर करते हैं। ये एक व्यापक portfolio construction framework के भीतर secondary tilts के रूप में उपयोगी हो सकते हैं, लेकिन ये विश्वसनीय standalone return sources नहीं हैं।

Tier 3: Statistical Noise (250+ factors)

ये anomalies किसी भी उचित मानक के अंतर्गत replicate होने में विफल रहती हैं। इनमें शामिल हैं:

Calendar effects (weekend effect, turn-of-year, holiday effects) जो काफी हद तक गायब हो गए हैं
Microstructure कलाकृतियाँ जो वास्तविक predictability के बजाय data errors, bid-ask bounce, या stale pricing को प्रतिबिंबित करती थीं
Accounting-based anomalies जो एक सीमित समय अवधि या किसी विशेष accounting regime के लिए विशिष्ट थीं
"Factors" जो स्पष्ट रूप से व्यापक specification search का उत्पाद थे, अक्सर असामान्य construction choices द्वारा पहचाने जा सकते हैं (जैसे, विशिष्ट lag structures पर तीन variables को interact करना)
Factors जो zoo में अन्य factors की नकल करते हैं लेकिन संयोग से किसी विशेष sample में significance प्राप्त कर लिए हैं

ये factors replication crisis की धारणा में योगदान करते हैं। यही कारण है कि Harvey, Liu, और Zhu ने t > 3.0 threshold प्रस्तावित किया। यही कारण है कि Hou, Xue, और Zhang ने 64% failure rate पाया। लेकिन ये factor zoo के समग्र प्रतिनिधि नहीं हैं — ये वह noise हैं जो किसी भी बड़े पैमाने के empirical research programme के साथ आता है।

Confidence Assessment

हम अपने समग्र framework को 5 में से 4 confidence पर rate करते हैं।

सबसे अधिक confidence (5 में से 5) के क्षेत्र:

Replication अध्ययनों में असहमति मुख्य रूप से कार्यप्रणालीगत है, substantive नहीं
Factors का एक robust core अस्तित्व में है जो सभी replication filters से बचता है
विशुद्ध data mining साक्ष्य के पूर्ण pattern को स्पष्ट नहीं कर सकती (आंशिक decay, international replication, institutional trading response)

मध्यम confidence (5 में से 3-4) के क्षेत्र:

Robust core का सटीक आकार (हमारा अनुमान 15-25 है, लेकिन सीमाएँ अस्पष्ट हैं)
Factor zoo का वह अनुपात जो विशुद्ध noise है (हमारा अनुमान 60%+ है, लेकिन यह लागू सांख्यिकीय threshold पर निर्भर करता है)
Post-publication decay को समझाने में arbitrage बनाम data mining का सापेक्ष महत्व

कम confidence (5 में से 2-3) के क्षेत्र:

क्या "fragile middle" में विशिष्ट factors robust core या noise tier में हैं
क्या ML विधियाँ non-linear संबंधों की पहचान करके robust core का विस्तार करेंगी या केवल मौजूदा factors के combinations को optimize करेंगी
Factor premiums का दीर्घकालिक भविष्य — क्या robust core अनिश्चित काल तक बना रहेगा, या बढ़े हुए capital flows अंततः इन्हें भी समाप्त कर देंगे?

भाग VI: अन्य क्षेत्रों से तुलना

Finance बनाम Psychology: भिन्न संकट

Finance में replication crisis की तुलना अक्सर psychology में replication crisis से की जाती है, लेकिन दोनों मौलिक रूप से भिन्न हैं।

Psychology में, Open Science Collaboration (2015) ने 100 प्रकाशित अध्ययनों को replicate करने का प्रयास किया और पाया कि replication में केवल 36% ने significant results उत्पन्न किए। इसे व्यापक रूप से कार्यप्रणाली के संकट के रूप में व्याख्यायित किया गया — underpowered studies, p-hacking, और publication bias ने false positives से प्रभुत्व वाला साहित्य उत्पन्न किया था।

Finance में, Hou, Xue, और Zhang की "36% replication rate" सतही रूप से समान है लेकिन mechanistically भिन्न है। Finance studies में सामान्यतः बहुत बड़े sample sizes होते हैं (दशकों तक मासिक रूप से observed हज़ारों stocks), जिसका अर्थ है कि वे आम तौर पर well-powered हैं। Finance में मुख्य मुद्दे underpowered studies नहीं बल्कि multiple testing (एक ही data पर बहुत अधिक hypotheses) और methodological sensitivity (construction choices के साथ बदलने वाले results) हैं।

इसके अलावा, psychology की replication failures अक्सर absolute थीं — replicated effect शून्य या विपरीत sign का था। Finance की "failures" अक्सर आंशिक हैं — effect अस्तित्व में है लेकिन कम magnitude पर, एक भिन्न specification में, या marginal significance के साथ। यह आंशिक replication outright false discovery की तुलना में methodological sensitivity के अधिक अनुरूप है।

Finance बनाम Medicine: समान संरचनात्मक प्रोत्साहन

Finance में संरचनात्मक प्रोत्साहन medicine के अधिक समान हैं, जहाँ John Ioannidis ने प्रसिद्ध रूप से तर्क दिया कि "अधिकांश प्रकाशित शोध निष्कर्ष false हैं।" दोनों क्षेत्रों में:

Top journals में प्रकाशन के लिए तीव्र प्रतिस्पर्धा है
Null results की तुलना में नवीन, आश्चर्यजनक निष्कर्ष पसंद किए जाते हैं
शोधकर्ताओं के पास study design में पर्याप्त degrees of freedom हैं (sample, variables, model specification का विकल्प)
एक ही अंतर्निहित data sources का कई शोधकर्ताओं द्वारा उपयोग किया जाता है (finance में CRSP/Compustat; medicine में common clinical trial databases)

मुख्य अंतर यह है कि finance में एक प्राकृतिक out-of-sample test है जो medicine में अक्सर अनुपस्थित है: समय। 2005 में प्रकाशित एक financial anomaly को post-2005 data में परीक्षित किया जा सकता है यह देखने के लिए कि क्या यह बनी रहती है। किसी विशिष्ट treatment के बारे में एक medical finding को retroactively परीक्षित नहीं किया जा सकता। यह finance को एक अंतर्निहित self-correction तंत्र देता है जिसका McLean और Pontiff और अन्य ने उपयोग किया है।

भाग VII: सीमाएँ और हम क्या दावा नहीं कर सकते

विरासत में मिली सीमाएँ

यह विश्लेषण प्रकाशित परिणामों का संश्लेषण करता है — हमने नए regressions नहीं चलाए, नए factors नहीं बनाए, या नए data का परीक्षण नहीं किया। हमारे निष्कर्ष अंतर्निहित अध्ययनों की प्रत्येक सीमा को विरासत में लेते हैं।

CRSP/Compustat monoculture। U.S. asset pricing शोध का भारी बहुमत CRSP (stock returns) और Compustat (accounting data) के data का उपयोग करता है। यह एक सूक्ष्म प्रकार का common bias बनाता है: इन databases में कोई भी व्यवस्थित errors — survivorship bias, backfill bias, data corrections, coverage gaps — पूरे साहित्य में propagate होते हैं। एक replication study जो मूल study के समान CRSP/Compustat data का उपयोग करता है वह methodological reproducibility का परीक्षण कर रहा है, data independence का नहीं। केवल international replications (Jacobs और Muller) और वैकल्पिक data sources (जैसे Linnainmaa और Roberts का hand-collected pre-1963 data) वास्तव में स्वतंत्र साक्ष्य प्रदान करते हैं।

Replication studies में publication bias। हमने इसे पहले नोट किया था लेकिन यह दोहराने योग्य है: नाटकीय निष्कर्षों ("crisis" या "no crisis") पर पहुँचने वाले replication studies के अस्पष्ट निष्कर्षों वाले की तुलना में प्रकाशित होने की अधिक संभावना है। हमारा साक्ष्य आधार replication distribution के extremes का अधिक प्रतिनिधित्व कर सकता है। जिन studies में, मान लीजिए, 55% replication rate पाई गई — किसी भी दिशा में नाटकीय नहीं — वे file drawers में अप्रकाशित बैठे हो सकते हैं।

Time-varying risk premiums। जो हम post-publication decay (arbitrage) या data mining को attributeकरते हैं उसमें से कुछ वास्तव में time-varying risk compensation को प्रतिबिंबित कर सकता है। यदि equity risk premium 1980s के बाद से गिरा है (जैसा कि कुछ साक्ष्य सुझाते हैं), तो बाज़ार के सापेक्ष मापे गए सभी factor premiums भी गिरेंगे। इस confound को time-varying risk के structural models के बिना हल करना कठिन है, जो एक literature synthesis के दायरे से बाहर हैं।

Factors में survivorship bias। Factor zoo में स्वयं एक survivorship bias हो सकता है। जो factors in-sample में काम किए वे प्रकाशित हुए; जो नहीं किए वे छोड़ दिए गए। लेकिन छोड़े गए factors में कुछ ऐसे हो सकते थे जो out-of-sample काम करते, जबकि कुछ प्रकाशित factors नहीं करते। प्रकाशित factors की आबादी परीक्षित factors की आबादी का एक biased sample है।

हम यह नहीं पहचान सकते कि कौन सी विशिष्ट anomalies "real" हैं। हमारा तीन-स्तरीय framework populations का वर्णन करता है, व्यक्तिगत factors का नहीं। किसी विशिष्ट anomaly को robust core, fragile middle, या noise tier में assign करने के लिए विस्तृत empirical analysis की आवश्यकता है जो अंतर्निहित replication studies ने की है। हम framework प्रदान करते हैं; 12 studies वर्गीकरण के लिए साक्ष्य प्रदान करते हैं।

क्या हमारे निष्कर्ष बदलेगा

हम यह बताने में विश्वास करते हैं कि कौन सा साक्ष्य हमें अपने विचार संशोधित करने के लिए प्रेरित करेगा:

साक्ष्य जो H1 (data mining) को मज़बूत करेगा:

यदि exact methodology का उपयोग करने वाली एक व्यापक replication (Chen और Zimmermann जैसी) बहुत कम replication rate पाए — मान लीजिए, 82% के बजाय 50% — तो यह सुझाव देगा कि exact replication भी हमारे वर्तमान विश्वास से अधिक बार विफल होती है
यदि robust core factors (value, momentum) सभी बाज़ारों और specifications में post-2020 data में शून्य या negative premiums दिखाने लगें, तो यह "real but arbitraged" व्याख्या को चुनौती देगा

साक्ष्य जो H2 (arbitrage) को मज़बूत करेगा:

यदि एक प्राकृतिक प्रयोग (जैसे किसी factor का ऐसी भाषा में प्रकाशन जो अचानक एक नए बाज़ार में अनुवादित और प्रसारित हो) उस बाज़ार में तत्काल factor decay दिखाए, तो यह arbitrage channel के लिए स्वच्छ causal साक्ष्य प्रदान करेगा
यदि factor-based ETFs की वृद्धि को Granger-causal framework में सीधे factor decay से जोड़ा जा सके

साक्ष्य जो H3 (definitional) को कमज़ोर करेगा:

यदि दो replication studies समान कार्यप्रणाली लेकिन भिन्न anomaly samples का उपयोग करें और विपरीत निष्कर्षों पर पहुँचें, तो यह सुझाव देगा कि anomaly characteristics हमारे विश्वास से अधिक मायने रखती हैं
यदि अध्ययनों में replication दरों का variance कार्यप्रणालीगत अंतरों से uncorrelated हो, तो हमारे framework की व्याख्यात्मक शक्ति खो जाएगी

सुझाए गए Empirical Tests

हम पाँच परीक्षण प्रस्तावित करते हैं जो हमारे framework को और validate या refute कर सकते हैं:

Methodology regression: परीक्षण करें कि क्या replication rate (12 अध्ययनों में) anomaly characteristics (औसत t-statistic, economic mechanism प्रकार, size/liquidity concentration) को control करने के बाद कार्यप्रणालीगत characteristics (fidelity, threshold, cost treatment) द्वारा predicted होती है। यदि कार्यप्रणाली anomaly characteristics से अधिक variance explain करती है, तो H3 दृढ़ता से समर्थित है।
Decay heterogeneity: जाँचें कि क्या "robust core" factors "fragile middle" factors से भिन्न post-publication decay patterns दिखाते हैं। Robust core को छोटा, धीमा decay दिखाना चाहिए; fragile middle को बड़ा, तेज़ decay; noise tier को शून्य तक तत्काल decay।
ML dominance test: परीक्षण करें कि क्या केवल robust core factors से ML combinations से निर्मित portfolios उन portfolios को dominate करते हैं जो fragile middle factors भी शामिल करते हैं। यदि robust core पर्याप्त है, तो fragile middle factors signal नहीं बल्कि noise जोड़ते हैं।
Factor capacity mapping: प्रत्येक robust core factor के लिए, वह अधिकतम portfolio size अनुमानित करें जिस पर net-of-cost premium सकारात्मक बना रहता है। यह गुणात्मक "survives costs" मूल्यांकन को एक मात्रात्मक capacity estimate में बदलेगा।
Real-time replication: एक prospective, real-time tracking system स्थापित करें जो factor returns को अर्जित होते समय monitor करे (retroactively नहीं)। यह सभी look-ahead bias को समाप्त करता है और factor persistence का सबसे स्वच्छ संभव परीक्षण प्रदान करता है।

भाग VIII: निहितार्थ

Institutional Investors के लिए

Factor selection काफी हद तक हल हो चुका है। Replication साहित्य factors के एक विश्वसनीय core पर converge हो गया है: value, momentum, profitability/quality, और low volatility। कौन से factors "real" हैं इस पर बहस इस core group के लिए काफ़ी हद तक settled है। शेष खुले प्रश्न implementation के बारे में हैं, selection के बारे में नहीं।

Implementation ही alpha है। एक naively constructed factor portfolio और एक sophisticatedly constructed एक के बीच का अंतर वार्षिक 100-200 basis points हो सकता है। यह implementation gap — turnover management, rebalancing frequency, capacity-aware sizing, और execution quality द्वारा प्रेरित — अक्सर एक marginal factor को शामिल करने या बाहर करने के अंतर से बड़ा है। Institutional investors के लिए, competitive advantage का प्राथमिक स्रोत factor discovery नहीं बल्कि factor construction है।

Fragile middle से सावधान रहें। Fragile middle में 50-100 factors एक प्रलोभन प्रदान करते हैं: वे backtest में अच्छा प्रदर्शन करते हैं और diversification जोड़ते प्रतीत होते हैं। लेकिन उनकी fragility — specification के प्रति संवेदनशीलता, costs के बाद marginal, बाज़ारों में असंगत — का अर्थ है कि वे उस portfolio को जो पहले से robust core को कैप्चर करता है, return की तुलना में noise जोड़ने की अधिक संभावना रखते हैं। एक fragile middle factor शामिल करने के लिए proof burden उच्च होना चाहिए: कई specifications में प्रदर्शित robustness, स्पष्ट economic mechanism, और इच्छित portfolio scale पर positive net-of-cost return।

Capacity binding constraint है। Robust core factors की भी finite capacity है। जैसे-जैसे अधिक पूँजी factor-based strategies में प्रवाहित होती है (smart beta ETFs, quantitative funds, और institutional mandates के माध्यम से), factor premiums compressed होंगे। प्रश्न यह नहीं है कि यह compression होगा या नहीं बल्कि premiums पूरी तरह arbitrage होने से पहले कितनी capacity शेष है। अनुमान व्यापक रूप से भिन्न हैं, लेकिन प्रमुख factors के संयुक्त कुल factor strategy capacity का consensus range $1-5 trillion है। Explicit factor strategies में वर्तमान कुल assets इस range के करीब पहुँच रहे हैं, जो सुझाव देता है कि forward-looking premiums ऐतिहासिक अनुमानों से छोटे हो सकते हैं।

Regime change की निगरानी करें। Factor premiums स्थिर नहीं हैं — वे economic regimes, market conditions, और structural changes में भिन्न होते हैं। Momentum सामान्य बाज़ारों में अच्छा काम करता है लेकिन regime transitions के दौरान विनाशकारी crashes सहता है (जैसे March 2009 momentum crash)। Value ने विस्तारित अवधियों (2010-2020) के लिए underperform किया, revert होने से पहले। Low volatility strategies बढ़ती दर वाले वातावरणों के प्रति vulnerable हैं। Institutional investors को regime-aware factor allocation बनाए रखना चाहिए, static weights रखने के बजाय market conditions के आधार पर factor exposures को scale करना।

Retail Investors के लिए

Simplicity complexity को हराती है। Retail investors के लिए replication साहित्य का व्यावहारिक निहितार्थ मुक्तिदायक है: आपको 400+ factors समझने की आवश्यकता नहीं है। Investable set छोटा है। Broad market exposure (60-70%) plus value, momentum, quality, और low volatility की ओर लक्षित tilts (30-40%) वाला portfolio उपलब्ध factor premiums के विशाल बहुमत को कैप्चर करता है। इन tilts को 30 basis points से कम कुल expense ratios वाले low-cost ETFs के माध्यम से access किया जा सकता है।

Novel strategies के प्रति संदेहशील रहें। Replication साहित्य दिखाता है कि नई प्रकाशित anomalies का लगभग 50-65% कठोर मानकों के अंतर्गत replicate होने में विफल रहेगा, और शेष का अधिकांश transaction costs से नहीं बचेगा। किसी एकल academic anomaly के आधार पर marketed कोई भी investment product — विशेषकर हाल ही में प्रकाशित — गहरी शंका के साथ देखा जाना चाहिए। Proof burden product provider पर है कि वह replication, robustness, और net-of-cost viability प्रदर्शित करे।

Time horizon factor selection से अधिक मायने रखता है। Long time horizons (20+ वर्ष) वाले retail investors के लिए, सबसे महत्वपूर्ण investment निर्णय यह नहीं है कि किन factors की ओर tilt करें बल्कि यह है कि अनिवार्य downturns के दौरान equity exposure बनाए रखें। 2-4% वार्षिक robust factor premiums दशकों में काफ़ी compound होते हैं, लेकिन केवल उन investors के लिए जो invested रहते हैं। Factor timing — market conditions के आधार पर value और momentum के बीच rotate करने का प्रयास — institutional investors के लिए भी कठिन है और retail investors के लिए value को नष्ट करने की संभावना है।

यदि भ्रमित हों तो factor zoo से पूरी तरह बचें। यदि factor zoo भारी लगता है, तो एक simple total market index fund एक बिल्कुल उचित विकल्प है। Robust factor premiums वास्तविक लेकिन moderate (costs से पहले वार्षिक 2-4%) हैं, और उन्हें प्राप्त करने के लिए अनुशासन की आवश्यकता है: underperformance की अनिवार्य अवधियों (जो किसी भी individual factor के लिए 5-10 वर्ष तक हो सकती हैं) के दौरान factor tilts बनाए रखना। एक investor जो तीन वर्षों की underperformance के बाद value tilt को panic-sell करता है, वह उससे बदतर returns अर्जित करेगा जिसने पूरे समय बस market index hold किया।

शोधकर्ताओं और क्षेत्र के लिए

Replication reporting को मानकीकृत करें। क्षेत्र को एक मानकीकृत replication framework से काफ़ी लाभ होगा जो कई स्तरों पर परिणाम रिपोर्ट करे:

Exact original methodology का उपयोग करके statistical replication
Standardised methodology का उपयोग करके statistical replication
Multiple-testing-adjusted significance
यथार्थवादी transaction costs के बाद economic replication
Out-of-sample/international replication

कोई भी individual study जो replication के केवल एक स्तर की रिपोर्ट करता है वह एक अधूरी तस्वीर प्रदान करता है जिसे media, practitioners, और अन्य शोधकर्ताओं द्वारा गलत व्याख्या किया जा सकता है — और किया गया है।

Bayesian विधियाँ अपनाएँ। Threshold-based framework (significant vs. not significant) कृत्रिम cliff effects बनाता है और एक continuous reality पर binary classification लागू करता है। Bayesian shrinkage विधियाँ, जैसा कि Jensen, Kelly, और Pedersen ने प्रदर्शित किया, factor premiums के बारे में ज्ञान की स्थिति का अधिक सूक्ष्म और सटीक प्रतिनिधित्व प्रदान करती हैं।

Open source भविष्य है। Chen और Zimmermann के open-source replication code repository ने reproducibility के लिए एक नया मानक स्थापित किया। भविष्य के anomaly papers को replication code और data प्रदान करना अनिवार्य होना चाहिए, स्वतंत्र verification की अनुमति देते हुए। यह data mining और specification search की गुंजाइश को नाटकीय रूप से कम करेगा, क्योंकि reviewers और readers वैकल्पिक specifications का परीक्षण कर सकते हैं।

Economic mechanisms पर ध्यान केंद्रित करें। Replication साहित्य काफी हद तक empirical रहा है — यह परीक्षण करना कि effects अस्तित्व में हैं या नहीं, यह समझाना नहीं कि क्यों। एक सम्मोहक economic mechanism के बिना factor स्वाभाविक रूप से fragile है क्योंकि इसके बने रहने का कोई a priori कारण नहीं है। जिन factors ने सबसे कठोर replication जाँच (value, momentum, profitability, low volatility) से बचे हैं वे ठीक वे हैं जिनकी सबसे मज़बूत सैद्धांतिक नींव है। भविष्य के factor research को mechanism से शुरू करना चाहिए और साक्ष्य का अनुसरण करना चाहिए, न कि इसके विपरीत।

Redundancy कम करें। Factor zoo को consolidation से लाभ होगा। Quality measure के 17वें variant को प्रकाशित करने के बजाय, शोधकर्ताओं को वास्तव में स्वतंत्र return sources की पहचान करने और उन्हें प्रेरित करने वाले economic mechanisms को समझने पर ध्यान केंद्रित करना चाहिए। 15 अच्छी तरह से समझे गए, मज़बूती से प्रलेखित factors वाला factor zoo 400+ poorly understood, partially redundant factors वाले से वैज्ञानिक रूप से अधिक मूल्यवान है।

References

Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.

खुदरा निवेशकों के लिए व्यावहारिक उपयोग

संपादकीय टिप्पणी

मुख्य निष्कर्ष

भाग I: वह प्रश्न जिस पर कोई सहमत नहीं हुआ

हम 400+ Factors तक कैसे पहुँचे

Multiple Testing समस्या

प्रतिआक्रमण

विरोधाभास

भाग II: शोध प्रश्न और प्रतिस्पर्धी परिकल्पनाएँ

प्रश्न का औपचारिक रूपांकन

H1 — Data Mining परिकल्पना

H2 — Arbitrage परिकल्पना

H3 — Definitional परिकल्पना

भाग III: साक्ष्य आधार — बारह अध्ययनों का विस्तृत विवरण

अध्ययन 1: Schwert (2003) — मूल चेतावनी

अध्ययन 2: Harvey, Liu & Zhu (2016) — Multiple Testing समायोजन

अध्ययन 3: McLean & Pontiff (2016) — प्राकृतिक प्रयोग

अध्ययन 4: Green, Hand & Zhang (2017) — Holdout परीक्षण

अध्ययन 5: Linnainmaa & Roberts (2018) — Pre-1963 परीक्षण

अध्ययन 6: Hou, Xue & Zhang (2020) — मानकीकृत Replication

अध्ययन 7: Jacobs & Muller (2020) — International Replication

अध्ययन 8: Chen & Zimmermann (2022) — Exact Methodology Replication

अध्ययन 9: Jensen, Kelly & Pedersen (2023) — Bayesian Reconciliation

अध्ययन 10: Novy-Marx & Velikov (2016) — Transaction Cost Filter

अध्ययन 11: Chordia, Goyal & Saretto (2020) — संयुक्त Filter

अध्ययन 12: Calluzzo, Moneta & Topaloglu (2019) — Arbitrage तंत्र

भाग IV: विश्लेषण — Replication के तीन आयाम

Framework का निर्माण

आयाम 1: कार्यप्रणालीगत निष्ठा

कार्यप्रणालीगत संवेदनशीलता का एक Case Study: Size Effect

आयाम 2: Statistical Threshold

Bayesian विकल्प

आयाम 3: Economic बनाम Statistical Replication

Economic Replication Scorecard

गहन अध्ययन: सभी चार Filters में Momentum

गहन अध्ययन: सभी चार Filters में Accruals

Redundancy समस्या

Machine Learning और नई Factor Discovery

भाग V: परिणाम और व्याख्या

तीन परिकल्पनाओं का मूल्यांकन

तीन-स्तरीय संश्लेषण

Confidence Assessment

भाग VI: अन्य क्षेत्रों से तुलना

Finance बनाम Psychology: भिन्न संकट

Finance बनाम Medicine: समान संरचनात्मक प्रोत्साहन

भाग VII: सीमाएँ और हम क्या दावा नहीं कर सकते

विरासत में मिली सीमाएँ

क्या हमारे निष्कर्ष बदलेगा

सुझाए गए Empirical Tests

भाग VIII: निहितार्थ

Institutional Investors के लिए

Retail Investors के लिए

शोधकर्ताओं और क्षेत्र के लिए

संबंधित

References