बैकटेस्टिंग के जाल: क्यों अधिकतर बैकटेस्ट झूठ बोलते हैं

मुख्य निष्कर्ष

अधिकतर बैकटेस्ट अत्यधिक आशावादी होते हैं क्योंकि वे ऐसे पूर्वाग्रहों से ग्रस्त होते हैं जो अप्रशिक्षित आंखों को दिखाई नहीं देते। सर्वाइवरशिप बायस, लुक-अहेड बायस, डेटा स्नूपिंग, और निष्पादन लागतों के बारे में अवास्तविक धारणाएं मिलकर ऐसी रणनीतियां बनाती हैं जो कागज पर शानदार दिखती हैं लेकिन लाइव ट्रेडिंग में विफल हो जाती हैं। इन जालों को समझकर और डिफ्लेटेड शार्प रेशियो तथा वॉक-फॉरवर्ड एनालिसिस जैसी कठोर तकनीकों को लागू करके, आप वास्तविक अल्फा को सांख्यिकीय भ्रम से अलग कर सकते हैं।

बैकटेस्ट का विरोधाभास

बैकटेस्टिंग क्वांटिटेटिव रणनीति विकास की आधारशिला है। हर सिस्टमैटिक ट्रेडर ऐतिहासिक डेटा पर अपने विचार का परीक्षण करके शुरू करता है। तर्क सीधा है: यदि कोई रणनीति अतीत में काम करती थी, तो बाजार की संरचना में मौलिक बदलाव न होने पर, भविष्य में भी इसके काम करने की उचित संभावना होनी चाहिए।

समस्या यह है कि बैकटेस्टिंग को गलत तरीके से करना असाधारण रूप से आसान है। Harvey, Liu और Zhu के 2016 के Review of Financial Studies अध्ययन ने प्रकाशित फैक्टर खोजों के परिदृश्य की जांच की और निष्कर्ष निकाला कि अधिकांश संभवतः फॉल्स पॉजिटिव हैं। लेखकों ने तर्क दिया कि शैक्षणिक साहित्य में परीक्षण किए गए फैक्टरों की विशाल संख्या को देखते हुए, पारंपरिक सांख्यिकीय सीमाएं (t-स्टैटिस्टिक 2.0 से अधिक) बहुत उदार हैं। उन्होंने t-स्टैटिस्टिक को 3.0 या उससे अधिक तक बढ़ाने का प्रस्ताव दिया -- एक सीमा जो अधिकांश प्रकाशित विसंगतियों को समाप्त कर देती है।

यह एक गंभीर खोज है। यदि शीर्ष पत्रिकाओं में प्रकाशित करने वाले पेशेवर शिक्षाविद अधिकतर फर्जी परिणाम उत्पन्न करते हैं, तो कम नियंत्रण वाले खुदरा और संस्थागत बैकटेस्ट लगभग निश्चित रूप से बदतर हैं।

सर्वाइवरशिप बायस

सर्वाइवरशिप बायस शायद सबसे प्रसिद्ध बैकटेस्टिंग त्रुटि है, फिर भी यह रणनीति विकास को परेशान करती रहती है। यह तब होता है जब बैकटेस्ट ऐसा डेटासेट उपयोग करता है जिसमें केवल नमूना अवधि के अंत तक जीवित रहने वाली प्रतिभूतियां शामिल होती हैं, और डीलिस्ट, दिवालिया, या अधिग्रहित हुई प्रतिभूतियों को बाहर कर दिया जाता है।

प्रभाव व्यवस्थित और दिशात्मक है: सर्वाइवरशिप बायस हमेशा बैकटेस्ट को वास्तविकता से बेहतर दिखाता है। Elton, Gruber और Blake (1996) ने अनुमान लगाया कि सर्वाइवरशिप बायस म्यूचुअल फंड रिटर्न को प्रति वर्ष लगभग 0.9 प्रतिशत अंक बढ़ाता है। इक्विटी बैकटेस्टिंग में, यह प्रभाव प्रति वर्ष 1 से 2 प्रतिशत अंक तक हो सकता है, क्योंकि रणनीतियां अक्सर उन छोटी या संकटग्रस्त कंपनियों में पोजीशन रखती हैं जिनके डीलिस्ट होने की संभावना असमान रूप से अधिक होती है।

सिद्धांत रूप में समाधान सरल है: उचित रिटर्न समायोजन के साथ डीलिस्ट प्रतिभूतियों को शामिल करने वाले सर्वाइवरशिप-बायस-मुक्त डेटाबेस का उपयोग करें। CRSP, डीलिस्टिंग रिटर्न के साथ Compustat, और FactSet या Bloomberg जैसे विक्रेताओं के पॉइंट-इन-टाइम डेटाबेस यह कवरेज प्रदान करते हैं। कठिनाई लागत है -- स्वच्छ पॉइंट-इन-टाइम डेटा महंगा होता है, यही कारण है कि कई व्यक्तिगत शोधकर्ता अभी भी पूर्वाग्रहित डेटासेट का उपयोग करते हैं।

लुक-अहेड बायस

लुक-अहेड बायस तब होता है जब बैकटेस्ट अनजाने में ऐसी जानकारी का उपयोग करता है जो ट्रेडिंग निर्णय के समय उपलब्ध नहीं होती। यह सर्वाइवरशिप बायस से अधिक सूक्ष्म है और अक्सर पहचानना कठिन होता है।

सामान्य स्रोतों में वित्तीय विवरण डेटा को उसकी वास्तविक प्रकाशन तिथि से पहले उपयोग करना शामिल है। किसी कंपनी की Q4 आय फरवरी में रिपोर्ट हो सकती है, लेकिन कई डेटाबेस उस डेटा को दिसंबर में असाइन करते हैं। दिसंबर-दिनांकित डेटा का उपयोग करके जनवरी में ट्रेड करने वाला बैकटेस्ट धोखा दे रहा है -- वह जानकारी अभी तक मौजूद नहीं थी।

एक और बार-बार आने वाला स्रोत इंडेक्स सदस्यता है। यदि आप वर्तमान S&P 500 घटकों पर रणनीति का बैकटेस्ट करते हैं, तो आप अंतर्निहित रूप से जानते हैं कि कौन से स्टॉक इंडेक्स में शामिल होने के लिए पर्याप्त सफल थे। सही दृष्टिकोण पॉइंट-इन-टाइम इंडेक्स सदस्यता का उपयोग करता है, केवल उन स्टॉक्स का ट्रेड करता है जो प्रत्येक ऐतिहासिक तिथि पर वास्तव में इंडेक्स में थे।

यहां तक कि मूल्य डेटा भी लुक-अहेड बायस पैदा कर सकता है। भविष्य के स्टॉक स्प्लिट और डिविडेंड को शामिल करने वाली समायोजित क्लोज कीमतों का उपयोग सिग्नल को सूक्ष्मता से विकृत कर सकता है। समाधान यह है कि सभी सिग्नल असमायोजित डेटा पर गणना करें और केवल रिटर्न गणना के लिए समायोजन लागू करें।

डेटा माइनिंग और बहु-परीक्षण समस्या

डेटा माइनिंग बायस -- जिसे डेटा स्नूपिंग या p-हैकिंग भी कहा जाता है -- यकीनन सबसे खतरनाक जाल है क्योंकि इसे पूरी तरह से बचना सबसे कठिन है। हर बार जब आप किसी रणनीति के एक वेरिएंट का परीक्षण करते हैं, आप सांख्यिकीय स्वतंत्रता का एक अंश खर्च करते हैं। पर्याप्त वेरिएंट का परीक्षण करें और आप अनिवार्य रूप से एक ऐसा पाएंगे जो प्रभावशाली दिखता है, यहां तक कि पूरी तरह से यादृच्छिक डेटा में भी।

White (2000) के विचार प्रयोग पर विचार करें: यदि आप एक ही डेटासेट पर 100 स्वतंत्र रणनीति वेरिएंट का परीक्षण करते हैं, प्रत्येक 5 प्रतिशत फॉल्स पॉजिटिव दर के साथ, तो आप शुद्ध संयोग से सांख्यिकीय रूप से महत्वपूर्ण दिखने वाली लगभग 5 रणनीतियां खोजने की उम्मीद करेंगे। 1,000 वेरिएंट का परीक्षण करें और आपको लगभग 50 मिलेंगे। शोधकर्ता फिर सबसे अच्छी एक प्रकाशित करता है, वास्तव में विश्वास करते हुए कि उसने अल्फा खोज लिया है।

वित्त में इस समस्या का पैमाना चौंकाने वाला है। McLean और Pontiff (2016) ने 97 प्रकाशित शेयर बाजार विसंगतियों का अध्ययन किया और पाया कि प्रकाशन के बाद रिटर्न औसतन 26 प्रतिशत गिर गया -- और मूल खोजों को दोहराने या विस्तारित करने का प्रयास करने वाले शिक्षाविदों द्वारा प्रकाशन-उपरांत डेटा माइनिंग के लिए समायोजन के बाद 58 प्रतिशत तक गिर गया।

डिफ्लेटेड शार्प रेशियो

Bailey और Lopez de Prado (2014) ने एक कठोर समाधान प्रस्तावित किया: डिफ्लेटेड शार्प रेशियो (DSR)। DSR किसी रणनीति के अवलोकित शार्प रेशियो को संचालित परीक्षणों की संख्या, रिटर्न की विषमता और कुर्टोसिस, और नमूने की लंबाई के लिए समायोजित करता है।

अंतर्ज्ञान सरल है। यदि आपने अपनी अंतिम विशिष्टता पर पहुंचने से पहले 200 रणनीति वेरिएंट का परीक्षण किया, तो सबसे अच्छे की सकारात्मक अपेक्षित रिटर्न होने की संभावना उसके स्टैंडअलोन t-स्टैटिस्टिक द्वारा सुझाई गई से बहुत कम है। DSR सभी परीक्षणों को ध्यान में रखने के बाद अवलोकित शार्प रेशियो के शून्य से अधिक होने की संभावना की गणना करता है।

500 परीक्षणों में से चयनित 1.5 शार्प रेशियो वाली रणनीति की DSR-समायोजित संभावना 50 प्रतिशत से कम हो सकती है -- यानी इसके वास्तव में सकारात्मक अपेक्षित रिटर्न होने की संभावना सिक्का उछालने से भी कम है। यह एक शक्तिशाली वास्तविकता जांच है।

अवास्तविक निष्पादन धारणाएं

सांख्यिकीय पूर्वाग्रहों से मुक्त बैकटेस्ट भी निष्पादन के बारे में अवास्तविक धारणाओं के माध्यम से भ्रामित कर सकते हैं।

लेनदेन लागत। कई बैकटेस्ट शून्य या न्यूनतम ट्रेडिंग लागत मानते हैं। व्यवहार में, लागतों में कमीशन, बिड-आस्क स्प्रेड, मार्केट इम्पैक्ट और स्लिपेज शामिल हैं। उच्च-आवृत्ति रणनीतियों के लिए, ये लागतें रिटर्न पर हावी हो जाती हैं। मासिक-पुनर्संतुलित पोर्टफोलियो के लिए भी, यथार्थवादी लागत धारणाएं शार्प रेशियो को 0.2 से 0.4 तक कम कर सकती हैं।

मार्केट इम्पैक्ट। बैकटेस्ट अंतर्निहित रूप से मानता है कि आपके ट्रेड कीमतों को नहीं हिलाते। यह छोटे पोर्टफोलियो के लिए लगभग सत्य है लेकिन बड़े पैमाने पर ध्वस्त हो जाता है। $1 मिलियन के साथ काम करने वाली रणनीति $100 मिलियन पर लाभहीन हो सकती है क्योंकि केवल खरीद का दबाव ही कीमतों को आपके खिलाफ ले जाता है। Almgren और Chriss (2001) ने मार्केट इम्पैक्ट मॉडलिंग के लिए आधारभूत फ्रेमवर्क प्रदान किया।

तरलता। बैकटेस्ट आमतौर पर मानते हैं कि आप ऐतिहासिक कीमत पर किसी भी आकार का ट्रेड कर सकते हैं। वास्तव में, अतरल स्टॉक में चौड़े स्प्रेड और उथले ऑर्डर बुक हो सकते हैं। माइक्रो-कैप में केंद्रित रणनीति शानदार बैकटेस्ट रिटर्न दिखा सकती है लेकिन व्यवहार में ट्रेड करना असंभव हो सकता है।

शॉर्ट-सेलिंग प्रतिबंध। कई रणनीतियों के लिए शॉर्ट पोजीशन आवश्यक होती हैं, लेकिन उधार लागत, लोकेट आवश्यकताएं, और शॉर्ट-सेलिंग प्रतिबंध बाजारों और समय अवधियों में नाटकीय रूप से भिन्न होते हैं। कोरियाई और भारतीय इक्विटी बाजारों में विशेष रूप से कड़े शॉर्ट-सेलिंग नियम हैं।

आउट-ऑफ-सैंपल सत्यापन

ओवरफिटिंग के खिलाफ प्राथमिक रक्षा आउट-ऑफ-सैंपल (OOS) परीक्षण है। सिद्धांत सरल है: डेटा के एक भाग का उपयोग करके अपनी रणनीति विकसित करें और उस अलग भाग पर मान्य करें जिसे आपने कभी जांचा नहीं है।

एक सामान्य विभाजन 60/40 या 70/30 है, पहली अवधि विकास के लिए और बाद की अवधि सत्यापन के लिए। रणनीति को बिना किसी पैरामीटर संशोधन के OOS अवधि में अच्छा प्रदर्शन करना चाहिए।

हालांकि, OOS परीक्षण की भी सीमाएं हैं। यदि आप OOS परिणाम देखने के बाद बार-बार अपनी रणनीति संशोधित करते हैं, तो OOS अवधि प्रभावी रूप से इन-सैंपल बन जाती है। इसे अनुकूली डेटा माइनिंग कहा जाता है, और यह पूरे अभ्यास को अमान्य कर देता है। सख्त अनुशासन आवश्यक है: OOS डेटा देखने से पहले अपनी रणनीति को पूरी तरह से परिभाषित करें, और OOS विफलता को एक वास्तविक संकेत के रूप में स्वीकार करें कि रणनीति काम नहीं करती।

वॉक-फॉरवर्ड एनालिसिस

वॉक-फॉरवर्ड एनालिसिस एक अधिक परिष्कृत दृष्टिकोण है जो एकल OOS परीक्षण की सीमाओं को संबोधित करता है। प्रक्रिया इस प्रकार है:

एक प्रारंभिक इन-सैंपल विंडो परिभाषित करें (जैसे, 5 वर्ष का डेटा)।
इस विंडो पर रणनीति को अनुकूलित करें।
अनुकूलित रणनीति को अगली आउट-ऑफ-सैंपल अवधि (जैसे, 1 वर्ष) पर परीक्षण करें।
विंडो को आगे स्लाइड करें और दोहराएं।

परिणाम वास्तविक आउट-ऑफ-सैंपल रिटर्न की एक श्रृंखला है, जिनमें से प्रत्येक केवल पूर्व डेटा पर अनुमानित पैरामीटर द्वारा उत्पन्न होता है। इन OOS अवधियों को जोड़ने से एक यथार्थवादी प्रदर्शन अनुमान बनता है।

वॉक-फॉरवर्ड एनालिसिस यह भी प्रकट करता है कि आपकी रणनीति के इष्टतम पैरामीटर समय के साथ कितने स्थिर हैं। यदि सर्वोत्तम लुकबैक अवधि लगातार विंडो में 3 महीने से 12 महीने, फिर 1 महीने तक कूदती है, तो रणनीति संभवतः वास्तविक सिग्नल के बजाय शोर को फिट कर रही है।

एकल OOS विभाजन पर प्रमुख लाभ यह है कि वॉक-फॉरवर्ड एनालिसिस संपूर्ण डेटासेट का उपयोग अनुकूलन और सत्यापन दोनों के लिए करता है, बिना कभी मूल्यांकन को दूषित किए। यह ऐतिहासिक डेटा से प्राप्त लाइव ट्रेडिंग का सबसे निकटतम अनुमान है।

ईमानदार बैकटेस्ट बनाना: एक चेकलिस्ट

एक विश्वसनीय बैकटेस्ट बनाने के लिए व्यवस्थित अनुशासन की आवश्यकता होती है। निम्नलिखित चेकलिस्ट दशकों के शैक्षणिक और व्यावसायिक शोध से प्राप्त सबक को संक्षेप में प्रस्तुत करती है।

डेटा अखंडता। उचित डीलिस्टिंग समायोजन के साथ सर्वाइवरशिप-बायस-मुक्त डेटाबेस का उपयोग करें। सत्यापित करें कि सभी मौलिक डेटा वास्तविक प्रकाशन तिथियों को दर्शाने वाला पॉइंट-इन-टाइम है। सुनिश्चित करें कि इंडेक्स सदस्यता ऐतिहासिक है, वर्तमान नहीं।

सिग्नल निर्माण। ट्रेडिंग निर्णय के समय उपलब्ध जानकारी का उपयोग करके ही सभी सिग्नल की गणना करें। सिग्नल उत्पादन और ट्रेड निष्पादन के बीच यथार्थवादी विलंब लागू करें -- न्यूनतम एक दिन, मौलिक डेटा का उपयोग करने वाली रणनीतियों के लिए अधिक।

निष्पादन मॉडलिंग। ऐतिहासिक बिड-आस्क स्प्रेड पर आधारित यथार्थवादी लेनदेन लागत शामिल करें। औसत दैनिक वॉल्यूम के सापेक्ष ट्रेड आकार के फ़ंक्शन के रूप में मार्केट इम्पैक्ट मॉडल करें। शॉर्ट पोजीशन के लिए उधार लागत लागू करें। अतरल प्रतिभूतियों के लिए आंशिक निष्पादन मानें।

सांख्यिकीय कठोरता। परीक्षण किए गए रणनीति वेरिएंट की संख्या रिपोर्ट करें। डिफ्लेटेड शार्प रेशियो की गणना करें या बोनफेरोनी सुधार लागू करें। एकल रणनीतियों के लिए 3.0 से ऊपर t-स्टैटिस्टिक की आवश्यकता रखें, बड़े पैमाने की खोजों के लिए और अधिक। एकल इन-सैंपल/आउट-ऑफ-सैंपल विभाजन पर निर्भर होने के बजाय वॉक-फॉरवर्ड एनालिसिस करें।

मजबूती जांच। कई उप-अवधियों, भौगोलिक क्षेत्रों और संबंधित परिसंपत्ति वर्गों में परीक्षण करें। सत्यापित करें कि प्रदर्शन कुछ बाहरी ट्रेडों पर निर्भर नहीं करता। यह सुनिश्चित करने के लिए फैक्टर एक्सपोजर की जांच करें कि रिटर्न ज्ञात जोखिम प्रीमिया द्वारा नहीं समझाए जाते।

विनम्रता। स्वीकार करें कि एक अच्छी तरह से निर्मित बैकटेस्ट भी लाइव प्रदर्शन को अधिक आंकता है। वास्तविक-दुनिया कार्यान्वयन के लिए आधारभूत अपेक्षा के रूप में बैकटेस्ट रिटर्न पर 30 से 50 प्रतिशत की छूट लागू करें। यदि इस समायोजन के बाद भी रणनीति आकर्षक है, तो यह अनुसरण के योग्य हो सकती है।

सीमाएं

कोई भी बैकटेस्टिंग पद्धति लाइव ट्रेडिंग स्थितियों को पूरी तरह से दोहरा नहीं सकती। शासन परिवर्तन, संरचनात्मक विराम और भीड़ प्रभाव ऐतिहासिक डेटा से स्वाभाविक रूप से अप्रत्याशित हैं। वॉक-फॉरवर्ड एनालिसिस ओवरफिटिंग जोखिम को कम करता है लेकिन समाप्त नहीं करता। डिफ्लेटेड शार्प रेशियो परीक्षणों की संख्या की ईमानदार रिपोर्टिंग पर निर्भर करता है, जिसके लिए ऐसे अनुशासन की आवश्यकता होती है जिसे लागू करना कठिन है। ईमानदार बैकटेस्ट भी विफल हो सकते हैं यदि अंतर्निहित बाजार गतिशीलता बदल जाए। बैकटेस्ट और लाइव प्रदर्शन के बीच का अंतर क्वांटिटेटिव फाइनांस में केंद्रीय चुनौतियों में से एक बना हुआ है।

संदर्भ

Harvey, C. R., Liu, Y., & Zhu, H. (2016). "...and the Cross-Section of Expected Returns." The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
McLean, R. D., & Pontiff, J. (2016). "Does Academic Research Destroy Stock Return Predictability?" The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365