ओवरफिटिंग का जाल जो था ही नहीं
हर क्वांटिटेटिव फाइनेंस की पाठ्यपुस्तक एक ही सबक सिखाती है: अपने मॉडल को सरल रखें। बहुत अधिक पैरामीटर जोड़ने पर मॉडल सिग्नल सीखने के बजाय नॉइज़ को याद कर लेता है। हर सांख्यिकी के छात्र को सिखाया जाने वाला बायस-वेरिएंस ट्रेडऑफ कहता है कि एक निश्चित इष्टतम बिंदु के बाद, अतिरिक्त जटिलता आउट-ऑफ-सैंपल प्रदर्शन को नुकसान पहुँचाती है। दशकों तक, इस सिद्धांत ने प्रैक्टिशनर्स द्वारा रिटर्न प्रेडिक्शन मॉडल बनाने के तरीके को निर्देशित किया — वेरिएबल सूची को छोटा करें, बड़े गुणांकों पर पेनल्टी लगाएँ, शक्ति से अधिक संयम को प्राथमिकता दें।
फिर कुछ अजीब हुआ। फाइनेंस के बाहर मशीन लर्निंग अनुसंधान में, प्रैक्टिशनर्स ने पाया कि बेतुके रूप से बड़े मॉडल — जिनमें लाखों या अरबों पैरामीटर थे, जो प्रशिक्षण अवलोकनों की संख्या से कहीं अधिक थे — अपने छोटे समकक्षों की तुलना में बेहतर सामान्यीकरण करते थे। GPT-शैली के भाषा मॉडल, डीप इमेज क्लासिफायर, और प्रोटीन फोल्डिंग नेटवर्क सभी ने शास्त्रीय ट्रेडऑफ को चुनौती दी। इस घटना को "बिनाइन ओवरफिट (benign overfit)" कहा गया, और इसने सांख्यिकीय शिक्षण की सैद्धांतिक नींव को हिला दिया।
Bryan Kelly, Semyon Malamud, और Kangying Zhou ने इस अंतर्दृष्टि को एसेट प्राइसिंग में लागू किया। Journal of Finance में उनके 2024 के पेपर, "The Virtue of Complexity in Return Prediction," ने एक सैद्धांतिक ढाँचा और व्यापक अनुभवजन्य साक्ष्य दोनों प्रदान किए कि ओवरपैरामीटराइज़्ड मॉडल स्टॉक रिटर्न की भविष्यवाणी में पार्सिमोनियस मॉडल से बेहतर प्रदर्शन करते हैं (Kelly, Malamud & Zhou, 2024)। हम क्वांटिटेटिव रणनीतियों को कैसे बनाते और मूल्यांकन करते हैं, इसके लिए निहितार्थ गहन हैं।
जटिलता क्यों सहायक है: सिद्धांत
इस पेपर का सैद्धांतिक योगदान एक ऐसी पहेली को सुलझाता है जिसने क्वांटिटेटिव फाइनेंस को लंबे समय से परेशान किया है: यदि स्टॉक रिटर्न की भविष्यवाणी करना कठिन है (कम R-स्क्वेयर), तो मॉडल में अधिक पैरामीटर जोड़ने से भविष्यवाणियाँ खराब होने के बजाय बेहतर क्यों होती हैं?
उत्तर सिग्नल वातावरण की संरचना में निहित है। स्टॉक रिटर्न सैकड़ों विशेषताओं से प्रभावित होते हैं — आकार, मूल्य, मोमेंटम, लाभप्रदता, निवेश, तरलता, अस्थिरता, एक्रुअल्स, और कई अन्य। प्रत्येक व्यक्तिगत प्रेडिक्टर बहुत कम मात्रा में जानकारी वहन करता है। सिग्नल वास्तविक है लेकिन कई आयामों में फैला हुआ है, प्रत्येक भविष्यवाणी शक्ति का एक छोटा अंश योगदान करता है।
इस सेटिंग में, एक पार्सिमोनियस मॉडल एक दुविधा का सामना करता है। यदि यह प्रेडिक्टर्स का एक छोटा उपसमूह चुनता है (जैसा कि LASSO या स्टेपवाइज़ रिग्रेशन करता है), तो यह बाहर किए गए वेरिएबल्स में कमज़ोर सिग्नल को त्याग देता है। यदि यह सभी प्रेडिक्टर्स को समान भार के साथ शामिल करता है, तो अप्रासंगिक वेरिएबल्स का नॉइज़ कमज़ोर सिग्नल को दबा देता है। किसी भी तरह से, मॉडल का प्रदर्शन कम रहता है।
एक ओवरपैरामीटराइज़्ड मॉडल उस तंत्र के माध्यम से इस दुविधा को हल करता है जिसे लेखक "इम्प्लिसिट श्रिंकेज (implicit shrinkage)" कहते हैं। जब किसी मॉडल में अवलोकनों से अधिक पैरामीटर होते हैं, तो प्रशिक्षण डेटा को पूरी तरह फिट करने वाले अनंत कई पैरामीटर वेक्टर होते हैं। मिनिमम-नॉर्म सॉल्यूशन — जिसे ग्रेडिएंट डिसेंट स्वाभाविक रूप से ढूँढता है — वज़न को सभी पैरामीटर्स में फैला देता है, बिना किसी स्पष्ट पेनल्टी टर्म के प्रभावी रूप से रिज रेगुलराइज़ेशन का एक रूप निष्पादित करता है। यह इम्प्लिसिट श्रिंकेज किसी भी एकल प्रेडिक्टर को प्रभावी होने से रोकता है और मॉडल को सभी उपलब्ध आयामों में कमज़ोर सिग्नल एकत्रित करने की अनुमति देता है।
गणितीय परिणाम आश्चर्यजनक है: जैसे-जैसे अवलोकनों के सापेक्ष पैरामीटर्स की संख्या (ओवरपैरामीटराइज़ेशन अनुपात) बढ़ती है, आउट-ऑफ-सैंपल प्रेडिक्शन एरर पहले बढ़ता है (शास्त्रीय ओवरफिटिंग ज़ोन), फिर एक महत्वपूर्ण सीमा के बाद फिर से घटता है। यह "डबल डिसेंट (double descent)" कर्व है जो डीप लर्निंग में प्रलेखित किया गया है। Kelly, Malamud, और Zhou सिद्ध करते हैं कि यह यथार्थवादी परिस्थितियों में रिटर्न प्रेडिक्शन पर लागू होता है।
अनुभवजन्य प्रतिस्पर्धा तुलना
यह पेपर इस सिद्धांत का व्यापक परीक्षण करता है। Gu, Kelly, and Xiu (2020) के समान डेटासेट का उपयोग करते हुए — 1957 से 2021 तक संपूर्ण CRSP यूनिवर्स के मासिक रिटर्न, 900 से अधिक फर्म विशेषताओं को संभावित प्रेडिक्टर्स के रूप में — लेखक व्यवस्थित रूप से मॉडल जटिलता को बदलते हैं और आउट-ऑफ-सैंपल प्रदर्शन को मापते हैं।
परिणाम सिद्धांत के साथ सटीक रूप से मेल खाते हैं। अवलोकनों से कम पैरामीटर वाले मॉडल (अंडरपैरामीटराइज़्ड रेजीम) अपेक्षित पैटर्न दिखाते हैं: एक बिंदु तक प्रदर्शन में सुधार होता है, फिर ओवरफिटिंग शुरू हो जाती है। लेकिन एक बार जटिलता इंटरपोलेशन थ्रेशोल्ड को पार कर जाती है — जहाँ मॉडल के पास प्रशिक्षण डेटा को पूरी तरह फिट करने के लिए पर्याप्त पैरामीटर होते हैं — प्रदर्शन फिर से सुधरना शुरू हो जाता है। दसियों हज़ार पैरामीटर वाले सबसे जटिल मॉडल सर्वश्रेष्ठ आउट-ऑफ-सैंपल R-स्क्वेयर मान उत्पन्न करते हैं।
आर्थिक परिमाण पर्याप्त हैं। न्यूरल नेटवर्क रिटर्न प्रेडिक्शन पर आधारित लॉन्ग-शॉर्ट पोर्टफोलियो मासिक अल्फा उत्पन्न करता है जो मॉडल जटिलता के साथ मोनोटोनिक रूप से बढ़ता है। सबसे जटिल मॉडल 2.0 से अधिक वार्षिक शार्प अनुपात उत्पन्न करते हैं, जो पारंपरिक इकोनोमेट्रिक्स द्वारा पसंद किए जाने वाले पार्सिमोनियस विकल्पों से काफी बेहतर है।
जटिल मॉडल क्या देखते हैं
यह पेपर प्रतिस्पर्धा तुलना से आगे जाकर यह जाँचता है कि जटिल मॉडल क्या पकड़ते हैं जो सरल मॉडल चूक जाते हैं। विश्लेषण अतिरिक्त भविष्यवाणी शक्ति के तीन प्रमुख स्रोतों को प्रकट करता है।
पहला, प्रेडिक्टर्स के बीच नॉनलीनियर इंटरैक्शन। सरल मॉडल प्रत्येक विशेषता को स्वतंत्र रूप से मानते हैं — मोमेंटम फर्म के आकार या बाज़ार की स्थितियों की परवाह किए बिना मोमेंटम है। जटिल मॉडल खोजते हैं कि मोमेंटम की भविष्यवाणी शक्ति अस्थिरता, तरलता और व्यापार चक्र के साथ नाटकीय रूप से बदलती है। ये सशर्त संबंध रैखिक मॉडल में अदृश्य हैं लेकिन पर्याप्त रिटर्न-प्रेडिक्टिव सामग्री रखते हैं।
दूसरा, समय-परिवर्तनशील फैक्टर एक्सपोज़र। फर्म विशेषताओं और अपेक्षित रिटर्न के बीच संबंध बाज़ार रेजीम में बदलता है। मंदी में वैल्यू विस्तार की तुलना में अलग तरह से काम करता है। कम अस्थिरता वाले स्टॉक बढ़ती बनाम गिरती ब्याज दर के वातावरण में अलग व्यवहार करते हैं। पर्याप्त क्षमता वाले जटिल मॉडल इन रेजीम-निर्भर संबंधों को डेटा से सीख सकते हैं।
तीसरा, टेल बिहेवियर और चरम घटनाएँ। जटिल मॉडल बाज़ार तनाव अवधियों के आसपास नॉनलीनियर डायनेमिक्स को बेहतर ढंग से पकड़ते हैं। पेपर प्रलेखित करता है कि ओवरपैरामीटराइज़्ड मॉडल उच्च-अस्थिरता अवधियों के दौरान रिटर्न की भविष्यवाणी में विशेष रूप से प्रभावी हैं — ठीक वही समय जब सटीक पूर्वानुमान सबसे मूल्यवान होते हैं। सबसे जटिल मॉडल ने सैंपल में 15 NBER-दिनांकित मंदियों में से 14 से पहले सफलतापूर्वक जोखिम कम किया, एक ट्रैक रिकॉर्ड जो किसी भी पार्सिमोनियस मॉडल ने हासिल नहीं किया।
डबल डिसेंट कर्व
पेपर का सबसे दृश्य रूप से प्रभावशाली परिणाम मॉडल जटिलता के विरुद्ध आउट-ऑफ-सैंपल R-स्क्वेयर का प्लॉट किया गया डबल डिसेंट कर्व है। कर्व दिखाता है:
| जटिलता क्षेत्र | व्यवहार | प्रदर्शन |
|---|---|---|
| अंडरपैरामीटराइज़्ड (p < n) | शास्त्रीय बायस-वेरिएंस ट्रेडऑफ | मध्यम, शिखर के बाद गिरावट |
| इंटरपोलेशन थ्रेशोल्ड (p ≈ n) | मॉडल प्रशिक्षण डेटा को पूरी तरह फिट करता है | सबसे खराब प्रदर्शन (ओवरफिटिंग शिखर) |
| ओवरपैरामीटराइज़्ड (p >> n) | बिनाइन ओवरफिट, इम्प्लिसिट श्रिंकेज | सर्वश्रेष्ठ प्रदर्शन, जटिलता के साथ सुधार |
यह U-आकार का पैटर्न (अधिक सटीक रूप से, इंटरपोलेशन शिखर के बाद दूसरा अवरोहण) बताता है कि शास्त्रीय ओवरफिटिंग बिंदु पर जटिलता जोड़ना बंद करने वाले प्रैक्टिशनर्स भविष्यवाणी शक्ति खो रहे थे। मुख्य अंतर्दृष्टि यह है कि दूसरी तरफ बिनाइन ओवरफिट रेजीम तक पहुँचने के लिए आपको ओवरफिटिंग ज़ोन से गुज़रना होगा।
Gu, Kelly, and Xiu (2020) से संबंध
यह पेपर उस ऐतिहासिक ML प्रतिस्पर्धा तुलना अध्ययन का स्वाभाविक अनुवर्ती है। जहाँ Gu, Kelly, and Xiu (2020) ने अनुभवजन्य रूप से प्रदर्शित किया कि न्यूरल नेटवर्क रिटर्न प्रेडिक्शन में लीनियर मॉडल से बेहतर प्रदर्शन करते हैं, वर्तमान पेपर बताता है कि ऐसा क्यों है। पहले के अध्ययन ने "क्या" दिखाया; यह अध्ययन सैद्धांतिक तंत्र प्रदान करता है।
यह संबंध पहले के कार्य में एक तनाव को भी हल करता है। Gu, Kelly, और Xiu ने पाया कि तीन-परत वाला न्यूरल नेटवर्क (NN3) पाँच-परत वाले नेटवर्क (NN5) से बेहतर प्रदर्शन करता था, जो गहराई के प्रति ह्रासमान प्रतिफल का संकेत देता प्रतीत होता था। Kelly, Malamud, और Zhou इस खोज की पुनर्व्याख्या करते हैं: जटिलता का प्रासंगिक माप केवल गहराई नहीं बल्कि कुल पैरामीटर्स की संख्या है। जब जटिलता को सही ढंग से मापा जाता है — ओवरपैरामीटराइज़ेशन अनुपात के रूप में — अधिक लगातार बेहतर होता है।
यह चल रही "फैक्टर ज़ू (factor zoo)" बहस से भी जुड़ता है। 400 से अधिक प्रकाशित एनोमलीज़ के साथ, कई शोधकर्ताओं ने आक्रामक छंटाई का तर्क दिया है — प्रेडिक्टर सेट को कुछ मज़बूत फैक्टर्स तक सीमित करें। जटिलता के गुण का परिणाम इसका प्रतिवाद करता है: कुछ मज़बूत प्रेडिक्टर्स का चयन करने और शेष को त्यागने के बजाय, सब कुछ शामिल करना और मॉडल के इम्प्लिसिट रेगुलराइज़ेशन को वज़न व्यवस्थित करने देना बेहतर हो सकता है। त्यागे गए वेरिएबल्स में कमज़ोर सिग्नल वास्तविक भविष्यवाणी जानकारी रखते हैं जो सार्थक आर्थिक मूल्य में एकत्रित होती है।
सीमाएँ और चेतावनियाँ
पेपर के निष्कर्ष महत्वपूर्ण योग्यताओं के साथ आते हैं जिन्हें प्रैक्टिशनर्स को सावधानीपूर्वक तौलना चाहिए।
लेनदेन लागत सबसे महत्वपूर्ण व्यावहारिक चिंता है। जटिल मॉडल मुख्य रूप से छोटे, अतरल स्टॉक में अल्फा उत्पन्न करते हैं जहाँ ट्रेडिंग लागत सबसे अधिक होती है। यथार्थवादी लागत समायोजन के बाद, सबसे जटिल मॉडल का लाभ सिकुड़ता है — हालाँकि यह गायब नहीं होता। बड़े पोर्टफोलियो का प्रबंधन करने वाले संस्थागत निवेशकों के लिए, लागत-पश्चात लाभ निष्पादन गुणवत्ता और पोर्टफोलियो टर्नओवर बाधाओं पर गंभीर रूप से निर्भर करता है।
सैद्धांतिक ढाँचा एक विशिष्ट सिग्नल संरचना मानता है: स्वतंत्र नॉइज़ के साथ कई कमज़ोर प्रेडिक्टर्स। यदि सच्चा सिग्नल कुछ मज़बूत प्रेडिक्टर्स में केंद्रित है (जैसा कि कुछ वैकल्पिक एसेट क्लासेस में हो सकता है), तो जटिलता का गुण नहीं टिक सकता। पेपर अमेरिकी इक्विटी के लिए परिणाम प्रदर्शित करता है, जहाँ फैला हुआ सिग्नल धारणा अच्छी तरह समर्थित है, लेकिन अन्य बाज़ारों में सामान्यीकरण के लिए और सत्यापन की आवश्यकता है।
मॉडल व्याख्यात्मकता एक चुनौती बनी हुई है। एक ओवरपैरामीटराइज़्ड न्यूरल नेटवर्क जो आउट-ऑफ-सैंपल परीक्षणों में बेहतर प्रदर्शन करता है, निवेशकों, जोखिम प्रबंधकों और नियामकों को समझाना कठिन है। पेपर जटिल मॉडल क्यों काम करते हैं इसके लिए सैद्धांतिक औचित्य प्रदान करता है, लेकिन यह भविष्यवाणी शक्ति और व्याख्यात्मकता के बीच व्यावहारिक तनाव को हल नहीं करता।
अंत में, यह परिणाम इस बारे में कुछ नहीं कहता कि ये पैटर्न बने रहेंगे या नहीं। यदि जटिल मॉडल से अल्फा व्यवहार संबंधी पूर्वाग्रहों या संस्थागत घर्षणों द्वारा संचालित है, तो अधिक पूँजी समान रणनीतियों का अनुसरण करने पर यह कम हो सकता है। यदि यह जटिलता जोखिम वहन करने के लिए वास्तविक जोखिम मुआवज़े को दर्शाता है, तो यह बना रह सकता है लेकिन मॉडल-प्रतिकूल रेजीम के दौरान महत्वपूर्ण गिरावट के साथ।
मॉडल निर्माण के लिए निहितार्थ
व्यावहारिक निष्कर्ष सूक्ष्म है। पेपर यह तर्क नहीं देता कि जटिलता हमेशा बेहतर है — यह तर्क देता है कि शास्त्रीय बायस-वेरिएंस ट्रेडऑफ, जो कहता है कि किसी बिंदु से परे जटिलता हमेशा हानिकारक है, क्रॉस-सेक्शनल रिटर्न प्रेडिक्शन की विशिष्ट संरचना के लिए गलत है।
ML-आधारित इक्विटी रणनीतियाँ बनाने वाले प्रैक्टिशनर्स के लिए, निहितार्थ इस प्रकार हैं:
वेरिएबल सेलेक्शन को अपनी प्राथमिक रेगुलराइज़ेशन रणनीति के रूप में निर्भर न रहें। अधिक प्रेडिक्टर्स शामिल करना, यहाँ तक कि कमज़ोर भी, आउट-ऑफ-सैंपल प्रदर्शन में सुधार कर सकता है यदि मॉडल में पर्याप्त क्षमता है।
स्पार्सिटी को बाध्य करने वाले स्पष्ट रेगुलराइज़ेशन (LASSO, ड्रॉपआउट) के बजाय ओवरपैरामीटराइज़ेशन के माध्यम से इम्प्लिसिट रेगुलराइज़ेशन (अर्ली स्टॉपिंग, मिनिमम-नॉर्म सॉल्यूशन) का उपयोग करें। पहला कमज़ोर सिग्नल को संरक्षित करता है; दूसरा उन्हें त्याग देता है।
केवल पार्सिमोनियस छोर पर ही नहीं, बल्कि पूरे जटिलता स्पेक्ट्रम में मॉडल प्रदर्शन का मूल्यांकन करें। इष्टतम मॉडल पारंपरिक प्रथाओं की सुझाव से कहीं अधिक जटिल हो सकता है।
हमेशा सख्त आउट-ऑफ-सैंपल परीक्षण के साथ सत्यापन करें। बिनाइन ओवरफिट एक सैद्धांतिक गुण है जो विशिष्ट परिस्थितियों में मान्य है; यह सत्यापन को छोड़ने का लाइसेंस नहीं है।
यह पेपर क्वांटिटेटिव फाइनेंस के मॉडल जटिलता के बारे में सोचने के तरीके में एक महत्वपूर्ण बदलाव को चिह्नित करता है। दशकों तक, सरलता को अपने आप में एक गुण के रूप में माना गया। Kelly, Malamud, और Zhou प्रदर्शित करते हैं कि रिटर्न प्रेडिक्शन के विशिष्ट संदर्भ में — जहाँ सिग्नल कमज़ोर, फैले हुए और असंख्य हैं — जटिलता ही गुण है।
यह लेख केवल शैक्षिक उद्देश्यों के लिए है और वित्तीय सलाह नहीं है। पिछला प्रदर्शन भविष्य के परिणामों की गारंटी नहीं देता।
संबंधित
यह विश्लेषण Kelly, Malamud & Zhou (2024), The Journal of Finance से QD Research Engine — Quant Decoded का स्वचालित अनुसंधान मंच — द्वारा संश्लेषित किया गया है और सटीकता के लिए हमारी संपादकीय टीम द्वारा समीक्षा की गई है। हमारी कार्यप्रणाली के बारे में और जानें.
References
-
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
-
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
-
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116