Jebakan Overfitting yang Ternyata Tidak Ada
Setiap buku teks keuangan kuantitatif mengajarkan pelajaran yang sama: jaga model Anda tetap sederhana. Tambahkan terlalu banyak parameter dan model Anda akan menghafal noise alih-alih mempelajari sinyal. Trade-off bias-varians, yang ditanamkan pada setiap mahasiswa statistika, mengatakan bahwa melampaui titik optimal tertentu, kompleksitas tambahan merugikan kinerja out-of-sample. Selama beberapa dekade, prinsip ini memandu cara praktisi membangun model prediksi imbal hasil โ pangkas daftar variabel, kenakan penalti pada koefisien besar, utamakan parsimoni di atas kekuatan prediksi.
Kemudian sesuatu yang aneh terjadi. Dalam penelitian machine learning di luar keuangan, praktisi menemukan bahwa model yang sangat besar โ dengan jutaan atau miliaran parameter, jauh melebihi jumlah observasi pelatihan โ memiliki generalisasi yang lebih baik daripada model yang lebih kecil. Model bahasa bergaya GPT, pengklasifikasi gambar mendalam, dan jaringan pelipatan protein semuanya menentang trade-off klasik. Fenomena ini dijuluki "benign overfit," dan hal ini membalikkan fondasi teoretis pembelajaran statistik.
Bryan Kelly, Semyon Malamud, dan Kangying Zhou membawa wawasan ini ke dalam penentuan harga aset. Makalah mereka tahun 2024 di Journal of Finance, "The Virtue of Complexity in Return Prediction," menyediakan kerangka teoretis dan bukti empiris yang komprehensif bahwa model overparameterized mengungguli model parsimoni dalam memprediksi imbal hasil saham (Kelly, Malamud & Zhou, 2024). Implikasinya terhadap cara kita membangun dan mengevaluasi strategi kuantitatif sangat mendalam.
Mengapa Kompleksitas Membantu: Teori
Kontribusi teoretis makalah ini menyelesaikan teka-teki yang telah lama menghantui keuangan kuantitatif: jika imbal hasil saham sulit diprediksi (R-squared rendah), mengapa menambahkan lebih banyak parameter ke model justru memperbaiki prediksi alih-alih memperburuknya?
Jawabannya terletak pada struktur lingkungan sinyal. Imbal hasil saham dipengaruhi oleh ratusan karakteristik โ ukuran, nilai, momentum, profitabilitas, investasi, likuiditas, volatilitas, akrual, dan banyak lagi. Setiap prediktor individual membawa sejumlah kecil informasi. Sinyalnya nyata tetapi tersebar di banyak dimensi, masing-masing memberikan kontribusi kecil terhadap kekuatan prediksi.
Dalam kondisi ini, model parsimoni menghadapi dilema. Jika memilih subset kecil prediktor (seperti yang dilakukan LASSO atau regresi stepwise), model membuang sinyal lemah dalam variabel yang dikecualikan. Jika memasukkan semua prediktor dengan bobot yang sama, noise dari variabel yang tidak relevan akan menutupi sinyal yang lemah. Bagaimanapun juga, model berkinerja buruk.
Model overparameterized menyelesaikan dilema ini melalui mekanisme yang disebut penulis sebagai "implicit shrinkage." Ketika model memiliki lebih banyak parameter daripada observasi, terdapat tak terbatas banyak vektor parameter yang cocok dengan data pelatihan secara sempurna. Solusi minimum-norm โ yang secara alami ditemukan oleh gradient descent โ menyebarkan bobot ke seluruh parameter, secara efektif melakukan bentuk regularisasi ridge tanpa istilah penalti eksplisit. Implicit shrinkage ini mencegah prediktor tunggal manapun mendominasi dan memungkinkan model menggabungkan sinyal lemah di semua dimensi yang tersedia.
Hasil matematisnya mencolok: seiring jumlah parameter bertambah relatif terhadap jumlah observasi (rasio overparameterisasi), kesalahan prediksi out-of-sample pertama-tama meningkat (zona overfitting klasik), kemudian menurun lagi melampaui ambang batas kritis. Ini adalah kurva "double descent" yang telah didokumentasikan dalam deep learning. Kelly, Malamud, dan Zhou membuktikan bahwa hal ini berlaku untuk prediksi imbal hasil dalam kondisi realistis.
Perlombaan Empiris
Makalah ini menguji teori secara komprehensif. Menggunakan dataset yang sama dengan Gu, Kelly, and Xiu (2020) โ imbal hasil bulanan untuk seluruh universum CRSP dari 1957 hingga 2021, dengan 900+ karakteristik perusahaan sebagai prediktor potensial โ penulis secara sistematis memvariasikan kompleksitas model dan mengukur kinerja out-of-sample.
Hasilnya selaras secara tepat dengan teori. Model dengan lebih sedikit parameter daripada observasi (rezim underparameterized) menunjukkan pola yang diharapkan: kinerja membaik hingga titik tertentu, kemudian overfitting mulai terjadi. Tetapi begitu kompleksitas melewati ambang interpolasi โ di mana model memiliki cukup parameter untuk secara sempurna menyesuaikan data pelatihan โ kinerja mulai membaik lagi. Model paling kompleks, dengan puluhan ribu parameter, menghasilkan nilai R-squared out-of-sample terbaik.
Besaran ekonominya substansial. Portofolio long-short yang disortir berdasarkan prediksi imbal hasil neural network menghasilkan alpha bulanan yang meningkat secara monoton dengan kompleksitas model. Model paling kompleks menghasilkan rasio Sharpe tahunan yang melebihi 2,0, secara signifikan mengungguli alternatif parsimoni yang disukai oleh ekonometrika tradisional.
Apa yang Dilihat oleh Model Kompleks
Makalah ini melampaui perlombaan untuk menyelidiki apa yang ditangkap oleh model kompleks yang terlewatkan oleh model sederhana. Analisis mengungkapkan tiga sumber utama kekuatan prediksi tambahan.
Pertama, interaksi nonlinear antara prediktor. Model sederhana memperlakukan setiap karakteristik secara independen โ momentum adalah momentum terlepas dari ukuran perusahaan atau kondisi pasar. Model kompleks menemukan bahwa kekuatan prediksi momentum bervariasi secara dramatis terhadap volatilitas, likuiditas, dan siklus bisnis. Hubungan kondisional ini tidak terlihat oleh model linear tetapi mengandung konten prediksi imbal hasil yang substansial.
Kedua, eksposur faktor yang berubah terhadap waktu. Hubungan antara karakteristik perusahaan dan imbal hasil yang diharapkan berubah di berbagai rezim pasar. Value bekerja secara berbeda dalam resesi dibandingkan ekspansi. Saham volatilitas rendah berperilaku berbeda dalam lingkungan suku bunga naik versus turun. Model kompleks dengan kapasitas yang cukup dapat mempelajari hubungan yang bergantung pada rezim ini dari data.
Ketiga, perilaku ekor dan peristiwa ekstrem. Model kompleks menangkap dinamika nonlinear di sekitar periode tekanan pasar dengan lebih baik. Makalah ini mendokumentasikan bahwa model overparameterized sangat efektif dalam memprediksi imbal hasil selama periode volatilitas tinggi โ tepatnya ketika perkiraan akurat paling berharga. Model paling kompleks berhasil mengurangi risiko sebelum 14 dari 15 resesi bertanggal NBER dalam sampel, rekam jejak yang tidak bisa ditandingi oleh model parsimoni manapun.
Kurva Double Descent
Hasil yang paling mencolok secara visual dari makalah ini adalah kurva double descent untuk R-squared out-of-sample yang diplot terhadap kompleksitas model. Kurva menunjukkan:
| Wilayah Kompleksitas | Perilaku | Kinerja |
|---|---|---|
| Underparameterized (p < n) | Trade-off bias-varians klasik | Moderat, puncak lalu menurun |
| Ambang interpolasi (p โ n) | Model menyesuaikan data pelatihan secara sempurna | Kinerja terburuk (puncak overfitting) |
| Overparameterized (p >> n) | Benign overfit, implicit shrinkage | Kinerja terbaik, membaik dengan kompleksitas |
Pola berbentuk U ini (atau lebih tepatnya, penurunan kedua setelah puncak interpolasi) menjelaskan mengapa praktisi yang berhenti menambah kompleksitas pada titik overfitting klasik meninggalkan kekuatan prediksi yang belum dimanfaatkan. Wawasan kuncinya adalah bahwa Anda harus melewati zona overfitting untuk mencapai rezim benign overfit di sisi lainnya.
Koneksi dengan Gu, Kelly, dan Xiu (2020)
Makalah ini merupakan sekuel alami dari studi perlombaan ML yang menjadi tonggak sejarah. Di mana Gu, Kelly, and Xiu (2020) menunjukkan secara empiris bahwa neural network mengungguli model linear dalam prediksi imbal hasil, makalah ini menjelaskan mengapa. Studi sebelumnya menunjukkan apa; studi ini menyediakan mekanisme teoretis.
Koneksi ini juga menyelesaikan ketegangan dalam karya sebelumnya. Gu, Kelly, dan Xiu menemukan bahwa neural network tiga lapis (NN3) mengungguli jaringan lima lapis (NN5), yang tampaknya menunjukkan diminishing returns terhadap kedalaman. Kelly, Malamud, dan Zhou menafsirkan ulang temuan ini: ukuran kompleksitas yang relevan bukan hanya kedalaman saja melainkan total jumlah parameter. Ketika kompleksitas diukur dengan benar โ sebagai rasio overparameterisasi โ lebih banyak secara konsisten lebih baik.
Ini juga terhubung dengan perdebatan yang sedang berlangsung tentang "factor zoo." Dengan lebih dari 400 anomali yang dipublikasikan, banyak peneliti telah mengadvokasi pemangkasan agresif โ kurangi set prediktor menjadi beberapa faktor yang robust. Hasil virtue of complexity mendorong balik: alih-alih memilih beberapa prediktor kuat dan membuang sisanya, mungkin lebih baik memasukkan semuanya dan membiarkan regularisasi implisit model menyortir bobotnya. Sinyal lemah dalam variabel yang dibuang mengandung informasi prediksi yang genuine yang teragregasi menjadi nilai ekonomi yang bermakna.
Keterbatasan dan Peringatan
Kesimpulan makalah ini disertai kualifikasi penting yang harus dipertimbangkan oleh praktisi dengan hati-hati.
Biaya transaksi adalah kekhawatiran praktis yang paling signifikan. Model kompleks menghasilkan alpha terutama pada saham kecil dan tidak likuid di mana biaya perdagangan paling tinggi. Setelah penyesuaian biaya yang realistis, keunggulan model paling kompleks menyempit โ meskipun tidak menghilang. Bagi investor institusional yang mengelola portofolio besar, manfaat bersih setelah biaya bergantung secara kritis pada kualitas eksekusi dan batasan perputaran portofolio.
Kerangka teoretis mengasumsikan struktur sinyal tertentu: banyak prediktor lemah dengan noise yang independen. Jika sinyal sebenarnya terkonsentrasi pada beberapa prediktor kuat (seperti mungkin terjadi pada beberapa kelas aset alternatif), virtue of complexity mungkin tidak berlaku. Makalah ini mendemonstrasikan hasilnya untuk ekuitas AS, di mana asumsi sinyal yang tersebar didukung dengan baik, tetapi generalisasi ke pasar lain memerlukan validasi lebih lanjut.
Interpretabilitas model tetap menjadi tantangan. Neural network overparameterized yang mengungguli dalam tes out-of-sample sulit dijelaskan kepada investor, manajer risiko, dan regulator. Makalah ini memberikan justifikasi teoretis mengapa model kompleks bekerja, tetapi tidak menyelesaikan ketegangan praktis antara kekuatan prediksi dan interpretabilitas.
Terakhir, hasil ini tidak mengatakan apa-apa tentang apakah pola-pola ini akan bertahan. Jika alpha dari model kompleks didorong oleh bias perilaku atau friksi institusional, ia mungkin berkurang seiring lebih banyak modal mengejar strategi serupa. Jika mencerminkan kompensasi risiko genuine untuk menanggung risiko kompleksitas, ia mungkin bertahan tetapi dengan drawdown signifikan selama rezim yang tidak bersahabat dengan model.
Implikasi untuk Pembangunan Model
Kesimpulan praktisnya bernuansa. Makalah ini tidak berargumen bahwa kompleksitas selalu lebih baik โ ia berargumen bahwa trade-off bias-varians klasik, yang mengatakan bahwa kompleksitas selalu merugikan melampaui titik tertentu, salah untuk struktur spesifik prediksi imbal hasil cross-sectional.
Bagi praktisi yang membangun strategi ekuitas berbasis ML, implikasinya adalah:
Jangan mengandalkan seleksi variabel sebagai strategi regularisasi utama Anda. Memasukkan lebih banyak prediktor, bahkan yang lemah, dapat meningkatkan kinerja out-of-sample jika model memiliki kapasitas yang cukup.
Gunakan regularisasi implisit melalui overparameterisasi (early stopping, solusi minimum-norm) daripada regularisasi eksplisit yang memaksakan sparsity (LASSO, dropout). Yang pertama mempertahankan sinyal lemah; yang terakhir membuangnya.
Evaluasi kinerja model di seluruh spektrum kompleksitas, bukan hanya di ujung parsimoni. Model optimal mungkin jauh lebih kompleks dari yang disarankan oleh praktik tradisional.
Selalu validasi dengan pengujian out-of-sample yang ketat. Benign overfit adalah properti teoretis yang berlaku dalam kondisi tertentu; ini bukan lisensi untuk melewatkan validasi.
Makalah ini menandai pergeseran signifikan dalam cara keuangan kuantitatif berpikir tentang kompleksitas model. Selama beberapa dekade, kesederhanaan diperlakukan sebagai kebajikan tersendiri. Kelly, Malamud, dan Zhou menunjukkan bahwa dalam konteks spesifik prediksi imbal hasil โ di mana sinyal lemah, tersebar, dan berjumlah banyak โ kompleksitas adalah kebajikan.
Artikel ini hanya untuk tujuan edukasi dan bukan merupakan nasihat keuangan. Kinerja masa lalu tidak menjamin hasil di masa depan.
Terkait
Analisis ini disintesis dari Kelly, Malamud & Zhou (2024), The Journal of Finance oleh QD Research Engine โ platform riset otomatis Quant Decoded โ dan ditinjau oleh tim editorial kami untuk memastikan akurasi. Pelajari lebih lanjut tentang metodologi kami.
References
-
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
-
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
-
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116