Mengapa sebagian besar hedge fund machine learning gagal?

López de Prado (2018) mengidentifikasi sepuluh mode kegagalan sistematis, yang paling umum adalah overfitting terhadap noise in-sample, menerapkan teknik cross-validation standar yang mengabaikan ketergantungan serial time series keuangan, dan mengabaikan biaya transaksi realistis. Banyak fund ML memperlakukan prediksi keuangan sebagai masalah supervised learning generik, mengabaikan rasio sinyal-terhadap-noise yang rendah, non-stasioneritas, dan dinamika adversarial yang unik di pasar keuangan.

Bisakah machine learning benar-benar memprediksi return saham?

Ya, dengan catatan penting. Gu, Kelly, dan Xiu (2020) menunjukkan bahwa neural network mencapai kekuatan prediktif out-of-sample yang bermakna untuk return saham AS, menangkap interaksi faktor nonlinear yang terlewat oleh model tradisional. Namun, R-squared prediktif hanya 0,40% — kecil tetapi signifikan secara ekonomi pada skala institusional. Temuan kuncinya bukan bahwa ML memprediksi dengan sempurna, tetapi bahwa ia menangkap hubungan kondisional antar faktor yang tidak bisa ditangkap model linear statis.

Machine Learning dalam Investasi Kuantitatif: Keunggulan Nyata atau Overfitting?

Algoritma yang Terlalu Banyak Tahu

Data analysis and financial analytics visualization

Pada tahun 2017, sebuah hedge fund sistematik terkemuka diluncurkan dengan modal $1,5 miliar, tim PhD machine learning yang direkrut dari perusahaan teknologi ternama, dan narasi yang menjual dirinya sendiri: deep neural network akan menemukan pola prediksi return yang tak terlihat oleh model kuantitatif tradisional. Dalam delapan belas bulan, dana tersebut kehilangan sepertiga asetnya — bukan karena kejatuhan pasar, tetapi karena pendarahan lambat dari model yang menghafal data pelatihan alih-alih mempelajari pasar. Pola yang terdeteksi hanyalah bayangan: artefak statistik yang ada dalam data historis tetapi menghilang saat bersentuhan dengan perdagangan langsung.

Kisah ini bukan satu-satunya. Menurut sebagian besar estimasi industri, mayoritas dana kuantitatif berbasis ML yang diluncurkan sejak 2015 telah ditutup atau secara signifikan berkinerja di bawah tolok ukur mereka. Namun bukti akademis untuk machine learning dalam penetapan harga aset belum pernah sekuat ini. Gu, Kelly, dan Xiu (2020) menunjukkan bahwa neural network dapat meramalkan return saham individual dengan R-squared out-of-sample sebesar 0,40% dan menghasilkan portofolio long-short dengan Sharpe ratio melebihi 1,8. Kelly, Malamud, dan Zhou (2024) membuktikan bahwa kompleksitas model, alih-alih menjadi musuh generalisasi, justru dapat meningkatkan prediksi ketika lingkungan sinyal mengandung banyak prediktor lemah.

Bagaimana mendamaikan dua kenyataan ini? Jawabannya bukan pada apakah machine learning berhasil untuk investasi — bukti menunjukkan bahwa ia bisa — tetapi pada jurang antara mengetahui bahwa ML menangkap sinyal yang genuine dan membangun sistem yang melakukannya tanpa overfitting terhadap noise. Perbedaan itulah tantangan utama keuangan kuantitatif modern.

Di Mana Bukti ML Paling Kuat

Argumen untuk machine learning dalam prediksi return bertumpu pada temuan empiris spesifik: return saham didorong oleh interaksi nonlinear di antara ratusan karakteristik, dan interaksi ini berubah seiring kondisi pasar. Model faktor linear tradisional — dari CAPM hingga model lima faktor Fama-French — memperlakukan setiap prediktor secara independen dan mengestimasi koefisien tetap. Model tersebut menangkap efek orde pertama tetapi melewatkan struktur kondisional yang mengandung konten prediktif tambahan.

Gu, Kelly, dan Xiu menguji setiap metode ML utama pada seluruh universe CRSP dari tahun 1957 hingga 2016 menggunakan lebih dari 900 prediktor tingkat perusahaan dan makroekonomi. Neural network tiga lapis mereka mencapai R-squared out-of-sample tertinggi dan menghasilkan portofolio long-short dengan kinerja disesuaikan risiko yang kira-kira dua kali lipat dari alternatif linear terbaik. Sumber keunggulan ini bukanlah alpha eksotis melainkan interaksi faktor kondisional: momentum berperilaku berbeda dalam rezim volatilitas tinggi dibanding pasar tenang, kekuatan prediktif value berfluktuasi mengikuti siklus bisnis, dan likuiditas berinteraksi dengan ukuran perusahaan dengan cara yang tidak dapat direpresentasikan oleh model koefisien tetap mana pun.

Temuan ini telah dikuatkan oleh penelitian independen. Israel, Kelly, dan Moskowitz (2020) mengonfirmasi bahwa metode ML memberikan nilai tambah terutama melalui kemampuannya memodelkan interaksi nonlinear daripada menemukan prediktor yang sepenuhnya baru. Input yang paling penting — momentum, value, ukuran, profitabilitas — adalah variabel yang sama yang telah diidentifikasi oleh investasi faktor tradisional selama puluhan tahun. Kontribusi machine learning bukan dalam menemukan variabel baru tetapi dalam memodelkan bagaimana variabel yang ada berinteraksi secara kondisional.

Masalah Overfitting dalam ML Keuangan

Jika sinyalnya nyata, mengapa sebagian besar dana ML gagal? Jawabannya adalah bahwa prediksi keuangan merupakan lingkungan yang sangat tidak bersahabat bagi machine learning, dan alat yang bekerja cemerlang pada klasifikasi gambar, pemrosesan bahasa alami, dan pelipatan protein menghadapi tantangan yang secara kualitatif berbeda ketika diterapkan pada return.

Sinyal Mikroskopis, Noise yang Sangat Besar

R-squared out-of-sample sebesar 0,40% berarti bahwa 99,6% variasi return saham individual adalah noise yang tidak dapat diprediksi. Dalam computer vision, model yang terlatih baik mengklasifikasi gambar dengan akurasi 95% ke atas. Dalam pemrosesan bahasa alami, model bahasa besar mencapai kinerja setara manusia pada banyak tolok ukur. Dalam keuangan, model terbaik dalam literatur menjelaskan kurang dari setengah persen variasi return. Rasio sinyal-terhadap-noise yang sangat rendah ini berarti bahwa model apa pun dengan kapasitas yang cukup akan menemukan pola dalam noise kecuali kehati-hatian luar biasa diterapkan untuk mencegahnya.

Non-Stasioneritas

Pasar keuangan bersifat non-stasioner: proses penghasil data berubah seiring waktu. Rezim volatilitas bergeser, korelasi runtuh selama krisis, perubahan regulasi mengubah mikrostruktur pasar, dan strategi peserta lain berevolusi sebagai respons terhadap pola yang diamati. Model yang dilatih pada data 2010-2020 menghadapi pasar yang secara fundamental berbeda pada tahun 2025 dari pasar yang dipelajarinya. Praktik ML standar mengasumsikan distribusi pelatihan dan pengujian diambil dari proses yang sama — asumsi yang secara rutin dilanggar dalam keuangan.

Dinamika Adversarial

Berbeda dengan fenomena alam, pasar keuangan mengandung peserta yang secara aktif bersaing melawan prediksi Anda. Ketika sinyal ML yang menguntungkan menjadi dikenal luas, pedagang lain mengeksploitasinya, biaya transaksi naik akibat kepadatan, dan sinyal melemah. McLean dan Pontiff (2016) mendokumentasikan bahwa anomali akademis yang dipublikasikan kehilangan sekitar seperempat premi return-nya setelah penelitian menjadi publik, dengan peluruhan tambahan dari data mining berikutnya. Jebakan backtesting meluas langsung ke ranah ML: model yang mendeteksi pola dalam data historis mungkin mendeteksi persis jenis sinyal yang paling cepat melemah di pasar langsung.

Kegagalan Cross-Validation

Mungkin masalah yang paling merusak secara teknis adalah bahwa cross-validation standar — landasan evaluasi model ML — gagal di hadapan korelasi serial. Deret waktu keuangan bersifat autokorelasi: return hari ini membawa informasi tentang return besok. Cross-validation k-fold standar mengacak data secara random ke dalam set pelatihan dan validasi, yang berarti observasi pelatihan yang berdekatan secara temporal dengan observasi validasi membocorkan informasi forward-looking ke dalam evaluasi model. Model yang tampak menggeneralisasi dengan baik di bawah k-fold mungkin hanya mengeksploitasi kedekatan temporal daripada sinyal out-of-sample yang genuine.

López de Prado (2018) mengkatalogkan hal ini di antara sepuluh alasan mengapa sebagian besar dana ML gagal, dengan argumen bahwa industri keuangan mengimpor teknik ML secara menyeluruh dari perusahaan teknologi tanpa memperhitungkan perbedaan struktural antara masalah prediksi keuangan dan non-keuangan. Solusinya — purged dan embargoed cross-validation, di mana observasi yang berdekatan dengan set validasi dihapus dari pelatihan — secara konseptual sederhana tetapi jarang diimplementasikan dalam praktik.

Seperti Apa Praktik ML yang Disiplin

Kesenjangan antara dana ML yang gagal dan bukti akademis sebagian besar merupakan kesenjangan dalam metodologi. Praktisi yang menghasilkan alpha berbasis ML secara berkelanjutan cenderung berbagi disiplin umum yang membedakan mereka dari mayoritas yang melakukan overfitting.

Purged Walk-Forward Validation

Alih-alih mengevaluasi kinerja model pada satu set uji yang disisihkan, praktisi yang disiplin menggunakan rolling walk-forward validation. Model dilatih pada data hingga waktu t, diuji pada data dari t+1 hingga t+k, kemudian jendela dimajukan. Yang krusial, periode buffer (embargo) disisipkan antara periode pelatihan dan pengujian untuk mencegah kebocoran informasi dari observasi yang berkorelasi serial. Arnott, Harvey, dan Markowitz (2019) memformalisasi ini sebagai protokol backtesting yang dirancang khusus untuk era ML, menunjukkan bahwa pembagian train-test standar secara sistematis melebih-lebihkan kinerja.

Prior Ekonomi sebagai Regularisasi

Implementasi ML yang paling sukses dalam keuangan tidak memperlakukan masalah sebagai kotak hitam. Mereka menggabungkan struktur ekonomi sebagai bias induktif: menggunakan residual model faktor daripada return mentah sebagai target, membatasi arsitektur jaringan untuk menghormati struktur risiko yang diketahui, dan memberikan penalti pada prediksi yang membutuhkan turnover yang tidak masuk akal. Pendekatan ini memperlakukan ML bukan sebagai pengganti teori keuangan tetapi sebagai alat untuk menangkap residual nonlinear yang terlewatkan oleh teori.

Israel, Kelly, dan Moskowitz menekankan bahwa model ML dalam keuangan seharusnya "dipandu oleh teori ekonomi, bukan menggantikannya." Eksperimen mereka menunjukkan bahwa metode ML yang dibatasi oleh struktur faktor mengungguli model tanpa batasan dalam pengujian out-of-sample — temuan yang secara langsung bertentangan dengan asumsi naif bahwa fleksibilitas lebih selalu lebih baik.

Pemodelan Biaya yang Realistis

Sebagian besar alpha yang diidentifikasi ML berada pada sekuritas berkapitalisasi kecil dan tidak likuid di mana biaya eksekusi paling tinggi. Literatur akademis biasanya melaporkan return sebelum biaya. Ketika biaya transaksi yang realistis diterapkan — termasuk dampak pasar yang berskala dengan ukuran perdagangan relatif terhadap volume harian rata-rata — sebagian besar alpha ML saham kecil menguap. Praktisi yang disiplin mengevaluasi kinerja setelah biaya dan secara eksplisit mengoptimalkan batasan turnover portofolio, menerima alpha bruto yang lebih rendah sebagai ganti strategi yang dapat diimplementasikan.

Koreksi Multiple Testing

Harvey dan Liu (2021) menunjukkan bahwa banyak sinyal ML yang tampak signifikan adalah "faktor keberuntungan" — artefak dari pencarian spesifikasi yang ekstensif. Ketika seorang peneliti mencoba ratusan konfigurasi model (kedalaman jaringan, learning rate, subset fitur, jendela pelatihan) dan hanya melaporkan hasil terbaik, probabilitas menemukan sinyal yang secara palsu signifikan meningkat secara dramatis. Deflated Sharpe Ratio dan koreksi terkait menyesuaikan untuk total jumlah konfigurasi yang dievaluasi, dan praktisi yang disiplin menerapkan penyesuaian ini sebelum menyatakan bahwa model mereka memiliki kekuatan prediktif.

Bailey, Borwein, López de Prado, dan Zhu (2017) mengkuantifikasi masalah ini secara tepat, menunjukkan bahwa probabilitas overfitting backtest meningkat tajam seiring jumlah varian strategi yang diuji. Untuk pipeline penelitian tipikal yang mengevaluasi ratusan konfigurasi, probabilitas bahwa model berkinerja terbaik benar-benar memiliki expected return positif bisa turun di bawah 50% — bahkan ketika kinerja in-sample tampak luar biasa.

Paradoks Kompleksitas

Salah satu temuan paling kontraintuitif dalam penelitian ML terbaru adalah bahwa model yang lebih kompleks dapat menggeneralisasi lebih baik, bukan lebih buruk, dalam domain spesifik prediksi return cross-sectional. Kelly, Malamud, dan Zhou menunjukkan bahwa neural network yang overparameterized — yang memiliki jauh lebih banyak parameter daripada observasi pelatihan — mengungguli model yang parsimoni karena bertindak sebagai mekanisme regularisasi implisit. Solusi minimum-norm yang ditemukan oleh gradient descent menyebarkan risiko estimasi ke banyak parameter, mencegah satu prediktor tunggal mendominasi dan memungkinkan model mengagregasi sinyal yang lemah tapi genuine di ratusan karakteristik.

Fenomena "double descent" ini berarti bahwa saran klasik untuk menjaga model tetap sederhana justru dapat merugikan kinerja dalam pengaturan spesifik prediksi return ekuitas, di mana sinyal benar-benar tersebar di banyak prediktor lemah. Namun, hasil ini hanya berlaku dalam kondisi tertentu: model harus dilatih dengan regularisasi yang tepat (eksplisit atau implisit), divalidasi dengan protokol out-of-sample yang ketat, dan dievaluasi dengan asumsi biaya yang realistis. Kompleksitas adalah kebajikan hanya ketika disertai disiplin untuk mencegahnya menjadi izin untuk melakukan overfitting.

Implikasi praktisnya bernuansa. Ketakutan klasik terhadap overfitting tidak salah — ia hanya tidak lengkap. Dalam keuangan, bahayanya bukan kompleksitas itu sendiri tetapi kompleksitas yang tidak disiplin: model yang besar dan fleksibel tanpa pagar pembatas berupa validasi yang tepat, prior ekonomi, dan evaluasi yang sadar biaya.

Cara Mengevaluasi Strategi Kuantitatif ML

Bagi investor yang mempertimbangkan alokasi ke strategi berbasis ML, penelitian ini menyarankan kerangka evaluasi yang konkret.

Pertama, pahami metodologi validasi. Setiap strategi ML yang kredibel harus menggunakan purged walk-forward validation dengan periode embargo. Jika catatan kinerja didasarkan pada pembagian train-test 80/20 sederhana, angka yang dilaporkan hampir pasti berlebihan. Tanyakan secara spesifik bagaimana korelasi serial dalam data pelatihan ditangani.

Kedua, tuntut kinerja setelah biaya. Sharpe ratio bruto tidak bermakna untuk strategi yang berdagang secara sering pada sekuritas tidak likuid. Metrik yang relevan adalah alpha bersih setelah mengurangi spread bid-ask yang realistis, estimasi dampak pasar yang diskalakan ke ukuran portofolio aktual, dan biaya peminjaman untuk posisi short. Sharpe ratio 1,8 secara bruto mungkin menjadi 0,6 secara bersih — masih positif, tetapi proposisi yang secara fundamental berbeda.

Ketiga, periksa ketahanan rezim. Model yang berkinerja cemerlang di pasar trending tetapi runtuh selama lonjakan volatilitas kemungkinan menangkap sinyal momentum yang berbalik selama periode stres. Alpha ML yang genuine seharusnya menurun secara bertahap di berbagai lingkungan pasar daripada menunjukkan perilaku biner hidup/mati. Minta atribusi kinerja yang dirinci berdasarkan rezim volatilitas, arah pasar, dan kondisi likuiditas.

Keempat, tanyakan tentang interpretabilitas model. Meskipun interpretabilitas tidak diperlukan agar model berfungsi, tim yang tidak dapat menjelaskan apa yang ditangkap model mereka — setidaknya pada tingkat tinggi — mungkin tidak memahami kapan dan mengapa model tersebut akan gagal. Praktisi ML terbaik dapat mengartikulasikan mekanisme ekonomi yang dieksploitasi model mereka: interaksi faktor kondisional, premi risiko yang bervariasi waktu, atau sinyal berbasis mikrostruktur. Kotak hitam murni tanpa narasi ekonomi layak mendapat skeptisisme yang lebih tinggi.

Jalan ke Depan

Machine learning bukan akhir dari penilaian manusia dalam investasi maupun keunggulan yang dijamin. Bukti akademis menetapkan bahwa metode ML benar-benar menangkap sinyal prediktif dalam return cross-sectional — sinyal yang berasal dari interaksi faktor kondisional dan nonlinear daripada dari variabel baru yang eksotis. Tetapi jarak antara temuan akademis ini dan strategi investasi yang menguntungkan dan berkelanjutan sangat besar. Diperlukan metode validasi yang dirancang untuk data non-stasioner, berkorelasi serial, dan adversarial; prior ekonomi yang mencegah model menyesuaikan noise; pemodelan biaya yang realistis yang mengakui premi illikuiditas dalam alpha ML; dan penghitungan jujur untuk multiple testing yang melekat dalam setiap pipeline penelitian ML.

Dana yang bertahan melewati tantangan ini cenderung terlihat bukan seperti toko data science Silicon Valley melainkan lebih seperti perusahaan kuantitatif sistematik tradisional yang telah menggabungkan ML sebagai satu alat di antara banyak alat lainnya. Mereka menggunakan neural network untuk memodelkan eksposur faktor kondisional, tetapi mendasarkan model mereka pada teori ekonomi. Mereka merangkul kompleksitas di mana bukti mendukungnya, tetapi memvalidasi dengan ketelitian yang kebanyakan praktisi ML di luar keuangan akan anggap berlebihan. Mereka menerima bahwa R-squared 0,40% adalah pencapaian yang genuine, bukan kesalahan pembulatan, dan mereka membangun infrastruktur untuk mengekstrak nilai dari keunggulan tipis itu tanpa menghancurkannya melalui perdagangan berlebihan.

Pertanyaannya bukan apakah machine learning berhasil dalam investasi kuantitatif. Bukti mengatakan berhasil. Pertanyaannya adalah apakah implementasinya cukup disiplin untuk memisahkan 0,40% sinyal dari 99,6% noise — dan apakah disiplin itu dapat dipertahankan seiring pasar berevolusi dan persaingan semakin ketat.

Artikel ini mengkaji penelitian akademis tentang aplikasi ML dalam investasi. Ini bukan rekomendasi untuk berinvestasi dalam strategi apa pun yang dibahas. Metrik kinerja yang dimodelkan mencerminkan kondisi studi akademis tertentu dan tidak dapat direplikasi oleh sebagian besar investor individual.

Terkait

Keutamaan Kompleksitas: Mengapa Model Overparameterized Memprediksi Return Lebih Baik

Model & Kerangka Kerja12 min

Analisis Sentimen NLP untuk Trading Kuantitatif: Dari Kamus hingga Transformer

Riset Orisinal QD12 min

Pemodelan Risiko Kredit: Dari Model Struktural Merton hingga Machine Learning

Riset Orisinal QD10 min

Machine Learning dalam Penetapan Harga Aset: Apa yang Benar-Benar Berhasil

Model & Kerangka Kerja14 min

Written by Sam · Reviewed by Sam

Artikel ini berdasarkan literatur primer yang dikutip dan telah ditinjau oleh tim editorial kami untuk akurasi dan atribusi. Kebijakan Editorial.

Referensi

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
López de Prado, M. (2018). The 10 Reasons Most Machine Learning Funds Fail. The Journal of Portfolio Management, 44(6), 120-133. https://doi.org/10.3905/jpm.2018.44.6.120
Israel, R., Kelly, B., & Moskowitz, T. (2020). Can Machines 'Learn' Finance? Journal of Investment Management, 18(2), 23-36. https://ssrn.com/abstract=3624052
Harvey, C. R., & Liu, Y. (2021). Lucky Factors. Journal of Financial Economics, 141(2), 413-435. https://doi.org/10.1016/j.jfineco.2021.04.014
Arnott, R. D., Harvey, C. R., & Markowitz, H. (2019). A Backtesting Protocol in the Era of Machine Learning. The Journal of Financial Data Science, 1(1), 64-74. https://doi.org/10.3905/jfds.2019.1.1.064
McLean, R. D., & Pontiff, J. (2016). Does Academic Research Destroy Stock Return Predictability? The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365
Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2017). The Probability of Backtest Overfitting. Journal of Computational Finance, 20(4), 39-69. https://doi.org/10.21314/JCF.2017.332