Machine Learning dalam Penetapan Harga Aset: Apa yang Benar-Benar Berhasil

30.000 Saham, 900 Prediktor, Satu Pertanyaan

Antara 1957 dan 2016, sebuah neural network yang dilatih dengan indikator makroekonomi dan karakteristik perusahaan menghasilkan R-squared out-of-sample sebesar 0,40% untuk return saham individual AS. Angka itu terdengar kecil sampai Anda menyadari bahwa, dalam universe lebih dari 30.000 saham, keunggulan sekecil apa pun dalam prediksi return dapat diterjemahkan menjadi keuntungan portofolio yang signifikan secara ekonomi. Portofolio long-short yang dibentuk berdasarkan prediksi neural network ini menghasilkan Sharpe ratio di atas 1,8 — lebih dari dua kali lipat apa yang bisa dicapai model linear terbaik selama periode yang sama.

Ini adalah temuan utama dari salah satu makalah paling banyak dikutip dalam keuangan empiris modern: "Empirical Asset Pricing via Machine Learning" oleh Sheng Gu, Bryan Kelly, dan Dacheng Xiu, diterbitkan di Review of Financial Studies pada 2020 (Gu, Kelly & Xiu, 2020). Makalah ini merupakan perlombaan sistematis antara setiap metode machine learning utama yang diterapkan pada masalah fundamental keuangan — memprediksi return saham — dan kesimpulannya menantang baik kubu pasar efisien maupun skeptis factor zoo.

Masalahnya: Terlalu Banyak Faktor, Sinyal Tidak Cukup

Penetapan harga aset memiliki masalah data. Selama tiga dekade terakhir, para peneliti telah mengusulkan ratusan variabel yang konon memprediksi return saham. Book-to-market, momentum, profitabilitas, investasi, akrual, penerbitan saham, volatilitas idiosinkratik — daftarnya sekarang melebihi 400 anomali yang diterbitkan. Harvey, Liu, dan Zhu mendokumentasikan ledakan ini dalam makalah 2016 mereka, berargumen bahwa sebagian besar "penemuan" ini adalah noise statistik yang diperkuat oleh data mining (Harvey, Liu & Zhu, 2016).

Pendekatan tradisional terhadap masalah ini bersifat linear. Pilih beberapa faktor, jalankan regresi, periksa t-statistik. Model lima faktor Fama-French menggunakan lima variabel. Bahkan model linear paling ambisius pun jarang menggunakan lebih dari beberapa lusin. Alasannya sederhana: regresi linear tidak dapat menangani ratusan prediktor yang berkorelasi tanpa overfitting yang parah. Menambahkan lebih banyak variabel ke model linear pada akhirnya membuat prediksi lebih buruk, bukan lebih baik.

Machine learning mengubah perhitungan ini. Metode seperti random forest, gradient-boosted tree, dan neural network dirancang khusus untuk mengekstrak sinyal dari data berdimensi tinggi dan berisik. Mereka dapat menangkap hubungan nonlinear dan interaksi antar variabel yang sepenuhnya terlewatkan oleh model linear. Pertanyaan yang diajukan Gu, Kelly, dan Xiu adalah apakah metode-metode ini, ketika diterapkan pada seluruh universe prediktor saham yang diusulkan, benar-benar meningkatkan prakiraan return.

Perlombaan Metode

Makalah ini menguji serangkaian metode yang komprehensif, semuanya dilatih pada data yang sama dan dievaluasi dalam kondisi out-of-sample yang identik. Metode-metode tersebut berkisar dari pendekatan ekonometrika tradisional hingga machine learning mutakhir:

Metode	R² Out-of-Sample	Sharpe Bulanan (L/S)
OLS (semua prediktor)	-1,01%	0,60
OLS (3 prediktor)	0,16%	0,89
Elastic Net	0,21%	1,12
Random Forest	0,23%	1,35
Gradient-Boosted Trees	0,34%	1,51
Neural Network (NN3)	0,40%	1,80
Neural Network (NN5)	0,36%	1,71

Beberapa pola muncul dari hasil ini.

Pertama, OLS dengan semua prediktor adalah bencana. R-squared negatif berarti Anda lebih baik memprediksi return rata-rata historis untuk setiap saham daripada menggunakan prediksi OLS. Ini mengonfirmasi intuisi standar bahwa model linear mengalami overfitting dalam dimensi tinggi.

Kedua, regularisasi sangat membantu. Elastic net, yaitu regresi linear dengan term penalti yang menyusutkan koefisien dan memilih variabel, mengubah R-squared negatif menjadi positif. Namun peningkatannya cepat mencapai batas karena elastic net pada dasarnya masih linear.

Ketiga, metode berbasis pohon mengungguli metode linear. Random forest dan gradient-boosted tree menangkap hubungan nonlinear antara prediktor dan return, mendorong R-squared lebih tinggi dan Sharpe ratio di atas 1,3.

Keempat, neural network menang. Neural network tiga lapis (NN3) mencapai R-squared out-of-sample tertinggi dan Sharpe ratio tertinggi. Network lima lapis (NN5) sedikit lebih rendah, menunjukkan diminishing returns terhadap kedalaman dalam aplikasi ini.

Apa yang Ditemukan Neural Network

Kontribusi paling mencerahkan dari makalah ini bukan hanya hasil perlombaan tetapi analisis tentang apa yang sebenarnya dipelajari model pemenang. Menggunakan teknik yang disebut analisis kepentingan variabel, penulis mendekomposisi prediksi setiap model untuk mengidentifikasi input mana yang mendorong prakiraan.

Prediktor dominan di semua model nonlinear adalah momentum — tetapi bukan momentum 12 bulan yang sederhana. Neural network mengidentifikasi interaksi kompleks antara short-term reversal (return 1 bulan), medium-term momentum (2-12 bulan), dan long-term reversal (13-60 bulan) yang bervariasi dengan kondisi pasar. Dalam lingkungan volatilitas tinggi, short-term reversal mendominasi. Di pasar yang tenang, medium-term momentum mengambil alih.

Kategori terpenting kedua adalah likuiditas dan aktivitas perdagangan. Variabel seperti share turnover, bid-ask spread, dan volume perdagangan dolar berinteraksi dengan ukuran dan momentum dengan cara yang tidak dapat ditangkap model linear.

Temuan kunci ketiga adalah pentingnya interaksi makroekonomi. Neural network mempelajari bahwa kekuatan prediktif karakteristik perusahaan berubah seiring siklus bisnis. Saham value (book-to-market tinggi) memprediksi return lebih kuat selama resesi, sementara momentum bekerja lebih baik selama ekspansi. Hubungan yang berubah-ubah terhadap waktu ini tidak terlihat dalam model linear standar yang mengestimasi koefisien tetap.

Menjinakkan Factor Zoo

Makalah pendamping oleh Feng, Giglio, dan Xiu memberikan landasan teoretis tambahan mengapa machine learning bekerja dalam konteks ini (Feng, Giglio & Xiu, 2020). Kerangka kerja mereka mengatasi pertanyaan mendasar: dengan 400+ faktor yang diusulkan, bagaimana menentukan mana yang benar-benar menangkap risiko dan mana yang hanya noise?

Pendekatan tradisional — menguji faktor satu per satu terhadap model yang ada — secara statistik cacat karena mengabaikan masalah pengujian berganda. Jika Anda menguji 400 variabel, sekitar 20 akan tampak signifikan pada level 5% murni secara kebetulan.

Feng, Giglio, dan Xiu mengusulkan prosedur seleksi ganda yang menggunakan machine learning (khususnya LASSO) untuk secara simultan memilih faktor yang penting sambil mengendalikan yang lain. Diterapkan pada 150+ faktor yang diterbitkan, mereka menemukan bahwa sebagian besar redundan. Faktor yang bertahan — pasar, ukuran, value, momentum, profitabilitas, dan sejumlah kecil lainnya — sesuai erat dengan apa yang diidentifikasi neural network Gu, Kelly, dan Xiu sebagai penting.

Konvergensi ini meyakinkan. Neural network tidak menemukan sinyal eksotis yang tidak dapat diinterpretasikan. Ia menemukan bahwa faktor-faktor yang sudah dikenal berinteraksi dengan cara nonlinear yang terlewatkan model linear.

Implikasi Praktis

Implikasi praktis berbeda secara substansial tergantung siapa Anda.

Untuk investor institusional dan hedge fund, makalah ini memvalidasi pergeseran menuju machine learning dalam strategi kuantitatif. Keuntungan out-of-sample cukup besar untuk bertahan dari biaya transaksi bagi portofolio yang dapat diperdagangkan secara efisien.

Untuk investor ritel, implikasinya lebih bernuansa. Anda tidak dapat mereplikasi strategi ini di rumah. Makalah ini menggunakan rebalancing bulanan di 30.000 saham, yang membutuhkan infrastruktur eksekusi skala institusional. Portofolio long-short juga memerlukan short selling, yang mahal dan terkadang tidak mungkin untuk akun ritel.

Namun, temuan ini memiliki implikasi tidak langsung terhadap cara investor ritel berpikir tentang investasi faktor. Jika proses penghasilan return yang sebenarnya bersifat nonlinear — jika momentum bekerja berbeda di pasar volatil versus tenang, jika value bergantung pada siklus bisnis — maka eksposur faktor sederhana dan statis hanya akan menangkap sebagian dari premi yang tersedia. Ini membantu menjelaskan mengapa ETF faktor, yang menerapkan aturan tetap pada karakteristik tunggal, sering berkinerja di bawah backtest mereka. Premi yang sesungguhnya berasal dari eksposur faktor yang dinamis dan kondisional yang dapat ditangkap metode machine learning tetapi tidak oleh aturan tetap.

Keterbatasan dan Pertanyaan Terbuka

Kekuatan makalah ini juga merupakan keterbatasannya. Periode sampel 60 tahun (1957-2016) mencakup beberapa rezim pasar, yang baik untuk generalisasi. Namun dekade terbaru — ditandai dengan suku bunga mendekati nol, intervensi bank sentral yang belum pernah terjadi sebelumnya, dan kebangkitan investasi pasif — mungkin merepresentasikan structural break. Model yang dilatih pada data 1957-2016 mungkin tidak berkinerja sama baiknya di lingkungan pasca-pandemi.

Overfitting tetap menjadi kekhawatiran meskipun desain out-of-sample yang hati-hati. Kelly, Malamud, dan Zhou (2024) mengatasi kekhawatiran ini dalam makalah berikutnya, memberikan justifikasi teoretis mengapa model kompleks benar-benar dapat mengungguli dalam pengaturan berdimensi tinggi daripada sekadar overfitting (Kelly, Malamud & Zhou, 2024).

Biaya transaksi diakui tetapi tidak sepenuhnya dimasukkan. Setelah penyesuaian biaya transaksi yang realistis, keunggulan neural network atas metode yang lebih sederhana menyempit, meskipun tidak menghilang.

Gambaran Lebih Besar

Makalah Gu, Kelly, dan Xiu menandai titik balik dalam penetapan harga aset empiris. Makalah ini mendemonstrasikan bahwa pilihan metode statistik — linear versus nonlinear, sederhana versus kompleks — sama pentingnya dengan pilihan prediktor. Selama beberapa dekade, penelitian penetapan harga aset berfokus pada menemukan variabel baru sambil menggunakan toolkit regresi linear yang sama. Makalah ini menunjukkan bahwa toolkit itu sendiri yang menjadi hambatan.

Implikasinya melampaui prediksi return. Jika return saham benar-benar didorong oleh interaksi faktor nonlinear, maka model faktor standar kita — model tiga-faktor, lima-faktor, dan enam-faktor yang mendominasi keuangan akademis dan praktisi — pada dasarnya salah spesifikasi. Mereka menangkap efek orde pertama tetapi melewatkan interaksi orde lebih tinggi yang dieksploitasi metode machine learning.

Ini tidak berarti model faktor tidak berguna. Mereka tetap berharga sebagai kerangka konseptual dan alat atribusi risiko. Namun sebagai alat prakiraan, mereka menyisakan kekuatan prediktif yang signifikan di atas meja. Kesenjangan antara metode linear dan nonlinear adalah bukti empiris bahwa pasar lebih kompleks dari yang diasumsikan model standar kita.

Bagi siapa pun yang berinvestasi dalam strategi kuantitatif — baik melalui hedge fund, ETF smart beta, atau pendekatan sistematis mereka sendiri — pesan sentral makalah ini jelas: metode sama pentingnya dengan data, dan model paling sederhana tidak selalu merupakan model terbaik.

Artikel ini hanya untuk tujuan edukasi dan bukan merupakan nasihat investasi. Kinerja masa lalu tidak menjamin hasil di masa depan.

Terkait

Keutamaan Kompleksitas: Mengapa Model Overparameterized Memprediksi Return Lebih Baik

Model & Kerangka Kerja12 min

Model Empat Faktor Carhart: Menambahkan Momentum dalam Penetapan Harga Aset

Model & Kerangka Kerja12 min

Model Lima Faktor Fama-French: Penjelasan Lengkap

Model & Kerangka Kerja12 min

Krisis Replikasi dalam Penetapan Harga Aset: Anomali Mana yang Bertahan dari Verifikasi Independen?

Riset Orisinal QD50 min

Analisis ini disintesis dari Gu, Kelly & Xiu (2020), Review of Financial Studies oleh QD Research Engine — platform riset otomatis Quant Decoded — dan ditinjau oleh tim editorial kami untuk memastikan akurasi. Pelajari lebih lanjut tentang metodologi kami.

Referensi

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Feng, G., Giglio, S., & Xiu, D. (2020). Taming the Factor Zoo: A Test of New Factors. The Journal of Finance, 75(3), 1327-1370. https://doi.org/10.1111/jofi.12883
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the Cross-Section of Expected Returns. The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
Fama, E. F., & French, K. R. (2015). A Five-Factor Model of Expected Stock Returns. Journal of Financial Economics, 116(1), 1-22. https://doi.org/10.1016/j.jfineco.2014.10.010

Machine Learning dalam Penetapan Harga Aset: Apa yang Benar-Benar Berhasil

Penerapan Praktis untuk Investor Ritel

Catatan Editor

30.000 Saham, 900 Prediktor, Satu Pertanyaan

Masalahnya: Terlalu Banyak Faktor, Sinyal Tidak Cukup

Perlombaan Metode

Apa yang Ditemukan Neural Network

Menjinakkan Factor Zoo

Implikasi Praktis

Keterbatasan dan Pertanyaan Terbuka

Gambaran Lebih Besar

Terkait

Referensi