Jebakan Backtesting: Mengapa Kebanyakan Backtest Berbohong

Poin Utama

Sebagian besar backtest terlalu optimistis karena mengandung bias yang tidak terlihat oleh mata yang tidak terlatih. Survivorship bias, look-ahead bias, data snooping, dan asumsi yang tidak realistis tentang biaya eksekusi secara kolektif menghasilkan strategi yang terlihat brilian di atas kertas tetapi gagal dalam trading live. Dengan memahami jebakan-jebakan ini dan menerapkan teknik ketat seperti Deflated Sharpe Ratio dan walk-forward analysis, Anda dapat memisahkan alpha sejati dari ilusi statistik.

Paradoks Backtest

Backtesting adalah landasan pengembangan strategi kuantitatif. Setiap trader sistematis memulai dengan menguji ide terhadap data historis. Logikanya sederhana: jika suatu strategi berhasil di masa lalu, strategi tersebut seharusnya memiliki peluang yang wajar untuk berhasil di masa depan -- dengan asumsi struktur pasar tidak berubah secara fundamental.

Masalahnya adalah bahwa melakukan backtesting dengan buruk sangat mudah. Studi Harvey, Liu, dan Zhu tahun 2016 di Review of Financial Studies memeriksa lanskap penemuan faktor yang dipublikasikan dan menyimpulkan bahwa mayoritas kemungkinan adalah false positive. Para penulis berargumen bahwa ambang batas statistik konvensional (t-statistik lebih besar dari 2,0) terlalu longgar mengingat banyaknya jumlah faktor yang diuji di seluruh literatur akademis. Mereka mengusulkan menaikkan standar ke t-statistik 3,0 atau lebih tinggi -- ambang batas yang mengeliminasi sebagian besar anomali yang dipublikasikan.

Ini adalah temuan yang menyentakkan. Jika akademisi profesional yang mempublikasikan di jurnal top menghasilkan sebagian besar hasil palsu, backtest ritel dan institusional yang dikembangkan dengan kontrol lebih sedikit hampir pasti lebih buruk.

Survivorship Bias

Survivorship bias mungkin adalah kesalahan backtesting yang paling terkenal, namun terus mengganggu pengembangan strategi. Bias ini terjadi ketika backtest menggunakan dataset yang hanya mencakup sekuritas yang bertahan hingga akhir periode sampel, tidak termasuk yang delisting, bangkrut, atau diakuisisi.

Dampaknya sistematis dan searah: survivorship bias selalu membuat backtest terlihat lebih baik dari kenyataan. Elton, Gruber, dan Blake (1996) memperkirakan bahwa survivorship bias menggelembungkan return reksa dana sekitar 0,9 persen poin per tahun. Dalam backtesting ekuitas, efeknya bisa mencapai 1 hingga 2 persen poin per tahun, karena strategi sering memegang posisi di saham kecil atau distressed yang kemungkinan delisting-nya tidak proporsional.

Solusinya secara prinsip sederhana: gunakan database bebas survivorship bias yang mencakup sekuritas delisting dengan penyesuaian return yang tepat. CRSP, Compustat dengan delisting return, dan database point-in-time dari vendor seperti FactSet atau Bloomberg menyediakan cakupan ini. Kesulitannya adalah biaya -- data point-in-time yang bersih mahal, itulah mengapa banyak peneliti individu masih menggunakan dataset yang bias.

Look-Ahead Bias

Look-ahead bias terjadi ketika backtest secara tidak sengaja menggunakan informasi yang tidak akan tersedia pada saat keputusan trading dibuat. Ini lebih halus dari survivorship bias dan sering lebih sulit dideteksi.

Sumber umum termasuk menggunakan data laporan keuangan sebelum tanggal publikasi aktualnya. Pendapatan Q4 perusahaan mungkin dilaporkan pada bulan Februari, tetapi banyak database menetapkan data tersebut ke bulan Desember. Backtest yang menggunakan data bertanggal Desember untuk membuat trade di bulan Januari adalah curang -- informasi tersebut belum ada.

Sumber lain yang sering muncul adalah keanggotaan indeks. Jika Anda melakukan backtest strategi pada konstituen S&P 500 saat ini, Anda secara implisit mengetahui saham mana yang cukup sukses untuk bergabung dengan indeks. Pendekatan yang benar menggunakan keanggotaan indeks point-in-time, hanya memperdagangkan saham yang benar-benar ada di indeks pada setiap tanggal historis.

Bahkan data harga dapat memperkenalkan look-ahead bias. Menggunakan harga penutupan yang disesuaikan yang menggabungkan stock split dan dividen di masa depan dapat mendistorsi sinyal secara halus. Solusinya adalah menghitung semua sinyal pada data yang tidak disesuaikan dan menerapkan penyesuaian hanya untuk perhitungan return.

Data Mining dan Masalah Multiple Testing

Data mining bias -- juga disebut data snooping atau p-hacking -- bisa dibilang jebakan paling berbahaya karena paling sulit dihindari sepenuhnya. Setiap kali Anda menguji variasi strategi, Anda mengkonsumsi satu derajat kebebasan statistik. Uji cukup banyak variasi dan Anda pasti akan menemukan satu yang terlihat mengesankan, bahkan dalam data yang murni acak.

Pertimbangkan eksperimen pikiran dari White (2000): jika Anda menguji 100 variasi strategi independen pada dataset yang sama, masing-masing dengan tingkat false positive 5 persen, Anda mengharapkan untuk menemukan sekitar 5 strategi yang tampak signifikan secara statistik murni karena kebetulan. Uji 1.000 variasi dan Anda akan menemukan sekitar 50. Peneliti kemudian mempublikasikan yang terbaik, benar-benar percaya bahwa mereka telah menemukan alpha.

Skala masalah ini di bidang keuangan sangat mengejutkan. McLean dan Pontiff (2016) mempelajari 97 anomali pasar saham yang dipublikasikan dan menemukan bahwa return menurun rata-rata 26 persen setelah publikasi -- dan 58 persen setelah menyesuaikan untuk data mining pasca-publikasi oleh akademisi yang berusaha mereplikasi atau memperluas temuan asli.

Deflated Sharpe Ratio

Bailey dan Lopez de Prado (2014) mengusulkan solusi yang ketat: Deflated Sharpe Ratio (DSR). DSR menyesuaikan Sharpe ratio yang diamati dari suatu strategi untuk jumlah percobaan yang dilakukan, skewness dan kurtosis return, dan panjang sampel.

Intuisinya sederhana. Jika Anda menguji 200 varian strategi sebelum tiba di spesifikasi akhir, probabilitas bahwa yang terbaik memiliki expected return positif jauh lebih rendah dari yang disarankan oleh t-statistik mandirinya. DSR menghitung probabilitas bahwa Sharpe ratio yang diamati melebihi nol setelah memperhitungkan semua percobaan.

Strategi dengan Sharpe ratio 1,5 yang dipilih dari 500 percobaan mungkin memiliki probabilitas yang disesuaikan DSR di bawah 50 persen -- berarti peluang bahwa strategi tersebut benar-benar memiliki expected return positif lebih rendah dari peluang lemparan koin. Ini adalah pemeriksaan realitas yang kuat.

Asumsi Eksekusi yang Tidak Realistis

Bahkan backtest yang bebas dari bias statistik dapat menyesatkan melalui asumsi yang tidak realistis tentang eksekusi.

Biaya transaksi. Banyak backtest mengasumsikan biaya trading nol atau minimal. Dalam praktiknya, biaya mencakup komisi, bid-ask spread, market impact, dan slippage. Untuk strategi frekuensi tinggi, biaya-biaya ini mendominasi return. Bahkan untuk portofolio yang di-rebalance bulanan, asumsi biaya realistis dapat mengurangi Sharpe ratio sebesar 0,2 hingga 0,4.

Market impact. Backtest secara implisit mengasumsikan bahwa trade Anda tidak menggerakkan harga. Ini kira-kira benar untuk portofolio kecil tetapi runtuh pada skala besar. Strategi yang berhasil dengan $1 juta mungkin tidak menguntungkan pada $100 juta karena tekanan beli saja sudah menggeser harga melawan Anda. Almgren dan Chriss (2001) menyediakan kerangka kerja dasar untuk pemodelan market impact.

Likuiditas. Backtest biasanya mengasumsikan Anda dapat memperdagangkan ukuran apa pun pada harga historis. Dalam kenyataannya, saham tidak likuid mungkin memiliki spread lebar dan order book yang dangkal. Strategi yang terkonsentrasi pada saham mikro-cap mungkin menunjukkan return backtest yang spektakuler tetapi tidak dapat diperdagangkan dalam praktiknya.

Kendala short-selling. Banyak strategi memerlukan posisi short, tetapi biaya pinjaman, persyaratan locate, dan pembatasan short-selling sangat bervariasi di berbagai pasar dan periode waktu. Pasar ekuitas Korea dan India memiliki aturan short-selling yang sangat ketat.

Validasi Out-of-Sample

Pertahanan utama terhadap overfitting adalah pengujian out-of-sample (OOS). Prinsipnya sederhana: kembangkan strategi Anda menggunakan satu porsi data dan validasi pada porsi terpisah yang belum pernah Anda periksa.

Pembagian umum adalah 60/40 atau 70/30, dengan periode awal untuk pengembangan dan periode selanjutnya untuk validasi. Strategi harus berkinerja baik di periode OOS tanpa modifikasi parameter apa pun.

Namun, bahkan pengujian OOS memiliki keterbatasan. Jika Anda berulang kali memodifikasi strategi setelah melihat hasil OOS, periode OOS secara efektif menjadi in-sample. Ini disebut adaptive data mining, dan ini menginvalidasi seluruh latihan. Disiplin ketat diperlukan: definisikan strategi Anda sepenuhnya sebelum melihat data OOS, dan perlakukan kegagalan OOS sebagai sinyal asli bahwa strategi tidak berhasil.

Walk-Forward Analysis

Walk-forward analysis adalah pendekatan yang lebih canggih yang mengatasi keterbatasan pengujian OOS tunggal. Prosesnya adalah sebagai berikut:

Definisikan jendela in-sample awal (misalnya, 5 tahun data).
Optimalkan strategi pada jendela ini.
Uji strategi yang dioptimalkan pada periode out-of-sample berikutnya (misalnya, 1 tahun).
Geser jendela ke depan dan ulangi.

Hasilnya adalah serangkaian return out-of-sample yang sesungguhnya, masing-masing dihasilkan oleh parameter yang diestimasi hanya pada data sebelumnya. Penggabungan periode OOS ini menghasilkan estimasi kinerja yang realistis.

Walk-forward analysis juga mengungkapkan seberapa stabil parameter optimal strategi Anda dari waktu ke waktu. Jika periode lookback terbaik melompat dari 3 bulan ke 12 bulan ke 1 bulan di jendela-jendela berturut-turut, strategi kemungkinan sedang fitting noise daripada sinyal asli.

Keunggulan utama dibandingkan pembagian OOS tunggal adalah bahwa walk-forward analysis menggunakan seluruh dataset untuk optimasi dan validasi, tanpa pernah mengkontaminasi evaluasi. Ini adalah aproksimasi terdekat dengan trading live yang dapat disediakan oleh data historis.

Membangun Backtest yang Jujur: Daftar Periksa

Membangun backtest yang andal memerlukan disiplin sistematis. Daftar periksa berikut merangkum pelajaran dari puluhan tahun penelitian akademis dan praktisi.

Integritas data. Gunakan database bebas survivorship bias dengan penyesuaian delisting yang tepat. Verifikasi bahwa semua data fundamental adalah point-in-time, mencerminkan tanggal publikasi aktual. Pastikan keanggotaan indeks adalah historis, bukan saat ini.

Konstruksi sinyal. Hitung semua sinyal menggunakan hanya informasi yang tersedia pada saat keputusan trading. Terapkan lag realistis antara pembangkitan sinyal dan eksekusi trade -- minimal satu hari, lebih lama untuk strategi yang menggunakan data fundamental.

Pemodelan eksekusi. Sertakan biaya transaksi realistis berdasarkan bid-ask spread historis. Modelkan market impact sebagai fungsi dari ukuran trade relatif terhadap volume harian rata-rata. Terapkan biaya pinjaman untuk posisi short. Asumsikan pengisian parsial untuk sekuritas tidak likuid.

Ketelitian statistik. Laporkan jumlah varian strategi yang diuji. Hitung Deflated Sharpe Ratio atau terapkan koreksi Bonferroni. Persyaratkan t-statistik di atas 3,0 untuk strategi tunggal, lebih tinggi untuk pencarian skala besar. Lakukan walk-forward analysis daripada mengandalkan satu pembagian in-sample/out-of-sample.

Pemeriksaan ketahanan. Uji di berbagai sub-periode, geografi, dan kelas aset terkait. Verifikasi bahwa kinerja tidak bergantung pada sejumlah kecil trade outlier. Periksa eksposur faktor untuk memastikan return tidak dijelaskan oleh premia risiko yang diketahui.

Kerendahan hati. Terima bahwa bahkan backtest yang dibangun dengan baik melebih-lebihkan kinerja live. Terapkan haircut 30 hingga 50 persen pada return backtest sebagai ekspektasi dasar untuk implementasi dunia nyata. Jika strategi masih menarik setelah penyesuaian ini, mungkin layak untuk dikejar.

Keterbatasan

Tidak ada metodologi backtesting yang dapat sepenuhnya mereplikasi kondisi trading live. Perubahan rezim, patahan struktural, dan efek crowding secara inheren tidak dapat diprediksi dari data historis. Walk-forward analysis mengurangi tetapi tidak menghilangkan risiko overfitting. Deflated Sharpe Ratio bergantung pada pelaporan jujur jumlah percobaan, yang memerlukan disiplin yang sulit ditegakkan. Bahkan backtest yang jujur dapat gagal jika dinamika pasar yang mendasarinya berubah. Kesenjangan antara kinerja backtest dan live tetap menjadi salah satu tantangan sentral dalam keuangan kuantitatif.

Referensi

Harvey, C. R., Liu, Y., & Zhu, H. (2016). "...and the Cross-Section of Expected Returns." The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
McLean, R. D., & Pontiff, J. (2016). "Does Academic Research Destroy Stock Return Predictability?" The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365