Krisis Replikasi dalam Penetapan Harga Aset: Anomali Mana yang Bertahan dari Verifikasi Independen?

Temuan Utama

Dunia akademis keuangan telah mengkatalogkan lebih dari 400 variabel yang konon mampu memprediksi imbal hasil saham. Harvey, Liu, dan Zhu menyebutnya "kebun binatang faktor." Namun ketika peneliti independen mencoba mereproduksi temuan-temuan ini, hasilnya sangat berbeda: beberapa studi melaporkan bahwa sebagian besar anomali gagal, sementara yang lain melaporkan bahwa sebagian besar berhasil direplikasi. Kami membandingkan secara sistematis 12 upaya replikasi besar dan menemukan bahwa kedua kubu sama-sama benar — mereka hanya menjawab pertanyaan yang berbeda. Replikasi statistik (bisakah kita mereproduksi statistik-t?) berhasil sekitar 50–70% dari waktu. Replikasi ekonomi (bisakah seseorang benar-benar menghasilkan uang dari ini?) hanya berhasil 15–30% dari waktu. Kesenjangan antara kedua angka ini bukan sebuah krisis — ini adalah temuan terpenting dalam keuangan empiris modern.

Artikel ini adalah QD Research Original. Kami tidak merangkum satu makalah tunggal. Kami mengumpulkan bukti dari 12 studi replikasi independen, membangun kerangka kerja tiga dimensi yang mendamaikan temuan-temuan mereka yang tampak bertentangan, dan menurunkan klasifikasi tiga tingkat baru untuk kebun binatang faktor. Metodologi, asumsi, dan tingkat keyakinan kami diungkapkan secara terbuka di seluruh artikel. Setiap klaim dapat ditelusuri ke penelitian yang telah dipublikasikan dan melalui peer-review.

Bagian I: Pertanyaan yang Belum Pernah Disepakati

Bagaimana Kita Sampai pada 400+ Faktor

Kisah kebun binatang faktor dimulai dengan satu persamaan yang elegan. Pada tahun 1964, William Sharpe mempublikasikan Capital Asset Pricing Model, yang mengusulkan bahwa imbal hasil yang diharapkan dari suatu saham ditentukan oleh satu hal: sensitivitasnya terhadap pasar secara keseluruhan, diukur dengan beta. Satu faktor. Satu persamaan. Bersih, dapat diuji, dan meraih Hadiah Nobel.

Retakan muncul hampir seketika. Fischer Black, Michael Jensen, dan Myron Scholes mendokumentasikan pada tahun 1972 bahwa hubungan empiris antara beta dan imbal hasil jauh lebih datar dari yang diprediksi CAPM. Saham dengan beta tinggi menghasilkan imbal hasil lebih rendah dari yang seharusnya; saham dengan beta rendah menghasilkan lebih tinggi. Ini bukan sekadar perbedaan statistik kecil — ini merupakan tantangan fundamental terhadap teori dominan penetapan harga aset.

Respons dari dunia akademis bukan meninggalkan kerangka model faktor, melainkan memperluasnya. Pada tahun 1992 dan 1993, Eugene Fama dan Kenneth French mempublikasikan makalah landmark mereka yang memperkenalkan dua faktor tambahan: ukuran (saham kecil mengungguli saham besar) dan nilai (saham dengan book-to-market tinggi mengungguli saham dengan book-to-market rendah). Model tiga faktor Fama-French menjadi standar baru. Peneliti yang sebelumnya menjelaskan imbal hasil dengan satu faktor kini menggunakan tiga.

Mark Carhart menambahkan momentum pada tahun 1997 — saham yang telah naik selama setahun terakhir cenderung terus naik, dan saham yang telah turun cenderung terus turun. Model empat faktor menjadi pekerja keras penelitian penetapan harga aset empiris selama lebih dari satu dekade.

Kemudian gerbang pun terbuka lebar. Fama dan French sendiri memperluas menjadi lima faktor pada tahun 2015, menambahkan profitabilitas dan investasi. Robert Novy-Marx mengidentifikasi profitabilitas kotor sebagai prediktor. Frazzini dan Pedersen memformalisasikan anomali beta rendah. Robert Stambaugh dan Yu Yuan mendokumentasikan sisi pendek dari anomali. Kewei Hou, Chen Xue, dan Lu Zhang mengusulkan model q-factor sebagai alternatif. Setiap makalah baru biasanya mengidentifikasi karakteristik yang memprediksi imbal hasil dengan statistik-t di atas 2,0, ambang batas konvensional untuk signifikansi statistik.

Pada saat Harvey, Liu, dan Zhu melakukan sensus mereka pada tahun 2016, jumlahnya telah mencapai 316 faktor yang dipublikasikan. Menurut beberapa estimasi, jumlah tersebut kini telah melampaui 400. Pertanyaan yang telah mendorong satu generasi penelitian — apa yang menentukan imbal hasil saham yang diharapkan? — telah menghasilkan kekayaan yang memalukan. Terlalu banyak jawaban. Jauh terlalu banyak jawaban.

Masalah Pengujian Berganda

Untuk memahami mengapa begitu banyak faktor menjadi masalah, bayangkan sebuah eksperimen pikiran statistik sederhana. Anggaplah imbal hasil saham sepenuhnya acak — tidak ada faktor yang memprediksi apa pun. Seorang peneliti menguji satu variabel terhadap imbal hasil dan menggunakan ambang batas standar p < 0,05. Ada peluang 5% untuk positif palsu — menemukan signifikansi padahal tidak ada.

Sekarang anggaplah peneliti menguji 100 variabel. Bahkan jika tidak satu pun dari variabel tersebut benar-benar memprediksi imbal hasil, kira-kira lima akan tampak signifikan secara kebetulan semata. Jika peneliti hanya mempublikasikan lima hasil "signifikan" dan membuang 95 kegagalan, literatur yang dipublikasikan akan berisi lima penemuan palsu yang tampak tidak berbeda dari temuan nyata. Masing-masing memiliki statistik-t di atas 2,0. Masing-masing memiliki p-value di bawah 0,05. Masing-masing akan dikutip, dikembangkan, dan dimasukkan ke dalam model faktor.

Ini adalah masalah pengujian berganda, dan ini bukan hipotetis. Struktur penerbitan akademis menciptakan insentif persis seperti ini. Peneliti menguji banyak variabel tetapi hanya melaporkan yang signifikan. Jurnal lebih menyukai temuan baru daripada hasil nol. Laci arsip terisi dengan hipotesis yang ditinggalkan, sementara catatan yang dipublikasikan terisi dengan pencilan statistik.

Harvey, Liu, dan Zhu memformalisasikan argumen ini. Dengan 316 faktor yang diuji terhadap sekitar 50 tahun imbal hasil bulanan, probabilitas penemuan palsu pada ambang batas t > 2,0 sangat tinggi. Mereka mengusulkan penyesuaian ambang batas signifikansi menggunakan metode dari literatur pengujian berganda — koreksi Bonferroni, prosedur Benjamini-Hochberg, dan pendekatan Bayesian mereka sendiri. Menurut penyesuaian yang mereka rekomendasikan, statistik-t minimum untuk penemuan faktor baru seharusnya sekitar 3,0. Pada standar ini, mayoritas anomali yang dipublikasikan gagal.

Makalah mereka bagaikan bom. Jika diterima begitu saja, itu menyiratkan bahwa puluhan tahun penelitian penetapan harga aset empiris sebagian besar hanya menghasilkan noise.

Serangan Balik

Namun tidak semua orang setuju. Respons datang dari berbagai arah secara bersamaan.

David McLean dan Jeffrey Pontiff mengambil pendekatan yang sangat berbeda. Alih-alih menyesuaikan ambang batas statistik, mereka memanfaatkan eksperimen alami: waktu. Setiap anomali yang dipublikasikan memiliki tanggal penemuan. Imbal hasil yang diperoleh anomali sebelum makalah ditulis adalah imbal hasil in-sample yang mungkin hasil penambangan data. Imbal hasil yang diperoleh setelah publikasi adalah imbal hasil di luar sampel yang tidak mungkin hasil penambangan data. Jika anomali murni artefak statistik, imbal hasil pasca-publikasi seharusnya nol.

McLean dan Pontiff menguji 97 anomali dan menemukan bahwa imbal hasil pasca-publikasi menurun rata-rata 58%. Ini merupakan penurunan substansial — tetapi bukan nol. Anomali tersebut mempertahankan sekitar 42% dari besaran in-sample aslinya. Temuan ini ambigu: konsisten dengan penambangan data parsial maupun arbitrase parsial.

Kewei Hou, Chen Xue, dan Lu Zhang melangkah lebih jauh. Dalam makalah mereka tahun 2020 di Review of Financial Studies, mereka mencoba mereplikasi 452 anomali yang dipublikasikan — upaya replikasi paling komprehensif hingga saat itu. Pendekatan mereka sengaja distandardisasi: mereka menggunakan sumber data yang konsisten, kriteria pemilihan sampel yang konsisten, dan metode konstruksi faktor yang konsisten di seluruh 452 anomali. Mereka menemukan bahwa 64% — hampir dua pertiga — gagal menghasilkan statistik-t di atas 1,96 dalam pengujian mereka.

Hasil ini banyak ditafsirkan sebagai konfirmasi krisis replikasi di bidang keuangan. Jika hanya 36% anomali yang dipublikasikan mampu bertahan dalam uji statistik paling sederhana, apa artinya bagi bidang ini?

Namun kemudian Andrew Chen dan Tom Zimmermann, yang bekerja secara independen di Federal Reserve Board, menghasilkan temuan yang sangat kontras. Mereka mereplikasi 319 anomali — kumpulan yang sebagian besar tumpang tindih dengan Hou, Xue, dan Zhang — dan menemukan bahwa sekitar 82% mereproduksi hasil aslinya. Ini bukan perbedaan kecil. Satu studi menemukan replikasi 36%; yang lain menemukan 82%.

Perbedaan kunci ada pada metodologi. Chen dan Zimmermann mengikuti metodologi setiap makalah asli seakurat mungkin. Ketika makalah asli menggunakan breakpoint NYSE, mereka menggunakan breakpoint NYSE. Ketika makalah mengecualikan perusahaan keuangan, mereka mengecualikan perusahaan keuangan. Ketika menggunakan struktur lag tertentu, mereka mereplikasi struktur lag tersebut. Hou, Xue, dan Zhang telah menerapkan metodologi terstandarisasi mereka sendiri, yang tak terhindarkan berbeda dari makalah asli dalam puluhan hal kecil.

Akhirnya, pada tahun 2023, Theis Jensen, Bryan Kelly, dan Lasse Pedersen mempublikasikan analisis komprehensif mereka terhadap 153 faktor menggunakan metode shrinkage Bayesian. Pendekatan mereka mengakui bahwa premi faktor diestimasi dengan noise dan menerapkan shrinkage statistik untuk membedakan premi asli dari kesalahan estimasi. Kesimpulan mereka tegas: tidak ada krisis replikasi dalam keuangan. Sebagian besar faktor memiliki imbal hasil yang diharapkan positif dan bermakna secara ekonomi setelah shrinkage.

Paradoks

Pada tahun 2024, komunitas akademis telah menghasilkan empat kesimpulan utama tentang kumpulan bukti yang sama:

Sebagian besar anomali adalah penemuan palsu (Harvey, Liu & Zhu)
Sebagian besar anomali menurun substansial tetapi bertahan (McLean & Pontiff)
Sebagian besar anomali gagal direplikasi (Hou, Xue & Zhang)
Sebagian besar anomali berhasil direplikasi (Chen & Zimmermann; Jensen, Kelly & Pedersen)

Keempat kesimpulan ini tidak bisa secara bersamaan benar di bawah satu definisi "replikasi." Penyelesaiannya mengharuskan pemahaman bahwa setiap studi mengajukan pertanyaan yang sedikit berbeda. Inilah masalah inti yang kami tangani.

Bagian II: Pertanyaan Penelitian dan Hipotesis Bersaing

Memformalisasikan Pertanyaan

Pertanyaan penelitian: Apakah anomali imbal hasil yang dipublikasikan merupakan fenomena pasar nyata yang dapat dieksploitasi, ataukah sebagian besar merupakan artefak penambangan data? Dan mengapa studi replikasi independen mencapai kesimpulan yang berlawanan ketika menguji kumpulan anomali yang sebagian besar tumpang tindih?

Kami menguraikan ini menjadi tiga hipotesis bersaing, masing-masing dengan kriteria falsifikasi yang jelas.

H1 — Hipotesis Penambangan Data

Pernyataan: Mayoritas anomali yang dipublikasikan adalah penemuan palsu yang dihasilkan oleh pencarian spesifikasi yang ekstensif, pengerukan data, dan bias publikasi. Kebun binatang faktor adalah artefak statistik, bukan deskripsi realitas pasar.

Mekanisme: Peneliti mengeksplorasi ratusan prediktor potensial, membangunnya dengan berbagai cara (lag berbeda, breakpoint, skema pembobotan), mengujinya terhadap imbal hasil menggunakan periode sampel dan subset yang berbeda, dan hanya mempublikasikan spesifikasi yang menghasilkan hasil signifikan. Jurnal memperkuat seleksi ini dengan lebih menyukai temuan baru yang signifikan. Hasilnya adalah literatur yang dipublikasikan yang didominasi oleh hasil paling ekstrem dari distribusi yang sebagian besar nol.

Kriteria falsifikasi: H1 memprediksi bahwa:

Anomali seharusnya menurun menjadi nol pasca-publikasi, bukan ke suatu nilai positif residual
Tingkat replikasi seharusnya rendah secara seragam terlepas dari kesetiaan metodologis
Tidak ada pola sistematis yang seharusnya membedakan anomali yang bertahan dari yang gagal
Replikasi internasional seharusnya gagal pada tingkat yang sama dengan pengujian ulang domestik
Anomali seharusnya tidak berkorelasi dengan mekanisme ekonomi yang dapat diamati

Jika salah satu prediksi ini gagal, H1 dalam bentuk murninya terfalsifikasi. Versi yang lebih lemah — bahwa beberapa anomali adalah penemuan palsu — hampir pasti benar dan tidak terlalu menarik.

H2 — Hipotesis Arbitrase

Pernyataan: Sebagian besar anomali yang dipublikasikan menangkap fenomena pasar nyata — kesalahan harga atau premi risiko yang asli — tetapi publikasi menyebarluaskan informasi kepada pelaku pasar, menarik modal arbitrase yang secara parsial atau sepenuhnya mengeliminasi premi tersebut. Penurunan pasca-publikasi merupakan pasar yang menjadi lebih efisien, bukan koreksi fiksi statistik.

Mekanisme: Sebelum publikasi, kesalahan harga terjadi karena terlalu sedikit investor yang menyadarinya atau karena hambatan struktural mencegah eksploitasi. Publikasi menciptakan kesadaran. Hedge fund, manajer aset kuantitatif, dan akhirnya penyedia ETF mulai memperdagangkan anomali tersebut. Aktivitas perdagangan mereka mengoreksi kesalahan harga, mengurangi premi yang dapat diamati. Tingkat koreksi bergantung pada kemudahan implementasi (biaya transaksi, kapasitas), kecepatan diseminasi, dan hambatan struktural yang semula menciptakan anomali tersebut.

Kriteria falsifikasi: H2 memprediksi bahwa:

Penurunan pasca-publikasi seharusnya parsial, bukan lengkap (batas arbitrase mencegah koreksi penuh)
Penurunan seharusnya berkorelasi dengan ukuran aktivitas arbitrase (perdagangan institusional, short interest, arus ETF)
Anomali yang lebih sulit diperdagangkan (small-cap, tidak likuid, turnover tinggi) seharusnya menurun lebih sedikit daripada anomali yang mudah diperdagangkan
Anomali seharusnya berhasil direplikasi dalam periode sampel asli bahkan di bawah metodologi terstandarisasi (mereka nyata sebelum arbitrase mengikisnya)
Anomali yang berbasis kompensasi risiko seharusnya tidak menurun sama sekali (risiko bersifat permanen; kesalahan harga bersifat sementara)

Jika anomali gagal direplikasi bahkan dalam periode sampel asli mereka — sebelum arbitrase apa pun bisa terjadi — H2 tidak dapat menjelaskan kegagalan tersebut.

H3 — Hipotesis Definisional

Pernyataan: Ketidaksetujuan yang tampak di antara studi replikasi terutama bersifat metodologis. Studi yang berbeda mendefinisikan "replikasi" secara berbeda, menggunakan standar statistik yang berbeda, dan membuat pilihan yang berbeda tentang konstruksi faktor. Pertanyaan "apakah anomali direplikasi?" tidak memiliki jawaban tanpa menspesifikasi apa arti replikasi. Tidak ada satu jawaban karena tidak ada satu pertanyaan.

Mekanisme: Replikasi dalam keuangan tidak seperti replikasi dalam kimia, di mana eksperimen yang sama dalam kondisi yang sama seharusnya menghasilkan hasil yang sama. Dalam keuangan, setiap pilihan metodologis — saham mana yang dimasukkan, bagaimana mendefinisikan breakpoint, kapan melakukan penyeimbangan kembali, bagaimana menimbang portofolio, ambang batas signifikansi apa yang digunakan, apakah memperhitungkan biaya transaksi — memengaruhi hasil. Dua peneliti dapat menguji anomali yang sama, membuat pilihan yang berbeda tetapi masing-masing dapat dipertahankan, dan mencapai kesimpulan yang berlawanan. Keduanya tidak salah; mereka menjawab pertanyaan yang berbeda.

Kriteria falsifikasi: H3 memprediksi bahwa:

Tingkat replikasi seharusnya bervariasi secara sistematis dengan pilihan metodologis, bukan dengan karakteristik anomali
Anomali yang sama terkadang seharusnya diklasifikasikan sebagai "berhasil direplikasi" oleh satu studi dan "gagal" oleh studi lainnya
Studi dengan kesetiaan metodologis lebih tinggi (mengikuti makalah asli secara ketat) seharusnya menunjukkan tingkat replikasi lebih tinggi
Studi yang menerapkan ambang batas lebih ketat atau menambahkan filter ekonomi seharusnya menunjukkan tingkat replikasi lebih rendah, terlepas dari anomali mana yang diuji
Variasi tingkat replikasi antar studi seharusnya lebih banyak dijelaskan oleh metodologi daripada oleh anomali mana yang disertakan

Jika tingkat replikasi ditentukan terutama oleh karakteristik anomali itu sendiri — dan bukan oleh pilihan metodologis para replikator — H3 terfalsifikasi.

Bagian III: Basis Bukti — Dua Belas Studi Secara Rinci

Memahami mengapa studi replikasi tidak sepakat memerlukan pemeriksaan metodologi setiap studi secara detail. Perbandingan tingkat replikasi di permukaan menyesatkan tanpa memahami apa yang sebenarnya diukur oleh setiap studi.

Studi 1: Schwert (2003) — Peringatan Awal

Bab G. William Schwert dalam Handbook of the Economics of Finance merupakan pemeriksaan sistematis pertama tentang apa yang terjadi pada anomali setelah didokumentasikan. Ia berfokus pada lima anomali paling menonjol: efek ukuran, efek nilai, efek akhir pekan, efek pergantian tahun, dan efek hasil dividen.

Schwert menemukan bahwa sebagian besar anomali ini melemah secara substansial pada tahun-tahun setelah dokumentasi awalnya. Efek ukuran, yang didokumentasikan oleh Banz pada tahun 1981, sebagian besar tidak ditemukan dalam data pasca-1982. Efek Januari, meskipun masih ada, lebih kecil dari yang dilaporkan semula. Efek nilai terbukti lebih tahan uji tetapi menunjukkan variasi waktu yang cukup besar.

Kontribusi Schwert terutama bersifat konseptual. Ia mengangkat kemungkinan bahwa anomali mungkin melemah karena dua alasan berbeda: entah mereka adalah artefak penambangan data yang kembali ke nilai sebenarnya (nol), atau mereka adalah fenomena nyata yang menarik modal cerdas setelah dipublikasikan. Ia tidak memutuskan antara kedua penjelasan ini tetapi membangun kerangka kerja yang akan digunakan peneliti selanjutnya.

Pilihan metodologis kunci: Schwert menguji imbal hasil pasca-penemuan tetapi tidak membedakan antara replikasi statistik dan ekonomi. Fokusnya hanya pada lima anomali membatasi generalisasi.

Studi 2: Harvey, Liu & Zhu (2016) — Penyesuaian Pengujian Berganda

Makalah Harvey, Liu, dan Zhu merupakan tantangan paling ketat secara statistik terhadap literatur anomali. Mereka mengkatalogkan 316 faktor yang dipublikasikan antara tahun 1967 dan 2014 serta berargumen bahwa ambang batas konvensional t > 2,0 tidak memadai mengingat banyaknya hipotesis yang diuji.

Argumen mereka bertumpu pada ketidaksetaraan Bonferroni dan variannya. Jika 316 pengujian independen dilakukan pada tingkat 5%, jumlah penolakan palsu yang diharapkan adalah sekitar 16. Setelah disesuaikan untuk pengujian berganda ini, mereka berargumen bahwa faktor yang baru diusulkan harus memerlukan statistik-t sekitar 3,0 untuk dianggap signifikan.

Makalah ini mencakup taksonomi terperinci dari 316 faktor, dikategorikan berdasarkan mekanisme ekonomi yang hendak mereka tangkap. Katalog ini sendiri menjadi sumber daya penting, mengungkap keluasan — dan potensi redundansi — yang luar biasa dari kebun binatang faktor.

Pilihan metodologis kunci: Harvey dkk. memperlakukan seluruh 316 faktor sebagai pengujian independen, yang melebih-lebihkan masalah pengujian berganda jika banyak faktor berkorelasi (yang pasti demikian). Mereka tidak benar-benar mereplikasi 316 faktor tersebut; mereka berargumen secara statistik bahwa sebagian besar seharusnya palsu mengingat banyaknya pengujian. Penyesuaian ambang batas mereka berlaku untuk penemuan baru tetapi sering diterapkan secara keliru untuk menilai faktor yang sudah ada yang telah divalidasi melalui cara lain.

Nuansa penting: Ambang batas t > 3,0 tepat untuk mengevaluasi faktor yang baru diusulkan di dunia di mana ratusan faktor telah diuji sebelumnya. Ambang ini belum tentu tepat untuk mengevaluasi faktor yang telah dikonfirmasi secara independen di banyak dataset, periode waktu, dan pasar. Faktor seperti momentum, yang telah direplikasi dalam puluhan studi independen di lebih dari 40 pasar, tidak seharusnya dievaluasi seolah-olah merupakan penemuan baru yang tunduk pada penalti pengujian berganda penuh.

Studi 3: McLean & Pontiff (2016) — Eksperimen Alami

McLean dan Pontiff memanfaatkan struktur temporal penerbitan akademis untuk membangun eksperimen alami. Untuk masing-masing dari 97 anomali, mereka mengidentifikasi tiga periode waktu:

Periode in-sample: Periode data yang digunakan dalam makalah asli
Periode pasca-sampel, pra-publikasi: Setelah sampel berakhir tetapi sebelum makalah dipublikasikan (biasanya 2–5 tahun)
Periode pasca-publikasi: Setelah makalah muncul di jurnal

Dekomposisi ini sangat kuat karena memisahkan artefak statistik dari fenomena ekonomi. Dalam periode pasca-sampel tetapi pra-publikasi, anomali berada di luar sampel (mengesampingkan overfitting in-sample) tetapi belum dipublikasikan (mengesampingkan arbitrase). Jika imbal hasil anomali nol dalam periode ini, temuan asli kemungkinan adalah penambangan data. Jika positif tetapi lebih kecil dari in-sample, ada bukti prediktabilitas asli dan sedikit overfitting. Jika positif lalu menurun lebih lanjut pasca-publikasi, arbitrase adalah penjelasan utama untuk penurunan tambahan tersebut.

McLean dan Pontiff menemukan:

Imbal hasil rata-rata in-sample: sekitar 100% dari efek yang dilaporkan
Imbal hasil pasca-sampel, pra-publikasi: sekitar 73% dari efek in-sample
Imbal hasil pasca-publikasi: sekitar 42% dari efek in-sample

Penurunan 27% dari in-sample ke pasca-sampel tetapi pra-publikasi menunjukkan tingkat overfitting in-sample tertentu — tetapi 73% bertahan dalam data di luar sampel yang sebenarnya merupakan bukti kuat bahwa anomali tidak murni artefak. Penurunan tambahan 31% pasca-publikasi (dari 73% ke 42%) konsisten dengan modal arbitrase yang mengikis premi tersebut.

Pilihan metodologis kunci: McLean dan Pontiff mengagregasi di seluruh 97 anomali, yang mencampurkan anomali kuat dengan yang lemah. Rata-rata menyembunyikan heterogenitas yang cukup besar. Beberapa anomali mungkin telah menurun menjadi nol (konsisten dengan H1) sementara yang lain mempertahankan sebagian besar premi mereka (konsisten dengan H2), dengan rata-rata mencerminkan campuran.

Studi 4: Green, Hand & Zhang (2017) — Uji Holdout

Jeremiah Green, John Hand, dan Frank Zhang menguji 94 karakteristik saham menggunakan metodologi holdout yang ketat. Mereka membangun setiap karakteristik menggunakan data CRSP/Compustat, kemudian menguji apakah karakteristik tersebut memprediksi imbal hasil dalam sampel holdout yang tidak digunakan dalam proses konstruksi variabel.

Mereka menemukan bahwa sekitar 50% dari 94 karakteristik signifikan dalam sampel holdout. Ini adalah tingkat replikasi moderat — lebih tinggi dari yang akan ditemukan Hou, Xue, dan Zhang nantinya, tetapi lebih rendah dari Chen dan Zimmermann. Perbedaan ini mencerminkan posisi antara mereka dalam kesetiaan metodologis: mereka menggunakan data yang konsisten tetapi memperbolehkan beberapa variasi dalam metodologi konstruksi.

Wawasan penting: Green dkk. juga menguji karakteristik mana yang memberikan informasi independen — daya prediktif yang tidak tersubsumsi oleh karakteristik lain. Jumlah karakteristik yang signifikan secara independen jauh lebih kecil dari 94, menunjukkan redundansi substansial dalam kebun binatang faktor. Banyak faktor yang tampak berbeda sebenarnya mengukur fenomena dasar yang sama.

Studi 5: Linnainmaa & Roberts (2018) — Uji Pra-1963

Juhani Linnainmaa dan Michael Roberts melakukan salah satu latihan replikasi paling kreatif dengan memanfaatkan data yang tidak dapat digunakan oleh peneliti asli. Sebagian besar anomali dalam literatur penetapan harga aset empiris ditemukan menggunakan data CRSP dari tahun 1963 dan seterusnya (ketika cakupan Compustat menjadi komprehensif). Linnainmaa dan Roberts memperluas data ke belakang hingga 1926 dan menguji apakah anomali pasca-1963 ini juga ada dalam periode 1926–1963.

Logikanya meyakinkan: jika suatu faktor benar-benar menangkap fenomena pasar yang persisten, ia seharusnya hadir dalam data yang lebih awal. Jika hanya muncul dalam periode sampel spesifik di mana ia ditemukan, penambangan data adalah penjelasan yang lebih mungkin.

Temuan mereka beragam. Beberapa faktor — terutama nilai dan momentum — hadir dalam data pra-1963, mengonfirmasi ketahanannya. Faktor lain — termasuk profitabilitas dan investasi — tidak ada atau tidak signifikan dalam periode sebelumnya. Linnainmaa dan Roberts menafsirkan faktor yang tidak ada sebagai kemungkinan artefak penambangan data.

Catatan penting: Pasar pra-1963 berbeda secara struktural dari pasar pasca-1963 dengan cara yang dapat menjelaskan ketiadaan faktor tanpa harus memunculkan penambangan data:

Komposisi institusional: Investor institusional memegang porsi pasar yang jauh lebih kecil sebelum 1963. Faktor yang didorong oleh perilaku institusional (seperti batasan leverage di balik BAB) akan lebih lemah di pasar yang didominasi investor individu.
Komposisi sektor: Pasar pra-1963 didominasi oleh kereta api, utilitas, dan industri berat. Pasar pasca-1963 mencakup teknologi, kesehatan, dan layanan. Faktor yang terkait aset tak berwujud, intensitas R&D, atau opsi pertumbuhan secara alami akan lebih lemah di periode sebelumnya.
Standar akuntansi: Pelaporan keuangan kurang terstandarisasi sebelum 1963. Faktor berbasis rasio akuntansi (profitabilitas, akrual, investasi) secara inheren lebih berisik ketika data yang mendasarinya kurang andal.
Lingkungan informasi: Diseminasi informasi lebih lambat dan kurang seragam. Faktor yang didorong oleh perhatian investor, liputan media, atau cakupan analis akan berperilaku berbeda.

Ketiadaan faktor dalam data pra-1963 merupakan bukti yang menentang faktor tersebut, tetapi bukan bukti konklusif. Ini adalah satu titik data dalam penilaian yang lebih luas.

Studi 6: Hou, Xue & Zhang (2020) — Replikasi Terstandarisasi

Makalah Hou, Xue, dan Zhang di Review of Financial Studies merupakan upaya replikasi paling komprehensif dalam hal jumlah anomali yang diuji: 452. Pendekatan mereka sengaja distandardisasi. Alih-alih mengikuti metodologi setiap makalah asli, mereka menerapkan seperangkat aturan yang konsisten ke seluruh 452 anomali:

Semesta: Semua saham biasa di NYSE, AMEX, dan NASDAQ
Breakpoint: Breakpoint khusus NYSE (mengikuti konvensi Fama-French)
Penyeimbangan kembali: Tahunan (Juni) atau bulanan, tergantung jenis sinyal
Pembobotan: Portofolio tertimbang nilai
Periode sampel: Diperpanjang hingga 2016

Di bawah aturan-aturan ini, 64% dari 452 anomali gagal menghasilkan statistik-t di atas 1,96. Hanya 36% yang berhasil direplikasi.

Temuan ini dramatis, tetapi interpretasinya memerlukan pemahaman tentang apa arti "kegagalan" dalam konteks ini. Suatu anomali bisa "gagal" karena beberapa alasan:

Temuan asli memang palsu — hasil nol yang dihasilkan secara kebetulan
Anomali sensitif terhadap pilihan konstruksi — ia ada di bawah metodologi asli tetapi tidak di bawah pendekatan terstandarisasi
Anomali telah menurun seiring waktu — ia nyata dalam sampel asli tetapi telah melemah sejak saat itu
Metodologi terstandarisasi tidak tepat untuk anomali spesifik ini — beberapa anomali memerlukan pilihan metodologis tertentu (misalnya, pembobotan setara untuk anomali small-cap)

Hasil Hou, Xue, dan Zhang tidak dapat membedakan antara penjelasan-penjelasan ini. Tingkat kegagalan 64% bisa berarti 64% penemuan palsu, 64% anomali yang sensitif terhadap metodologi, atau campuran keduanya.

Pilihan metodologis kunci: Keputusan menggunakan portofolio tertimbang nilai dengan breakpoint NYSE bukanlah netral. Banyak anomali terkonsentrasi pada saham kecil. Pembobotan nilai mengurangi pengaruh saham kecil, dan breakpoint NYSE memastikan bahwa portofolio saham kecil sebagian besar berisi saham NYSE kecil daripada populasi saham NASDAQ yang jauh lebih banyak dan sangat kecil. Ini adalah pilihan yang dapat dipertahankan, tetapi secara sistematis merugikan anomali yang beroperasi terutama di ruang small-cap.

Studi 7: Jacobs & Muller (2020) — Replikasi Internasional

Heiko Jacobs dan Sebastian Muller menguji 241 anomali di pasar internasional — uji di luar sampel yang sebenarnya dalam dataset yang secara fundamental independen. Artefak penambangan data AS seharusnya tidak direplikasi di pasar dengan struktur institusional, lingkungan regulasi, dan standar akuntansi yang berbeda.

Mereka menemukan bahwa sekitar 50% anomali yang ditemukan di AS berhasil direplikasi di setidaknya satu pasar internasional, dan sebagian yang bermakna berhasil direplikasi secara luas di berbagai wilayah. Anomali yang paling konsisten direplikasi adalah yang memiliki fondasi teoretis terkuat: nilai, momentum, profitabilitas, dan volatilitas rendah.

Jacobs dan Muller juga membuat perbedaan penting antara "replikasi" dan "keberadaan." Beberapa anomali mungkin ada di semua pasar tetapi muncul dalam bentuk yang berbeda. Misalnya, nilai berlaku secara internasional tetapi variabel akuntansi spesifik yang menangkapnya bervariasi di seluruh rezim akuntansi. Book-to-market bekerja baik dalam akuntansi U.S. GAAP tetapi mungkin perlu diganti dengan ukuran berbasis laba di pasar dengan standar akuntansi berbeda. Di Indonesia sendiri, para investor yang mengikuti IDX atau IHSG tentu menyadari bahwa anomali faktor dapat berperilaku berbeda di pasar berkembang yang diawasi oleh OJK dibandingkan dengan pasar maju.

Wawasan kunci untuk analisis kami: Tingkat replikasi internasional sekitar 50% konsisten dengan hipotesis bahwa kira-kira setengah dari kebun binatang faktor menangkap fenomena ekonomi nyata dan kira-kira setengahnya tidak. Anomali yang direplikasi secara internasional secara tidak proporsional adalah yang memiliki mekanisme teoretis yang jelas, yang persis seperti yang diprediksi oleh H2 (hipotesis arbitrase).

Studi 8: Chen & Zimmermann (2022) — Replikasi Metodologi Persis

Makalah Andrew Chen dan Tom Zimmermann bisa dibilang merupakan upaya replikasi paling cermat, dalam arti bahwa ia memprioritaskan kesetiaan metodologis di atas segalanya. Mereka mereplikasi 319 anomali dengan mengikuti metodologi setiap makalah asli seakurat mungkin, menggunakan repositori kode sumber terbuka mereka (yang mereka sediakan secara publik, menetapkan standar baru reprodusibilitas dalam keuangan).

Temuan mereka bahwa sekitar 82% berhasil direplikasi sangat kontras dengan 36% dari Hou, Xue, dan Zhang. Perbedaannya hampir seluruhnya disebabkan oleh kesetiaan metodologis. Ketika Chen dan Zimmermann menguji anomali yang sama menggunakan metodologi terstandarisasi Hou, Xue, dan Zhang, tingkat replikasi mereka menurun drastis — mengonfirmasi bahwa perbedaan tersebut didorong oleh pilihan metodologis, bukan oleh perbedaan dalam sampel anomali.

Ini mungkin merupakan temuan terpenting dalam debat replikasi. Ini menunjukkan bahwa jawaban atas pertanyaan "apakah anomali berhasil direplikasi?" sangat bergantung pada apa yang Anda maksud dengan replikasi. Jika replikasi berarti "apakah prosedur persis yang dijelaskan dalam makalah menghasilkan hasil yang dilaporkan," jawabannya sebagian besar ya. Jika replikasi berarti "apakah anomali ini ada di bawah metodologi yang berbeda tetapi masuk akal," jawabannya lebih bernuansa.

Kontribusi kunci: Repositori kode sumber terbuka Chen dan Zimmermann mengubah debat replikasi dari kontes makalah yang saling bertentangan menjadi pertanyaan empiris yang dapat diperiksa oleh peneliti mana pun. Kode mereka memungkinkan siapa pun untuk mereproduksi salah satu dari 319 anomali menggunakan metodologi asli atau pendekatan terstandarisasi, dan mengamati langsung bagaimana pilihan metodologis memengaruhi hasil.

Studi 9: Jensen, Kelly & Pedersen (2023) — Rekonsiliasi Bayesian

Theis Jensen, Bryan Kelly, dan Lasse Pedersen membawa metode Bayesian yang canggih ke pertanyaan replikasi. Alih-alih mengklasifikasikan faktor sebagai "signifikan" atau "tidak signifikan" berdasarkan ambang batas, mereka mengestimasi distribusi posterior dari imbal hasil yang diharapkan setiap faktor, menggabungkan informasi prior dan shrinkage.

Pendekatan mereka secara fundamental berbeda dari pengujian berbasis ambang batas. Faktor dengan statistik-t 1,8 akan diklasifikasikan sebagai "gagal" di bawah ambang batas t > 2,0 tetapi mungkin memiliki rata-rata posterior yang positif secara bermakna setelah shrinkage Bayesian. Dengan menghindari jebakan klasifikasi biner, Jensen, Kelly, dan Pedersen mampu mengestimasi distribusi premi faktor daripada hanya jumlah faktor yang melampaui standar yang sewenang-wenang.

Kesimpulan mereka adalah bahwa penampang imbal hasil yang diharapkan kaya dan multi-dimensi. Sebagian besar faktor memiliki imbal hasil yang diharapkan positif, meskipun lebih kecil dari yang disarankan oleh estimasi in-sample mereka. Shrinkage — kesenjangan antara estimasi mentah dan rata-rata posterior — biasanya 30–50%, yang konsisten dengan temuan McLean dan Pontiff tentang penurunan pasca-publikasi. Dalam kerangka Bayesian, shrinkage ini mencerminkan noise estimasi daripada penambangan data: premi sebenarnya selalu lebih kecil dari yang disarankan oleh estimasi yang berisik.

Wawasan kunci: Kerangka kerja Jensen, Kelly, dan Pedersen menyarankan bahwa "krisis replikasi" sebagian merupakan artefak pengujian berbasis ambang batas. Ketika Anda memaksa variabel kontinu (premi faktor) ke dalam klasifikasi biner (signifikan atau tidak), Anda menciptakan efek tebing: faktor yang tepat di atas ambang batas diklasifikasikan sebagai nyata, dan faktor yang tepat di bawah diklasifikasikan sebagai palsu. Dalam realitas, ada kontinum dari premi yang sangat positif (momentum, nilai) melalui premi yang sedikit positif (puluhan faktor lebih kecil) hingga premi yang tidak dapat dibedakan dari nol (noise yang sesungguhnya). Kerangka biner memetakan kontinum ini ke klasifikasi biner, menciptakan ilusi krisis.

Studi 10: Novy-Marx & Velikov (2016) — Filter Biaya Transaksi

Robert Novy-Marx dan Mihail Velikov mengajukan pertanyaan yang diabaikan sebagian besar studi replikasi: bisakah Anda benar-benar memperdagangkan anomali ini secara menguntungkan? Signifikansi statistik diperlukan tetapi tidak cukup untuk signifikansi ekonomi. Faktor dengan statistik-t 3,0 dan imbal hasil kotor bulanan 50 basis poin terdengar mengesankan sampai Anda menyadari bahwa ia memerlukan penyeimbangan kembali bulanan di antara saham mikro-cap yang tidak likuid dengan bid-ask spread 200 basis poin.

Novy-Marx dan Velikov menguji 23 anomali terkemuka setelah menerapkan biaya transaksi realistis berdasarkan spread efektif, dampak pasar, dan biaya penjualan pendek. Banyak anomali yang tampak sangat signifikan dalam imbal hasil kotor menjadi tidak menguntungkan atau marginal setelah biaya.

Analisis mereka mengungkap pola penting: anomali yang paling mungkin bertahan dari biaya transaksi adalah yang memiliki turnover rendah (memerlukan penyeimbangan kembali jarang) dan yang terkonsentrasi pada saham likuid berkapitalisasi besar. Strategi nilai dan profitabilitas, yang melakukan penyeimbangan kembali tahunan dan beroperasi di seluruh spektrum ukuran, bertahan dengan baik. Strategi momentum, yang memerlukan penyeimbangan kembali bulanan atau lebih sering, lebih terpengaruh tetapi masih sedikit menguntungkan ketika diimplementasikan dengan eksekusi yang sadar biaya.

Biaya sisi pendek sangat penting. Banyak anomali memperoleh porsi substansial imbal hasilnya dari sisi pendek (menjual saham yang overpriced), tetapi penjualan pendek mahal — biaya peminjaman, risiko penarikan kembali, dan payoff asimetris dari posisi pendek semuanya mengikis imbal hasil. Ketika biaya penjualan pendek dimasukkan, banyak anomali long-short menjadi proposisi long-only, mengurangi imbal hasil teoretisnya kira-kira setengahnya.

Temuan kunci untuk analisis kami: Jumlah anomali yang secara statistik signifikan dan secara ekonomi menguntungkan setelah biaya secara dramatis lebih kecil dari jumlah yang sekadar signifikan secara statistik. Analisis Novy-Marx dan Velikov menunjukkan mungkin 10–15 anomali yang bertahan dari filter ekonomi ini, yang konsisten dengan estimasi kami tentang "inti yang tahan uji" sebesar 15–25 faktor (angka yang sedikit lebih besar mencerminkan faktor tambahan yang menguntungkan pada implementasi turnover rendah atau dalam format long-only).

Studi 11: Chordia, Goyal & Saretto (2020) — Filter Gabungan

Tarun Chordia, Amit Goyal, dan Alessio Saretto menggabungkan beberapa filter replikasi — penurunan pasca-publikasi, biaya transaksi, dan ketahanan statistik — ke dalam penilaian komprehensif terhadap lebih dari 180 anomali. Makalah mereka penting karena menerapkan ketiga dimensi replikasi secara bersamaan, alih-alih menguji masing-masing secara terpisah.

Setelah menerapkan semua filter, Chordia, Goyal, dan Saretto menemukan bahwa mayoritas anomali tidak menguntungkan secara neto. Efek gabungan dari penurunan pasca-publikasi dan biaya transaksi sangat merusak bagi sebagian besar strategi. Bahkan anomali yang mempertahankan signifikansi statistik setelah publikasi menjadi tidak layak secara ekonomi setelah biaya perdagangan realistis diterapkan.

Analisis mereka juga mengungkap efek interaksi: anomali yang paling banyak menurun pasca-publikasi seringkali juga memiliki biaya transaksi tertinggi, karena kedua fenomena didorong oleh faktor dasar yang sama — konsentrasi pada saham kecil yang tidak likuid. Anomali small-cap cenderung besar dalam imbal hasil kotor (karena illikuiditas menciptakan kesalahan harga yang lebih besar), menurun lebih banyak pasca-publikasi (karena bahkan sejumlah kecil modal arbitrase memiliki dampak harga besar di pasar yang tidak likuid), dan mahal untuk diperdagangkan (karena bid-ask spread yang lebar dan dampak pasar).

Implikasi: Kebun binatang faktor bahkan lebih redundan dari yang tampak. Banyak anomali yang tampak berbeda — rasio akuntansi yang berbeda, ukuran momentum yang berbeda, metrik kualitas yang berbeda — semuanya menangkap premi small-cap yang tidak likuid yang sama melalui lensa yang berbeda. Setelah biaya transaksi diterapkan, mereka runtuh menjadi segelintir sumber imbal hasil yang benar-benar independen.

Studi 12: Calluzzo, Moneta & Topaloglu (2019) — Mekanisme Arbitrase

Paul Calluzzo, Fabio Moneta, dan Selim Topaloglu memberikan bukti paling langsung untuk mekanisme arbitrase yang diusulkan H2. Alih-alih sekadar mengamati bahwa anomali menurun pasca-publikasi, mereka menguji apakah penurunan tersebut disebabkan oleh peristiwa publikasi.

Mereka melacak aktivitas perdagangan institusional di sekitar 14 anomali terkenal dan menemukan bahwa:

Investor institusional secara signifikan meningkatkan perdagangan mereka di saham terkait anomali setelah publikasi
Peningkatan perdagangan institusional berkorelasi dengan tingkat penurunan anomali pasca-publikasi
Anomali yang paling banyak diperdagangkan menunjukkan penurunan pasca-publikasi terbesar
Penurunan terkonsentrasi pada periode segera setelah publikasi, konsisten dengan mekanisme pembelajaran/diseminasi

Bukti ini sulit didamaikan dengan penambangan data murni (H1). Jika anomali adalah artefak statistik, tidak ada alasan bagi perdagangan institusional untuk meningkat setelah publikasi — dan tentu tidak ada alasan bagi tingkat peningkatan perdagangan untuk memprediksi tingkat penurunan. Temuan Calluzzo dkk. sangat mendukung kanal arbitrase: anomali itu nyata, publikasi menyebarluaskan informasi, pedagang institusional mengeksploitasi peluang, dan perdagangan mereka secara parsial mengoreksi kesalahan harga.

Keterbatasan: Sampel 14 anomali cukup kecil, dan keempat belas anomali tersebut termasuk yang paling menonjol dalam literatur. Ini adalah anomali yang paling mungkin menarik perhatian institusional. Mekanisme ini mungkin tidak berlaku umum untuk ratusan anomali yang kurang dikenal dalam kebun binatang faktor.

Bagian IV: Analisis — Tiga Dimensi Replikasi

Membangun Kerangka Kerja

Kontribusi analitis utama kami adalah kerangka kerja tiga dimensi yang menjelaskan hampir semua ketidaksetujuan di seluruh studi replikasi. Tiga dimensi tersebut adalah:

Kesetiaan metodologis: Seberapa ketat replikasi mengikuti prosedur makalah asli?
Ambang batas statistik: Standar signifikansi apa yang diterapkan?
Filter ekonomi: Apakah biaya transaksi dan batasan kapasitas dipertimbangkan?

Setiap studi replikasi menempati posisi tertentu dalam ruang tiga dimensi ini, dan tingkat replikasinya dapat diprediksi dari posisinya.

Dimensi 1: Kesetiaan Metodologis

Dimensi kesetiaan berjalan dari "replikasi persis" (mengikuti metodologi makalah asli secara tepat) hingga "replikasi terstandarisasi" (menerapkan metodologi seragam ke semua anomali).

Mengapa kesetiaan penting: Imbal hasil faktor mengejutkan betapa sensitifnya terhadap detail konstruksi. Pertimbangkan faktor momentum sebagai contoh konkret. Makalah asli Jegadeesh dan Titman tahun 1993 mendefinisikan momentum sebagai imbal hasil kumulatif selama bulan t-12 hingga t-2 (melewati bulan terbaru untuk menghindari efek mikrostruktur). Faktor ini dikonstruksi menggunakan saham NYSE/AMEX, dengan breakpoint desil, pembobotan setara dalam portofolio, dan penyeimbangan kembali bulanan.

Sekarang ubah salah satu pilihan ini:

Masukkan saham NASDAQ: Semesta berubah secara dramatis, terutama pada 1970-an-1980-an ketika NASDAQ kecil dan tidak likuid
Gunakan kuintil alih-alih breakpoint desil: Portofolio ekstrem menjadi kurang ekstrem
Gunakan pembobotan nilai alih-alih pembobotan setara: Pengaruh saham kecil menurun substansial
Lewati dua bulan alih-alih satu: Efek reversal jangka pendek lebih menyeluruh dihilangkan, mengubah properti faktor
Gunakan periode formasi 6 bulan alih-alih 12 bulan: Faktor menangkap momentum berdurasi lebih pendek, yang memiliki karakteristik risiko berbeda

Setiap perubahan ini secara individual dapat dipertahankan. Tidak ada yang "salah." Tetapi faktor momentum yang menggunakan saham NASDAQ, breakpoint kuintil, pembobotan nilai, dua bulan jeda, dan periode formasi enam bulan mungkin menghasilkan statistik-t 1,5 — gagal direplikasi — sementara spesifikasi persis Jegadeesh-Titman menghasilkan statistik-t 4,0. "Momentum" tidak gagal direplikasi. Versi momentum yang berbeda gagal direplikasi.

Fenomena ini terjadi di seluruh kebun binatang faktor. Chen dan Zimmermann mendokumentasikannya secara sistematis: ketika mereka mencocokkan metodologi makalah asli, 82% faktor berhasil direplikasi. Ketika mereka menerapkan metodologi terstandarisasi (serupa dengan Hou, Xue, dan Zhang), tingkat replikasi menurun secara substansial.

Pertanyaan filosofis: Pendekatan mana yang "benar"? Replikasi persis memberi tahu kita apakah klaim penulis asli dapat direproduksi — apakah mereka menemukan apa yang mereka katakan? Replikasi terstandarisasi memberi tahu kita apakah anomali tahan terhadap variasi metodologis yang masuk akal — apakah fenomena ini ada dalam pengertian yang lebih luas?

Keduanya adalah pertanyaan yang valid, tetapi memiliki jawaban yang berbeda. "Krisis" replikasi sebagian muncul dari pencampuradukan kedua pertanyaan ini.

Studi Kasus Sensitivitas Metodologis: Efek Ukuran

Efek ukuran memberikan ilustrasi yang jelas tentang bagaimana pilihan metodologis menentukan hasil replikasi. Rolf Banz mendokumentasikan pada tahun 1981 bahwa saham kecil memperoleh imbal hasil lebih tinggi daripada saham besar, secara rata-rata. Ini menjadi salah satu anomali paling terkenal dalam keuangan.

Apakah efek ukuran berhasil direplikasi? Jawabannya sepenuhnya bergantung pada bagaimana Anda mendefinisikannya:

Spesifikasi Efek Ukuran	Statistik-t (1963-2023)	Keputusan
SMB (Fama-French, tertimbang nilai)	~1,5	Gagal pada t > 1,96
SMB (tertimbang setara)	~3,0	Lolos
Desil 1 minus Desil 10 (CRSP)	~2,2	Marginal
Kecil minus besar (NYSE saja)	~1,0	Gagal
Kecil minus besar (termasuk mikro-cap)	~3,5	Lolos dengan kuat
Kecil minus besar (pasca-1980)	~0,5	Gagal
Kecil minus besar (hanya Januari)	~5,0	Lolos secara overwhelmingly
Kecil minus besar (tanpa Januari)	~0,3	Gagal
Kecil minus besar (dikontrol kualitas)	~2,5	Lolos (Asness et al., 2018)

Efek ukuran "berhasil direplikasi" atau "gagal" sepenuhnya tergantung pada spesifikasinya. Bukan berarti efek ukuran itu ambigu — melainkan "efek ukuran" bukanlah objek tunggal yang terdefinisi dengan baik. Ini adalah keluarga spesifikasi terkait yang berperilaku berbeda.

Ini tidak unik untuk ukuran. Ini berlaku untuk hampir setiap anomali dalam kebun binatang faktor. Pertanyaan "apakah anomali ini berhasil direplikasi?" tidak memiliki jawaban sampai Anda menspesifikasi versi anomali mana yang Anda uji.

Dimensi 2: Ambang Batas Statistik

Dimensi ambang batas berjalan dari "konvensional" (t > 1,96, setara dengan p < 0,05) hingga "disesuaikan pengujian berganda" (t > 3,0 atau lebih tinggi, tergantung metode penyesuaian).

Argumen Harvey, Liu, dan Zhu untuk ambang batas yang lebih tinggi secara statistik valid dalam konteks penemuan faktor baru. Jika Anda adalah peneliti ke-317 yang mengusulkan faktor baru, probabilitas prior bahwa faktor Anda asli lebih rendah daripada jika Anda yang pertama, karena 316 faktor telah diuji pada data yang sama. Penyesuaian pengujian berganda memperhitungkan beban pembuktian kumulatif ini.

Namun, argumen ini runtuh ketika diterapkan secara retroaktif pada faktor yang sudah mapan. Pertimbangkan momentum. Ia telah diuji dalam sampel asli Jegadeesh dan Titman (1993), dalam data AS pasca-publikasi, di lebih dari 40 pasar internasional (Asness, Moskowitz, dan Pedersen, 2013), dalam kelas aset yang berbeda (ekuitas, obligasi, komoditas, mata uang), dan dalam data historis yang membentang hingga era Victoria (Geczy dan Samonov, 2016). Masing-masing adalah pengujian independen. Probabilitas bahwa momentum merupakan penemuan palsu mengingat gunung bukti independen ini sangat kecil, terlepas dari ambang batas pengujian berganda apa pun yang Anda terapkan pada makalah asli.

Kerangka pengujian berganda dirancang untuk mengevaluasi penemuan baru yang marginal. Ia tidak seharusnya diterapkan pada faktor yang telah mengakumulasi bukti independen yang substansial. Kegagalan membuat pembedaan ini telah berkontribusi pada persepsi krisis replikasi.

Alternatif Bayesian

Pendekatan Bayesian Jensen, Kelly, dan Pedersen menghindari masalah ambang batas sepenuhnya. Alih-alih mengklasifikasikan faktor sebagai "signifikan" atau "tidak," mereka mengestimasi distribusi posterior dari premi setiap faktor. Faktor dengan statistik-t 1,5 bukan "tidak signifikan" — ia memiliki rata-rata posterior yang positif tetapi kecil, dengan interval kredibel yang lebar. Faktor dengan statistik-t 5,0 memiliki rata-rata posterior yang besar dengan interval yang sempit.

Representasi kontinu ini menghindari efek tebing dari pengujian berbasis ambang batas dan lebih akurat merepresentasikan keadaan pengetahuan yang sebenarnya. Kebun binatang faktor bukanlah partisi biner menjadi "nyata" dan "palsu" — ini adalah kontinum dari "hampir pasti nyata dan besar" (momentum, nilai) melalui "mungkin nyata tetapi kecil" (puluhan faktor) hingga "mungkin nol" (noise).

Di bawah kerangka Bayesian, "krisis" replikasi menghilang karena tidak pernah ada krisis — yang ada adalah pertanyaan biner yang diajukan dengan buruk yang diterapkan pada realitas yang kontinu.

Dimensi 3: Replikasi Ekonomi Versus Statistik

Dimensi ekonomi berjalan dari "imbal hasil kotor, tanpa biaya" hingga "imbal hasil bersih setelah biaya implementasi realistis dan batasan kapasitas." Dimensi ini relatif diabaikan dalam debat replikasi tetapi mungkin yang paling penting bagi para praktisi.

Taksonomi biaya perdagangan Novy-Marx dan Velikov menyediakan kerangka kerja yang esensial:

Spread efektif: Bid-ask spread adalah biaya transaksi paling mendasar. Untuk saham berkapitalisasi besar, spread efektif biasanya 2–5 basis poin. Untuk saham mikro-cap, bisa melebihi 200 basis poin. Faktor yang mengharuskan membeli dan menjual saham mikro-cap secara bulanan menghadapi biaya round-trip 400+ basis poin per bulan — pengurangan besar terhadap premi teoretis apa pun.

Dampak pasar: Order besar menggerakkan harga. Portofolio yang perlu membeli $100 juta dari saham dengan volume harian $5 juta akan mendorong harga naik secara signifikan selama eksekusi. Dampak pasar dapat diabaikan untuk large-cap yang likuid tetapi bisa sangat besar untuk saham kecil yang tidak likuid. Ini menciptakan batasan kapasitas: premi faktor menurun seiring bertambahnya ukuran portofolio.

Biaya penjualan pendek: Struktur long-short dari faktor akademis mengasumsikan penjualan pendek gratis dan tanpa batas. Dalam praktik, penjualan pendek mahal (biaya peminjaman biasanya 50–300 basis poin per tahun untuk saham yang mudah dipinjam, dan 10%+ untuk saham yang sulit dipinjam), berisiko (pemberi pinjaman dapat menarik kembali saham kapan saja), dan terkadang tidak mungkin dilakukan (beberapa saham tidak tersedia untuk dipinjam). Anomali yang memperoleh porsi substansial imbal hasilnya dari sisi pendek menghadapi hambatan implementasi yang sangat berat.

Turnover: Faktor yang memerlukan penyeimbangan kembali yang sering (bulanan atau lebih tinggi) menanggung biaya transaksi lebih sering daripada yang melakukan penyeimbangan kembali tahunan. Strategi momentum, yang biasanya melakukan penyeimbangan kembali bulanan, menghadapi turnover tahunan 12 kali lipat dari strategi nilai, yang biasanya melakukan penyeimbangan kembali tahunan. Perbedaan turnover ini berarti bahwa momentum harus menghasilkan premi kotor yang jauh lebih tinggi untuk memberikan imbal hasil bersih yang sama dengan nilai.

Ketika biaya-biaya ini diterapkan, kebun binatang faktor menyusut secara dramatis. Novy-Marx dan Velikov menemukan bahwa banyak anomali dengan imbal hasil kotor yang mengesankan — terutama yang terkonsentrasi pada saham kecil yang tidak likuid dengan turnover tinggi — menjadi tidak menguntungkan atau marginal setelah biaya.

Kartu Skor Replikasi Ekonomi

Kita dapat membangun kartu skor perkiraan tentang bagaimana keluarga anomali utama berkinerja di ketiga dimensi:

Keluarga Faktor	Replikasi Stat. Persis	Stat. Terstandarisasi	Pengujian Berganda	Setelah Biaya
Nilai (B/M, E/P)	Pass	Pass	Pass	Pass (turnover rendah)
Momentum (12-1)	Pass	Pass	Pass	Pass (marginal)
Profitabilitas (GP/A)	Pass	Pass	Pass	Pass (turnover rendah)
Volatilitas rendah / BAB	Pass	Pass	Pass	Pass (turnover rendah)
Investasi (pertumbuhan aset)	Pass	Campuran	Campuran	Pass (turnover rendah)
Komposit kualitas	Pass	Pass	Pass	Pass
Ukuran (SMB)	Pass	Campuran	Gagal	Campuran
Reversal jangka pendek	Pass	Pass	Pass	Gagal (turnover tinggi)
Akrual	Pass	Campuran	Campuran	Campuran
Penerbitan bersih	Pass	Campuran	Campuran	Pass
Volatilitas idiosinkratik	Pass	Campuran	Campuran	Gagal
Revisi analis	Pass	Pass	Campuran	Gagal (turnover tinggi)
Momentum laba (SUE)	Pass	Pass	Pass	Campuran
Efek kalender (Januari, dll.)	Pass	Gagal	Gagal	Gagal
Likuiditas (Amihud)	Pass	Campuran	Campuran	Gagal

Polanya jelas. Faktor-faktor yang lolos keempat kolom — statistik persis, statistik terstandarisasi, pengujian berganda, dan setelah biaya — membentuk kelompok kecil: nilai, momentum, profitabilitas, volatilitas rendah, dan kualitas. Ini adalah inti yang tahan uji. Faktor yang lolos beberapa kolom tetapi tidak semua membentuk zona tengah yang rapuh. Faktor yang gagal di sebagian besar atau semua kolom adalah noise.

Kajian Mendalam: Momentum di Seluruh Empat Filter

Momentum layak mendapat perhatian khusus karena merupakan anomali yang paling banyak dipelajari dalam keuangan dan menyediakan kasus uji ideal untuk kerangka kerja kami.

Filter 1: Replikasi statistik persis. Momentum berhasil direplikasi hampir sempurna ketika metodologi asli Jegadeesh dan Titman (1993) diikuti. Periode formasi 12 bulan dengan 1 bulan jeda, portofolio desil, dan pembobotan setara menghasilkan premi yang besar dan sangat signifikan dalam sampel asli, dalam sampel berikutnya, dan dalam replikasi Chen dan Zimmermann. Skor: Pass (lolos jelas).

Filter 2: Replikasi statistik terstandarisasi. Momentum berhasil direplikasi di bawah sebagian besar pendekatan terstandarisasi, meskipun besarannya bervariasi. Momentum tertimbang nilai lebih kecil dari momentum tertimbang setara (karena momentum lebih kuat di antara saham kecil). Periode formasi yang lebih panjang (misalnya, 6 bulan) menghasilkan hasil yang lebih lemah dari 12 bulan standar. Periode jeda yang berbeda mengubah besarannya. Di bawah standardisasi Hou, Xue, dan Zhang, momentum berhasil direplikasi. Skor: Pass (lolos, dengan sensitivitas terhadap spesifikasi).

Filter 3: Ambang batas pengujian berganda. Momentum dengan nyaman melampaui standar t > 3,0 dalam data AS dan telah direplikasi secara independen di lebih dari 40 pasar internasional. Bukti gabungan membuat probabilitas momentum sebagai penemuan palsu sangat kecil. Skor: Pass (lolos secara overwhelming).

Filter 4: Setelah biaya transaksi. Di sinilah momentum menghadapi tantangan terbesarnya. Faktor momentum standar memerlukan penyeimbangan kembali bulanan, yang menghasilkan turnover tinggi. Dalam bentuk paling ekstrem (desil long-short, tertimbang setara, penyeimbangan kembali bulanan), biaya transaksi mengonsumsi porsi substansial dari premi kotor.

Namun, literatur telah mengidentifikasi beberapa strategi mitigasi biaya:

Portofolio yang lebih luas (kuintil daripada desil) mengurangi turnover secara signifikan
Frekuensi penyeimbangan kembali menengah (kuartalan) menangkap sebagian besar premi dengan turnover lebih sedikit
Aturan perdagangan yang mengurangi turnover yang tidak perlu (misalnya, hanya berdagang ketika sinyal saham berubah secara signifikan) dapat memotong turnover 50%+ dengan dampak minimal pada imbal hasil kotor
Implementasi di saham large-cap yang likuid menghilangkan beban biaya small-cap
Algoritma eksekusi optimal dapat mengurangi dampak pasar

Setelah menerapkan modifikasi ini, Novy-Marx dan Velikov, dan secara terpisah Frazzini, Israel, dan Moskowitz, menyimpulkan bahwa momentum dapat diimplementasikan — dengan susah payah, pada skala institusional, dengan eksekusi yang cermat. Ini adalah faktor inti yang paling menantang untuk diimplementasikan tetapi tetap layak secara ekonomi.

Skor: Pass (lolos marginal — dapat diimplementasikan dengan konstruksi yang sadar biaya).

Bukti internasional: Asness, Moskowitz, dan Pedersen (2013) mendokumentasikan momentum dalam ekuitas di lebih dari 40 pasar, dalam mata uang, obligasi pemerintah, dan futures komoditas. Keluasan bukti ini pada dasarnya mustahil dijelaskan melalui penambangan data.

Bukti pra-sampel: Geczy dan Samonov (2016) mendokumentasikan momentum dalam ekuitas AS yang membentang hingga era Victoria (1801-1926), sebelum database CRSP dimulai.

Keputusan: Momentum lolos keempat filter, meskipun kelayakan ekonominya paling terbatas. Ia dengan tegas termasuk dalam inti yang tahan uji tetapi memerlukan implementasi yang lebih canggih dibandingkan strategi nilai atau profitabilitas.

Kajian Mendalam: Akrual di Seluruh Empat Filter

Akrual memberikan kasus kontras — anomali yang jelas berada di "zona tengah yang rapuh."

Anomali akrual, yang didokumentasikan oleh Sloan (1996), adalah temuan bahwa perusahaan dengan akrual tinggi (laba jauh di atas arus kas) kemudian underperform, sementara perusahaan dengan akrual rendah (arus kas melebihi laba) kemudian outperform. Intuisi ekonominya adalah bahwa akrual tinggi menandakan akuntansi agresif atau laba yang tidak berkelanjutan, sementara akrual rendah menandakan akuntansi konservatif atau kualitas laba yang tinggi.

Filter 1: Replikasi statistik persis. Anomali akrual berhasil direplikasi ketika metodologi asli Sloan diikuti. Skor: Pass.

Filter 2: Replikasi statistik terstandarisasi. Anomali sensitif terhadap definisi akrual. Akrual neraca (ukuran asli Sloan) menghasilkan hasil yang berbeda dari akrual laporan arus kas. Pilihan pembobotan (setara vs. nilai) sangat berpengaruh — anomali jauh lebih lemah dalam portofolio tertimbang nilai. Di bawah standardisasi Hou, Xue, dan Zhang, akrual bersifat marginal. Skor: Campuran.

Filter 3: Ambang batas pengujian berganda. Akrual melampaui standar t > 2,0 di sebagian besar spesifikasi tetapi tidak mencapai t > 3,0 di beberapa spesifikasi. Mengingat akrual diuji bersama ratusan variabel akuntansi lainnya, kekhawatiran pengujian berganda ini sah. Skor: Campuran.

Filter 4: Setelah biaya transaksi. Strategi akrual memerlukan penyeimbangan kembali tahunan (fitur positif) tetapi terkonsentrasi pada saham kecil yang kurang likuid (fitur negatif). Sisi pendek sangat problematis — perusahaan dengan akrual tinggi cenderung persis jenis saham spekulatif yang sulit dipinjam di mana biaya penjualan pendek paling tinggi. Setelah biaya, anomali akrual paling banter sedikit menguntungkan. Skor: Campuran.

Bukti internasional: Campuran — berhasil direplikasi di beberapa pasar tetapi tidak di pasar lain, menunjukkan adanya komponen yang spesifik AS.

Keputusan: Akrual berada tepat di zona tengah yang rapuh. Anomali ini mungkin menangkap fenomena nyata (kecenderungan pasar untuk terlalu menekankan laba relatif terhadap arus kas), tetapi terlalu rapuh, terlalu sensitif terhadap spesifikasi, dan terlalu mahal untuk diperdagangkan untuk menjadi dasar strategi investasi tersendiri. Ia mungkin menambahkan nilai marginal sebagai kemiringan sekunder dalam kerangka kualitas atau profitabilitas yang lebih luas.

Masalah Redundansi

Masalah kritis yang tidak ditangani secara memadai oleh sebagian besar studi replikasi adalah redundansi faktor. Lebih dari 400 faktor dalam kebun binatang bukanlah 400 sumber imbal hasil independen. Banyak yang merupakan ukuran berkorelasi tinggi dari fenomena dasar yang sama.

Pertimbangkan keluarga "kualitas." Peneliti telah mengusulkan berbagai metrik kualitas:

Profitabilitas kotor (Novy-Marx, 2013)
Imbal hasil ekuitas (Hou, Xue & Zhang, 2015)
Imbal hasil aset
Profitabilitas operasional (Fama & French, 2015)
Profitabilitas berbasis kas (Ball et al., 2016)
Stabilitas laba
Rasio utang-terhadap-ekuitas
Piotroski F-score (Piotroski, 2000)
Altman Z-score

Masing-masing telah diusulkan sebagai anomali yang berbeda, masing-masing dengan makalah akademis dan statistik-t sendiri. Tetapi semuanya mengukur variasi dari hal yang sama: perusahaan dengan karakteristik keuangan yang kuat dan stabil mengungguli perusahaan dengan karakteristik yang lemah dan tidak stabil. Hitungan "400+ faktor" memperlakukan masing-masing sebagai berbeda, menggelembungkan baik masalah pengujian berganda maupun tingkat kegagalan replikasi.

Ketika faktor-faktor dikelompokkan berdasarkan mekanisme ekonomi mereka — nilai, momentum, profitabilitas/kualitas, risiko, ukuran, investasi, likuiditas — jumlah sumber imbal hasil yang benar-benar independen menyusut menjadi mungkin 6-8 keluarga. Dalam setiap keluarga, spesifikasi terbaik mengungguli yang lain, tetapi sebagian besar anggota keluarga hanya berkontribusi secara marginal setelah yang terbaik dimasukkan.

Redundansi ini memiliki implikasi mendalam bagi debat replikasi:

316 faktor yang dihitung Harvey dkk. bukanlah 316 pengujian independen — melainkan mungkin 30-50 pengujian independen, masing-masing diperiksa melalui lensa yang berbeda
"Kegagalan" ukuran kualitas tertentu untuk direplikasi tidak berarti kualitas itu palsu — bisa berarti spesifikasi tertentu itu lebih rendah dari yang lain dalam keluarga yang sama
Penyesuaian pengujian berganda seharusnya diterapkan pada keluarga faktor, bukan spesifikasi individual

Pembelajaran Mesin dan Penemuan Faktor Baru

Kemunculan pembelajaran mesin dalam penetapan harga aset (Gu, Kelly, dan Xiu, 2020) menambahkan dimensi baru pada debat replikasi. Metode ML dapat mengidentifikasi hubungan non-linear dan interaktif di antara karakteristik yang tidak bisa ditangkap metode linear tradisional. Kemampuan ini bermata dua:

Interpretasi positif: Metode ML mungkin mengidentifikasi prediktabilitas imbal hasil asli yang tidak dapat ditangkap model faktor linear. "Kebun binatang faktor" dari 400+ faktor linear mungkin merupakan pendekatan kasar dari sejumlah kecil hubungan non-linear. ML dapat mendeteksi struktur mendasar yang diaproksimasi oleh faktor-faktor individual.

Interpretasi negatif: Metode ML memiliki kapasitas besar untuk overfitting. Jaringan saraf tiruan dengan parameter yang cukup banyak dapat menyesuaikan pola in-sample apa pun, termasuk noise. Tanpa pengujian di luar sampel yang ketat dan prior ekonomi, prediktabilitas yang ditemukan ML mungkin bahkan lebih rentan terhadap penambangan data daripada analisis faktor tradisional.

Gu, Kelly, dan Xiu mengatasi kekhawatiran ini melalui pengujian di luar sampel yang ekstensif dan menemukan bahwa model ML mereka benar-benar memprediksi imbal hasil di luar sampel, dengan R-kuadrat kira-kira tiga kali lebih tinggi dari model linear terbaik. Namun, ketika mereka mengurai prediksi ML menjadi karakteristik konstituennya, prediktor dominan ternyata familiar: momentum, nilai, likuiditas, volatilitas. Model ML tidak menemukan faktor baru — mereka menemukan cara yang lebih baik untuk menggabungkan faktor yang sudah dikenal, terutama melalui interaksi non-linear.

Temuan ini mendukung klasifikasi tiga tingkat kami. Inti faktor yang tahan uji yang diidentifikasi oleh metode tradisional juga merupakan inti yang diidentifikasi oleh metode ML. Kompleksitas tambahan dari ML terutama meningkatkan cara faktor-faktor ini dikombinasikan, bukan faktor mana yang penting.

Bagian V: Hasil dan Interpretasi

Mengevaluasi Tiga Hipotesis

Setelah mengumpulkan dan menganalisis bukti dari 12 studi replikasi, kami sekarang mengevaluasi tiga hipotesis bersaing kami.

H1 (Penambangan Data) — Didukung sebagian, tetapi terlalu sederhana.

Bukti yang mendukung:

Argumen pengujian berganda Harvey, Liu, dan Zhu secara statistik valid: banyak dari 400+ faktor tidak diragukan lagi merupakan penemuan palsu
Beberapa anomali menghilang sepenuhnya dalam data pra-1963 (Linnainmaa & Roberts) atau gagal bahkan di bawah replikasi persis
Banyaknya faktor yang dipublikasikan (400+) menjamin beberapa positif palsu, bahkan pada ambang batas signifikansi yang longgar
Banyak anomali gagal di bawah replikasi terstandarisasi, menunjukkan sensitivitas terhadap pilihan spesifikasi yang merupakan ciri khas overfitting

Bukti yang menentang:

Penurunan pasca-publikasi bersifat parsial (42% bertahan), bukan lengkap — penambangan data murni memprediksi nol persen bertahan
Perdagangan institusional meningkat pasca-publikasi dan berkorelasi dengan penurunan (Calluzzo dkk.) — penambangan data tidak dapat menjelaskan ini
Inti faktor yang tahan uji (nilai, momentum, profitabilitas, volatilitas rendah) berhasil direplikasi di seluruh pasar independen, periode waktu, kelas aset, dan metodologi — pola yang tidak kompatibel dengan penambangan data
Metode ML (Gu, Kelly, dan Xiu) mengidentifikasi faktor inti yang sama melalui metode statistik yang sepenuhnya berbeda, memberikan konfirmasi independen

Keputusan tentang H1: Benar untuk mungkin 50-60% dari kebun binatang faktor (tingkat noise statistik), tetapi salah untuk inti yang tahan uji. Hipotesis penambangan data murni terlalu menyapu rata — ia memperlakukan semua anomali secara identik dan tidak dapat menjelaskan pola sistematis tentang anomali mana yang bertahan dan mana yang tidak.

H2 (Arbitrase) — Didukung sebagian, dengan bukti mekanistik yang kuat.

Bukti yang mendukung:

Bukti langsung Calluzzo dkk. tentang respons perdagangan institusional terhadap publikasi sangat meyakinkan
Penurunan pasca-publikasi yang parsial (bukan lengkap) persis seperti yang diprediksi teori batas arbitrase
Anomali yang lebih mudah diperdagangkan (large-cap, likuid, turnover rendah) menunjukkan lebih banyak penurunan pasca-publikasi daripada anomali yang sulit diperdagangkan — konsisten dengan modal arbitrase mengalir ke peluang termudah terlebih dahulu
Faktor inti yang tahan uji menunjukkan penurunan pasca-publikasi yang lebih kecil dari rata-rata anomali, konsisten dengan batasan kapasitas yang membatasi arbitrase
Persistensi premi setelah puluhan tahun publikasi (nilai telah dikenal setidaknya sejak Graham dan Dodd pada tahun 1934) konsisten dengan batas struktural arbitrase, bukan penambangan data

Bukti yang menentang:

Beberapa anomali gagal direplikasi bahkan dalam periode sampel asli di bawah metodologi terstandarisasi — arbitrase tidak dapat menjelaskan kegagalan dalam data kontemporer
Hipotesis arbitrase tidak dapat menjelaskan mengapa beberapa anomali sensitif terhadap spesifikasi — fenomena ekonomi nyata seharusnya tahan terhadap pilihan metodologis yang masuk akal
Hipotesis ini menyiratkan bahwa semua anomali nyata sebelum publikasi, yang tidak konsisten dengan argumen statistik Harvey dkk. bahwa banyak yang merupakan penemuan palsu

Keputusan tentang H2: Benar untuk subset anomali yang bermakna — mungkin 20-30% dari kebun binatang faktor (zona tengah yang rapuh plus sebagian dari inti yang tahan uji). Mekanisme arbitrase itu nyata dan penting tetapi tidak menjelaskan semua dinamika anomali. Ia beroperasi bersama penambangan data dan sensitivitas metodologis.

H3 (Definisional) — Didukung kuat sebagai kerangka pengorganisasian.

Bukti yang mendukung:

Prediktor tunggal paling kuat dari tingkat replikasi suatu studi adalah pendekatan metodologisnya, bukan anomali mana yang diuji
Chen dan Zimmermann serta Hou, Xue, dan Zhang menguji kumpulan anomali yang sebagian besar tumpang tindih dan mencapai kesimpulan yang berlawanan karena perbedaan metodologis
Anomali yang sama dapat diklasifikasikan sebagai berhasil direplikasi atau gagal tergantung pada: skema pembobotan, breakpoint, kriteria inklusi, ambang batas signifikansi, dan apakah biaya dipertimbangkan
Ketidaksetujuan tiga arah antara Harvey dkk. (sebagian besar gagal), McLean & Pontiff (sebagian besar bertahan dengan penurunan), dan Chen & Zimmermann (sebagian besar berhasil direplikasi) terselesaikan sepenuhnya ketika Anda menyadari masing-masing menjawab pertanyaan yang berbeda
Tingkat replikasi internasional (~50%) konsisten dengan campuran anomali nyata dan palsu, bukan krisis serba-atau-tidak sama sekali

Bukti yang menentang:

Jika ketidaksetujuan murni bersifat definisional, tidak akan ada anomali yang gagal secara konsisten di seluruh metodologi. Keberadaan anomali semacam itu (efek kalender, beberapa anomali berbasis mikrostruktur) berarti penambangan data itu nyata, bukan sekadar artefak definisional
Hipotesis definisional bisa dipandang sebagai tidak dapat difalsifikasi — "jawaban tergantung pada definisi" selalu benar dalam pengertian trivial

Keputusan tentang H3: H3 adalah kerangka pengorganisasian yang benar. Kontradiksi yang tampak dalam literatur replikasi sebagian besar (meskipun tidak sepenuhnya) merupakan produk dari studi yang berbeda mengajukan pertanyaan yang berbeda dan menggunakan metode yang berbeda. "Krisis replikasi" terutama adalah krisis definisi, bukan krisis sains.

Sintesis Tiga Tingkat

Menggabungkan bukti di seluruh tiga hipotesis, kami sampai pada temuan sentral kami: kebun binatang faktor mengandung tiga populasi berbeda dengan sifat replikasi yang berbeda.

Tingkat 1: Inti yang Tahan Uji (15–25 faktor)

Anomali ini lolos keempat filter replikasi: statistik persis, statistik terstandarisasi, pengujian berganda, dan ekonomi (setelah biaya). Mereka dicirikan oleh:

Fondasi teoretis kuat yang berakar pada risiko, bias perilaku, atau batasan institusional
Replikasi di banyak pasar dan periode waktu independen
Penurunan pasca-publikasi yang moderat tetapi persisten (konsisten dengan arbitrase parsial)
Kapasitas yang cukup untuk diperdagangkan pada skala institusional
Turnover rendah hingga sedang, memungkinkan implementasi yang hemat biaya

Inti yang tahan uji meliputi:

Nilai (book-to-market, earnings yield, cash flow yield): Penjelasan berbasis risiko dan perilaku; didokumentasikan secara global sejak Graham dan Dodd (1934)
Momentum (imbal hasil 12 bulan minus 1 bulan): Perilaku (underreaction terhadap informasi); didokumentasikan di lebih dari 40 pasar dan beberapa kelas aset
Profitabilitas (profitabilitas kotor, profitabilitas operasional): Logika ekonomi (perusahaan yang menguntungkan bernilai lebih); dikonfirmasi secara independen oleh Novy-Marx dan oleh Fama-French
Volatilitas rendah / Betting Against Beta (beta rendah, volatilitas idiosinkratik rendah): Mekanisme batasan leverage; didokumentasikan di seluruh kelas aset secara global
Komposit kualitas (profitabilitas + stabilitas + leverage rendah): Ukuran multi-dimensi dari kesehatan keuangan perusahaan
Investasi (pertumbuhan aset, pertumbuhan belanja modal): Logika ekonomi (investasi agresif memprediksi imbal hasil yang lebih rendah); meskipun buktinya agak lebih lemah dari yang di atas
Momentum laba (unexpected earnings terstandarisasi, revisi analis): Post-earnings-announcement drift; salah satu anomali paling tahan uji dalam literatur
Penerbitan bersih (pembelian kembali saham vs. penerbitan): Penjelasan asimetri informasi; perusahaan yang membeli kembali tahu sahamnya undervalued

Tingkat 2: Zona Tengah yang Rapuh (50–100 faktor)

Anomali ini berhasil direplikasi di bawah beberapa kondisi tetapi tidak di bawah kondisi lain. Mereka biasanya lolos Filter 1 (replikasi persis) tetapi gagal satu atau lebih dari Filter 2-4. Mereka meliputi:

Varian yang sensitif terhadap spesifikasi dari faktor yang tahan uji (misalnya, definisi momentum alternatif, metrik kualitas alternatif)
Anomali yang bekerja dalam portofolio tertimbang setara tetapi tidak tertimbang nilai (sering didorong oleh saham mikro-cap)
Anomali yang signifikan secara statistik tetapi tidak layak secara ekonomi setelah biaya transaksi
Anomali yang berhasil direplikasi di AS tetapi tidak secara internasional (mungkin artefak akuntansi atau institusional yang spesifik AS)
Anomali yang telah menurun secara substansial pasca-publikasi, menyisakan premi residual yang marginal

Faktor-faktor ini belum tentu "palsu" — banyak yang menangkap fenomena asli tetapi sempit. Mereka mungkin berguna sebagai kemiringan sekunder dalam kerangka konstruksi portofolio yang lebih luas, tetapi bukan sumber imbal hasil tersendiri yang dapat diandalkan.

Tingkat 3: Noise Statistik (250+ faktor)

Anomali ini gagal direplikasi di bawah standar apa pun yang masuk akal. Mereka meliputi:

Efek kalender (efek akhir pekan, pergantian tahun, efek hari libur) yang sebagian besar telah menghilang
Artefak mikrostruktur yang mencerminkan kesalahan data, pantulan bid-ask, atau harga basi daripada prediktabilitas asli
Anomali berbasis akuntansi yang spesifik pada periode waktu sempit atau rezim akuntansi tertentu
"Faktor" yang jelas merupakan produk pencarian spesifikasi ekstensif, sering diidentifikasi oleh pilihan konstruksi yang tidak biasa (misalnya, menginteraksikan tiga variabel pada struktur lag tertentu)
Faktor yang menduplikasi faktor lain dalam kebun binatang tetapi kebetulan mencapai signifikansi dalam sampel tertentu

Faktor-faktor ini berkontribusi pada persepsi krisis replikasi. Mereka adalah alasan Harvey, Liu, dan Zhu mengusulkan ambang batas t > 3,0. Mereka adalah alasan Hou, Xue, dan Zhang menemukan tingkat kegagalan 64%. Tetapi mereka tidak mewakili kebun binatang faktor secara keseluruhan — mereka adalah noise yang menyertai setiap program penelitian empiris berskala besar.

Penilaian Keyakinan

Kami menilai kerangka kerja keseluruhan kami pada tingkat keyakinan 4 dari 5.

Area dengan keyakinan tertinggi (5 dari 5):

Ketidaksetujuan di seluruh studi replikasi terutama bersifat metodologis, bukan substantif
Inti faktor yang tahan uji memang ada yang bertahan dari semua filter replikasi
Penambangan data murni tidak dapat menjelaskan pola bukti secara keseluruhan (penurunan parsial, replikasi internasional, respons perdagangan institusional)

Area dengan keyakinan sedang (3-4 dari 5):

Ukuran persis dari inti yang tahan uji (kami mengestimasi 15-25, tetapi batasnya kabur)
Proporsi kebun binatang faktor yang merupakan noise murni (kami mengestimasi 60%+, tetapi ini tergantung ambang batas statistik yang diterapkan)
Kepentingan relatif arbitrase versus penambangan data dalam menjelaskan penurunan pasca-publikasi

Area dengan keyakinan lebih rendah (2-3 dari 5):

Apakah faktor tertentu di "zona tengah yang rapuh" termasuk dalam inti yang tahan uji atau tingkat noise
Apakah metode ML akan memperluas inti yang tahan uji dengan mengidentifikasi hubungan non-linear atau sekadar mengoptimalkan kombinasi faktor yang ada
Masa depan jangka panjang premi faktor — apakah inti yang tahan uji akan bertahan tanpa batas waktu, atau akankah peningkatan arus modal pada akhirnya menghilangkan bahkan premi ini?

Bagian VI: Perbandingan dengan Bidang Lain

Keuangan vs. Psikologi: Krisis yang Berbeda

Krisis replikasi dalam keuangan sering dibandingkan dengan krisis replikasi dalam psikologi, tetapi keduanya secara fundamental berbeda.

Dalam psikologi, Open Science Collaboration (2015) mencoba mereplikasi 100 studi yang dipublikasikan dan menemukan bahwa hanya 36% menghasilkan hasil signifikan dalam replikasi. Ini banyak ditafsirkan sebagai krisis metodologi — studi yang underpowered, p-hacking, dan bias publikasi telah menghasilkan literatur yang didominasi positif palsu.

Dalam keuangan, "tingkat replikasi 36%" dari Hou, Xue, dan Zhang secara permukaan mirip tetapi berbeda secara mekanistis. Studi keuangan biasanya memiliki ukuran sampel yang jauh lebih besar (ribuan saham yang diamati bulanan selama puluhan tahun), yang berarti mereka umumnya memiliki kekuatan statistik yang baik. Masalah utama dalam keuangan bukanlah studi yang underpowered tetapi pengujian berganda (terlalu banyak hipotesis pada data yang sama) dan sensitivitas metodologis (hasil yang berubah dengan pilihan konstruksi).

Selain itu, kegagalan replikasi psikologi sering bersifat absolut — efek yang direplikasi bernilai nol atau berlawanan tanda. "Kegagalan" keuangan sering bersifat parsial — efeknya ada tetapi dengan besaran yang lebih rendah, dalam spesifikasi yang berbeda, atau dengan signifikansi marginal. Replikasi parsial ini lebih konsisten dengan sensitivitas metodologis daripada penemuan palsu langsung.

Keuangan vs. Kedokteran: Insentif Struktural yang Serupa

Insentif struktural dalam keuangan lebih mirip dengan yang ada di kedokteran, di mana John Ioannidis dengan terkenal berargumen bahwa sebagian besar temuan penelitian yang dipublikasikan adalah palsu. Di kedua bidang:

Ada kompetisi intens untuk publikasi di jurnal papan atas
Temuan baru yang mengejutkan lebih disukai daripada hasil nol
Peneliti memiliki derajat kebebasan substansial dalam desain studi (pilihan sampel, variabel, spesifikasi model)
Sumber data yang sama digunakan oleh banyak peneliti (CRSP/Compustat dalam keuangan; database uji klinis umum dalam kedokteran)

Perbedaan kunci adalah bahwa keuangan memiliki uji di luar sampel alami yang sering tidak dimiliki kedokteran: waktu. Anomali keuangan yang dipublikasikan pada tahun 2005 dapat diuji dalam data pasca-2005 untuk melihat apakah ia bertahan. Temuan medis tentang perawatan tertentu tidak dapat diuji secara retroaktif. Ini memberikan keuangan mekanisme koreksi mandiri yang inheren yang telah dimanfaatkan oleh McLean dan Pontiff dan lainnya.

Bagian VII: Keterbatasan dan Apa yang Tidak Dapat Kami Klaim

Keterbatasan yang Diwarisi

Analisis ini menyintesis hasil yang dipublikasikan — kami tidak menjalankan regresi baru, membangun faktor baru, atau menguji data baru. Kesimpulan kami mewarisi setiap keterbatasan dari studi yang mendasarinya.

Monokultur CRSP/Compustat. Mayoritas besar penelitian penetapan harga aset AS menggunakan data dari CRSP (imbal hasil saham) dan Compustat (data akuntansi). Ini menciptakan bentuk bias bersama yang halus: setiap kesalahan sistematis dalam database ini — bias survivorship, bias backfill, koreksi data, kesenjangan cakupan — merambat melalui seluruh literatur. Studi replikasi yang menggunakan data CRSP/Compustat yang sama dengan studi asli menguji reprodusibilitas metodologis, bukan independensi data. Hanya replikasi internasional (Jacobs dan Muller) dan sumber data alternatif (seperti data pra-1963 yang dikumpulkan secara manual oleh Linnainmaa dan Roberts) yang memberikan bukti yang benar-benar independen.

Bias publikasi dalam studi replikasi. Kami telah menyebutkan ini sebelumnya tetapi perlu ditekankan: studi replikasi yang mencapai kesimpulan dramatis ("krisis" atau "tidak ada krisis") lebih mungkin dipublikasikan daripada yang memiliki temuan ambigu. Basis bukti kami mungkin terlalu merepresentasikan ekstrem dari distribusi replikasi. Studi yang menemukan, misalnya, tingkat replikasi 55% — tidak dramatis ke arah mana pun — mungkin tersimpan tidak dipublikasikan di laci arsip.

Premi risiko yang bervariasi waktu. Sebagian dari apa yang kami atribusikan ke penurunan pasca-publikasi (arbitrase) atau penambangan data sebenarnya mungkin mencerminkan kompensasi risiko yang bervariasi waktu. Jika premi risiko ekuitas menurun dari tahun 1980-an dan seterusnya (seperti yang disarankan beberapa bukti), semua premi faktor yang diukur relatif terhadap pasar juga akan menurun. Faktor pengganggu ini sulit diselesaikan tanpa model struktural risiko yang bervariasi waktu, yang berada di luar cakupan sintesis literatur.

Bias survivorship dalam faktor. Mungkin ada bias survivorship dalam kebun binatang faktor itu sendiri. Faktor yang kebetulan bekerja in-sample dipublikasikan; faktor yang tidak bekerja ditinggalkan. Tetapi faktor yang ditinggalkan mungkin termasuk beberapa yang akan bekerja di luar sampel, sementara beberapa faktor yang dipublikasikan tidak akan bekerja. Populasi faktor yang dipublikasikan adalah sampel yang bias dari populasi faktor yang diuji.

Kami tidak dapat mengidentifikasi anomali spesifik mana yang "nyata." Kerangka kerja tiga tingkat kami menggambarkan populasi, bukan faktor individual. Mengklasifikasikan anomali tertentu ke inti yang tahan uji, zona tengah yang rapuh, atau tingkat noise memerlukan analisis empiris terperinci yang telah dilakukan studi replikasi yang mendasarinya. Kami menyediakan kerangka kerja; 12 studi menyediakan bukti untuk klasifikasi.

Apa yang Akan Mengubah Kesimpulan Kami

Kami percaya pada pentingnya menyatakan bukti apa yang akan menyebabkan kami merevisi pandangan kami:

Bukti yang akan memperkuat H1 (penambangan data):

Jika replikasi komprehensif menggunakan metodologi persis (seperti milik Chen dan Zimmermann) menemukan tingkat replikasi yang jauh lebih rendah — katakanlah, 50% bukan 82% — itu akan menunjukkan bahwa bahkan replikasi persis gagal lebih sering dari yang kami yakini saat ini
Jika faktor inti yang tahan uji (nilai, momentum) mulai menunjukkan premi nol atau negatif dalam data pasca-2020 di semua pasar dan spesifikasi, itu akan menantang interpretasi "nyata tetapi diarbitrase"

Bukti yang akan memperkuat H2 (arbitrase):

Jika eksperimen alami (seperti publikasi faktor dalam bahasa yang tiba-tiba diterjemahkan dan disebarluaskan ke pasar baru) menunjukkan penurunan faktor yang segera di pasar tersebut, itu akan memberikan bukti kausal yang bersih untuk kanal arbitrase
Jika pertumbuhan ETF berbasis faktor dapat langsung dikaitkan dengan penurunan faktor dalam kerangka kausal Granger

Bukti yang akan melemahkan H3 (definisional):

Jika dua studi replikasi menggunakan metodologi identik tetapi sampel anomali yang berbeda dan mencapai kesimpulan yang berlawanan, itu akan menunjukkan bahwa karakteristik anomali lebih penting dari yang kami yakini
Jika variasi tingkat replikasi di seluruh studi tidak berkorelasi dengan perbedaan metodologis, kerangka kerja kami akan kehilangan daya penjelas

Uji Empiris yang Disarankan

Kami mengusulkan lima uji yang dapat lebih lanjut memvalidasi atau menyangkal kerangka kerja kami:

Regresi metodologi: Uji apakah tingkat replikasi (di seluruh 12 studi) diprediksi oleh karakteristik metodologis (kesetiaan, ambang batas, perlakuan biaya) setelah mengontrol karakteristik anomali (statistik-t rata-rata, jenis mekanisme ekonomi, konsentrasi ukuran/likuiditas). Jika metodologi menjelaskan lebih banyak varians daripada karakteristik anomali, H3 didukung kuat.
Heterogenitas penurunan: Periksa apakah faktor "inti yang tahan uji" menunjukkan pola penurunan pasca-publikasi yang berbeda dari faktor "zona tengah yang rapuh." Inti yang tahan uji seharusnya menunjukkan penurunan yang lebih kecil dan lebih lambat; zona tengah yang rapuh seharusnya menunjukkan penurunan yang lebih besar dan lebih cepat; tingkat noise seharusnya menunjukkan penurunan segera menjadi nol.
Uji dominasi ML: Uji apakah portofolio yang dikonstruksi dari kombinasi ML faktor inti yang tahan uji saja mendominasi portofolio yang juga menyertakan faktor zona tengah yang rapuh. Jika inti yang tahan uji sudah cukup, faktor zona tengah yang rapuh menambahkan noise, bukan sinyal.
Pemetaan kapasitas faktor: Untuk setiap faktor inti yang tahan uji, estimasi ukuran portofolio maksimum di mana premi bersih biaya tetap positif. Ini akan mengubah penilaian kualitatif "bertahan dari biaya" menjadi estimasi kapasitas kuantitatif.
Replikasi waktu nyata: Bangun sistem pelacakan prospektif waktu nyata yang memantau imbal hasil faktor saat mereka diperoleh (bukan secara retroaktif). Ini menghilangkan semua bias look-ahead dan menyediakan uji paling bersih dari persistensi faktor.

Bagian VIII: Implikasi

Bagi Investor Institusional

Pemilihan faktor sebagian besar sudah terpecahkan. Literatur replikasi telah mengerucut pada inti faktor yang kredibel: nilai, momentum, profitabilitas/kualitas, dan volatilitas rendah. Perdebatan tentang faktor mana yang "nyata" sebagian besar telah terselesaikan untuk kelompok inti ini. Pertanyaan terbuka yang tersisa adalah tentang implementasi, bukan pemilihan.

Implementasi adalah alfa-nya. Perbedaan antara portofolio faktor yang dikonstruksi secara naif dan yang dikonstruksi secara canggih bisa mencapai 100-200 basis poin per tahun. Kesenjangan implementasi ini — didorong oleh manajemen turnover, frekuensi penyeimbangan kembali, ukuran yang sadar kapasitas, dan kualitas eksekusi — sering lebih besar daripada perbedaan antara menyertakan atau mengecualikan faktor marginal. Bagi investor institusional, sumber utama keunggulan kompetitif bukanlah penemuan faktor tetapi konstruksi faktor.

Waspadalah terhadap zona tengah yang rapuh. 50-100 faktor di zona tengah yang rapuh menawarkan godaan: mereka backtesting dengan baik dan tampak menambah diversifikasi. Tetapi kerapuhan mereka — sensitivitas terhadap spesifikasi, marginal setelah biaya, tidak konsisten di seluruh pasar — berarti mereka lebih mungkin menambahkan noise daripada imbal hasil ke portofolio yang sudah menangkap inti yang tahan uji. Beban pembuktian untuk menyertakan faktor zona tengah yang rapuh harus tinggi: ketahanan yang terbukti di berbagai spesifikasi, mekanisme ekonomi yang jelas, dan imbal hasil bersih biaya yang positif pada skala portofolio yang dimaksud.

Kapasitas adalah batasan yang mengikat. Bahkan faktor inti yang tahan uji memiliki kapasitas terbatas. Seiring semakin banyak modal mengalir ke strategi berbasis faktor (melalui ETF smart beta, dana kuantitatif, dan mandat institusional), premi faktor akan terkompresi. Pertanyaannya bukan apakah kompresi ini akan terjadi tetapi berapa banyak kapasitas yang tersisa sebelum premi sepenuhnya diarbitrase. Estimasi bervariasi luas, tetapi kisaran konsensus untuk total kapasitas strategi faktor adalah $1-5 triliun untuk faktor-faktor utama secara gabungan. Total aset saat ini dalam strategi faktor eksplisit mendekati kisaran ini, menunjukkan bahwa premi prospektif mungkin lebih kecil dari estimasi historis.

Pantau perubahan rezim. Premi faktor tidaklah konstan — mereka bervariasi di seluruh rezim ekonomi, kondisi pasar, dan perubahan struktural. Momentum bekerja dengan baik di pasar normal tetapi mengalami kejatuhan dahsyat selama transisi rezim (seperti kejatuhan momentum Maret 2009). Nilai telah underperform untuk periode yang panjang (2010-2020) sebelum kembali. Strategi volatilitas rendah rentan terhadap lingkungan suku bunga yang meningkat. Investor institusional harus mempertahankan alokasi faktor yang sadar rezim, menyesuaikan eksposur faktor berdasarkan kondisi pasar daripada memegang bobot statis.

Bagi Investor Ritel

Kesederhanaan mengalahkan kompleksitas. Implikasi praktis dari literatur replikasi bagi investor ritel bersifat membebaskan: Anda tidak perlu memahami 400+ faktor. Kumpulan yang dapat diinvestasikan itu kecil. Portofolio yang terdiri dari eksposur pasar luas (60-70%) plus kemiringan yang ditargetkan ke arah nilai, momentum, kualitas, dan volatilitas rendah (30-40%) menangkap sebagian besar premi faktor yang tersedia. Kemiringan ini dapat diakses melalui ETF berbiaya rendah dengan total expense ratio di bawah 30 basis poin. Di Indonesia, investor dapat mempertimbangkan produk ETF yang tersedia di IDX atau reksa dana indeks yang diawasi oleh OJK sebagai sarana untuk menangkap premi faktor ini.

Bersikaplah skeptis terhadap strategi baru. Literatur replikasi menunjukkan bahwa sekitar 50-65% anomali yang baru dipublikasikan akan gagal direplikasi di bawah standar yang ketat, dan sebagian besar sisanya tidak akan bertahan dari biaya transaksi. Setiap produk investasi yang dipasarkan berdasarkan satu anomali akademis — terutama yang baru dipublikasikan — harus dipandang dengan skeptisisme mendalam. Beban pembuktian ada pada penyedia produk untuk menunjukkan replikasi, ketahanan, dan kelayakan bersih biaya.

Horison waktu lebih penting daripada pemilihan faktor. Bagi investor ritel dengan horison waktu panjang (20+ tahun), keputusan investasi terpenting bukanlah faktor mana yang harus ditekankan tetapi apakah mempertahankan eksposur ekuitas melalui penurunan yang tak terelakkan. Premi faktor yang tahan uji sebesar 2-4% per tahun mengompound secara signifikan selama puluhan tahun, tetapi hanya bagi investor yang tetap berinvestasi. Timing faktor — mencoba merotasi antara nilai dan momentum berdasarkan kondisi pasar — sulit bahkan bagi investor institusional dan kemungkinan akan menghancurkan nilai bagi investor ritel.

Hindari kebun binatang faktor sepenuhnya jika bingung. Jika kebun binatang faktor terasa membingungkan, reksa dana indeks pasar total yang sederhana adalah pilihan yang sangat masuk akal. Premi faktor yang tahan uji itu nyata tetapi moderat (2-4% per tahun sebelum biaya), dan mencapainya memerlukan disiplin: mempertahankan kemiringan faktor melalui periode underperformance yang tak terelakkan (yang bisa berlangsung 5-10 tahun untuk faktor individual mana pun). Investor yang panik menjual kemiringan nilai setelah tiga tahun underperformance akan menghasilkan imbal hasil lebih buruk daripada yang hanya memegang indeks pasar sepanjang waktu.

Bagi Peneliti dan Bidang Ilmu

Standardisasi pelaporan replikasi. Bidang ini akan sangat diuntungkan dari kerangka replikasi terstandarisasi yang melaporkan hasil pada beberapa tingkat:

Replikasi statistik menggunakan metodologi asli yang persis
Replikasi statistik menggunakan metodologi terstandarisasi
Signifikansi yang disesuaikan pengujian berganda
Replikasi ekonomi setelah biaya transaksi realistis
Replikasi di luar sampel/internasional

Setiap studi individual yang melaporkan hanya satu tingkat replikasi memberikan gambaran yang tidak lengkap yang dapat — dan telah — disalahartikan oleh media, praktisi, dan peneliti lain.

Adopsi metode Bayesian. Kerangka berbasis ambang batas (signifikan vs. tidak signifikan) menciptakan efek tebing buatan dan memaksakan klasifikasi biner pada realitas kontinu. Metode shrinkage Bayesian, seperti yang didemonstrasikan oleh Jensen, Kelly, dan Pedersen, memberikan representasi yang lebih bernuansa dan akurat tentang keadaan pengetahuan mengenai premi faktor.

Open source adalah masa depan. Repositori kode replikasi open source Chen dan Zimmermann menetapkan standar baru untuk reprodusibilitas. Makalah anomali di masa depan seharusnya diwajibkan menyediakan kode replikasi dan data, memungkinkan verifikasi independen. Ini akan secara dramatis mengurangi ruang lingkup penambangan data dan pencarian spesifikasi, karena reviewer dan pembaca dapat menguji spesifikasi alternatif.

Fokus pada mekanisme ekonomi. Literatur replikasi sebagian besar bersifat empiris — menguji apakah efek ada, bukan menjelaskan mengapa. Faktor tanpa mekanisme ekonomi yang meyakinkan secara inheren rapuh karena tidak ada alasan a priori baginya untuk bertahan. Faktor yang telah bertahan dari pengawasan replikasi paling ketat (nilai, momentum, profitabilitas, volatilitas rendah) adalah yang memiliki fondasi teoretis terkuat. Penelitian faktor di masa depan seharusnya memimpin dengan mekanisme dan mengikuti dengan bukti, bukan sebaliknya.

Kurangi redundansi. Kebun binatang faktor akan diuntungkan dari konsolidasi. Alih-alih mempublikasikan varian ke-17 dari ukuran kualitas, peneliti seharusnya fokus pada mengidentifikasi sumber imbal hasil yang benar-benar independen dan memahami mekanisme ekonomi yang mendorong mereka. Kebun binatang faktor dengan 15 faktor yang dipahami dengan baik dan didokumentasikan secara tahan uji lebih bernilai secara ilmiah daripada yang memiliki 400+ faktor yang kurang dipahami dan sebagian redundan.

Terkait

Machine Learning dalam Penetapan Harga Aset: Apa yang Benar-Benar Berhasil

Model & Kerangka Kerja14 min

Dari Euforia ke Panik: Aturan Kuantitatif untuk Bertahan di Transisi Bull-to-Bear

Keuangan Perilaku & Timing14 min

Ekuitas Barang Mewah: Dinamika Drawdown dan Premi Pricing Power

Risiko & Pengukuran9 min

Keutamaan Kompleksitas: Mengapa Model Overparameterized Memprediksi Return Lebih Baik

Model & Kerangka Kerja12 min

Analisis ini disintesis dari QD Research Engine — Meta-analysis of 12 replication studies (2003–2024) oleh QD Research Engine — platform riset otomatis Quant Decoded — dan ditinjau oleh tim editorial kami untuk memastikan akurasi. Pelajari lebih lanjut tentang metodologi kami.

Referensi

Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.

Penerapan Praktis untuk Investor Ritel

Catatan Editor

Temuan Utama

Bagian I: Pertanyaan yang Belum Pernah Disepakati

Bagaimana Kita Sampai pada 400+ Faktor

Masalah Pengujian Berganda

Serangan Balik

Paradoks

Bagian II: Pertanyaan Penelitian dan Hipotesis Bersaing

Memformalisasikan Pertanyaan

H1 — Hipotesis Penambangan Data

H2 — Hipotesis Arbitrase

H3 — Hipotesis Definisional

Bagian III: Basis Bukti — Dua Belas Studi Secara Rinci

Studi 1: Schwert (2003) — Peringatan Awal

Studi 2: Harvey, Liu & Zhu (2016) — Penyesuaian Pengujian Berganda

Studi 3: McLean & Pontiff (2016) — Eksperimen Alami

Studi 4: Green, Hand & Zhang (2017) — Uji Holdout

Studi 5: Linnainmaa & Roberts (2018) — Uji Pra-1963

Studi 6: Hou, Xue & Zhang (2020) — Replikasi Terstandarisasi

Studi 7: Jacobs & Muller (2020) — Replikasi Internasional

Studi 8: Chen & Zimmermann (2022) — Replikasi Metodologi Persis

Studi 9: Jensen, Kelly & Pedersen (2023) — Rekonsiliasi Bayesian

Studi 10: Novy-Marx & Velikov (2016) — Filter Biaya Transaksi

Studi 11: Chordia, Goyal & Saretto (2020) — Filter Gabungan

Studi 12: Calluzzo, Moneta & Topaloglu (2019) — Mekanisme Arbitrase

Bagian IV: Analisis — Tiga Dimensi Replikasi

Membangun Kerangka Kerja

Dimensi 1: Kesetiaan Metodologis

Studi Kasus Sensitivitas Metodologis: Efek Ukuran

Dimensi 2: Ambang Batas Statistik

Alternatif Bayesian

Dimensi 3: Replikasi Ekonomi Versus Statistik

Kartu Skor Replikasi Ekonomi

Kajian Mendalam: Momentum di Seluruh Empat Filter

Kajian Mendalam: Akrual di Seluruh Empat Filter

Masalah Redundansi

Pembelajaran Mesin dan Penemuan Faktor Baru

Bagian V: Hasil dan Interpretasi

Mengevaluasi Tiga Hipotesis

Sintesis Tiga Tingkat

Penilaian Keyakinan

Bagian VI: Perbandingan dengan Bidang Lain

Keuangan vs. Psikologi: Krisis yang Berbeda

Keuangan vs. Kedokteran: Insentif Struktural yang Serupa

Bagian VII: Keterbatasan dan Apa yang Tidak Dapat Kami Klaim

Keterbatasan yang Diwarisi

Apa yang Akan Mengubah Kesimpulan Kami

Uji Empiris yang Disarankan

Bagian VIII: Implikasi

Bagi Investor Institusional

Bagi Investor Ritel

Bagi Peneliti dan Bidang Ilmu

Terkait

Referensi