Data Teks Adalah Sumber Alpha Terbaru dalam Keuangan Kuantitatif
Satu kolom di Wall Street Journal memprediksi return saham keesokan harinya. Tetlock (2007) menunjukkan bahwa proporsi kata-kata negatif dalam kolom "Abreast of the Market" WSJ meramalkan tekanan ke bawah pada Dow Jones Industrial Average selama satu hingga dua hari perdagangan berikutnya. Efek tersebut signifikan secara statistik, bermakna secara ekonomi, dan sepenuhnya tidak terlihat bagi siapa pun yang hanya melihat data harga dan volume. Paper tersebut meluncurkan program penelitian yang telah berkembang dari penghitungan kata sederhana melalui word embedding hingga model bahasa berbasis transformer, setiap generasi mengekstraksi lebih banyak sinyal dari teks yang sama. Bukti kumulatif sudah jelas: data teks mengandung informasi tentang return masa depan yang tidak tertangkap oleh faktor kuantitatif tradisional.
Mengapa Teks Mengandung Alpha
Pasar keuangan memproses informasi melalui harga, tetapi tidak semua informasi datang dalam bentuk numerik. Transkrip earnings call, filing regulasi, laporan analis, artikel berita, dan posting media sosial semuanya membawa informasi tentang prospek perusahaan, kualitas manajemen, dan sentimen pasar. Hipotesis pasar efisien mengimplikasikan bahwa informasi ini harus segera tercermin dalam harga, tetapi dalam praktiknya informasi tekstual diserap secara lambat dan tidak merata.
Ada tiga alasan untuk ini. Pertama, teks bersifat tidak terstruktur dan berdimensi tinggi, sehingga mahal bagi analis manusia untuk memproses dalam skala besar. Satu musim laporan keuangan kuartalan saja menghasilkan ribuan transkrip; tidak ada tim analis yang dapat membaca semuanya. Kedua, hubungan antara bahasa dan harga aset bersifat nonlinear dan bergantung pada konteks. Kata "liability" memiliki arti yang sangat berbeda dalam filing hukum dibandingkan dalam laporan keuangan, sebuah poin yang terbukti sentral dalam pengembangan kamus khusus keuangan. Ketiga, sebagian besar sinyal dalam teks bersifat halus; sinyal tersebut berada dalam nada, bahasa lindung nilai, dan apa yang dipilih manajemen untuk tidak dikatakan, bukan dalam prakiraan eksplisit.
Era Kamus: Loughran dan McDonald (2011)
Upaya awal untuk mengukur sentimen dalam teks keuangan bergantung pada kamus umum yang dikembangkan untuk psikologi dan opinion mining. Harvard General Inquirer dan alat serupa mengklasifikasikan kata-kata sebagai positif atau negatif berdasarkan penggunaan sehari-hari. Hasilnya mengecewakan, dan Loughran dan McDonald (2011) menjelaskan alasannya.
Wawasan kunci mereka adalah bahwa hampir tiga perempat kata yang ditandai sebagai negatif oleh kamus Harvard tidak negatif dalam konteks keuangan. Kata-kata seperti "tax," "cost," "capital," "liability," dan "risk" muncul secara sering dalam filing SEC tetapi tidak membawa sentimen negatif; kata-kata tersebut hanyalah kosakata keuangan standar. Penggunaan kamus generik ini memperkenalkan kesalahan pengukuran sistematis yang mengaburkan hubungan sebenarnya antara sentimen tekstual dan return.
Loughran dan McDonald membangun kamus sentimen khusus keuangan dengan mengklasifikasikan secara manual kata-kata yang muncul dalam filing 10-K yang diajukan ke SEC antara tahun 1994 dan 2008. Kamus mereka mencakup enam kategori sentimen: negatif, positif, ketidakpastian, litigasi, modal kuat, dan modal lemah. Daftar kata negatif saja berisi sekitar 2.300 istilah yang dikalibrasi secara khusus untuk wacana keuangan.
Perbaikannya substansial. Menggunakan kamus khusus keuangan mereka, proporsi kata negatif dalam filing 10-K memprediksi abnormal return di sekitar tanggal filing, drift return pasca-filing, volume perdagangan, dan volatilitas return. Kamus generik tidak menunjukkan kekuatan prediktif seperti itu setelah mengontrol ukuran Loughran-McDonald.
| Pendekatan | Metode Contoh | Kecepatan | Akurasi | Interpretabilitas | Biaya |
|---|---|---|---|---|---|
| Kamus | Loughran-McDonald | Sangat cepat | Sedang | Tinggi | Sangat rendah |
| Word embedding | Word2Vec, GloVe | Cepat | Sedang-Tinggi | Sedang | Rendah |
| Transformer | FinBERT, berbasis GPT | Lebih lambat | Tinggi | Rendah-Sedang | Tinggi |
Melampaui Penghitungan Kata: Embedding dan Konteks
Metode kamus memperlakukan setiap kata secara independen, mengabaikan urutan kata, negasi, dan konteks. Kalimat "perusahaan tidak melaporkan kerugian" mengandung kata "kerugian" dan akan dinilai negatif, meskipun kalimat tersebut positif. Word embedding, diperkenalkan melalui Word2Vec (Mikolov et al. 2013) dan GloVe (Pennington et al. 2014), mengatasi keterbatasan ini secara parsial dengan merepresentasikan kata-kata sebagai vektor padat dalam ruang kontinu di mana kesamaan semantik dipetakan ke kedekatan geometris.
Peneliti menerapkan teknik-teknik ini pada korpus keuangan dengan hasil yang menjanjikan. Melatih Word2Vec pada transkrip earnings call menangkap hubungan khusus domain: vektor untuk "revenue" dekat dengan "sales" dan "top-line," sementara "restructuring" berkluster dengan "layoffs" dan "impairment." Embedding ini dapat dirata-ratakan di seluruh dokumen untuk menghasilkan skor sentimen tingkat dokumen yang menangkap lebih banyak nuansa daripada penghitungan kata sederhana.
Ke, Kelly, dan Xiu (2019) membawa ini lebih jauh dalam paper berpengaruh mereka tentang memprediksi return dengan data teks. Mereka mengembangkan pendekatan supervised learning yang secara langsung mengestimasi hubungan antara teks artikel koran dan return saham berikutnya, melewati langkah perantara membangun kamus sentimen. Metode mereka, yang menggabungkan representasi teks mirip embedding dengan regresi berpenalti, menghasilkan prediksi return out-of-sample yang menambahkan kekuatan penjelas signifikan di luar faktor penetapan harga aset yang sudah mapan. Temuan kunci adalah bahwa prediksi return berbasis teks paling kuat pada horizon 1 hingga 5 hari, meluruh secara substansial dalam periode yang lebih panjang.
Revolusi Transformer: FinBERT dan Model Bahasa Besar
Pengenalan arsitektur transformer, dimulai dengan BERT (Devlin et al. 2019), merepresentasikan lompatan kualitatif. Tidak seperti embedding, transformer memproses seluruh urutan, menangkap dependensi jarak jauh, negasi, pernyataan kondisional, dan struktur retoris yang kompleks. Transformer dapat membedakan antara "kami mengharapkan pertumbuhan kuat" dan "kami tidak mengharapkan pertumbuhan kuat" karena memproses seluruh jendela konteks, bukan kata-kata individual.
FinBERT (Araci 2019) mengadaptasi arsitektur BERT secara khusus untuk teks keuangan. Di-pretrain pada korpus besar berita dan komunikasi keuangan, FinBERT mencapai akurasi yang secara substansial lebih tinggi pada tugas klasifikasi sentimen keuangan dibandingkan metode kamus dan BERT umum. Pada benchmark standar menggunakan data financial phrasebank, FinBERT mencapai akurasi dalam kisaran 85 hingga 97 persen tergantung pada threshold kesepakatan, dibandingkan dengan sekitar 70 persen untuk pendekatan berbasis kamus.
BloombergGPT proprietary dari Bloomberg (Wu et al. 2023), dilatih pada campuran teks umum dan keuangan, mendemonstrasikan bahwa model bahasa besar dapat melakukan tugas NLP keuangan pada atau di atas level model khusus, sambil secara bersamaan menangani rentang tugas yang jauh lebih luas. Baru-baru ini, LLM open-source yang di-fine-tune pada korpus keuangan telah mendekati atau menyamai performa level FinBERT pada tugas sentimen sambil menawarkan fleksibilitas yang lebih besar.
Konsekuensi praktisnya adalah tradeoff antara akurasi dan biaya. FinBERT memproses filing 10-K dalam hitungan detik pada satu GPU. Menjalankan filing yang sama melalui model bahasa besar menghabiskan biaya komputasi 10 hingga 100 kali lebih banyak dan membutuhkan waktu jauh lebih lama, tetapi mungkin mengekstraksi sinyal tambahan dari struktur naratif kompleks yang terlewatkan FinBERT. Sebagian besar sistem produksi menggunakan pendekatan bertingkat: penyaringan kamus atau FinBERT yang cepat pada seluruh universe, diikuti oleh analisis LLM yang lebih mendalam pada subset sinyal berkeyakinan tinggi.
Sumber Data dan Karakteristiknya
Pilihan sumber teks sama pentingnya dengan pilihan model. Sumber yang berbeda menawarkan tradeoff yang berbeda antara ketepatan waktu, cakupan, kekuatan sinyal, dan noise.
| Sumber Data | Ketepatan Waktu | Cakupan | Kekuatan Sinyal | Tantangan Utama |
|---|---|---|---|---|
| Feed berita (Reuters, Dow Jones) | Detik | Luas | Sedang | Sudah cepat tercermin di harga |
| Transkrip earnings call | Kuartalan | Perusahaan tercakup | Tinggi | Jarang; ketersediaan tertunda |
| Filing SEC (10-K, 10-Q, 8-K) | Kuartalan/event | Semua perusahaan publik | Sedang-Tinggi | Bahasa boilerplate; batasan hukum |
| Media sosial (Reddit, StockTwits) | Real-time | Bias ke saham ritel | Bervariasi | Noise ekstrem; risiko manipulasi |
| Laporan analis | Event-driven | Perusahaan tercakup | Sedang | Biaya akses; bias cakupan |
Feed berita menawarkan frekuensi tertinggi tetapi menyajikan masalah ekstraksi sinyal yang paling menantang. Pada saat artikel berita dipublikasikan, sebagian besar konten informasinya mungkin sudah tercermin dalam harga, terutama untuk saham berkapitalisasi besar dengan cakupan analis yang luas. Sinyal residual cenderung berada dalam kehalusan bahasa daripada dalam fakta headline.
Transkrip earnings call telah muncul sebagai salah satu sumber terkaya untuk alpha berbasis NLP. Sesi tanya jawab sangat berharga karena respons manajemen terhadap pertanyaan analis kurang terskrip dibandingkan pernyataan yang disiapkan dan lebih mungkin mengungkapkan informasi genuine tentang prospek perusahaan. Penelitian telah menunjukkan bahwa kompleksitas linguistik respons manajemen, penggunaan bahasa lindung nilai, dan penyimpangan dari pola frasa tipikal semuanya memprediksi return dan kejutan laba berikutnya.
Data media sosial, terutama dari platform seperti r/wallstreetbets Reddit dan StockTwits, menyediakan sentimen ritel real-time tetapi dengan masalah noise yang parah. Rasio sinyal-terhadap-noise rendah, manipulasi umum, dan cakupan sangat condong ke subset saham populer. Meskipun demikian, sentimen media sosial agregat telah menunjukkan kekuatan prediktif untuk return jangka pendek di ruang small dan mid-cap, di mana aliran ritel merupakan fraksi yang lebih besar dari total volume.
Bukti Empiris tentang Generasi Alpha
Bukti kumulatif mendukung sinyal berbasis teks sebagai sumber alpha yang genuine, dengan catatan penting tentang horizon, kapasitas, dan peluruhan.
Tetlock (2007) menetapkan hasil fundamental: pesimisme media memprediksi tekanan ke bawah pada return pasar pada frekuensi harian. Tetlock, Saar-Tsechansky, dan Macskassy (2008) memperluas ini ke saham individual, menunjukkan bahwa fraksi kata negatif dalam berita khusus perusahaan memprediksi laba dan return.
Ke, Kelly, dan Xiu (2019) mendemonstrasikan bahwa prediksi teks berbasis supervised menghasilkan nilai R-kuadrat out-of-sample bulanan 1 hingga 2 persen untuk saham individual, yang secara ekonomi besar. Faktor teks mereka menghasilkan Sharpe ratio sekitar 0,7 secara tahunan dalam portofolio long-short, angka yang dibandingkan dengan baik terhadap faktor kuantitatif tradisional. Yang terpenting, faktor teks sebagian besar ortogonal terhadap faktor-faktor yang ada, yang berarti ia menangkap informasi yang benar-benar baru.
Jiang, Kelly, dan Xiu (2023) memperluas pendekatan berbasis teks untuk mengekstrak ulang informasi dari berita dengan mengukur bagaimana data teks berhubungan dengan cross-section expected return, menemukan bahwa model neural network yang diterapkan pada data teks dapat secara substansial meningkatkan prediksi return.
Horizon sinyal biasanya pendek. Prediksi return berbasis teks paling kuat pada horizon 1 hingga 5 hari, dengan sebagian besar kekuatan prediktif terkonsentrasi di 1 hingga 3 hari pertama setelah publikasi. Di luar satu minggu, sinyal meluruh dengan cepat saat informasi tercermin dalam harga. Peluruhan yang cepat ini mengimplikasikan bahwa strategi berbasis teks memerlukan implementasi latensi rendah dan menghasilkan turnover yang relatif tinggi.
Peluruhan Sinyal dan Batasan Kapasitas
Sifat berumur pendek sinyal berbasis teks menimbulkan pertanyaan penting tentang kapasitas dan implementasi.
Peluruhan sinyal paling cepat untuk sentimen berbasis berita karena berita adalah sumber teks yang paling luas disebarkan dan paling cepat diproses. Sinyal sentimen yang berasal dari headline Reuters mungkin memiliki half-life menit hingga jam untuk saham berkapitalisasi besar, di mana sistem trading algoritmik secara khusus dirancang untuk mengekstraksi dan memperdagangkan sentimen berita. Untuk saham berkapitalisasi kecil dan pasar yang kurang likuid, peluruhan lebih lambat, menawarkan lebih banyak waktu bagi strategi sistematis untuk menangkap sinyal.
Sentimen earnings call meluruh lebih lambat karena transkrip tersedia dengan penundaan (biasanya 30 menit hingga beberapa jam setelah panggilan) dan karena sinyal tertanam dalam nuansa linguistik daripada fakta headline. Namun, frekuensi kuartalan membatasi jumlah total sinyal yang dapat diperdagangkan.
Estimasi kapasitas untuk strategi berbasis teks sulit ditentukan dengan tepat tetapi umumnya menyarankan bahwa strategi ini bekerja paling baik pada skala moderat. Strategi sentimen berita murni di ekuitas AS berkapitalisasi besar kemungkinan memiliki kapasitas dalam ratusan juta dolar, bukan miliaran, karena sinyal berumur pendek dan terkonsentrasi pada relatif sedikit nama pada waktu tertentu. Strategi yang menggabungkan beberapa sumber teks dengan sinyal horizon lebih panjang dapat berskala lebih lanjut.
Lanskap kompetitif penting. Seiring lebih banyak firma kuantitatif menerapkan model NLP, keunggulan penggerak pertama dalam memproses teks baru berkurang. Perlombaan senjata telah bergeser dari apakah menggunakan NLP ke seberapa cepat dan akurat model dapat mengekstraksi sinyal. Keunggulan latensi yang diukur dalam detik dapat diterjemahkan ke perbedaan kinerja yang bermakna.
Membangun Pipeline NLP Produksi
Pipeline NLP tingkat produksi untuk trading kuantitatif biasanya melibatkan beberapa tahap. Pertama, akuisisi data: mengamankan feed yang andal dan berlatensi rendah untuk sumber teks yang dipilih. Kedua, preprocessing: membersihkan, tokenisasi, dan normalisasi teks. Ketiga, ekstraksi fitur: menerapkan model yang dipilih (kamus, embedding, atau transformer) untuk mengubah teks menjadi fitur numerik. Keempat, konstruksi sinyal: menggabungkan fitur teks dengan sumber alpha lain, menerapkan fungsi peluruhan, dan membangun sinyal yang dapat diperdagangkan. Kelima, integrasi portofolio: memasukkan sinyal ke dalam optimizer portofolio bersama faktor kuantitatif tradisional.
Pilihan model bergantung pada kasus penggunaan. Untuk pemrosesan berita real-time di mana latensi kritis, metode kamus atau model FinBERT ringan yang berjalan pada GPU khusus lebih disukai. Untuk analisis mendalam filing kuartalan atau earnings call di mana beberapa jam waktu pemrosesan dapat diterima, model transformer yang lebih besar atau LLM dapat mengekstraksi sinyal yang lebih bernuansa.
Manajemen risiko untuk strategi berbasis teks memerlukan perhatian pada beberapa mode kegagalan spesifik. Model sentimen dapat tertipu oleh sarkasme, ironi, dan jargon khusus domain yang berkembang seiring waktu. Mikrostruktur pasar di sekitar event teks (rilis laba, breaking news) dapat menciptakan adverse selection dan slippage yang menggerus alpha teoretis. Dan perubahan rezim dalam pola bahasa, seperti pergeseran ke komunikasi korporat yang lebih hati-hati mengikuti perubahan regulasi, dapat menyebabkan degradasi model.
Frontier: Analisis Multimodal dan LLM Real-Time
Frontier terkini NLP dalam keuangan kuantitatif melibatkan tiga perkembangan. Pertama, analisis multimodal yang menggabungkan teks dengan tipe data lain: fitur audio dari earnings call (stres vokal, kecepatan bicara), citra satelit yang dideskripsikan dalam bahasa alami, dan data terstruktur dari laporan keuangan. Kedua, analisis berbasis LLM real-time yang dapat memproses breaking news, filing regulasi, dan posting media sosial dalam hitungan detik setelah publikasi, menghasilkan sinyal trading yang dapat ditindaklanjuti sebelum proses yang digerakkan manusia yang lebih lambat dapat bereaksi. Ketiga, penggunaan LLM tidak hanya untuk penilaian sentimen tetapi untuk mengekstraksi informasi terstruktur dari teks tidak terstruktur: mengidentifikasi hubungan rantai pasokan, memetakan jaringan korporat, dan mendeteksi risiko regulasi dari bahasa filing.
Perkembangan-perkembangan ini menunjukkan bahwa peran NLP dalam trading kuantitatif akan terus berkembang, tetapi tantangan fundamental tetap sama: sinyal berbasis teks secara inheren berumur pendek karena teks dirancang untuk dibaca dan ditindaklanjuti. Alpha dalam analisis sentimen NLP bukan berasal dari informasi itu sendiri, yang bersifat publik, tetapi dari kecepatan dan akurasi yang dengannya informasi tersebut dapat diekstraksi, dikuantifikasi, dan diperdagangkan.
Terkait
Analisis ini disintesis dari Quant Decoded Research oleh QD Research Engine AI-Synthesised — platform riset otomatis Quant Decoded — dan ditinjau oleh tim editorial kami untuk memastikan akurasi. Pelajari lebih lanjut tentang metodologi kami.
References
-
Araci, D. (2019). "FinBERT: Financial Sentiment Analysis with Pre-Trained Language Models." https://arxiv.org/abs/1908.10063
-
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT 2019. https://arxiv.org/abs/1810.04805
-
Jiang, J., Kelly, B., & Xiu, D. (2023). "(Re-)Imag(in)ing Price Trends." Review of Financial Studies, 36(8), 3173-3216. https://doi.org/10.1093/rfs/hhad083
-
Ke, Z. T., Kelly, B., & Xiu, D. (2019). "Predicting Returns with Text Data." Working paper. https://ssrn.com/abstract=3389884
-
Loughran, T., & McDonald, B. (2011). "When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks." The Journal of Finance, 66(1), 35-65. https://doi.org/10.1111/j.1540-6261.2010.01625.x
-
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). "Efficient Estimation of Word Representations in Vector Space." https://arxiv.org/abs/1301.3781
-
Tetlock, P. C. (2007). "Giving Content to Investor Sentiment: The Role of Media in the Stock Market." The Journal of Finance, 62(3), 1139-1168. https://doi.org/10.1111/j.1540-6261.2007.01232.x
-
Tetlock, P. C., Saar-Tsechansky, M., & Macskassy, S. (2008). "More Than Words: Quantifying Language to Measure Firms' Fundamentals." The Journal of Finance, 63(3), 1437-1467. https://doi.org/10.1111/j.1540-6261.2008.01362.x
-
Wu, S., Irsoy, O., Lu, S., Daber, V., et al. (2023). "BloombergGPT: A Large Language Model for Finance." https://arxiv.org/abs/2303.17564