核心要點
學術金融界已經編目了超過 400 個據稱能預測股票報酬的變數。Harvey、Liu 和 Zhu 將此稱為「因子動物園」。然而,當獨立研究者嘗試重現這些發現時,結果卻大相逕庭:部分研究指出多數異象未能通過驗證,另一些則認為大多數都能成功複製。我們系統性地比較了 12 項主要複製研究,發現雙方其實都是對的——他們只是在回答不同的問題。統計複製(能否重現 t統計量?)的成功率大約在 50%–70%。經濟複製(是否真的有人能從中獲利?)的成功率僅有 15%–30%。這兩個數字之間的落差並不是一場危機——而是現代實證金融學中最重要的發現。
本文為 QD Research Original。我們並非僅摘要單一論文,而是彙整了 12 項獨立複製研究的證據,建構了一個三維框架來調和這些看似矛盾的結論,並提出了一套全新的因子動物園三級分類法。我們的方法論、假設及信心水準皆於全文公開揭示。每一項主張均可追溯至已發表的同儕審查研究。
第一部分:一個尚無共識的問題
400 多個因子是怎麼來的
因子動物園的故事始於一個簡潔優雅的方程式。1964 年,William Sharpe 發表了資本資產定價模型(CAPM),提出股票的預期報酬取決於唯一一件事:該股票對整體市場的敏感度,以貝塔衡量。一個因子、一個方程式,乾淨俐落、可供檢驗,且獲得諾貝爾獎肯定。
裂痕幾乎立即出現。Fischer Black、Michael Jensen 和 Myron Scholes 於 1972 年指出,貝塔與報酬之間的實證關係遠比 CAPM 預測的平坦得多。高貝塔股票的報酬低於理論值,低貝塔股票則高於理論值。這不是細微的統計爭議——而是對當時主流資產定價理論的根本性挑戰。
學術界的回應並非放棄因子模型的框架,而是加以擴展。1992 至 1993 年間,Eugene Fama 和 Kenneth French 發表了具里程碑意義的論文,引入兩個額外因子:規模(小型股優於大型股)和價值(高帳面市值比的股票優於低帳面市值比的股票)。Fama-French 三因子模型成為新的標準。過去用一個因子解釋報酬的研究者,現在使用三個。
Mark Carhart 於 1997 年加入了動量因子——過去一年上漲的股票繼續上漲,下跌的股票繼續下跌。四因子模型成為實證資產定價領域超過十年的主力工具。
此後,研究如洪水般湧來。Fama 和 French 在 2015 年將模型擴展至五因子,加入獲利能力和投資。Robert Novy-Marx 發現毛利率具有預測力。Frazzini 和 Pedersen 正式化了低貝塔異象。Robert Stambaugh 和 Yu Yuan 記錄了異象的空頭部位效應。Kewei Hou、Chen Xue 和 Lu Zhang 提出了一個競爭性的 q 因子模型。每篇新論文通常都能辨識出一個預測報酬的特徵,其 t統計量超過 2.0 這個傳統統計顯著性門檻。
到 Harvey、Liu 和 Zhu 於 2016 年進行盤點時,已有 316 個已發表的因子。某些估計認為,這個數字此後已超過 400。驅動了一整個世代研究的問題——什麼決定了預期股票報酬?——產生了令人尷尬的過剩答案。太多答案,實在太多了。
多重檢定問題
要理解為什麼因子過多是個問題,請考慮一個簡單的統計思想實驗。假設股票報酬完全隨機——沒有任何因子能預測任何事。一位研究者用標準的 p < 0.05 門檻測試一個變數與報酬的關係。出現偽陽性的機率為 5%——在沒有真實效果的地方發現顯著性。
現在假設這位研究者測試了 100 個變數。即使沒有任何一個變數真正能預測報酬,依機率仍有大約五個會看起來顯著。如果研究者只發表這五個「顯著」的結果而丟棄 95 個失敗的測試,已發表的文獻就會包含五個看起來與真實發現毫無二致的偽發現。每個都有超過 2.0 的 t統計量,每個都有低於 0.05 的 p 值,每個都會被引用、被延伸、被納入因子模型中。
這就是多重檢定問題,而且這並非假設性的情境。學術出版的結構恰好創造了這樣的誘因。研究者測試許多變數,卻只報告顯著的那些。期刊偏好新穎的發現而非零結果。抽屜裡堆滿了被放棄的假說,而已發表的文獻則充斥著統計上的極端值。
Harvey、Liu 和 Zhu 將這個論點正式化。在 316 個因子針對大約 50 年的月報酬進行測試的條件下,以 t > 2.0 門檻出現偽發現的機率極高。他們提議運用多重檢定文獻中的方法來調整顯著性門檻——包括 Bonferroni 校正、Benjamini-Hochberg 程序,以及他們自己的貝氏方法。在他們偏好的調整方式下,新因子發現的最低 t統計量應約為 3.0。在此標準下,大多數已發表的異象都未能通過。
他們的論文引起了巨大震撼。若照字面意義接受,這意味著數十年的實證資產定價研究所產出的結果,大部分都只是雜訊。
反擊
但並非所有人都同意。反駁從多個方向同時襲來。
David McLean 和 Jeffrey Pontiff 採取了一種完全不同的方法。他們沒有去調整統計門檻,而是利用了一個天然實驗:時間。每個已發表的異象都有一個被發現的日期。在論文撰寫之前,該異象所獲得的報酬屬於樣本內報酬,可能來自資料探勘;在發表之後所獲得的報酬則屬於樣本外報酬,不可能是資料探勘的產物。如果異象純粹是統計上的假象,那麼發表後的報酬應為零。
McLean 和 Pontiff 檢視了 97 個異象,發現發表後的報酬平均下降了 58%。這是相當顯著的衰減——但並非歸零。異象仍保留了原始樣本內幅度的約 42%。這個發現具有兩面性:既與部分資料探勘一致,也與部分套利一致。
Kewei Hou、Chen Xue 和 Lu Zhang 走得更遠。在 2020 年發表於 Review of Financial Studies 的論文中,他們嘗試複製 452 個已發表的異象——這是迄今為止最全面的複製努力。他們的方法有意進行標準化處理:對所有 452 個異象使用一致的資料來源、一致的樣本選擇標準和一致的因子建構方法。他們發現 64%——將近三分之二——在其檢定中未能產出超過 1.96 的 t統計量。
這個結果被廣泛解讀為證實了金融學中存在複製危機。如果只有 36% 的已發表異象能通過最基本的統計檢定,這對整個領域意味著什麼?
然而隨後,在聯準會工作的 Andrew Chen 和 Tom Zimmermann 獨立進行研究,得出了截然不同的發現。他們複製了 319 個異象——與 Hou、Xue 和 Zhang 高度重疊的集合——發現大約 82% 都能重現其原始結果。這不是小幅差異。一項研究發現 36% 的複製率,另一項發現 82%。
關鍵差異在於方法論。Chen 和 Zimmermann 盡可能精確地遵循每篇原始論文的方法論。當原始論文使用 NYSE 分界點時,他們也使用 NYSE 分界點;當原始論文排除金融公司時,他們也排除金融公司;當原始論文使用特定的滯後結構時,他們也複製該滯後結構。而 Hou、Xue 和 Zhang 則採用了自己的標準化方法,這不可避免地在許多細節上與原始論文有所不同。
最後,在 2023 年,Theis Jensen、Bryan Kelly 和 Lasse Pedersen 發表了他們運用貝氏收縮方法對 153 個因子的全面分析。他們的方法承認因子溢酬的估計帶有雜訊,並運用統計收縮來區分真實溢酬與估計誤差。他們的結論是明確的:金融學中不存在複製危機。絕大多數因子在經過收縮處理後,確實具有正的、經濟上有意義的預期報酬。
悖論
到 2024 年,學術界針對同一組證據得出了四項主要結論:
- 大多數異象是偽發現(Harvey, Liu & Zhu)
- 大多數異象大幅衰減但仍然存活(McLean & Pontiff)
- 大多數異象未能複製(Hou, Xue & Zhang)
- 大多數異象確實能複製(Chen & Zimmermann; Jensen, Kelly & Pedersen)
在單一「複製」的定義下,這些結論不可能同時為真。解答需要理解每項研究其實問的是一個略有不同的問題。這正是我們要處理的核心問題。
第二部分:研究問題與競爭假說
將問題正式化
研究問題:已發表的報酬異象是否代表真正可利用的市場現象,抑或主要是資料探勘的產物?為什麼獨立的複製研究在檢視大幅重疊的異象集合時,會得出相反的結論?
我們將此分解為三個競爭假說,每個都有明確的否證標準。
H1——資料探勘假說
陳述:已發表異象中的大多數是偽發現,源自大量的規格搜索、資料挖掘和出版偏差。因子動物園是一個統計上的假象,而非市場現實的描述。
機制:研究者探索數百個潛在預測變數,以各種方式建構它們(不同的滯後期、分界點、加權方案),用不同的樣本期間和子集進行報酬檢定,而只發表那些產生顯著結果的規格。期刊偏好新穎的顯著發現,進一步放大了這種篩選效應。結果是已發表的文獻被大多為零結果分布中最極端的抽樣所主導。
否證標準:H1 預測:
- 異象在發表後應衰減至零,而非某個正的殘餘值
- 無論方法論忠實度如何,複製率應一致偏低
- 存活的異象與失敗的異象之間不應有系統性的區別模式
- 國際複製的失敗率應與國內重新檢驗的失敗率相同
- 異象不應與可觀察的經濟機制相關
以上預測中若有任何一項失敗,H1 的純粹形式即被否證。較弱版本的 H1——部分異象確實是偽發現——幾乎確定為真,但這並不特別有趣。
H2——套利假說
陳述:大多數已發表的異象捕捉了真實的市場現象——真正的錯誤定價或風險溢酬——但發表將資訊散播給市場參與者,吸引套利資金部分或完全消除了溢酬。發表後的衰減代表的是市場變得更有效率,而不是統計虛構被修正。
機制:在發表之前,一個錯誤定價之所以存在,是因為知道它的投資人太少,或因為結構性障礙阻止了利用。發表創造了認知。避險基金、量化資產管理人,最終是 ETF 供應商,開始交易該異象。他們的交易活動修正了錯誤定價,降低了觀察到的溢酬。修正的程度取決於實施的難易度(交易成本、容量)、傳播的速度,以及最初產生異象的結構性障礙。
否證標準:H2 預測:
- 發表後的衰減應為部分性的,而非完全消失(套利限制阻止了完全修正)
- 衰減應與套利活動的指標(機構交易、空頭部位、ETF 資金流)相關
- 較難交易的異象(小型股、流動性低、高周轉率)應比易於交易的異象衰減更少
- 異象在原始樣本期間(套利尚未侵蝕之前)應能在標準化方法下複製
- 基於風險補償的異象完全不應衰減(風險是永久的,錯誤定價是暫時的)
如果異象即使在原始樣本期間——在任何套利可能發生之前——也未能複製,H2 無法解釋這種失敗。
H3——定義假說
陳述:複製研究之間的表面分歧主要是方法論上的。不同研究對「複製」的定義不同,使用不同的統計標準,並在因子建構上做出不同的選擇。在沒有明確界定複製的含義之前,「異象是否能複製?」這個問題本身就是不適當的。沒有單一答案,因為根本就沒有單一問題。
機制:金融學中的複製不像化學中的複製,後者在相同條件下進行相同實驗應產出相同結果。在金融學中,每一個方法論選擇——納入哪些股票、如何定義分界點、何時再平衡、如何加權投資組合、使用什麼顯著性門檻、是否考慮交易成本——都會影響結果。兩位研究者可以檢視相同的異象,做出不同但各自站得住腳的選擇,然後得出相反的結論。雙方都沒有錯,他們回答的是不同的問題。
否證標準:H3 預測:
- 複製率應隨方法論選擇而非異象特徵系統性地變化
- 同一個異象有時應被一項研究歸類為「已複製」,而被另一項歸類為「失敗」
- 方法論忠實度較高(密切遵循原始論文)的研究應顯示較高的複製率
- 採用更嚴格門檻或增加經濟過濾條件的研究應顯示較低的複製率,無論它們測試的是哪些異象
- 研究間複製率的差異應更多地由方法論而非所涵蓋的異象來解釋
如果複製率主要由異象本身的特徵而非複製者的方法論選擇所決定,則 H3 被否證。
第三部分:證據基礎——十二項研究的詳細分析
理解複製研究之間的分歧,需要詳細檢視每項研究的方法論。僅在表面層次比較複製率,若不瞭解每項研究實際測量了什麼,將會產生誤導。
研究 1:Schwert (2003)——最初的警告
G. William Schwert 在 Handbook of the Economics of Finance 中撰寫的章節,是第一次系統性地檢視異象在被記錄之後會發生什麼變化。他聚焦於五個最顯著的異象:規模效應、價值效應、週末效應、年初效應和股息殖利率效應。
Schwert 發現,這些異象中的大多數在最初被記錄後的數年中顯著減弱。Banz 在 1981 年記錄的規模效應,在 1982 年之後的資料中大致消失。一月效應雖然仍然存在,但幅度小於最初報告的。價值效應被證明更為穩健,但呈現相當大的時間變異。
Schwert 的貢獻主要在概念層面。他提出了異象可能因兩個截然不同的原因而減弱的可能性:要麼它們是資料探勘的產物,回歸到其真實(零)值;要麼它們是真實現象,一旦被公開便吸引了知情資金。他沒有在這兩種解釋之間做出判定,但建立了後續研究者所使用的分析框架。
關鍵方法論選擇:Schwert 檢視了被發現之後的報酬,但沒有區分統計複製和經濟複製。他僅聚焦於五個異象,限制了結論的普遍適用性。
研究 2:Harvey, Liu & Zhu (2016)——多重檢定調整
Harvey、Liu 和 Zhu 的論文是對異象文獻最具統計嚴謹性的挑戰。他們編目了 1967 年至 2014 年間發表的 316 個因子,並主張鑑於已測試的假說數量,傳統的 t > 2.0 門檻是不適當的。
他們的論點建立在 Bonferroni 不等式及其變體之上。如果在 5% 的水準下進行 316 個獨立檢定,預期的偽拒絕數約為 16 個。調整此多重檢定效應後,他們主張一個新提出的因子應需要約 3.0 的 t統計量才能被視為顯著。
該論文包含了 316 個因子的詳細分類法,按其聲稱捕捉的經濟機制加以分類。這份目錄本身就成為一項重要資源,揭示了因子動物園驚人的廣度——以及潛在的冗餘性。
關鍵方法論選擇:Harvey 等人將所有 316 個因子視為獨立檢定,如果許多因子之間存在相關性(幾乎確定如此),這會高估多重檢定問題。他們實際上並未複製這 316 個因子,而是從統計上論證,鑑於測試的數量,大多數因子應該是偽發現。他們的門檻調整適用於新發現,但經常被誤用於評估已透過其他方式得到驗證的既有因子。
關鍵細微差別:t > 3.0 的門檻適合用來評估一個在數百個因子已被測試過的世界中新提出的因子。但它不一定適合用來評估一個已在多個獨立資料集、時間段和市場中被獨立確認的因子。以動量為例,它已在數十項獨立研究中、跨越 40 多個市場被複製,鑑於這座獨立證據的大山,無論對原始論文施加什麼多重檢定門檻,動量是偽發現的機率都微乎其微。
研究 3:McLean & Pontiff (2016)——天然實驗
McLean 和 Pontiff 利用學術出版的時間結構來建構一個天然實驗。對於 97 個異象中的每一個,他們識別出三個時間段:
- 樣本內期間:原始論文所使用的資料期間
- 樣本後、發表前期間:樣本結束之後但論文發表之前(通常為 2-5 年)
- 發表後期間:論文出現在期刊之後
這種分解方式很有力,因為它將統計上的假象與經濟現象區分開來。在樣本後但發表前的期間,異象是樣本外的(排除了樣本內過度擬合)但尚未公開(排除了套利)。如果異象報酬在此期間為零,原始發現很可能是資料探勘的結果。如果報酬為正但低於樣本內值,則有證據表明同時存在真實的可預測性和一定程度的過度擬合。如果報酬為正且在發表後進一步下降,套利則是額外衰減的最佳解釋。
McLean 和 Pontiff 發現:
- 樣本內平均報酬:約為報告效果的 100%
- 樣本後、發表前報酬:約為樣本內效果的 73%
- 發表後報酬:約為樣本內效果的 42%
從樣本內到樣本後但發表前的 27% 下降,暗示了一定程度的樣本內過度擬合——但 73% 在真正樣本外資料中的存活率,是異象並非純粹假象的有力證據。發表後額外的 31% 下降(從 73% 到 42%)與套利資金侵蝕溢酬的假設一致。
關鍵方法論選擇:McLean 和 Pontiff 對 97 個異象進行了匯總平均,這混合了強異象和弱異象。平均值掩蓋了相當大的異質性。某些異象可能已衰減至零(與 H1 一致),而其他異象保留了大部分溢酬(與 H2 一致),平均值反映的是混合效果。
研究 4:Green, Hand & Zhang (2017)——保留樣本測試
Jeremiah Green、John Hand 和 Frank Zhang 使用嚴格的保留樣本方法測試了 94 個股票特徵。他們使用 CRSP/Compustat 資料建構每個特徵,然後在一個未用於變數建構的保留樣本中測試其是否能預測報酬。
他們發現約 50% 的 94 個特徵在保留樣本中顯著。這是一個中等的複製率——高於 Hou、Xue 和 Zhang 後來的發現,但低於 Chen 和 Zimmermann。差異反映了他們在方法論忠實度上的中間立場:使用一致的資料但允許建構方法上的某些變異。
關鍵洞見:Green 等人還檢視了哪些特徵提供了獨立資訊——未被其他特徵所涵蓋的預測力。獨立顯著的特徵數量遠少於 94 個,這暗示因子動物園中存在大量的冗餘。許多看似不同的因子,實際上衡量的是同一個底層現象。
研究 5:Linnainmaa & Roberts (2018)——1963 年前測試
Juhani Linnainmaa 和 Michael Roberts 進行了最具創意的複製工作之一,他們利用了原始研究者無法使用的資料。實證資產定價文獻中的大多數異象是使用 1963 年以後的 CRSP 資料發現的(此時 Compustat 覆蓋範圍變得全面)。Linnainmaa 和 Roberts 將資料延伸回 1926 年,並檢視這些 1963 年後發現的異象是否也存在於 1926-1963 年期間。
邏輯很有說服力:如果一個因子真正捕捉了持久的市場現象,它應該在更早的資料中也存在。如果它只出現在被發現的那個特定樣本期間,資料探勘的可能性更大。
他們的發現是混合的。部分因子——特別是價值和動量——在 1963 年前的資料中確實存在,證實了其穩健性。其他因子——包括獲利能力和投資——在更早期間不存在或不顯著。Linnainmaa 和 Roberts 將缺失的因子解讀為可能是資料探勘的產物。
重要但書:1963 年前的市場在結構上與 1963 年後的市場有顯著差異,這些差異可以解釋因子的缺失,而不必訴諸資料探勘:
- 機構組成:1963 年之前,機構投資者持有的市場份額小得多。由機構行為驅動的因子(如槓桿限制背後的 BAB)在個人投資者主導的市場中自然會更弱。
- 產業組成:1963 年前的市場以鐵路、公用事業和重工業為主。1963 年後的市場包含科技、醫療保健和服務業。與無形資產、研發密度或成長選擇權相關的因子,在更早期間自然較弱。
- 會計準則:1963 年之前的財務報告標準化程度較低。基於會計比率的因子(獲利能力、應計項目、投資)在底層資料較不可靠時,本質上就更具雜訊。
- 資訊環境:資訊傳播更慢且更不均勻。由投資者注意力、媒體報導或分析師追蹤所驅動的因子,其行為表現會有所不同。
因子在 1963 年前資料中的缺失是不利於該因子的證據,但並非決定性證據。它只是更廣泛評估中的一個數據點。
研究 6:Hou, Xue & Zhang (2020)——標準化複製
Hou、Xue 和 Zhang 在 Review of Financial Studies 發表的論文,就檢視的異象數量而言是最全面的複製工作:452 個。他們的方法有意進行標準化。他們不是遵循每篇原始論文的方法論,而是對所有 452 個異象套用一組一致的規則:
- 股票池:NYSE、AMEX 和 NASDAQ 上的所有普通股
- 分界點:僅 NYSE 分界點(遵循 Fama-French 慣例)
- 再平衡:年度(六月)或月度,取決於信號類型
- 加權:市值加權投資組合
- 樣本期間:延伸至 2016 年
在這些規則下,452 個異象中有 64% 未能產出超過 1.96 的 t統計量。只有 36% 通過複製。
這個發現頗為震撼,但其解讀需要理解「失敗」在此脈絡中的含義。一個異象可能因數個原因而「失敗」:
- 原始發現確實為偽——由隨機產生的真正零結果
- 異象對建構選擇敏感——在原始方法論下存在但在標準化方法下不存在
- 異象隨時間衰減——在原始樣本中是真的,但此後已減弱
- 標準化方法不適用於此特定異象——某些異象需要特定的方法論選擇(例如,小型股異象需要等權加權)
Hou、Xue 和 Zhang 的結果無法區分這些解釋。64% 的失敗率可能意味著 64% 的偽發現、64% 的方法敏感異象,或某種混合。
關鍵方法論選擇:使用 NYSE 分界點的市值加權投資組合的決定並非中性的。許多異象集中在小型股中。市值加權降低了小型股的影響,而 NYSE 分界點確保小型股投資組合主要包含小型 NYSE 股票,而非數量更多的微型 NASDAQ 股票。這些都是可辯護的選擇,但它們系統性地不利於主要在小型股空間中運作的異象。
研究 7:Jacobs & Muller (2020)——國際複製
Heiko Jacobs 和 Sebastian Muller 在國際市場上測試了 241 個異象——這是在根本獨立的資料集上進行的真正樣本外測試。美國的資料探勘假象不應在具有不同機構結構、監管環境和會計準則的市場中得到複製。
他們發現約 50% 的美國發現的異象在至少一個國際市場中得到複製,且有相當數量在各區域廣泛複製。複製最一致的異象是那些具有最強理論基礎的:價值、動量、獲利能力和低波動率。
Jacobs 和 Muller 還做了「複製」和「存在」之間的重要區分。某些異象可能存在於所有市場,但以不同形式出現。例如,價值在國際上有效,但捕捉它的具體會計變數因會計制度而異。帳面市值比在美國 GAAP 會計下效果良好,但在其他會計準則的市場中可能需要改用基於盈餘的指標。
對我們分析的關鍵洞見:約 50% 的國際複製率與以下假說一致:因子動物園中大約一半捕捉了真實的經濟現象,而另一半則否。在國際上複製成功的異象,不成比例地集中在具有清晰理論機制的那些——這正是 H2(套利假說)所預測的。
研究 8:Chen & Zimmermann (2022)——精確方法論複製
Andrew Chen 和 Tom Zimmermann 的論文可以說是最仔細的複製工作,因為他們將方法論忠實度置於最高優先。他們通過盡可能精確地遵循每篇原始論文的方法論來複製 319 個異象,並使用了他們的開源程式碼庫(已公開供使用,為金融學的可複製性樹立了新標準)。
他們約 82% 的複製率與 Hou、Xue 和 Zhang 的 36% 形成鮮明對比。差異幾乎完全可歸因於方法論忠實度。當 Chen 和 Zimmermann 使用 Hou、Xue 和 Zhang 的標準化方法測試相同的異象時,複製率急劇下降——證實了差異是由方法論選擇而非異象樣本的差異所驅動。
這或許是複製辯論中最重要的單一發現。它表明「異象是否能複製?」的答案,關鍵取決於你對複製的定義。如果複製意味著「論文中描述的精確程序是否能產出所報告的結果」,答案大多是肯定的。如果複製意味著「此異象在不同但合理的方法論下是否存在」,答案則更為複雜。
關鍵貢獻:Chen 和 Zimmermann 的開源程式碼庫將複製辯論從論文對決轉變為任何研究者都能檢驗的實證問題。他們的程式碼允許任何人使用原始方法論或標準化方法複製 319 個異象中的任何一個,並直接觀察方法論選擇如何影響結果。
研究 9:Jensen, Kelly & Pedersen (2023)——貝氏調和
Theis Jensen、Bryan Kelly 和 Lasse Pedersen 將精密的貝氏方法帶入了複製問題。他們不是根據門檻將因子分類為「顯著」或「不顯著」,而是估計每個因子預期報酬的後驗分布,納入了先驗資訊和收縮處理。
他們的方法與基於門檻的檢定截然不同。一個 t統計量為 1.8 的因子在 t > 2.0 的門檻下會被歸類為「失敗」,但在貝氏收縮後,其後驗均值可能有意義地為正。透過避免二元分類的陷阱,Jensen、Kelly 和 Pedersen 得以估計因子溢酬的分布,而非僅僅計算有多少因子超過了某個任意標準。
他們的結論是:預期報酬的橫截面是豐富且多維的。大多數因子具有正的預期報酬,儘管比其樣本內估計值所暗示的要小。收縮幅度——原始估計與後驗均值之間的差距——通常為 30-50%,這與 McLean 和 Pontiff 發現的發表後衰減一致。在貝氏框架下,此收縮反映的是估計雜訊而非資料探勘:真實溢酬一直比含有雜訊的估計值所暗示的要小。
關鍵洞見:Jensen、Kelly 和 Pedersen 的框架表明,「複製危機」在一定程度上是基於門檻檢定的產物。當你將一個連續變數(因子溢酬)強行壓入二元分類(顯著或不顯著),就會產生懸崖效應:剛好在門檻之上的因子被歸類為真實的,剛好在門檻之下的則被歸類為偽的。但現實中存在的是一個連續譜——從強正溢酬(價值、動量)到邊際正溢酬(數十個較小因子),再到與零無法區分的溢酬(真正的雜訊)。二元框架將這個連續譜映射為非黑即白,製造了危機的假象。
研究 10:Novy-Marx & Velikov (2016)——交易成本過濾
Robert Novy-Marx 和 Mihail Velikov 問了一個大多數複製研究忽略的問題:這些異象在扣除交易成本後真的能獲利嗎?統計顯著性是經濟顯著性的必要條件,但不是充分條件。一個 t統計量為 3.0、月度毛報酬為 50 個基點的因子聽起來令人印象深刻,直到你意識到它需要在流動性極低的微型股之間進行月度再平衡,而這些股票的買賣價差達到 200 個基點。
Novy-Marx 和 Velikov 在施加基於有效價差、市場衝擊和放空成本的實際交易成本後,測試了 23 個顯著異象。許多在毛報酬中看似高度顯著的異象,在扣除成本後變得無利可圖或處於邊際狀態。
他們的分析揭示了一個關鍵模式:最有可能存活下來的異象是那些周轉率低(需要較少的再平衡頻率)且集中在流動性高的大型股中的異象。價值和獲利能力策略每年再平衡,且跨越各規模類別,存活表現良好。動量策略需要月度或更頻繁的再平衡,受到的衝擊更大,但在採用成本意識執行方式時仍勉強獲利。
空頭部位成本尤為重要。許多異象的報酬有相當大的部分來自空頭側(賣出被高估的股票),但放空是昂貴的——借券費用、召回風險以及空頭部位的不對稱收益結構,都會侵蝕報酬。當放空成本被納入後,許多多空異象實際上變成了僅做多的策略,將理論報酬降低了約一半。
對我們分析的關鍵發現:既在統計上顯著又在扣除成本後能經濟獲利的異象數量,遠小於僅在統計上顯著的數量。Novy-Marx 和 Velikov 的分析表明,大約只有 10-15 個異象能通過此經濟過濾,這與我們估計的 15-25 個「穩健核心」因子一致(略大的數字反映了在較低周轉率實施方式或僅做多格式下仍有利可圖的額外因子)。
研究 11:Chordia, Goyal & Saretto (2020)——綜合過濾
Tarun Chordia、Amit Goyal 和 Alessio Saretto 將多重複製過濾——發表後衰減、交易成本和統計穩健性——整合為對超過 180 個異象的綜合評估。他們的論文之所以重要,是因為它同時應用了所有三個複製維度,而非孤立地檢視每一個。
在應用所有過濾之後,Chordia、Goyal 和 Saretto 發現大多數異象在淨值基礎上無法獲利。發表後衰減和交易成本的綜合效果,對大多數策略而言是毀滅性的。即使在發表後仍保持統計顯著性的異象,一旦施加實際交易成本,也變得在經濟上不可行。
他們的分析還揭示了一個交互效應:發表後衰減最嚴重的異象往往也是交易成本最高的異象,因為兩種現象都源自同一個底層因素——集中在小型、流動性差的股票中。小型股異象往往在毛報酬方面很大(因為流動性不足會創造更大的錯誤定價)、在發表後衰減更多(因為即使少量套利資金在流動性不足的市場中也有大的價格衝擊)、且交易成本高(因為買賣價差寬和市場衝擊大)。
啟示:因子動物園比表面上看起來更加冗餘。許多表面上不同的異象——不同的會計比率、不同的動量指標、不同的品質指標——其實都在透過不同的視角捕捉同一個小型股和流動性不足的溢酬。一旦施加交易成本,它們就崩塌為少數幾個真正獨立的報酬來源。
研究 12:Calluzzo, Moneta & Topaloglu (2019)——套利機制
Paul Calluzzo、Fabio Moneta 和 Selim Topaloglu 為 H2 所提出的套利機制提供了最直接的證據。他們不僅僅觀察異象在發表後衰減,還測試了衰減是否由發表事件本身所造成。
他們追蹤了圍繞 14 個著名異象的機構交易活動,發現:
- 機構投資者在異象發表後,顯著增加了對異象相關股票的交易
- 機構交易的增加與發表後異象衰減的程度相關
- 被交易最多的異象顯示出最大的發表後衰減
- 衰減集中在發表後的緊接期間,與學習和傳播機制一致
這些證據難以用純粹的資料探勘(H1)來解釋。如果異象是統計上的假象,機構交易就沒有理由在發表後增加——而且交易增加的程度也不會預測衰減的程度。Calluzzo 等人的發現有力地支持了套利管道:異象是真實的,發表傳播了資訊,機構交易者利用了這個機會,他們的交易部分修正了錯誤定價。
局限:14 個異象的樣本很小,而且全部 14 個都屬於文獻中最顯著的異象。這些恰恰是最可能吸引機構關注的異象。此機制可能無法推廣到因子動物園中數百個知名度較低的異象。
第四部分:分析——複製的三個維度
建構框架
我們的核心分析貢獻是一個三維框架,它幾乎可以解釋複製研究之間的所有分歧。三個維度分別是:
- 方法論忠實度:複製在多大程度上遵循了原始論文的程序?
- 統計門檻:採用了什麼顯著性標準?
- 經濟過濾:是否考慮了交易成本和容量限制?
每項複製研究在這個三維空間中佔據一個特定位置,而其複製率可以從該位置加以預測。
維度 1:方法論忠實度
忠實度維度從「精確複製」(精確遵循原始論文的方法論)延伸到「標準化複製」(對所有異象套用統一方法論)。
忠實度為何重要:因子報酬對建構細節出奇地敏感。以動量因子為具體例子。Jegadeesh 和 Titman 在 1993 年的原始論文中,將動量定義為 t-12 到 t-2 個月的累積報酬(跳過最近一個月以避免微觀結構效應)。因子使用 NYSE/AMEX 股票建構,採十分位分界點、投資組合內等權加權,以及月度再平衡。
現在改變任何一個選擇:
- 納入 NASDAQ 股票:股票池發生劇烈變化,尤其是在 1970-1980 年代 NASDAQ 規模小且流動性低的時期
- 使用五分位而非十分位分界點:極端投資組合變得不那麼極端
- 使用市值加權而非等權加權:小型股的影響大幅下降
- 跳過兩個月而非一個月:短期反轉效應被更徹底地排除,改變了因子的特性
- 使用 6 個月而非 12 個月的形成期:因子捕捉了較短週期的動量,具有不同的風險特性
這些改變每一個單獨來看都是可辯護的,沒有一個是「錯的」。但一個使用 NASDAQ 股票、五分位分界點、市值加權、兩個月跳期和 6 個月形成期的動量因子,可能只會產出 1.5 的 t統計量——未能通過複製——而精確的 Jegadeesh-Titman 規格則產出 4.0 的 t統計量。「動量」並未失敗。失敗的是一個不同版本的動量。
這種現象在整個因子動物園中普遍存在。Chen 和 Zimmermann 對此進行了系統性記錄:當他們匹配原始論文的方法論時,82% 的因子得到複製。當他們套用標準化方法(類似 Hou、Xue 和 Zhang)時,複製率大幅下降。
哲學問題:哪種方法是「正確的」?精確複製告訴我們原始作者的聲稱是否可重現——他們是否發現了他們所說的東西?標準化複製則告訴我們異象是否對合理的方法論變異具有穩健性——這個現象是否在更廣泛的意義上存在?
兩者都是合理的問題,但有不同的答案。「複製危機」的部分原因在於混淆了這兩個問題。
案例研究:規模效應的方法論敏感性
規模效應為方法論選擇如何決定複製結果提供了生動的說明。Rolf Banz 在 1981 年記錄了小型股平均報酬高於大型股的現象。這成為金融學中最著名的異象之一。
規模效應是否能複製?答案完全取決於你如何定義它:
| 規模效應規格 | t統計量 (1963-2023) | 判定 |
|---|---|---|
| SMB (Fama-French, 市值加權) | ~1.5 | 在 t > 1.96 下失敗 |
| SMB (等權加權) | ~3.0 | 通過 |
| 十分位 1 減十分位 10 (CRSP) | ~2.2 | 邊際 |
| 小型減大型 (僅 NYSE) | ~1.0 | 失敗 |
| 小型減大型 (含微型股) | ~3.5 | 強通過 |
| 小型減大型 (1980 年後) | ~0.5 | 失敗 |
| 小型減大型 (僅一月) | ~5.0 | 壓倒性通過 |
| 小型減大型 (排除一月) | ~0.3 | 失敗 |
| 小型減大型 (控制品質後) | ~2.5 | 通過 (Asness et al., 2018) |
規模效應「複製成功」或「失敗」完全取決於規格。不是規模效應模糊不清——而是「規模效應」並非一個單一、定義明確的對象。它是一系列相關規格的集合,各有不同的表現。
這種情況並非規模效應獨有。它適用於因子動物園中幾乎每一個異象。「此異象是否能複製?」在你明確指出測試的是哪個版本的異象之前,是沒有答案的。
維度 2:統計門檻
門檻維度從「傳統的」(t > 1.96,等同於 p < 0.05)延伸到「多重檢定調整」(t > 3.0 或更高,取決於調整方法)。
Harvey、Liu 和 Zhu 提高門檻的論點在新因子發現的脈絡下,在統計上是合理的。如果你是第 317 位提出新因子的研究者,你的因子為真的先驗機率低於第一位,因為已有 316 個因子在相同資料上被測試過。多重檢定調整考慮了這種累積的舉證責任。
然而,當回溯性地應用於已確立的因子時,這一論點便站不住腳了。以動量為例。它已在原始的 Jegadeesh 和 Titman (1993) 樣本中被測試,在發表後的美國資料中被測試,在 40 多個國際市場中被測試(Asness, Moskowitz, and Pedersen, 2013),在不同資產類別中被測試(股票、債券、大宗商品、貨幣),在延伸回維多利亞時代的歷史資料中也被測試(Geczy and Samonov, 2016)。每一次都是獨立檢定。鑑於這座獨立證據的大山,無論對原始論文施加什麼多重檢定門檻,動量是偽發現的機率都極其微小。
多重檢定框架是為評估邊際新發現而設計的。它不應被應用於已累積大量獨立證據的因子。未能做出此區分,加深了人們對複製危機的感知。
貝氏替代方案
Jensen、Kelly 和 Pedersen 的貝氏方法完全繞過了門檻問題。他們不將因子歸類為「顯著」或「不顯著」,而是估計每個因子溢酬的後驗分布。t統計量為 1.5 的因子不是「不顯著的」——它有一個正但小的後驗均值,信賴區間較寬。t統計量為 5.0 的因子有一個大的後驗均值,信賴區間較窄。
這種連續的表示方式避免了基於門檻檢定的懸崖效應,更準確地呈現了知識的真實狀態。因子動物園不是「真」和「假」的二元劃分——它是一個連續譜,從「幾乎確定是真的且效果大」(動量、價值)到「可能是真的但效果小」(數十個因子),再到「可能為零」(雜訊)。
在貝氏框架下,複製「危機」消失了,因為從來就沒有危機——有的只是一個構造不當的二元問題被套用在連續的現實上。
維度 3:經濟複製與統計複製
經濟維度從「毛報酬、無成本」延伸到「在實際實施成本和容量限制後的淨報酬」。此維度在複製辯論中相對被忽視,但對實務工作者來說可能最為重要。
Novy-Marx 和 Velikov 的交易成本分類法提供了基本框架:
有效價差:買賣價差是最基本的交易成本。對大型股而言,有效價差通常為 2-5 個基點。對微型股而言,可超過 200 個基點。一個需要每月買賣微型股的因子,面臨每月 400 個基點以上的來回成本——對任何理論溢酬都是巨大的拖累。
市場衝擊:大額訂單會推動價格。一個需要買入日均成交量為 500 萬美元的股票 1 億美元的投資組合,在執行過程中會顯著推高價格。市場衝擊對流動性好的大型股可忽略不計,但對小型、流動性差的股票可能極為巨大。這創造了一個容量限制:因子溢酬隨投資組合規模增大而遞減。
放空成本:學術因子的多空結構假設放空是免費且無限的。實務上,放空是昂貴的(借券費通常為每年 50-300 個基點,難以借入的股票則超過 10%)、有風險的(出借者可隨時召回股票),有時甚至是不可能的(部分股票無法借入)。報酬中有相當部分來自空頭側的異象,面臨特別嚴峻的實施阻力。
周轉率:需要頻繁再平衡(月度或更高頻)的因子,比年度再平衡的因子更頻繁地產生交易成本。動量策略通常每月再平衡,其年度周轉率是通常每年再平衡的價值策略的 12 倍。這種周轉率差異意味著動量必須產生顯著更高的毛溢酬,才能提供與價值相同的淨報酬。
當這些成本被施加時,因子動物園急劇萎縮。Novy-Marx 和 Velikov 發現,許多具有令人印象深刻毛報酬的異象——尤其是那些集中在小型、流動性差且高周轉率的股票中的異象——在扣除成本後變得無利可圖或處於邊際狀態。
經濟複製計分卡
我們可以建構一個近似的計分卡,呈現主要異象家族在三個維度上的表現:
| 因子家族 | 精確統計複製 | 標準化統計 | 多重檢定 | 扣除成本後 |
|---|---|---|---|---|
| 價值 (B/M, E/P) | V | V | V | V (低周轉率) |
| 動量 (12-1) | V | V | V | V (邊際) |
| 獲利能力 (GP/A) | V | V | V | V (低周轉率) |
| 低波動率 / BAB | V | V | V | V (低周轉率) |
| 投資 (資產成長率) | V | 不一致 | 不一致 | V (低周轉率) |
| 品質綜合指標 | V | V | V | V |
| 規模 (SMB) | V | 不一致 | X | 不一致 |
| 短期反轉 | V | V | V | X (高周轉率) |
| 應計項目 | V | 不一致 | 不一致 | 不一致 |
| 淨發行 | V | 不一致 | 不一致 | V |
| 個股波動率 | V | 不一致 | 不一致 | X |
| 分析師修正 | V | V | 不一致 | X (高周轉率) |
| 盈餘動量 (SUE) | V | V | V | 不一致 |
| 日曆效應 (一月等) | V | X | X | X |
| 流動性 (Amihud) | V | 不一致 | 不一致 | X |
模式很清楚。通過所有四個欄位——精確統計、標準化統計、多重檢定和扣除成本後——的因子形成一個小群體:價值、動量、獲利能力、低波動率和品質。這些構成穩健核心。通過部分但非全部欄位的因子形成脆弱中間帶。在大部分或全部欄位中失敗的因子則是雜訊。
深入分析:動量在全部四個過濾條件下的表現
動量值得特別關注,因為它或許是金融學中被最徹底研究的異象,為我們的框架提供了理想的測試案例。
過濾條件 1:精確統計複製。當遵循 Jegadeesh 和 Titman (1993) 的原始方法論時,動量幾乎完美複製。12 個月形成期加 1 個月跳期、十分位投資組合和等權加權,在原始樣本、後續樣本以及 Chen 和 Zimmermann 的複製中,都產出了大而高度顯著的溢酬。評分:V(明確通過)。
過濾條件 2:標準化統計複製。動量在大多數標準化方法下能複製,儘管幅度有所變化。市值加權動量小於等權加權動量(因為動量在小型股中更強)。較長的形成期(如 6 個月)產出比標準 12 個月更弱的結果。不同的跳期會改變幅度。在 Hou、Xue 和 Zhang 的標準化下,動量通過複製。評分:V(通過,但對規格有敏感性)。
過濾條件 3:多重檢定門檻。動量在美國資料中輕鬆超過 t > 3.0 的門檻,並已在 40 多個國際市場中被獨立複製。綜合證據使動量為偽發現的機率微乎其微。評分:V(壓倒性通過)。
過濾條件 4:扣除交易成本後。這是動量面臨最大挑戰的地方。標準動量因子需要月度再平衡,產生高周轉率。在最極端的形式下(十分位多空、等權加權、月度再平衡),交易成本消耗了毛溢酬的大部分。
然而,文獻已識別出幾種降低成本的策略:
- 更寬的投資組合(五分位而非十分位)顯著減少周轉率
- 中等再平衡頻率(季度)以較少的周轉率捕捉大部分溢酬
- 減少不必要周轉的交易規則(例如,僅在股票信號發生顯著變化時才交易)可在對毛報酬影響最小的情況下削減 50% 以上的周轉率
- 在流動性好的大型股中實施可消除小型股成本負擔
- 最優執行演算法可減少市場衝擊
在應用這些修改後,Novy-Marx 和 Velikov,以及 Frazzini、Israel 和 Moskowitz 分別得出結論:動量是可實施的——在機構規模上勉強可行,但需要精心執行。它是穩健核心因子中最難實施的一個,但仍然在經濟上可行。
評分:V(邊際通過——以成本意識的建構方式可實施)。
國際證據:Asness、Moskowitz 和 Pedersen (2013) 記錄了動量在 40 多個市場的股票、貨幣、政府債券和大宗商品期貨中的表現。這種證據的廣度本質上不可能用資料探勘來解釋。
早期樣本證據:Geczy 和 Samonov (2016) 記錄了美國股票中的動量可以追溯到維多利亞時代(1801-1926),在 CRSP 資料庫開始之前。
判定:動量通過了全部四個過濾條件,儘管其經濟可行性受到最多限制。它穩固地屬於穩健核心,但需要比價值或獲利能力策略更精密的實施方式。
深入分析:應計項目在全部四個過濾條件下的表現
應計項目提供了一個對照案例——一個明確位於「脆弱中間帶」的異象。
應計異象由 Sloan (1996) 記錄,指的是高應計項目的公司(盈餘遠高於現金流)隨後表現落後,而低應計項目的公司(現金流超過盈餘)隨後表現優異。經濟直覺是,高應計項目暗示了激進的會計處理或不可持續的盈餘,而低應計項目暗示了保守的會計處理或高盈餘品質。
過濾條件 1:精確統計複製。當遵循 Sloan 的原始方法論時,應計異象能複製。評分:V。
過濾條件 2:標準化統計複製。此異象對應計的定義敏感。資產負債表應計(Sloan 的原始指標)與現金流量表應計產出不同結果。加權方式的選擇(等權與市值加權)影響顯著——此異象在市值加權投資組合中弱得多。在 Hou、Xue 和 Zhang 的標準化下,應計處於邊際狀態。評分:不一致。
過濾條件 3:多重檢定門檻。應計在大多數規格下超過 t > 2.0 的門檻,但在幾種情況下未達 t > 3.0。鑑於應計是與數百個其他會計變數一同被測試的,多重檢定的顧慮是合理的。評分:不一致。
過濾條件 4:扣除交易成本後。應計策略需要年度再平衡(正面特徵),但集中在小型、流動性較低的股票中(負面特徵)。空頭側尤其成問題——高應計的公司往往正是那種投機性強、難以借入的股票,放空成本最高。扣除成本後,應計異象最多只能勉強獲利。評分:不一致。
國際證據:不一致——在部分市場複製成功但在其他市場未能複製,暗示存在某些美國特有的成分。
判定:應計正好位於脆弱中間帶。此異象可能捕捉了一個真實的現象(市場傾向於過度重視盈餘而非現金流),但它過於脆弱、過於依賴規格、且交易成本過高,不適合作為獨立投資策略的基礎。它可能在更廣泛的品質或獲利能力框架中,作為次要傾斜提供邊際價值。
冗餘問題
大多數複製研究未能充分處理的一個關鍵問題是因子的冗餘性。動物園中的 400 多個因子並非 400 個獨立的報酬來源。許多是同一底層現象的高度相關衡量。
以「品質」家族為例。研究者已提出各種品質指標:
- 毛利率 (Novy-Marx, 2013)
- 股東權益報酬率 (Hou, Xue & Zhang, 2015)
- 資產報酬率
- 營業利潤率 (Fama & French, 2015)
- 現金基礎利潤率 (Ball et al., 2016)
- 盈餘穩定性
- 負債權益比
- Piotroski F-score (Piotroski, 2000)
- Altman Z-score
每一個都作為一個獨立的異象被提出,每一個都有自己的學術論文和 t統計量。但它們全都在衡量同一件事的不同面向:具有穩健、穩定財務特徵的公司表現優於具有疲弱、不穩定財務特徵的公司。「400 多個因子」的計算方式將每一個視為獨立的,同時膨脹了多重檢定問題和複製失敗率。
當因子按其經濟機制分組——價值、動量、獲利能力/品質、風險、規模、投資、流動性——真正獨立的報酬來源數量或許只剩 6-8 個家族。在每個家族中,最佳規格優於其他規格,但在納入最佳規格後,大多數家族成員僅貢獻邊際增量。
這種冗餘對複製辯論有深遠影響:
- Harvey 等人計算的 316 個因子並非 316 個獨立測試——它們大約是 30-50 個獨立測試,每個從多個角度被檢視
- 一個特定品質指標的「失敗」不意味著品質因子是假的——它可能意味著該特定規格不如同一家族中的其他規格
- 多重檢定調整應該應用於因子家族,而非個別規格
機器學習與新因子發現
機器學習在資產定價中的出現(Gu, Kelly, and Xiu, 2020)為複製辯論增加了新的維度。機器學習方法可以識別傳統線性方法所遺漏的特徵之間的非線性、交互關係。這種能力是把雙面刃:
正面解讀:機器學習方法可能識別了線性因子模型無法捕捉的真正報酬可預測性。400 多個線性因子的「因子動物園」可能是少數非線性關係的粗略近似。機器學習可以偵測個別因子所近似的底層結構。
負面解讀:機器學習方法具有巨大的過度擬合能力。一個參數足夠多的神經網路可以擬合任何樣本內模式,包括雜訊。在沒有嚴格的樣本外測試和經濟先驗的情況下,機器學習發現的可預測性可能比傳統因子分析更容易受到資料探勘的影響。
Gu、Kelly 和 Xiu 透過廣泛的樣本外測試解決了這個問題,發現他們的機器學習模型確實在樣本外預測了報酬,R² 大約是最佳線性模型的三倍。然而,當他們將機器學習預測分解為其組成特徵時,主導的預測因子是熟悉的:動量、價值、流動性、波動率。機器學習模型並非在發現新因子——而是在發現更好的方式來組合已知因子,尤其是透過非線性交互作用。
這一發現支持了我們的三級分類。由傳統方法識別的穩健核心因子,同樣也是機器學習方法識別的核心。機器學習的額外複雜性主要改善了這些因子的組合方式,而非改變哪些因子重要。
第五部分:結果與詮釋
評估三個假說
彙整並分析了 12 項複製研究的證據後,我們現在評估三個競爭假說。
H1(資料探勘)——部分得到支持,但過於簡化。
支持的證據:
- Harvey、Liu 和 Zhu 的多重檢定論點在統計上是合理的:400 多個因子中無疑有許多是偽發現
- 部分異象在 1963 年前的資料中完全消失(Linnainmaa & Roberts),或即使在精確複製下也失敗
- 已發表因子的龐大數量(400 多個)即使在寬鬆的顯著性門檻下也保證會有部分偽陽性
- 許多異象在標準化複製下失敗,暗示對規格選擇的敏感性——這是過度擬合的特徵
反對的證據:
- 發表後衰減是部分性的(42% 存活),而非完全消失——純粹資料探勘預測存活率為零
- 機構交易在發表後增加且與衰減相關(Calluzzo et al.)——資料探勘無法解釋此現象
- 穩健核心因子(價值、動量、獲利能力、低波動率)跨獨立市場、時間段、資產類別和方法論複製成功——此模式與資料探勘不相容
- 機器學習方法(Gu, Kelly, and Xiu)透過完全不同的統計方法識別出相同的核心因子,提供了獨立的確認
對 H1 的判定:對因子動物園的約 50-60%(統計雜訊層級)為真,但對穩健核心為假。純粹的資料探勘假說過於籠統——它一視同仁地對待所有異象,無法解釋哪些異象存活、哪些未能存活之間的系統性模式。
H2(套利)——部分得到支持,具有強力的機制證據。
支持的證據:
- Calluzzo 等人對機構交易回應發表事件的直接證據具有說服力
- 部分(而非完全)的發表後衰減正是套利限制理論所預測的
- 較容易交易的異象(大型股、流動性好、低周轉率)比難以交易的異象顯示更多的發表後衰減——與套利資金先流向最容易的機會一致
- 穩健核心因子的發表後衰減小於平均異象,與容量限制限制了套利一致
- 溢酬在發表數十年後仍然持續存在(價值至少從 Graham 和 Dodd 1934 年起就已為人所知)與套利的結構性限制一致,而非資料探勘
反對的證據:
- 部分異象即使在原始樣本期間,在標準化方法下也未能複製——套利無法解釋當期資料中的失敗
- 套利假說無法解釋為何部分異象對規格敏感——一個真正的經濟現象應對合理的方法論選擇具有穩健性
- 此假說暗示所有異象在發表前都是真實的,這與 Harvey 等人關於許多為偽發現的統計論點不一致
對 H2 的判定:對因子動物園中有意義的子集為真——約 20-30%(脆弱中間帶加上部分穩健核心)。套利機制是真實且重要的,但無法解釋所有異象動態。它與資料探勘和方法論敏感性同時運作。
H3(定義)——作為組織框架獲得強力支持。
支持的證據:
- 一項研究複製率最強力的單一預測因子是其方法論方法,而非它檢視了哪些異象
- Chen 和 Zimmermann 與 Hou、Xue 和 Zhang 檢視了大幅重疊的異象集合,因方法論差異而得出相反結論
- 同一個異象可以根據加權方案、分界點、納入標準、顯著性門檻,以及是否考慮成本而被歸類為已複製或失敗
- Harvey 等人(大多數失敗)、McLean & Pontiff(大多數帶衰減地存活)和 Chen & Zimmermann(大多數複製成功)之間的三方分歧,當你認識到每個研究回答的是不同問題時便完全化解
- 約 50% 的國際複製率與真實與虛假異象的混合一致,而非全有或全無的危機
反對的證據:
- 如果分歧純粹是定義性的,就不應存在在所有方法論下都一致失敗的異象。此類異象的存在(日曆效應、部分微觀結構異象)意味著資料探勘是真實的,不僅僅是定義上的假象
- 定義假說可能被視為不可否證的——「答案取決於定義」在瑣碎意義上永遠為真
對 H3 的判定:H3 是正確的組織框架。複製文獻中的表面矛盾,很大程度上(但非完全)是不同研究問不同問題、使用不同方法的產物。「複製危機」主要是一場定義危機,而非科學危機。
三級綜合分類
結合全部三個假說的證據,我們得出核心發現:因子動物園包含三個具有不同複製特性的截然不同族群。
第一層:穩健核心(15-25 個因子)
這些異象通過全部四個複製過濾條件:精確統計、標準化統計、多重檢定和經濟(扣除成本後)。其特徵為:
- 根植於風險、行為偏誤或機構限制的堅實理論基礎
- 跨多個獨立市場和時間段的複製
- 適度但持續的發表後衰減(與部分套利一致)
- 足夠的容量供機構規模交易
- 低至中等的周轉率,可實現具成本效益的實施
穩健核心包括:
- 價值(帳面市值比、盈餘殖利率、現金流殖利率):風險和行為解釋;自 Graham 和 Dodd (1934) 以來在全球範圍記錄
- 動量(12 個月減 1 個月報酬):行為(對資訊反應不足);在 40 多個市場和多個資產類別中記錄
- 獲利能力(毛利率、營業利潤率):經濟邏輯(獲利公司更有價值);由 Novy-Marx 和 Fama-French 獨立確認
- 低波動率 / Betting Against Beta(低貝塔、低個股波動率):槓桿限制機制;在全球各資產類別中記錄
- 品質綜合指標(獲利能力 + 穩定性 + 低槓桿):公司財務健全度的多維度衡量
- 投資(資產成長率、資本支出成長率):經濟邏輯(積極投資預測較低報酬);但證據比上述幾項略弱
- 盈餘動量(標準化非預期盈餘、分析師修正):盈餘公布後漂移;文獻中最穩健的異象之一
- 淨發行(股票回購與發行):資訊不對稱解釋;進行回購的公司知道自己的股票被低估
第二層:脆弱中間帶(50-100 個因子)
這些異象在某些條件下能複製但在其他條件下不能。它們通常通過過濾條件 1(精確複製)但在過濾條件 2-4 中的一個或多個失敗。包括:
- 穩健因子的規格敏感變體(例如替代動量定義、替代品質指標)
- 在等權加權下有效但在市值加權投資組合中無效的異象(通常由微型股驅動)
- 統計上顯著但在扣除交易成本後經濟上不可行的異象
- 在美國能複製但在國際上不能的異象(可能是美國特有的會計或機構假象)
- 發表後大幅衰減、僅留下邊際殘餘溢酬的異象
這些因子不一定是「假的」——許多捕捉了真實但狹窄的現象。它們可能作為更廣泛投資組合建構框架中的次要傾斜有用,但不是可靠的獨立報酬來源。
第三層:統計雜訊(250 個以上的因子)
這些異象在任何合理標準下都未能複製。包括:
- 大致已消失的日曆效應(週末效應、年初效應、假期效應)
- 反映資料錯誤、買賣價格反彈或過時定價而非真正可預測性的微觀結構假象
- 僅針對特定時間段或特定會計制度的會計異象
- 明顯是大量規格搜索產物的「因子」,通常可從不尋常的建構選擇加以辨識(例如在特定滯後結構下交叉三個變數)
- 在動物園中複製其他因子但恰好在特定樣本中達到顯著性的因子
這些因子促成了對複製危機的感知。它們是 Harvey、Liu 和 Zhu 提出 t > 3.0 門檻的原因,也是 Hou、Xue 和 Zhang 發現 64% 失敗率的原因。但它們並不代表整個因子動物園——它們是伴隨任何大規模實證研究計畫而來的雜訊。
信心評估
我們對整體框架給出 4 分(滿分 5 分)的信心評級。
最高信心領域(5 分 / 5 分):
- 複製研究之間的分歧主要是方法論上的,而非實質上的
- 存在一個能通過所有複製過濾的穩健核心因子群
- 純粹的資料探勘無法解釋完整的證據模式(部分衰減、國際複製、機構交易回應)
中等信心領域(3-4 分 / 5 分):
- 穩健核心的確切大小(我們估計 15-25 個,但邊界模糊)
- 因子動物園中純粹雜訊的比例(我們估計 60% 以上,但取決於所採用的統計門檻)
- 套利與資料探勘在解釋發表後衰減中的相對重要性
較低信心領域(2-3 分 / 5 分):
- 「脆弱中間帶」中的特定因子是屬於穩健核心還是雜訊層級
- 機器學習方法是否會透過識別非線性關係來擴展穩健核心,還是僅優化既有因子的組合
- 因子溢酬的長期未來——穩健核心是否會無限期持續,還是不斷增加的資金流最終會消除這些溢酬
第六部分:與其他領域的比較
金融學 vs. 心理學:不同的危機
金融學中的複製危機經常被拿來與心理學中的複製危機做比較,但兩者本質上不同。
在心理學中,Open Science Collaboration (2015) 嘗試複製 100 項已發表的研究,發現只有 36% 在複製中產出顯著結果。這被廣泛解讀為方法論的危機——統計檢定力不足的研究、p值操縱和出版偏差,製造了一個由偽陽性主導的文獻。
在金融學中,Hou、Xue 和 Zhang 的「36% 複製率」在表面上相似,但在機制上不同。金融研究通常具有更大的樣本量(數千隻股票觀察數十年的月度資料),這意味著它們一般具有足夠的統計檢定力。金融學的主要問題不是研究不足,而是多重檢定(在相同資料上測試太多假說)和方法論敏感性(結果隨建構選擇而改變)。
此外,心理學的複製失敗往往是絕對的——複製的效果為零或符號相反。金融學的「失敗」往往是部分的——效果存在但幅度較小、在不同規格下、或具有邊際顯著性。這種部分複製更符合方法論敏感性而非徹底的偽發現。
金融學 vs. 醫學:相似的結構性誘因
金融學的結構性誘因更類似於醫學。John Ioannidis 曾著名地論證「大多數已發表的研究結論是錯的」。在這兩個領域中:
- 頂級期刊的發表競爭激烈
- 新穎、出人意料的發現優先於零結果
- 研究者在研究設計上有相當大的自由度(樣本選擇、變數選擇、模型規格)
- 許多研究者使用相同的底層資料來源(金融學中的 CRSP/Compustat;醫學中的常見臨床試驗資料庫)
關鍵差異在於金融學有一個醫學通常缺乏的天然樣本外測試:時間。2005 年發表的金融異象可以在 2005 年之後的資料中測試它是否持續。關於特定治療的醫學發現無法被追溯性測試。這賦予了金融學一種內在的自我修正機制,已被 McLean 和 Pontiff 等人加以利用。
第七部分:局限性與我們無法主張的事項
繼承的局限性
本分析綜合了已發表的結果——我們沒有進行新的迴歸、建構新的因子或測試新的資料。我們的結論繼承了底層研究的所有局限性。
CRSP/Compustat 單一文化。美國資產定價研究的絕大多數使用 CRSP(股票報酬)和 Compustat(會計資料)的資料。這創造了一種微妙的共同偏誤形式:這些資料庫中的任何系統性錯誤——存活者偏差、回填偏差、資料修正、覆蓋缺口——都會在整個文獻中傳播。使用與原始研究相同的 CRSP/Compustat 資料進行的複製研究,測試的是方法論的可重現性,而非資料獨立性。只有國際複製(Jacobs and Muller)和替代資料來源(如 Linnainmaa 和 Roberts 手動蒐集的 1963 年前資料)提供了真正獨立的證據。
複製研究中的出版偏差。我們之前提過但值得重申:得出戲劇性結論(「有危機」或「沒有危機」)的複製研究比結果模糊的研究更可能被發表。我們的證據基礎可能過度代表了複製分布的兩個極端。例如,發現 55% 複製率——在任一方向上都不夠戲劇性——的研究,可能未發表地躺在抽屜裡。
時變風險溢酬。我們歸因於發表後衰減(套利)或資料探勘的部分現象,實際上可能反映了時變風險補償。如果股票風險溢酬從 1980 年代起下降(如部分證據所示),所有相對於市場衡量的因子溢酬也會下降。若不使用時變風險的結構性模型——這超出文獻綜合的範疇——這個混淆因素難以解決。
因子中的存活者偏差。因子動物園本身可能存在存活者偏差。碰巧在樣本內有效的因子被發表了;無效的被放棄了。但被放棄的因子中可能包含一些原本在樣本外會有效的,而被發表的因子中一些在樣本外不會有效。已發表因子的群體是已測試因子群體的偏差樣本。
我們無法識別哪些特定異象是「真的」。我們的三級框架描述的是族群而非個別因子。將特定異象歸入穩健核心、脆弱中間帶或雜訊層級,需要底層複製研究已進行的詳細實證分析。我們提供框架;12 項研究提供分類的證據。
什麼會改變我們的結論
我們相信應該表明什麼證據會導致我們修正觀點:
會強化 H1(資料探勘)的證據:
- 如果使用精確方法論(如 Chen 和 Zimmermann 的方法)的全面複製發現複製率遠低於目前——比如 50% 而非 82%——這表明即使精確複製也比我們目前認為的失敗更頻繁
- 如果穩健核心因子(價值、動量)在 2020 年之後的資料中,跨所有市場和規格,開始呈現零或負溢酬,這將挑戰「真實但被套利」的解讀
會強化 H2(套利)的證據:
- 如果一個天然實驗(例如一個因子的發表被翻譯並傳播到一個新市場)在該市場中立即顯示因子衰減,這將提供套利管道的乾淨因果證據
- 如果因子 ETF 的增長能在 Granger 因果框架中直接與因子衰減建立聯繫
會弱化 H3(定義)的證據:
- 如果兩項複製研究使用相同的方法論但不同的異象樣本並得出相反結論,這表明異象特徵比我們認為的更重要
- 如果研究間複製率的變異與方法論差異不相關,我們的框架將失去解釋力
建議的實證測試
我們提出五項測試,可以進一步驗證或反駁我們的框架:
-
方法論迴歸:測試複製率(跨 12 項研究)是否在控制異象特徵(平均 t統計量、經濟機制類型、規模/流動性集中度)後,由方法論特徵(忠實度、門檻、成本處理)所預測。如果方法論解釋的變異多於異象特徵,H3 獲得強力支持。
-
衰減異質性:檢視「穩健核心」因子是否呈現與「脆弱中間帶」因子不同的發表後衰減模式。穩健核心應顯示更小、更慢的衰減;脆弱中間帶應顯示更大、更快的衰減;雜訊層級應顯示立即衰減至零。
-
機器學習主導測試:測試僅由穩健核心因子的機器學習組合所建構的投資組合,是否主導也包含脆弱中間帶因子的投資組合。如果穩健核心已經足夠,脆弱中間帶因子增加的是雜訊而非信號。
-
因子容量圖譜:對每個穩健核心因子,估計扣除成本後溢酬仍為正值的最大投資組合規模。這將把定性的「在成本後存活」的評估轉化為定量的容量估計。
-
即時複製:建立一個前瞻性、即時追蹤系統,在因子報酬實際產生時(而非追溯性地)進行監測。這消除了所有前視偏差,提供了因子持續性最乾淨的測試。
第八部分:啟示
對機構投資者的啟示
因子選擇的問題基本已解決。複製文獻已趨同於一個可信的因子核心:價值、動量、獲利能力/品質和低波動率。關於哪些因子是「真的」的辯論,對這個核心群體來說大致已塵埃落定。剩下的未決問題關乎的是實施,而非選擇。
實施本身就是阿爾法。天真建構的因子投資組合與精心建構的投資組合之間的差異,每年可達 100-200 個基點。這種實施差距——由周轉率管理、再平衡頻率、容量感知的規模設定和執行品質所驅動——往往大於納入或排除一個邊際因子的差異。對機構投資者而言,競爭優勢的主要來源不是因子發現,而是因子建構。
警惕脆弱中間帶。脆弱中間帶的 50-100 個因子提供了一種誘惑:它們在回測中表現良好,似乎能增加分散化。但它們的脆弱性——對規格敏感、扣除成本後處於邊際、跨市場不一致——意味著,對於一個已捕捉穩健核心的投資組合,它們更可能增加雜訊而非報酬。納入脆弱中間帶因子的舉證門檻應該很高:在多個規格中證明穩健性、清晰的經濟機制,以及在預期投資組合規模下扣除成本後的正報酬。
容量是約束性限制。即使穩健核心因子也有有限的容量。隨著更多資金流入因子策略(透過智慧型貝塔 ETF、量化基金和機構委託),因子溢酬將被壓縮。問題不在於這種壓縮是否會發生,而在於在溢酬被完全套利之前還有多少容量。估計差異很大,但主要因子合計的因子策略總容量共識範圍為 1-5 兆美元。目前明確的因子策略總資產正在接近這個範圍,這暗示前瞻性溢酬可能小於歷史估計值。
監測制度變化。因子溢酬不是恆定的——它們隨經濟體制、市場條件和結構性變化而變動。動量在正常市場中表現良好,但在制度轉換期間遭受毀滅性的崩潰(如 2009 年 3 月的動量崩盤)。價值在長期間內表現落後(2010-2020 年),然後才回歸。低波動率策略在利率上升的環境中較為脆弱。機構投資者應維持對市場環境敏感的因子配置,根據市場條件調整因子敞口,而非維持靜態權重。
對散戶投資者的啟示
簡單勝過複雜。複製文獻對散戶投資者的實際意涵是令人釋懷的:你不需要理解 400 多個因子。可投資的集合很小。一個由廣泛市場敞口(60-70%)加上針對價值、動量、品質和低波動率的定向傾斜(30-40%)所組成的投資組合,捕捉了絕大部分可獲取的因子溢酬。這些傾斜可以透過總費用率低於 30 個基點的低成本 ETF 來實現。
對新穎策略保持懷疑。複製文獻顯示,大約 50-65% 的新發表異象將在嚴格標準下未能複製,而其餘大部分在交易成本後將無法存活。任何以單一學術異象——特別是最近發表的異象——為基礎推銷的投資產品,都應受到深度懷疑。舉證責任在產品提供者身上,他們需要證明可複製性、穩健性和扣除成本後的可行性。
時間跨度比因子選擇更重要。對於時間跨度長(20 年以上)的散戶投資者,最重要的投資決定不是傾斜哪些因子,而是能否在不可避免的市場下跌中保持股票敞口。每年 2-4% 的穩健因子溢酬在數十年間的複利效果相當可觀,但只對持續投資的投資者有效。因子擇時——基於市場條件在價值和動量之間輪換——即使對機構投資者也是困難的,對散戶投資者來說很可能會破壞價值。
如果感到困惑就完全迴避因子動物園。如果因子動物園讓你感到不知所措,一個簡單的全市場指數基金是完全合理的選擇。穩健的因子溢酬是真實的但幅度適中(成本前每年 2-4%),而實現它們需要紀律:在不可避免的表現落後期間(對任何單一因子可能持續 5-10 年)維持因子傾斜。一個在三年表現落後後恐慌性賣出價值傾斜的投資者,其報酬將不如一個全程只持有市場指數的投資者。
對研究者與學術領域的啟示
標準化複製報告。學術領域將從一個標準化的複製框架中大為受益,該框架在多個層次報告結果:
- 使用精確原始方法論的統計複製
- 使用標準化方法論的統計複製
- 多重檢定調整後的顯著性
- 在實際交易成本後的經濟複製
- 樣本外 / 國際複製
任何僅報告單一層次複製的個別研究都提供了不完整的圖景,可能且已經被媒體、實務工作者和其他研究者所誤解。
採用貝氏方法。基於門檻的框架(顯著與不顯著)創造了人為的懸崖效應,將一個連續的現實強行壓入二元分類。如 Jensen、Kelly 和 Pedersen 所展示的貝氏收縮方法,提供了一種更細緻、更準確的知識狀態表示。
開源是未來方向。Chen 和 Zimmermann 的開源複製程式碼庫為可重現性樹立了新標準。未來的異象論文應要求提供複製程式碼和資料,允許獨立驗證。這將大幅減少資料探勘和規格搜索的空間,因為審稿者和讀者可以測試替代規格。
聚焦經濟機制。複製文獻在很大程度上是實證性的——測試效果是否存在,而非解釋為什麼存在。一個缺乏令人信服的經濟機制的因子本質上是脆弱的,因為沒有先驗理由認為它會持續存在。那些通過最嚴格複製審查的因子(價值、動量、獲利能力、低波動率)正是那些具有最強理論基礎的因子。未來的因子研究應以機制為先導、證據隨後,而非相反。
減少冗餘。因子動物園將受益於整合。與其發表品質指標的第 17 個變體,研究者應聚焦於識別真正獨立的報酬來源,並理解驅動它們的經濟機制。一個包含 15 個被充分理解、穩健記錄的因子的動物園,在科學價值上優於一個包含 400 多個被了解不足、部分冗餘因子的動物園。
本分析由 QD Research Engine — Meta-analysis of 12 replication studies (2003–2024) 經 QD Research Engine — Quant Decoded 的自動化研究平台 — 綜合分析,並經編輯團隊審核確保準確性。 了解我們的方法論.
參考文獻
- Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
- Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
- Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
- Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
- Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
- Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
- Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
- Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
- Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
- Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
- Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
- Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
- Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
- Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
- Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
- Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
- Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
- Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
- Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
- Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
- Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
- Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
- Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
- Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
- Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
- McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
- Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
- Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
- Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
- Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
- Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
- Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
- Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
- Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.