자산 가격 결정의 복제 위기: 독립 검증에서 생존하는 이상 현상은 무엇입니까?

핵심 요약

학술 금융 분야에서는 주식 수익률을 예측한다고 주장되는 400개 이상의 변수를 목록화해 왔습니다. Harvey, Liu, Zhu는 이를 "factor zoo"라고 명명했습니다. 그러나 독립적인 연구자들이 이러한 발견을 재현하려고 시도하면, 결과는 극명하게 갈립니다. 일부 연구는 대부분의 anomaly가 실패한다고 보고하고, 다른 연구는 대부분이 정상적으로 복제된다고 보고합니다. 본 연구에서는 12개의 주요 복제 연구를 체계적으로 비교하며, 양측 모두 옳다는 결론에 도달합니다 — 단지 서로 다른 질문에 답하고 있을 뿐입니다. 통계적 복제(t-statistic를 재현할 수 있는가?)는 대략 50~70%의 성공률을 보입니다. 경제적 복제(실제로 이것으로 수익을 낼 수 있는가?)는 15~30%에서만 성공합니다. 이 두 수치 사이의 격차는 위기가 아닙니다 — 현대 실증 금융학에서 가장 중요한 발견 그 자체입니다.

이 글은 QD Research Original입니다. 단일 논문을 요약한 것이 아닙니다. 12개의 독립적인 복제 연구에서 증거를 수집하고, 겉보기에 모순되는 연구 결과들을 조화시키는 3차원 프레임워크를 구축했으며, factor zoo의 새로운 3단계 분류 체계를 도출했습니다. 본 연구의 방법론, 가정, 신뢰 수준은 전체에 걸쳐 공개되어 있습니다. 모든 주장은 출판되고 동료 심사를 거친 연구로 추적 가능합니다.

Part I: 아무도 합의하지 못한 질문

400개 이상의 Factor에 이르기까지

Factor zoo의 이야기는 하나의 우아한 방정식에서 시작됩니다. 1964년 William Sharpe는 Capital Asset Pricing Model을 발표했으며, 이 모형은 주식의 기대수익률이 단 하나의 요소로 결정된다고 제안했습니다: beta로 측정되는 시장 전체에 대한 민감도입니다. 하나의 factor. 하나의 방정식. 깔끔하고, 검증 가능하며, 노벨상 수상의 영예를 안은 이론이었습니다.

균열은 거의 즉시 나타났습니다. Fischer Black, Michael Jensen, Myron Scholes는 1972년에 beta와 수익률 사이의 실증적 관계가 CAPM이 예측한 것보다 훨씬 평탄하다는 것을 기록했습니다. 고beta 주식은 기대보다 적게 벌었고, 저beta 주식은 기대보다 많이 벌었습니다. 이것은 사소한 통계적 이의 제기가 아니었습니다 — 자산 가격 결정의 지배적 이론에 대한 근본적인 도전이었습니다.

학계의 대응은 factor 모형 프레임워크를 포기하는 것이 아니라 확장하는 것이었습니다. 1992년과 1993년, Eugene Fama와 Kenneth French는 두 가지 추가 factor를 도입한 기념비적 논문을 발표했습니다: size(소형주가 대형주를 능가함)와 value(높은 장부가-시장가 비율 주식이 낮은 비율 주식을 능가함)입니다. Fama-French 3-factor 모형은 새로운 표준이 되었습니다. 이전에 하나의 factor로 수익률을 설명하던 연구자들이 이제 세 개를 사용하게 되었습니다.

Mark Carhart는 1997년에 momentum을 추가했습니다 — 지난 1년간 상승한 주식은 계속 상승하고, 하락한 주식은 계속 하락하는 현상입니다. 4-factor 모형은 10년 이상 실증 자산 가격 결정의 핵심 도구가 되었습니다.

그 후 물꼬가 터졌습니다. Fama와 French 자신이 2015년에 수익성과 투자를 추가하여 5-factor로 확장했습니다. Robert Novy-Marx는 gross profitability를 예측 변수로 식별했습니다. Frazzini와 Pedersen은 low-beta anomaly를 형식화했습니다. Robert Stambaugh와 Yu Yuan은 anomaly의 short leg를 기록했습니다. Kewei Hou, Chen Xue, Lu Zhang은 경쟁 모형인 q-factor 모형을 제안했습니다. 각각의 새로운 논문은 통상적인 통계적 유의성 기준인 2.0 이상의 t-statistic를 가진 수익률 예측 특성을 식별했습니다.

Harvey, Liu, Zhu가 2016년에 인구조사를 실시했을 때, 그 수는 316개의 발표된 factor에 달했습니다. 일부 추정에 따르면 그 이후로 400개를 초과했습니다. 한 세대의 연구를 이끌어온 질문 — 기대 주식 수익률을 무엇이 결정하는가? — 은 당혹스러울 정도로 풍부한 답변을 낳았습니다. 너무 많은 답변. 지나치게 많은 답변이었습니다.

Multiple Testing 문제

왜 이렇게 많은 factor가 문제인지 이해하기 위해, 간단한 통계적 사고 실험을 고려해 보겠습니다. 주식 수익률이 완전히 무작위라고 가정합니다 — 어떤 factor도 아무것도 예측하지 못합니다. 연구자가 하나의 변수를 수익률에 대해 테스트하고 표준적인 p < 0.05 기준을 사용합니다. 위양성의 확률 — 존재하지 않는 유의성을 발견할 확률 — 은 5%입니다.

이제 연구자가 100개의 변수를 테스트한다고 가정합니다. 그 중 어느 것도 실제로 수익률을 예측하지 못하더라도, 약 5개가 우연만으로 유의하게 나타날 것입니다. 연구자가 5개의 "유의한" 결과만 발표하고 95개의 실패를 폐기한다면, 발표된 문헌에는 실제 발견과 구별할 수 없는 5개의 거짓 발견이 포함될 것입니다. 각각은 2.0 이상의 t-statistic를 가집니다. 각각은 0.05 미만의 p-value를 가집니다. 각각은 인용되고, 발전의 토대가 되며, factor 모형에 통합될 것입니다.

이것이 multiple testing 문제이며, 가설적인 것이 아닙니다. 학술 출판의 구조가 정확히 이러한 인센티브를 만들어 냅니다. 연구자들은 많은 변수를 테스트하지만 유의한 것만 보고합니다. 학술지는 귀무 결과보다 새로운 발견을 선호합니다. 파일 서랍은 포기된 가설로 채워지고, 출판 기록은 통계적 이상치로 채워집니다.

Harvey, Liu, Zhu는 이 논의를 형식화했습니다. 약 50년간의 월간 수익률에 대해 316개의 factor가 테스트된 상황에서, t > 2.0 기준에서의 거짓 발견 확률은 극도로 높습니다. 그들은 multiple testing 문헌의 방법론 — Bonferroni 보정, Benjamini-Hochberg 절차, 그리고 자체 Bayesian 접근법 — 을 사용하여 유의성 기준을 조정할 것을 제안했습니다. 그들이 선호하는 조정 하에서, 새로운 factor 발견을 위한 최소 t-statistic는 약 3.0이어야 합니다. 이 기준에서 발표된 anomaly의 대다수는 실패합니다.

그들의 논문은 충격적이었습니다. 액면 그대로 받아들이면, 수십 년간의 실증 자산 가격 결정 연구가 대부분 noise를 생산해 왔다는 것을 시사했습니다.

반격

그러나 모든 사람이 동의한 것은 아닙니다. 반론은 여러 방향에서 동시에 나왔습니다.

David McLean과 Jeffrey Pontiff는 완전히 다른 접근법을 취했습니다. 통계적 기준을 조정하는 대신, 그들은 자연 실험을 활용했습니다: 시간입니다. 모든 발표된 anomaly에는 발견 날짜가 있습니다. 논문이 작성되기 이전에 anomaly가 벌어들인 수익률은 데이터 마이닝의 가능성이 있는 in-sample 수익률입니다. 발표 이후에 벌어들인 수익률은 데이터 마이닝이 불가능한 out-of-sample 수익률입니다. anomaly가 순전히 통계적 인공물이라면, 발표 후 수익률은 0이어야 합니다.

McLean과 Pontiff는 97개의 anomaly를 조사하고, 발표 후 수익률이 평균 58% 감소한 것을 발견했습니다. 이것은 상당한 감소였습니다 — 그러나 0은 아니었습니다. anomaly는 원래 in-sample 규모의 약 42%를 유지했습니다. 이 발견은 모호했습니다: 부분적 데이터 마이닝과 부분적 차익거래 모두와 일관된 것이었습니다.

Kewei Hou, Chen Xue, Lu Zhang은 더 나아갔습니다. 2020년 Review of Financial Studies에 발표된 논문에서, 그들은 452개의 발표된 anomaly를 복제하려고 시도했습니다 — 그 당시까지 가장 포괄적인 복제 노력이었습니다. 그들의 접근법은 의도적으로 표준화되었습니다: 452개 모든 anomaly에 대해 일관된 데이터 소스, 일관된 표본 선택 기준, 일관된 factor 구성 방법을 사용했습니다. 그들은 64% — 거의 3분의 2 — 가 테스트에서 1.96 이상의 t-statistic를 생산하지 못한다는 것을 발견했습니다.

이 결과는 금융에서의 복제 위기를 확인하는 것으로 널리 해석되었습니다. 발표된 anomaly의 36%만이 가장 간단한 통계적 테스트를 통과할 수 있다면, 이 분야에 대해 무엇을 말해주는 것입니까?

그러나 이어서 Andrew Chen과 Tom Zimmermann이 Federal Reserve Board에서 독립적으로 작업하면서, 확연히 다른 결과를 내놓았습니다. 그들은 319개의 anomaly를 복제했으며 — Hou, Xue, Zhang과 대부분 겹치는 세트였습니다 — 약 82%가 원래 결과를 재현한다는 것을 발견했습니다. 이것은 사소한 불일치가 아니었습니다. 한 연구는 36%의 복제를 발견했고, 다른 연구는 82%를 발견했습니다.

핵심적인 차이는 방법론이었습니다. Chen과 Zimmermann은 각 원본 논문의 방법론을 가능한 한 정밀하게 따랐습니다. 원본 논문이 NYSE breakpoint를 사용했다면, 그들도 NYSE breakpoint를 사용했습니다. 금융 기업을 제외했다면, 그들도 금융 기업을 제외했습니다. 특정 시차 구조를 사용했다면, 그들도 그 시차 구조를 복제했습니다. Hou, Xue, Zhang은 자체적인 표준화된 방법론을 적용했으며, 이는 불가피하게 원본 논문과 수십 가지 세부 사항에서 달랐습니다.

마지막으로, 2023년에 Theis Jensen, Bryan Kelly, Lasse Pedersen은 Bayesian shrinkage 방법을 사용하여 153개 factor에 대한 포괄적 분석을 발표했습니다. 그들의 접근법은 factor premium이 noise와 함께 추정된다는 점을 인정하고, 진정한 premium을 추정 오류에서 구별하기 위해 통계적 shrinkage를 적용했습니다. 그들의 결론은 명확했습니다: 금융에는 복제 위기가 없습니다. factor의 대다수는 shrinkage 이후에도 양수이고 경제적으로 의미 있는 기대수익률을 가지고 있습니다.

역설

2024년까지 학계는 동일한 증거 체계에 대해 네 가지 주요 결론을 도출했습니다:

대부분의 anomaly는 거짓 발견입니다 (Harvey, Liu & Zhu)
대부분의 anomaly는 상당히 감소하지만 살아남습니다 (McLean & Pontiff)
대부분의 anomaly는 복제에 실패합니다 (Hou, Xue & Zhang)
대부분의 anomaly는 복제됩니다 (Chen & Zimmermann; Jensen, Kelly & Pedersen)

이것들은 "복제"의 단일 정의 하에서 동시에 모두 참일 수 없습니다. 해결책은 각 연구가 미묘하게 다른 질문을 했다는 것을 이해하는 데 있습니다. 이것이 본 연구가 다루는 핵심 문제입니다.

Part II: 연구 질문과 경쟁 가설

질문의 형식화

연구 질문: 발표된 수익률 anomaly는 진정한, 활용 가능한 시장 현상을 나타내는 것입니까, 아니면 주로 데이터 마이닝의 인공물입니까? 그리고 독립적인 복제 연구들이 대부분 겹치는 anomaly 세트를 조사하면서 왜 반대 결론에 도달하는 것입니까?

이것을 세 가지 경쟁 가설로 분해하며, 각각에 대해 명확하게 지정된 반증 기준을 제시합니다.

H1 — 데이터 마이닝 가설

진술: 발표된 anomaly의 대다수는 광범위한 사양 탐색, 데이터 마이닝, 출판 편향에 의해 생성된 거짓 발견입니다. Factor zoo는 시장 현실의 기술이 아니라 통계적 인공물입니다.

메커니즘: 연구자들은 수백 개의 잠재적 예측 변수를 탐색하고, 다양한 방식(다른 시차, breakpoint, 가중치 방식)으로 구성하며, 다른 표본 기간과 하위 집합을 사용하여 수익률에 대해 테스트하고, 유의한 결과를 생산하는 사양만 발표합니다. 학술지는 새롭고 유의한 발견을 선호함으로써 이 선택을 증폭시킵니다. 그 결과는 대부분 귀무 결과의 분포에서 가장 극단적인 추출값이 지배하는 발표 문헌입니다.

반증 기준: H1은 다음을 예측합니다:

anomaly는 발표 후 양수의 잔여값이 아닌 0으로 감소해야 합니다
방법론적 충실도와 관계없이 복제율은 균일하게 낮아야 합니다
살아남는 anomaly와 실패하는 anomaly를 구분하는 체계적 패턴이 없어야 합니다
국제적 복제는 국내 재검토와 동일한 비율로 실패해야 합니다
anomaly는 관찰 가능한 경제적 메커니즘과 상관관계가 없어야 합니다

이 예측 중 하나라도 실패하면, 순수한 형태의 H1은 반증됩니다. 더 약한 버전 — 일부 anomaly가 거짓 발견이라는 것 — 은 거의 확실히 참이며 특별히 흥미롭지 않습니다.

H2 — 차익거래 가설

진술: 대부분의 발표된 anomaly는 실제 시장 현상 — 진정한 mispricing 또는 risk premium — 을 포착하지만, 출판이 시장 참여자들에게 정보를 전파하여, premium을 부분적으로 또는 완전히 제거하는 차익거래 자본을 끌어들입니다. 발표 후 감소는 시장이 더 효율적이 되는 것을 나타내며, 통계적 허구의 교정이 아닙니다.

메커니즘: 발표 이전에는 너무 적은 투자자가 인지하고 있거나 구조적 장벽이 활용을 방해하기 때문에 mispricing이 존재합니다. 발표는 인식을 만들어 냅니다. 헤지펀드, 퀀트 자산운용사, 그리고 최종적으로 ETF 제공자들이 anomaly를 거래하기 시작합니다. 그들의 거래 활동이 mispricing을 교정하여 관찰되는 premium을 줄입니다. 교정의 정도는 구현 용이성(거래 비용, 수용력), 전파 속도, 그리고 원래 anomaly를 만들어낸 구조적 장벽에 따라 달라집니다.

반증 기준: H2는 다음을 예측합니다:

발표 후 감소는 부분적이어야 하며, 완전하지 않아야 합니다 (차익거래의 한계가 완전한 교정을 방지합니다)
감소는 차익거래 활동의 지표(기관 거래, 공매도 잔고, ETF 자금 흐름)와 상관관계가 있어야 합니다
거래하기 어려운 anomaly(소형주, 비유동, 높은 회전율)는 거래하기 쉬운 anomaly보다 적게 감소해야 합니다
anomaly는 표준화된 방법론 하에서도 원래 표본 기간에서 복제되어야 합니다 (차익거래가 침식하기 이전에는 실제했기 때문입니다)
위험 보상에 기반한 anomaly는 전혀 감소하지 않아야 합니다 (위험은 영구적이지만, mispricing은 일시적입니다)

anomaly가 차익거래가 발생하기 이전인 원래 표본 기간에서조차 복제에 실패한다면, H2는 그 실패를 설명할 수 없습니다.

H3 — 정의적 가설

진술: 복제 연구 간의 명백한 불일치는 주로 방법론적 차이에 기인합니다. 다른 연구들은 "복제"를 다르게 정의하고, 다른 통계적 기준을 사용하며, factor 구성에 대해 다른 선택을 합니다. "anomaly가 복제되는가?"라는 질문은 복제가 무엇을 의미하는지 지정하지 않으면 부적절하게 제기된 것입니다. 단일 질문이 없기 때문에 단일 답변도 없습니다.

메커니즘: 금융에서의 복제는 같은 조건에서 같은 실험이 같은 결과를 산출해야 하는 화학에서의 복제와 같지 않습니다. 금융에서는 모든 방법론적 선택 — 어떤 주식을 포함할지, breakpoint를 어떻게 정의할지, 언제 리밸런싱할지, 포트폴리오에 어떻게 가중치를 부여할지, 어떤 유의성 기준을 사용할지, 거래 비용을 고려할지 여부 — 이 결과에 영향을 미칩니다. 두 연구자가 같은 anomaly를 조사하고, 개별적으로는 타당하지만 서로 다른 선택을 하면, 반대 결론에 도달할 수 있습니다. 어느 쪽도 틀리지 않습니다; 그들은 다른 질문에 답하고 있는 것입니다.

반증 기준: H3는 다음을 예측합니다:

복제율은 anomaly 특성이 아닌 방법론적 선택에 따라 체계적으로 달라져야 합니다
같은 anomaly가 하나의 연구에서는 "복제됨"으로, 다른 연구에서는 "실패"로 분류될 수 있어야 합니다
방법론적 충실도가 높은 연구(원본 논문을 밀접하게 따르는)가 더 높은 복제율을 보여야 합니다
더 엄격한 기준이나 경제적 필터를 적용하는 연구는 어떤 anomaly를 테스트하든 더 낮은 복제율을 보여야 합니다
연구 간 복제율의 분산은 포함된 anomaly보다 방법론에 의해 더 많이 설명되어야 합니다

복제율이 주로 anomaly 자체의 특성에 의해 결정되고 — 복제자의 방법론적 선택에 의해 결정되지 않는다면 — H3는 반증됩니다.

Part III: 증거 기반 — 12개 연구 상세 분석

복제 연구들이 왜 불일치하는지 이해하려면, 각 연구의 방법론을 자세히 살펴봐야 합니다. 각 연구가 실제로 무엇을 측정했는지 이해하지 못한 채 복제율을 표면적으로 비교하는 것은 오해를 불러일으킵니다.

연구 1: Schwert (2003) — 최초의 경고

G. William Schwert의 Handbook of the Economics of Finance 챕터는 anomaly가 기록된 후 어떤 일이 발생하는지에 대한 최초의 체계적 검토였습니다. 그는 가장 유명한 다섯 가지 anomaly에 집중했습니다: size effect, value effect, weekend effect, turn-of-the-year effect, dividend yield effect입니다.

Schwert는 이러한 anomaly 대부분이 원래 기록된 후 수년간 상당히 약화되었음을 발견했습니다. 1981년 Banz가 기록한 size effect는 1982년 이후 데이터에서 대체로 부재했습니다. January effect는 여전히 존재했지만 원래 보고된 것보다 작았습니다. Value effect는 더 견고한 것으로 입증되었지만 상당한 시간 변동을 보였습니다.

Schwert의 기여는 주로 개념적이었습니다. 그는 anomaly가 두 가지 다른 이유로 약화될 수 있다는 가능성을 제기했습니다: 데이터 마이닝 인공물로서 실제(귀무) 값으로 복귀하거나, 공개된 후 정보를 가진 자본을 끌어들인 실제 현상이라는 것입니다. 그는 이 설명들 사이를 판정하지 않았지만, 후속 연구자들이 사용할 프레임워크를 확립했습니다.

핵심 방법론적 선택: Schwert는 발견 후 수익률을 조사했지만, 통계적 복제와 경제적 복제를 구분하지 않았습니다. 단 5개의 anomaly에 대한 집중은 일반화 가능성을 제한했습니다.

연구 2: Harvey, Liu & Zhu (2016) — Multiple Testing 조정

Harvey, Liu, Zhu의 논문은 anomaly 문헌에 대한 가장 통계적으로 엄밀한 도전이었습니다. 그들은 1967년에서 2014년 사이에 발표된 316개의 factor를 목록화하고, 테스트된 가설 수를 고려할 때 기존의 t > 2.0 기준이 부적절하다고 주장했습니다.

그들의 논증은 Bonferroni 부등식과 그 변형에 기반했습니다. 316개의 독립적 테스트가 5% 수준에서 수행된다면, 거짓 기각의 기대 수는 약 16개입니다. 이 multiple testing을 조정하면, 새로 제안된 factor는 유의하다고 간주되기 위해 약 3.0의 t-statistic가 필요하다고 그들은 주장했습니다.

이 논문은 경제적 메커니즘별로 분류된 316개 factor의 상세한 분류 체계를 포함하고 있었습니다. 이 목록 자체가 factor zoo의 놀라운 범위 — 그리고 잠재적 중복성 — 을 보여주는 중요한 자원이 되었습니다.

핵심 방법론적 선택: Harvey 등은 316개 factor를 모두 독립적 테스트로 취급했는데, 이는 많은 factor가 상관관계가 있다면(확실히 그러합니다) multiple testing 문제를 과대 평가합니다. 그들은 실제로 316개 factor를 복제하지 않았습니다; 테스트 수를 고려할 때 대부분이 거짓이어야 한다고 통계적으로 주장한 것입니다. 그들의 기준 조정은 새로운 발견에 적용되지만, 다른 수단을 통해 이미 검증된 기존 factor를 평가하는 데 종종 잘못 적용됩니다.

중요한 뉘앙스: t > 3.0 기준은 이미 수백 개의 factor가 테스트된 세계에서 새로 제안된 factor를 평가하는 데 적절합니다. 그러나 여러 데이터셋, 시간 기간, 시장에 걸쳐 독립적으로 확인된 factor를 평가하는 데는 반드시 적절하지 않습니다. 40개 이상의 시장에서 수십 개의 독립적 연구에 걸쳐 복제된 momentum과 같은 factor는, 전체 multiple testing 패널티가 적용되는 새로운 발견인 것처럼 평가되어서는 안 됩니다.

연구 3: McLean & Pontiff (2016) — 자연 실험

McLean과 Pontiff는 학술 출판의 시간적 구조를 활용하여 자연 실험을 구성했습니다. 97개 anomaly 각각에 대해 세 가지 시간 기간을 식별했습니다:

In-sample 기간: 원본 논문에서 사용된 데이터 기간
Post-sample, pre-publication 기간: 표본이 끝난 후 논문이 발표되기 전 (통상 2~5년)
Post-publication 기간: 논문이 학술지에 게재된 후

이 분해는 통계적 인공물을 경제적 현상으로부터 분리하기 때문에 강력합니다. Post-sample이지만 pre-publication 기간에는, anomaly가 out-of-sample이고(in-sample 과적합을 배제) 아직 공개되지 않았습니다(차익거래를 배제). 이 기간에 anomaly 수익률이 0이라면, 원래의 발견은 데이터 마이닝일 가능성이 높습니다. 양수이지만 in-sample보다 작다면, 진정한 예측 가능성과 일부 과적합 모두의 증거가 됩니다. 양수이다가 발표 후 더 감소한다면, 추가적 감소에 대한 주요 설명은 차익거래입니다.

McLean과 Pontiff는 다음을 발견했습니다:

In-sample 평균 수익률: 보고된 효과의 약 100%
Post-sample, pre-publication 수익률: in-sample 효과의 약 73%
Post-publication 수익률: in-sample 효과의 약 42%

In-sample에서 post-sample이지만 pre-publication까지의 27% 감소는 어느 정도의 in-sample 과적합을 시사합니다 — 그러나 진정한 out-of-sample 데이터에서 73%의 생존은 anomaly가 순전히 인공물이 아니라는 강력한 증거입니다. 발표 후 추가적인 31% 감소(73%에서 42%로)는 차익거래 자본이 premium을 침식하는 것과 일관됩니다.

핵심 방법론적 선택: McLean과 Pontiff는 97개 anomaly에 걸쳐 평균을 냈는데, 이는 강한 anomaly와 약한 anomaly를 혼합합니다. 평균은 상당한 이질성을 가립니다. 일부 anomaly는 0으로 감소했을 수 있고(H1과 일관), 다른 일부는 premium의 대부분을 유지했을 수 있으며(H2와 일관), 평균은 혼합을 반영합니다.

연구 4: Green, Hand & Zhang (2017) — Holdout 테스트

Jeremiah Green, John Hand, Frank Zhang은 엄격한 holdout 방법론을 사용하여 94개 주식 특성을 테스트했습니다. CRSP/Compustat 데이터를 사용하여 각 특성을 구성한 다음, 변수 구성 과정에서 사용되지 않은 holdout 표본에서 수익률을 예측하는지 테스트했습니다.

그들은 94개 특성 중 약 50%가 holdout 표본에서 유의하다는 것을 발견했습니다. 이는 중간 수준의 복제율입니다 — Hou, Xue, Zhang이 이후에 발견한 것보다 높지만, Chen과 Zimmermann보다는 낮습니다. 이 불일치는 방법론적 충실도에서의 중간적 위치를 반영합니다: 일관된 데이터를 사용했지만 구성 방법론에서는 약간의 변동을 허용했습니다.

핵심 통찰: Green 등은 또한 어떤 특성이 독립적인 정보를 제공하는지 — 다른 특성에 의해 포섭되지 않는 예측력 — 를 조사했습니다. 독립적으로 유의한 특성의 수는 94개보다 훨씬 적었으며, 이는 factor zoo에서의 상당한 중복을 시사합니다. 별개로 보이는 많은 factor가 실제로는 동일한 기저 현상을 측정하고 있습니다.

연구 5: Linnainmaa & Roberts (2018) — 1963년 이전 테스트

Juhani Linnainmaa와 Michael Roberts는 원래 연구자들이 사용할 수 없었던 데이터를 활용하여 가장 창의적인 복제 연구 중 하나를 수행했습니다. 실증 자산 가격 결정 문헌에서 대부분의 anomaly는 1963년 이후의 CRSP 데이터를 사용하여 발견되었습니다(Compustat 커버리지가 포괄적이 되는 시점). Linnainmaa와 Roberts는 데이터를 1926년까지 확장하고, 이 1963년 이후 anomaly가 1926~1963년 기간에도 존재했는지 조사했습니다.

논리는 설득력이 있습니다: factor가 지속적인 시장 현상을 진정으로 포착한다면, 더 이른 데이터에도 존재해야 합니다. 발견된 특정 표본 기간에서만 나타난다면, 데이터 마이닝이 더 가능성 있는 설명입니다.

그들의 발견은 혼합적이었습니다. 일부 factor — 특히 value와 momentum — 는 1963년 이전 데이터에 존재하여 견고성을 확인했습니다. 다른 것들 — profitability와 investment를 포함하여 — 은 더 이른 기간에 부재하거나 유의하지 않았습니다. Linnainmaa와 Roberts는 부재한 factor를 데이터 마이닝 인공물일 가능성이 높다고 해석했습니다.

중요한 주의사항: 1963년 이전 시장은 1963년 이후 시장과 구조적으로 다른 점이 있어, 데이터 마이닝을 언급하지 않고도 factor 부재를 설명할 수 있습니다:

기관 구성: 기관 투자자들은 1963년 이전에 시장에서 훨씬 작은 비중을 차지했습니다. 기관 행동에 의해 주도되는 factor(BAB 뒤의 레버리지 제약 등)는 개인 투자자가 지배하는 시장에서 더 약할 것입니다.
섹터 구성: 1963년 이전 시장은 철도, 유틸리티, 중공업이 지배했습니다. 1963년 이후 시장은 기술, 헬스케어, 서비스를 포함합니다. 무형 자산, R&D 집약도, 성장 옵션과 관련된 factor는 자연스럽게 더 이른 기간에서 더 약할 것입니다.
회계 기준: 1963년 이전에는 재무 보고가 덜 표준화되어 있었습니다. 회계 비율(수익성, 발생주의, 투자)에 기반한 factor는 기저 데이터가 덜 신뢰할 수 있을 때 본질적으로 더 noisy합니다.
정보 환경: 정보 전파가 더 느리고 덜 균일했습니다. 투자자 관심, 미디어 보도, 애널리스트 추종에 의해 주도되는 factor는 다르게 행동할 것입니다.

1963년 이전 데이터에서 factor의 부재는 해당 factor에 불리한 증거이지만, 결론적 증거는 아닙니다. 이는 더 광범위한 평가에서의 하나의 데이터 포인트입니다.

연구 6: Hou, Xue & Zhang (2020) — 표준화된 복제

Hou, Xue, Zhang의 Review of Financial Studies 논문은 조사된 anomaly 수 측면에서 가장 포괄적인 복제 노력이었습니다: 452개. 그들의 접근법은 의도적으로 표준화되었습니다. 각 원본 논문의 방법론을 따르는 대신, 452개 모든 anomaly에 일관된 규칙 세트를 적용했습니다:

Universe: NYSE, AMEX, NASDAQ에 상장된 모든 보통주
Breakpoints: NYSE-only breakpoints (Fama-French 관례를 따름)
Rebalancing: 신호 유형에 따라 연간(6월) 또는 월간
Weighting: Value-weighted 포트폴리오
Sample period: 2016년까지 확장

이 규칙 하에서, 452개 anomaly 중 64%가 1.96 이상의 t-statistic를 생산하지 못했습니다. 36%만이 복제되었습니다.

이 발견은 극적이지만, 해석을 위해서는 이 맥락에서 "실패"가 무엇을 의미하는지 이해할 필요가 있습니다. anomaly가 "실패"하는 데는 여러 이유가 있을 수 있습니다:

원래의 발견이 진정으로 거짓이었습니다 — 우연에 의해 생산된 참 귀무 결과
anomaly가 구성 선택에 민감합니다 — 원래 방법론 하에서는 존재하지만 표준화된 접근법 하에서는 존재하지 않음
anomaly가 시간이 지나면서 감소했습니다 — 원래 표본에서는 실제였지만 이후 약화됨
표준화된 방법론이 이 특정 anomaly에 부적절합니다 — 일부 anomaly는 특정 방법론적 선택이 필요합니다 (예: 소형주 anomaly를 위한 equal weighting)

Hou, Xue, Zhang의 결과는 이러한 설명들 사이를 구분할 수 없습니다. 64%의 실패율은 64%의 거짓 발견, 64%의 방법론 민감 anomaly, 또는 어떤 혼합을 의미할 수 있습니다.

핵심 방법론적 선택: value-weighted 포트폴리오와 NYSE breakpoint를 사용하기로 한 결정은 중립적이지 않습니다. 많은 anomaly는 소형주에 집중되어 있습니다. Value weighting은 소형주의 영향을 줄이고, NYSE breakpoint는 소형주 포트폴리오가 훨씬 더 큰 소규모 NASDAQ 주식 모집단이 아닌 대부분 소형 NYSE 주식을 포함하도록 보장합니다. 이것들은 타당한 선택이지만, 주로 소형주 공간에서 작동하는 anomaly에 체계적으로 불리하게 작용합니다.

연구 7: Jacobs & Muller (2020) — 국제적 복제

Heiko Jacobs와 Sebastian Muller는 241개의 anomaly를 국제 시장에서 테스트했습니다 — 근본적으로 독립적인 데이터셋에서의 진정한 out-of-sample 테스트입니다. 미국의 데이터 마이닝 인공물은 다른 제도적 구조, 규제 환경, 회계 기준을 가진 시장에서 복제되지 않아야 합니다.

그들은 미국에서 발견된 anomaly 중 약 50%가 적어도 하나의 국제 시장에서 복제되었으며, 의미 있는 하위 집합이 지역에 걸쳐 광범위하게 복제되었음을 발견했습니다. 가장 일관되게 복제된 anomaly는 가장 강력한 이론적 기반을 가진 것들이었습니다: value, momentum, profitability, low volatility입니다.

Jacobs와 Muller는 "복제"와 "존재" 사이의 중요한 구분도 했습니다. 일부 anomaly는 모든 시장에 존재하지만 다른 형태로 나타날 수 있습니다. 예를 들어, value는 국제적으로 작동하지만, 이를 포착하는 특정 회계 변수는 회계 체계에 따라 다릅니다. Book-to-market은 미국 GAAP 회계에서 잘 작동하지만, 다른 회계 기준을 가진 시장에서는 이익 기반 측정값으로 대체되어야 할 수 있습니다.

본 분석을 위한 핵심 통찰: 약 50%의 국제 복제율은 factor zoo의 약 절반이 실제 경제 현상을 포착하고 약 절반은 그렇지 않다는 가설과 일관됩니다. 국제적으로 복제되는 anomaly는 명확한 이론적 메커니즘을 가진 것들에 불균형적으로 치우쳐 있으며, 이는 정확히 H2(차익거래 가설)가 예측하는 바입니다.

연구 8: Chen & Zimmermann (2022) — 정확한 방법론 복제

Andrew Chen과 Tom Zimmermann의 논문은 방법론적 충실도를 무엇보다 우선시했다는 점에서 가장 세심한 복제 노력이었습니다. 그들은 각 원본 논문의 방법론을 가능한 한 정밀하게 따라 319개의 anomaly를 복제했으며, 오픈소스 코드 저장소를 공개하여(금융 분야의 재현성에 새로운 기준을 세움) 사용할 수 있도록 했습니다.

약 82%의 복제라는 그들의 발견은 Hou, Xue, Zhang의 36%와 극명한 대조를 이룹니다. 이 차이는 거의 전적으로 방법론적 충실도에 기인합니다. Chen과 Zimmermann이 Hou, Xue, Zhang의 표준화된 방법론을 사용하여 같은 anomaly를 테스트했을 때, 복제율은 극적으로 떨어졌습니다 — 불일치가 anomaly 표본의 차이가 아닌 방법론적 선택에 의해 주도된다는 것을 확인해 주었습니다.

이것은 아마도 복제 논쟁에서 가장 중요한 발견일 것입니다. "anomaly가 복제되는가?"에 대한 답이 복제의 의미에 대한 정의에 결정적으로 의존한다는 것을 보여줍니다. 복제가 "논문에 기술된 정확한 절차가 보고된 결과를 산출하는가"를 의미한다면, 답은 대부분 예입니다. 복제가 "이 anomaly가 다르지만 합리적인 방법론 하에서 존재하는가"를 의미한다면, 답은 더 미묘합니다.

핵심 기여: Chen과 Zimmermann의 오픈소스 코드 저장소는 복제 논쟁을 경쟁적 논문들의 대결에서 모든 연구자가 검토할 수 있는 실증적 질문으로 변환시켰습니다. 그들의 코드는 누구나 원래 방법론 또는 표준화된 접근법을 사용하여 319개 anomaly 중 어느 것이든 재현하고, 방법론적 선택이 결과에 어떻게 영향을 미치는지 직접 관찰할 수 있게 해 줍니다.

연구 9: Jensen, Kelly & Pedersen (2023) — Bayesian 조화

Theis Jensen, Bryan Kelly, Lasse Pedersen은 복제 질문에 정교한 Bayesian 방법을 적용했습니다. 기준값에 기반하여 factor를 "유의" 또는 "유의하지 않음"으로 분류하는 대신, 사전 정보와 shrinkage를 통합하여 각 factor 기대수익률의 사후 분포를 추정했습니다.

그들의 접근법은 기준값 기반 테스트와 근본적으로 다릅니다. t-statistic가 1.8인 factor는 t > 2.0 기준 하에서 "실패"로 분류되지만, Bayesian shrinkage 후 의미 있게 양수인 사후 평균을 가질 수 있습니다. 이진 분류의 함정을 피함으로써, Jensen, Kelly, Pedersen은 임의의 기준을 통과하는 factor의 수뿐만 아니라 factor premium의 분포를 추정할 수 있었습니다.

그들의 결론은 기대수익률의 횡단면이 풍부하고 다차원적이라는 것이었습니다. 대부분의 factor는 양수의 기대수익률을 가지지만, in-sample 추정치가 제시하는 것보다는 작습니다. Shrinkage — 원시 추정치와 사후 평균 사이의 격차 — 는 통상 30~50%이며, 이는 McLean과 Pontiff의 발표 후 감소 발견과 일관됩니다. Bayesian 프레임워크에서 이 shrinkage는 데이터 마이닝이 아닌 추정 noise를 반영합니다: 진정한 premium은 항상 noisy 추정치가 제시하는 것보다 작았습니다.

핵심 통찰: Jensen, Kelly, Pedersen의 프레임워크는 "복제 위기"가 부분적으로 기준값 기반 테스트의 인공물임을 시사합니다. 연속 변수(factor premium)를 이진 분류(유의 또는 비유의)에 강제로 넣으면, 절벽 효과가 발생합니다: 기준 바로 위의 factor는 실제로 분류되고, 바로 아래의 factor는 거짓으로 분류됩니다. 현실에서는 강하게 양수인 premium(value, momentum)에서 미약하게 양수인 premium(수십 개의 작은 factor)을 거쳐 0과 구별할 수 없는 premium(진정한 noise)까지의 연속체가 있습니다. 이진 프레임워크는 이 연속체를 이진으로 매핑하여 위기의 환상을 만들어 냅니다.

연구 10: Novy-Marx & Velikov (2016) — 거래 비용 필터

Robert Novy-Marx와 Mihail Velikov는 대부분의 복제 연구가 무시한 질문을 했습니다: 이 anomaly들을 실제로 수익성 있게 거래할 수 있습니까? 통계적 유의성은 경제적 유의성을 위한 필요 조건이지만 충분 조건은 아닙니다. t-statistic 3.0과 월간 gross 수익률 50 basis points를 가진 factor는 인상적으로 들리지만, bid-ask spread가 200 basis points인 비유동 micro-cap 주식들 사이에서 월간 리밸런싱이 필요하다는 것을 깨달을 때까지의 이야기입니다.

Novy-Marx와 Velikov는 effective spread, 시장 충격, 공매도 비용에 기반한 현실적 거래 비용을 적용한 후 23개의 유명 anomaly를 테스트했습니다. gross 수익률에서 매우 유의해 보이던 많은 anomaly가 비용 이후 수익이 없거나 미미해졌습니다.

그들의 분석은 중요한 패턴을 드러냈습니다: 거래 비용에서 살아남을 가능성이 가장 높은 anomaly는 낮은 turnover(비빈번 리밸런싱 필요)를 가진 것과 유동적인 대형주에 집중된 것이었습니다. 연간 리밸런싱하고 크기 스펙트럼에 걸쳐 작동하는 value와 profitability 전략은 잘 살아남았습니다. 월간 또는 그 이상 빈번한 리밸런싱이 필요한 momentum 전략은 더 큰 영향을 받았지만, 비용을 인식한 실행으로 구현할 때 여전히 미약하게 수익성이 있었습니다.

Short-leg 비용은 특히 중요했습니다. 많은 anomaly는 수익률의 상당 부분을 short side(과대평가된 주식 매도)에서 얻지만, 공매도는 비용이 많이 듭니다 — 대여 수수료, 회수 위험, 공매도 포지션의 비대칭적 보상 구조 모두 수익률을 침식합니다. 공매도 비용이 포함되면, 많은 long-short anomaly는 long-only 전략이 되어 이론적 수익률이 약 절반으로 줄어들었습니다.

본 분석을 위한 핵심 발견: 통계적으로 유의하면서 동시에 비용 후 경제적으로 수익성이 있는 anomaly의 수는 단순히 통계적으로 유의한 수보다 극적으로 적습니다. Novy-Marx와 Velikov의 분석은 이 경제적 필터를 통과하는 anomaly가 아마 10~15개임을 시사하며, 이는 "견고한 핵심"으로 추정하는 15~25개 factor와 일관됩니다(약간 더 큰 수는 낮은 turnover 구현이나 long-only 형태에서 수익성 있는 추가 factor를 반영합니다).

연구 11: Chordia, Goyal & Saretto (2020) — 결합 필터

Tarun Chordia, Amit Goyal, Alessio Saretto는 여러 복제 필터 — 발표 후 감소, 거래 비용, 통계적 견고성 — 를 180개 이상의 anomaly에 대한 포괄적 평가로 결합했습니다. 그들의 논문은 세 차원의 복제를 개별적으로가 아닌 동시에 모두 적용한다는 점에서 중요합니다.

모든 필터를 적용한 후, Chordia, Goyal, Saretto는 anomaly의 대다수가 순 기준으로 수익성이 없음을 발견했습니다. 발표 후 감소와 거래 비용의 결합 효과는 대부분의 전략에 파괴적이었습니다. 발표 후에도 통계적 유의성을 유지한 anomaly조차 현실적 거래 비용이 적용되면 경제적으로 실행 불가능해졌습니다.

그들의 분석은 또한 상호작용 효과를 드러냈습니다: 발표 후 가장 많이 감소한 anomaly는 종종 가장 높은 거래 비용을 가진 것이었는데, 두 현상 모두 같은 기저 요인 — 소형, 비유동 주식에의 집중 — 에 의해 주도되기 때문입니다. 소형주 anomaly는 gross 수익률이 크고(비유동성이 더 큰 mispricing을 만들기 때문에), 발표 후 더 많이 감소하며(소량의 차익거래 자본도 비유동 시장에서 큰 가격 영향을 미치기 때문에), 거래 비용이 높습니다(넓은 bid-ask spread와 시장 충격 때문에).

시사점: Factor zoo는 보이는 것보다 훨씬 더 중복적입니다. 외견상 별개인 많은 anomaly — 서로 다른 회계 비율, 서로 다른 momentum 측정값, 서로 다른 quality 지표 — 는 모두 서로 다른 렌즈를 통해 동일한 소형주, 비유동 premium을 포착하고 있습니다. 거래 비용이 적용되면, 그것들은 소수의 진정으로 독립적인 수익원으로 축소됩니다.

연구 12: Calluzzo, Moneta & Topaloglu (2019) — 차익거래 메커니즘

Paul Calluzzo, Fabio Moneta, Selim Topaloglu는 H2가 제안하는 차익거래 메커니즘에 대한 가장 직접적인 증거를 제공했습니다. anomaly가 발표 후 감소한다는 것을 단순히 관찰하는 대신, 감소가 발표 사건에 의해 야기되었는지 테스트했습니다.

그들은 14개의 잘 알려진 anomaly에 대한 기관 거래 활동을 추적하고 다음을 발견했습니다:

기관 투자자들은 발표 후 anomaly 관련 주식에 대한 거래를 유의하게 증가시켰습니다
기관 거래 증가는 발표 후 anomaly 감소 정도와 상관관계가 있었습니다
가장 많이 거래된 anomaly가 가장 큰 발표 후 감소를 보였습니다
감소는 발표 직후 기간에 집중되어 있었으며, 학습/전파 메커니즘과 일관되었습니다

이 증거는 순수한 데이터 마이닝(H1)과 조화시키기 어렵습니다. anomaly가 통계적 인공물이라면, 발표 후 기관 거래가 증가할 이유가 없을 것입니다 — 그리고 거래 증가의 정도가 감소의 정도를 예측해야 할 이유는 확실히 없습니다. Calluzzo 등의 발견은 차익거래 채널을 강력하게 지지합니다: anomaly는 실제이고, 발표가 정보를 전파하며, 기관 거래자들이 기회를 활용하고, 그들의 거래가 mispricing을 부분적으로 교정합니다.

한계: 14개 anomaly의 표본은 작으며, 14개 모두 문헌에서 가장 유명한 anomaly에 속합니다. 이들은 정확히 기관의 관심을 끌 가능성이 가장 높은 anomaly입니다. 이 메커니즘은 factor zoo의 수백 개의 덜 알려진 anomaly로 일반화되지 않을 수 있습니다.

Part IV: 분석 — 복제의 세 차원

프레임워크의 구축

본 연구의 핵심적 분석 기여는 복제 연구 간의 거의 모든 불일치를 설명하는 3차원 프레임워크입니다. 세 차원은 다음과 같습니다:

방법론적 충실도: 복제가 원본 논문의 절차를 얼마나 밀접하게 따르는가?
통계적 기준: 어떤 유의성 기준이 적용되는가?
경제적 필터: 거래 비용과 수용력 제약이 고려되는가?

각 복제 연구는 이 3차원 공간에서 특정 위치를 차지하며, 복제율은 그 위치로부터 예측할 수 있습니다.

차원 1: 방법론적 충실도

충실도 차원은 "정확한 복제"(원본 논문의 방법론을 정밀하게 따르는 것)에서 "표준화된 복제"(모든 anomaly에 균일한 방법론을 적용하는 것)까지 이어집니다.

충실도가 중요한 이유: Factor 수익률은 구성 세부사항에 놀라울 정도로 민감합니다. 구체적 예로 momentum factor를 고려합니다. Jegadeesh와 Titman의 원래 1993년 논문은 momentum을 t-12개월에서 t-2개월까지의 누적 수익률로 정의했습니다(미시구조 효과를 피하기 위해 가장 최근 달을 건너뜁니다). Factor는 NYSE/AMEX 주식을 사용하여, decile breakpoint로, 포트폴리오 내 equal weighting으로, 월간 리밸런싱으로 구성되었습니다.

이제 이 선택 중 하나를 변경합니다:

NASDAQ 주식 포함: Universe가 극적으로 변합니다, 특히 NASDAQ이 소규모이고 비유동적이었던 1970~1980년대에
Decile 대신 quintile breakpoint 사용: 극단 포트폴리오가 덜 극단적이 됩니다
Equal weighting 대신 value weighting 사용: 소형주의 영향이 상당히 감소합니다
1개월 대신 2개월 건너뛰기: 단기 반전 효과가 더 철저하게 제거되어, factor의 특성이 변합니다
12개월 대신 6개월 형성 기간 사용: Factor가 다른 위험 특성을 가진 더 짧은 기간의 momentum을 포착합니다

이 변경 각각은 개별적으로 타당합니다. 어느 것도 "틀리지" 않습니다. 그러나 NASDAQ 주식, quintile breakpoint, value weighting, 2개월 건너뛰기, 6개월 형성 기간을 사용하는 momentum factor는 t-statistic 1.5를 산출하여 — 복제에 실패 — 하는 반면, 정확한 Jegadeesh-Titman 사양은 t-statistic 4.0을 산출할 수 있습니다. "Momentum"이 복제에 실패한 것이 아닙니다. 다른 버전의 momentum이 복제에 실패한 것입니다.

이 현상은 factor zoo 전체에 걸쳐 만연해 있습니다. Chen과 Zimmermann은 이를 체계적으로 기록했습니다: 원본 논문의 방법론과 일치시켰을 때 factor의 82%가 복제되었습니다. 표준화된 방법론(Hou, Xue, Zhang과 유사한)을 적용했을 때 복제율은 상당히 떨어졌습니다.

철학적 질문: 어떤 접근법이 "올바른" 것입니까? 정확한 복제는 원래 저자들의 주장이 재현 가능한지를 알려줍니다 — 그들이 발견했다고 말한 것을 실제로 발견했는가? 표준화된 복제는 anomaly가 합리적인 방법론적 변동에 견고한지를 알려줍니다 — 현상이 더 넓은 의미에서 존재하는가?

둘 다 타당한 질문이지만, 서로 다른 답을 가지고 있습니다. 복제 "위기"는 부분적으로 이 두 질문을 혼동하는 데서 발생합니다.

사례 연구: Size Effect의 방법론적 민감도

Size effect는 방법론적 선택이 복제 결과를 어떻게 결정하는지의 생생한 예를 제공합니다. Rolf Banz는 1981년에 소형주가 대형주보다 평균적으로 더 높은 수익률을 기록한다는 것을 기록했습니다. 이것은 금융에서 가장 유명한 anomaly 중 하나가 되었습니다.

Size effect는 복제됩니까? 답은 전적으로 정의에 따라 달라집니다:

Size Effect 사양	t-statistic (1963-2023)	판정
SMB (Fama-French, value-weighted)	~1.5	t > 1.96에서 실패
SMB (equal-weighted)	~3.0	통과
Decile 1 minus Decile 10 (CRSP)	~2.2	경계선
Small minus big (NYSE only)	~1.0	실패
Small minus big (including microcaps)	~3.5	강하게 통과
Small minus big (post-1980)	~0.5	실패
Small minus big (January only)	~5.0	압도적으로 통과
Small minus big (ex-January)	~0.3	실패
Small minus big (controlling for quality)	~2.5	통과 (Asness et al., 2018)

Size effect는 사양에 따라 전적으로 "복제되거나" "실패합니다". Size effect가 모호한 것이 아닙니다 — "size effect"가 단일한, 잘 정의된 대상이 아닙니다. 이것은 서로 다르게 행동하는 관련 사양들의 집합입니다.

이것은 size에 국한되지 않습니다. Factor zoo의 거의 모든 anomaly에 적용됩니다. "이 anomaly가 복제되는가?"라는 질문은 정확히 어떤 버전의 anomaly를 테스트하는지 지정할 때까지 답이 없습니다.

차원 2: 통계적 기준

기준 차원은 "기존" (t > 1.96, p < 0.05에 해당)에서 "multiple-testing 조정"(조정 방법에 따라 t > 3.0 이상)까지 이어집니다.

Harvey, Liu, Zhu의 더 높은 기준에 대한 주장은 새로운 factor 발견의 맥락에서 통계적으로 타당합니다. 새로운 factor를 제안하는 317번째 연구자라면, factor가 진정할 사전 확률은 첫 번째 연구자였을 때보다 낮습니다. 316개의 factor가 이미 같은 데이터에서 테스트되었기 때문입니다. Multiple testing 조정은 이 누적된 입증 부담을 반영합니다.

그러나 이 논증은 확립된 factor에 소급적으로 적용될 때 무너집니다. Momentum을 고려합니다. 이것은 원래 Jegadeesh와 Titman (1993) 표본, 발표 후 미국 데이터, 40개 이상의 국제 시장(Asness, Moskowitz, Pedersen, 2013), 다른 자산 클래스(주식, 채권, 상품, 통화), 빅토리아 시대까지 거슬러 올라가는 역사적 데이터(Geczy와 Samonov, 2016)에서 테스트되었습니다. 이 각각은 독립적 테스트입니다. 이 독립적 증거의 산을 감안할 때, 원본 논문에 어떤 multiple testing 기준을 적용하든 momentum이 거짓 발견일 확률은 사실상 0에 가깝습니다.

Multiple testing 프레임워크는 한계적인 새로운 발견을 평가하기 위해 설계되었습니다. 이미 상당한 독립적 증거가 축적된 factor에 적용되어서는 안 됩니다. 이 구분을 하지 못한 것이 복제 위기의 인식에 기여했습니다.

Bayesian 대안

Jensen, Kelly, Pedersen의 Bayesian 접근법은 기준 문제를 완전히 우회합니다. Factor를 "유의" 또는 "비유의"로 분류하는 대신, 각 factor premium의 사후 분포를 추정합니다. t-statistic가 1.5인 factor는 "유의하지 않은" 것이 아닙니다 — 양수이지만 작은 사후 평균을 가지며, 넓은 신뢰 구간을 가집니다. t-statistic가 5.0인 factor는 크고 좁은 구간을 가진 사후 평균을 가집니다.

이 연속적 표현은 기준값 기반 테스트의 절벽 효과를 피하고, factor premium에 대한 지식의 실제 상태를 더 정확하게 나타냅니다. Factor zoo는 "실제"와 "가짜"의 이진 분할이 아닙니다 — "거의 확실히 실제이고 큰"(momentum, value)에서 "아마 실제이지만 작은"(수십 개의 factor)을 거쳐 "아마 0인"(noise)까지의 연속체입니다.

Bayesian 프레임워크 하에서, 복제 "위기"는 사라집니다. 왜냐하면 위기는 존재하지 않았기 때문입니다 — 연속적 현실에 부적절하게 제기된 이진 질문이 있었을 뿐입니다.

차원 3: 경제적 복제 vs. 통계적 복제

경제적 차원은 "gross 수익률, 비용 없음"에서 "현실적 구현 비용과 수용력 제약 후 net 수익률"까지 이어집니다. 이 차원은 복제 논쟁에서 상대적으로 소홀히 다뤄져 왔지만, 실무자에게는 가장 중요할 수 있습니다.

Novy-Marx와 Velikov의 거래 비용 분류 체계는 필수적 프레임워크를 제공합니다:

Effective spread: Bid-ask spread는 가장 기본적인 거래 비용입니다. 대형주의 경우 effective spread는 통상 2~5 basis points입니다. Micro-cap 주식의 경우 200 basis points를 초과할 수 있습니다. Micro-cap 주식을 월간으로 매수·매도해야 하는 factor는 월당 400+ basis points의 왕복 비용에 직면하며 — 어떤 이론적 premium에도 막대한 부담이 됩니다.

Market impact: 대량 주문은 가격을 움직입니다. 일일 거래량이 500만 달러인 주식을 1억 달러 매수해야 하는 포트폴리오는 실행 중 가격을 크게 밀어올릴 것입니다. Market impact는 유동적 대형주에서는 미미하지만, 소형 비유동 종목에서는 막대할 수 있습니다. 이것은 수용력 제약을 만들어 냅니다: factor의 premium은 포트폴리오 규모가 증가함에 따라 감소합니다.

공매도 비용: 학술적 factor의 long-short 구조는 무료이고 무제한적인 공매도를 가정합니다. 실제로 공매도는 비용이 많이 들고(대여 수수료는 대여 용이 주식의 경우 통상 연간 50~300 basis points, 대여 어려운 주식의 경우 10% 이상), 위험하며(대여자가 언제든 주식을 회수할 수 있음), 때때로 불가능합니다(일부 주식은 대여가 불가능). 수익률의 상당 부분을 short side에서 얻는 anomaly는 특히 심각한 구현 장애에 직면합니다.

Turnover: 빈번한 리밸런싱(월간 이상)이 필요한 factor는 연간으로 리밸런싱하는 것보다 더 자주 거래 비용을 발생시킵니다. 통상 월간 리밸런싱하는 momentum 전략은 통상 연간 리밸런싱하는 value 전략의 12배에 달하는 연간 turnover에 직면합니다. 이 turnover 차이는 momentum이 value와 동일한 net 수익률을 제공하려면 상당히 더 높은 gross premium을 생성해야 함을 의미합니다.

이러한 비용이 적용되면, factor zoo는 극적으로 축소됩니다. Novy-Marx와 Velikov는 인상적인 gross 수익률을 가진 많은 anomaly — 특히 높은 turnover를 가진 소형 비유동 주식에 집중된 것들 — 이 비용 후 수익이 없거나 미미해졌음을 발견했습니다.

경제적 복제 성적표

주요 anomaly 계열이 세 차원에 걸쳐 어떻게 수행되는지의 대략적 성적표를 구성할 수 있습니다:

Factor 계열	정확한 통계적 복제	표준화된 통계적	Multiple Testing	비용 후
Value (B/M, E/P)	✓	✓	✓	✓ (낮은 turnover)
Momentum (12-1)	✓	✓	✓	✓ (미약)
Profitability (GP/A)	✓	✓	✓	✓ (낮은 turnover)
Low volatility / BAB	✓	✓	✓	✓ (낮은 turnover)
Investment (asset growth)	✓	Mixed	Mixed	✓ (낮은 turnover)
Quality composites	✓	✓	✓	✓
Size (SMB)	✓	Mixed	✗	Mixed
Short-term reversal	✓	✓	✓	✗ (높은 turnover)
Accruals	✓	Mixed	Mixed	Mixed
Net issuance	✓	Mixed	Mixed	✓
Idiosyncratic volatility	✓	Mixed	Mixed	✗
Analyst revisions	✓	✓	Mixed	✗ (높은 turnover)
Earnings momentum (SUE)	✓	✓	✓	Mixed
Calendar effects (January 등)	✓	✗	✗	✗
Liquidity (Amihud)	✓	Mixed	Mixed	✗

패턴은 명확합니다. 네 개 열 모두 — 정확한 통계적, 표준화된 통계적, multiple testing, 비용 후 — 를 통과하는 factor는 소수의 그룹을 형성합니다: value, momentum, profitability, low volatility, quality입니다. 이것들이 견고한 핵심입니다. 일부 열은 통과하지만 다른 열은 통과하지 못하는 factor는 취약한 중간층을 형성합니다. 대부분 또는 모든 열에서 실패하는 factor는 noise입니다.

심층 분석: 네 가지 필터를 통한 Momentum

Momentum은 금융에서 아마도 가장 철저히 연구된 anomaly이며, 본 프레임워크의 이상적인 테스트 케이스를 제공하기 때문에 특별한 주목을 받을 가치가 있습니다.

필터 1: 정확한 통계적 복제. 원래 Jegadeesh와 Titman (1993) 방법론을 따르면 momentum은 거의 완벽하게 복제됩니다. 1개월 건너뛰기와 함께한 12개월 형성 기간, decile 포트폴리오, equal weighting은 원래 표본, 후속 표본, Chen과 Zimmermann의 복제에서 크고 높은 유의성을 가진 premium을 산출합니다. 점수: ✓ (명확한 통과).

필터 2: 표준화된 통계적 복제. Momentum은 대부분의 표준화된 접근법 하에서 복제되지만, 규모는 달라집니다. Value-weighted momentum은 equal-weighted momentum보다 작습니다(momentum이 소형주에서 더 강하기 때문). 더 긴 형성 기간(예: 6개월)은 표준 12개월보다 약한 결과를 산출합니다. 다른 건너뛰기 기간은 규모를 변경합니다. Hou, Xue, Zhang의 표준화 하에서 momentum은 복제됩니다. 점수: ✓ (통과, 사양에 대한 민감도 있음).

필터 3: Multiple testing 기준. Momentum은 미국 데이터에서 t > 3.0 기준을 편안하게 초과하며, 40개 이상의 국제 시장에서 독립적으로 복제되었습니다. 결합된 증거는 momentum이 거짓 발견일 확률을 무시할 수 있을 정도로 낮게 만듭니다. 점수: ✓ (압도적 통과).

필터 4: 거래 비용 후. 이것이 momentum이 가장 큰 도전에 직면하는 부분입니다. 표준 momentum factor는 월간 리밸런싱이 필요하며, 이는 높은 turnover를 생성합니다. 가장 극단적인 형태(decile long-short, equal-weighted, 월간 리밸런싱)에서 거래 비용은 gross premium의 상당 부분을 소비합니다.

그러나 문헌은 여러 비용 완화 전략을 식별했습니다:

더 넓은 포트폴리오(decile 대신 quintile)가 turnover를 상당히 줄입니다
중간 리밸런싱 빈도(분기별)가 더 적은 turnover로 premium의 대부분을 포착합니다
불필요한 turnover를 줄이는 거래 규칙(예: 주식의 신호가 상당히 변할 때만 거래)이 gross 수익률에 최소한의 영향으로 turnover를 50% 이상 줄일 수 있습니다
유동적 대형주에서의 구현이 소형주 비용 부담을 제거합니다
최적 실행 알고리즘이 market impact를 줄일 수 있습니다

이러한 수정을 적용한 후, Novy-Marx와 Velikov, 그리고 별도로 Frazzini, Israel, Moskowitz는 momentum이 구현 가능하다고 결론지었습니다 — 기관 규모에서, 세심한 실행으로, 가까스로. 이것은 견고한 핵심 factor 중 구현이 가장 어려운 것이지만 경제적으로 여전히 실행 가능합니다.

점수: ✓ (미약한 통과 — 비용 인식 구성으로 구현 가능).

국제적 증거: Asness, Moskowitz, Pedersen (2013)은 40개 이상의 시장에서 주식, 통화, 국채, 상품 선물에서 momentum을 기록했습니다. 이 증거의 폭은 데이터 마이닝으로 설명하는 것이 본질적으로 불가능합니다.

Pre-sample 증거: Geczy와 Samonov (2016)은 CRSP 데이터베이스가 시작되기 전인 빅토리아 시대(1801-1926)까지 거슬러 올라가는 미국 주식에서 momentum을 기록했습니다.

판정: Momentum은 네 가지 필터를 모두 통과하지만, 경제적 실행 가능성이 가장 제약됩니다. 견고한 핵심에 확고히 속하지만, value나 profitability 전략보다 더 정교한 구현이 필요합니다.

심층 분석: 네 가지 필터를 통한 Accruals

Accruals는 대조적인 사례를 제공합니다 — 명백히 "취약한 중간층"에 있는 anomaly입니다.

Sloan (1996)이 기록한 accruals anomaly는 높은 accruals(이익이 현금 흐름을 훨씬 초과하는)를 가진 기업이 이후 저조한 성과를 보이고, 낮은 accruals(현금 흐름이 이익을 초과하는)를 가진 기업이 이후 우수한 성과를 보인다는 발견입니다. 경제적 직관은 높은 accruals가 공격적 회계 또는 지속 불가능한 이익을 신호하는 반면, 낮은 accruals는 보수적 회계 또는 높은 이익 질을 신호한다는 것입니다.

필터 1: 정확한 통계적 복제. Sloan의 원래 방법론을 따르면 accruals anomaly는 복제됩니다. 점수: ✓.

필터 2: 표준화된 통계적 복제. Anomaly는 accruals의 정의에 민감합니다. 대차대조표 accruals(Sloan의 원래 측정)와 현금흐름표 accruals는 서로 다른 결과를 산출합니다. 가중 방식(equal vs. value)의 선택이 상당히 중요합니다 — anomaly는 value-weighted 포트폴리오에서 훨씬 약합니다. Hou, Xue, Zhang의 표준화 하에서 accruals는 경계선입니다. 점수: Mixed.

필터 3: Multiple testing 기준. Accruals는 대부분의 사양에서 t > 2.0 기준은 통과하지만, 여러 사양에서 t > 3.0에는 미치지 못합니다. Accruals가 수백 개의 다른 회계 변수와 함께 테스트되었다는 점을 감안하면, multiple testing 우려는 정당합니다. 점수: Mixed.

필터 4: 거래 비용 후. Accruals 전략은 연간 리밸런싱이 필요합니다(긍정적 특성). 그러나 소형, 유동성이 낮은 주식에 집중되어 있습니다(부정적 특성). Short side가 특히 문제적입니다 — 높은 accruals 기업은 정확히 공매도 비용이 가장 높은 종류의 투기적이고, 대여가 어려운 주식인 경향이 있습니다. 비용 후 accruals anomaly는 기껏해야 미약하게 수익성이 있습니다. 점수: Mixed.

국제적 증거: 혼합적 — 일부 시장에서 복제되지만 다른 시장에서는 그렇지 않으며, 일부 미국 고유의 요소를 시사합니다.

판정: Accruals는 정확히 취약한 중간층에 위치합니다. Anomaly는 아마도 실제 현상(이익 대비 현금 흐름에 과도한 비중을 부여하는 시장의 경향)을 포착하고 있지만, 독립적인 투자 전략의 기반이 되기에는 너무 취약하고, 너무 사양 민감적이며, 거래 비용이 너무 높습니다. 더 넓은 quality 또는 profitability 프레임워크 내에서 이차적 틸트로 미약한 가치를 추가할 수 있습니다.

중복성 문제

대부분의 복제 연구가 적절히 다루지 않는 중요한 문제는 factor 중복성입니다. Factor zoo의 400개 이상의 factor는 400개의 독립적 수익원이 아닙니다. 많은 것이 동일한 기저 현상의 높은 상관관계를 가진 측정값입니다.

"Quality" 계열을 고려합니다. 연구자들은 다양한 quality 지표를 제안해 왔습니다:

Gross profitability (Novy-Marx, 2013)
Return on equity (Hou, Xue & Zhang, 2015)
Return on assets
Operating profitability (Fama & French, 2015)
Cash-based profitability (Ball et al., 2016)
Earnings stability
Debt-to-equity ratio
Piotroski F-score (Piotroski, 2000)
Altman Z-score

각각은 별개의 anomaly로 제안되었으며, 각각 자체 학술 논문과 t-statistic를 가지고 있습니다. 그러나 이것들은 모두 같은 것의 변형을 측정하고 있습니다: 강하고 안정적인 재무 특성을 가진 기업이 약하고 불안정한 특성을 가진 기업을 능가한다는 것입니다. "400개 이상의 factor" 수는 각각을 별개로 취급하여, multiple testing 문제와 복제 실패율을 모두 부풀립니다.

Factor를 경제적 메커니즘 — value, momentum, profitability/quality, risk, size, investment, liquidity — 에 따라 그룹화하면, 진정으로 독립적인 수익원의 수는 아마 6~8개 계열로 줄어듭니다. 각 계열 내에서 최적의 사양이 다른 것들을 능가하지만, 대부분의 계열 구성원은 최적의 것이 포함된 후에는 미약하게만 기여합니다.

이 중복성은 복제 논쟁에 심대한 시사점을 가집니다:

Harvey 등이 계수한 316개 factor는 316개의 독립적 테스트가 아닙니다 — 아마 30~50개의 독립적 테스트이며, 각각이 여러 렌즈를 통해 조사된 것입니다
특정 quality 측정값의 복제 "실패"는 quality가 가짜라는 것을 의미하지 않습니다 — 그 특정 사양이 같은 계열의 다른 것들보다 열등할 수 있다는 것을 의미합니다
Multiple testing 조정은 개별 사양이 아닌 factor 계열에 적용되어야 합니다

Machine Learning과 새로운 Factor 발견

자산 가격 결정에서 machine learning의 등장(Gu, Kelly, Xiu, 2020)은 복제 논쟁에 새로운 차원을 추가합니다. ML 방법은 전통적 선형 방법이 놓치는 특성 간의 비선형, 상호작용적 관계를 식별할 수 있습니다. 이 능력은 양면적입니다:

긍정적 해석: ML 방법은 선형 factor 모형이 포착할 수 없는 진정한 수익률 예측 가능성을 식별할 수 있습니다. 400개 이상의 선형 factor로 구성된 "factor zoo"는 더 적은 수의 비선형 관계에 대한 조잡한 근사일 수 있습니다. ML은 개별 factor가 근사하는 기저 구조를 감지할 수 있습니다.

부정적 해석: ML 방법은 과적합에 대한 엄청난 능력을 가지고 있습니다. 충분한 매개변수를 가진 신경망은 noise를 포함한 모든 in-sample 패턴에 적합할 수 있습니다. 엄격한 out-of-sample 테스트와 경제적 사전 없이는, ML이 발견한 예측 가능성이 전통적 factor 분석보다 데이터 마이닝에 더 취약할 수 있습니다.

Gu, Kelly, Xiu는 광범위한 out-of-sample 테스트를 통해 이 우려를 다루었으며, ML 모형이 최적 선형 모형보다 약 3배 높은 R²로 out-of-sample에서 진정으로 수익률을 예측한다는 것을 발견했습니다. 그러나 ML 예측을 구성 특성으로 분해했을 때, 지배적 예측 변수는 익숙한 것이었습니다: momentum, value, liquidity, volatility. ML 모형은 새로운 factor를 발견한 것이 아니라 — 알려진 factor를 결합하는 더 나은 방법, 특히 비선형 상호작용을 통한 결합을 발견한 것이었습니다.

이 발견은 본 연구의 3단계 분류를 지지합니다. 전통적 방법에 의해 식별된 견고한 핵심 factor는 ML 방법에 의해 식별된 핵심이기도 합니다. ML의 추가적 복잡성은 주로 이러한 factor가 결합되는 방식을 개선하며, 어떤 factor가 중요한지를 변경하지는 않습니다.

Part V: 결과와 해석

세 가지 가설의 평가

12개 복제 연구로부터의 증거를 수집하고 분석한 후, 이제 세 가지 경쟁 가설을 평가합니다.

H1 (데이터 마이닝) — 부분적으로 지지되지만, 지나치게 단순합니다.

지지하는 증거:

Harvey, Liu, Zhu의 multiple testing 논증은 통계적으로 타당합니다: 400개 이상의 factor 중 다수는 의심할 여지 없이 거짓 발견입니다
일부 anomaly는 1963년 이전 데이터(Linnainmaa & Roberts)에서 완전히 사라지거나, 정확한 복제에서도 실패합니다
발표된 factor의 엄청난 수(400개 이상)는 관대한 유의성 기준에서도 일부 위양성을 보장합니다
많은 anomaly가 표준화된 복제 하에서 실패하며, 이는 과적합의 특성인 사양 선택에 대한 민감도를 시사합니다

반대하는 증거:

발표 후 감소가 부분적(42% 생존)이지 완전하지 않습니다 — 순수한 데이터 마이닝은 0의 생존을 예측합니다
기관 거래가 발표 후 증가하고 감소와 상관관계가 있습니다 (Calluzzo et al.) — 데이터 마이닝은 이를 설명할 수 없습니다
견고한 핵심 factor(value, momentum, profitability, low volatility)는 독립적 시장, 시간 기간, 자산 클래스, 방법론에 걸쳐 복제됩니다 — 데이터 마이닝과 양립할 수 없는 패턴입니다
ML 방법(Gu, Kelly, Xiu)이 완전히 다른 통계적 방법을 통해 동일한 핵심 factor를 식별하여 독립적 확인을 제공합니다

H1에 대한 판정: Factor zoo의 아마 50~60%(통계적 noise 계층)에 대해서는 참이지만, 견고한 핵심에 대해서는 거짓입니다. 순수한 데이터 마이닝 가설은 너무 포괄적입니다 — 모든 anomaly를 동일하게 취급하며, 어떤 anomaly가 살아남고 어떤 것이 그렇지 않은지의 체계적 패턴을 설명할 수 없습니다.

H2 (차익거래) — 강력한 메커니즘적 증거와 함께 부분적으로 지지됩니다.

지지하는 증거:

Calluzzo 등의 발표에 대한 기관 거래 반응의 직접적 증거는 설득력이 있습니다
부분적 발표 후 감소(완전하지 않은)는 정확히 차익거래의 한계 이론이 예측하는 바입니다
거래하기 쉬운 anomaly(대형주, 유동적, 낮은 turnover)가 거래하기 어려운 anomaly보다 더 큰 발표 후 감소를 보입니다 — 차익거래 자본이 가장 쉬운 기회로 먼저 흐르는 것과 일관됩니다
견고한 핵심 factor는 평균 anomaly보다 작은 발표 후 감소를 보이며, 수용력 제약이 차익거래를 제한하는 것과 일관됩니다
수십 년간의 발표 후에도 premium이 지속되는 것(value는 적어도 1934년 Graham과 Dodd 이래로 알려져 왔습니다)은 차익거래의 구조적 한계와 일관되며, 데이터 마이닝이 아닙니다

반대하는 증거:

일부 anomaly는 표준화된 방법론 하에서 원래 표본 기간에서조차 복제에 실패합니다 — 차익거래는 동시대 데이터에서의 실패를 설명할 수 없습니다
차익거래 가설은 왜 일부 anomaly가 사양 민감적인지를 설명할 수 없습니다 — 실제 경제 현상은 합리적인 방법론적 선택에 견고해야 합니다
이 가설은 모든 anomaly가 발표 이전에는 실제였다는 것을 함축하며, 이는 많은 것이 거짓 발견이라는 Harvey 등의 통계적 주장과 일관되지 않습니다

H2에 대한 판정: 의미 있는 anomaly 하위 집합 — 아마 factor zoo의 20~30%(취약한 중간층과 견고한 핵심의 일부) — 에 대해 참입니다. 차익거래 메커니즘은 실제이고 중요하지만, 모든 anomaly 역학을 설명하지는 않습니다. 데이터 마이닝 및 방법론적 민감도와 함께 작동합니다.

H3 (정의적) — 조직 프레임워크로서 강력하게 지지됩니다.

지지하는 증거:

연구의 복제율의 가장 강력한 단일 예측 변수는 어떤 anomaly를 조사했는지가 아니라 방법론적 접근법입니다
Chen과 Zimmermann 및 Hou, Xue, Zhang은 대부분 겹치는 anomaly 세트를 조사하고 방법론적 차이 때문에 반대 결론에 도달했습니다
같은 anomaly가 가중 방식, breakpoint, 포함 기준, 유의성 기준, 비용 고려 여부에 따라 복제됨 또는 실패로 분류될 수 있습니다
Harvey 등(대부분 실패), McLean & Pontiff(대부분 감소와 함께 생존), Chen & Zimmermann(대부분 복제됨) 사이의 3자 불일치는 각각이 다른 질문에 답하고 있다는 것을 인식하면 완전히 해결됩니다
국제적 복제율(~50%)은 실제와 허위 anomaly의 혼합과 일관되며, 전부 아니면 전무의 위기가 아닙니다

반대하는 증거:

불일치가 순전히 정의적이라면, 모든 방법론에 걸쳐 일관되게 실패하는 anomaly가 없어야 합니다. 그러한 anomaly의 존재(calendar effect, 일부 미시구조 기반 anomaly)는 데이터 마이닝이 정의적 인공물뿐만 아니라 실재한다는 것을 의미합니다
정의적 가설은 반증 불가능한 것으로 볼 수 있습니다 — "답은 정의에 따라 달라진다"는 사소한 의미에서 항상 참입니다

H3에 대한 판정: H3는 올바른 조직 프레임워크입니다. 복제 문헌에서의 명백한 모순은 주로(전적으로는 아니지만) 서로 다른 연구가 서로 다른 질문을 하고 서로 다른 방법을 사용한 결과입니다. "복제 위기"는 주로 정의의 위기이며, 과학의 위기가 아닙니다.

3단계 종합

세 가지 가설 모두에 걸친 증거를 결합하여, 핵심 발견에 도달합니다: factor zoo는 서로 다른 복제 특성을 가진 세 개의 뚜렷한 모집단을 포함합니다.

1단계: 견고한 핵심 (15~25개 factor)

이 anomaly는 네 가지 복제 필터 모두를 통과합니다: 정확한 통계적, 표준화된 통계적, multiple testing, 경제적(비용 후). 이것들은 다음의 특징을 가집니다:

위험, 행동 편향, 또는 제도적 제약에 근거한 강력한 이론적 기반
여러 독립적 시장과 시간 기간에 걸친 복제
완만하지만 지속적인 발표 후 감소 (부분적 차익거래와 일관)
기관 규모에서 거래할 수 있는 충분한 수용력
비용 효율적 구현을 가능하게 하는 낮은~중간 turnover

견고한 핵심은 다음을 포함합니다:

Value (book-to-market, earnings yield, cash flow yield): 위험 기반 및 행동적 설명; Graham과 Dodd (1934) 이래로 전 세계적으로 기록됨
Momentum (12개월 minus 1개월 수익률): 행동적 (정보에 대한 과소반응); 40개 이상의 시장과 여러 자산 클래스에서 기록됨
Profitability (gross profitability, operating profitability): 경제적 논리 (수익성 있는 기업이 더 가치 있음); Novy-Marx와 Fama-French에 의해 독립적으로 확인됨
Low volatility / Betting Against Beta (low beta, low idiosyncratic volatility): 레버리지 제약 메커니즘; 전 세계적으로 자산 클래스에 걸쳐 기록됨
Quality composites (profitability + stability + low leverage): 기업 재무 건전성의 다차원 측정
Investment (asset growth, capital expenditure growth): 경제적 논리 (공격적 투자가 낮은 수익률을 예측함); 위의 것들보다 다소 약한 증거
Earnings momentum (standardised unexpected earnings, analyst revision): Post-earnings-announcement drift; 문헌에서 가장 견고한 anomaly 중 하나
Net issuance (share repurchases vs. issuance): 정보 비대칭 설명; 자사주를 매입하는 기업은 주식이 저평가되어 있음을 알고 있음

2단계: 취약한 중간층 (50~100개 factor)

이 anomaly는 일부 조건에서는 복제되지만 다른 조건에서는 그렇지 않습니다. 통상 필터 1(정확한 복제)은 통과하지만 필터 2~4 중 하나 이상에서 실패합니다. 다음을 포함합니다:

견고한 factor의 사양 민감적 변형 (예: 대안적 momentum 정의, 대안적 quality 지표)
Equal-weighted에서는 작동하지만 value-weighted 포트폴리오에서는 작동하지 않는 anomaly (종종 micro-cap 주식에 의해 주도됨)
통계적으로 유의하지만 거래 비용 후 경제적으로 실행 불가능한 anomaly
미국에서는 복제되지만 국제적으로는 복제되지 않는 anomaly (미국 고유의 회계 또는 제도적 인공물일 가능성)
발표 후 상당히 감소하여 미약한 잔여 premium이 남은 anomaly

이 factor들이 반드시 "가짜"인 것은 아닙니다 — 많은 것이 진정하지만 좁은 현상을 포착합니다. 더 넓은 포트폴리오 구성 프레임워크 내에서 이차적 틸트로 유용할 수 있지만, 신뢰할 수 있는 독립적 수익원은 아닙니다.

3단계: 통계적 Noise (250개 이상 factor)

이 anomaly는 어떤 합리적 기준 하에서도 복제에 실패합니다. 다음을 포함합니다:

대부분 사라진 calendar effect (weekend effect, turn-of-year, holiday effect)
진정한 예측 가능성이 아닌 데이터 오류, bid-ask bounce, 또는 stale pricing을 반영하는 미시구조 인공물
좁은 시간 기간이나 특정 회계 체계에 특유한 회계 기반 anomaly
광범위한 사양 탐색의 산물임이 분명한 "factor", 종종 비정상적 구성 선택으로 식별 가능 (예: 특정 시차 구조에서 세 변수의 상호작용)
Zoo의 다른 factor를 복제하지만 특정 표본에서 우연히 유의성을 달성한 factor

이 factor들은 복제 위기의 인식에 기여합니다. Harvey, Liu, Zhu가 t > 3.0 기준을 제안한 이유입니다. Hou, Xue, Zhang이 64%의 실패율을 발견한 이유입니다. 그러나 이것들은 factor zoo 전체를 대표하지 않습니다 — 어떤 대규모 실증 연구 프로그램에도 수반되는 noise입니다.

신뢰도 평가

전체 프레임워크에 대해 5점 만점 중 4점의 신뢰도를 부여합니다.

가장 높은 신뢰도 영역 (5점 만점 중 5점):

복제 연구 간의 불일치는 주로 방법론적이며, 실체적이지 않습니다
모든 복제 필터를 통과하는 견고한 핵심 factor가 존재합니다
순수한 데이터 마이닝은 전체 증거 패턴을 설명할 수 없습니다 (부분적 감소, 국제적 복제, 기관 거래 반응)

중간 신뢰도 영역 (5점 만점 중 3~4점):

견고한 핵심의 정확한 크기 (15~25개로 추정하지만, 경계가 모호합니다)
순수한 noise인 factor zoo의 비율 (60% 이상으로 추정하지만, 적용되는 통계적 기준에 따라 달라집니다)
발표 후 감소를 설명하는 데 있어 차익거래 대 데이터 마이닝의 상대적 중요성

낮은 신뢰도 영역 (5점 만점 중 2~3점):

"취약한 중간층"의 특정 factor가 견고한 핵심 또는 noise 계층에 속하는지 여부
ML 방법이 비선형 관계를 식별하여 견고한 핵심을 확장할지, 아니면 단순히 기존 factor의 조합을 최적화할지
Factor premium의 장기적 미래 — 견고한 핵심이 무한히 지속될지, 아니면 증가하는 자본 흐름이 결국 이것마저 제거할지

Part VI: 다른 분야와의 비교

금융 vs. 심리학: 서로 다른 위기

금융의 복제 위기는 종종 심리학의 복제 위기와 비교되지만, 이 둘은 근본적으로 다릅니다.

심리학에서 Open Science Collaboration (2015)은 100개의 발표된 연구를 복제하려 시도했으며, 복제에서 유의한 결과를 산출한 것은 36%에 불과하다는 것을 발견했습니다. 이것은 방법론의 위기로 널리 해석되었습니다 — 검정력 부족 연구, p-hacking, 출판 편향이 위양성이 지배하는 문헌을 생산했다는 것입니다.

금융에서 Hou, Xue, Zhang의 "36% 복제율"은 표면적으로 유사하지만 메커니즘적으로 다릅니다. 금융 연구는 통상 훨씬 더 큰 표본 크기(수천 개의 주식이 수십 년간 월간으로 관찰됨)를 가지며, 이는 일반적으로 충분한 검정력을 가짐을 의미합니다. 금융에서의 주요 문제는 검정력 부족 연구가 아니라 multiple testing(같은 데이터에 대한 너무 많은 가설)과 방법론적 민감도(구성 선택에 따라 변하는 결과)입니다.

또한 심리학의 복제 실패는 종종 절대적이었습니다 — 복제된 효과가 0이거나 반대 부호였습니다. 금융의 "실패"는 종종 부분적입니다 — 효과가 존재하지만 더 낮은 규모로, 다른 사양에서, 또는 미약한 유의성으로. 이 부분적 복제는 명백한 거짓 발견보다 방법론적 민감도와 더 일관됩니다.

금융 vs. 의학: 유사한 구조적 인센티브

금융의 구조적 인센티브는 John Ioannidis가 유명하게 "대부분의 발표된 연구 결과가 거짓"이라고 주장한 의학의 것과 더 유사합니다. 두 분야 모두에서:

최상위 학술지 출판을 위한 치열한 경쟁이 있습니다
새롭고 놀라운 발견이 귀무 결과보다 선호됩니다
연구자들이 연구 설계에서 상당한 자유도를 가집니다 (표본, 변수, 모형 사양의 선택)
많은 연구자들이 동일한 기저 데이터 소스를 사용합니다 (금융에서는 CRSP/Compustat; 의학에서는 공통 임상시험 데이터베이스)

핵심적 차이는 금융이 의학에 종종 부재하는 자연적 out-of-sample 테스트를 가지고 있다는 것입니다: 시간. 2005년에 발표된 금융 anomaly는 2005년 이후 데이터에서 지속되는지 테스트할 수 있습니다. 특정 치료에 대한 의학적 발견은 소급적으로 테스트할 수 없습니다. 이것은 금융에 McLean과 Pontiff 등이 활용한 내재적 자기 교정 메커니즘을 제공합니다.

Part VII: 한계와 주장할 수 없는 것

계승된 한계

이 분석은 발표된 결과를 종합한 것입니다 — 새로운 회귀 분석을 수행하거나, 새로운 factor를 구성하거나, 새로운 데이터를 테스트하지 않았습니다. 본 연구의 결론은 기저 연구의 모든 한계를 계승합니다.

CRSP/Compustat 단일문화. 미국 자산 가격 결정 연구의 압도적 다수가 CRSP(주식 수익률)와 Compustat(회계 데이터)의 데이터를 사용합니다. 이것은 미묘한 형태의 공통 편향을 만들어 냅니다: 이 데이터베이스의 모든 체계적 오류 — 생존 편향, 소급 충전 편향, 데이터 수정, 커버리지 공백 — 가 전체 문헌을 통해 전파됩니다. 원본 연구와 같은 CRSP/Compustat 데이터를 사용하는 복제 연구는 방법론적 재현성을 테스트하는 것이지, 데이터 독립성을 테스트하는 것이 아닙니다. 국제적 복제(Jacobs와 Muller)와 대안적 데이터 소스(Linnainmaa와 Roberts의 수작업 수집 1963년 이전 데이터 등)만이 진정으로 독립적인 증거를 제공합니다.

복제 연구의 출판 편향. 이전에 언급했지만 반복할 가치가 있습니다: 극적인 결론에 도달하는 복제 연구("위기" 또는 "위기 아님")가 모호한 발견을 가진 연구보다 출판될 가능성이 높습니다. 본 연구의 증거 기반은 복제 분포의 극단을 과대 대표할 수 있습니다. 예를 들어 55%의 복제율을 발견한 연구 — 어느 방향으로도 극적이지 않은 — 는 파일 서랍에 미발표로 남아있을 수 있습니다.

시변적 위험 premium. 발표 후 감소(차익거래) 또는 데이터 마이닝에 귀속하는 것 중 일부는 실제로 시변적 위험 보상을 반영할 수 있습니다. 주식 위험 premium이 1980년대 이후 감소했다면(일부 증거가 시사하듯), 시장 대비 측정된 모든 factor premium도 감소할 것입니다. 이 혼동 요인은 시변적 위험의 구조적 모형 없이는 해결이 어려우며, 이는 문헌 종합의 범위를 넘어섭니다.

Factor의 생존 편향. Factor zoo 자체에 생존 편향이 있을 수 있습니다. In-sample에서 우연히 작동한 factor는 발표되었고, 그렇지 않은 것은 포기되었습니다. 그러나 포기된 factor 중에는 out-of-sample에서 작동했을 것이 포함될 수 있고, 발표된 factor 중에는 그렇지 않았을 것이 있을 수 있습니다. 발표된 factor의 모집단은 테스트된 factor 모집단의 편향된 표본입니다.

어떤 특정 anomaly가 "실제"인지 식별할 수 없습니다. 본 연구의 3단계 프레임워크는 개별 factor가 아닌 모집단을 기술합니다. 특정 anomaly를 견고한 핵심, 취약한 중간층, noise 계층에 배정하려면, 기저 복제 연구들이 수행한 상세한 실증 분석이 필요합니다. 본 연구는 프레임워크를 제공하며, 12개 연구가 분류를 위한 증거를 제공합니다.

본 연구의 결론을 바꿀 증거

어떤 증거가 본 연구의 견해를 수정하게 할 것인지 명시하는 것이 중요합니다:

H1(데이터 마이닝)을 강화할 증거:

정확한 방법론을 사용하는 포괄적 복제(Chen과 Zimmermann의 것과 같은)가 훨씬 낮은 복제율 — 예를 들어 82% 대신 50% — 을 발견한다면, 정확한 복제조차 현재 우리가 믿는 것보다 더 자주 실패한다는 것을 시사할 것입니다
견고한 핵심 factor(value, momentum)가 2020년 이후 데이터에서 모든 시장과 사양에 걸쳐 0 또는 음의 premium을 보이기 시작한다면, "실제이지만 차익거래됨" 해석에 도전할 것입니다

H2(차익거래)를 강화할 증거:

자연 실험(예: 특정 언어로 발표된 factor가 갑자기 번역되어 새로운 시장에 전파되는 경우)이 해당 시장에서 즉각적인 factor 감소를 보여준다면, 차익거래 채널에 대한 깨끗한 인과적 증거를 제공할 것입니다
Factor 기반 ETF의 성장이 Granger 인과 프레임워크에서 factor 감소와 직접적으로 연결될 수 있다면

H3(정의적)을 약화시킬 증거:

두 복제 연구가 동일한 방법론을 사용했지만 서로 다른 anomaly 표본에서 반대 결론에 도달한다면, anomaly 특성이 우리가 믿는 것보다 더 중요하다는 것을 시사할 것입니다
연구 간 복제율의 변동이 방법론적 차이와 무관하다면, 본 프레임워크는 설명력을 잃을 것입니다

제안된 실증적 테스트

본 프레임워크를 추가적으로 검증하거나 반박할 수 있는 다섯 가지 테스트를 제안합니다:

방법론 회귀: 복제율(12개 연구에 걸쳐)이 anomaly 특성(평균 t-statistic, 경제적 메커니즘 유형, 크기/유동성 집중)을 통제한 후 방법론적 특성(충실도, 기준, 비용 처리)에 의해 예측되는지 테스트합니다. 방법론이 anomaly 특성보다 더 많은 분산을 설명한다면, H3는 강력하게 지지됩니다.
감소 이질성: "견고한 핵심" factor가 "취약한 중간층" factor와 다른 발표 후 감소 패턴을 보이는지 조사합니다. 견고한 핵심은 더 작고 느린 감소를 보여야 합니다; 취약한 중간층은 더 크고 빠른 감소를 보여야 합니다; noise 계층은 즉각적으로 0으로 감소해야 합니다.
ML 지배 테스트: 견고한 핵심 factor만의 ML 조합으로 구성된 포트폴리오가 취약한 중간층 factor도 포함하는 포트폴리오를 지배하는지 테스트합니다. 견고한 핵심이 충분하다면, 취약한 중간층 factor는 신호가 아닌 noise를 추가합니다.
Factor 수용력 매핑: 각 견고한 핵심 factor에 대해, 비용 후 net premium이 양수로 남는 최대 포트폴리오 크기를 추정합니다. 이것은 질적인 "비용에서 생존함" 평가를 양적 수용력 추정치로 전환할 것입니다.
실시간 복제: Factor 수익률이 발생하는 대로(소급적이 아닌) 모니터링하는 전향적, 실시간 추적 시스템을 확립합니다. 이것은 모든 선행 편향을 제거하고, factor 지속성에 대한 가장 깨끗한 테스트를 제공합니다.

Part VIII: 시사점

기관 투자자를 위한 시사점

Factor 선택은 대체로 해결되었습니다. 복제 문헌은 신뢰할 수 있는 핵심 factor에 수렴했습니다: value, momentum, profitability/quality, low volatility입니다. 어떤 factor가 "실제"인지에 대한 논쟁은 이 핵심 그룹에 대해서는 대체로 결착되었습니다. 남은 열린 질문은 구현에 관한 것이지, 선택에 관한 것이 아닙니다.

구현이 alpha입니다. 순진하게 구성된 factor 포트폴리오와 정교하게 구성된 것 사이의 차이는 연간 100~200 basis points가 될 수 있습니다. 이 구현 격차 — turnover 관리, 리밸런싱 빈도, 수용력 인식 규모 조정, 실행 품질에 의해 주도되는 — 는 종종 한계적 factor를 포함하거나 제외하는 차이보다 큽니다. 기관 투자자에게 경쟁 우위의 주요 원천은 factor 발견이 아니라 factor 구성입니다.

취약한 중간층을 경계하십시오. 취약한 중간층의 50~100개 factor는 유혹을 제공합니다: 백테스트에서 잘 수행되고 분산 효과를 추가하는 것처럼 보입니다. 그러나 그 취약성 — 사양 민감도, 비용 후 미약함, 시장에 걸쳐 불일치 — 은 이미 견고한 핵심을 포착하는 포트폴리오에 수익률보다 noise를 추가할 가능성이 높다는 것을 의미합니다. 취약한 중간층 factor를 포함하기 위한 입증 부담은 높아야 합니다: 여러 사양에 걸친 입증된 견고성, 명확한 경제적 메커니즘, 의도된 포트폴리오 규모에서의 양수 net 비용 후 수익률.

수용력이 구속적 제약입니다. 견고한 핵심 factor조차 유한한 수용력을 가지고 있습니다. 더 많은 자본이 factor 기반 전략(smart beta ETF, 퀀트 펀드, 기관 위탁운용)으로 흐르면서, factor premium은 압축될 것입니다. 문제는 이 압축이 발생할지 여부가 아니라, premium이 완전히 차익거래되기 전에 얼마나 많은 수용력이 남아있는가입니다. 추정치는 크게 다르지만, 주요 factor들을 합산한 총 factor 전략 수용력의 합의 범위는 1~5조 달러입니다. 명시적 factor 전략의 현재 총 자산은 이 범위에 접근하고 있어, 향후 premium이 역사적 추정치보다 작을 수 있음을 시사합니다.

레짐 변화를 모니터링하십시오. Factor premium은 일정하지 않습니다 — 경제 레짐, 시장 상황, 구조적 변화에 따라 달라집니다. Momentum은 정상적인 시장에서 잘 작동하지만, 레짐 전환(2009년 3월 momentum crash 등) 시 파괴적인 폭락을 겪습니다. Value는 장기간(2010-2020) 저조한 성과를 보인 후 복귀했습니다. Low volatility 전략은 금리 상승 환경에 취약합니다. 기관 투자자들은 정적 가중치를 유지하는 것보다 시장 상황에 기반하여 factor 익스포저를 조정하는 레짐 인식 factor 배분을 유지해야 합니다.

개인 투자자를 위한 시사점

단순함이 복잡함을 이깁니다. 개인 투자자를 위한 복제 문헌의 실질적 시사점은 해방적입니다: 400개 이상의 factor를 이해할 필요가 없습니다. 투자 가능한 세트는 작습니다. 광범위한 시장 익스포저(60~70%)와 value, momentum, quality, low volatility에 대한 표적 틸트(30~40%)로 구성된 포트폴리오가 이용 가능한 factor premium의 대부분을 포착합니다. 이 틸트는 총 비용 비율이 30 basis points 미만인 저비용 ETF를 통해 접근할 수 있습니다.

새로운 전략에 회의적이어야 합니다. 복제 문헌은 새로 발표된 anomaly의 약 50~65%가 엄격한 기준 하에서 복제에 실패할 것이며, 나머지 대부분도 거래 비용에서 살아남지 못할 것임을 보여줍니다. 단일 학술 anomaly — 특히 최근에 발표된 것 — 에 기반하여 판매되는 투자 상품은 깊은 회의적 시각으로 바라보아야 합니다. 입증 부담은 복제, 견고성, 비용 후 실행 가능성을 증명하는 상품 제공자에게 있습니다.

시간 지평이 factor 선택보다 중요합니다. 긴 시간 지평(20년 이상)을 가진 개인 투자자에게 가장 중요한 투자 결정은 어떤 factor를 틸트할지가 아니라 불가피한 하락장에서 주식 익스포저를 유지할지 여부입니다. 연간 2~4%의 견고한 factor premium은 수십 년에 걸쳐 상당히 복리 효과를 발휘하지만, 투자를 유지하는 투자자에게만 해당됩니다. Factor timing — 시장 상황에 따라 value와 momentum 사이를 전환하려는 시도 — 은 기관 투자자에게도 어렵고, 개인 투자자에게는 가치를 파괴할 가능성이 높습니다.

혼란스럽다면 factor zoo를 완전히 피하십시오. Factor zoo가 압도적으로 느껴진다면, 단순한 총 시장 인덱스 펀드는 완벽히 합리적인 선택입니다. 견고한 factor premium은 실제이지만 보통 수준(비용 전 연간 2~4%)이며, 이를 달성하려면 규율이 필요합니다: 불가피한 저조한 성과 기간(개별 factor의 경우 5~10년 지속될 수 있음)을 견디며 factor 틸트를 유지하는 것입니다. 3년간의 저조한 성과 후 value 틸트를 패닉 매도하는 투자자는 시장 인덱스를 단순히 보유한 투자자보다 나쁜 수익률을 기록할 것입니다.

연구자와 학계를 위한 시사점

복제 보고를 표준화하십시오. 이 분야는 여러 수준에서 결과를 보고하는 표준화된 복제 프레임워크로부터 막대한 혜택을 받을 것입니다:

정확한 원본 방법론을 사용한 통계적 복제
표준화된 방법론을 사용한 통계적 복제
Multiple-testing 조정 유의성
현실적 거래 비용 후 경제적 복제
Out-of-sample/국제적 복제

복제의 한 수준만 보고하는 개별 연구는 미디어, 실무자, 다른 연구자에 의해 오해될 수 있고 — 실제로 오해되어 온 — 불완전한 그림을 제공합니다.

Bayesian 방법을 채택하십시오. 기준값 기반 프레임워크(유의 vs. 비유의)는 인위적 절벽 효과를 만들고, 연속적 현실에 이진 분류를 강제합니다. Jensen, Kelly, Pedersen이 보여준 바와 같이 Bayesian shrinkage 방법은 factor premium에 대한 지식의 상태를 더 뉘앙스 있고 정확하게 표현합니다.

오픈소스가 미래입니다. Chen과 Zimmermann의 오픈소스 복제 코드 저장소는 재현성의 새로운 기준을 세웠습니다. 향후 anomaly 논문은 복제 코드와 데이터를 제공하여 독립적 검증을 가능하게 하도록 요구되어야 합니다. 이것은 리뷰어와 독자가 대안적 사양을 테스트할 수 있기 때문에 데이터 마이닝과 사양 탐색의 범위를 극적으로 줄일 것입니다.

경제적 메커니즘에 집중하십시오. 복제 문헌은 대체로 실증적이었습니다 — 효과가 존재하는지 테스트했지, 왜 존재하는지 설명하지 않았습니다. 설득력 있는 경제적 메커니즘 없는 factor는 본질적으로 취약합니다. 왜냐하면 지속할 선험적 이유가 없기 때문입니다. 가장 엄격한 복제 검증에서 살아남은 factor(value, momentum, profitability, low volatility)는 정확히 가장 강력한 이론적 기반을 가진 것입니다. 향후 factor 연구는 메커니즘을 선행하고 증거를 후행해야 하며, 그 반대가 아닙니다.

중복을 줄이십시오. Factor zoo는 통합으로부터 혜택을 받을 것입니다. Quality 측정값의 17번째 변형을 발표하는 대신, 연구자들은 진정으로 독립적인 수익원을 식별하고 그것을 주도하는 경제적 메커니즘을 이해하는 데 집중해야 합니다. 15개의 잘 이해되고, 견고하게 기록된 factor를 가진 factor zoo는 400개 이상의 제대로 이해되지 못한, 부분적으로 중복된 factor를 가진 것보다 과학적으로 더 가치 있습니다.

References

Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.

개인 투자자를 위한 실용적 활용

편집자 노트

핵심 요약

Part I: 아무도 합의하지 못한 질문

400개 이상의 Factor에 이르기까지

Multiple Testing 문제

반격

역설

Part II: 연구 질문과 경쟁 가설

질문의 형식화

H1 — 데이터 마이닝 가설

H2 — 차익거래 가설

H3 — 정의적 가설

Part III: 증거 기반 — 12개 연구 상세 분석

연구 1: Schwert (2003) — 최초의 경고

연구 2: Harvey, Liu & Zhu (2016) — Multiple Testing 조정

연구 3: McLean & Pontiff (2016) — 자연 실험

연구 4: Green, Hand & Zhang (2017) — Holdout 테스트

연구 5: Linnainmaa & Roberts (2018) — 1963년 이전 테스트

연구 6: Hou, Xue & Zhang (2020) — 표준화된 복제

연구 7: Jacobs & Muller (2020) — 국제적 복제

연구 8: Chen & Zimmermann (2022) — 정확한 방법론 복제

연구 9: Jensen, Kelly & Pedersen (2023) — Bayesian 조화

연구 10: Novy-Marx & Velikov (2016) — 거래 비용 필터

연구 11: Chordia, Goyal & Saretto (2020) — 결합 필터

연구 12: Calluzzo, Moneta & Topaloglu (2019) — 차익거래 메커니즘

Part IV: 분석 — 복제의 세 차원

프레임워크의 구축

차원 1: 방법론적 충실도

사례 연구: Size Effect의 방법론적 민감도

차원 2: 통계적 기준

Bayesian 대안

차원 3: 경제적 복제 vs. 통계적 복제

경제적 복제 성적표

심층 분석: 네 가지 필터를 통한 Momentum

심층 분석: 네 가지 필터를 통한 Accruals

중복성 문제

Machine Learning과 새로운 Factor 발견

Part V: 결과와 해석

세 가지 가설의 평가

3단계 종합

신뢰도 평가

Part VI: 다른 분야와의 비교

금융 vs. 심리학: 서로 다른 위기

금융 vs. 의학: 유사한 구조적 인센티브

Part VII: 한계와 주장할 수 없는 것

계승된 한계

본 연구의 결론을 바꿀 증거

제안된 실증적 테스트

Part VIII: 시사점

기관 투자자를 위한 시사점

개인 투자자를 위한 시사점

연구자와 학계를 위한 시사점

관련

References