자산 가격 결정에서의 머신러닝: 실제로 무엇이 효과가 있는가

30,000개 주식, 900개 예측 변수, 하나의 질문

1957년부터 2016년까지, 거시경제 지표와 기업 특성으로 훈련된 신경망은 개별 미국 주식 수익률에 대해 표본 외 R-제곱 0.40%를 달성했습니다. 이 숫자는 작아 보이지만, 30,000개 이상의 주식 유니버스에서는 수익률 예측의 아주 작은 우위도 경제적으로 유의미한 포트폴리오 수익으로 전환됩니다. 이 신경망 예측을 기반으로 구성한 롱-숏 포트폴리오는 1.8 이상의 샤프 비율을 기록했습니다 — 동일한 기간 동안 최고의 선형 모델이 달성한 수치의 두 배 이상입니다.

이것은 현대 실증 금융에서 가장 많이 인용되는 논문 중 하나인 "Empirical Asset Pricing via Machine Learning"의 주요 발견입니다. 이 논문은 Sheng Gu, Bryan Kelly, Dacheng Xiu에 의해 2020년 Review of Financial Studies에 게재되었습니다 (Gu, Kelly & Xiu, 2020). 이 논문은 금융의 근본적인 문제인 주식 수익률 예측에 적용된 모든 주요 머신러닝 방법 간의 체계적인 경쟁을 수행했으며, 그 결론은 효율적 시장 진영과 팩터 동물원 회의론자 모두에게 도전장을 던집니다.

문제: 너무 많은 팩터, 부족한 신호

자산 가격 결정에는 데이터 문제가 있습니다. 지난 30년간 연구자들은 주식 수익률을 예측한다고 주장하는 수백 개의 변수를 제안했습니다. 장부가 대비 시장가, 모멘텀, 수익성, 투자, 발생액, 주식 발행, 고유 변동성 — 그 목록은 이제 400개 이상의 발표된 이상현상을 초과합니다. Harvey, Liu, Zhu는 2016년 논문에서 이 폭발적 증가를 기록하며 대부분의 이러한 "발견"은 데이터 마이닝에 의해 증폭된 통계적 잡음이라고 주장했습니다 (Harvey, Liu & Zhu, 2016).

이 문제에 대한 전통적 접근법은 선형적입니다. 소수의 팩터를 선택하고, 회귀분석을 실행하고, t-통계량을 확인합니다. 파마-프렌치 5팩터 모델은 5개 변수를 사용합니다. 가장 야심찬 선형 모델도 수십 개 이상을 사용하는 경우는 드뭅니다. 이유는 간단합니다: 선형 회귀는 심각한 과적합 없이 수백 개의 상관된 예측 변수를 처리할 수 없습니다. 선형 모델에 더 많은 변수를 추가하면 결국 예측이 개선되는 것이 아니라 악화됩니다.

머신러닝은 이 계산을 바꿉니다. 랜덤 포레스트, 그래디언트 부스티드 트리, 신경망과 같은 방법은 고차원의 잡음이 많은 데이터에서 신호를 추출하도록 특별히 설계되었습니다. 이들은 선형 모델이 완전히 놓치는 변수 간의 비선형 관계와 상호작용을 포착할 수 있습니다. Gu, Kelly, Xiu가 던진 질문은 이러한 방법들이 제안된 모든 주식 예측 변수의 전체 유니버스에 적용될 때 실제로 수익률 예측을 개선하는지 여부였습니다.

경쟁

이 논문은 동일한 데이터로 훈련되고 동일한 표본 외 조건에서 평가된 포괄적인 방법론을 테스트합니다. 전통적인 계량경제학 접근법부터 최첨단 머신러닝까지 다양합니다:

방법	표본 외 R²	월간 샤프 (L/S)
OLS (모든 예측 변수)	-1.01%	0.60
OLS (3개 예측 변수)	0.16%	0.89
Elastic Net	0.21%	1.12
Random Forest	0.23%	1.35
Gradient-Boosted Trees	0.34%	1.51
Neural Network (NN3)	0.40%	1.80
Neural Network (NN5)	0.36%	1.71

이 결과에서 몇 가지 패턴이 나타납니다.

첫째, 모든 예측 변수를 사용한 OLS는 재앙입니다. 음의 R-제곱은 OLS 예측을 사용하는 것보다 모든 주식에 대해 역사적 평균 수익률을 예측하는 것이 더 나았다는 것을 의미합니다. 이는 고차원에서 선형 모델이 과적합된다는 표준적 직관을 확인합니다.

둘째, 정규화가 크게 도움이 됩니다. 계수를 축소하고 변수를 선택하는 페널티 항이 있는 선형 회귀인 Elastic Net은 음의 R-제곱을 양의 값으로 전환합니다. 하지만 Elastic Net은 근본적으로 여전히 선형이기 때문에 개선은 빠르게 정체됩니다.

셋째, 트리 기반 방법이 선형 방법을 능가합니다. 랜덤 포레스트와 그래디언트 부스티드 트리는 예측 변수와 수익률 사이의 비선형 관계를 포착하여 R-제곱을 높이고 샤프 비율을 1.3 이상으로 끌어올립니다.

넷째, 신경망이 승리합니다. 3층 신경망(NN3)이 가장 높은 표본 외 R-제곱과 가장 높은 샤프 비율을 달성합니다. 5층 네트워크(NN5)는 약간 낮은데, 이는 이 응용 분야에서 깊이에 따른 수확 체감을 시사합니다.

신경망이 발견한 것

이 논문의 가장 유익한 기여는 단순한 경쟁 결과가 아니라 승리 모델이 실제로 무엇을 학습하는지에 대한 분석입니다. 변수 중요도 분석이라는 기법을 사용하여 저자들은 각 모델의 예측을 분해하여 어떤 입력이 예측을 주도하는지 파악합니다.

모든 비선형 모델에서 지배적인 예측 변수는 모멘텀입니다 — 하지만 단순한 12개월 모멘텀이 아닙니다. 신경망은 단기 반전(1개월 수익률), 중기 모멘텀(2-12개월), 장기 반전(13-60개월) 간의 복잡한 상호작용을 식별하며, 이는 시장 상황에 따라 달라집니다. 높은 변동성 환경에서는 단기 반전이 지배합니다. 안정적인 시장에서는 중기 모멘텀이 주도합니다.

두 번째로 중요한 범주는 유동성과 거래 활동입니다. 주식 회전율, 매수-매도 스프레드, 달러 거래량과 같은 변수들이 규모 및 모멘텀과 선형 모델이 포착할 수 없는 방식으로 상호작용합니다. 강한 모멘텀을 가진 소형 비유동 주식은 같은 모멘텀 신호를 가진 대형 유동 주식과 다르게 행동합니다.

세 번째 주요 발견은 거시경제적 상호작용의 중요성입니다. 신경망은 기업 특성의 예측력이 경기 주기에 따라 변한다는 것을 학습합니다. 가치주(높은 장부가 대비 시장가)는 경기 침체 시 수익률을 더 강하게 예측하는 반면, 모멘텀은 경기 확장 시 더 잘 작동합니다. 이러한 시간 변동 관계는 고정 계수를 추정하는 표준 선형 모델에서는 보이지 않습니다.

팩터 동물원 길들이기

Feng, Giglio, Xiu의 동반 논문은 이 환경에서 머신러닝이 작동하는 이유에 대한 추가적인 이론적 근거를 제공합니다 (Feng, Giglio & Xiu, 2020). 그들의 프레임워크는 근본적인 질문을 다룹니다: 400개 이상의 제안된 팩터 중에서 어떤 것이 진정으로 위험을 포착하고 어떤 것이 잡음인지 어떻게 판별할 수 있습니까?

전통적 접근법 — 기존 모델에 대해 팩터를 하나씩 테스트하는 것 — 은 다중 검정 문제를 무시하기 때문에 통계적으로 결함이 있습니다. 400개 변수를 검정하면 약 20개가 순전히 우연에 의해 5% 수준에서 유의하게 나타납니다.

Feng, Giglio, Xiu는 머신러닝(구체적으로 LASSO)을 사용하여 다른 팩터를 통제하면서 동시에 중요한 팩터를 선택하는 이중 선택 절차를 제안합니다. 150개 이상의 발표된 팩터에 적용한 결과, 대다수가 중복임을 발견합니다. 다중 검정과 팩터 간 상관을 적절히 고려한 후에는 소수의 팩터만 생존합니다. 생존하는 팩터 — 시장, 규모, 가치, 모멘텀, 수익성 및 소수의 다른 팩터 — 는 Gu, Kelly, Xiu의 신경망이 중요하다고 식별한 것과 밀접하게 일치합니다.

이 수렴은 안심이 됩니다. 신경망은 어떤 이국적이고 해석 불가능한 신호를 발견하는 것이 아닙니다. 잘 알려진 팩터들이 선형 모델이 놓치는 비선형 방식으로 상호작용한다는 것을 발견하는 것입니다.

실무적 의미

실무적 함의는 투자자의 유형에 따라 상당히 다릅니다.

기관 투자자와 헤지펀드의 경우, 이 논문은 퀀트 전략에서 머신러닝으로의 전환을 검증합니다. 표본 외 이익은 효율적으로 거래할 수 있는 포트폴리오에서 거래 비용을 감수하고도 충분히 큽니다. 여러 시스템적 헤지펀드가 현재 신경망 기반 수익률 예측을 핵심 신호로 사용하고 있으며, 구체적인 아키텍처와 훈련 절차는 논문에서 설명하는 것을 훨씬 넘어갑니다.

개인 투자자의 경우 함의는 더 미묘합니다. 이러한 전략을 가정에서 복제할 수 없습니다. 이 논문은 30,000개 주식에 걸친 월간 리밸런싱을 사용하며, 이는 기관 규모의 실행 인프라가 필요합니다. 롱-숏 포트폴리오는 또한 공매도를 필요로 하는데, 이는 개인 계좌에서 비용이 많이 들고 때로는 불가능합니다.

그러나 이 발견은 개인 투자자가 팩터 투자에 대해 생각하는 방식에 간접적인 함의를 가집니다. 진정한 수익 생성 과정이 비선형이라면 — 모멘텀이 변동성이 높은 시장과 안정적인 시장에서 다르게 작동하고, 가치가 경기 주기에 의존한다면 — 단순하고 고정적인 팩터 익스포저는 가용한 프리미엄의 일부만 포착합니다. 이는 고정된 규칙을 단일 특성에 적용하는 팩터 ETF가 백테스트 대비 자주 저조한 이유를 설명하는 데 도움이 됩니다. 진정한 프리미엄은 머신러닝 방법은 포착할 수 있지만 고정 규칙은 포착할 수 없는 동적이고 조건부적인 팩터 익스포저에서 나옵니다.

한계와 미해결 질문

이 논문의 강점은 동시에 한계이기도 합니다. 60년의 표본 기간(1957-2016)은 다수의 시장 국면을 포함하여 일반화에 유리합니다. 하지만 제로에 가까운 금리, 전례 없는 중앙은행 개입, 패시브 투자의 부상으로 특징지어지는 가장 최근의 10년은 구조적 전환점을 나타낼 수 있습니다. 1957-2016 데이터로 훈련된 모델은 팬데믹 이후 환경에서 동일한 성과를 내지 못할 수 있습니다.

신중한 표본 외 설계에도 불구하고 과적합은 여전히 우려됩니다. 저자들은 모델을 주기적으로 재훈련하는 롤링 윈도우 접근법을 사용하지만, 하이퍼파라미터(네트워크 깊이, 정규화 강도, 학습률)의 선택에는 여전히 일부 선행 편향이 포함됩니다. Kelly, Malamud, Zhou(2024)는 후속 논문에서 복잡한 모델이 단순히 과적합하는 것이 아니라 고차원 환경에서 진정으로 우수한 성과를 낼 수 있는 이유에 대한 이론적 정당화를 제공합니다 (Kelly, Malamud & Zhou, 2024).

거래 비용은 인정되지만 완전히 반영되지는 않습니다. 이 논문은 비용 차감 전 샤프 비율을 보고하며, 가장 수익성 높은 전략은 구현 비용이 가장 높은 소형 비유동 주식에서의 활발한 거래를 포함합니다. 현실적인 거래 비용 조정 후 신경망과 더 단순한 방법 간의 이점은 줄어들지만 사라지지는 않습니다.

마지막으로, 이 논문은 미국 주식에만 집중합니다. 동일한 패턴이 국제 시장, 고정 수익, 또는 다른 자산 클래스에서도 유지되는지 여부는 활발한 연구 질문으로 남아 있습니다. 국제 연구의 초기 증거는 유망하지만 결정적이지는 않습니다.

더 큰 그림

Gu, Kelly, Xiu의 논문은 실증적 자산 가격 결정에서 전환점을 표시합니다. 통계적 방법의 선택 — 선형 대 비선형, 단순 대 복잡 — 이 예측 변수의 선택만큼이나 중요하다는 것을 보여줍니다. 수십 년간 자산 가격 연구는 동일한 선형 회귀 도구를 사용하면서 새로운 변수를 발견하는 데 초점을 맞추었습니다. 이 논문은 도구 자체가 병목이었음을 보여줍니다.

함의는 수익률 예측을 넘어 확장됩니다. 주식 수익률이 진정으로 비선형 팩터 상호작용에 의해 주도된다면, 학술 및 실무 금융을 지배하는 표준 팩터 모델 — 3팩터, 5팩터, 6팩터 모델 — 은 근본적으로 잘못 지정되어 있습니다. 이들은 1차 효과를 포착하지만 머신러닝 방법이 활용하는 고차 상호작용을 놓칩니다.

이것이 팩터 모델이 쓸모없다는 것을 의미하지는 않습니다. 개념적 프레임워크와 리스크 귀인 도구로서 여전히 가치가 있습니다. 그러나 예측 도구로서는 상당한 예측력을 테이블 위에 남겨둡니다. 선형과 비선형 방법 사이의 격차는 시장이 우리의 표준 모델이 가정하는 것보다 더 복잡하다는 실증적 증거입니다.

퀀트 전략에 투자하는 모든 사람에게 — 헤지펀드, 스마트 베타 ETF, 또는 자체 시스템적 접근법을 통해서든 — 이 논문의 핵심 메시지는 명확합니다: 방법론이 데이터만큼 중요하며, 가장 단순한 모델이 항상 최선의 모델은 아닙니다.

이 글은 교육 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다. 과거 성과가 미래 결과를 보장하지 않습니다.

참고문헌

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Feng, G., Giglio, S., & Xiu, D. (2020). Taming the Factor Zoo: A Test of New Factors. The Journal of Finance, 75(3), 1327-1370. https://doi.org/10.1111/jofi.12883
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the Cross-Section of Expected Returns. The Review of Financial Studies, 29(1), 5-68. https://doi.org/10.1093/rfs/hhv059
Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
Fama, E. F., & French, K. R. (2015). A Five-Factor Model of Expected Stock Returns. Journal of Financial Economics, 116(1), 1-22. https://doi.org/10.1016/j.jfineco.2014.10.010