복잡성의 미덕: 과도매개변수화 모델이 수익률을 더 잘 예측하는 이유

과적합의 함정은 존재하지 않았습니다

모든 퀀트 금융 교과서는 같은 교훈을 가르칩니다: 모델을 단순하게 유지하십시오. 매개변수를 너무 많이 추가하면 모델이 신호를 학습하는 대신 잡음을 기억합니다. 모든 통계학 학생에게 주입되는 편향-분산 트레이드오프는 특정 최적점을 넘어서면 추가적인 복잡성이 표본 외 성과를 저해한다고 말합니다. 수십 년간 이 원칙은 실무자들이 수익률 예측 모델을 구축하는 방식을 이끌었습니다 — 변수 목록을 축소하고, 큰 계수에 벌칙을 부과하며, 설명력보다 간결성을 선호했습니다.

그 후 이상한 일이 발생했습니다. 금융 이외의 머신러닝 연구에서, 실무자들은 훈련 관측치 수를 훨씬 초과하는 수백만 또는 수십억 개의 매개변수를 가진 엄청나게 거대한 모델이 더 작은 모델보다 일반화 성능이 우수하다는 사실을 발견했습니다. GPT 스타일의 언어 모델, 심층 이미지 분류기, 단백질 접힘 네트워크 모두가 고전적 트레이드오프를 거스르는 결과를 보였습니다. 이 현상은 "양성 과적합(benign overfit)"이라 명명되었으며, 통계적 학습의 이론적 기반을 뒤흔들었습니다.

Bryan Kelly, Semyon Malamud, Kangying Zhou는 이 통찰을 자산 가격 결정에 적용했습니다. Journal of Finance에 2024년 발표된 그들의 논문 "The Virtue of Complexity in Return Prediction"은 과매개변수화된 모델이 수익률 예측에서 간결한 모델을 능가한다는 이론적 프레임워크와 포괄적 실증 증거를 모두 제시합니다(Kelly, Malamud & Zhou, 2024). 이 결과가 퀀트 전략의 구축과 평가 방식에 미치는 함의는 심대합니다.

복잡성이 도움이 되는 이유: 이론

이 논문의 이론적 기여는 퀀트 금융을 오랫동안 괴롭혀온 퍼즐을 해결합니다: 주식 수익률이 예측하기 어려운(낮은 R-제곱) 환경에서, 왜 모델에 매개변수를 더 추가하면 예측이 악화되는 것이 아니라 개선됩니까?

그 답은 신호 환경의 구조에 있습니다. 주식 수익률은 수백 가지 특성의 영향을 받습니다 — 규모, 가치, 모멘텀, 수익성, 투자, 유동성, 변동성, 발생액 등 다수가 해당됩니다. 각 개별 예측변수는 극히 소량의 정보를 담고 있습니다. 신호는 실재하지만 여러 차원에 분산되어 있으며, 각각이 작은 증분의 예측력을 기여합니다.

이러한 환경에서 간결한 모델은 딜레마에 직면합니다. 만약 소수의 예측변수 하위 집합을 선택하면(LASSO나 단계적 회귀처럼), 제외된 변수에 있는 약한 신호를 버리게 됩니다. 만약 모든 예측변수를 동일한 가중치로 포함하면, 무관한 변수의 잡음이 약한 신호를 압도합니다. 어느 쪽이든 모델은 과소 성과를 보입니다.

과매개변수화된 모델은 저자들이 "암묵적 축소(implicit shrinkage)"라고 부르는 메커니즘을 통해 이 딜레마를 해결합니다. 모델이 관측치보다 더 많은 매개변수를 가질 때, 훈련 데이터를 완벽히 적합시키는 매개변수 벡터는 무한히 많습니다. 경사하강법이 자연스럽게 찾는 최소 노름 해는 가중치를 모든 매개변수에 걸쳐 분산시키며, 명시적 벌칙항 없이도 사실상 리지 정규화의 한 형태를 수행합니다. 이 암묵적 축소는 어떤 단일 예측변수도 지배하는 것을 방지하고, 모델이 모든 가용 차원에 걸쳐 약한 신호를 집약할 수 있게 합니다.

수학적 결과는 놀랍습니다: 관측치 수 대비 매개변수 수(과매개변수화 비율)가 증가함에 따라, 표본 외 예측 오차는 먼저 증가하다가(고전적 과적합 구간), 임계 임곗값을 넘어서면 다시 감소합니다. 이것이 딥러닝에서 기록된 "이중 하강(double descent)" 곡선입니다. Kelly, Malamud, Zhou는 이것이 현실적인 조건 하에서 수익률 예측에도 적용됨을 증명합니다.

실증적 경쟁 비교

이 논문은 이론을 포괄적으로 검증합니다. Gu, Kelly, and Xiu (2020)와 동일한 데이터셋 — 1957년부터 2021년까지 전체 CRSP 유니버스의 월간 수익률과 900개 이상의 기업 특성을 잠재적 예측변수로 사용 — 을 기반으로, 저자들은 모델 복잡성을 체계적으로 변화시키며 표본 외 성과를 측정합니다.

결과는 이론과 정확히 일치합니다. 관측치보다 적은 매개변수를 가진 모델(과소매개변수화 영역)은 예상된 패턴을 보입니다: 일정 지점까지 성과가 향상되다가, 그 이후 과적합이 시작됩니다. 그러나 복잡성이 보간 임곗값 — 모델이 훈련 데이터를 완벽히 적합시킬 수 있는 충분한 매개변수를 가진 지점 — 을 넘어서면, 성과가 다시 향상되기 시작합니다. 수만 개의 매개변수를 가진 가장 복잡한 모델이 최고의 표본 외 R-제곱 값을 산출합니다.

경제적 규모는 상당합니다. 신경망 수익률 예측에 기반한 롱-숏 포트폴리오는 모델 복잡성이 증가함에 따라 단조적으로 증가하는 월간 알파를 생성합니다. 가장 복잡한 모델은 연간화 샤프 비율이 2.0을 초과하며, 전통적 계량경제학이 선호하는 간결한 대안을 크게 능가합니다.

복잡한 모델이 포착하는 것

이 논문은 단순한 경쟁 비교를 넘어 복잡한 모델이 단순한 모델이 놓치는 무엇을 포착하는지 조사합니다. 분석 결과 추가적 예측력의 세 가지 핵심 원천이 드러납니다.

첫째, 예측변수 간 비선형 상호작용입니다. 단순한 모델은 각 특성을 독립적으로 처리합니다 — 모멘텀은 기업 규모나 시장 상황에 관계없이 모멘텀입니다. 복잡한 모델은 모멘텀의 예측력이 변동성, 유동성, 경기 순환에 따라 극적으로 달라진다는 사실을 발견합니다. 이러한 조건부 관계는 선형 모델에서는 보이지 않지만 상당한 수익률 예측 내용을 담고 있습니다.

둘째, 시변 팩터 노출입니다. 기업 특성과 기대 수익률 간의 관계는 시장 레짐에 따라 변화합니다. 가치는 경기 침체기와 확장기에서 다르게 작동합니다. 저변동성 주식은 금리 상승 환경과 하락 환경에서 다르게 행동합니다. 충분한 용량을 가진 복잡한 모델은 이러한 레짐 의존적 관계를 데이터로부터 학습할 수 있습니다.

셋째, 꼬리 행동과 극단적 사건입니다. 복잡한 모델은 시장 스트레스 기간의 비선형 역학을 더 잘 포착합니다. 이 논문은 과매개변수화된 모델이 고변동성 기간의 수익률 예측에 특히 효과적이라는 점을 기록합니다 — 이는 정확한 예측이 가장 가치 있는 시점입니다. 가장 복잡한 모델은 표본 내 15차례의 NBER 공식 경기 침체 중 14차례에서 성공적으로 위험을 축소했으며, 이는 어떤 간결한 모델도 달성하지 못한 기록입니다.

이중 하강 곡선

이 논문에서 시각적으로 가장 인상적인 결과는 모델 복잡성에 대한 표본 외 R-제곱을 도시한 이중 하강 곡선입니다. 이 곡선은 다음을 보여줍니다:

복잡성 영역	행동	성과
과소매개변수화 (p < n)	고전적 편향-분산 트레이드오프	중간 수준, 정점 후 하락
보간 임곗값 (p ≈ n)	모델이 훈련 데이터를 완벽히 적합	최악의 성과 (과적합 정점)
과매개변수화 (p >> n)	양성 과적합, 암묵적 축소	최고의 성과, 복잡성과 함께 향상

이 U자형 패턴(더 정확히는, 보간 정점 이후의 두 번째 하강)은 고전적 과적합 지점에서 복잡성 추가를 멈춘 실무자들이 예측력을 놓치고 있었음을 설명합니다. 핵심 통찰은 양성 과적합 영역에 도달하기 위해 과적합 구간을 통과해야 한다는 것입니다.

Gu, Kelly, and Xiu (2020)와의 연결

이 논문은 획기적인 ML 경쟁 비교 연구의 자연스러운 후속편입니다. Gu, Kelly, and Xiu (2020)가 신경망이 수익률 예측에서 선형 모델을 능가한다는 사실을 실증적으로 보여준 반면, 본 논문은 그 이유를 설명합니다. 이전 연구가 무엇을 보여주었다면, 본 연구는 이론적 메커니즘을 제공합니다.

이 연결은 이전 연구의 한 가지 긴장도 해소합니다. Gu, Kelly, Xiu는 3층 신경망(NN3)이 5층 신경망(NN5)보다 우수한 성과를 보인다고 발견했는데, 이는 깊이에 대한 수확 체감을 시사하는 것처럼 보였습니다. Kelly, Malamud, Zhou는 이 발견을 재해석합니다: 복잡성의 관련 척도는 깊이만이 아니라 총 매개변수 수입니다. 복잡성을 올바르게 측정하면 — 과매개변수화 비율로 — 더 많은 것이 일관되게 더 좋습니다.

이는 "팩터 동물원(factor zoo)" 논쟁과도 연결됩니다. 400개 이상의 발표된 이상 현상을 두고 많은 연구자들이 공격적인 가지치기를 주장해왔습니다 — 예측변수 집합을 소수의 강건한 팩터로 축소하라는 것입니다. 복잡성의 미덕이라는 결과는 이에 반박합니다: 소수의 강한 예측변수를 선택하고 나머지를 버리기보다, 모든 것을 포함하고 모델의 암묵적 정규화가 가중치를 정리하도록 하는 것이 더 나을 수 있습니다. 버려진 변수들의 약한 신호에는 진정한 예측 정보가 담겨 있으며, 이는 의미 있는 경제적 가치로 집약됩니다.

한계와 주의사항

이 논문의 결론에는 실무자들이 신중히 고려해야 할 중요한 제한 조건이 수반됩니다.

거래 비용이 가장 중대한 실무적 우려 사항입니다. 복잡한 모델은 거래 비용이 가장 높은 소형, 비유동 주식에서 주로 알파를 생성합니다. 현실적인 비용 조정 후, 가장 복잡한 모델의 우위는 줄어듭니다 — 다만 완전히 사라지지는 않습니다. 대규모 포트폴리오를 운용하는 기관 투자자에게 비용 차감 후 이점은 체결 품질과 포트폴리오 회전율 제약에 크게 좌우됩니다.

이론적 프레임워크는 특정 신호 구조를 가정합니다: 독립적 잡음을 가진 다수의 약한 예측변수입니다. 만약 진정한 신호가 소수의 강한 예측변수에 집중되어 있다면(일부 대체 자산 클래스에서 그럴 수 있듯이), 복잡성의 미덕은 성립하지 않을 수 있습니다. 이 논문은 분산된 신호 가정이 잘 뒷받침되는 미국 주식에 대해 결과를 입증하지만, 다른 시장으로의 일반화에는 추가 검증이 필요합니다.

모델 해석 가능성은 여전히 도전 과제입니다. 표본 외 검증에서 우수한 성과를 보이는 과매개변수화된 신경망은 투자자, 리스크 관리자, 규제 기관에게 설명하기 어렵습니다. 이 논문은 복잡한 모델이 왜 작동하는지에 대한 이론적 정당화를 제공하지만, 예측력과 해석 가능성 간의 실무적 긴장을 해소하지는 않습니다.

마지막으로, 이 결과는 이러한 패턴이 지속될 것인지에 대해서는 아무것도 말하지 않습니다. 만약 복잡한 모델의 알파가 행동 편향이나 제도적 마찰에 의해 구동된다면, 유사한 전략을 추구하는 자본이 많아지면서 줄어들 수 있습니다. 만약 복잡성 리스크를 부담하는 것에 대한 진정한 위험 보상을 반영한다면, 지속될 수 있지만 모델에 불리한 레짐에서 상당한 낙폭이 발생할 수 있습니다.

모델 구축에 대한 시사점

실무적 시사점은 미묘합니다. 이 논문은 복잡성이 항상 더 좋다고 주장하는 것이 아닙니다 — 특정 지점을 넘어서면 복잡성이 항상 해롭다는 고전적 편향-분산 트레이드오프가 횡단면 수익률 예측의 특정 구조에서는 틀렸다고 주장합니다.

ML 기반 주식 전략을 구축하는 실무자에게 시사점은 다음과 같습니다:

변수 선택을 주요 정규화 전략으로 의존하지 마십시오. 약한 예측변수라도 더 많이 포함하면, 모델이 충분한 용량을 가질 경우 표본 외 성과가 향상될 수 있습니다.

과매개변수화를 통한 암묵적 정규화(조기 종료, 최소 노름 해)를 사용하십시오. 희소성을 강제하는 명시적 정규화(LASSO, 드롭아웃) 대신에 사용해야 합니다. 전자는 약한 신호를 보존하고, 후자는 이를 버립니다.

간결한 쪽만이 아닌, 전체 복잡성 스펙트럼에 걸쳐 모델 성과를 평가하십시오. 최적 모델은 전통적 관행이 시사하는 것보다 훨씬 더 복잡할 수 있습니다.

항상 엄격한 표본 외 검증으로 확인하십시오. 양성 과적합은 특정 조건 하에서 성립하는 이론적 속성이며, 검증을 생략해도 된다는 면허가 아닙니다.

이 논문은 퀀트 금융이 모델 복잡성에 대해 사고하는 방식에 중대한 전환을 표시합니다. 수십 년간 단순성 그 자체가 미덕으로 취급되었습니다. Kelly, Malamud, Zhou는 수익률 예측이라는 특정 맥락에서 — 신호가 약하고, 분산되어 있으며, 다수인 환경에서 — 복잡성이 미덕임을 입증합니다.

이 글은 교육 목적으로만 작성되었으며 금융 조언을 구성하지 않습니다. 과거 성과가 미래 결과를 보장하지 않습니다.

References

Kelly, B., Malamud, S., & Zhou, K. (2024). The Virtue of Complexity in Return Prediction. The Journal of Finance, 79(1), 459-503. https://doi.org/10.1111/jofi.13298
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223-2273. https://doi.org/10.1093/rfs/hhaa009
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off. Proceedings of the National Academy of Sciences, 116(32), 15849-15854. https://doi.org/10.1073/pnas.1903070116