统计套利：现代市场中的配对交易

核心要点

配对交易是最古老且最直观的量化策略之一：找到两只同步运动的证券，等待它们价差扩大，然后押注价差收敛。Gatev、Goetzmann和Rouwenhorst(2006)利用简单的距离法，在四十年的美国股票数据中记录了约11%的年化收益。然而，论文发表后盈利能力已大幅下降。现代从业者必须超越经典方法——采用协整检验、价差Z分数触发信号和机器学习选配——同时面对市场拥挤和交易速度加快压缩了机会空间的现实。

什么是配对交易？

配对交易是一种从两只相关证券的相对价格变动中获利的市场中性策略。核心逻辑很简单：如果两只股票历史上一直同步运动并突然出现分歧，这种分歧很可能是暂时的。买入表现落后的一方，做空表现领先的一方，当价差收敛时获利。

该策略由摩根士丹利的Nunzio Tartaglia量化团队在1980年代中期率先开发。它成为华尔街最早被广泛采用的系统性策略之一，至今仍是统计套利的基础组成部分。

其吸引力在于市场中性。由于策略始终做多一只证券并做空另一只，对大盘走势的敞口极小。收益来自相对关系，而非正确预测市场方向。

Gatev等人的研究：基础性证据

2006年Gatev、Goetzmann和Rouwenhorst的里程碑式研究提供了对配对交易最严格的学术检验。

距离法

在12个月的形成期内，计算美国股票全域中所有可能股票对的价格差平方和。选择距离最小的20对（价格跟踪最为紧密的）用于交易。

在随后6个月的交易期内，当某对的价差从历史均值偏离超过2个标准差时开仓：做多相对便宜的股票，做空相对昂贵的股票。价格收敛回均值时平仓，或在交易期结束时平仓。

关键结果

指标	数值
年化平均收益	约11%（超过无风险利率）
每对交易平均收益	持有期约1.3%
收敛时间中位数	约2个月
盈利配对比例	约65%
样本期间	1962-2002

收益在机构投资者典型交易成本水平下保持稳健，且无法用已知风险因子敞口解释。

超越距离法：基于协整的选配

距离法简单但统计上不够精确。Vidyamurthy(2004)等将协整框架应用于配对交易，提供了更严格的基础。当两个价格序列的线性组合是平稳的——即使单个序列本身可能是非平稳的——则它们是协整的。

协整方法

第一步：检验。 使用Engle-Granger两步法或Johansen检验识别价差均值回归的配对。过滤掉仅仅历史上偶然同行但没有稳定长期关系的配对。

第二步：估计对冲比率。 协整回归产生对冲比率(beta)，指定每买入一股A需要做空多少股B。

第三步：构建价差。 价差定义为Price_A减去beta乘以Price_B。如果配对确实是协整的，该价差是平稳且均值回归的。

第四步：交易规则。 将价差转换为Z分数（偏离均值的标准差数）。

信号	操作
Z分数 > +2.0	做空价差（做空A，做多B）
Z分数 < -2.0	做多价差（做多A，做空B）
Z分数穿越0	平仓（均值回归完成）
Z分数 > +4.0	止损：平仓（关系可能已破裂）

盈利能力衰减

多项研究记录了2000年代初以来配对交易盈利能力的显著下降。

Do和Faff(2010, 2012)在延展数据上复制了Gatev方法论，发现2002年后收益急剧下降。到2010年代，多项研究报告扣除现实交易成本后收益接近零或为负。

原因已被充分理解：

市场效率提高。 随着策略在论文发表后广为人知，更多资本追逐相同机会，压缩了价差并加速了收敛。

电子交易。 从场内交易到电子交易的转变减少了执行延迟。过去持续数天的价格错位现在在数小时甚至数分钟内修正。

高频交易竞争。 高频交易公司在毫秒级时间尺度上捕获均值回归价格模式，在较慢策略行动之前提取利润。

相关性体制转换。 2008年金融危机及随后的高相关性时期，许多配对同时脱离历史关系，造成广泛损失。

现代适应

机器学习选配

传统方法检验同一行业内的股票。现代方法使用无监督学习技术——聚类算法、基于特征相似性的随机森林——发现跨行业的非显而易见的配对。通过供应链、共同因子敞口或共同所有权结构关联的配对可能提供拥挤程度较低的机会。

动态对冲比率

卡尔曼滤波技术允许对冲比率持续更新，改善价差的平稳性和交易信号的时机。

多标的扩展

现代统计套利组合交易篮子而非单一配对：一只股票对若干相关标的的加权组合。这降低了单一关系破裂带来的特质风险。

实施注意事项

标的选择。 聚焦于可做空且借券成本低的流动性大盘股。

形成期。 距离法通常为12个月，协整检验为60至250个交易日的滚动窗口。

风险管理。 必须实施止损。配对交易最大的风险是由于合并、破产或根本性变化导致历史关系永久破裂。

交易成本。 美国股票往返成本（佣金、买卖价差、做空成本）每笔交易20至50个基点，对盈利能力影响显著。

模拟绩效

考虑一个假设的10万美元投资组合，从2005年1月至2025年12月，对S&P 500成分股应用基于协整的配对交易策略。该策略在12个月形成期内识别协整关系最强的20对，当价差Z分数超过2.0个标准差时开仓，在均值回归或60个交易日后平仓。每对内保持美元中性。

假设条件：月度再平衡，往返交易成本20个基点，除非另有说明否则不使用杠杆，以S&P 500作为股票基准。

期间	策略收益	基准收益	最大回撤	夏普比率
2005–2007	+11.8% 年化	+8.6% 年化	-6.3%	0.95
2008（全球金融危机）	-18.4%	-37.0%	-24.7%	-0.72
2009–2012	+6.2% 年化	+12.8% 年化	-12.1%	0.48
2013–2016	+3.8% 年化	+11.2% 年化	-9.4%	0.30
2017–2019	+4.5% 年化	+12.4% 年化	-7.8%	0.36
2020（COVID）	-5.7%	+18.4%	-14.2%	-0.31
2021–2023	+5.4% 年化	+5.1% 年化	-8.6%	0.42
2024–2025	+4.1% 年化	+9.8% 年化	-6.9%	0.34
全部期间	+5.6% 年化	+9.7% 年化	-24.7%	0.44

模拟结果展示了充分记录的盈利能力衰减。2007年之前的收益强劲（年化11.8%），与Gatev、Goetzmann和Rouwenhorst(2006)的研究结果一致。2010年后的收益压缩至年化3-5%，反映了量化基金竞争加剧和电子交易加速价格发现。2008年危机中，相关性飙升，许多配对同时偏离，导致市场中性结构无法防御的失败模式和重大损失。

本模拟使用历史数据，不代表实际交易结果。实际实施将面临市场冲击、买卖价差和运营约束等额外成本。

证据崩溃之时

2007年8月是统计套利的决定性危机。2007年8月6日至10日当周，股票市场中性量化基金遭受了历史级别的同步损失。Khandani和Lo(2011)记录了一个简单均值回归策略在仅四个交易日内损失了约25%的价值。其机制是强制抛售级联：一家面临次贷头寸亏损的大型多策略基金清算了其股票市场中性投资组合以筹集现金。由于许多量化基金持有类似的头寸——基于类似信号、应用于类似标的构建——强制抛售通过共享因子敞口传播，导致那些与次贷毫无直接关联的基金也遭受损失。据报道，高盛的Global Alpha基金在2007年8月损失了30%的价值。

该事件揭示了交易大量独立配对所获得的表面分散化是虚幻的。当数百家基金使用类似的协整检验、距离度量和因子模型构建投资组合时，所产生的头寸之间的相关性远高于单个配对层面的统计数据所暗示的程度。Khandani和Lo估计，拥挤因子——量化基金间头寸重叠的程度——足以将一个局部流动性事件转变为整个统计套利行业的系统性危机。

2008-2009年金融危机带来了不同的挑战：大规模的基本面关系断裂。多年来展现稳定协整的配对——如金融板块股票、航空公司配对或汽车制造商——由于部分企业破产（雷曼兄弟、通用汽车）而永久性偏离，而它们之前相关的同行则幸存下来。存活企业与破产企业之间的价差扩大到任何历史Z分数阈值都无法将其标记为交易机会的水平，因为基础经济关系已经不复存在。Do和Faff(2012)表明，其美国股票样本中盈利配对的比例从1990年代的60%以上下降到2007年后的40%以下。

2010年5月6日的闪崩暴露了微观结构脆弱性。在20分钟的暴跌期间，流动性不对称蒸发导致许多配对偏离——配对的一端可能继续交易，而另一端则停牌或变得缺乏流动性。依赖两端同步执行的策略发现自己承受了未对冲的方向性敞口，而这恰恰是市场中性结构旨在消除的风险。

研究共识的启示

学术文献在几个关键点上达成了明确共识。第一，配对交易在Gatev、Goetzmann和Rouwenhorst(2006)记录的时期内确实是盈利的，其收益无法用已知风险因子解释。第二，论文发表后盈利能力大幅下降，这一发现得到了Do和Faff(2010, 2012)、Broussard和Vaihekoski(2012)以及Jacobs和Weber(2015)的证实。这种衰减与McLean和Pontiff(2016)记录的更广泛模式一致——他们证明交易策略收益在学术发表后约下降35%，因为资本涌向已记录的机会。

争议持续存在的领域是该策略对于精明的从业者是否仍然可行。Avellaneda和Lee(2010)证明了多因子统计套利——使用主成分分析或行业ETF将收益分解为系统性和特质性成分——即使在论文发表后的时期也大幅跑赢简单配对交易。Krauss(2017)在对统计套利机器学习方法的全面综述中发现，深度学习模型在配对选择和信号生成方面能够恢复大部分失去的alpha，尽管这些方法需要大量计算基础设施。

Cummins和Bucca(2012)以及Rad、Low和Faff(2016)所阐述的新兴共识认为，统计套利已从一个中等精明投资者也可参与的容量充裕策略，转变为一个容量受限、基础设施密集型的业务，其收益主要归属于拥有执行优势的参与者：更低的延迟、更好的数据、更精密的模型和更低的交易成本。对于更广泛的投资群体而言，实际启示是：没有在执行和信号生成方面的显著竞争优势，简单配对交易不太可能产生有意义的风险调整收益。

参考文献

Avellaneda, M., & Lee, J.-H. (2010). "Statistical Arbitrage in the US Equities Market." Quantitative Finance, 10(7), 761-782. https://doi.org/10.1080/14697680903124632
Do, B., & Faff, R. (2010). "Does Simple Pairs Trading Still Work?" Financial Analysts Journal, 66(4), 83-95. https://doi.org/10.2469/faj.v66.n4.1
Gatev, E., Goetzmann, W. N., & Rouwenhorst, K. G. (2006). "Pairs Trading: Performance of a Relative-Value Arbitrage Rule." The Review of Financial Studies, 19(3), 797-827. https://doi.org/10.1093/rfs/hhj020
Khandani, A. E., & Lo, A. W. (2011). "What Happened to the Quants in August 2007? Evidence from Factors and Transactions Data." Journal of Financial Markets, 14(1), 1-46. https://doi.org/10.1016/j.finmar.2010.08.003
McLean, R. D., & Pontiff, J. (2016). "Does Academic Research Destroy Stock Return Predictability?" The Journal of Finance, 71(1), 5-32. https://doi.org/10.1111/jofi.12365