配對交易中相關性與共整合有何區別？

相關性衡量兩個價格序列在短期內共同運動的程度，而共整合檢驗兩者之間是否存在長期均衡關係。兩檔股票可能具有高相關性但無共整合關係，即日常共同運動但隨時間永久性偏離。相反，共整合的股票可能短期相關性較低，但其線性組合始終回歸到穩定均值。基於共整合的配對交易利用這種均值回歸價差，比單純依賴相關性提供了更嚴格的統計基礎。

如何計算配對交易的均值回歸半衰期？

半衰期來源於Ornstein-Uhlenbeck過程。首先對價差擬合AR(1)模型：Z(t) = phi * Z(t-1) + epsilon。價差要均值回歸，自迴歸係數phi必須在0到1之間。然後應用公式：t_half = -ln(2) / ln(phi)。例如，phi為0.95時半衰期約為13.5個交易日，意味著偏離均值的幅度在約兩週半內衰減一半。可交易配對的實用範圍為5至60個交易日。

基於共整合的配對交易有哪些主要風險？

主要風險是共整合關係崩潰、多重比較偏差和執行挑戰。併購、監管變化或商業模式轉型等結構性變化可能永久性破壞均衡關係，導致價差無限發散。檢驗數千個配對會產生多重比較問題，許多統計顯著的結果實際上是虛假的。此外，配對交易涉及四條腿（兩次建倉、兩次平倉）並可能需要頻繁調整對沖比率，交易成本會顯著侵蝕利潤。

共整合：配對交易背後的數學原理

核心要點

螢幕上的金融數據分析

共整合是將嚴謹的配對交易與簡單相關性方法區分開來的數學基礎。兩檔股票在某段期間內可能相關性為零，但仍然存在共整合關係，這意味著它們的線性組合會回歸到一個穩定的均值。恩格爾-格蘭傑兩步法和約翰森檢驗為識別這些長期均衡關係提供了正式的統計工具。一旦找到共整合配對，誤差修正模型就會支配價差的行為，而均值回歸的半衰期則決定了交易機會的消解速度。基於共整合的配對交易策略比距離法具有結構性優勢，因為它檢驗的是真正的經濟關係，而非僅僅依賴歷史價格接近度。

醉酒的女人和她的狗

想像一位深夜從酒吧出來的女人，牽著她的狗在走。兩者的行動都有些隨機——女人沿著不可預測的路徑踉蹌而行，狗則四處追逐氣味左右奔跑。單獨來看，兩者都不遵循可預測的軌跡。但牽繩約束了它們之間的最大距離。無論各自多麼不規則地移動，兩者之間的距離始終是有界的，並且傾向於回歸到牽繩的長度。

這就是共整合的核心意象。女人和狗各自是非平穩過程（時間序列計量經濟學中的I(1)序列），意味著它們的位置各自遵循隨機漫步。但兩者位置的差異是平穩的（I(0)），意味著它在一個穩定的均值周圍波動，偏離過遠時會回歸。

這個類比通常歸功於Murray (1994)，它捕捉了許多交易者忽略的一個微妙區別。相關性衡量的是兩個序列在短期內共同運動的程度。共整合衡量的是兩者之間是否存在長期均衡關係。兩檔股票可能有高相關性但沒有共整合關係（日常共同運動但隨時間永久性偏離）。相反，兩檔股票可能短期相關性低但具有強共整合關係（短期走不同的路徑，但價格的線性組合總是回歸均衡）。

平穩性與積分階數

在檢驗共整合之前，需要理解積分階數的概念。時間序列是d階積分的，記為I(d)，如果它需要d次差分才能變為平穩。

大多數個股價格是I(1)。在水準值上，它們遵循帶漂移的隨機漫步。但一階差分（日報酬率）近似平穩，圍繞均值以恆定變異數波動。無法在假設單一I(1)序列會回歸到某個特定水準的前提下進行獲利交易，因為它沒有固定的水準可供回歸。

共整合為這個問題提供了解決方案。如果兩個I(1)序列X和Y可以組合為Z = Y - beta * X，且結果序列Z是I(0)，則X和Y以共整合向量(1, -beta)共整合。價差Z是可交易的量：它有固定的均值，偏離均值是暫時的。

擴展迪基-富勒（ADF）檢驗是檢驗序列是否平穩的標準工具。它檢驗序列具有單位根（是I(1)）的虛無假設，對照平穩（是I(0)）的對立假設。檢驗迴歸為：

Delta_Z(t) = alpha + gamma * Z(t-1) + 落後Delta_Z項之和 + epsilon(t)

如果gamma顯著為負（檢驗統計量低於臨界值），則拒絕單位根的虛無假設並得出序列平穩的結論。共整合殘差的臨界值不同於標準ADF表，因為殘差是從估計迴歸中生成的而非直接觀測的。

恩格爾-格蘭傑兩步法

Engle and Granger (1987)，即為Robert Engle和Clive Granger贏得2003年諾貝爾經濟學獎的論文，將共整合概念正式化並引入了實用的兩步檢驗程序。

第一步：估計共整合迴歸。對一個I(1)變數對另一個進行普通最小平方法（OLS）迴歸：

Y(t) = alpha + beta * X(t) + epsilon(t)

該迴歸的殘差代表價差：即Y偏離其與X的估計長期均衡關係的程度。如果Y和X是共整合的，這些殘差應該是平穩的。

第二步：檢驗殘差的平穩性。對估計殘差應用ADF檢驗。如果檢驗拒絕單位根的虛無假設，則支持Y和X之間存在共整合的證據。如MacKinnon (1991)所列，該檢驗的臨界值比標準ADF臨界值更嚴格，因為殘差是估計的而非觀測的。

恩格爾-格蘭傑方法直觀且易於實現，這就是它作為配對交易研究最常見起點的原因。然而它有重要的侷限性。它只能檢測兩個變數之間的單一共整合關係。研究者需要選擇哪個變數作為因變數（交換Y和X可能改變結論）。而且第一步的OLS估計量在小樣本中可能表現不佳。

約翰森檢驗：更強大的替代方法

Johansen (1988)開發了一種最大概似方法來解決恩格爾-格蘭傑方法的侷限性。約翰森檢驗在向量自迴歸（VAR）框架內工作，可以同時檢驗多個變數之間的多個共整合關係。

約翰森檢驗的關鍵輸出是一組變數中共整合向量的數量（共整合秩）。對於兩檔股票的配對交易應用，檢驗確定零個或一個共整合關係是否存在。跡統計量和最大特徵值統計量提供兩種替代檢驗統計量；兩者都檢驗最多r個共整合關係的虛無假設，對照更多關係存在的對立假設。

約翰森方法為從業者提供了多項優勢。不需要選擇因變數。同時處理多個時間序列，允許交易者搜尋共整合籃子（共享均衡的三檔或更多股票）。並提供共整合向量的最大概似估計，其漸近效率高於恩格爾-格蘭傑的OLS估計。

對於股票A和B的二元系統，約翰森秩為1確認共整合並直接提供估計的共整合向量。秩為0意味著不存在共整合，該配對不應作為均值回歸價差進行交易。

誤差修正模型

一旦共整合建立，誤差修正模型（ECM）描述了當價差偏離時系統如何調整回均衡。ECM直接來源於Engle and Granger (1987)中的格蘭傑表示定理，形式如下：

Delta_Y(t) = alpha_Y + lambda_Y * Z(t-1) + 落後項 + epsilon_Y(t)

Delta_X(t) = alpha_X + lambda_X * Z(t-1) + 落後項 + epsilon_X(t)

這裡Z(t-1)是落後價差（誤差修正項），lambda係數衡量每檔股票向均衡調整的速度。如果lambda_Y為負且顯著，意味著當價差為正（Y高於均衡）時Y向均衡回歸。如果lambda_X為正且顯著，X向相反方向移動。

ECM對配對交易者有價值，因為它揭示了哪檔股票在進行調整。在許多真實的配對中，一檔股票比另一檔調整得更快。交易者可以通過在調整更快的股票上配置更大的部位，或使用ECM預測未來幾個週期的價差方向來利用這種不對稱性。

均值回歸的半衰期

共整合價差回歸均值的速度決定了配對交易在實務中是否可行。需要兩年才能回歸的價差在統計上有趣但在操作上無用；5到15個交易日內回歸的價差則是可操作的。

半衰期來源於Ornstein-Uhlenbeck（OU）過程，它是用於建模價差的離散AR(1)過程的連續時間類比。如果價差Z遵循：

Z(t) = phi * Z(t-1) + epsilon(t)

其中phi是自迴歸係數（平穩過程中0 < phi < 1），則半衰期為：

t_half = -ln(2) / ln(phi)

該公式給出偏離均值衰減一半所需的預期週期數。phi為0.95意味著半衰期約為13.5個交易日。phi為0.99意味著半衰期約為69個交易日。

在實際配對交易中，半衰期在5到60個交易日之間往往效果最佳。低於5天，大多數執行系統在扣除交易成本後難以獲利地捕獲價差回歸。超過60天，資本被佔用太久，共整合關係崩潰的風險增加。

配對範例	ADF統計量	p值	共整合？	半衰期（天）	Phi
KO / PEP	-3.42	0.011	是	18.2	0.963
XOM / CVX	-3.89	0.003	是	12.7	0.947
JPM / BAC	-2.15	0.228	否	43.1	0.984
MSFT / AAPL	-1.87	0.347	否	61.4	0.989
HD / LOW	-3.61	0.006	是	15.3	0.956
GLD / GDX	-4.12	0.001	是	8.9	0.925

實踐實現：從理論到交易

構建基於共整合的配對交易策略涉及一個直接映射上述理論的系統化工作流程。

第一階段是候選標的識別。與其檢驗所有可能的股票對（這會產生嚴重的多重比較問題），從業者使用經濟邏輯縮小範圍。屬於同一產業、擁有相似的商業模式、暴露於相同的大宗商品投入、或受相同監管框架約束的股票更可能共享真正的長期均衡。可口可樂和百事可樂、埃克森美孚和雪佛龍、家得寶和勞氏是經典案例。從經濟基本面出發降低了統計顯著的共整合結果是資料探勘虛假產物的風險。

第二階段是在滾動形成視窗（通常為12至24個月的日度資料）上進行共整合檢驗。同時應用恩格爾-格蘭傑和約翰森檢驗，只保留兩種方法都在5%顯著性水準上確認共整合的配對。共整合向量（對沖比率beta）從該視窗估計。

第三階段是價差構建和標準化。計算價差Z(t) = Y(t) - beta * X(t)，並使用形成期的均值和標準差將其標準化為z分數。這種標準化使得通用的進入和退出閾值可以跨不同配對應用。

第四階段是訊號生成。標準方法在z分數超過閾值（通常為2.0個標準差）時開倉，在回歸到零或穿越止損閾值（通常為3.0到4.0個標準差）時平倉。方向由z分數的符號決定：正z分數意味著Y相對於X偏貴，交易者做空Y買入X；負z分數觸發相反的交易。

參數	保守型	中性型	積極型
形成視窗	24個月	18個月	12個月
進入閾值（西格瑪）	2.5	2.0	1.5
退出閾值（西格瑪）	0.5	0.0	0.0
止損（西格瑪）	4.0	3.5	3.0
最大持有期	60天	40天	20天
半衰期過濾	5-40天	5-50天	5-60天

實證證據：它有效嗎？

Gatev, Goetzmann, and Rouwenhorst (2006)是配對交易領域被引用最多的實證研究，記錄了一種簡單的距離法配對交易策略在1962至2002年美國股票市場中取得了約11%的年化超額報酬。該策略是市場中性的，不需要基本面分析，純粹基於統計。

然而後續研究呈現了更細緻的圖景。Do and Faff (2010)將Gatev的樣本延伸至2008年，發現利潤大幅下降，在考慮現實交易成本後大部分優勢消失。到2010年代，簡單距離法在扣除成本後產生接近零或負的報酬。

Avellaneda and Lee (2010)提出了一個使用主成分分析和Ornstein-Uhlenbeck過程的更精密的框架。該方法更接近本文描述的共整合方法論，通過系統性地交易因子模型的殘差，在美國股票市場實現了1.0以上的夏普比率。關鍵洞察是將均值回歸速度（OU參數）納入交易訊號顯著改善了相較於簡單距離法的表現。

研究	時期	方法	年化報酬率	夏普比率
Gatev et al. (2006)	1962-2002	距離法	~11%	~0.75
Do & Faff (2010)	1962-2009	距離法	~4%（下降趨勢）	~0.35
Avellaneda & Lee (2010)	1997-2007	OU / 因子	~8-15%	~1.0-1.5
Krauss (2017) 綜述	不同	不同	下降趨勢	策略依賴

學術共識是明確的：基於共整合和考慮均值回歸速度的方法顯著優於簡單距離法，尤其是在市場變得更加有效、量化交易者之間競爭加劇的近期階段。

共整合何時失效

共整合是一種統計關係，而非自然法則。它可以而且確實會失效。一家公司商業模式的結構性變化、合併或收購、監管轉變、或競爭格局的永久性變化都可能摧毀歷史上維持的均衡。當醉酒女人和她的狗之間的牽繩斷裂時，價差可能永久性發散，基於均值回歸的配對交易將累積無限損失。

這就是配對交易中止損紀律不可妥協的原因。這也是滾動重新估計共整合關係至關重要的原因。從業者通常每1至3個月重新估計對沖比率並重新檢驗共整合，剔除不再通過統計檢驗的配對。

多重比較問題是另一個關鍵陷阱。檢驗數千個配對並選擇在5%水準上通過共整合檢驗的配對，僅憑偶然就會識別出許多虛假關係。Bonferroni校正或經濟過濾（限制為同產業配對）有助於緩解這個問題，但在任何資料驅動的配對選擇過程中，某種程度的過度擬合是不可避免的。

從配對到籃子：多元擴展

約翰森框架自然地擴展到三檔或更多共整合資產的籃子。如果三檔股票共享兩個共整合關係，交易者可以構建兩個獨立的均值回歸價差，有望改善分散效果並降低單一配對關係崩潰的風險。

Avellaneda and Lee (2010)使用從PCA導出的特徵組合構建了相對於其產業因子構造性平穩的股票籃子。這種方法將配對交易推廣為完整的統計套利框架，可交易的均值回歸訊號數量隨著顯著特徵組合數量的增加而擴展。

數學機制是相同的：共整合檢驗、誤差修正動態、半衰期估計。但投資組合構建變得更加複雜，需要仔細關注部位規模、保證金要求以及多個價差之間的相關結構。

參考文獻

Engle, R. F., & Granger, C. W. J. (1987). Co-Integration and Error Correction: Representation, Estimation, and Testing. Econometrica, 55(2), 251-276. https://doi.org/10.2307/1913236
Johansen, S. (1988). Statistical analysis of cointegration vectors. Journal of Economic Dynamics and Control, 12(2-3), 231-254. https://doi.org/10.1016/0304-4076(88)90041-3
Johansen, S. (1991). Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian Vector Autoregressive Models. Econometrica, 59(6), 1551-1580. https://doi.org/10.2307/2938278
Gatev, E., Goetzmann, W. N., & Rouwenhorst, K. G. (2006). Pairs Trading: Performance of a Relative-Value Arbitrage Rule. Review of Financial Studies, 19(3), 797-827. https://doi.org/10.1093/rfs/hhj020
Avellaneda, M., & Lee, J.-H. (2010). Statistical arbitrage in the US equities market. Quantitative Finance, 10(7), 761-782. https://doi.org/10.1080/14697680903124632
Do, B., & Faff, R. (2010). Does simple pairs trading still work? Financial Analysts Journal, 66(4), 83-95. https://doi.org/10.1016/j.jbankfin.2010.02.015
MacKinnon, J. G. (1991). Critical Values for Cointegration Tests. Queen's Economics Department Working Paper No. 1227. https://ideas.repec.org/p/qed/wpaper/1227.html
Murray, M. P. (1994). A Drunk and Her Dog: An Illustration of Cointegration and Error Correction. The American Statistician, 48(1), 37-39. https://doi.org/10.1057/9780230389625
Krauss, C. (2017). Statistical Arbitrage Pairs Trading Strategies: Review and Outlook. Journal of Economic Surveys, 31(2), 513-545. https://doi.org/10.1111/joes.12153
Vidyamurthy, G. (2004). Pairs Trading: Quantitative Methods and Analysis. John Wiley & Sons.