资产定价中的复制危机：哪些异象经得起独立验证？

核心要点

学术金融领域已经编目了超过400个据称能够预测股票收益的变量。Harvey、Liu和Zhu将其称为"因子动物园"。然而，当独立研究者试图重现这些发现时，结果出现了显著分歧：一些研究报告大多数异象不成立，另一些则报告大多数异象完全可以复制。我们系统性地比较了12项主要复制研究，发现双方的结论都是正确的——他们只是在回答不同的问题。统计复制（能否重现t统计量？）的成功率大约在50%至70%之间。经济复制（是否真的有人能从中获利？）的成功率仅为15%至30%。这两个数字之间的差距并非危机——它恰恰是现代实证金融中最重要的发现。

本文是QD研究原创作品。我们并未简单概述某一篇论文，而是汇集了来自12项独立复制研究的证据，构建了一个三维分析框架来调和这些看似矛盾的发现，并提出了一个全新的因子动物园三层分类体系。我们的研究方法、假设和置信水平在全文中均有披露。每一项论断都可追溯至已发表的同行评审研究。

第一部分：从未达成共识的问题

我们是如何走到400多个因子的

因子动物园的故事始于一个简洁优雅的方程。1964年，William Sharpe发表了资本资产定价模型（CAPM），提出股票的预期收益由一个因素决定：它对整体市场的敏感度，即贝塔。一个因子，一个方程式，简洁、可验证，获得了诺贝尔奖。

裂痕几乎立刻显现。Fischer Black、Michael Jensen和Myron Scholes在1972年记录了贝塔与收益之间的实证关系远比CAPM预测的要平坦。高贝塔股票的收益低于预期，低贝塔股票的收益高于预期。这不是一个微不足道的统计争议——它对资产定价的主导理论构成了根本性挑战。

学术界的回应并非放弃因子模型框架，而是对其进行扩展。1992年和1993年，Eugene Fama和Kenneth French发表了他们的里程碑式论文，引入了两个额外因子：规模（小盘股跑赢大盘股）和价值（高账面市值比股票跑赢低账面市值比股票）。Fama-French三因子模型成为新的标准。此前用一个因子解释收益的研究者，现在开始使用三个。

Mark Carhart在1997年加入了动量因子——过去一年上涨的股票继续上涨，下跌的股票继续下跌。四因子模型成为实证资产定价领域十余年的主力工具。

随后闸门大开。Fama和French在2015年将模型扩展到五因子，增加了盈利能力和投资因子。Robert Novy-Marx发现了总利润率作为预测指标的价值。Frazzini和Pedersen将低贝塔异象形式化。Robert Stambaugh和Yu Yuan记录了异象的做空端。Kewei Hou、Chen Xue和Lu Zhang提出了一个与之竞争的q因子模型。每篇新论文通常都会发现一个t统计量超过2.0（即传统统计显著性阈值）的特征变量。

到2016年Harvey、Liu和Zhu进行普查时，已发表因子的数量达到了316个。据某些估计，这一数字此后已超过400。驱动了一代研究者的核心问题——什么决定预期股票收益？——产生了令人尴尬的过剩答案。太多答案了，远远太多。

多重检验问题

要理解为什么如此多的因子是一个问题，可以考虑一个简单的统计思想实验。假设股票收益完全随机——没有任何因子能预测任何事情。一位研究者对一个变量与收益进行检验，使用标准的p < 0.05阈值。出现假阳性的概率为5%——即在不存在显著性的地方发现了显著性。

现在假设研究者检验了100个变量。即使没有任何一个变量真正能预测收益，仅凭偶然，大约会有5个看起来显著。如果研究者只发表那5个"显著"结果并丢弃95个失败的结果，那么发表的文献将包含5个与真实发现无法区分的虚假发现。每一个都有超过2.0的t统计量，每一个的p值都低于0.05，每一个都会被引用、被构建、被纳入因子模型。

这就是多重检验问题，它并非假设性的。学术出版的结构恰恰创造了这种激励机制。研究者检验了许多变量，却只报告显著的那些。期刊偏好新颖的发现，而非无效结果。文件抽屉里堆满了被放弃的假设，而发表的文献则充满了统计异常值。

Harvey、Liu和Zhu将这一论点形式化了。在316个因子面对大约50年月度收益数据的检验下，以t > 2.0为阈值出现假发现的概率极高。他们提出使用多重检验文献中的方法调整显著性阈值——Bonferroni校正、Benjamini-Hochberg程序以及他们自己的贝叶斯方法。在他们倾向的调整方案下，一个新因子发现所需的最低t统计量应约为3.0。按此标准，大多数已发表的异象都无法通过。

他们的论文引发了巨大震动。如果按字面意义理解，这意味着数十年的实证资产定价研究大部分产出的是噪声。

反击

但并非所有人都同意。回应从多个方向同时涌来。

David McLean和Jeffrey Pontiff采取了一种完全不同的方法。他们没有去调整统计阈值，而是利用了一个自然实验：时间。每一个已发表的异象都有一个发现日期。异象在论文撰写之前获得的收益属于样本内收益，可能存在数据挖掘的问题。论文发表之后获得的收益属于样本外收益，不可能受到数据挖掘的影响。如果异象纯粹是统计伪影，那么发表后的收益应该为零。

McLean和Pontiff研究了97个异象，发现发表后收益平均下降了58%。这是相当大的衰减——但并非降至零。这些异象保留了其原始样本内幅度的大约42%。这一发现具有双重含义：它既与部分数据挖掘的解释一致，也与部分套利的解释一致。

Kewei Hou、Chen Xue和Lu Zhang走得更远。在他们2020年发表于Review of Financial Studies的论文中，他们尝试复制了452个已发表的异象——这是截至当时最全面的复制工作。他们的方法有意进行了标准化：在所有452个异象中使用一致的数据源、一致的样本选择标准和一致的因子构建方法。他们发现64%——近三分之二——在他们的检验中未能产生超过1.96的t统计量。

这一结果被广泛解读为证实了金融学中存在复制危机。如果只有36%的已发表异象能够通过最简单的统计检验，这对整个领域意味着什么？

然而，Andrew Chen和Tom Zimmermann在美联储理事会独立工作后，得出了截然不同的发现。他们复制了319个异象——与Hou、Xue和Zhang的研究在很大程度上重叠——发现大约82%复现了原始结果。这不是一个小差异：一项研究发现36%的复制率，另一项发现82%。

关键区别在于方法论。Chen和Zimmermann尽可能精确地遵循了每篇原始论文的方法。当原始论文使用NYSE断点时，他们也使用NYSE断点。当原始论文排除了金融公司时，他们也排除。当原始论文使用特定的滞后结构时，他们也复制了该滞后结构。而Hou、Xue和Zhang则采用了他们自己的标准化方法，这不可避免地在数十个细节上与原始论文存在差异。

最后，在2023年，Theis Jensen、Bryan Kelly和Lasse Pedersen发表了他们使用贝叶斯收缩方法对153个因子的综合分析。他们的方法承认因子溢价是带有噪声的估计值，并应用统计收缩来区分真正的溢价和估计误差。他们的结论明确无误：金融学中不存在复制危机。经过收缩处理后，绝大多数因子具有正的、经济意义上有意义的预期收益。

悖论

到2024年，学术界对同一批证据得出了四个主要结论：

大多数异象是虚假发现（Harvey, Liu & Zhu）
大多数异象出现了显著衰减但仍然存在（McLean & Pontiff）
大多数异象无法复制（Hou, Xue & Zhang）
大多数异象确实可以复制（Chen & Zimmermann; Jensen, Kelly & Pedersen）

在"复制"的单一定义下，这些结论不可能同时为真。解决这一矛盾需要理解，每项研究实际上问的是一个微妙不同的问题。这正是我们所要解决的核心问题。

第二部分：研究问题与竞争假说

形式化研究问题

研究问题：已发表的收益异象究竟代表了真实的、可利用的市场现象，还是主要是数据挖掘的产物？为什么独立的复制研究在检验大致相同的异象集合时会得出相反的结论？

我们将其分解为三个竞争假说，每个假说都有明确的证伪标准。

H1——数据挖掘假说

论述：大多数已发表的异象是通过大量规格搜索、数据挖掘和发表偏差产生的虚假发现。因子动物园是一种统计伪影，而非对市场现实的描述。

机制：研究者探索数百个潜在预测变量，以各种方式构建它们（不同的滞后期、断点、权重方案），使用不同的样本期间和子集对收益进行检验，并且只发表产生显著结果的规格。期刊通过偏好新颖的显著发现来放大这种选择效应。结果是，发表的文献被大量主要为零结果分布中最极端的抽样所主导。

证伪标准：H1预测：

异象发表后应衰减至零，而非保留某个正的残余值
无论方法忠实度如何，复制率应一致偏低
幸存的异象与失败的异象之间不应存在系统性的区分模式
国际复制的失败率应与国内重新检验的失败率相同
异象不应与可观察的经济机制相关

如果这些预测中的任何一个未能成立，纯粹形式的H1即被证伪。较弱的版本——即部分异象是虚假发现——几乎可以确定为真，但这并不特别有趣。

H2——套利假说

论述：大多数已发表的异象捕捉了真实的市场现象——真正的错误定价或风险溢价——但发表将这些信息传播给了市场参与者，吸引了套利资本，部分或完全消除了溢价。发表后衰减代表的是市场变得更加有效，而非对统计虚构的纠正。

机制：在发表之前，错误定价之所以存在，是因为知道它的投资者太少或结构性障碍阻止了对其的利用。发表创造了认知。对冲基金、量化资产管理者，最终ETF提供商开始交易该异象。他们的交易活动纠正了错误定价，降低了可观察到的溢价。纠正的程度取决于实施的难易程度（交易成本、容量）、传播速度以及最初创造该异象的结构性障碍。

证伪标准：H2预测：

发表后衰减应是部分性的，而非完全的（套利限制阻止了完全纠正）
衰减应与套利活动指标相关（机构交易、空头利息、ETF资金流）
更难交易的异象（小盘股、低流动性、高换手率）衰减应少于易于交易的异象
即使在标准化方法下，异象也应在原始样本期间可复制（在套利侵蚀之前它们是真实的）
基于风险补偿的异象根本不应该衰减（风险是永久的；错误定价是暂时的）

如果异象甚至在原始样本期间——即任何套利发生之前——都无法复制，H2就无法解释这种失败。

H3——定义假说

论述：复制研究之间的表面分歧主要是方法论层面的。不同的研究对"复制"有不同的定义，使用不同的统计标准，在因子构建上做出不同的选择。如果不指明复制的含义，"异象是否可以复制？"这个问题本身就是不恰当的。没有单一答案，因为根本就没有单一问题。

机制：金融学中的复制不同于化学中的复制——在化学中，相同条件下的相同实验应该产生相同的结果。在金融学中，每一个方法论选择——纳入哪些股票、如何定义断点、何时再平衡、如何对投资组合加权、使用什么显著性阈值、是否考虑交易成本——都会影响结果。两位研究者可以检验同一个异象，做出不同但各自合理的选择，却得出相反的结论。没有人是错的；他们只是在回答不同的问题。

证伪标准：H3预测：

复制率应随方法论选择而系统性变化，而非随异象特征变化
同一异象有时应被一项研究归类为"已复制"，而被另一项归类为"失败"
方法忠实度更高的研究（紧密遵循原始论文）应显示更高的复制率
采用更严格阈值或增加经济过滤条件的研究应显示更低的复制率，无论它们检验的是哪些异象
各研究间复制率的方差，应更多地由方法论而非所含异象来解释

如果复制率主要由异象本身的特征决定——而非由复制者的方法论选择决定——H3即被证伪。

第三部分：证据基础——十二项研究详解

理解复制研究为何存在分歧，需要详细审视每项研究的方法论。对复制率的表面比较，如果不理解每项研究实际衡量的是什么，就会产生误导。

研究1：Schwert (2003)——最初的警示

G. William Schwert在Handbook of the Economics of Finance中的章节，是对异象在被记录后会发生什么进行的首次系统性审视。他聚焦于五个最突出的异象：规模效应、价值效应、周末效应、年初效应和股息收益率效应。

Schwert发现，这些异象中的大多数在其最初被记录之后的若干年里出现了显著弱化。Banz在1981年记录的规模效应在1982年后的数据中基本消失。一月效应虽仍存在，但比最初报告的要弱。价值效应证明更为稳健，但表现出相当大的时间变异性。

Schwert的贡献主要是概念性的。他提出异象弱化可能有两个不同的原因：要么它们是数据挖掘的产物，回归到了其真实（为零）的值；要么它们是真实现象，一旦被公开便吸引了知情资本。他没有在这两种解释之间做出裁断，但建立了后续研究者将使用的分析框架。

关键方法论选择：Schwert审视了发现后收益，但没有区分统计复制和经济复制。他仅关注五个异象，限制了研究的推广性。

研究2：Harvey, Liu & Zhu (2016)——多重检验调整

Harvey、Liu和Zhu的论文是对异象文献在统计学上最为严谨的挑战。他们编目了1967年至2014年间发表的316个因子，并论证传统的t > 2.0阈值在已检验的假设数量面前是不恰当的。

他们的论证基于Bonferroni不等式及其变体。如果316个独立检验均在5%水平下进行，预期的假阳性数量约为16个。在对这一多重检验进行调整后，他们论证一个新提出的因子应需要约3.0的t统计量才能被视为显著。

该论文包含了316个因子的详细分类体系，按照它们声称捕捉的经济机制进行归类。这份目录本身成为了重要的资源，揭示了因子动物园非同寻常的广度——以及潜在的冗余。

关键方法论选择：Harvey等人将所有316个因子视为独立检验，如果许多因子是相关的（它们几乎肯定是），这会高估多重检验问题的严重性。他们实际上并未复制这316个因子；他们从统计角度论证，鉴于检验数量之多，大多数因子应该是虚假的。他们的阈值调整适用于新发现，但经常被错误地应用于评估那些已经通过其他方式验证的现有因子。

关键细微之处：t > 3.0阈值适合在已有数百个因子被检验的世界中评估一个新提出的因子。但它不一定适合评估一个已在多个数据集、时间段和市场中得到独立确认的因子。像动量这样一个已在40多个市场中经过数十项独立研究复制的因子，不应该被当作需要承受全部多重检验惩罚的全新发现来评估。

研究3：McLean & Pontiff (2016)——自然实验

McLean和Pontiff利用学术出版的时间结构构建了一个自然实验。对于97个异象中的每一个，他们确定了三个时间段：

样本内期间：原始论文所使用的数据期间
样本后、发表前期间：样本结束后但论文发表前（通常为2至5年）
发表后期间：论文在期刊上发表之后

这种分解方法强大之处在于，它将统计伪影与经济现象区分开来。在样本后但发表前的期间，异象处于样本外（排除了样本内过拟合），但尚未公开（排除了套利）。如果这一期间的异象收益为零，则原始发现很可能是数据挖掘的结果。如果收益为正但小于样本内，则同时存在真正的预测能力和一定程度的过拟合。如果收益先为正，然后在发表后进一步下降，套利是额外衰减的主要解释。

McLean和Pontiff发现：

样本内平均收益：约为报告效应的100%
样本后、发表前收益：约为样本内效应的73%
发表后收益：约为样本内效应的42%

从样本内到样本后但发表前的27%下降表明存在一定程度的样本内过拟合——但在真正的样本外数据中存活73%，是异象并非纯粹伪影的有力证据。发表后额外31%的下降（从73%降至42%）与套利资本侵蚀溢价的假说一致。

关键方法论选择：McLean和Pontiff对97个异象进行了汇总，这将强异象和弱异象混合在一起。平均值掩盖了相当大的异质性。一些异象可能已经衰减至零（与H1一致），而另一些保留了大部分溢价（与H2一致），平均值反映的是一种混合。

研究4：Green, Hand & Zhang (2017)——保留测试

Jeremiah Green、John Hand和Frank Zhang使用严格的保留方法测试了94个股票特征。他们使用CRSP/Compustat数据构建每个特征，然后测试它是否在一个未用于变量构建过程的保留样本中预测收益。

他们发现大约50%的94个特征在保留样本中是显著的。这是一个中等水平的复制率——高于Hou、Xue和Zhang后来发现的结果，但低于Chen和Zimmermann。这种差异反映了他们在方法忠实度上的中间立场：他们使用了一致的数据，但在构建方法上允许一些变化。

关键洞见：Green等人还考察了哪些特征提供了独立信息——即不被其他特征所包含的预测能力。独立显著的特征数量远少于94个，表明因子动物园中存在大量冗余。许多看似不同的因子实际上衡量的是同一个底层现象。

研究5：Linnainmaa & Roberts (2018)——1963年前检验

Juhani Linnainmaa和Michael Roberts进行了最富创造性的复制工作之一，利用了原始研究者不可能使用的数据。实证资产定价文献中的大多数异象是使用1963年以后的CRSP数据发现的（从那时起Compustat的覆盖范围变得全面）。Linnainmaa和Roberts将数据回溯延伸至1926年，检验这些1963年后的异象是否也存在于1926年至1963年期间。

其逻辑颇具说服力：如果一个因子真正捕捉了持续性的市场现象，它就应该存在于更早的数据中。如果它只出现在被发现的特定样本期间，数据挖掘是更可能的解释。

他们的发现是混合的。一些因子——特别是价值和动量——存在于1963年前的数据中，证实了其稳健性。其他因子——包括盈利能力和投资——在更早的时期不存在或不显著。Linnainmaa和Roberts将缺失的因子解释为可能的数据挖掘产物。

重要说明：1963年前的市场在结构上与1963年后的市场存在差异，这些差异可以在不援引数据挖掘的情况下解释因子的缺失：

机构构成：1963年前机构投资者持有的市场份额远小于之后。由机构行为驱动的因子（如BAB背后的杠杆约束）在以个人投资者为主的市场中会更弱。
行业构成：1963年前的市场以铁路、公用事业和重工业为主。1963年后的市场包括科技、医疗和服务业。与无形资产、研发密度或增长期权相关的因子在早期自然会更弱。
会计准则：1963年前的财务报告标准化程度较低。基于会计比率的因子（盈利能力、应计项目、投资）在基础数据可靠性较低时噪声更大。
信息环境：信息传播更慢且更不均匀。由投资者关注度、媒体报道或分析师覆盖驱动的因子表现会有所不同。

一个因子在1963年前数据中的缺失是对该因子不利的证据，但并非决定性的证据。它只是更广泛评估中的一个数据点。

研究6：Hou, Xue & Zhang (2020)——标准化复制

Hou、Xue和Zhang发表在Review of Financial Studies上的论文是就所检验异象数量而言最全面的复制工作：452个。他们的方法有意进行了标准化。他们没有遵循每篇原始论文的方法，而是对所有452个异象应用了一套一致的规则：

样本范围：在NYSE、AMEX和NASDAQ上市的所有普通股
断点：仅使用NYSE断点（遵循Fama-French惯例）
再平衡：按信号类型分别为年度（6月）或月度
加权方式：市值加权投资组合
样本期间：延伸至2016年

在这些规则下，452个异象中有64%未能产生超过1.96的t统计量。仅有36%实现了复制。

这一发现引人注目，但其解释需要理解在这个语境中"失败"意味着什么。一个异象可能因几种原因而"失败"：

原始发现确实是虚假的——一个由偶然产生的真零结果
异象对构建方法的选择敏感——它在原始方法下存在，但在标准化方法下不存在
异象已随时间衰减——它在原始样本中是真实的，但此后已经弱化
标准化方法对这个特定异象不适用——某些异象需要特定的方法选择（例如，小盘股异象需要等权重）

Hou、Xue和Zhang的结果无法区分这些解释。64%的失败率可能意味着64%的虚假发现、64%的方法敏感异象，或两者的某种混合。

关键方法论选择：使用市值加权投资组合和NYSE断点的决定并非中性的。许多异象集中在小盘股中。市值加权降低了小盘股的影响力，而NYSE断点确保小盘投资组合主要包含小型NYSE股票，而非规模大得多的微小NASDAQ股票群体。这些是合理的选择，但它们系统性地不利于主要在小盘股领域发挥作用的异象。

研究7：Jacobs & Muller (2020)——国际复制

Heiko Jacobs和Sebastian Muller在国际市场上测试了241个异象——这是在根本独立的数据集中进行的真正样本外测试。美国的数据挖掘产物不应在机构结构、监管环境和会计准则不同的市场中复制。

他们发现大约50%的美国发现的异象在至少一个国际市场中复制，并且有相当一部分在各地区广泛复制。最一致复制的异象是那些具有最强理论基础的：价值、动量、盈利能力和低波动率。

Jacobs和Muller还做了"复制"与"存在"之间的重要区分。一些异象可能存在于所有市场中，但以不同的形式出现。例如，价值在国际上有效，但捕捉它的具体会计变量因会计制度不同而有所不同。账面市值比在美国公认会计准则（GAAP）下效果良好，但在会计准则不同的市场中可能需要替换为基于收益的指标。

对我们分析的关键洞见：约50%的国际复制率与这样一个假说一致：因子动物园中大约一半捕捉了真实的经济现象，大约一半则不然。在国际上复制的异象不成比例地是那些具有清晰理论机制的异象，这正是H2（套利假说）所预测的。

研究8：Chen & Zimmermann (2022)——精确方法复制

Andrew Chen和Tom Zimmermann的论文可以说是在方法忠实度方面最为谨慎的复制工作。他们通过尽可能精确地遵循每篇原始论文的方法来复制了319个异象，并使用了他们的开源代码库（已公开提供，为金融学的可重复性树立了新标准）。

他们发现的约82%复制率，与Hou、Xue和Zhang的36%形成了鲜明对比。这一差异几乎完全归因于方法忠实度。当Chen和Zimmermann使用Hou、Xue和Zhang的标准化方法测试同一组异象时，他们的复制率急剧下降——证实了分歧是由方法论选择驱动的，而非异象样本的差异。

这也许是复制辩论中最重要的单一发现。它表明"异象是否可以复制？"这个问题的答案，关键取决于你所说的复制是什么意思。如果复制意味着"论文中描述的精确程序是否产生了报告的结果"，答案大部分是肯定的。如果复制意味着"这个异象是否在不同但合理的方法下存在"，答案则更为细微。

关键贡献：Chen和Zimmermann的开源代码库将复制辩论从相互竞争的论文之争转变为任何研究者都可以审视的实证问题。他们的代码允许任何人使用原始方法或标准化方法复制319个异象中的任何一个，并直接观察方法论选择如何影响结果。

研究9：Jensen, Kelly & Pedersen (2023)——贝叶斯调和

Theis Jensen、Bryan Kelly和Lasse Pedersen将精密的贝叶斯方法引入了复制问题。他们没有根据阈值将因子归类为"显著"或"不显著"，而是估计了每个因子预期收益的后验分布，同时纳入了先验信息和收缩处理。

他们的方法与基于阈值的检验有根本区别。一个t统计量为1.8的因子在t > 2.0阈值下会被归类为"失败"，但经过贝叶斯收缩后可能具有有意义的正后验均值。通过避免二元分类的陷阱，Jensen、Kelly和Pedersen能够估计因子溢价的分布，而不仅仅是通过某个任意标准的因子数量。

他们的结论是，预期收益的横截面是丰富且多维的。大多数因子具有正的预期收益，尽管比其样本内估计所暗示的要小。收缩幅度——原始估计与后验均值之间的差距——通常为30%至50%，这与McLean和Pontiff发现的发表后衰减一致。在贝叶斯框架中，这种收缩反映的是估计噪声而非数据挖掘：真实溢价一直就比含噪声的估计所显示的要小。

关键洞见：Jensen、Kelly和Pedersen的框架表明，"复制危机"部分是基于阈值检验的产物。当你将一个连续变量（因子溢价）强制纳入二元分类（显著或不显著）时，就会产生悬崖效应：刚好高于阈值的因子被归类为真实的，刚好低于阈值的被归类为虚假的。实际上，存在一个从强正溢价（价值、动量）到边际正溢价（数十个较小的因子）再到与零无法区分的溢价（真正的噪声）的连续谱。二元框架将这个连续谱映射为二元，制造了危机的假象。

研究10：Novy-Marx & Velikov (2016)——交易成本过滤

Robert Novy-Marx和Mihail Velikov提出了大多数复制研究忽略的一个问题：你实际上能够盈利地交易这些异象吗？统计显著性是经济显著性的必要条件，但非充分条件。一个t统计量为3.0、月度总收益为50个基点的因子听起来令人印象深刻，直到你意识到它需要每月在买卖价差高达200个基点的非流动性微盘股之间进行再平衡。

Novy-Marx和Velikov在应用基于有效价差、市场冲击和做空成本的现实交易成本后，测试了23个知名异象。许多在总收益中表现高度显著的异象，在扣除成本后变得无利可图或处于边际水平。

他们的分析揭示了一个关键模式：最有可能在交易成本后存活的异象是那些低换手率（需要不频繁再平衡）且集中在流动性好的大盘股中的异象。价值和盈利能力策略年度再平衡且覆盖各种市值规模，存活良好。动量策略需要每月或更频繁的再平衡，受到的影响更大，但通过成本感知的执行方式仍然勉强盈利。

做空端成本尤为重要。许多异象的相当一部分收益来自做空端（卖出被高估的股票），但做空是昂贵的——借贷费用、召回风险以及做空头寸的非对称收益结构都会侵蚀收益。当计入做空成本后，许多多空异象变成了仅做多的策略，理论收益大约减半。

对我们分析的关键发现：既在统计上显著又在扣除成本后经济上盈利的异象数量，远远少于仅在统计上显著的数量。Novy-Marx和Velikov的分析表明，大约只有10至15个异象能通过这一经济过滤，这与我们估计的15至25个"稳健核心"一致（略大的数字反映了在较低换手率实施或仅做多格式下盈利的额外因子）。

研究11：Chordia, Goyal & Saretto (2020)——综合过滤

Tarun Chordia、Amit Goyal和Alessio Saretto将多个复制过滤条件——发表后衰减、交易成本和统计稳健性——整合为对180多个异象的综合评估。他们的论文之所以重要，是因为它同时应用了复制的全部三个维度，而非孤立地检验每一个。

在应用所有过滤条件后，Chordia、Goyal和Saretto发现大多数异象在净值基础上是无利可图的。发表后衰减和交易成本的综合效应对大多数策略来说是毁灭性的。即使那些在发表后仍保持统计显著性的异象，在应用现实交易成本后也变得在经济上不可行。

他们的分析还揭示了一种交互效应：发表后衰减最大的异象往往也是交易成本最高的，因为两种现象都由同一个底层因素驱动——集中在小盘、低流动性股票中。小盘异象往往总收益较大（因为低流动性创造了更大的错误定价），发表后衰减更多（因为即使少量套利资本在低流动性市场中也有很大的价格影响），且交易成本昂贵（因为买卖价差和市场冲击较大）。

启示：因子动物园的冗余程度比表面看来还要严重。许多表面上不同的异象——不同的会计比率、不同的动量指标、不同的质量指标——都只是通过不同的视角捕捉了同一个小盘、低流动性溢价。一旦应用交易成本，它们就坍缩为少数几个真正独立的收益来源。

研究12：Calluzzo, Moneta & Topaloglu (2019)——套利机制

Paul Calluzzo、Fabio Moneta和Selim Topaloglu为H2所提出的套利机制提供了最直接的证据。他们不仅仅是观察异象在发表后衰减，而是检验了衰减是否由发表事件所导致。

他们追踪了14个知名异象前后的机构交易活动，发现：

发表后机构投资者显著增加了对异象相关股票的交易
机构交易的增加与发表后异象衰减的程度相关
交易最多的异象显示出最大的发表后衰减
衰减集中在发表后不久的时期，与学习/传播机制一致

这些证据难以与纯粹的数据挖掘（H1）相调和。如果异象是统计伪影，机构交易就没有理由在发表后增加——更没有理由交易增加的程度能预测衰减的程度。Calluzzo等人的发现有力地支持了套利渠道：异象是真实的，发表传播了信息，机构交易者利用了机会，他们的交易部分纠正了错误定价。

局限性：14个异象的样本较小，且全部都是文献中最知名的异象。这些恰恰是最有可能吸引机构关注的异象。该机制可能无法推广到因子动物园中数百个不太知名的异象。

第四部分：分析——复制的三个维度

构建分析框架

我们的核心分析贡献是一个三维框架，它几乎可以解释复制研究之间的所有分歧。这三个维度是：

方法忠实度：复制在多大程度上遵循了原始论文的程序？
统计阈值：应用了什么显著性标准？
经济过滤：是否考虑了交易成本和容量约束？

每项复制研究在这个三维空间中占据特定位置，其复制率可以从其位置来预测。

维度1：方法忠实度

忠实度维度从"精确复制"（精确遵循原始论文的方法）延伸到"标准化复制"（对所有异象应用统一的方法）。

忠实度为何重要：因子收益对构建细节的敏感性令人惊讶。以动量因子为具体例子。Jegadeesh和Titman在1993年的原始论文将动量定义为第t-12个月到第t-2个月的累积收益（跳过最近一个月以避免微观结构效应）。该因子使用NYSE/AMEX股票构建，采用十分位断点、组合内等权重和月度再平衡。

现在改变其中任何一个选择：

纳入NASDAQ股票：样本范围发生显著变化，尤其是在1970年代至1980年代，当时NASDAQ规模小且流动性差
使用五分位而非十分位断点：极端组合变得不那么极端
使用市值加权而非等权重：小盘股的影响大幅降低
跳过两个月而非一个月：更彻底地去除了短期反转效应，改变了因子的特性
使用6个月而非12个月的形成期：因子捕捉的是持续时间更短的动量，具有不同的风险特征

这些变化中的每一个单独来看都是合理的。没有一个是"错误的"。但一个使用NASDAQ股票、五分位断点、市值加权、两个月跳过期和六个月形成期的动量因子可能产生1.5的t统计量——未能复制——而精确的Jegadeesh-Titman规格产生4.0的t统计量。"动量"并没有复制失败，而是一个不同版本的动量复制失败了。

这种现象在因子动物园中普遍存在。Chen和Zimmermann系统性地记录了这一点：当他们匹配原始论文的方法时，82%的因子实现了复制。当他们应用标准化方法（类似于Hou、Xue和Zhang的方法）时，复制率显著下降。

哲学问题：哪种方法是"正确的"？精确复制告诉我们原始作者的主张是否可重现——他们是否发现了他们所说的发现？标准化复制告诉我们异象是否对合理的方法变化具有稳健性——该现象在更广泛的意义上是否存在？

两者都是合理的问题，但它们有不同的答案。复制"危机"部分源于将这两个问题混为一谈。

方法敏感性案例研究：规模效应

规模效应生动地说明了方法论选择如何决定复制结果。Rolf Banz在1981年记录了小盘股平均收益高于大盘股。这成为金融学中最著名的异象之一。

规模效应是否可以复制？答案完全取决于你如何定义它：

规模效应规格	t统计量 (1963-2023)	结论
SMB (Fama-French, 市值加权)	~1.5	未通过t > 1.96
SMB (等权重)	~3.0	通过
十分位1减十分位10 (CRSP)	~2.2	边际
小盘减大盘 (仅NYSE)	~1.0	未通过
小盘减大盘 (包含微盘股)	~3.5	强通过
小盘减大盘 (1980年后)	~0.5	未通过
小盘减大盘 (仅一月份)	~5.0	极强通过
小盘减大盘 (除一月份)	~0.3	未通过
小盘减大盘 (控制质量因子)	~2.5	通过 (Asness et al., 2018)

规模效应"可以复制"还是"无法复制"完全取决于规格。这并不是说规模效应含糊不清——而是"规模效应"不是一个单一的、定义明确的对象。它是一系列相关规格，表现各不相同。

这并非规模效应独有的。它几乎适用于因子动物园中的每一个异象。在你精确指明你正在测试哪个版本的异象之前，"这个异象是否可以复制？"这个问题没有答案。

维度2：统计阈值

阈值维度从"传统"（t > 1.96，相当于p < 0.05）延伸到"多重检验调整后"（t > 3.0或更高，取决于调整方法）。

在新因子发现的背景下，Harvey、Liu和Zhu关于更高阈值的论证在统计上是有效的。如果你是第317位提出新因子的研究者，你的因子为真的先验概率低于你作为第一位研究者时，因为316个因子已经在同一数据上被检验过了。多重检验调整考虑了这种累积的证明负担。

然而，当回溯性地应用于已确立的因子时，这一论证就站不住脚了。以动量为例。它已在原始的Jegadeesh和Titman (1993)样本、发表后的美国数据、40多个国际市场（Asness, Moskowitz, and Pedersen, 2013）、不同的资产类别（股票、债券、大宗商品、货币）以及可追溯至维多利亚时代的历史数据（Geczy and Samonov, 2016）中被检验过。这些检验中的每一个都是独立的。鉴于这座独立证据的大山，动量是虚假发现的概率微乎其微，无论你对原始论文应用什么多重检验阈值。

多重检验框架是为评估边际新发现而设计的。它不应该被应用于已经积累了大量独立证据的因子。未能做出这种区分助长了复制危机的认知。

贝叶斯替代方案

Jensen、Kelly和Pedersen的贝叶斯方法完全绕过了阈值问题。他们不将因子分为"显著"或"不显著"，而是估计每个因子溢价的后验分布。一个t统计量为1.5的因子不是"不显著的"——它有一个正的但较小的后验均值，具有宽置信区间。一个t统计量为5.0的因子有一个大的后验均值和窄置信区间。

这种连续表示避免了基于阈值检验的悬崖效应，更准确地表达了知识的真实状态。因子动物园不是"真实"和"虚假"的二元划分——它是一个从"几乎确定真实且大"（动量、价值）到"可能真实但小"（数十个因子）再到"可能为零"（噪声）的连续谱。

在贝叶斯框架下，复制"危机"消失了，因为从来就没有过危机——有的只是一个表述不当的二元问题被应用于连续的现实。

维度3：经济复制与统计复制

经济维度从"总收益、无成本"延伸到"扣除现实实施成本和容量约束后的净收益"。这一维度在复制辩论中相对被忽视，但对从业者来说可能是最重要的。

Novy-Marx和Velikov对交易成本的分类提供了基本框架：

有效价差：买卖价差是最基本的交易成本。对于大盘股，有效价差通常为2至5个基点。对于微盘股，可能超过200个基点。一个需要每月买卖微盘股的因子，面临每月400个基点以上的往返交易成本——这对任何理论溢价来说都是巨大的拖累。

市场冲击：大额订单会推动价格。一个需要购买1亿美元日均成交量仅为500万美元的股票的投资组合，在执行过程中会显著推高价格。市场冲击对流动性好的大盘股可以忽略不计，但对小型、低流动性股票来说可能巨大。这产生了容量约束：随着投资组合规模增大，因子溢价会下降。

做空成本：学术因子的多空结构假设做空是免费且无限的。实际中，做空是昂贵的（容易借入的股票借贷费用通常为每年50至300个基点，难以借入的股票超过10%）、有风险的（出借人可以随时召回股份）且有时不可能的（某些股票无法借入）。相当一部分收益来自做空端的异象面临特别严峻的实施阻力。

换手率：需要频繁再平衡（月度或更高频率）的因子比年度再平衡的因子更频繁地产生交易成本。动量策略通常每月再平衡，其年换手率是通常年度再平衡的价值策略的12倍。这种换手率差异意味着动量必须产生显著更高的总溢价才能提供与价值相同的净收益。

当这些成本被应用时，因子动物园急剧缩水。Novy-Marx和Velikov发现，许多总收益令人印象深刻的异象——特别是那些集中在小型、低流动性、高换手率股票中的——在扣除成本后变得无利可图或处于边际水平。

经济复制评分卡

我们可以构建一个大致的评分卡，展示主要异象族群在三个维度上的表现：

因子族群	精确统计复制	标准化统计复制	多重检验	扣除成本后
价值 (B/M, E/P)	✓	✓	✓	✓ (低换手率)
动量 (12-1)	✓	✓	✓	✓ (边际)
盈利能力 (GP/A)	✓	✓	✓	✓ (低换手率)
低波动率 / BAB	✓	✓	✓	✓ (低换手率)
投资 (资产增长)	✓	混合	混合	✓ (低换手率)
质量综合指标	✓	✓	✓	✓
规模 (SMB)	✓	混合	✗	混合
短期反转	✓	✓	✓	✗ (高换手率)
应计项目	✓	混合	混合	混合
净发行	✓	混合	混合	✓
特质波动率	✓	混合	混合	✗
分析师修正	✓	✓	混合	✗ (高换手率)
盈余动量 (SUE)	✓	✓	✓	混合
日历效应 (一月等)	✓	✗	✗	✗
流动性 (Amihud)	✓	混合	混合	✗

模式很清晰。通过全部四列的因子——精确统计、标准化统计、多重检验和扣除成本——构成一个小群体：价值、动量、盈利能力、低波动率和质量。这些就是稳健核心。通过部分列但未通过其他列的因子构成脆弱中间层。大多数或所有列都未通过的因子则是噪声。

深度分析：动量在所有四个过滤条件下的表现

动量值得特别关注，因为它可能是金融学中研究最充分的异象，也是我们框架的理想测试案例。

过滤条件1：精确统计复制。当遵循原始的Jegadeesh和Titman (1993)方法时，动量几乎完美地复制。12个月形成期加上1个月跳过、十分位组合和等权重，在原始样本、后续样本以及Chen和Zimmermann的复制中都产生了大且高度显著的溢价。评分：✓（明确通过）。

过滤条件2：标准化统计复制。动量在大多数标准化方法下都可以复制，尽管幅度有所变化。市值加权动量小于等权重动量（因为动量在小盘股中更强）。更长的形成期（如6个月）产生的结果弱于标准的12个月。不同的跳过期改变了幅度。在Hou、Xue和Zhang的标准化下，动量可以复制。评分：✓（通过，但对规格有敏感性）。

过滤条件3：多重检验阈值。动量在美国数据中轻松超过t > 3.0的标准，并已在40多个国际市场中得到独立复制。综合证据使得动量是虚假发现的概率微乎其微。评分：✓（压倒性通过）。

过滤条件4：扣除交易成本后。这是动量面临最大挑战的地方。标准动量因子需要月度再平衡，产生高换手率。在最极端的形式下（十分位多空、等权重、月度再平衡），交易成本消耗了总溢价的相当一部分。

然而，文献已确定了几种成本缓解策略：

更宽的组合（五分位而非十分位）显著降低换手率
中间频率的再平衡（每季度）以更少的换手率捕捉大部分溢价
减少不必要换手的交易规则（例如，仅在股票信号发生显著变化时交易）可以在对总收益影响最小的情况下将换手率削减50%以上
在流动性好的大盘股中实施消除了小盘股的成本负担
最优执行算法可以减少市场冲击

在应用这些修改后，Novy-Marx和Velikov以及Frazzini、Israel和Moskowitz分别得出结论，动量是可以实施的——在机构规模下勉强可以，需要谨慎执行。它是稳健核心因子中实施难度最大的，但在经济上仍然可行。

评分：✓（边际通过——通过成本感知的构建方式可以实施）。

国际证据：Asness、Moskowitz和Pedersen (2013)记录了动量在40多个市场的股票、货币、政府债券和商品期货中的表现。这种证据的广度基本不可能通过数据挖掘来解释。

样本前证据：Geczy和Samonov (2016)记录了动量在美国股票中可追溯至维多利亚时代（1801-1926），即CRSP数据库开始之前。

结论：动量通过了全部四个过滤条件，尽管其经济可行性受到的约束最大。它牢牢属于稳健核心，但比价值或盈利能力策略需要更复杂的实施。

深度分析：应计项目在所有四个过滤条件下的表现

应计项目提供了一个对照案例——一个明显处于"脆弱中间层"的异象。

Sloan (1996)记录的应计异象是一个发现：高应计项目（盈余远高于现金流）的公司随后表现不佳，而低应计项目（现金流超过盈余）的公司随后表现优异。其经济直觉是，高应计项目预示着激进的会计处理或不可持续的盈余，而低应计项目预示着保守的会计处理或高盈余质量。

过滤条件1：精确统计复制。当遵循Sloan的原始方法时，应计异象可以复制。评分：✓。

过滤条件2：标准化统计复制。该异象对应计项目的定义敏感。资产负债表应计（Sloan的原始指标）与现金流量表应计产生不同的结果。加权方式的选择（等权重与市值加权）影响显著——该异象在市值加权组合中弱得多。在Hou、Xue和Zhang的标准化下，应计项目处于边际水平。评分：混合。

过滤条件3：多重检验阈值。应计项目在大多数规格下通过t > 2.0标准，但在几个规格下未达到t > 3.0。鉴于应计项目是与数百个其他会计变量一起被检验的，多重检验的担忧是合理的。评分：混合。

过滤条件4：扣除交易成本后。应计策略需要年度再平衡（这是正面特征），但集中在小型、流动性较低的股票中（这是负面特征）。做空端特别成问题——高应计公司往往正是那些投机性强、难以借入股票、做空成本最高的公司。扣除成本后，应计异象充其量只是边际盈利。评分：混合。

国际证据：混合——在一些市场复制但在其他市场不行，表明存在一些美国特定的成分。

结论：应计项目恰好位于脆弱中间层。该异象可能捕捉了一个真实的现象（市场倾向于过度重视盈余而非现金流），但它太脆弱、对规格太敏感、交易成本太高，不足以作为独立投资策略的基础。它可能作为更广泛的质量或盈利能力框架中的次要倾斜提供边际价值。

冗余问题

大多数复制研究未能充分解决的一个关键问题是因子冗余。因子动物园中的400多个因子不是400个独立的收益来源。许多是对同一底层现象的高度相关的衡量。

以"质量"族群为例。研究者提出了各种质量指标：

总利润率 (Novy-Marx, 2013)
股本回报率 (Hou, Xue & Zhang, 2015)
资产回报率
经营利润率 (Fama & French, 2015)
基于现金的盈利能力 (Ball et al., 2016)
盈余稳定性
债务权益比
Piotroski F评分 (Piotroski, 2000)
Altman Z评分

其中每一个都作为独立的异象被提出，每个都有自己的学术论文和t统计量。但它们都在衡量同一件事的变体：财务特征强劲稳定的公司跑赢财务特征薄弱不稳定的公司。"400多个因子"的计数将每一个视为独立的，既夸大了多重检验问题，也夸大了复制失败率。

当按经济机制将因子分组——价值、动量、盈利能力/质量、风险、规模、投资、流动性——真正独立的收益来源数量缩减到大约6至8个族群。在每个族群内，最佳规格优于其他规格，但大多数族群成员在最佳规格被纳入后只提供边际贡献。

这种冗余对复制辩论有深远影响：

Harvey等人计算的316个因子不是316个独立检验——它们大约是30至50个独立检验，每个通过多个视角进行审视
一个特定质量指标未能复制并不意味着质量因子是虚假的——它可能意味着那个特定规格不如同族群中的其他规格
多重检验调整应适用于因子族群，而非单个规格

机器学习与新因子发现

机器学习在资产定价中的出现（Gu, Kelly, and Xiu, 2020）为复制辩论增添了新的维度。机器学习方法可以识别传统线性方法遗漏的特征之间的非线性、交互关系。这种能力是把双刃剑：

正面解读：机器学习方法可能识别出线性因子模型无法捕捉的真正的收益预测能力。400多个线性因子的"因子动物园"可能只是少数非线性关系的粗糙近似。机器学习可以检测到单个因子所近似的底层结构。

负面解读：机器学习方法具有巨大的过拟合能力。一个参数足够多的神经网络可以拟合任何样本内模式，包括噪声。如果没有严格的样本外测试和经济先验，机器学习发现的预测能力可能比传统因子分析更容易受到数据挖掘的影响。

Gu、Kelly和Xiu通过广泛的样本外测试解决了这一问题，发现他们的机器学习模型确实在样本外预测了收益，其R²大约是最佳线性模型的三倍。然而，当他们将机器学习预测分解为其组成特征时，主导预测因子是熟悉的：动量、价值、流动性、波动率。机器学习模型并没有发现新因子——它们发现了组合已知因子的更好方式，特别是通过非线性交互。

这一发现支持了我们的三层分类。传统方法识别的稳健核心因子也是机器学习方法识别的核心。机器学习的额外复杂性主要改进了这些因子的组合方式，而非改变了哪些因子重要。

第五部分：结果与解读

评估三个假说

在汇集和分析了12项复制研究的证据后，我们现在评估我们的三个竞争假说。

H1（数据挖掘）——部分得到支持，但过于简单。

支持证据：

Harvey、Liu和Zhu的多重检验论证在统计上是有效的：400多个因子中无疑有许多是虚假发现
一些异象在1963年前的数据中完全消失（Linnainmaa & Roberts）或即使在精确复制下也失败
已发表因子的庞大数量（400+）即使在宽松的显著性阈值下也保证了一些假阳性
许多异象在标准化复制下失败，表明对规格选择的敏感性是过拟合的特征

反对证据：

发表后衰减是部分的（42%存活），而非完全的——纯粹数据挖掘预测零存活
机构交易在发表后增加并与衰减相关（Calluzzo et al.）——数据挖掘无法解释这一点
稳健核心因子（价值、动量、盈利能力、低波动率）在独立的市场、时间段、资产类别和方法论中均可复制——这一模式与数据挖掘不兼容
机器学习方法（Gu, Kelly, and Xiu）通过完全不同的统计方法识别出相同的核心因子，提供了独立确认

对H1的裁定：对于因子动物园中大约50-60%的部分（统计噪声层）为真，但对稳健核心为假。纯粹的数据挖掘假说过于笼统——它对所有异象一视同仁，无法解释哪些异象存活、哪些未能存活的系统性模式。

H2（套利）——部分得到支持，具有有力的机制证据。

支持证据：

Calluzzo等人关于机构交易对发表做出反应的直接证据令人信服
部分（非完全）的发表后衰减恰恰是套利限制理论所预测的
更容易交易的异象（大盘股、高流动性、低换手率）比难以交易的异象显示更多的发表后衰减——与套利资本先流向最容易的机会一致
稳健核心因子显示的发表后衰减小于平均异象，与容量约束限制套利一致
溢价在发表数十年后仍然持续（价值至少从Graham和Dodd 1934年起就被认知）与套利的结构性限制一致，而非数据挖掘

反对证据：

一些异象即使在标准化方法下也无法在原始样本期间复制——套利无法解释同期数据中的失败
套利假说无法解释为什么一些异象对规格敏感——一个真实的经济现象应该对合理的方法选择具有稳健性
该假说暗示所有异象在发表前都是真实的，这与Harvey等人的统计论证（许多是虚假发现）不一致

对H2的裁定：对于因子动物园中有意义的一个子集为真——大约20-30%（脆弱中间层加上部分稳健核心）。套利机制是真实且重要的，但不能解释所有异象动态。它与数据挖掘和方法论敏感性并行运作。

H3（定义）——作为组织框架得到强力支持。

支持证据：

一项研究复制率的最强预测因子是其方法论方法，而非它检验的是哪些异象
Chen和Zimmermann与Hou、Xue和Zhang检验了大致重叠的异象集合，却因方法论差异得出相反结论
同一异象可以根据以下因素被归类为已复制或失败：加权方案、断点、纳入标准、显著性阈值以及是否考虑成本
Harvey等人（大多数失败）、McLean & Pontiff（大多数衰减后存活）和Chen & Zimmermann（大多数可复制）之间的三方分歧，当你认识到每一方回答的是不同问题时就完全得到了解决
国际复制率（约50%）与真实异象和虚假异象混合的情况一致，而非一个全有或全无的危机

反对证据：

如果分歧纯粹是定义性的，就不应该存在在所有方法论下都一致失败的异象。这类异象的存在（日历效应、一些基于微观结构的异象）意味着数据挖掘是真实的，而不仅仅是一个定义伪影
定义假说可能被视为不可证伪的——"答案取决于定义"在微不足道的意义上总是成立的

对H3的裁定：H3是正确的组织框架。复制文献中表面上的矛盾在很大程度上（虽然不完全）是不同研究提出不同问题和使用不同方法的产物。"复制危机"主要是定义的危机，而非科学的危机。

三层综合

将所有三个假说的证据结合起来，我们得出了核心发现：因子动物园包含三个具有不同复制属性的独立群体。

第一层：稳健核心（15至25个因子）

这些异象通过了全部四个复制过滤条件：精确统计、标准化统计、多重检验和经济（扣除成本后）。它们的特征是：

植根于风险、行为偏差或制度约束的坚实理论基础
在多个独立市场和时间段中可复制
适度但持续的发表后衰减（与部分套利一致）
有足够的容量在机构规模上交易
低至中等换手率，使成本效益实施成为可能

稳健核心包括：

价值（账面市值比、盈利收益率、现金流收益率）：基于风险和行为的解释；自Graham和Dodd (1934)以来在全球范围内有记录
动量（12个月减1个月收益）：行为解释（对信息反应不足）；在40多个市场和多个资产类别中有记录
盈利能力（总利润率、经营利润率）：经济逻辑（盈利的公司价值更高）；由Novy-Marx和Fama-French独立确认
低波动率 / 反向押注贝塔（低贝塔、低特质波动率）：杠杆约束机制；在全球各资产类别中有记录
质量综合指标（盈利能力 + 稳定性 + 低杠杆）：公司财务健康的多维指标
投资（资产增长、资本支出增长）：经济逻辑（激进投资预测较低收益）；虽然证据比上述因子略弱
盈余动量（标准化意外盈余、分析师修正）：盈余公告后漂移；文献中最稳健的异象之一
净发行（股份回购与发行）：信息不对称解释；回购股份的公司知道自己的股票被低估

第二层：脆弱中间层（50至100个因子）

这些异象在某些条件下可以复制，但在其他条件下不行。它们通常通过过滤条件1（精确复制）但未能通过过滤条件2至4中的一个或多个。它们包括：

稳健因子的规格敏感变体（如替代动量定义、替代质量指标）
在等权重组合中有效但在市值加权组合中无效的异象（通常由微盘股驱动）
在统计上显著但在交易成本后经济上不可行的异象
在美国可复制但在国际上不行的异象（可能是美国特定的会计或制度产物）
发表后显著衰减、仅留下边际残余溢价的异象

这些因子不一定是"虚假的"——许多捕捉了真正但狭窄的现象。它们可能作为更广泛投资组合构建框架中的次要倾斜有用，但它们不是可靠的独立收益来源。

第三层：统计噪声（250个以上因子）

这些异象在任何合理标准下都无法复制。它们包括：

已基本消失的日历效应（周末效应、年初效应、假日效应）
反映数据错误、买卖价差弹跳或陈旧定价而非真正预测能力的微观结构伪影
仅针对狭窄时间段或特定会计制度的基于会计的异象
明显是大量规格搜索产物的"因子"，通常可通过不寻常的构建选择来识别（例如，在特定滞后结构下对三个变量进行交互）
在因子动物园中复制其他因子但碰巧在特定样本中达到显著性的因子

这些因子助长了复制危机的认知。它们是Harvey、Liu和Zhu提出t > 3.0阈值的原因，也是Hou、Xue和Zhang发现64%失败率的原因。但它们并不代表整个因子动物园——它们只是伴随任何大规模实证研究项目而来的噪声。

置信度评估

我们对整体框架的置信度评级为5分中的4分。

最高置信度领域（5分中的5分）：

复制研究之间的分歧主要是方法论层面的，而非实质性的
存在一个通过所有复制过滤条件的稳健核心因子群
纯粹的数据挖掘无法解释完整的证据模式（部分衰减、国际复制、机构交易反应）

中等置信度领域（5分中的3至4分）：

稳健核心的确切规模（我们估计15至25个，但边界是模糊的）
因子动物园中纯噪声的比例（我们估计60%以上，但取决于所应用的统计阈值）
套利与数据挖掘在解释发表后衰减中的相对重要性

较低置信度领域（5分中的2至3分）：

"脆弱中间层"中的特定因子属于稳健核心还是噪声层
机器学习方法是否会通过识别非线性关系来扩展稳健核心，还是仅仅优化现有因子的组合
因子溢价的长期未来——稳健核心是否会无限期持续，还是增加的资本流入最终会消除这些溢价

第六部分：与其他领域的比较

金融学 vs. 心理学：不同的危机

金融学中的复制危机经常被拿来与心理学中的复制危机相比较，但两者在本质上是不同的。

在心理学中，开放科学协作组织 (2015) 试图复制100项已发表的研究，发现仅有36%在复制中产生了显著结果。这被广泛解读为一场方法论危机——统计效力不足的研究、p值操纵和发表偏差产生了一个被假阳性主导的文献。

在金融学中，Hou、Xue和Zhang的"36%复制率"在表面上相似，但在机制上不同。金融研究通常拥有更大的样本量（数千只股票被观察了数十年的月度数据），这意味着它们通常具有充足的统计效力。金融学中的主要问题不是统计效力不足的研究，而是多重检验（在同一数据上检验了太多假设）和方法论敏感性（结果随构建选择而变化）。

此外，心理学的复制失败通常是绝对的——复制的效应为零或方向相反。金融学的"失败"通常是部分的——效应存在但幅度较低、在不同规格下、或具有边际显著性。这种部分复制更符合方法论敏感性而非彻底的虚假发现。

金融学 vs. 医学：相似的结构性激励

金融学中的结构性激励与医学更为相似。在医学领域，John Ioannidis曾著名地论证"大多数发表的研究发现都是虚假的"。在两个领域中：

在顶级期刊发表面临激烈竞争
新颖、令人惊讶的发现优先于无效结果
研究者在研究设计中拥有大量自由度（样本选择、变量、模型设定）
许多研究者使用相同的底层数据源（金融学中的CRSP/Compustat；医学中的通用临床试验数据库）

关键区别在于，金融学有一个医学通常缺乏的天然样本外测试：时间。一个在2005年发表的金融异象可以在2005年后的数据中测试其是否持续。一个关于特定治疗的医学发现无法被回溯性地测试。这赋予了金融学一种固有的自我纠正机制，McLean和Pontiff等人已经利用了这一机制。

第七部分：局限性与我们无法断言的事项

继承的局限性

本分析综合了已发表的结果——我们没有进行新的回归分析、构建新的因子或测试新的数据。我们的结论继承了底层研究的所有局限性。

CRSP/Compustat单一文化。绝大多数美国资产定价研究使用来自CRSP（股票收益）和Compustat（会计数据）的数据。这产生了一种微妙的共同偏差：这些数据库中的任何系统性误差——幸存者偏差、回填偏差、数据更正、覆盖缺口——都会传播到整个文献中。使用与原始研究相同的CRSP/Compustat数据的复制研究，测试的是方法论的可重现性，而非数据的独立性。只有国际复制（Jacobs和Muller）和替代数据源（如Linnainmaa和Roberts手工收集的1963年前数据）才能提供真正独立的证据。

复制研究中的发表偏差。我们之前提到过这一点，但值得重申：得出戏剧性结论的复制研究（"危机"或"没有危机"）比结论模棱两可的研究更容易被发表。我们的证据基础可能过度代表了复制分布的极端值。发现例如55%复制率的研究——在任何方向上都不够戏剧性——可能躺在未发表的文件抽屉中。

时变风险溢价。我们归因于发表后衰减（套利）或数据挖掘的部分现象，实际上可能反映了时变风险补偿。如果股权风险溢价从1980年代开始下降（正如一些证据所暗示的），那么相对于市场衡量的所有因子溢价也会下降。这个混淆因素在没有时变风险结构模型的情况下难以解决，而这超出了文献综述的范围。

因子中的幸存者偏差。因子动物园本身可能存在幸存者偏差。碰巧在样本内有效的因子被发表；无效的被放弃了。但被放弃的因子中可能包含一些在样本外本可以有效的因子，而一些已发表的因子在样本外则不一定有效。已发表因子的总体是被检验因子总体的一个有偏样本。

我们无法识别哪些具体的异象是"真实的"。我们的三层框架描述的是群体，而非个别因子。将某个具体的异象归入稳健核心、脆弱中间层或噪声层，需要底层复制研究所进行的详细实证分析。我们提供框架；12项研究提供分类的证据。

什么会改变我们的结论

我们认为应该说明什么样的证据会导致我们修正观点：

会强化H1（数据挖掘）的证据：

如果使用精确方法的全面复制（如Chen和Zimmermann的方法）发现了更低的复制率——比如说50%而非82%——这将表明即使精确复制也比我们目前认为的更经常失败
如果稳健核心因子（价值、动量）在2020年后的数据中、在所有市场和规格下开始显示零或负溢价，这将挑战"真实但被套利"的解读

会强化H2（套利）的证据：

如果一个自然实验（比如一个因子以某种语言发表后突然被翻译并传播到新市场）在该市场立即显示因子衰减，这将提供套利渠道的清晰因果证据
如果基于因子的ETF增长能在Granger因果框架中直接与因子衰减联系起来

会削弱H3（定义）的证据：

如果两项复制研究使用了相同的方法论但不同的异象样本，却得出相反的结论，这将表明异象特征比我们认为的更重要
如果各研究间复制率的变异与方法论差异不相关，我们的框架将失去其解释力

建议的实证检验

我们提出五个可以进一步验证或反驳我们框架的检验：

方法论回归：检验复制率（在12项研究中）是否在控制异象特征（平均t统计量、经济机制类型、规模/流动性集中度）后由方法论特征（忠实度、阈值、成本处理）预测。如果方法论解释的方差多于异象特征，H3将得到强力支持。
衰减异质性：检验"稳健核心"因子是否显示出与"脆弱中间层"因子不同的发表后衰减模式。稳健核心应显示更小、更慢的衰减；脆弱中间层应显示更大、更快的衰减；噪声层应显示立即衰减至零。
机器学习优势检验：检验仅由稳健核心因子的机器学习组合构建的投资组合是否优于同时包含脆弱中间层因子的投资组合。如果稳健核心已经足够，脆弱中间层因子增加的是噪声，而非信号。
因子容量映射：对每个稳健核心因子，估计扣除成本后溢价仍为正的最大投资组合规模。这将把定性的"成本后存活"评估转化为定量的容量估计。
实时复制：建立一个前瞻性的实时跟踪系统，监控因子收益的实时表现（而非回溯性的）。这消除了所有前瞻偏差，提供了因子持续性的最干净测试。

第八部分：启示

对机构投资者的启示

因子选择问题基本已解决。复制文献已趋于一致，确定了一个可靠的因子核心：价值、动量、盈利能力/质量和低波动率。关于哪些因子是"真实的"的辩论，对这个核心组来说基本已经尘埃落定。剩下的开放问题是关于实施，而非选择。

实施就是阿尔法。天真构建的因子投资组合与精细构建的因子投资组合之间的差异可达每年100至200个基点。这一实施差距——由换手率管理、再平衡频率、容量感知的规模控制和执行质量驱动——往往大于纳入或排除一个边际因子的差异。对于机构投资者而言，竞争优势的主要来源不是因子发现，而是因子构建。

警惕脆弱中间层。脆弱中间层的50至100个因子提供了一种诱惑：它们的回测表现良好，看起来能增加分散化。但它们的脆弱性——对规格敏感、成本后勉强盈利、跨市场不一致——意味着在已经捕捉了稳健核心的投资组合中，它们更可能增加噪声而非收益。纳入脆弱中间层因子的举证标准应该很高：在多个规格下展示出稳健性、有清晰的经济机制、在目标投资组合规模下具有正的扣除成本后收益。

容量是约束性瓶颈。即使是稳健核心因子也有有限的容量。随着更多资本流入基于因子的策略（通过智能贝塔ETF、量化基金和机构配置），因子溢价将被压缩。问题不在于这种压缩是否会发生，而在于溢价被完全套利之前还剩多少容量。估计差异很大，但主要因子的总因子策略容量的共识范围为1至5万亿美元。目前明确的因子策略总资产正在接近这一范围，表明前瞻性溢价可能小于历史估计。

监测体制变化。因子溢价不是恒定的——它们随经济体制、市场条件和结构性变化而变化。动量在正常市场中运作良好，但在体制转换期间（如2009年3月的动量崩溃）遭受毁灭性打击。价值在较长时期内表现不佳（2010-2020），之后出现回归。低波动率策略在利率上升环境中容易受损。机构投资者应保持对体制敏感的因子配置，根据市场条件调整因子暴露，而非持有静态权重。

对散户投资者的启示

简单胜过复杂。复制文献对散户投资者的实际意义是令人欣慰的：你不需要理解400多个因子。可投资的集合很小。一个由广泛市场暴露（60-70%）加上价值、动量、质量和低波动率的针对性倾斜（30-40%）组成的投资组合，捕捉了绝大部分可获得的因子溢价。这些倾斜可以通过总费用率低于30个基点的低成本ETF来实现。

对新颖策略持怀疑态度。复制文献表明，大约50-65%的新发表异象在严格标准下无法复制，其余大部分在交易成本后也无法存活。任何以单一学术异象——尤其是最近发表的异象——为基础营销的投资产品都应受到深度质疑。举证责任在产品提供者身上，需要证明可复制性、稳健性和扣除成本后的可行性。

时间跨度比因子选择更重要。对于时间跨度较长（20年以上）的散户投资者而言，最重要的投资决策不是向哪些因子倾斜，而是在不可避免的下跌中是否维持股票暴露。每年2-4%的稳健因子溢价在数十年间复利增长显著，但前提是投资者保持投资。因子择时——试图根据市场条件在价值和动量之间轮换——即使对机构投资者来说也很困难，对散户投资者来说很可能会损害价值。

如果感到困惑就完全避开因子动物园。如果因子动物园让人感到不知所措，一只简单的全市场指数基金是一个完全合理的选择。稳健因子溢价是真实的但属于中等水平（成本前每年2-4%），而实现它们需要纪律性：在任何单个因子不可避免的（可能长达5至10年的）表现不佳期间维持因子倾斜。一个在价值倾斜表现不佳三年后恐慌性卖出的投资者，其收益将不如一个简单地始终持有市场指数的投资者。

对研究者和学术界的启示

标准化复制报告。学术界将从标准化的复制框架中获益良多，该框架在多个层面报告结果：

使用精确原始方法的统计复制
使用标准化方法的统计复制
多重检验调整后的显著性
扣除现实交易成本后的经济复制
样本外/国际复制

任何仅报告单一层面复制结果的个别研究，都提供了不完整的画面，这种画面可能被——且已经被——媒体、从业者和其他研究者所误读。

采用贝叶斯方法。基于阈值的框架（显著与不显著）产生了人为的悬崖效应，并将一个连续现实强制纳入二元分类。贝叶斯收缩方法，正如Jensen、Kelly和Pedersen所展示的，提供了一种更细致、更准确的因子溢价知识状态表达。

开源是未来。Chen和Zimmermann的开源复制代码库树立了可重复性的新标准。未来的异象论文应被要求提供复制代码和数据，允许独立验证。这将大幅缩减数据挖掘和规格搜索的空间，因为审稿人和读者可以测试替代规格。

聚焦于经济机制。复制文献在很大程度上是实证性的——测试效应是否存在，而非解释为什么存在。一个缺乏令人信服的经济机制的因子本质上是脆弱的，因为它没有先验理由持续存在。在最严格的复制审查中存活下来的因子（价值、动量、盈利能力、低波动率）恰恰是那些理论基础最强的因子。未来的因子研究应以机制为先导、以证据为后续，而非反过来。

减少冗余。因子动物园将受益于整合。与其发表第17个质量指标的变体，研究者不如聚焦于识别真正独立的收益来源并理解驱动它们的经济机制。一个拥有15个充分理解、稳健记录的因子的因子动物园，在科学上比一个拥有400多个理解不足、部分冗余的因子的因子动物园更有价值。

参考文献

Asness, C. S., Moskowitz, T. J., & Pedersen, L. H. (2013). Value and momentum everywhere. Journal of Finance, 68(3), 929–985.
Asness, C. S., Frazzini, A., Israel, R., Moskowitz, T. J., & Pedersen, L. H. (2018). Size matters, if you control your junk. Journal of Financial Economics, 129(3), 479–509.
Ball, R., Gerakos, J., Linnainmaa, J. T., & Nikolaev, V. (2016). Accruals, cash flows, and operating profitability in the cross section of stock returns. Journal of Financial Economics, 121(1), 28–45.
Banz, R. W. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics, 9(1), 3–18.
Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets (pp. 79–121). Praeger.
Calluzzo, P., Moneta, F., & Topaloglu, S. (2019). When anomalies are publicized broadly, do institutions trade accordingly? Management Science, 65(10), 4555–4574.
Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance, 52(1), 57–82.
Chen, A. Y., & Zimmermann, T. (2022). Open source cross-sectional asset pricing. Critical Finance Review, 11(2), 207–264.
Chordia, T., Goyal, A., & Saretto, A. (2020). Anomalies and false rejections. Review of Financial Studies, 33(5), 2134–2179.
Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427–465.
Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3–56.
Fama, E. F., & French, K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1–22.
Frazzini, A., Israel, R., & Moskowitz, T. J. (2015). Trading costs of asset pricing anomalies. Working paper, AQR Capital Management.
Frazzini, A., & Pedersen, L. H. (2014). Betting against beta. Journal of Financial Economics, 111(1), 1–25.
Geczy, C. C., & Samonov, M. (2016). Two centuries of price-return momentum. Financial Analysts Journal, 72(5), 32–56.
Green, J., Hand, J. R. M., & Zhang, X. F. (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, 30(12), 4389–4436.
Gu, S., Kelly, B., & Xiu, D. (2020). Empirical asset pricing via machine learning. Review of Financial Studies, 33(5), 2223–2273.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5–68.
Hou, K., Xue, C., & Zhang, L. (2015). Digesting anomalies: An investment approach. Review of Financial Studies, 28(3), 650–705.
Hou, K., Xue, C., & Zhang, L. (2020). Replicating anomalies. Review of Financial Studies, 33(5), 2019–2133.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
Jacobs, H., & Muller, S. (2020). Anomalies across the globe: Once public, no longer existent? Journal of Financial Economics, 135(1), 213–230.
Jegadeesh, N., & Titman, S. (1993). Returns to buying winners and selling losers: Implications for stock market efficiency. Journal of Finance, 48(1), 65–91.
Jensen, T. I., Kelly, B. T., & Pedersen, L. H. (2023). Is there a replication crisis in finance? Journal of Finance, 78(5), 2465–2518.
Linnainmaa, J. T., & Roberts, M. R. (2018). The history of the cross-section of stock returns. Review of Financial Studies, 31(7), 2606–2649.
McLean, R. D., & Pontiff, J. (2016). Does academic research destroy stock return predictability? Journal of Finance, 71(1), 5–32.
Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics, 108(1), 1–28.
Novy-Marx, R., & Velikov, M. (2016). A taxonomy of anomalies and their trading costs. Review of Financial Studies, 29(1), 104–147.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Piotroski, J. D. (2000). Value investing: The use of historical financial statement information to separate winners from losers. Journal of Accounting Research, 38, 1–41.
Schwert, G. W. (2003). Anomalies and market efficiency. In G. Constantinides, M. Harris, & R. Stulz (Eds.), Handbook of the Economics of Finance (Vol. 1B, pp. 939–974). Elsevier.
Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance, 19(3), 425–442.
Sloan, R. G. (1996). Do stock prices fully reflect information in accruals and cash flows about future earnings? Accounting Review, 71(3), 289–315.
Stambaugh, R. F., & Yuan, Y. (2017). Mispricing factors. Review of Financial Studies, 30(4), 1270–1315.

散户投资者的实际应用

编辑注释

核心要点

第一部分：从未达成共识的问题

我们是如何走到400多个因子的

多重检验问题

反击

悖论

第二部分：研究问题与竞争假说

形式化研究问题

H1——数据挖掘假说

H2——套利假说

H3——定义假说

第三部分：证据基础——十二项研究详解

研究1：Schwert (2003)——最初的警示

研究2：Harvey, Liu & Zhu (2016)——多重检验调整

研究3：McLean & Pontiff (2016)——自然实验

研究4：Green, Hand & Zhang (2017)——保留测试

研究5：Linnainmaa & Roberts (2018)——1963年前检验

研究6：Hou, Xue & Zhang (2020)——标准化复制

研究7：Jacobs & Muller (2020)——国际复制

研究8：Chen & Zimmermann (2022)——精确方法复制

研究9：Jensen, Kelly & Pedersen (2023)——贝叶斯调和

研究10：Novy-Marx & Velikov (2016)——交易成本过滤

研究11：Chordia, Goyal & Saretto (2020)——综合过滤

研究12：Calluzzo, Moneta & Topaloglu (2019)——套利机制

第四部分：分析——复制的三个维度

构建分析框架

维度1：方法忠实度

方法敏感性案例研究：规模效应

维度2：统计阈值

贝叶斯替代方案

维度3：经济复制与统计复制

经济复制评分卡

深度分析：动量在所有四个过滤条件下的表现

深度分析：应计项目在所有四个过滤条件下的表现

冗余问题

机器学习与新因子发现

第五部分：结果与解读

评估三个假说

三层综合

置信度评估

第六部分：与其他领域的比较

金融学 vs. 心理学：不同的危机

金融学 vs. 医学：相似的结构性激励

第七部分：局限性与我们无法断言的事项

继承的局限性

什么会改变我们的结论

建议的实证检验

第八部分：启示

对机构投资者的启示

对散户投资者的启示

对研究者和学术界的启示

相关

参考文献