什么是Merton模型，它为何对信用风险重要？

Merton（1974）模型将企业股权视为企业资产上的看涨期权，债务面值为执行价格。当资产价值在到期日低于债务时发生违约。通过反解Black-Scholes公式，模型从可观测的股价中推断企业资产价值和波动率，然后计算违约距离（distance-to-default）指标。KMV/穆迪将其商业化为预期违约频率（EDF）估计值，在实践中广泛使用。模型的优势在于经济基础，劣势在于Eom、Helwege和Huang（2004）记录的持续实证错误定价。

结构模型和约化形式信用模型有什么区别？

结构模型（Merton 1974）将违约与企业经济基本面联系起来：当资产价值低于债务时发生违约。需要从股价推断不可观测的资产价值，并对违约机制施加假设。约化形式模型（Jarrow-Turnbull 1995; Duffie-Singleton 1999）将违约视为具有随机强度的泊松过程的首次到达。无需对资产动态进行假设，直接对可观测信用利差进行校准。结构模型更适合基本面风险监测和压力测试；约化形式模型在信用衍生品定价和构建违约调整折现率方面更易处理。

为什么银行不对所有信用风险建模都使用机器学习？

两个障碍阻止了机器学习在受监管信用风险中的全面采用。第一是可解释性：巴塞尔III/IV下的监管机构要求银行解释和审计其资本模型。拥有数百个特征和数千棵树的梯度提升模型无法像Z-score或结构模型那样被解释。第二是数据可用性：由于违约是罕见事件，企业违约数据集规模较小。这些约束意味着机器学习在监管宽松的环境（金融科技贷款机构、对冲基金）和作为可解释模型的补充工具时最为有用。

信用风险建模：从Merton结构模型到机器学习

核心结论

信用风险建模从Merton（1974）优雅的期权理论框架开始，经过约化形式强度模型，发展到现代机器学习流水线。每一代都提高了预测精度，但也放弃了一些重要的东西：结构模型以实证拟合换取经济直觉；约化形式模型获得易处理性，但失去了企业资产负债表作为锚点；机器学习提高了精度，但牺牲了可解释性，而且往往失去监管接受度。实务者很少只选择一种范式，而是将三者结合，在各自发挥最大价值的领域加以运用。

股票市场正在重新定价信用风险

随着地缘政治不确定性在2025年至2026年间压缩全球风险偏好，投资级和高收益公司债的信用利差大幅走阔。这一动向再次引发了资产管理公司、银行风险部门和债券投资者持续面临的问题：如何估计交易对手违约的概率，以及承担该风险需要多少补偿？

答案在很大程度上取决于所选择的建模框架，而每个框架背后都有七十年的研究积累，决定了它能看到什么，又不能看到什么。

Merton（1974）：将股权视为企业资产的看涨期权

Merton（1974）的核心洞见简洁而深刻。企业的股权在经济上等价于企业资产上的欧式看涨期权，债务面值为执行价格。如果到期时企业资产价值超过债务，股东获得剩余部分。如果资产跌破债务，股东一无所获，债权人承担损失。

这一框架将违约问题转化为期权定价问题。利用可观测的股价和波动率，Merton通过反解Black-Scholes公式，推断出企业资产价值和资产波动率。当资产价值过程（建模为几何布朗运动）在到期日跌破债务面值时，违约发生。

违约距离（DD）将这一点概括为一个直观的指标：

DD = (V - F) / (V × sigma_V)

其中V是估计资产价值，F是违约边界（通常为债务面值），sigma_V是资产波动率。违约距离为5的企业需要资产发生5个标准差的不利波动才会违约，而违约距离为1的企业已经接近悬崖边缘。

KMV公司（后被穆迪收购）在1980年代末至1990年代将这一洞见商业化。KMV模型通过在大型历史数据库中将违约距离值映射到实证违约率，来估计预期违约频率（EDF）。核心公式得以保留，但从DD到EDF的映射是实证性而非理论性的。

结构模型的实证缺陷

尽管结构模型十分优雅，Merton框架存在持续的实证问题。Eom、Helwege和Huang（2004）对五种结构性信用模型（包括Merton (1974)以及Leland (1994)和Longstaff-Schwartz (1995)的扩展）与实际公司债券收益率利差进行了系统性评估。

他们的核心发现是，结构模型系统性地对公司债券错误定价。原始Merton模型预测的利差对大多数债券而言过低，差距往往很大。更复杂的结构模型解决了部分低估问题，但引入了新问题：它们对高风险企业的利差又存在高估。没有单一结构模型能在整个评级谱系中产生校准良好的利差预测。

这一实证失败背后有三个结构性问题。第一，模型假设违约只能在债务到期时发生，而实际上企业随时可能陷入财务困境。第二，几何布朗运动对企业资产动态的描述较差；跳跃、均值回归和随机波动率都很重要。第三，模型将债务到期视为既定，忽视了真实企业所面临的复杂资本结构、契约结构和战略性违约激励。

这些不是细枝末节的校准问题，而是理论易处理性与实证真实性之间根本张力的体现。

约化形式模型：强度与危险率

Jarrow和Turnbull（1995）独立开发、Duffie和Singleton（1999）加以扩展的约化形式（或强度型）方法，完全放弃了与企业资产的结构性联系。相反，违约被建模为具有随机强度参数（通常表示为lambda）的泊松过程的首次到达。

危险率（或违约强度）lambda(t)是在已存活至时刻t的条件下，瞬间发生违约的条件概率。若lambda(t)遵循已知过程，则在已存活至时刻t的条件下存活至时刻T的概率为：

P(存活至T) = E[exp(-从t到T的lambda(s) ds的积分)]

这一公式在数学上类似于短期利率利率模型中零息债券的定价。事实上，Duffie和Singleton（1999）表明，可违约债券可以完全像包含违约强度和违约损失率的修正折现率的无风险债券一样定价。这在危险率过程的仿射规格下产生了实用的闭合形式解。

相较于结构模型，其实用优势相当显著。第一，约化形式模型无需推断不可观测的企业资产价值，可直接利用简单的收益率曲线剥离技术对可观测的信用利差进行校准。第二，它能自然地处理复杂的违约概率期限结构。第三，可以在相同的数学框架内扩展，以容纳相关违约和信用衍生品定价。

代价是丧失经济内容。危险率lambda(t)是一个描述违约何时发生的统计对象，对于为什么发生或哪些企业层面的变量驱动它，没有任何说明。这使其对于希望理解信用风险来源并及早诊断恶化的风险监控实务者吸引力较低。

阿尔特曼Z值：机器学习的雏形分类器

在现代机器学习出现之前，有Z值。Altman（1968）使用多元判别分析构建了五个财务比率的线性函数，将破产企业与非破产企业区分开来：

Z = 1.2 X1 + 1.4 X2 + 3.3 X3 + 0.6 X4 + 1.0 X5

其中X1是营运资金/总资产，X2是留存收益/总资产，X3是息税前利润/总资产，X4是股权市值/总负债账面价值，X5是销售收入/总资产。

Z值高于2.99的企业被归类为安全区；低于1.81的被归类为危险区；中间的灰色地带则模糊不清。Altman的原始样本在破产前一年实现了约95%的分类准确率。

从现代机器学习的视角来看，Z值是用判别分析在小型标记数据集上训练的线性分类器。其特征集合理：捕捉了流动性（X1）、盈利能力（X2、X3）、杠杆（X4）和资产效率（X5）。其局限性同样明显：线性、仅使用五个特征、需要跨时期和行业重新校准，且是为不同宏观经济时代的制造业企业设计的。

Z值之所以被广泛引用和使用，并非因为它是最先进的，而是因为其可解释性使其在监管申报、契约监控和投资组合筛查等需要可审计性的场合中十分有用。

机器学习：梯度提升带来了什么

向梯度提升决策树（尤其是XGBoost和LightGBM）的转变，相较于经典判别模型和逻辑回归带来了三项实质性改进。

第一，非线性。财务比率以复杂方式相互作用；高杠杆企业在高利率环境中危险，但在低利率时尚可管理。基于树的模型无需分析师事先指定便能捕捉这些交互。

第二，特征丰富性。现代ML信用模型吸收会计数据、市场数据（股价、股票波动率、信用利差）、宏观经济指标、行业指标，某些实现中还包括来自业绩发布和申报文件的文本特征。Merton模型使用两个输入，现代梯度提升模型可能使用200个以上。

第三，处理缺失和不平衡数据。企业违约是罕见事件。梯度提升实现通过样本加权和成本敏感损失函数原生处理类别不平衡，这在信用分类中至关重要，因为假阴性（遗漏的违约）的代价远高于假阳性。

实证效果是真实的。在多项研究和信用数据集中，梯度提升在样本外违约预测指标（如ROC曲线下面积AUC和Kolmogorov-Smirnov统计量）上一致优于逻辑回归和Altman式判别模型。在富含市场特征的数据集上，比逻辑回归通常提升5至10个AUC点。

代价是可解释性。拥有500棵树和数百个特征的梯度提升模型无法像Z值那样被审计。

神经危险率模型

最新的方法论前沿将神经网络应用于危险率建模框架，将约化形式模型的数学结构与深度学习的表达能力相结合。

Kvamme等（2019）及相关研究使用神经网络架构重新表述了离散时间危险率模型。网络学习协变量到每个时间步条件违约概率的映射，而非指定危险函数的参数形式。这使模型能在不受仿射强度模型限制性函数形式假设约束的情况下，捕捉企业层面和宏观变量对危险率的非线性影响。

Gunnarsson等（2021）将类似框架具体应用于企业信用风险，发现神经危险率模型在长期违约预测上优于逻辑回归和梯度提升，在危险率的时间动态最为重要的场景中尤为突出。这一优势在财务困境早期阶段的企业中特别明显，因为契约压力和现金消耗的时间路径提供了横截面快照所无法捕捉的信息。

循环架构（LSTM、GRU）直接处理时间结构。循环网络处理财务报表和市场价格的时间序列，学习哪些轨迹先于违约出现，而非向模型输入单一期间的财务比率快照。这更接近有经验的信用分析师非正式所做的事情：他们不只看最新的申报文件，而是审视趋势。

代价是对数据的大量需求。神经模型需要比梯度提升大得多的训练样本以避免过拟合，而由于违约的稀缺性，企业违约数据集本身就受到限制。

实务者框架：什么在哪里被使用？

框架	可解释性	数据需求	违约预测	监管接受度
Merton / KMV	高	市场 + 资产负债表	中等	高
约化形式	中	信用利差	高（用于定价）	高
Altman Z值	非常高	仅会计	中等	非常高
梯度提升	低至中	会计 + 市场	高	中
神经危险率	低	大型面板数据	最高	低

银行和大型资产管理公司的投资级信用评估通常依赖KMV方式的EDF估计与判断性覆盖的组合。结构模型提供经济上有据可查的锚点；分析师则针对模型无法看到的因素（管理质量、诉讼风险、战略定位）进行调整。

高收益和杠杆贷款部门越来越多地将梯度提升模型与传统基本面分析结合使用。模型识别需要更密切关注的异常值；分析师判断模型的担忧是否反映了真实恶化或数据噪声。

不良债务和信用特殊情况实务者通常最依赖自下而上的基本面分析和结构模型输出。

量化信用对冲基金和金融科技贷款机构是神经危险率模型的主要采用者。他们拥有支持这些模型所需的数据量和技术基础设施，并且比受监管银行面临更少的模型形式监管约束。

每种模型的失去

理解每种模型牺牲了什么，与理解它获得了什么同样重要。Merton模型施加了特定的经济结构；当该结构错误时（对于资本结构复杂的企业往往如此），模型系统性地而非随机地失败。约化形式模型对市场价格拟合良好，但对违约机制沉默无言；在市场价格变动之前，它无法预警基本面的恶化。梯度提升功能强大但非因果；它学习训练数据中模式与违约的相关关系，当经济体制转换时，这些相关关系可能在样本外崩溃。神经模型在时间维度上扩展了这些能力，但加剧了可解释性和数据要求的问题。

这些框架没有一个是错误的，每个都是对相同复杂经济现实的不同近似。

局限性

所有类型的信用模型都有共同局限性。违约数据集相对于其所试图支持的模型复杂性而言规模偏小；即使有数十年的数据，投资级违约也足够罕见，使样本外验证不可靠。在一个信用周期中训练的模型可能在下一个周期产生系统性偏差的预测。信用风险与系统性风险之间的相互作用（违约在经济衰退期间集中的趋势）难以在没有宏观成分的情况下建模，而大多数信用模型将宏观环境视为协变量而非共同演化的状态。

监管要求施加了单独的约束。受巴塞尔III/IV约束的银行必须使用满足可解释性和可审计性标准的模型，这实际上排除了深度神经网络用于监管资本计算，即使这些网络展示了更优越的样本外表现。学术前沿与监管前沿并不总是处于同一位置。

参考文献

Merton, R.C. (1974). "On the Pricing of Corporate Debt: The Risk Structure of Interest Rates." Journal of Finance, 29(2), 449-470. https://doi.org/10.1111/j.1540-6261.1974.tb03058.x
Altman, E.I. (1968). "Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy." Journal of Finance, 23(4), 589-609. https://doi.org/10.1111/j.1540-6261.1968.tb00843.x
Jarrow, R.A. & Turnbull, S.M. (1995). "Pricing Derivatives on Financial Securities Subject to Credit Risk." Journal of Finance, 50(1), 53-85. https://doi.org/10.1111/j.1540-6261.1995.tb05167.x
Duffie, D. & Singleton, K.J. (1999). "Modeling Term Structures of Defaultable Bonds." Review of Financial Studies, 12(4), 687-720. https://doi.org/10.1093/rfs/12.4.687
Eom, Y.H., Helwege, J. & Huang, J. (2004). "Structural Models of Corporate Bond Pricing: An Empirical Analysis." Review of Financial Studies, 17(2), 499-544. https://doi.org/10.1093/rfs/hhg053
Kvamme, H., Foss, N., Borgan, O. & Scheel, I. (2019). "Time-to-event prediction with neural networks and Cox regression." KDD 2019. https://doi.org/10.1145/3292500.3330687
Gunnarsson, B.R., Vanden Broucke, S., Baesens, B., Óskarsdóttir, M. & Lemahieu, W. (2021). "Deep learning for credit scoring: Do or don't?" Expert Systems with Applications, 177, 114722. https://doi.org/10.1016/j.eswa.2021.114722