Partial least squares regression,偏最小二乘回归。

PLS 的基本思想是通过在输入数据(自变量)和输出数据(因变量)之间同时构建新变量(潜变量或成分),以便最大化输入与输出的协方差,同时解决高维数据中自变量之间的多重共线性问题。

主成分回归(PCR)是通过主成分分析(PCA)来减少自变量维度,但它只关注自变量的方差,忽略了自变量和因变量之间的相关性。而 PLS 同时考虑自变量的方差和自变量-因变量的协方差,因此在解释能力上通常优于 PCR。

1. 基本思想与目标

PLS 的目标是在输入矩阵 \(X\) 和输出矩阵 \(Y\) 之间建立一个线性模型: \[ Y = X B + E \] 其中:

  • \(X \in \mathbb{R}^{n \times p}\) 是自变量矩阵,有 \(n\) 个样本和 \(p\) 个自变量;
  • \(Y \in \mathbb{R}^{n \times q}\) 是因变量矩阵,有 \(q\) 个因变量;
  • \(B \in \mathbb{R}^{p \times q}\) 是需要估计的回归系数矩阵;
  • \(E\) 是误差矩阵。

为了避免由于 \(X\) 中自变量之间的多重共线性而导致的回归不稳,PLS 将 \(X\)\(Y\) 投影到一组新的潜在变量(成分)上,通过最大化这些潜在变量的协方差来构建模型。

2. 潜变量模型

PLS 通过构建一组称为潜变量的变量来替代原始变量。这些潜变量是从自变量矩阵 \(X\) 和因变量矩阵 \(Y\) 中提取的,同时考虑两者之间的协方差。

2.1 自变量和因变量的线性分解

首先,将 \(X\)\(Y\) 表示为其主成分的线性组合: \[ X = T P^\top + E_X \] \[ Y = U Q^\top + E_Y \] 其中:

  • \(T \in \mathbb{R}^{n \times k}\)\(X\) 的潜变量矩阵(得分矩阵),\(k\) 是成分数;
  • \(P \in \mathbb{R}^{p \times k}\)\(X\) 的加载矩阵;
  • \(U \in \mathbb{R}^{n \times k}\)\(Y\) 的潜变量矩阵;
  • \(Q \in \mathbb{R}^{q \times k}\)\(Y\) 的加载矩阵;
  • \(E_X\)\(E_Y\) 是误差矩阵。

2.2 潜变量的构造

在 PLS 中,我们希望找到一组潜变量,使得它们能够解释 \(X\) 中最多的方差,并且与 \(Y\) 之间有最大的协方差。为此,PLS 寻找潜变量 \(T\)\(U\),使得它们的协方差最大化: \[ \text{Cov}(T, U) = \max \] 其中 \(T\) 是从 \(X\) 投影得到的,\(U\) 是从 \(Y\) 投影得到的。

2.3 线性回归模型

PLS 的最终目标是通过潜变量 \(T\)\(Y\) 进行回归,因此我们建立如下线性关系: \[ Y = T B + E_Y \] 通过求解 \(T\)\(B\),我们就能够得到 \(Y\) 的估计值。

3. PLS 的推导过程

PLS 的推导过程可以分为以下几个步骤:

3.1 中心化数据

为了消除数据的尺度影响,我们通常在建模之前对 \(X\)\(Y\) 进行中心化处理,即减去其均值: \[ \tilde{X} = X - \bar{X}, \quad \tilde{Y} = Y - \bar{Y} \] 其中 \(\bar{X}\)\(\bar{Y}\) 分别是 \(X\)\(Y\) 的均值。

3.2 潜变量的构造

对于每个成分,我们依次从 \(X\)\(Y\) 中提取潜变量。通常采用如下的迭代方法:

  1. 在第 \(i\) 次迭代中,找到向量 \(w_i\)\(c_i\),使得: \[ w_i = \arg\max_w \text{Cov}(X w, Y c) \] 即最大化自变量和因变量之间的协方差。

  2. 得到投影得分向量: \[ t_i = X w_i, \quad u_i = Y c_i \]

  3. 更新矩阵 \(X\)\(Y\),去除已经提取的成分的影响: \[ X = X - t_i p_i^\top, \quad Y = Y - t_i q_i^\top \] 其中 \(p_i\)\(q_i\) 分别为对应的加载向量。

3.3 回归系数的计算

在构造了 \(T\)\(U\) 之后,PLS 通过回归 \(Y\)\(T\) 来得到回归系数 \(B\)\[ B = (T^\top T)^{-1} T^\top Y \]

3.4 最终模型

通过潜变量的回归模型,最终的 PLS 模型为: \[ Y = X B + E_Y \] 其中 \(B\) 是通过 \(X\) 的潜变量和 \(Y\) 之间的回归系数计算得到的。

4. PLS 的特点

  1. 处理多重共线性:PLS 通过提取潜变量代替原始变量,有效解决了多重共线性的问题,尤其适用于当 \(p \gg n\) 时。

  2. 同时考虑 \(X\)\(Y\) 的信息:PLS 在寻找潜变量时,既考虑了自变量的方差最大化,也考虑了自变量和因变量之间的协方差,增强了模型的解释能力。

  3. 可解释性强:PLS 的潜变量有明确的统计意义,能够通过加载矩阵解释原始变量的贡献。