PLS
Partial least squares regression,偏最小二乘回归。
PLS 的基本思想是通过在输入数据(自变量)和输出数据(因变量)之间同时构建新变量(潜变量或成分),以便最大化输入与输出的协方差,同时解决高维数据中自变量之间的多重共线性问题。
主成分回归(PCR)是通过主成分分析(PCA)来减少自变量维度,但它只关注自变量的方差,忽略了自变量和因变量之间的相关性。而 PLS 同时考虑自变量的方差和自变量-因变量的协方差,因此在解释能力上通常优于 PCR。
1. 基本思想与目标
PLS 的目标是在输入矩阵 \(X\) 和输出矩阵 \(Y\) 之间建立一个线性模型: \[ Y = X B + E \] 其中:
- \(X \in \mathbb{R}^{n \times p}\) 是自变量矩阵,有 \(n\) 个样本和 \(p\) 个自变量;
- \(Y \in \mathbb{R}^{n \times q}\) 是因变量矩阵,有 \(q\) 个因变量;
- \(B \in \mathbb{R}^{p \times q}\) 是需要估计的回归系数矩阵;
- \(E\) 是误差矩阵。
为了避免由于 \(X\) 中自变量之间的多重共线性而导致的回归不稳,PLS 将 \(X\) 和 \(Y\) 投影到一组新的潜在变量(成分)上,通过最大化这些潜在变量的协方差来构建模型。
2. 潜变量模型
PLS 通过构建一组称为潜变量的变量来替代原始变量。这些潜变量是从自变量矩阵 \(X\) 和因变量矩阵 \(Y\) 中提取的,同时考虑两者之间的协方差。
2.1 自变量和因变量的线性分解
首先,将 \(X\) 和 \(Y\) 表示为其主成分的线性组合: \[ X = T P^\top + E_X \] \[ Y = U Q^\top + E_Y \] 其中:
- \(T \in \mathbb{R}^{n \times k}\) 是 \(X\) 的潜变量矩阵(得分矩阵),\(k\) 是成分数;
- \(P \in \mathbb{R}^{p \times k}\) 是 \(X\) 的加载矩阵;
- \(U \in \mathbb{R}^{n \times k}\) 是 \(Y\) 的潜变量矩阵;
- \(Q \in \mathbb{R}^{q \times k}\) 是 \(Y\) 的加载矩阵;
- \(E_X\) 和 \(E_Y\) 是误差矩阵。
2.2 潜变量的构造
在 PLS 中,我们希望找到一组潜变量,使得它们能够解释 \(X\) 中最多的方差,并且与 \(Y\) 之间有最大的协方差。为此,PLS 寻找潜变量 \(T\) 和 \(U\),使得它们的协方差最大化: \[ \text{Cov}(T, U) = \max \] 其中 \(T\) 是从 \(X\) 投影得到的,\(U\) 是从 \(Y\) 投影得到的。
2.3 线性回归模型
PLS 的最终目标是通过潜变量 \(T\) 对 \(Y\) 进行回归,因此我们建立如下线性关系: \[ Y = T B + E_Y \] 通过求解 \(T\) 和 \(B\),我们就能够得到 \(Y\) 的估计值。
3. PLS 的推导过程
PLS 的推导过程可以分为以下几个步骤:
3.1 中心化数据
为了消除数据的尺度影响,我们通常在建模之前对 \(X\) 和 \(Y\) 进行中心化处理,即减去其均值: \[ \tilde{X} = X - \bar{X}, \quad \tilde{Y} = Y - \bar{Y} \] 其中 \(\bar{X}\) 和 \(\bar{Y}\) 分别是 \(X\) 和 \(Y\) 的均值。
3.2 潜变量的构造
对于每个成分,我们依次从 \(X\) 和 \(Y\) 中提取潜变量。通常采用如下的迭代方法:
在第 \(i\) 次迭代中,找到向量 \(w_i\) 和 \(c_i\),使得: \[ w_i = \arg\max_w \text{Cov}(X w, Y c) \] 即最大化自变量和因变量之间的协方差。
得到投影得分向量: \[ t_i = X w_i, \quad u_i = Y c_i \]
更新矩阵 \(X\) 和 \(Y\),去除已经提取的成分的影响: \[ X = X - t_i p_i^\top, \quad Y = Y - t_i q_i^\top \] 其中 \(p_i\) 和 \(q_i\) 分别为对应的加载向量。
3.3 回归系数的计算
在构造了 \(T\) 和 \(U\) 之后,PLS 通过回归 \(Y\) 对 \(T\) 来得到回归系数 \(B\): \[ B = (T^\top T)^{-1} T^\top Y \]
3.4 最终模型
通过潜变量的回归模型,最终的 PLS 模型为: \[ Y = X B + E_Y \] 其中 \(B\) 是通过 \(X\) 的潜变量和 \(Y\) 之间的回归系数计算得到的。
4. PLS 的特点
处理多重共线性:PLS 通过提取潜变量代替原始变量,有效解决了多重共线性的问题,尤其适用于当 \(p \gg n\) 时。
同时考虑 \(X\) 和 \(Y\) 的信息:PLS 在寻找潜变量时,既考虑了自变量的方差最大化,也考虑了自变量和因变量之间的协方差,增强了模型的解释能力。
可解释性强:PLS 的潜变量有明确的统计意义,能够通过加载矩阵解释原始变量的贡献。