Gaussian Process Regression, 高斯过程回归。

一种非参数的贝叶斯回归方法,用于建模和预测复杂的非线性函数。它利用高斯过程的先验分布来推断数据的分布,并生成预测的不确定性度量。

1. 高斯过程回归的基本概念

1.1 高斯过程

高斯过程(Gaussian Process, GP)是一种用于定义随机函数的统计模型,它可以看作是无穷维的高斯分布。一个高斯过程可以通过其均值函数 \(m(x)\) 和协方差函数 \(k(x, x')\) 完全描述: \[ f(x) \sim \mathcal{GP}(m(x), k(x, x')) \] 其中:

  • \(m(x)\) 是均值函数,表示在点 \(x\) 的预测值的期望。
  • \(k(x, x')\) 是协方差函数,表示在点 \(x\)\(x'\) 之间的协方差。

1.2 协方差函数(核函数)

协方差函数 \(k(x, x')\) 用于定义数据点之间的相关性。常见的协方差函数包括:

  • 平方指数核(RBF核)\[ k(x, x') = \sigma^2 \exp \left( -\frac{(x - x')^2}{2 l^2} \right) \]
  • 线性核\[ k(x, x') = \sigma^2 (x \cdot x' + c) \]
  • 马特恩核\[ k(x, x') = \sigma^2 \left(1 + \frac{\sqrt{2 \nu} (x - x')^2}{l^2}\right)^{-\nu} \]

2. GPR 的模型构建

2.1 训练数据

假设我们有训练数据集 \(\{(x_i, y_i)\}_{i=1}^n\),其中 \(x_i\) 是输入,\(y_i\) 是响应。我们希望通过 GPR 来预测新的输入 \(x_*\) 对应的响应 \(y_*\)

2.2 先验分布

假设训练数据的目标函数 \(f(x)\) 服从高斯过程: \[ f(x) \sim \mathcal{GP}(m(x), k(x, x')) \]

训练数据的联合分布可以表示为: \[ \begin{bmatrix} f(X) \\ f(x_*) \end{bmatrix} \sim \mathcal{N} \left( \begin{bmatrix} m(X) \\ m(x_*) \end{bmatrix}, \begin{bmatrix} K(X, X) & K(X, x_*) \\ K(x_*, X) & K(x_*, x_*) \end{bmatrix} \right) \] 其中:

  • \(K(X, X)\) 是训练数据点之间的协方差矩阵。
  • \(K(X, x_*)\) 是训练数据点与测试点之间的协方差矩阵。
  • \(K(x_*, x_*)\) 是测试点之间的协方差矩阵。

2.3 后验分布

给定训练数据 \(\{(x_i, y_i)\}_{i=1}^n\),我们可以得到目标函数在测试点 \(x_*\) 的后验分布: \[ f(x_*) | X, y, x_* \sim \mathcal{N} (\bar{f}(x_*), \text{Cov}(f(x_*))) \] 其中: \[ \bar{f}(x_*) = m(x_*) + K(x_*, X) \left[ K(X, X) + \sigma^2 I \right]^{-1} (y - m(X)) \] \[ \text{Cov}(f(x_*)) = K(x_*, x_*) - K(x_*, X) \left[ K(X, X) + \sigma^2 I \right]^{-1} K(X, x_*) \]

3. 高斯过程回归的推导

3.1 预测均值

预测的均值 \(\bar{f}(x_*)\) 是对目标函数在测试点的预测值,它由训练数据的观测值加权得出: \[ \bar{f}(x_*) = m(x_*) + K(x_*, X) \left[ K(X, X) + \sigma^2 I \right]^{-1} (y - m(X)) \]

3.2 预测方差

预测的方差 \(\text{Cov}(f(x_*))\) 描述了预测的不确定性: \[ \text{Cov}(f(x_*)) = K(x_*, x_*) - K(x_*, X) \left[ K(X, X) + \sigma^2 I \right]^{-1} K(X, x_*) \]

3.3 超参数优化

高斯过程回归模型中的核函数通常包含超参数(如长度尺度 \(l\) 和噪声方差 \(\sigma^2\)),这些超参数可以通过最大化边际对数似然函数来优化: \[ \log p(y | X) = -\frac{1}{2} y^\top \left[ K(X, X) + \sigma^2 I \right]^{-1} y - \frac{1}{2} \log \left| K(X, X) + \sigma^2 I \right| - \frac{n}{2} \log 2 \pi \]