GLM
Generalized Linear Models, 广义线性模型GLM。
一类灵活的统计模型,用于处理不同类型的数据。GLM 扩展了传统的线性回归模型,允许响应变量(因变量)与预测变量(自变量)之间的关系通过各种分布来建模。GLM 主要包括线性回归、逻辑回归、泊松回归等模型。
1. GLM 的基本组成
广义线性模型由以下三部分组成:
- 随机成分:响应变量 \(Y\) 的分布,通常假设为指数家族分布,如正态分布、二项分布、泊松分布等。
- 系统成分:线性预测器 \(\eta\),即自变量的线性组合: \[ \eta = X \beta \] 其中,\(X\) 是设计矩阵,\(\beta\) 是回归系数。
- 链接函数:链接函数 \(g(\cdot)\) 将线性预测器 \(\eta\) 与响应变量的期望 \(\mu\) 联系起来: \[ g(\mu) = \eta \] 其中,\(\mu = \text{E}[Y]\) 是响应变量的期望。
2. GLM 的数学推导
2.1 随机成分
假设响应变量 \(Y\) 的分布属于指数家族分布,其概率密度函数(或质量函数)可以表示为: \[ f(y|\theta, \phi) = \exp \left\{ \frac{y (\theta) - b(\theta)}{\phi} + c(y, \phi) \right\} \] 其中,\(\theta\) 是自然参数,\(\phi\) 是分布的扩展参数(例如方差),\(b(\theta)\) 和 \(c(y, \phi)\) 是特定的函数。
2.2 系统成分
线性预测器 \(\eta\) 定义为: \[ \eta = X \beta \] 其中,\(X\) 是设计矩阵,包含自变量,\(\beta\) 是回归系数。
2.3 链接函数
链接函数 \(g(\cdot)\) 使得线性预测器与响应变量的期望 \(\mu\) 之间的关系为: \[ g(\mu) = \eta \] 常见的链接函数包括:
- 对数链接函数:用于泊松回归,\(g(\mu) = \log(\mu)\)
- 逻辑链接函数:用于逻辑回归,\(g(\mu) = \log \left( \frac{\mu}{1 - \mu} \right)\)
- 恒等链接函数:用于线性回归,\(g(\mu) = \mu\)
2.4 估计和推断
GLM 的参数估计通常使用最大似然估计(MLE)。最大似然函数 \(L(\beta)\) 为: \[ L(\beta) = \prod_{i=1}^n f(y_i|\theta_i, \phi) \] 对数似然函数为: \[ \ell(\beta) = \sum_{i=1}^n \left[ \frac{y_i \theta_i - b(\theta_i)}{\phi} + c(y_i, \phi) \right] \] 通过对对数似然函数求导数并设置为零,可以得到参数的最大似然估计值。
3. GLM 的模型示例
3.1 线性回归
线性回归模型属于 GLM 的特殊情况,其中响应变量 \(Y\) 服从正态分布,链接函数为恒等函数: \[ Y \sim \text{N}(\mu, \sigma^2) \] \[ g(\mu) = \mu = X \beta \]
3.2 逻辑回归
逻辑回归用于二分类问题,响应变量 \(Y\) 服从二项分布,链接函数为逻辑函数: \[ Y \sim \text{Binomial}(n, \mu) \] \[ g(\mu) = \log \left( \frac{\mu}{1 - \mu} \right) = X \beta \]
3.3 泊松回归
泊松回归用于计数数据,响应变量 \(Y\) 服从泊松分布,链接函数为对数函数: \[ Y \sim \text{Poisson}(\mu) \] \[ g(\mu) = \log(\mu) = X \beta \]