Generalized Linear Models, 广义线性模型GLM。

一类灵活的统计模型,用于处理不同类型的数据。GLM 扩展了传统的线性回归模型,允许响应变量(因变量)与预测变量(自变量)之间的关系通过各种分布来建模。GLM 主要包括线性回归、逻辑回归、泊松回归等模型。

1. GLM 的基本组成

广义线性模型由以下三部分组成:

  1. 随机成分:响应变量 Y 的分布,通常假设为指数家族分布,如正态分布、二项分布、泊松分布等。
  2. 系统成分:线性预测器 η,即自变量的线性组合: η=Xβ 其中,X 是设计矩阵,β 是回归系数。
  3. 链接函数:链接函数 g() 将线性预测器 η 与响应变量的期望 μ 联系起来: g(μ)=η 其中,μ=E[Y] 是响应变量的期望。

2. GLM 的数学推导

2.1 随机成分

假设响应变量 Y 的分布属于指数家族分布,其概率密度函数(或质量函数)可以表示为: f(y|θ,ϕ)=exp{y(θ)b(θ)ϕ+c(y,ϕ)} 其中,θ 是自然参数,ϕ 是分布的扩展参数(例如方差),b(θ)c(y,ϕ) 是特定的函数。

2.2 系统成分

线性预测器 η 定义为: η=Xβ 其中,X 是设计矩阵,包含自变量,β 是回归系数。

2.3 链接函数

链接函数 g() 使得线性预测器与响应变量的期望 μ 之间的关系为: g(μ)=η 常见的链接函数包括:

  • 对数链接函数:用于泊松回归,g(μ)=log(μ)
  • 逻辑链接函数:用于逻辑回归,g(μ)=log(μ1μ)
  • 恒等链接函数:用于线性回归,g(μ)=μ

2.4 估计和推断

GLM 的参数估计通常使用最大似然估计(MLE)。最大似然函数 L(β) 为: L(β)=i=1nf(yi|θi,ϕ) 对数似然函数为: (β)=i=1n[yiθib(θi)ϕ+c(yi,ϕ)] 通过对对数似然函数求导数并设置为零,可以得到参数的最大似然估计值。

3. GLM 的模型示例

3.1 线性回归

线性回归模型属于 GLM 的特殊情况,其中响应变量 Y 服从正态分布,链接函数为恒等函数: YN(μ,σ2) g(μ)=μ=Xβ

3.2 逻辑回归

逻辑回归用于二分类问题,响应变量 Y 服从二项分布,链接函数为逻辑函数: YBinomial(n,μ) g(μ)=log(μ1μ)=Xβ

3.3 泊松回归

泊松回归用于计数数据,响应变量 Y 服从泊松分布,链接函数为对数函数: YPoisson(μ) g(μ)=log(μ)=Xβ