catboost

Category Boosting, 对GBDT的优化实现。

1. 核心思想

CatBoost的核心思想是在GBDT的基础上进行改进，主要通过以下几方面的优化：

类别特征的高效处理：CatBoost可以直接处理类别特征，不需要进行独热编码（One-Hot Encoding），通过统计信息和基于目标值的编码技术减少了过拟合和信息泄漏的风险。使用Ordered Target Encoding。具体来说，假设我们正在处理一个样本 \(i\)，并希望对其类别特征 \(A\) 进行目标编码。CatBoost 计算的编码是基于样本 \(i\) 之前的样本的目标变量：

\[ \text{Encoded}(A_i) = \frac{\sum_{j=1}^{i-1} y_j | A_j = A_i}{\text{count}(A_j = A_i, j < i)} \]

避免梯度偏差：在传统GBDT中，梯度计算可能带有偏差，而CatBoost通过引入基于排序的梯度提升方法来减少这种偏差，提升模型的泛化能力。
对称树结构：CatBoost构建对称的决策树，这意味着每个树的左右分支在相同的深度上分裂相同的特征。这种结构可以提升预测速度，并使得模型对数据顺序不敏感。
顺序提升算法：CatBoost在训练时使用顺序提升方法，通过逐步引入数据点来减少目标编码和梯度提升中的信息泄漏。

CatBoost的算法步骤与传统的GBDT相似，但增加了对类别特征和数据顺序的特殊处理：

CatBoost与GBDT类似，使用的损失函数取决于任务类型：

\[ L(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

\[ L(y, \hat{y}) = -\sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)] \]

CatBoost的损失函数可以通过参数调整适用于不同的任务，如二分类、多分类、回归等。

CatBoost相较于其他GBDT实现有以下优势：

参考资料：