Bayesian Optimization

超参数优化算法。通过构建一个代理模型（通常是高斯过程，GP）来近似目标函数，并使用该模型的预测和不确定性信息来决定下一次评估目标函数的最优位置。实际上是优化对目标函数的估计，属于序贯模型优化(SMBO)的一种。

SMBO：一类用于优化复杂、黑箱函数的策略，它通过构建代理模型来模拟目标函数，并通过不断更新模型来引导下一步的采样。

1. 基本原理

基本步骤：

注意：在超参数优化过程中，需要定义的f(x)一半是交叉验证/损失函数的结果，我们清楚损失函数的表达式，但是不了解损失函数的内在规律（如单调性，最小值等），因此在超参数优化中的f(x)不能算是严格意义上的黑盒函数。

采集函数：（第3步）基于最小值出现频率确定下一个观测点。

概率增量PI，Probability of improvement，希望下一个点的函数值比经验中最大的函数值多一个微小增量\(\epsilon\)的概率最大。过于关注探索
期望增量EI，Expectation improvement，希望下一个点的函数值离全局最优值的距离最近。
置信度上界，Upper Confidence Bound，通过平衡利用（即选择预测均值高的点）和探索（即选择预测不确定性大的点）来引导优化过程。通过选择置信区间的上界最大的点，既能够确保在当前已有信息下的最优解（即利用已有数据），又能够鼓励对不确定区域的探索（因为标准差较大的点具有更大的潜在提升空间）。
信息熵，Entropy，希望熵在全局最优点上下降的最多，减少不确定性。