RF
Random forest,随机森林。
1. 决策树
一种树形结构,通过学习数据中的特征,逐层对数据进行划分。每一个节点代表一个特征的决策条件,叶子节点代表最终的分类结果或回归值。
1.1 构建步骤
从特征中选择最优特征作为节点进行数据集划分(如基尼指数或信息增益)。
对每个子数据集递归地构建决策树,直到满足终止条件(如树的深度、叶子节点数等)。
决策树会根据训练样本中学到的规则,给出分类或回归的结果。
1.2 信息增益(Information Gain)
信息增益衡量的是某个特征对样本的分类效果,特征对数据集进行划分后,信息的不确定性减少的程度。
计算公式:
\[
Gain(D, A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v)
\]
其中: \(Gain(D, A)\)是特征\(A\)对数据集\(D\)的信息增益, \(Entropy(D)\)是数据集\(D\)的熵,计算公式为:
\[
Entropy(D) = - \sum_{i=1}^{k} p_i \log_2 p_i
\]
其中: \(p_i\ ...
PLS
Partial least squares regression,偏最小二乘回归。
PLS
的基本思想是通过在输入数据(自变量)和输出数据(因变量)之间同时构建新变量(潜变量或成分),以便最大化输入与输出的协方差,同时解决高维数据中自变量之间的多重共线性问题。
主成分回归(PCR)是通过主成分分析(PCA)来减少自变量维度,但它只关注自变量的方差,忽略了自变量和因变量之间的相关性。而
PLS
同时考虑自变量的方差和自变量-因变量的协方差,因此在解释能力上通常优于
PCR。
1. 基本思想与目标
PLS 的目标是在输入矩阵 \(X\)
和输出矩阵 \(Y\) 之间建立一个线性模型:
\[
Y = X B + E
\] 其中:
\(X \in \mathbb{R}^{n \times p}\)
是自变量矩阵,有 \(n\) 个样本和 \(p\) 个自变量;
\(Y \in \mathbb{R}^{n \times q}\)
是因变量矩阵,有 \(q\) 个因变量;
\(B \in \mathbb{R}^{p \times q}\)
是需要估计的回归系数矩阵;
\(E\) 是误差矩阵。
...
PCA
Principal Component Analysis, 主成分分析。
通过线性变换,将高维数据映射到低维空间,同时保留数据的主要方差信息。PCA
的主要优势在于它可以在数据降维的同时减少噪声,简化数据结构,提升模型的可解释性。
1. PCA 的基本思想
给定数据集 \(X \in \mathbb{R}^{n \times
p}\),其中 \(n\) 是样本数,\(p\) 是特征数。PCA
的目标是找到新的正交基(主成分),使得数据在这些新基上的投影尽可能解释原数据的方差。
PCA 的核心步骤如下:
数据中心化:将数据减去均值,使得每个特征的均值为
0。
协方差矩阵:计算中心化数据的协方差矩阵,衡量各特征之间的线性关系。
特征分解:对协方差矩阵进行特征分解,得到特征值和特征向量。
主成分选择:选择特征值最大的前 \(k\)
个特征向量作为新的坐标轴(主成分),将数据投影到这些主成分上。
2. PCA 的数学推导
2.1 数据中心化
首先,对数据 \(X\)
进行中心化处理,将每个特征减去均值: \[
\tilde{X} = X - \bar{X}
\] 其中,\(\bar{X}\ ...
Challenges in developing cell culture media using machine learning
第一作者:Takamasa Hashizume
作者单位:University of Tsukuba
发表时间:2024/1
发表期刊:Biotechnology Advances,1区
关键内容:综述类型文章。介绍细胞培养工程中的机器学习技术。总共从实验设计、数据获取、模型构建、培养基预测、验证开发五个方面进行详细的介绍。主要亮点是:对41篇相关文献所用的技术进行了总结。
1. 数据获取
图3
2. 模型构建
3. 培养基预测
类比于模型超参数优化,通过搜索,找到影响模型输出(如细胞浓度或产率)的最重要的成分和最优浓度组合。
Brute force approach,
穷举搜索策略,逐一评估所有可能的组合,直到找到最佳结果。
Surface plot,
表面图,一种可视化工具,通常用于展示两个变量之间的关系。它生成一个三维图,显示两个变量(例如培养基成分浓度)如何影响模型输出(如细胞浓度或产率)。
在培养基优化过程中,表面图用于对模型进行敏感性分析。通过敏感性分析,可以确定对细胞培养有最大影响的培养基成分。然后保持其他成分的浓度不变,只改变两个主要成分的浓度,生 ...