Wenliang Liang

Created2024-09-12|ML

Random forest，随机森林。 1. 决策树一种树形结构，通过学习数据中的特征，逐层对数据进行划分。每一个节点代表一个特征的决策条件，叶子节点代表最终的分类结果或回归值。 1.1 构建步骤从特征中选择最优特征作为节点进行数据集划分（如基尼指数或信息增益）。对每个子数据集递归地构建决策树，直到满足终止条件（如树的深度、叶子节点数等）。决策树会根据训练样本中学到的规则，给出分类或回归的结果。 1.2 信息增益（Information Gain）信息增益衡量的是某个特征对样本的分类效果，特征对数据集进行划分后，信息的不确定性减少的程度。计算公式： \[ Gain(D, A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) \] 其中： \(Gain(D, A)\)是特征\(A\)对数据集\(D\)的信息增益， \(Entropy(D)\)是数据集\(D\)的熵，计算公式为： \[ Entropy(D) = - \sum_{i=1}^{k} p_i \log_2 p_i \] 其中： \(p_i\ ...

PLS

Created2024-09-12|ML

Partial least squares regression，偏最小二乘回归。 PLS 的基本思想是通过在输入数据（自变量）和输出数据（因变量）之间同时构建新变量（潜变量或成分），以便最大化输入与输出的协方差，同时解决高维数据中自变量之间的多重共线性问题。主成分回归（PCR）是通过主成分分析（PCA）来减少自变量维度，但它只关注自变量的方差，忽略了自变量和因变量之间的相关性。而 PLS 同时考虑自变量的方差和自变量-因变量的协方差，因此在解释能力上通常优于 PCR。 1. 基本思想与目标 PLS 的目标是在输入矩阵 \(X\) 和输出矩阵 \(Y\) 之间建立一个线性模型： \[ Y = X B + E \] 其中： \(X \in \mathbb{R}^{n \times p}\) 是自变量矩阵，有 \(n\) 个样本和 \(p\) 个自变量； \(Y \in \mathbb{R}^{n \times q}\) 是因变量矩阵，有 \(q\) 个因变量； \(B \in \mathbb{R}^{p \times q}\) 是需要估计的回归系数矩阵； \(E\) 是误差矩阵。 ...

PCA

Created2024-09-12|ML

Principal Component Analysis, 主成分分析。通过线性变换，将高维数据映射到低维空间，同时保留数据的主要方差信息。PCA 的主要优势在于它可以在数据降维的同时减少噪声，简化数据结构，提升模型的可解释性。 1. PCA 的基本思想给定数据集 \(X \in \mathbb{R}^{n \times p}\)，其中 \(n\) 是样本数，\(p\) 是特征数。PCA 的目标是找到新的正交基（主成分），使得数据在这些新基上的投影尽可能解释原数据的方差。 PCA 的核心步骤如下：数据中心化：将数据减去均值，使得每个特征的均值为 0。协方差矩阵：计算中心化数据的协方差矩阵，衡量各特征之间的线性关系。特征分解：对协方差矩阵进行特征分解，得到特征值和特征向量。主成分选择：选择特征值最大的前 \(k\) 个特征向量作为新的坐标轴（主成分），将数据投影到这些主成分上。 2. PCA 的数学推导 2.1 数据中心化首先，对数据 \(X\) 进行中心化处理，将每个特征减去均值： \[ \tilde{X} = X - \bar{X} \] 其中，\(\bar{X}\ ...

Active learning streamlines development of high performance catalysts for higher alcohol synthesis

Created2024-09-12

Discovering High Entropy Alloy Electrocatalysts in Vast Composition Spaces with Multiobjective Optimization

Created2024-09-12

Challenges in developing cell culture media using machine learning

Created2024-09-12|文献笔记•参数预测

第一作者：Takamasa Hashizume 作者单位：University of Tsukuba 发表时间：2024/1 发表期刊：Biotechnology Advances，1区关键内容：综述类型文章。介绍细胞培养工程中的机器学习技术。总共从实验设计、数据获取、模型构建、培养基预测、验证开发五个方面进行详细的介绍。主要亮点是：对41篇相关文献所用的技术进行了总结。 1. 数据获取图3 2. 模型构建 3. 培养基预测类比于模型超参数优化，通过搜索，找到影响模型输出（如细胞浓度或产率）的最重要的成分和最优浓度组合。 Brute force approach, 穷举搜索策略，逐一评估所有可能的组合，直到找到最佳结果。 Surface plot, 表面图，一种可视化工具，通常用于展示两个变量之间的关系。它生成一个三维图，显示两个变量（例如培养基成分浓度）如何影响模型输出（如细胞浓度或产率）。在培养基优化过程中，表面图用于对模型进行敏感性分析。通过敏感性分析，可以确定对细胞培养有最大影响的培养基成分。然后保持其他成分的浓度不变，只改变两个主要成分的浓度，生 ...

Sustainable biofabrication: from bioprinting to AI-driven predictive methods

Created2024-09-12

Machine learning to predict morphology, topography and mechanical properties of sustainable gelatin‑based electrospun scaffolds

Created2024-09-12

Electrospun nanofiber membrane diameter prediction using a combined response surface methodology and machine learning approach

Created2024-09-12

UniKP: a unified framework for the prediction of enzyme kinetic parameters

Created2024-09-10