avatar
Articles
99
Tags
12
Categories
0

Home
Archives
Tags
Wenliang Liang
Search
Home
Archives
Tags

Wenliang Liang

RF
Created2024-09-12|ML
Random forest,随机森林。 1. 决策树 一种树形结构,通过学习数据中的特征,逐层对数据进行划分。每一个节点代表一个特征的决策条件,叶子节点代表最终的分类结果或回归值。 1.1 构建步骤 从特征中选择最优特征作为节点进行数据集划分(如基尼指数或信息增益)。 对每个子数据集递归地构建决策树,直到满足终止条件(如树的深度、叶子节点数等)。 决策树会根据训练样本中学到的规则,给出分类或回归的结果。 1.2 信息增益(Information Gain) 信息增益衡量的是某个特征对样本的分类效果,特征对数据集进行划分后,信息的不确定性减少的程度。 计算公式: \[ Gain(D, A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) \] 其中: \(Gain(D, A)\)是特征\(A\)对数据集\(D\)的信息增益, \(Entropy(D)\)是数据集\(D\)的熵,计算公式为: \[ Entropy(D) = - \sum_{i=1}^{k} p_i \log_2 p_i \] 其中: \(p_i\ ...
PLS
Created2024-09-12|ML
Partial least squares regression,偏最小二乘回归。 PLS 的基本思想是通过在输入数据(自变量)和输出数据(因变量)之间同时构建新变量(潜变量或成分),以便最大化输入与输出的协方差,同时解决高维数据中自变量之间的多重共线性问题。 主成分回归(PCR)是通过主成分分析(PCA)来减少自变量维度,但它只关注自变量的方差,忽略了自变量和因变量之间的相关性。而 PLS 同时考虑自变量的方差和自变量-因变量的协方差,因此在解释能力上通常优于 PCR。 1. 基本思想与目标 PLS 的目标是在输入矩阵 \(X\) 和输出矩阵 \(Y\) 之间建立一个线性模型: \[ Y = X B + E \] 其中: \(X \in \mathbb{R}^{n \times p}\) 是自变量矩阵,有 \(n\) 个样本和 \(p\) 个自变量; \(Y \in \mathbb{R}^{n \times q}\) 是因变量矩阵,有 \(q\) 个因变量; \(B \in \mathbb{R}^{p \times q}\) 是需要估计的回归系数矩阵; \(E\) 是误差矩阵。 ...
PCA
Created2024-09-12|ML
Principal Component Analysis, 主成分分析。 通过线性变换,将高维数据映射到低维空间,同时保留数据的主要方差信息。PCA 的主要优势在于它可以在数据降维的同时减少噪声,简化数据结构,提升模型的可解释性。 1. PCA 的基本思想 给定数据集 \(X \in \mathbb{R}^{n \times p}\),其中 \(n\) 是样本数,\(p\) 是特征数。PCA 的目标是找到新的正交基(主成分),使得数据在这些新基上的投影尽可能解释原数据的方差。 PCA 的核心步骤如下: 数据中心化:将数据减去均值,使得每个特征的均值为 0。 协方差矩阵:计算中心化数据的协方差矩阵,衡量各特征之间的线性关系。 特征分解:对协方差矩阵进行特征分解,得到特征值和特征向量。 主成分选择:选择特征值最大的前 \(k\) 个特征向量作为新的坐标轴(主成分),将数据投影到这些主成分上。 2. PCA 的数学推导 2.1 数据中心化 首先,对数据 \(X\) 进行中心化处理,将每个特征减去均值: \[ \tilde{X} = X - \bar{X} \] 其中,\(\bar{X}\ ...
Active learning streamlines development of high performance catalysts for higher alcohol synthesis
Created2024-09-12
Discovering High Entropy Alloy Electrocatalysts in Vast Composition Spaces with Multiobjective Optimization
Created2024-09-12
Challenges in developing cell culture media using machine learning
Created2024-09-12|文献笔记•参数预测
第一作者:Takamasa Hashizume 作者单位:University of Tsukuba 发表时间:2024/1 发表期刊:Biotechnology Advances,1区 关键内容:综述类型文章。介绍细胞培养工程中的机器学习技术。总共从实验设计、数据获取、模型构建、培养基预测、验证开发五个方面进行详细的介绍。主要亮点是:对41篇相关文献所用的技术进行了总结。 1. 数据获取 图3 2. 模型构建 3. 培养基预测 类比于模型超参数优化,通过搜索,找到影响模型输出(如细胞浓度或产率)的最重要的成分和最优浓度组合。 Brute force approach, 穷举搜索策略,逐一评估所有可能的组合,直到找到最佳结果。 Surface plot, 表面图,一种可视化工具,通常用于展示两个变量之间的关系。它生成一个三维图,显示两个变量(例如培养基成分浓度)如何影响模型输出(如细胞浓度或产率)。 在培养基优化过程中,表面图用于对模型进行敏感性分析。通过敏感性分析,可以确定对细胞培养有最大影响的培养基成分。然后保持其他成分的浓度不变,只改变两个主要成分的浓度,生 ...
Sustainable biofabrication: from bioprinting to AI-driven predictive methods
Created2024-09-12
Machine learning to predict morphology, topography and mechanical properties of sustainable gelatin‑based electrospun scaffolds
Created2024-09-12
Electrospun nanofiber membrane diameter prediction using a combined response surface methodology and machine learning approach
Created2024-09-12
UniKP: a unified framework for the prediction of enzyme kinetic parameters
Created2024-09-10
1234…10
avatar
Wenliang Liang
Articles
99
Tags
12
Categories
0
Follow Me
Announcement
雨浸风蚀的落寞与苍楚一定是水,静静地流过青春奋斗的日子和触摸理想的岁月。
Recent Post
Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models2024-09-27
Multimodal Foundation Models: From Specialists to General-Purpose Assistants2024-09-27
Graph Intelligence with Large Language Models and Prompt Learning2024-09-27
LLM-Prop: Predicting Physical And Electronic Properties Of Crystalline Solids From Their Text Descriptions2024-09-27
Towards Explainable Traffic Flow Prediction with Large Language Models2024-09-27
Tags
信息抽取 参数预测 多模态 强化学习 知识图谱 高级人工智能 大模型 文献笔记 搜索 ML 知识工程 图
Archives
  • September 202457
  • August 20241
  • July 202419
  • June 20246
  • May 202416
Info
Article :
99
UV :
PV :
Last Update :
©2020 - 2024 By Wenliang Liang
Framework Hexo|Theme Butterfly
Search
Loading the Database