Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning
第一作者:Zhaorui Yang
作者单位:浙江大学
发表时间:2024/5
发表期刊:ACL 2024
关键内容:Self-Distillation Fine-Tuning
(SDFT),用模型生成的数据来对模型进行训练,弥补数据集与LLM分布的不同而导致微调带来的灾难性遗忘的问题。
参考文献:Yang Z, Liu Q, Pang T, et al. Self-Distillation Bridges
Distribution Gap in Language Model Fine-Tuning[J]. arXiv preprint
arXiv:2402.13669, 2024.
HeCiX: Integrating Knowledge Graphs and Large Language Models for Biomedical Research
第一作者:Prerana Sanjay Kulkarni
作者单位:PES University
发表时间:2024/7
发表期刊:
关键内容:利用Hetionet 和 ClinicalTrials.gov两个数据库构建了一个生物医药知识图谱,并将KGs与LLMs联合起来。首先利用LLM获取逻辑查询语句,在KGs中进行查询,将查询结果作为上下文输入进行模型推理,并利用LangChain实现流程化。
1.引言
Hetionet 数据库包含了关于疾病、基因和解剖学的大量领域知识,但缺乏关于先前进行的临床试验和实验的充分信息。相反,ClinicalTrials.gov 数据库提供了大量关于临床试验和全球范围内进行的实验的信息,但它对疾病本身提供了有限的见解。对基础生物学和临床试验结果的理解之间的这种差异阻碍了有效的药物开发。因此作者构建了HeCiX KG。
HeCiX-KG 只包含六种疾病,namely Vitiligo, Atopic Dermatitis, Alopecia Areata, melanoma, Epilepsy, and Hypothyroidism. 由6,509 ...
REASONING ON GRAPHS: FAITHFUL AND INTERPRETABLE LARGE LANGUAGE MODEL REASONING
第一作者:Linhao Luo
作者单位:Monash University
发表时间:2024/2
发表期刊:ICLR 2024
关键内容:先利用LLM 生成与问题回答 有关的关系路径,再到KGs中进行检索(实体来自问题句子,关系来自LLM生成的关系),再利用检索到的推理路径进行模型推理。亮点在于:知识图谱中的实体会动态变化,而实体间的关系是较为稳定的,通过对KG中关系路径的检索得到可靠的知识作为模型的上下文输入。
1.引言
先前使用 KGs 和 LLMs 进行推理的方法有以下两种:
语义解析,通过 LLMs 将问题转化为逻辑查询,在KGs中进行查询,与ChatKBQA类似。这种方法的缺点在于生成的逻辑查询不一定是可执行的。(因此,ChatKBQA会对逻辑查询中的实体/关系进行无监督检索替换,以确保逻辑查询的可执行性)
RAG。将KGs作为LLM推理的事实知识库,没有充分利用KGs结构信息。For instance, as shown in Figure 1, a relation path, which is a sequence of relations, “child ...
ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
第一作者:Haoran Luo, Haihong E
作者单位:北京邮电大学
发表时间:2024/5
发表期刊:ACL 2024
关键内容:将知识图谱与大模型结合。亮点:通常是先利用知识图谱进行检索,检索结果作为prompt的一部分输入到模型中。而ChatKBQA是先利用LLM生成逻辑形式,再通过无监督方法对实体和关系进行检索替换,从而提升答案的准确率。
1.引言
KBQA(Knowledge Base Question Answering) 主要有两个核心问题:知识检索、语义解析。
知识检索(IR):根据知识库中的问题定位最相关的实体、关系或三元组
语义解析(SP):将问题从非结构化自然语言转换为结构化逻辑形式,再将其转换为可执行的图查询,以获得精确的答案和可解释的路径
retrieve-then-generate KBQA 框架:先对问题文本进行实体和关系的检索,再进行语义解析。它的不足在于:
检索效率低下
Traditional methods first identify the span of candidate entities and then do en ...
Ontology-enhanced Prompt-tuning for Few-shot Learning
第一作者:Hongbin Ye, Ningyu Zhang
作者单位:浙江大学
发表时间:2022/4
发表期刊:Proceedings of the ACM Web Conference 2022
关键内容:探索如何更好的使用预训练语言模型进行 few-shot learning 知识注入,并提出本体增强提示调优(OntoPrompt)。如何优化:将KG的本体知识转化为文本用于模型训练,并修改注意力机制以减小知识噪声,最后,对本体嵌入向量也进行参数训练。
1. INTRODUCTION
few-shot learning 中存在的三个问题:
知识缺失。由于外部知识库的不完整性,可能无法检索与任务相关的事实,从而无法为下游任务提供有用的信息。
知识噪声。先前的研究已经证明,并非所有的知识都对下游任务有益,不加区别地注入知识可能会导致负面的知识注入,从而不利于下游任务的性能。
知识异质性。下游任务的语言语料库与注入的知识有很大不同,导致两种独立的向量表示,即注入知识不能很好的泛化到下游任务中。
针对这三个问题,作者提出了对应的解决方案:
利用预定义的模板将基于外部知识图谱的本 ...
Knowledge Prompting in Pre-trained Language Model for Natural Language Understanding
第一作者:Jianing Wang
作者单位:华东师范大学
发表时间:2022/10
发表期刊:EMNLP2022
关键内容:提出了一种基于知识提示的 PLM 架构:KP-PLM。首先根据每个句子上下文的知识库构建一个知识子图,再设计多个连续提示规则,将知识子图转化为自然语言提示,对模型进行微调。并提出了两个知识感知的自监督任务:prompt relevance inspection and masked prompt modeling。前者旨在让PLM 学习多个知识提示的语义相关性,后者预测 prompt 中的屏蔽实体。
1. 引言
增强PLM知识的方法有以下几种:
knowledge-masking-based methods
knowledge-fusion-based methods
graph-learning-based methods
但是这些方法存在以下不足:
一些方法通过堆叠复杂的模块来修改现有PLM的内部结构,增加了模型的计算成本
一些方法从知识库中引入冗余和不相关的知识(知识噪声),可能会降低模型的性能
因此,作者提出了一种基于知识提示的 PLM 架 ...
Unifying Large Language Models and Knowledge Graphs: A Roadmap
类型:文献综述
第一作者:Shirui Pan
作者单位:Griffith University
发表时间:2024/07
发表期刊:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
键内容:对 KG-enhanced LLMs, LLM-augmented KGs, Synergized LLMs + KGs 三种框架进行介绍
1. background
KGs的四种分类:百科全书式知识图谱、常识知识图谱、特定领域知识图谱和多模态知识图谱。
LLM 与 KGs 的优缺点对比:
其中,KGs 的缺点 Unseen Facts:知识图谱无法有效地对看不见的实体进行建模并表示新的事实知识。此外,知识图谱中丰富的文本信息常被忽略。
LLM 与 KGs 的应用示例:
2. KG-enhanced LLMs
2.1 KG-Enhanced LLM Pre-Training
2.1.1 Integrating KGs into training objective
两种方式:
在预训练中暴露更多的实体,通过改变词语的掩码概 ...
社区发现算法
课程知识复习使用。
图中的社区是指一张图中的一些子图。这些子图内部顶点直接紧密相连,而子图内部节点与外部节点之间连接是稀疏的。社区发现算法是需要找到图中所有的社区,可以分为基于层级聚类的方法和基于边介数的方法。
1. 基于层级聚类的方法
点关联强度:衡量两点间的关联强度。
两点间独立路径数:能够连接两点的所有互不相交(没有公共节点)的简单路径总数,即为割点数目。
全路径融合强度:认为节点间的关联强度与所有路径都相关,路径长度越小,强度越大。
算法流程
选定并计算关联强度
初始化每个顶点为单个社区
定义两个社区的关联强度为其间所有点对的关键强度平均值
每次合并两个关联强度最大的点对,合并关系形成层级关系
聚类质量达到一定程度之后不再继续
衡量标准:模块度,是评估社区结果质量高低的度量方法。模块度Q 计算如下:
$$Q \propto \sum_{s\in S} [ 社区s内部的实际边数 - 社区s内部的期望边数 ] $$
模块度取值范围为[-1,1],实践中,模块度达到0.3到0.7之间就说明划分质量很好。
不足:对度数低的点的社区分配不友好。例如一个顶点如果只有一条 ...
图的基础知识
课程知识复习使用。
1.基本概念
图:一系列的点和对应的连接边。
度数:顶点v的连接边数目。有向图中, 节点度数分为入度和出度。一个节点度数是其入度和出度的和。
连通图:对于一个无向图,任意两个顶点之间都存在一条路径,则称之为连通图,否则为非连通图。
最大连通区域:一个非连图由多个部分组成,其中规模最大的被称为最大连通区域。
强连通图:对于一个有向图,对于任意一对节点A和B,存在从A到B的有向路径,同时也存在从B到A的一条有向路径,则称为强连通图。
弱连通图:对于一个有向图,忽略边的方向,这个图在无向图的概念中是连通的,则这个有向图被称为弱连通图。
完全图(团):任意两个节点间都连接有边。
二部图:节点分为两个不相交的集合𝑈和𝑉,每条边都分别连接集合𝑈和𝑉中的一个点。
多重图:含有平行边或者自环边的图,即图中某两个顶点之间的边数不止一条,又允许顶点通过一条边与本身关联,则该图被称为多重图。
自环图:无平行边而只存在自环边的图又被称为自环图。
图的表示:邻接矩阵,邻接表,压缩稀疏表达$(CSR)$。
2.图的度量
对一张图进行度量的四种方式:度数分布,路径长度,聚集系数, ...
LLM训练
一.DeepSpeed
DeepSpeed 是由Mircrosoft 提供的分布式训练工具,DeepSpeed Zero(零冗余优化器)是大规模模型训练优化的技术,目的是减少模型的内存占用。Zero将模型参数分成三个部分:
Optimizer States, 优化器在进行梯度更新的时候需要用到的数据
Gradient, 在反向转播过程中产生的数据,其决定参数的更新方向
Model Parameter, 模型参数,在模型训练过程中通过数据“学习”的信息
Zero 的级别如下:
Zero-0, 不使用所有类型的分片,仅使用DeepSpeed作为DDP
Zero-1, 分割Optimizer States, 减少4倍内存,通信容量和数据并行性相同
Zero-2, 分割Optimizer States和Gradients,减少8倍内存,通信容量和数据并行性相同
Zero-3, 分割Optimizer States、gradients、Parametes,内存减少与数据并行度呈线性关系。例如,在64个GPU(Nd=64)之间进行拆分将产生64倍的内存缩减。通信量有50%的适度增长
Zero ...