From Text to Insight: Large Language Models for Materials Science Data Extraction
第一作者:Schilling-Wilhelmi M, Ríos-García M
作者单位:Friedrich Schiller University Jena, Institute of Carbon Science and Technology (INCAR)
发表时间:2024/7
发表期刊:
关键内容:对材料科学中基于LLM的结构化数据抽取进行了全面的综述,综合了当前的知识并概述了未来的发展方向。
Dealing with finite context: 处理文本长度,因为上下文窗口长度有限。
Beyond text: 除文本外其它类型数据。
1. Overview of the working principles of LLMs
对于结构化数据提取任务,温度值为0的工作通常是最好的,因为这将导致具有最相关信息的确定性输出。
2. Structured data extraction workflow
“A simple example of a system prompt for the data extraction task can be: “You are a ...
Structured information extraction from scientific text with large language models
第一作者:John Dagdelen
作者单位:Lawrence Berkeley National Laboratory
发表时间:2024/2
发表期刊:Nature Communications
关键内容:针对材料领域,使用少量数据对模型进行微调,完成命名实体识别和关系抽取任务。关键是定义了输出格式。
1.引言
启发:根据不同任务定义了不同的Schema、Completion format。此外,可以参照它们所使用的数据量。
Doping: identify host materials, dopants, and potentially additional related information from text passages (sentences).
MOFs: identify chemical formulae, applications, guest species, and further descriptions of MOF materials from text (materials science abstracts).
General Ma ...
基于知识图谱的大模型推理增强
图数据课程报告
摘要
大模型(Large language model, LLM)凭借其强大的涌现能力,在AI for Science、电商和生药等多个领域得到了广泛应用。然而,大模型存在幻觉、知识隐式存储等问题,如何增强其推理能力成为当前的热点研究之一。本文回顾了利用知识图谱增强LLM推理能力的相关研究,首先介绍了常见的LLM推理增强的方法,其次介绍了多种利用知识图谱增强LLM推理能力的方法,并介绍相关应用,最后提出了一些有前景的研究方向,为相关领域的研究人员提供全面的参考。
一. 引言
作为自然语言领域的一个重要分支,KG通过存储结构化的符号知识,增加知识的可解释性,在知识推理和知识融合等领域扮演着关键角色。然而,KG缺乏自然语言理解的能力,且对事实知识的泛化性较弱。相比之下,ChatGPT、Llama、ChatGLM等LLM基于海量数据进行预训练得到,不仅存储了大量数值化知识,还具备了强大的自然语言理解和生成能力,从而克服了KG在上述两个方面的不足。同时,这些LLM的出现也极大地降低了情感分析、文本分类等传统NLP任务的复杂度,使得研究焦点转向文档问答、语音识别等下游任务。
...