【精彩回顾】大语言模型与智慧图书馆服务——“智慧图书馆技术应用讲座”2023年第6期(总第22期)

【精彩回顾】大语言模型与智慧图书馆服务——“智慧图书馆技术应用讲座”2023年第6期(总第22期)

7月19日上午10点,2023年第6期(总第22期)“智慧图书馆技术应用讲座”在线上成功举办。本期讲座主题是“大语言模型与智慧图书馆服务”,由上海图书馆系统网络中心数据分析师蔡丹丹、网络工程师王诗卉、资深研发工程师周纲担任讲座嘉宾,报告标题分别为《GPT领域技术应用对图书馆业务的影响》《垂直领域的模型微调及应用开发》《和大模型“好好说话”——GPT的提示词工程》。上海图书馆刘炜副馆长也于现场与三位老师一起和大家进行交流互动。线上总计近2000人参与了本次讲座。

点击上方图片跳转至视频回放

讲座中,蔡丹丹老师结合演示向大家介绍了大语言模型领域相关概念、工具使用,以及谈了对图书馆业务的影响。王诗卉老师对垂直领域微调的意义、原理、方法,应用做了科普性的介绍。周纲老师从实践角度出发,分享了提示词工程的研究心得。以大语言模型为基础的生成式AI作为通用人工智能的雏形,正在对我们的生活、工作产生深刻影响。图书馆行业面临着新的发展机遇和挑战。

交流互动

在讲座的交流互动环节,上海图书馆刘炜副馆长也来到现场与线上观众互动。线上观众提问踊跃,部分精彩内容摘记如下。

问:向量库是如何搭建的

蔡丹丹向量库的搭建现在有很多种实现方法。大体原理是相同的。首先对长文本进行分割,然后将分割后的文本进行向量化。比较推荐的一个工具是GPT的Embedding API,基于该API可以实现效果很好的向量化。本地化的实现方法如使用LangChain的工具库调用其中不同的工具来实现。存储有2个主要方法是:线上的数据库Pinecone、本地化数据库Chroma,基于这些工具基本上可以组成一个向量数据库。

问:在图书馆中哪些数据可以作为微调的语料

王诗卉:可从两点出发考虑,第一考虑图书馆现有的数据积累,第二考虑哪些数据适合训练和微调大模型。从这两点出发寻找交集。例如读者咨询相关的数据。只要对读者问答数据稍加转换处理,就可以给大模型来做指令微调。另外图书馆的值班文档也可以处理为问答对形式,增加大模型解答问题的能力。另外图书馆有一些长文本的积淀,可以探索其他的训练框架,通过增量预训练的方式扩充大模型的行业领域知识。

周纲:图书馆的论文、文章也是图书馆领域高质量的语料。将来正式的法规、文件、年鉴,都可以作为补充图书馆领域知识的语料。

问:可否用领域本体(概念层+实体层)数据来丰富训练大模型,从而实现垂直领域的人工智能问答

蔡丹丹:领域本体与知识图谱,是基于人类对语义的理解,是用人类逻辑对数据进行标引。从大模型的训练方面来看是有助力的,如果要实现人工智能问答,除了训练的数据以外,模型本身的能力也是重要的一点。

王诗卉:在本地大模型微调实验中发现,微调效果好坏的决定性因素是数据的质量。知识图谱已经有充分的人类干预,有非常细致的标引,从这样的原理出发,把知识图谱做转换处理,可能会生成一些高质量的数据集,可以大幅提高大语言模型的表现能力。

刘炜:目前没有很好的方式将符号学派的逻辑方式和简练的知识描述让深度神经网络来学习。图书馆拥有大量的知识,比如标注的分类、叙词表、大量的知识组织等,这些都迫切让大模型学到。三种方法可以学到本体的知识,目前正在探索:1.把知识图谱当中的实体关系直接表示为语义向量。2. 图嵌入的方法,把知识图谱当中的实体关系映射到低维的向量空间当中。3. 注意力机制法,把知识图谱当中的实体和关系表示为向量序列,用注意力机制来捕捉其中的关系。这三种方法都需要对知识图谱数据进行预处理,进行特征提取。整体来讲,目前并没有很好的方法,都正在探索中。

问:提示词的判断标准是什么?最佳最精准的提示词的标准是什么

蔡丹丹:用户输入的任何一句话,它都相当于是对模型的一个提示词。

周纲:提示词没有最好只有更好。对于同样的提示词,不同的模型出来的效果也可能不一样。如果是通过应用与大模型进行交互,这取决于API交互的效果,用户不用直接考虑提示词的问题。

问:在垂直领域的大模型应用上上海图书馆做了哪些工作

刘炜:对于上海图书馆来说目前还是以学习探索为主。上海图书馆的各个应用部门都开展了人工智能2.0的学习与跟踪,观察其对图书馆行业所产生的影响。上图也搭建了实验环境,促进各部门间的互动交流。在云瀚社区也希望通过云瀚联盟成员合作进行相应模块的研发与推进。目前考虑这一轮技术浪潮要有新的AI模块加入到云瀚平台中。

问:在编目的应用比如预测图书分类上有没有什么模型

刘炜:将来的愿景,也许未来整个行业会用新的技术把所有的传统模块应用重新改造一遍。AI目前发展突飞猛进,每天都有新东西,对编目是质的飞跃还是锦上添花,拭目以待。

周纲:短期来看,大模型可作为馆员助手帮我们做传统应用中的新增功能。从更长远来看,可能会以新的角度来做新的应用,甚至颠覆传统的应用场景,由此影响到馆员的业务工作方式和目标,体现出大模型对图书馆业务的革命。

问:垂直领域如何控制回复内容的真实性

刘炜:大模型确实很难克服“幻觉”问题,但也有一些技巧做些避免。在应用层面建议将面向读者和面向馆员的功能分开。例如其中一个路径通过知识库的方式,只用大模型产生语句,不用它生成事实。这种方式依赖于本地向量库。还可以通过Prompt方式来加以限定。

蔡丹丹:垂直领域在与模型交互时,可以通过调整模型参数的设置来规定模型的创造性。

王诗卉:可以通过调参来平衡大模型的真实性、启发性、创造性。在准备语料的时候也可以注意语料领域的针对性和局限性,不让大模型能力太发散。但从实验来看,让模型输出完全真实,带来的使用体验可能反而不会很好。因此,要在实践中去平衡真实性和创造性。

发表评论

云瀚联盟-智慧图书馆技术应用联盟