林海青《AI增强的图书馆信息检索系统:RAG应用案例》——智慧图书馆技术应用讲座2024年第5期(总第31期)

林海青《AI增强的图书馆信息检索系统:RAG应用案例》——智慧图书馆技术应用讲座2024年第5期(总第31期)

6月24日上午10点,2024年第5期“智慧图书馆技术应用讲座”(总第31期)在线上举办。本期讲座邀请美国加州大学伯克利分校东亚图书馆技术部主任林海青专家担任主讲嘉宾,报告标题为《AI增强的图书馆信息检索系统:RAG应用案例》

报告从新一代图书馆检索系统应该具备的功能和特性谈起,深入浅出地阐述了检索增强生成RAG技术的本质。林老师认为,新一代信息检索系统目标是应对信息过载带来的挑战,核心功能从获取信息转变为筛选信息,应具备智能性、对话性、定制化、工具性四大特征。RAG是一种框架,是Prompt,是控制,是一种允许大语言模型在文本生成过程中合并来自一组外部文档语料库来增强模型,以提高大语言模型输出的准确性、及时性和事实基础的技术。RAG 的本质是一种提示工程形式。报告通过具体的实例让我们看到了RAG的应用潜力,同时也讨论了RAG能否成功需具备一定的因素。

交流互动

在讲座的交流互动环节,线上观众提问踊跃,两位老师对所有提问一一作出回答,部分提问摘记如下。

问:RAG过程中的分块和分词(语义提取)有什么区别?

林海青:RAG中的分块为了把文档语句分割成小的片段,进一步矢量化。分词是汉语文献处理中非常重要的过程,是自然语言处理的基本步骤。两者目的不同。从汉语自然语言处理讲,分词又是分块的基础。

问:能不能谈谈Langchain 的优劣?

林海青:Langchain是一个技术框架,以其清晰的结构和强大的模块化特性而受到认可。随着框架的不断发展,其复杂性也在逐渐增加。因为Langchain开源,有人提出效率方面还需加强。以Langchain为框架进行RAG,在面对大规模数据和复杂应用时,可能需要结合其他工具和技术,以实现更高效和经济的解决方案。因大模型的矢量化(向量化)过程成本较高,效率较低。为了解决这一问题,可以考虑利用现有的信息检索系统进行数据筛选,从而缩小数据集的规模,再将其交给大模型进行处理。此外,可以尽量利用现有系统的功能和文献处理的经验,来提高处理效率和质量。

问:在图书馆领域,目前的RAG技术适合什么场景、什么数据?

林海青:RAG技术在图书馆领域的应用,建议从图书馆自身的数据资源入手,特别是那些由图书馆员制作的subject guide等非结构化数据。这些资源通常以自然语言形式存在,为RAG技术提供了理想的应用场景。由于这些数据的语义丰富但结构性不强,传统的数据库处理方法可能难以有效检索和利用它们。因此,将此类资源作为RAG应用的起点,是一个可能的应用场景。

问:图书馆这么多结构化数据如何处理,怎么用于语义检索。

林海青:图书馆中的结构化数据虽然组织有序,但在单独提取时可能会丢失其上下文关系,这对于语义检索来说是一个挑战。我们的目标是恢复这些数据的上下文环境,以增强语义检索的准确性和深度。我在报告里已提到一些可能的方法。此外对于图书馆中的关联数据,如何将其转为场景化的信息,进一步提升语义检索效果,也值得探索。

问:请林老师谈谈多模态检索。

林海青:矢量数据库有多模态的检索案例,例如,您可以将一张图片上传到矢量库中,然后系统会尝试检索与之相似的图片。尽管这种方法的准确率可能还有待提高,但它展示了多模态检索的潜力。音视频方面我还没有尝试过。

问:如何看待未来大语言模型之间的壁垒和融合的问题?

林海青:大模型之间的融合是一个值得关注的话题。例如Langchain可以在一个应用里融合多个大语言模型。从这个角度来看,大模型之间能够融合。然而,真正的挑战在于数据层面。不同模型可能会产生不同的结果,需要有效的策略来整合这些结果。所以在结果端的融合是一个需要解决的问题。我之前尝试同时连接ChatGPT和谷歌Gemini,发现它们数据结果存在差异。我曾经考虑过将不同模型的结果重新输入到其中一个模型中进行整合,但这个想法并没有进一步实施。目前,存在许多不同的大模型,如果能将这些模型的功能进行融合结合,将是一个积极的发展方向。

课件下载


发表评论

云瀚联盟-智慧图书馆技术应用联盟