智慧图书馆技术应用讲座2024年第3期(总第29期)

智慧图书馆技术应用讲座2024年第3期(总第29期)

3月26日上午9点30分,2024年第3期(总第29期)“智慧图书馆技术应用讲座”在线上线下同步举办。本期讲座邀请了美国加州大学戴维斯分校文献服务部主任李晓莉和芬兰阿尔托大学计算机科学系教授埃罗·海沃宁(Eero Hyvönen)。本期讲座共吸引了100余人线下参与和2000余人线上观看。

李晓莉老师的报告标题为《AI与图书馆:探索与实践》。报告介绍了加州大学戴维斯分校的同行利用生成式人工智能在图书馆应用中所做的探索,重点介绍了四个应用实例,分别是自动图像标注、自动编目、新闻剪报OCR、以及BIBFRAME记录支持的生成式AI问答。报告介绍了实验过程与结果,并分享了研究心得与未来方向。


埃罗·海沃宁教授的报告标题为《文化遗产应用和数字人文研究领域创建和使用国家关联开放数据基础设施的经验分享》。报告从语义网概念入手,分享了芬兰国家级关联开放数据基础设施建设的开发经验,报告介绍了Sampo模型及其应用,展示了利用语义网基础设施开发实际应用程序的优势。

交流互动

在讲座的交流互动环节,现场和线上观众提问踊跃,部分精彩内容摘记如下。

问:图书馆在使用图片数据进行训练的做法是否符合当地法律(如“合理使用”原则)?如何解决图片标引中潜在的隐私及偏见问题,特别是涉及人物图片以及当项目未来规模扩大时?

李晓莉:这是为什么我们刚开始测试的时候,选的全是风景画,因为它们不涉及人物,也不涉及与政治相关的内容。在利用人工智能处理大量图像时,一个有效的方法是先对图像进行分类。分类意味着识别图像并提取信息,然后再进行人工检查和调整。此外,一些图像可以尝试由AI自动生成,只要它们不会对结果产生负面影响。通过这种方式,图书馆既可以有效地利用AI技术支持,又可以确保提供的信息相对完整和准确。

问:您对图书馆馆长或管理者有如何持续投资技术(不仅限于人工智能)以提升图书馆服务和管理的建议吗?例如,如何有效地提升馆员技能并拓展与其他部门的合作?

李晓莉:这个问题可能与各国国情或图书馆管理方式有很大关系。我可以分享一下我在美国图书馆多年的观察和亲身体验。要让图书馆的高层管理接受采用新技术并对员工进行培训,首先要支持用户需求。如果用户需要,就不需要向管理层推销,他们自然会认为这很有用。以大学图书馆为例,老师和学生使用新技术或对其感兴趣,作为学校服务机构的图书馆需要与时俱进,以满足用户需求。图书馆的发展方向应根据学校的发展方向确定。人员培训也是如此,根据图书馆需求驱动。另外,需求推动图书馆的发展,但图书馆也可以通过自身的发展来引导需求。图书馆不仅是响应式的,还应积极主动地发展,以创造新的需求,并提供更好的支持。

问:请问李老师是否考虑过在语义空间中结合图像,例如通过结合IIIF(国际图像互操作框架)来丰富BIBFRAME的语义表达能力。

李晓莉:目前识别是当前最关键的一步,只要元数据生成出来,可以转换为BIBFRAME形式。在我们的研究中,将目录交给ChatGPT进行识别,结果还不尽如人意。对于这种复杂的图像,尤其是涉及到文本结构和布局的部分,智能版面识别技术可能会有所帮助,但需要足够的训练数据和模型优化。我认为这个问题值得进一步探索,可能需要结合多种技术和模型,才能实现更高水平的图像语义理解和表达能力。

问:目前您做的实验是不是主要基于商业化的大模型,后续有没有什么设想或进一步的计划?

李晓莉:目前我们采用ChatGPT和Gemini主要是因为其门槛较低。我们团队目前主要使用开源软件,因其具有透明性和定制性的优势,特别适合我们图书馆的需求。未来,我们计划继续使用开源软件,并利用图书馆数据进行训练。我们深信,要使得AI在图书馆中发挥有效作用,必须使用经过图书馆数据强化训练的模型。

问:能否分享一些最新的使用深度学习技术处理实体和实体链接方面的经验?

埃罗·海沃宁:我们目前使用FinBERT,这是基于芬兰语扩展训练的BERT模型,主要用于命名实体识别。我们将实体分为十到十二种不同类型,如组织、时间等。我们利用本体基础设施,尝试找到由BERT提取的相应实体,并将其链接到本体基础设施上。对于关键词提取,我们使用了另一种机器学习系统——ANNIF,这个系统由芬兰国家图书馆开发并提供服务。我们采用了这两种系统的组合。此外,在自动分类领域,我们目前正在使用由Meta开发的FastText。

问:能否介绍一下Travel Sampo及所用技术?

埃罗·海沃宁:目前该网站遭受了黑客攻击,暂停服务。该应用的情况是,当你拿着手机在赫尔辛基行走,如果遇到有趣的地点,我们将提供相关信息和文化背景链接,例如雕像、人物传记、艺术家信息等。可以探索旅行规划,自动为用户提供路线和个人兴趣点,同时还可以与其他旅行服务结合使用。尽管资源有限,但我们认为将商业应用与文化遗产相结合是一个良好的方向。该应用就是传统的基于关联开放数据基础设施建设的,利用了一些为Cultrue Sampo建设的知识图谱。

问:你们将来会将Sampo模型的使用融入到人工智能开发中吗?将来会利用本体进行大模型训练吗?

埃罗·海沃宁:在我们的案例中,我们利用人工智能技术从文本中提取信息。比如,在议会Sampo项目中,我们将芬兰议会所有的讨论发布到语义网上,从中提取了命名实体、人物、关键词,甚至主题,以建立一个网络,了解谁在议会发言,讨论的是什么议题,以及其他相关参与者。我们使用网络分析解决研究问题,探究这些讨论之间的相互关联。这是利用人工智能进行知识提取的一种方式。我认为未来语义网研究中一个热门话题是如何将关联推理与机器学习、大型语言模型中使用的深度学习结合起来。这是符号派人工智能的一个趋势,目前仍处于起步阶段,因此尚未取得太多成果。但我认为未来将非常有趣。因此,利用已有的知识结构来指导深度学习模型的使用是有意义的。如果拥有大型知识图谱,为何不能利用它们来生成下一代基于结构化数据的模型,而不仅仅是像现在这样处理非结构化文本?因此,我认为这个领域充满前景,但现在预测未来还为时过早。不过,这已经成为研究中的一个热门话题

课件下载


发表评论

云瀚联盟-智慧图书馆技术应用联盟(筹)