AI赋能文化遗产智慧数据生成——机遇与挑战——“智慧图书馆技术应用讲座”2024年第1期(总第27期)精彩回顾

AI赋能文化遗产智慧数据生成——机遇与挑战——“智慧图书馆技术应用讲座”2024年第1期(总第27期)精彩回顾

1月18日上午10点,2024年第1期(总第27期)“智慧图书馆技术应用讲座”在线上举办。本期讲座邀请美国肯特州立大学教授曾蕾和四川大学副教授范炜担任主讲嘉宾,围绕《AI赋能文化遗产智慧数据生成——机遇与挑战》进行了报告。

报告重点围绕AI时代可信智慧数据的生成,通过丰富的文化遗产领域典型场景和实践案例介绍,揭示了智慧数据的来源、深度,以及AI如何赋能文化遗产的智慧数据的方法与可能性。报告讨论了AI在文化遗产智慧数据生成方面的机遇与挑战,并对图博档机构如何拥抱AI给出了建议。

交流互动

在讲座的交流互动环节,线上观众提问踊跃,部分精彩内容摘记如下。

问:当前图博档如何谨慎的引入AI技术来开发特藏资源价值?

曾蕾AI在多样化的任务领域中发挥作用,包括但不限于自然语言处理、逻辑推理、概念图表、知识图谱、数据统计方法以及准确性评估提升等。图博档机构要根据特藏资源特征,来针对性的引入AI场景。当前市场上存在众多实用的AI工具,包括问答、内容生成等多样化功能。机构在应用时,要进行验证打分。目前,ChatGPT在信息来源方面仍存在一定的争议。相较之下,图博档在每条资源与回答背后都可以关联相关的人物、时间、图像等数据,这正是我们的特点和优势所在。

范炜:各馆特藏资源建设状况各异,有的馆尚未完成数字化工作,而另一些馆刚刚完成数字化,尚未具备迈向数据化、数智化阶段的能力。具备技术实力的馆考虑采用RAG(检索增强生成)和大语言模型结合知识库的方式,但很多馆藏资源都是图片,数字化扫描之后,加挂出来的效果并不好。因此,所谓谨慎,一要避免直接将数据交由外部机构,因为存在把数据拿出去的风险;二是不要期望在不同的数字化阶段一步达成所谓AI的效果。

问:元数据、词表与知识组织在AI技术面前还那么重要吗?图博已经建了很多本体知识库,现在AI面前还有用吗?

曾蕾当然有用。当前的AI技术如ChatGPT等在使用过程中仍存在一定的问题,缺乏可信度和逻辑性。本体知识库具备较强的逻辑性,报告中所提到的案例,如罗马钱币和芬兰的SAMPO模型等,均基于规范进行构建。因此,图博档应当共享高质量的本体知识库,并充分利用规范词表等资源。

范炜:在未来,我们或许可以借助人工智能辅助生成元数据,然而,在数据标准与数据规范方面,仍需人工持续关注并严格把控。当前我们注意到把标准喂给AI后可以达到一定的结构化的处理效果,但是在指向和取值方面仍存在较大的问题。另外,关于本体和知识组织的问题,个人感觉,目前我国的研究性的本体、图书馆本体建设相比国外图书馆存在一些差距。如何将这些本体有效整合,并与人工智能相结合,实现在未来发挥作用,值得我们关注。

问:未来在利用AI为图书馆产生可信的智慧数据,关于“可信”的评价上,两位老师有什么建议?

曾蕾为了使得智慧数据可信,有必要进行相关测试与评估。机器学习是一种不断发展的过程,要达到可信目前仍依赖于人与机器的协同努力。先前提及的芬兰SAMPO模型,当数据达到了7星级水平,能够验证数据、能够指明来龙去脉,就达到一种可信的数据质量。大模型是AI的一种,如何让AI更具有逻辑性,未来也是很大的挑战。

范炜:当前,人工智能的可信问题成为了广泛关注的焦点。曾老师提及了用户在获取数据时希望了解其来源。图博档领域本就专注于资源建设,资源是我们的根基。我们在编制规范文档、引文索引等过程中,若能在与AI协作时保留这些来源线索,那么在实际提供用户知识服务的场景中,便可实现一定程度的可信度。此外,如今AI的可信与原先语义网架构最上层一致。RDF之后,ontology和OWL出现,赋予推理能力。而AI大模型正因其庞大参数而呈黑盒状,因此生成的内容不易获信。

课件下载


发表评论

云瀚联盟-智慧图书馆技术应用联盟(筹)