专家访谈:人工智能能否助力编目数千本数字图书馆图书?

专家访谈:人工智能能否助力编目数千本数字图书馆图书?

2025年01期【本期推荐】

本文翻译自《Could Artificial Intelligence Help Catalog Thousands of Digital Library Books? An Interview with Abigail Potter and Caroline Saccucci》,来源:https://blogs.loc.gov/thesignal/2024/11/could-artificial-intelligence-help-catalog-thousands-of-digital-library-books-an-interview-with-abigail-potter-and-caroline-saccucci/

(图片:国会图书馆主阅览室卡片目录处的女性;摄影师:Delano, Jack;华盛顿;1930-1950)

人工智能能否助力编目数千本数字图书馆图书?——访谈Abigail Potter和Caroline Saccucci

目录在存储和检索数字图书馆资料中扮演着关键角色。随着数字资料的持续快速增长,美国国会图书馆(LC)正在探索人工智能技术,评估其是否能够通过自动化生成元数据来协助编目员工作。人工智能有望加速资源描述的工作流程。然而,在采用机器学习等众多技术手段之前,我们必须考量这些技术的收益、风险、成本和质量等诸多因素。

美国国会图书馆最近发布了一份名为“探索计算描述”( Exploring Computational Description)的实验报告。该报告研究了哪些技术和工作流程能为元数据创建和编目提供最有前途的支持,报告评估了其他组织的实践,并使用图书馆电子书数据测试了多种不同的机器学习方法,同时评估了迭代数据审查的输出结果。

数字战略主任、高级项目顾问 Leah Weinryb-Grohsgal 最近采访了图书馆数字创新部 (LC Labs) 高级创新专家 Abigail Potter 和美国项目、法律和文学部主任 Caroline Saccucci,了解他们对这项实验的期望。项目团队就如何理解自动化输出,以及人工智能融入图书馆核心工作流程将对用户可能产生的影响进行了详细讨论。

Leah:感谢 Abbey 和 Caroline 接受我们的采访。很激动两位能够分享图书馆在测试机器学习(ML)模型这方面的实验。你们将这项工作描述为“探索计算描述”的实验。你们为何决定开展这项研究,又希望从中了解些什么呢?

Caroline:Abbey与我联系,讨论是否适合对大量未编目电子书运用机器学习方法来进行书目记录生成实验。我对能与Abbey合作开展这项实验感到非常兴奋。我们在2022年8月启动了这项工作。我们最终目标是想知道机器学习模型能否大规模地生成高质量的书目记录,如果可以,研究确定哪些ML模型最具潜力。具体来说,我们希望ML模型能够准确预测关键的元数据,包括如标题、作者、主题、体裁、日期以及描述电子书书目记录所需的标识符。此外,我们还想探索ML如何在元数据制作工作流程中协助到编目员。

Abbey:自2018年左右起,LC Labs就开始探索图书馆如何负责任地采用机器学习技术。2021年,我们刚完成了一项研究,涉及人在回路(human in the loop,HITL)工作流程以及基于人工智能处理数据的实验性演示。我们知道,这些新的工具技术在改进员工工作流程方面的潜力,可能不亚于我们在连接公众与馆藏方面的能力。因此,我们与图书馆的合作伙伴一起确定了优先实验领域。我非常高兴能与Caroline联系上,测试ML如何帮助她的编目员团队。

Leah:你们打算如何将积累的经验融入到LC Labs的人工智能规划框架中?

Abbey:我们的AI规划框架大约一年前在我们的博客和GitHub空间上发布,首次公开分享是在2020的iPres会议上。规划框架不仅对这项实验产生了深远影响,同时也受到了实验过程的塑造。探索计算描述(Exploring Computational Description)简称ECD,是我们首次将框架真正付诸实践的尝试。这同样是我们借助数字创新合同工具进行的首次实验,也是首次与LC Labs团队以外的同事共同领导的合作项目。这三个方面均对实验成功起到作用。能够在脱离生产工作流程的压力环境下,创造一个空间,深入理解这些用例的潜在风险和收益,并引入技术专家,依托于编目员的专业知识,我们使得这一切成为了可能。

我认为框架的各个方面都很重要(我知道我有偏见)!但这项实验确实显示了为AI设立原则的重要性。我们希望在这项实验中以编目员为中心,从一开始就纳入他们的专业知识,让他们的决策和实际工作流程为我们指明方向。Caroline共同领导这个项目也给了她的团队直接了解技术的机会。与Caroline合作使整个实验变得更好,因为她对编目非常了解。

Leah:你们测试了哪些方法?使用了哪些数据?

Caroline:我们大约从23,000个EPUB和PDF格式的电子书文件开始,这些文件大多为英文,其中约13,000个是通过出版物编目计划( Cataloging in Publication)获取的。除此外还包括超过5,800本开放获取的电子书、3,700份来自国会图书馆法律部门的法律研究报告,以及几百本来自我们主要入藏流程的电子书。我们还提供了相关的MARC记录,用作实验的基准数据。实验中选用了五个开源机器学习(ML)模型,将电子书文件逐一通过这些模型进行运行,以评估每个模型在预测所需元数据方面的性能表现。

模型的表现通过将机器学习预测的元数据与原始MARC记录中的字段进行比较来评估。除了进行质量评估外,还要求编目员将机器学习生成的标题和作者信息与MARC记录信息进行比对,并判断是否至少有一个良好的匹配项。编目员被要求提供反馈,以帮助优化模型。

我们还开发了两个低保真原型,提供建议以协助编目人员。其中一个原型运用机器学习技术,推荐可能的国会图书馆主题词表(LCSH)条目。该模型通过文本分类,识别电子书的主要主题,并将其转换为LCSH主题词表条目。由人在回路(HITL)编目员对这些LCSH条目及其上位类、下位类和相关条目进行审查。随后,编目员从列表中选取正确的LCSH条目,并与原始MARC记录进行对比,以评估机器学习模型在主题词预测方面的效果。

第二个原型是根据国会图书馆的人名规范档(NAF)确定作者姓名。通过标记分类技术,ML模型尝试精确预测标题页上字符序列所构成的作者姓名,并推荐在NAF中可能出现的相应姓名。要求编目员应用这两个原型并完成相关调查,以便收集关于这些原型实用性的反馈,并识别后续实验中所需的改进点和增强点。

下图是用于评估建议主题词质量的辅助编目人员在HITL工作流程中的具体细节。对于每个建议的主题词,设有“可接受”、“过于宽泛”、“过于狭窄”和“错误”的评估选项,并可附加评论。

Abbey:这是框架在实践中的又一典型示例:评估模型在特定任务中使用真实数据的表现,并让专家审查这些结果,以便开始了解质量基线的可能标准。AI的准确度非常依赖于数据的质量。而且,让专家在工作流中审查输出结果真的非常重要。他们的反馈既可以决定AI输出的质量,也可以通过重新训练和调整模型来帮助优化模型。

Leah:能否给出一些成功的案例?

Caroline:为了本次实验,我们设定了F1为95%这一阈值,作为衡量准确性的关键指标。基于Transformer架构的模型在执行标记分类任务时表现尤为出色,例如预测标题和作者。然而,没有一个模型达到设定的95%阈值,唯一的例外是识别国会图书馆控制号( Library of Congress Control Numbers,LCCN)。

由芬兰国家图书馆开发的Annif模型和框架在自动主题索引方面显示出一些潜力,尽管其准确率仅为35%。此外,我们还测试了各种大语言模型(LLMs)及向量“检索”功能,以创建MARC字段和子字段,并取得了良好的结果,其中某些字段的F1分数达到了90%(满分100%)。但是,在像编目员一样分配国会图书馆主题词表(LCSH)术语测试中,LLMs的F1分数仅为26%。

由于高质量的编目记录对国会图书馆以及使用MARC记录的全球图书馆至关重要,研究结果表明编目员需要在发布前对机器学习或人工智能的输出进行审查,这符合我们的预期。启用编目员审查和反馈的编目辅助工作流程原型已展现出潜力,“人在回路”(HITL)概念正在稳步推进、向深迭代。

数据处理计划的屏幕截图示例。第一和第二阶段的ECD数据处理计划可通过实验页面获取

Abbey:我们使用数据处理计划来记录用于评估每个模型的数据。如果您对数据准备、具体技术细节,以及被评估模型的相关信息感兴趣,欢迎查阅相关资料!这些资料连同报告、数据和原型一起,构成了此次实验的主要交付成果。这些文档帮助指导我们未来在人工智能技术实施方面的决策。

我还想强调一点,使用相同的数据来评估不同模型非常有用。这使我们能够全面评估开源模型、专有模型等各类模型的性能,从而做出更为明智的决策。政府采购遵循的一项基本原则是鼓励竞争,这有助于实现更高的价值。因此,确保纳入多种方法和平台,并严格验证市场材料中常见的性能声明,尤为重要。

Leah:使用这些模型会面临哪些挑战呢?

Caroline:在使用这些模型的过程中,我们遇到了诸多挑战。首要且最基本的问题是,我们最初的训练数据量不足。事实证明,在机器学习项目中,“多多益善”是训练数据的一大原则。我们最初以大约2.3万本电子书及其相关的MARC记录作为训练数据,但实际上我们本可以使用近10万本。后来我们又补充了7.7万本电子书作为训练数据,这也算是一个宝贵的经验教训。

第二个挑战是“极端多标签文本分类”(extreme multilabel text classification),因为一条书目记录可能包含多个主题字段,每个字段又可能包含多个主题术语。此外,可能的主题术语种类繁多,分布极不均匀。在我们的训练语料库中,大约50%的主题术语出现次数超过一次,而另外50%的主题术语仅出现一次。在这样一个相对较小的、仅有2.3万份文档的语料库中,这种巨大的多样性导致了主题分类的准确率极低。而体裁分类的准确率更低,因为在训练数据中使用的大多数MARC记录都没有包含体裁术语。

Abbey:Caroline说得非常准确。拥有充足的训练数据以引导模型执行特定任务,是普遍存在的挑战。此外,从大约45万种潜在的主题术语中为一本书选择恰当的主题词,无论对人类还是人工智能而言,都极具挑战性。任务的复杂性和训练数据的不均衡,进一步加剧了用例的风险。对大语言模型的训练内容缺乏了解,也会增加风险,因为这可能导致模型需要大量提示或调整才能高效、无偏见地运行。

其他增加风险的条件并不一定与模型的性能有关。一些模型的服务条款不符合联邦安全和隐私法规,特别是对于联邦机构处理数据的要求。从宏观角度审视人工智能生态系统可能对我们的底线、地球、组织、用户和员工产生的影响,也是我们必须考虑的因素。我们需要了解这些新工具的短期和长期成本。这是一个发展极为迅速的领域,几乎每周都有新的模型、产品和法规发布。跟上这一快速发展的步伐极具挑战性!

评估人工智能成果的三个关键领域 

我们的框架为如何逐步评估人工智能技术提供了指导。通过本次实验,我们正在学习如何制定评估人工智能的方法。

目前,我们正在探讨以下几个重大问题:

1、是否属于负责任的人工智能?实验结果是否显示了利益与风险的合理平衡?我们拟采用的工具或方法是否符合我们的标准和法规?人工智能的方法与结果是否能够支撑其可信度、问责性,以及对公平、权利、安全和隐私的尊重?

2、人工智能是否有效?我们的数据、员工专业知识和模型选择的综合运用,是否为我们的用户、利益相关者、员工和组织带来了积极的结果?

3、人工智能是否具备实用性?我们能否将这一人工智能工具或流程有效整合到我们的基础设施中?我们能否对其进行有效管理,并确保其长期稳定运行?它是否具备经济合理性?

我们仍在为ECD解答这些问题,截至目前,我们所观察到的情况颇为振奋人心。

Leah:结果中有什么是让你感到意外的吗?

Caroline: 机器学习(ML)模型能够被训练用来准确预测作者姓名、电子书标题和标识符我并不感到意外。同样,对于ML模型在应用主题和体裁术语时会遇到困难我也不感到意外,因为要求机器确定一本书的主要主题,并将其转换为一组受控词汇表中的术语,这是一项具有相当难度的学习任务。对于2.3万本电子书的实验结果显示,ML模型尚未准备好大规模地进行书目描述,但是,我前面也说过,如果我们最初使用10万本电子书,或许我们可能会得到更好的结果。

对我来说,最令人意外的结果是编目员对ML的反应。我原本以为编目员会对应用于书目描述的ML方法感到非常不安,但参与测试的编目员却表现出了好奇心和开放的心态。尤其是那些参与测试了人在回路(HITL)原型的编目员,因为他们能够感受到ML如何增强和支持他们的工作。

Abbey:和其他人一样,我对机器学习(ML)及其在改善图书馆流程方面的潜力持乐观态度。我最初认为电子书创建元数据是一项容易达成的任务,因此很积极地推动它向前发展。当广泛可用的大语言模型(LLM)问世时,其强大的能力令我印象深刻。然而,随着我对这项技术的了解越来越多,并开始深入评估时,我意识到,不能简单地将演示中看到或引用的性能指标,直接应用于编目这类复杂任务,并期望获得相似的效果。众多变量使得这项任务充满挑战。

大多数AI工具并非为处理长文本而设计。幻觉是生成式人工智能的常见现象,而我们需要高质量且一致的输出。进行这项实验让我意识到,在图书馆的工作流程中实施AI并非易事,无法一蹴而就。用于训练、微调的基准数据集既体现出平衡又涵盖图书馆丰富的收录内容十分重要。同样不可或缺的是,构建用于管理模型、测试其性能以及按需更换模型的基础设施。此外,还需要制定新的质量标准,用于审查和评估模型输出的界面和程序。需要建立来自编目员和用户的反馈机制,以便了解模型性能,并管理所有数据的系统。还必须具备运行、监控和维护这一新技术能力的人员和专业知识。这一切都是可能的,但需要时间和资源。

Leah:你认为图书馆将来会广泛使用这些技术吗?

Caroline:第一次实验的结果表明,这项技术仍在快速发展中。ChatGPT 3.5在第一次实验的中期发布。第二阶段包括了第一阶段中的最佳模型,增加了大语言模型(LLM)和两个编目辅助原型。我们可能会达到机器学习模型能够可靠地预测书名、作者名、出版信息和标识符等的程度,但在更复杂的书目描述工作中,我们仍然需要人机协作。

Abbey: 我认为我们的员工有能力有效使用AI。我们收集、保存并提供多种形式的信息访问,这些信息跨越历史,涵盖了大多数主题领域。我们成功地为每一波新技术的出现制定了标准和实践。

我们创建了MARC格式,以实现书目数据的机器可读和共享。我们是首批通过美国记忆计划(American Memory program)在线数字化和共享藏品的文化遗产机构之一。图书馆领导了一个国家数字保存计划,该计划资助并推广支持全国各类组织数字资源保存的标准和指南。我们引领并示范了可访问性实践,扩大了我们项目和服务的覆盖范围,并与世界各地的合作伙伴协作,保存网络档案,分享创新实践,并推动负责任地采用人工智能。我们是第一个提供API规则访问(Congress.gov API)的国家。

我们的员工(以及图书馆员)了解我们的数据和组织的背景,并且知道如何使用新技术来造福用户、社区和员工。这只是我们之前所做工作的又一步。

Leah:你认为还会在此基础上继续推进其他工作吗?

Caroline:我们在2024年8月启动了实验的第三阶段。我非常兴奋,因为我们将在出版前的工作流程中更早地进行实验,以便为印刷和电子书创建书目信息,并以Bibframe格式导出这些元数据。我希望能够让其他机构参与评估和审查。这将是一个机会,让我们能够创造性地思考整个编目工作流程,并构想未来的可能性。

我看到我们在不断积累发现成果。每一个阶段都推动迈向实施一个新的试点项目,从而达到在实际生产环境中使用机器学习(ML)和人在回路(HITL)进行数字资料编目工作的目标。 

ECD路线图

Abbey: 我们从这些以及其他人工智能实验中学到了很多。这些实验为我们制定关于人工智能的新兴战略、路线图和政策奠定了基础。我们知道,能够以目前的方式投入时间、支持和资源来进行人工智能实验是十分难得的幸运。我们希望通过分享学习成果,使更多人也能从中受益。

本次访谈中的从电子书中创建MARC记录的实验采用了国会图书馆实验室(LC Labs)于2023年11月发布的“人工智能规划与实施框架”(AI Planning and Implementation Framework)。如需进一步了解该规划框架,请参阅“Introducing the LC Labs Artificial Intelligence Planning Framework ”一文,或访问LC Labs的Github页面“LC Labs Github LC Labs AI Planning Framework”。

(中文版请点击《美国国会图书馆实验室人工智能规划框架》

发表评论

云瀚联盟-智慧图书馆技术应用联盟