把握平衡:AI在元数据工作流应用中的机遇与挑战

此图片的alt属性为空;文件名为image-2.png

把握平衡:AI在元数据工作流应用中的机遇与挑战

2025年12期【本期推荐】

作者:Rebecca Bryant,Annette Dortmund

本文译自:https://hangingtogether.org/striking-the-right-balance-opportunities-and-challenges-of-ai-in-metadata-workflows/

把握平衡:AI在元数据工作流应用中的机遇与挑战

AI在改进元数据工作流方面具有显著潜力,AI工具能够提升效率、优化资源发现,并解决图书馆长期存在的问题。然而,如同其他变革性技术一样,使用AI时需要审慎思考其局限性、伦理影响以及对图书馆专业实践带来的改变。关键在于要把握平衡,既要充分发挥AI的技术优势,又必须坚守图书馆赖以生存的质量规范与行业标准。

2025年4月至6月期间,OCLC研究型图书馆联盟(OCLC Research Library Partnership ,RLP)召集成立了“元数据工作流AI管理工作组”。该工作组汇聚了多位元数据管理专家,共同探索如何将AI技术整合到编目、特藏管理和机构知识库工作流程中。在这些讨论中,图书馆员与档案管理员对AI的应用既表现出热情,也保持着审慎态度,并形成了一系列贯穿不同领域的核心议题,这些见解超越了具体工作流程的范畴,揭示了图书馆领域负责任地使用AI所面临的机遇与挑战。

由此,工作组将讨论结果形成四篇系列文章,希望这些观察能为图书馆界在协同应对技术变革时提供有益的指引。本文是“四部曲”的终篇,综合提炼了四大关键议题:元数据质量至关重要建立伦理标准与透明化机制的必然性元数据专业人员角色的动态演变,以及采用可持续AI实践的责任。这些洞见,结合OCLC等机构正在形成的最佳实践,共同指向一个未来,在元数据工作中,AI将成为人类专业能力的增强助力,而非替代人类。

其他三篇文章可点击阅读原文

《积压与突破:AI在初级编目工作流中的应用》(Backlogs and beyond: AI in primary cataloging workflows

《探索AI在档案馆与特藏中的应用:整合、实体管理与需求应对》(Exploring AI uses in archives and special collections: Integration, entities, and addressing need

《审视AI在机构知识库工作流中的作用》(Examining the role of AI in institutional repository workflows

元数据质量与可靠性至关重要

贯穿所有讨论的一个根本主题是元数据质量至关重要。工作组成员一致认为,如果资源未能被准确描述或导致用户被误导,那么用AI编目将适得其反。这种对质量的要求并非使用AI时的障碍,恰恰构成了负责任使用AI的框架。

在讨论中反复出现的若干关键的质量考量因素:

  • 幻觉问题:可能在编目工作中引入虚假信息
  • 输出不一致性:相同输入产生不同结果,导致系统可靠性受损
  • 置信度分数不可靠:无法始终准确反映AI生成内容的质量
  • 实体识别失误:AI生成结果可能语法正确,却错误识别人物、地点或机构

然而,这些挑战并未成为不可逾越的障碍,反而催生了富有成效的创新实践。OCLC在WorldCat中应用AI进行编目去重工作,生动展示了如何通过人机协同的混合模式解决质量问题,既发挥了AI的效率,又融入专业智慧。OCLC与编目社群紧密合作,持续验证其机器学习模型对WorldCat中重复记录的理解。截至目前,通过对该AI模型的持续测试与优化,已成功从WorldCat中清除超过900万条重复记录。整个过程采用审慎的决策机制,并对复杂案例保留人工审核环节,充分证明AI能够规模化提升质量工作而并没有降低标准。

这些进展正在推动一系列具有建设性的讨论,关于人工介入流程的构建、质量控制节点的设置以及人员培训方法的创新,以帮助专业人员有效评估AI的产出。这些讨论目前已开始催生出实际解决方案。

语境与文化知识鸿沟依然存在

工作组指出目前关于AI一个最显著局限,是在语境与文化知识理解方面的不足。参与成员列举了实际挑战,例如在包含专业术语的录音资料中,AI转录系统会将“MARC”误转为“Mark”,或将“nomen”错转为“Newman”。更广泛来说,AI往往缺乏对特定社群术语或文化细微差别的深层语境理解,这些知识通常未包含在通用训练数据库中。

图书馆界并未将这些局限视为难以消除的障碍,而是正在积极寻求解决方案。这些挑战揭示了一个重要机遇:需要更多专业化、面向特定任务的AI工具,而非依赖通用模型。OCLC在主题分析与分类预测方面的探索正体现了这一发展路径。通过将AI模型建立在高质量的图书馆元数据基础上,特别是WorldCat数据,OCLC正在开发比通用模型更能理解图书馆语境的专业工具。

这种专业化路径也彰显了,图书馆员与档案管理员深厚的馆藏知识及文化专业素养始终不可或缺,从而将AI定位为一种拓展而非取代专业判断的工具。

职业角色与技能的演进:增强而非替代

工作组成员表达了对AI工具的兴趣,认为其能有效提升工作效率,使元数据专家得以从重复性工作中解脱,从而专注于更复杂、更具专业性的任务。与此同时,他们也针对AI增强环境下的职业发展与技能维护提出了思考。

关键讨论包括:如何确保新入行的专业人员能够掌握过去通过传统基础任务(如简要编目)获得核心技能,而这些技能将成为其日后有效评估AI产出质量的必备基础。同时,资深编目员则担忧,若将更多时间用于审核而非一线编目工作,是否会影响他们识别细微错误,以及钝化需要处理复杂信息的专业洞察力。

这些讨论凸显出一个关键理念:AI的应用设计应着眼于增强人类专业能力,而非取而代之,在利用AI处理海量常规任务的同时,必须确保职业发展路径的稳固。OCLC的实践正是这一理念的典范,其AI去重项目并未取消人工审核,而是将专业力量重新聚焦最需要专业判断的环节。正如Bemal Rajapatirana所言:“这种去重方法并非削弱人的作用,而是将专业能力重新集中于最关键的环节。编目员从而能专注于满足社区需求的高价值工作,而非耗费大量时间处理重复记录。”

现实中的图书馆案例也印证了这一潜力。卡尔加里大学图书馆在引入AI聊天机器人后,成功将相当于1.5个全职人力的工作时间重新配置到更具战略意义的高层次任务中。这表明AI能为图书馆工作中那些独属于人类特质的创造提供施展空间,而非削弱专业人员的角色。

伦理考量与标准:在实践中构建透明度

工作组成员提出了若干重要的伦理考量,其中数据溯源与透明度尤为关键。成员强调,无论是出于质量控制目的还是为了确保透明度,都必须对AI参与生成元数据的时间节点与具体方式进行追踪记录。

例如,在某案例研究中,当AI接收到一份检索工具任务,尝试依据“美国国会图书馆名称规范档”(LC Name Authority File)为其中的人名提供规范标目时,它生成的标目看似格式完全正确(如添加生卒年的“Bukowski, Charles, 1920-1994”),并声称这些标目已经过验证。然而实际上,这些并非正确的规范标目(标准形式应为“Bukowski, Charles”)。在此类案例中,若在信息中注明该标目由AI生成,便可触发人工审核流程,从而进行质量控制。

为回应业界对AI生成元数据溯源问题的关注,OCLC已通过更新WorldCat文档体系及开展“AskQC Office Hours”等项目提供指导。最新版《书目格式与标准》(BFAS)在第3.5章节中新增了关于在书目记录中标注AI生成元数据的规范说明,也可参考2025年8月的“AskQC Office Hours”研讨会记录获取相关实践指引。

与此同时,关于AI生成元数据的生命周期也引发了新的思考:何时AI生成内容应转化为“经编目员审校的内容”,类似于转录编目的工作流程?又应如何在确保透明度与维持实际工作流程效率之间取得平衡?这些探讨体现了图书馆界积极应对新技术带来的实际影响,并致力于负责任地推动行业发展的专业态度。

环境意识与责任

工作组成员十分关注AI带来的环境影响,并表示在效果相当的情况下更倾向于选择能耗较低的解决方案。元数据管理者并未将此视为技术应用的障碍,而是指出业界需要获取关于不同AI应用对环境影响的信息,以便做出明智的决策,并与团队就负责任的技术实施方案展开讨论。

OCLC的AI发展路径体现了这种环境意识。WorldCat去重模型在设计上追求计算效率,在保持高质量结果的同时减少不必要的资源消耗。正如Rajapatirana所阐释的:“通过降低AI的能耗,我们确保去重工作长期保持成本效益与可扩展性。”这种环境意识反映了图书馆界对可持续发展和负责任技术应用的承诺,同时也为开展图书馆AI能耗影响方面的培训与信息共享提供了契机。

结论

本文所述的挑战与机遇,反映出图书馆行业共同体正在积极思考新兴技术影响而非盲目跟风,其对专业化AI工具、质量框架与伦理准则的明确需求,正推动着行业应对当前技术挑战的创新实践。

工作组成员强调,在利用AI能力的同时应保持专业素养,这体现了一种可持续的技术整合路径,既守护图书馆工作的核心价值,又通过技术增强其影响力。

通过“元数据工作流AI管理工作组”,元数据管理者们能够系统性梳理AI在元数据工作流程中的应用要点。本系列博文凝聚了这些洞察,期望这些观察能为图书馆界应对技术变革提供启发。

发表评论

云瀚联盟-智慧图书馆技术应用联盟