
面向智能化元数据生产的智慧编目框架研究
2026年02期【本期推荐】
作者:张雨卉 刘 炜 张 磊 周 纲 施泽昊
来源:张雨卉,刘炜,张磊,等.面向智能化元数据生产的智慧编目框架研究[J/OL].信息与管理研究,1-14[2026-02-06].https://link.cnki.net/urlid/31.2118.G2.20260205.1205.002.
* 本文系国家社会科学基金重大项目“智能时代提升全民数字素养的理论与实践研究”(编号 :24&ZD180)的研究成果之一。
摘要
传统人工编目模式在信息资源规模与类型的爆炸式增长下面临可持续性瓶颈,成为图书馆知识服务的关键制约。生成式人工智能虽为自动化元数据生产提供了技术契机,但现有探索普遍存在流程嵌入不足、质量控制困难、跨类型文献适应性弱等问题。为系统性解决上述挑战,本文构建了一个面向多类型文献的整体性智慧编目框架,将当前零散的AI编目探索纳入一个可扩展、可实施的体系之中,为图书馆系统性引入大模型提供了结构化的方法基础。本框架不仅在技术上提出了适应各种不同类型文献的方案,也针对传统编目规则在人工智能背景下的适配性难题,提出了MAC与OAC双路径机制,解决了AI技术与编目规范之间的结构性冲突。最终,本文通过特藏文献戏单与普通文献图书两个层次的案例,证实了该框架的有效性与可扩展性,为实现 AI 驱动的高质量元数据生产提供了理论依据与实践范式。
关键词
智慧编目 元数据生产 生成式人工智能 大语言模型 人机协同 MAC/OAC 机制 流程嵌入
0.引言
在图书馆的知识组织体系中,编目承担着构建知识入口与生产核心元数据的关键职能。然而,随着信息规模的指数级增长和资源形态的日益多样化,依赖人工识读与手工著录的传统编目模式,其效率、成本与可持续性瓶颈愈发凸显。
生成式人工智能,特别是大语言模型(LLM)与多模态模型的崛起,为编目工作带来了革命性的技术机遇。这些模型强大的跨模态语义识别与结构化内容生成能力,为提升元数据生产的效率与质量开辟了新的可能性。尽管如此,当前将AI应用于编目的探索仍处于初级阶段,普遍面临三大挑战: 流程嵌入不足,即AI工具难以无缝融入现有编目工作流 ; 规范适配不足,即模型生成的自由文本与严格的编目规则之间存在“语义鸿沟”; 质量不可控,即AI的“幻觉”问题导致元数据准确性难以保障。
针对上述研究空白,本文提出一个能够统筹图书、报刊与特藏文献的整体性智慧编目框架,将当前零散的AI编目探索纳入一个可扩展、可实施的体系之中,为图书馆系统性引入大模型提供了结构化的方法基础。
1.文献综述
1.1 国际研究格局 : 从实验探索到模式分化
国际图书馆界对AI辅助编目的探索已从早期的单任务实验,逐步演化为对不同技术模式的系统性评估,呈现出清晰的模式分化趋势。
模式一 : 面向特定字段的机器学习辅助。早期的探索主要集中于利用传统机器学习与自然语言处理模型,提升编目流程中特定环节的自动化水平。例如,美国国会图书馆的“探索计算描述”项目尝试利用多种BERT系列模型在内的工具从电子书中自动提取字段。同样,德国国家图书馆致力于利用AI改进主题标引为出版物自动分配杜威十进制分类号。这些先驱项目的共同结论是,AI 在建议主题词和规范名称方面是高效的辅助工具,但其生成结果的最终质量保障仍高度依赖专业编目员的审核,即“人机协同”(Human-in-the-Loop)机制至关重要。此外,新加坡国家图书馆利用机器人流程自动化从电子书平台采集使用数据,以及佛罗里达大学图书馆与商业公司合作定制命名实体识别流程以提取地名实体,均体现了该模式在解决特定、明确任务上的有效性。
模式二 : 面向完整记录的生成式 AI 实验。随着大语言模型的兴起,研究焦点转向利用其强大的内容生成能力来创建完整的书目记录。卡罗大学的实验表明,ChatGPT能够直接产出符合RDA 等编目规范的MARC记录,但在多语言和复杂场景下仍处于“可用但需审校”的水平。埃默里大学的Wayfinder项目利用ChatGPT从书目中自动识别并提取关键元数据,但过程中也遇到了术语不一致等挑战,说明直接生成的结果仍需后置标准化处理。为了提升生成记录的准确性与规范性,业界开始引入更先进的技术架构。例如,卡普兰诺大学图书馆开发的“CatalogerGPT”引入了检索增强生成(RAG)技术,一定程度上提高了输出的专业性。这些实验普遍证实,LLM虽能生成结构合理的记录,但在格式一致性、事实准确性以及对特定编目规则的严格遵守方面仍存在风险。
模式三 : 商业系统的功能集成。技术的成熟推动了 AI 编目从实验性工具向生产性系统的进化。比利时皇家图书馆构建了基于微软Power Automate平台的自动化编目流程,通过专用 AI 模型扫描图书关键页面提取元数据,并生成符合 MARC 21和BIBFRAME标准的记录,形成了一个近乎完整的自动化闭环。在非图书资源处理上,丹麦皇家图书馆的“声音检索”项目利用语音识别模型 Whisper,将1987年以来的广播电视资源转录为可检索文本并自动提取元数据。与此同时,商业图书馆服务平台也在快速跟进,例如Ex Libris公司在其Alma系统中集成了AI元数据生成器,可自动为记录生成语言代码、摘要和主题词等字段。这标志着AI编目功能正从实验室走向规模化应用。然而,无论是自研系统还是商业产品,其功能往往表现为针对特定环节的优化或“黑箱”解决方案,尚缺乏一个能够统筹多类型资源、允许图书馆深度定制和管理的综合性、透明化框架。
1.2 国内研究主线:初步探索与应用场景聚焦
与国际研究从实验到模式分化的演进路径相比,国内图书馆界对 AI 辅助编目的研究与实践,整体上仍处于初步探索与场景化应用的阶段,尚未形成普遍性的技术模式,但已呈现出清晰的应用导向和本土化特色。
模式一 : 面向关键流程效率提升的自动化辅助。与国外“面向特定字段的机器学习辅助”类似,国内研究同样关注利用AI解决编目流程中的瓶颈环节,但其焦点更集中于通过OCR与规则结合,实现基础元数据的自动采集与录入,以此提升整体编目效率。一个代表性案例是广东省立中山图书馆的“采编图灵”项目。该项目采用基于神经网络的专用AI图像处理模型,通过扫描图书题名页、版权页等关键页面,自动识别并提取 ISBN、题名、价格等关键字段,并实现与联机编目数据的自动对接。此类实践可被视为一种“增强型自动化”,其核心目标是流程提速,技术路径相对直接,但与严格意义上的语义理解和智能标引尚有距离。
模式二 : 基于通用大语言模型的生成式实验。随着生成式AI的普及,国内部分高校图书馆也开始利用ChatGPT、Claude等通用大语言模型进行元数据生成的实验性研究。例如,香港浸会大学图书馆开展了一项实验,选择2万条中医学类书目记录,利用Claude模型尝试为其分配美国国会图书馆主题词(LCSH)。类似的,戎璐利用ChatGPT进行了《中国图书馆分类法》自动分类实验,在三级类目分类任务中准确率突破了 70%。然而,与国际研究结论一致,这些实验也普遍面临术语规范性、一致性不足以及对特定编目规则理解偏差等问题,其结果通常被视为“建议”而非“成品”,强调了人工审核与控制的不可或缺性。
1.3 现有研究不足与本文贡献
综合国内外研究现状可见,尽管AI生成元数据的探索已取得显著进展,但仍存在四方面共性局限,制约其从辅助工具向核心生产体系的演进。本研究正是基于这些系统性缺陷,探索构建一个更具整合性与实践性的智慧编目框架。
(1) 缺乏整体性框架
现有研究多为针对特定文献类型(如图书)或特定任务(如主题词生成)的“点状”突破,缺乏一个能够统筹图书、报刊、特藏等不同类型文献,并整合技术、规则与流程的顶层架构。本文贡献在于提出了一个整体性的智慧编目框架,为AI在编目领域的规模化应用提供了系统蓝图。
(2) 流程嵌入机制不成熟
多数研究停留在模型能力的验证层面,未能有效解决AI如何无缝嵌入图书馆现有复杂工作流的问题。本文通过设计专门的“流程协同层”,系统地探讨了与自动化硬件集成、融入数字化流程以及构建人机反馈闭环的具体机制。
(3) 缺乏类型感知的差异化策略
现有实践倾向于用单一模型或方法处理所有文献,忽视了不同文献在版式、结构和语义复杂度上的巨大差异。本文的核心原则之一即“类型感知优先”,为不同文献设计了差异化的技术路径,确保技术方案的最优匹配。
(4) 生成结果与编目规范存在断裂
AI的概率性输出与编目规则的确定性要求之间存在天然矛盾。本文通过创新的MAC与OAC双路径机制,直接回应了这一挑战,为连接AI生成内容与标准化编目体系提供了桥梁。
2.智慧编目框架总体设计
2.1 设计思路与核心原则
本框架的设计旨在解决生成式AI的概率性、创造性输出与图书馆编目工作所要求的确定性、规范性之间的核心矛盾。若要成功驾驭AI的能力而不牺牲元数据的质量与完整性,必须建立一套能够协同技术潜力与规则约束的系统性架构。为此,本框架遵循三大核心设计原则。
(1)类型感知优先。不同文献类型(如标准图书、不规则特藏)试图用一种技术路径解决所有问题是低效且不可靠的。因此,框架的入口即对文献类型进行识别与分流,为后续处理匹配最优的技术方案,这是保障整个系统效率与准确性的前提。
(2)技术与规则协同。AI擅长理解和生成自然语言内容,但对MARC代码这类非语义符号系统缺乏精确控制力。因此,框架的设计并非让AI 直接生成最终的编目记录,而是让其专注于语义抽取,再通过一个独立的规则映射层,将AI的输出结果精确转换为符合 MARC、BIBFRAME等既有规范的格式。这种解耦设计,实现了技术能力与制度规范的协同共进。
(3)过程可控与闭环优化。鉴于AI输出的不确定性,人的监督与反馈是不可或缺的质量保障环节。本框架将“人机协同”思想制度化,设计了人机协同的审核与反馈闭环。编目员的角色从数据录入者转变为质量控制者与 AI 训练者,其修正与反馈将用于持续优化提示词库和规则引擎,使整个系统具备自我迭代与演进的能力。
2.2 框架结构设计 : 五层架构
基于上述原则,本研究构建了一个由五个逻辑层次组成的智慧编目框架。该架构通过层次化设计,将元数据自动生产的复杂流程分解为一系列标准化的处理阶段,确保了数据处理全流程的可控性、可维护性与可扩展性。
入口层: 作为框架的输入端与调度中心,承担文献资源的接收、识别与路由职能。该层通过集成文档分类与类型识别模块,自动判别输入文献(如图像、文本)的资源类型(例如,标准图书、报刊、戏单)。识别结果直接驱动任务分发逻辑,将文献调度至预设的、最优化的技术处理路径,是实现“类型感知优先”原则的基础设施。
中间层: 其核心职能是构建一个独立于具体编目规范的数据交换接口。该层接收来自不同技术路径的原始输出,并根据不同的文献类型调用合适的技术路径,将其转换为一种统一的、标准化的中间数据格式(JSON 格式文件)。这一设计将人工智能模型生成的非结构化或半结构化内容,转化为机器可稳定处理的结构化数据对象,有效解耦了上游智能抽取与下游规范映射之间的依赖关系,显著降低了系统集成的复杂性。
规则映射层 : 实现自动化编目规范化的核心组件。该层内置一个可配置的规则库,封装了从中间层JSON格式到目标编目格式的转换逻辑。对于标准出版物,该层执行MAC(MARC for Automated Cataloging) 映射规则,将数据精确转换为MARC 21或CNMARC记录 ; 对于特藏文献,则遵循OAC (Ontology for Automated Cataloging) 方法论,将数据实例化为预定义的本体模型,生成语义化的知识图谱。此层确保了人工智能的输出能够严格遵从领域标准与业务规则。
约束控制层: 为应对生成式人工智能不确定性而设计的质量调控机制。该层通过两个核心组件实施全过程干预 : 提示词工程模块在任务执行前为模型提供结构化指令,约束其任务范围与输出格式 ; 软规则引擎则在任务执行后,对中间层产出的数据进行逻辑一致性、格式合规性与业务合理性的初步校验。该层通过前馈约束与反馈校验相结合的方式,系统性地提升人工智能输出的可靠性与可用性。
流程协同层: 框架与现有编目工作流集成的接口,并负责构建人机协同的质量闭环。该层提供专用的人机交互界面,供编目员对系统生成的记录进行审核、修正与确认。所有人工干预操作均被系统记录,形成高质量的反馈数据集。这些数据被用于持续优化控制层的提示词策略与软规则集,并可进一步用于有监督的模型微调,从而驱动整个系统在运行中实现性能的持续演进。
图1以框图形式展示了上述五层架构的逻辑结构与层级间的交互关系,图2则通过流程图具体描绘了文献资源在框架中的处理轨迹。下文将详细阐述框架的中间层、规则映射层和流程协同层涉及的技术路径、规则适配以及流程嵌入三个自动编目流程中的关键重点。


3.技术路径设计
为实现框架的中间层以及遵循框架“类型感知优先”的核心原则,必须为不同特征的文献匹配最优的技术处理路径。这不仅是技术选型问题,更是一种基于成本、效率和可靠性综合考量的策略。当前AI技术的发展阶段决定了不存在一种“万能”方案,因此,本框架设计了三种差异化的技术路径,以应对从高度规范化的标准出版物到结构自由的特藏文献的广泛需求。
3.1 路径一 :OCR + 大语言模型(适配标准出版物)
该路径是处理结构化、版式统一的标准出版物(如现代图书、期刊)的主流方案。其流程分为两步 : 首先,利用光学字符识别(OCR)技术将文献版权页、封面等关键区域的图像转换为纯文本 ; 然后,将该文本输入LLM,通过提示词引导其抽取元数据。这一路径的优势在于技术成熟、成本相对较低且易于控制。对于CIP数据格式规范、字段标识清晰的图书版权页,LLM能够以极高的准确率完成信息抽取。然而,其弱点在于对OCR的质量高度依赖,任何OCR识别错误都会被传递并放大到后续的抽取环节,使其在处理扫描质量不佳或版式复杂的文献时表现不佳。
3.2 路径二 : 多模态大模型OCR + 大语言模型协作(适配非标出版物和特藏文献)
为了兼顾路径一的可控性与路径二的视觉理解能力,本研究提出一种混合路径,特别适用于结构复杂且信息价值高的特藏文献(如戏单、手稿)。该路径同样分两步:首先,使用具备版面分析能力的多模态大模型OCR(或称为文档智能模型)进行文字识别。与传统 OCR 不同,它可以结合视觉布局信息生成一种包含文本层次的半结构化文本,比如模型可以根据标题字体最大且居中这一视觉特征,判断其为第一层级的信息,通常为“题名”。然后,将这种保留文本层次的半结构化文本输入LLM进行元数据抽取。这种“分工协作”的方式,让多模态模型专注于其擅长的视觉结构解析,让LLM专注于其擅长的语义理解,有效提升了在复杂文献上的处理精度与鲁棒性。
3.3 路径比较与选择
两种技术路径各有其适用场景与优劣势,智慧编目框架通过入口层的类型感知模块,为不同文献动态选择最优路径。表1对它们进行了系统比较。

4.规范与规则的革新
为实现框架规则映射层,要解决的是将元数据映射至编目字段的规则问题,同时需要思考人工编目时代的编目规则是否还适应自动编目场景。人工编目时代的规则,本质上是人力成本与信息完整性之间妥协的产物。例如,“责任者超过三位仅著录前三位”的规则,其目的并非信息本身不重要,而是为了节约有限的人工录入时间。AI 技术的引入,使得这些基于“节约逻辑”的规则失去了存在的必要性,为了充分释放AI技术的红利,我们有必要对规则进行一定程度的调整和创新。本框架为此设计了MAC与OAC双路径,分别应对标准出版物和特藏文献的规则适配与重建需求。
4.1 MAC: 面向标准出版物的MARC规则适配与重建
对于占据图书馆馆藏绝大多数的标准出版物,其编目工作深度绑定MARC体系。因此,彻底抛弃MARC是不现实的。MAC路径的核心思想,是在保持MARC框架兼容性的前提下,对其内部规则进行现代化改造,去除不必要的约束,充分释放AI的潜力。MAC的实施遵循以下核心原则与方法。
(1)从“字段省略”到“全量抽取和弹性呈现”
利用AI的全量信息感知能力,打破最小化原则。对于责任者、丛编、相关题名等,不再设置人工上限,全部予以抽取和记录。在MARC记录中,可通过新增自定义字段或重复使用现有字段(如700附加款目字段)来存储超量的责任者。更为关键的是,引入“呈现层”与“数据层”分离的思想。数据层完整存储所有信息,而在前端 OPAC显示时,则通过配置化的显示规则(如“默认显示前三位,点击‘更多’查看全部”)来实现用户体验与信息完整性的统一。这实现了从“著录时裁剪”到“呈现时筛选”的范式转变。
(2)从“人工测量”到“机器抽取和推断”
将物理描述等客观属性从人工观测领域移交至自动提取或算法推断领域。通过提取版权页上已有的信息或利用计算机视觉算法进行推断,自动分析文献图像,生成页数、尺寸、插图信息等。MAC 记录要求此类字段可附带置信度(如215 $a 256 p. $c illustrations$d 23 cm [Confidence:0.98])或证据来源。这不仅提升了效率,更引入了传统编目不具备的概率性与可验证性维度。
(3)从“唯一权威”到“候选集核准与关联”
承认AI在实体链接(Entity Linking)任务中可能产生的歧义性与多可能性,变“唯一选择”为“候选集管理”。当AI识别出一个责任者名称时,它可能同时链接到规范档中的多个候选实体(如不同同名作者)。MAC 机制允许在记录中暂存多个候选(如通过新增字段或子字段),并辅以置信度评分。最终由编目员或通过后台逻辑进行核准,或直接保留这种多关联性,通过规范控制标识符(如 $0、$1)指明所有可能性,将最终判断权交予使用者。
4.2 OAC: 面向特藏文献的本体规则构建
对于结构复杂、关系多元的特藏文献(如戏单、家谱),MARC的线性、扁平的MARC结构无法有效揭示其内在的知识网络 , 需要本体模型来描述其中蕴含的知识信息。OAC代表了一种面向自动编目时代的本体设计范式。它并非要全盘否定传统本体工程的智慧,而是对其进行战略性优化与增强。传统本体设计追求的逻辑完备性、一致性与可推理性,在自动编目时代依然是不可或缺的基石。然而,当构建者和使用者的主体从“人”转变为“人机协同”时,本体的设计原则必须进行适应性演变。OAC方法论的核心在于,在继承传统本体优点的前提下,引入确保自动化流程高效、可靠、可持续的新原则。
(1)稳定性与一致性原则 : 构建机器可预测的语义骨架
这是自动编目时代最首要的原则。本体结构,即核心类(Class)、核心关系(Property)及其层级体系必须保持高度稳定和一致,不因处理数据的不同而发生结构性变化。稳定的本体结构为面向LLM的提示词设计提供了可靠的蓝图。编目员或系统开发者可以基于一套固定的、可预测的类与属性,编写精确的指令,引导LLM进行信息抽取与实例化。如果本体结构频繁变动,将导致提示词失效,增加LLM的理解负担与系统的不确定性。OAC强调在项目初期,通过充分的领域分析,定义一个精炼且稳定的核心本体。
(2)有限弹性原则 : 在稳定骨架上的可控扩展
在保证核心结构稳定的前提下,OAC允许对实体的描述进行有限度的、可控的弹性扩展。这主要体现为允许AI为实体添加未在核心模式中预定义,但语义明确的情境化属性。该原则旨在解决 AI可能抽取到超出预设范围但确有价值的信息的矛盾。同时,为防止弹性扩展引入混乱,必须施加约束: 一是值类型校验,任何弹性属性必须具有明确的数据类型(如字符串、数字、日期); 二是审计与晋升机制,所有弹性属性被记录并汇总,供领域专家定期审查。高频、有价值的弹性属性可被正式“晋升”为核心本体的一部分,实现本体的有序进化,而非随意变动。
(3)不确定性可治理原则 : 使AI的“存疑”可被管理
传统编目规范与本体模型通常建立在“确定性断言”的假设之上,即每一个实体、关系或属性均被视为唯一且确定的事实。然而,在自动编目语境下,由大语言模型和多模态模型驱动的信息抽取不可避免地具有概率性和不确定性。试图在建模阶段彻底消除这种不确定性,既不现实,也会迫使系统过早地做出错误决策。因此,OAC方法论提出“不确定性可治理原则”,其核心思想并非消除不确定性,而是将其视为一种需要被建模、存储与治理的知识状态,使其成为自动化编目流程中的一等对象。在该原则指导下,不确定性通过以下方式被系统性管理: 一是通过置信度断言,对AI生成的实体识别和关系判断附加概率信息 ; 二是通过候选集机制,允许多个潜在实体并存而非强制唯一化 ; 三是通过证据出处标注,将关键断言锚定至原始文献的具体图像或文本区域。这些机制共同构成了一种可审计、可回溯、可干预的不确定性治理框架,为人机协同审核提供了明确的操作基础。
总结而言,OAC方法论的创新在于其“辩证统一”的设计哲学 : 它一方面坚守了传统本体设计中稳定性与一致性这一生命线,为自动化流程提供了可靠的语义基石 ; 另一方面,它又通过有限弹性和显式不确定性原则,赋予了系统应对现实世界复杂性和 AI 概率性输出的灵活性与鲁棒性,从而构建了一个真正为自动编目时代量身定制的、既稳健又灵动的知识建模体系。
4.3 MAC与OAC的协同演化
MAC与OAC并非相互排斥的两种标准,而是智慧编目生态系统中相辅相成的两个组成部分,共同构成了一个灵活、务实且面向未来的规则体系。MAC作为存量优化的“务实桥梁”: 它确保了框架能够平滑地处理海量的现有标准馆藏,在不颠覆现有 MARC生态的前提下,立即释放AI的生产力红利,是实现规模化自动化的基石。OAC 作为增量创新的“未来引擎”:它为高价值、复杂特藏和新型数字资源提供了前瞻性的解决方案,代表了知识组织从文献描述走向语义关联的终极方向,是图书馆提升其知识服务核心竞争力的关键。
二者的协同体现在三个方面。一是路径自动选择:框架入口层根据文献类型自动路由至MAC或OAC路径。二是可通过标识符互联: 两者产生的数据通过统一的规范标识符体系(如VIAF、ISNI)实现互联,一个在MAC记录中的人物,可以与OAC知识图谱中的同一实体节点相关联。三是可协同进行生态演进:短期内,MAC路径保障主体业务的效率;长期看,随着语义网技术的普及和知识服务需求的深化,OAC的应用范围将逐步扩大。甚至未来,MAC记录本身也可以作为来源数据,被反向转化为更丰富的知识图谱,实现从MAC到OAC的平滑过渡。
最终,MAC与 OAC共同塑造了一个分层、灵活且可持续进化的智慧编目规则生态,使图书馆能够以一种可控、渐进的方式,完成从手工时代到智能时代的范式转型。
5.流程嵌入与人机协同
一个技术上先进的自动编目系统,如果不能顺畅地融入图书馆的日常工作流程,其价值将大打折扣。本章聚焦于框架的流程协同层,讨论如何将自动编目嵌入不同类型文献的加工流程,并建立高效的人机协同闭环。
5.1 标准出版物流程 : 与自动化硬件的集成
对于图书和报刊等标准出版物,其传统编目流程(尤其是依赖套录的流程)通常不包含扫描或拍照环节。强行引入自动编目,若无配套流程优化,反而可能因增加扫描、上传等步骤而降低整体效率。因此,其流程嵌入的关键在于与自动化硬件的深度集成。
理想的工作流应是 :(1)扫描与识别。新书入藏后,通过配备自动翻页功能的高速扫描仪,快速获取版权页等关键页面的图像。(2)AI抽取与映射。图像被自动传送至编目系统,系统调用智慧编目框架,执行“OCR+LLM”路径,自动生成中间JSON数据,并依据MAC规则映射为 MARC记录初稿。(3)人工审核与入库。编目员在专用审核界面中,将AI生成的记录与原始图像进行比对,进行快速校对和确认。一键点击即可将合格记录正式写入馆藏目录。此流程将原本割裂的步骤整合成一条自动化流水线,最大限度地减少了人工干预,解决了新增环节可能带来的效率瓶颈。
5.2 特藏文献流程 : 融入数字化工作流
与标准出版物不同,特藏文献通常因其珍贵性和研究价值,本身就需要进行数字化处理。这为其自动编目流程的嵌入提供了天然的便利。自动编目可以作为数字化流程的一个无缝衔接的后续步骤,而非一个额外的负担。
其工作流如下 :(1)数字化采集。按照特藏数字化的标准流程,获取高分辨率的文献图像。(2)AI抽取与建模。数字化图像完成后,系统自动触发智慧编目框架,执行适配特藏的“多模态大模型OCR+LLM”路径,依据OAC本体模型,直接抽取和构建语义化的知识结构。(3)人工审核与发布。编目员或研究人员在审核界面中,对AI生成的实体、关系和属性进行确认。审核通过的数据不仅生成描述记录,还可直接发布至数字人文平台或知识图谱系统。此流程将元数据生产与资源数字化紧密结合,实现了“一次数字化,多元化产出”的目标。
5.3 人机协同闭环 : 质量控制与持续优化
在任何流程中,人机协同都是保障质量和实现系统演进的核心机制。智慧编目框架下的编目员,其角色发生了根本性转变 : 从烦琐的“数据录入员”转变为高级的“质量审核员”和“AI训练师”。
系统提供的审核界面是这一协同的关键。该界面应支持AI生成字段与原文图像区域的联动高亮、一键采纳或修正、批量确认等高效操作。更重要的是,所有人工修正都应被系统记录下来。这些宝贵的反馈数据,将被用于:(1)优化提示词库,分析哪些类型的错误频繁出现,据此调整和优化控制层的提示词,以提高AI下一次生成的准确性。(2)完善规则引擎,对于系统性的映射错误,修正规则映射层的逻辑。(3)模型微调(可选),在积累足够多的高质量标注数据后,可用于对本地部署的AI模型进行微调,使其更适应本馆的文献特色和编目习惯。
通过“生成—审核—反馈—优化”的闭环,智慧编目系统不再是一个静态的工具,而是一个能够在使用中不断学习和进化的智能伙伴。
6.系统实现与实证案例
理论框架的价值最终需通过实践应用来检验。本研究通过两个层次的实证案例即已部署落地的生产系统和完成功能验证的原型系统,系统地验证了智慧编目框架在不同场景下的可行性、有效性和灵活性。
6.1 特藏场景落地 : 戏单智能编目平台
戏单是研究中国戏曲史与社会文化变迁的重要特藏文献。该类文献普遍呈现出图文混排、版式复杂、实体关系密集(如“演员—剧目—演出事件”)等特征,人工编目效率极为有限,同时也难以通过传统MARC著录方式进行有效表达。上海图书馆馆藏有约2 000份跨越多个年代的戏单(演出单)。为验证智慧编目框架在复杂特藏场景中的适用性,上海图书馆于2024年12月启动戏单智能编目项目,按照框架的“类型感知”原则,将戏单归入高复杂度、多模态特藏类型,并选用“多模态大模型 OCR+LLM 协作”的技术路径(见3.2节),同时采用 OAC 方法构建戏单领域本体(见4.2节),以支持语义级自动编目。系统于2025年4月投入运行,形成了“扫描—自动抽取—人工审校”的生产闭环。
该平台的稳定运行(平台界面见图3),为智慧编目框架的关键设计提供了现实环境下的验证。在生产环境中,系统已处理超过900份戏单。AI 对剧名、演员、演出地点等核心字段的初始抽取准确率达到75%以上,单件处理时间由原人工流程的约2小时缩短至40分钟左右,为后续人工校验提供了高质量的起点。更重要的是,该案例从三个维度验证了框架设计的合理性。

首先,在技术路径层面,戏单的复杂版式证明了单一OCR路径难以胜任,而纯端到端多模态模型又在成本与可控性上存在局限。本案例采用的“多模态大模型OCR+LLM协作”路径有效结合了视觉结构理解与语义抽取能力,在保持结构可控的前提下,实现了对复杂特藏的稳定处理,验证了路径分化策略的现实价值。
其次,在规则与知识建模层面,基于OAC方法构建的戏单本体为AI抽取提供了机器可理解的语义框架,使生成结果能够与领域结构严格对齐,并通过“多模态锚点”机制将字段与原始图像证据关联起来,从而显著提升了人工审校的效率与可信度。这表明,OAC能够为特藏文献从“记录”走向“可计算知识”提供可操作的规则基础。
最后,在流程层面,系统以“AI预处理—人工审校—反馈优化”的方式嵌入真实加工流程,构建了稳定的人机协同闭环。编目员的校正结果被持续用于优化提示词与抽取规则,使系统具备了可迭代演进的能力,验证了“人机协同”机制在保障质量与可持续优化中的关键作用。
戏单智能编目平台的部署与运行表明,智慧编目框架不仅在理论上成立,而且能够在高度非标准、强多模态的特藏场景中落地。通过类型感知驱动的技术路径选择、OAC支撑的语义规则建模以及深度嵌入流程的人机协同机制,复杂特藏文献得以被转化为可结构化、可计算、可持续优化的知识资源。这一案例为框架在更广泛特藏类型中的应用提供了现实依据。
6.2 图书场景验证 : 中外文图书自动编目原型
以上海图书馆“中外文图书自动编目技术探索与应用”项目为背景,本文构建并测试了一个图书自动编目原型系统(系统界面见图 4),该案例重点检验框架中“技术路径一(OCR+LLM)”与 MAC 机制在真实编目环境中的表现。

该原型以捐赠中文图书与多语种小语种外文图书为测试对象,这类资源版权页结构多变、缺乏可套录书目,是验证自动编目鲁棒性的典型案例。系统采用“OCR + LLM”的基础路径,并通过“语义抽取—规则映射”的双阶段架构生成符合 MARC规范的记录。在对具有代表性的中外文样本图书进行测试后,系统在题名、责任者、出版项等核心字段上的平均准确率稳定在95%以上,显著高于直接生成式方法(70%~80%)。这一结果直接验证了“语义抽取”与“规则映射”解耦的双阶段架构与MAC机制的有效性,即通过将领域规则显式化并由系统执行,可有效抑制模型幻觉并确保输出的规范一致性。
同时,单册图书的处理时间由人工的10~15分钟缩短至1~2分钟,体现了框架中“流程嵌入”设计对生产效率的实质性提升。此外,在MAC机制支持下,系统能够实现责任者等要素的全量著录,突破了传统以人力成本为中心形成的省略性规则,验证了AI环境下编目规则重构的可行性。
综上,图书自动编目原型从准确率、效率与规则适配三个方面,实证了智慧编目框架在标准MARC体系下的可操作性与现实价值,表明“语义抽取+规则映射”的MAC路径是连接大模型能力与既有编目规范的可靠桥梁。
7.结论与展望
7.1 研究贡献
本研究针对生成式AI时代图书馆元数据生产的挑战与机遇,构建并验证了一套系统性的智慧编目框架。其核心贡献为以下三点。
首先,本文构建了一个面向多类型文献的整体性智慧编目框架。该框架通过“类型感知—技术路径—规则体系—流程嵌入”的统一设计,将当前零散的AI编目探索纳入一个可扩展、可实施的体系之中,为图书馆系统性引入大模型提供了结构化的方法基础。
其次,本文提出并论证了MAC与OAC双路径机制,解决了AI技术与编目规范之间的结构性冲突。MAC路径使以MARC为核心的现有体系能够与AI协同工作,支持标准出版物的高质量自动化生产 ;OAC路径则为特藏文献提供了基于本体的语义建模方式,使复杂对象能够被表达为可计算的知识结构。这一双路径设计使框架既能服务现实业务,又具备面向复杂资源的扩展能力。
第三,本文通过特藏文献戏单与普通文献图书两个层次的案例,验证了框架的差异化适配能力。戏单系统展示了其在复杂特藏中的可落地性,图书原型验证了其在标准出版物场景中的准确性与效率。这些结果共同证明,智慧编目框架能够针对不同文献形态给出有效的技术与规则组合。
7.2 研究局限性与不足
尽管本文构建并验证了一个面向多类型文献的智慧编目框架,并通过实际案例证明了其可行性与有效性,但仍需指出,本研究在技术条件以及实证深度等方面仍存在一定局限,有待在后续工作中进一步完善。
首先,在技术稳定性方面,本文提出的智慧编目框架在当前阶段仍依赖于大语言模型与多模态大模型的能力表现,而此类模型天然具有概率性输出与情境敏感性特征。尽管通过“语义抽取—规则映射”解耦设计、提示词约束以及软规则校验机制,已显著降低模型幻觉对编目质量的影响,但在版式极其复杂、图像质量较低或语义高度隐含的文献场景中,AI抽取结果仍可能存在不确定性。因此,在可预见的阶段内,智慧编目仍难以完全脱离人工审核,其运行模式更适宜被界定为“高质量的人机协同自动化”,而非完全无人干预的全自动编目系统。
其次,在实证范围与评估深度方面,本文的验证主要集中于特藏戏单与中外文图书两类文献。尽管二者在结构复杂度与规范约束层面具有较强代表性,但尚不足以全面覆盖连续出版物、报纸、数字原生资源等其他重要文献类型。同时,现有评估指标主要聚焦于字段准确率与处理效率,对于智慧编目对长期知识组织质量、检索效果以及下游知识服务能力的影响,尚缺乏更大规模、长期性的量化验证。
7.3 未来展望
针对上述局限,本文提出的智慧编目框架仍具有明确的拓展空间和演进路径,后续研究与实践可从以下方面展开。
在技术层面,未来将进一步加强对模型不确定性的系统性治理。一方面,可引入更精细化的置信度管理与证据锚定机制,使AI生成结果的可信度与可追溯性更加明确;另一方面,随着本地部署模型与领域微调技术的成熟,可基于人机协同过程中积累的高质量审校数据,对模型进行针对性优化,从而逐步提升其在特定文献类型与编目语境下的稳定性与一致性。在应用场景与实证范围方面,后续工作将在现有基础上拓展智慧编目框架的适用文献类型。在特藏文献领域,计划将多模态路径与OAC方法扩展至海报、碑帖、印章等其他视觉与语义结构差异显著的资源类型 ; 在标准出版物领域,则将进一步检验自动编目系统在连续出版物与多语种资源中的表现,以验证框架在更复杂业务场景下的鲁棒性。
总体而言,智慧编目并非一次性完成的技术替代方案,而是一套需要在真实业务中持续演进的技术—规则—流程协同体系。本文所提出的框架为这一演进提供了结构化起点,而其真正价值,将在不断扩展应用场景、吸收实践反馈的过程中逐步显现。
(参考文献略)
.png)