
AI视觉赋能,重塑服务边界:南昌航空大学图书馆AI视觉自助借还系统技术实践
2025年10期【行业交流】
供稿:何小东(南昌航空大学图书馆)
编者按:南昌航空大学图书馆申报的“南昌航空大学图书馆AI视觉自助借还系统”案例,在“第一届智慧图书馆技术应用创新实践案例征集活动”中荣获“最佳服务创新案例”。该案例将图书馆流通服务与多模态AI技术有机结合,在降低运营成本的同时,也显著提升了读者体验。
项目背景:直面痛点,技术破局
传统图书馆自助借还系统多依赖于RFID(射频识别)技术。然而,在实际运行中,RFID技术暴露出诸多固有痛点:首先,每本图书均需粘贴专用RFID标签,标签本身有成本,且易磨损、撕裂或消磁,若导致识别失败,后续维护与更换成本高昂;其次,借还流程仍需读者进行“刷卡-扫码-确认”等多步操作,体验不够流畅;最后,RFID系统产生的数据维度单一,仅限于“何时何书被借走”,无法与“何人”“何种行为”形成深度关联,数据价值未能充分发挥。
面对这些行业共性难题,南昌航空大学图书馆技术团队决心探索一条全新的技术路径。团队意识到计算机视觉技术已在安防、金融、零售等领域得到成熟应用,其“非接触、高精度、信息丰度大”的特点,与图书馆借还场景的需求高度契合。由此,一个以AI视觉为核心的全新自助借还系统构想应运而生。
项目目标:
- 无感化:消除一切物理介质(借书证、RFID标签)的依赖,实现“人书合一”的精准识别。
- 高效化:将单次借还操作时间压缩至3秒以内,大幅提升流通效率。
- 智能化:将简单的借还操作,升级为集身份认证、行为记录、数据分析于一体的智能服务节点。
- 数据化:采集并分析多维数据,为图书馆的资源建设、空间管理与读者服务提供深度决策支持。
技术架构:从“看见”到“认知”
该系统构建了一个端到端的、完整的技术闭环,其核心架构可分为三层:感知层、认知层和执行层。
01 感知层:高精度图像采集
感知层是系统的“眼睛”。我们在自助借还设备的关键位置部署了高性能工业级彩色摄像头。与普通摄像头不同,工业级摄像头在色彩还原度、广角畸变控制、低光照环境下的成像质量上均有卓越表现,为后续的精准识别奠定了坚实基础。
采集策略:采用内嵌式俯拍视角,确保能将操作台上放置的多本图书侧脊信息完整纳入取景范围。同时,前置摄像头同步捕捉读者面部信息。
环境适配:为解决图书馆内光线明暗变化、图书反光等问题,我们集成了自适应补光灯,并通过在软件端进行图像预处理(如伽马校正、白平衡),确保在任何光照条件下都能获取到高质量的图像源。

图1 系统硬件部署示意图
02 认知层:深度学习驱动的智能识别引擎
认知层是系统的“大脑”,也是整个项目的技术核心。其工作流程可细分为以下几个关键步骤。
步骤一:图书目标检测与定位
当图书被放置在操作台上,系统首先需要回答一个问题:“书在哪里?” 我们采用了基于深度学习的YOLOv5目标检测算法。该算法以其卓越的检测速度和精度而闻名。通过对实时视频流进行逐帧分析,YOLOv5能够在一瞬间精准定位出画面中每一本图书的边界框,并将其与背景、读者手部等其他物体区分开来。
步骤二:图书封面特征提取与识别
在定位到图书后,系统需要回答第二个问题:“这是什么书?” 这是一个典型的图像分类问题。我们采取的方法是:
- 特征库构建。项目初期,我们调动了整个馆藏图书的侧脊数据,利用卷积神经网络(CNN),为每一本图书的封面和侧脊图像生成了一个独一无二的、高维度的“特征向量”。这个特征向量就像是每本书的“数字指纹”,所有“指纹”构成了一个庞大的馆藏图书特征数据库。
- 实时比对。当摄像头捕捉到一本待借图书时,系统会同样使用CNN模型实时提取其封面特征向量,然后将这个“待测指纹”与数据库中的“已知指纹”进行快速比对(通常采用余弦相似度等度量方法)。当相似度超过我们设定的阈值(如99.5%)时,系统即认为识别成功。
步骤三:多模态信息融合与决策
系统并行处理两项任务:图书识别与读者身份识别。通过人脸识别技术(同样基于深度学习模型),系统确认当前操作者身份。最后,将“读者ID”与“图书ID列表”进行绑定,形成一个完整的借阅指令,通过API接口发送给下层的图书馆业务管理系统。

图2 AI识别流程解析图
03 执行层:与业务系统的无缝集成
执行层是系统的“手和脚”。识别生成的借阅指令,需要通过安全、稳定的方式传递给图书馆现有的集成图书馆系统。我们为此开发了一套RESTful API中间件。该中间件作为桥梁,将AI系统识别出的标准ISBN或内部图书ID,转换为图书管理软件能够理解的指令,完成借阅、归还、续借等操作,并将操作结果实时返回给前端界面,告知读者。

图3 系统整体技术架构图
核心技术创新与突破
01 纯视觉技术路径的率先成熟应用
在国内图书馆领域,本项目率先尝试完全摒弃RFID、采用纯视觉识别技术并实现大规模、常态化流通服务,具有行业引领意义。
02 高精度、高效率的多目标识别算法
针对多本书籍重叠、遮挡的复杂场景,通过优化YOLOv5模型的训练数据和参数,实现了在极短时间内(<1秒)对多本图书的同步、精准识别,解决了实际应用中的关键难题。
03 多模态感知与决策框架
将图书识别与读者身份认证两个独立的计算机视觉任务,在系统层面进行了深度融合与协同决策,形成了一个完整、闭环的智能服务单元,而非多个功能的简单堆砌。
04 数据价值的深度挖掘
系统不仅是流通工具,更是一个强大的数据采集端。它能够记录“哪位读者在何时借阅了哪些书的组合”,这些多维数据经过分析,可以生成读者画像、图书关联规则、阅览室热力图等,为精准采购、个性化推荐和空间优化提供了前所未有的数据洞察。
挑战与解决方案
01 侧脊、封面相似、陈旧或破损图书识别
解决方案: 我们采用了 “视觉为主,码识为辅”的融合识别策略。
- 主流程视觉识别。系统优先通过摄像头捕捉图书封面进行AI识别,这对于绝大多数品相良好的图书而言是最高效的方式。
- 智能辅助容错。当系统检测到图书存在封面严重相似、陈旧、破损,或书籍以侧脊朝向摄像头等情况,导致封面视觉识别置信度低于预定阈值时,系统不会简单地报错,而是自动触发备用识别流程。
- 条形码冗余校验。我们在馆藏图书的书脊上统一粘贴了条形码,作为唯一的冗余识别标识。此时,系统会通过同一摄像头,快速捕捉并识别书脊上的条码信息。
- 双轨决策融合。条码信息被迅速反馈至图书馆业务系统,精准调取该图书的元数据。通过这种“视觉+条码”的双轨制,我们构建了一个鲁棒性极强的识别系统,确保了无论是新书、旧书、正放还是侧放,系统都能实现近乎100%的识别成功率,有效解决了纯视觉方案在极端场景下的应用瓶颈。
02 与多种图书管理软件系统的兼容性问题
解决方案:将API中间件设计为高度模块化和可配置的。通过编写不同的“驱动”模块,来适配国内外主流的图书管理软件,确保了技术的普适性和可推广性。
03 读者隐私与数据安全
解决方案: 坚持“最小化原则”和“本地化处理”。读者人脸特征仅在验证时与库内信息进行比对,完成后即被丢弃,不予存储。所有涉及读者的敏感数据均在本地服务器处理,不上传至公有云,从制度和技术双重层面保障读者隐私安全。
应用成效与社会效益
截至2025年10月,该系统已稳定运行超过8个月,累计处理借还书逾十万册。
- 效率大幅提升:实测单次借书平均时间稳定在2.8秒,较传统模式提升超过70%,高峰时段流通柜台前大排长龙的景象已成为历史。
- 读者体验获赞誉:“放下即走”的便捷体验获得了读者的广泛好评,在后续的满意度调查中,流通服务的满意度跃升至98%。
- 馆员角色转型:馆员从重复、繁琐的借还操作中解放出来,将更多精力投入到深层次的学科服务、阅读推广和读者咨询中,实现了人力资源的优化配置。
- 管理决策科学化:基于系统生成的数据报告,图书馆调整了图书采购策略,复本量决策更加精准;同时,根据时段人流数据优化了阅览室开放策略,管理效能显著提升。
未来展望
南昌航空大学图书馆将以AI视觉自助借还系统作为智慧化建设的起点。未来,团队计划在以下三个方向进行深入探索。
- 技术延伸:将视觉识别技术拓展至24小时无人值守书房、智能图书盘架机器人、区域人流计数与行为分析等更多场景,构建全域感知的智慧图书馆生态。
- 算法优化:持续迭代算法模型,探索更前沿的视觉架构,以应对更复杂的光照、角度和遮挡挑战,并向视频理解层面深化。
- 生态构建:将本系统打造为一个开放的“智慧服务中台”,对外输出标准化的AI能力,支持校内各院系资料室、公共阅读空间的智能化升级,并积极与兄弟院校分享经验,共同推动我国智慧图书馆事业的高质量发展。
南昌航空大学图书馆AI视觉自助借还系统的实践证明,以人工智能为代表的前沿技术,与图书馆业务的深度融合,能够释放出巨大的创新能量。它不仅仅是一次技术的升级,更是一场服务理念与管理模式的变革。我们坚信,这条以技术驱动服务、以数据赋能管理的创新之路,必将越走越宽广。
.png)