
加拿大卡尔加里大学图书馆 AI 参考咨询机器人实施案例
2025年02期【行业交流】
OCLC Research Library Partnership (RLP) 在2024年11月20日召开的一次网络研讨会上,加拿大卡尔加里大学图书馆工作人员分享了他们建设并升级AI参考咨询机器人的经验。

一、项目起源
与许多研究型图书馆一样,加拿大卡尔加里大学图书馆自 2010 年始就为用户提供实时咨询,由信息服务馆员每天从上午9点到下午5点提供服务。疫情的暴发引发了图书馆关于应用AI咨询机器人的讨论,相关的原因包括:
- 咨询量激增。疫情期间,咨询服务量急剧上升。2019 年,图书馆通常每月处理500~900次实时咨询,而 2020年9月,这一数字飙升至 3077 次。
- 人员配备有限。业务量的增加需要更多的人员和时间才能满足需求。
- 服务时间有限。虽然可以延长人工实时咨询服务时间,但仍无法在深夜或凌晨为学生提供支持。
- 提高便利性。到图书馆的学生也可以使用咨询服务。这种方式非常便捷,例如可帮助他们在高峰时段保留学习位置。
- 自动化的潜力。对实时咨询问题的分析显示,相当一部分问题非常适合采用自动回复的方式处理。
- 符合机构战略目标。应用AI咨询机器人契合大学“以学生为中心”的理念,也符合其致力于提升学生成功的战略方向。
图书馆在加拿大图书馆系统中搜寻实施AI咨询机器人的案例,但发现其他图书馆的应用案例较少。然而,在卡尔加里大学,注册处已成功部署了一个名为“Rex”的咨询机器人,该机器人依托Ivy.ai提供技术支持。基于这一现有的校园项目,图书馆加快了咨询机器人的研发进程,充分利用共享资源和机构经验,并从中受益。
二、执行
评估AI咨询机器人的实用性
初步工作涵盖了对历史咨询问题进行分析,以评估AI咨询的自动化潜力。Kim Groome分析了在疫情期间一个月内约3000次咨询互动的情况,并将这些问题分类编码为学习/工作区、打印和借阅请求等不同主题。通过这项大约耗时30小时的分析,图书馆发现14-24%的参考咨询查询属于定向性问题(例如,“……在哪里?”),这类问题具备由机器人处理的可行性。编码工作使用Excel完成;经验丰富的程序员使用Python可进一步提效。
训练和测试
在确定了一组常见的核心问题,即咨询机器人能够有效解决的问题后,图书馆于2021年4月组成一个八人团队开始启动训练和测试工作,通过与供应商紧密合作,提升咨询机器人答案的一致性和质量。2021年7月,测试范围进一步扩展至其他图书馆的工作人员。考虑到用户问题的多样性,团队初期集中分析了约五十个问题,避免了范围过大。
上线
图书馆的咨询机器人“T-Rex”于2021年8月16日推出,名称有别于注册处的“Rex”(注:Rex 是卡尔加里大学恐龙队的官方吉祥物)。如今,T-Rex是卡尔加里大学校园内的六个咨询机器人之一,每个机器人都基于独立的知识库,提供24/7的问答服务。

三、持续改进和成熟
质量监控
图书馆团队使用匿名周报的方式评估咨询机器人的回答质量。团队使用1到5的评分标准对机器人的回答进行评级,其中5分代表完美回答。
评分过程示例 :
- 5分回答:如顾客问“您有护理数据库吗”,机器人提供了准确的回答,可获得满分。
- 4-5分回答:如果用户询问具体的护理学数据库,比如“我可以在哪里找到CINAHL”(即使拼写错误有六种方式),机器人也能给出出色的回答。
- 3-4分回答:如果机器人理解了“查找文章”这一短语,并给出了类似“要查找文章,请在图书馆搜索框中输入主题……”的回答,那么该回答将被评为3分甚至4分。
- 2分回答:如果用户问“我想找关于阿片类药物危机社会影响的文章,我该用哪个数据库”,机器人就会陷入困境。尽管机器人没有回答问题,团队仍会将其评为2分,因为该特定主题不在网站上,因此也不在“机器人知识库”中。由于机器人未接受过该主题的训练,因此无法回答问题。
开发定制回答
团队在上线后监控用户问题,识别出需要定制回答的问题。例如:
- 一个常见的用户查询是关于如何访问《哈佛商业评论》,最初无法回答,因为对该资源的访问嵌入在RAG范围之外的搜索工具中。
- 拼写错误也很常见,例如“PsycInfo”。
如果某个问题一周被问到超过三次,团队将创建一个定制回答来解决它。在第一年,团队每周大约花费5小时创建10到15个定制回答,以逐步改进咨询机器人。对于像“PsycInfo”这样的拼写错误,团队将常见的拼写错误(如Psychinfo、pyscinfo和psychinfo)都纳入其中。
监控聊天对于识别和立即纠正错误回答至关重要。例如,一位用户曾问:“我可以归还一本已经被宣布丢失的书吗?”机器人回答:“不,你不能归还最近被宣布丢失的图书馆书籍。”这显然是错误的,回答出现错误是因为图书馆网站上缺少此类信息。但这个问题也很复杂,围绕丢失物品至少有十五种不同情况;在网站上添加一系列复杂场景是一个不完美的解决方案。相反,团队创建了一个规则,任何包含“丢失”和“书”等词的问题都会收到一个定制的限定声明:“如果你需要联系图书馆工作人员关于丢失的书,或者丢失书的费用,请发送电子邮件至:<电子邮件地址>。”同样,对于提到“召回”一词的问题,机器人会回答:“召回是一种非常特殊的情况。这里有一个常见问题解答页面,供您获取更多信息。”
成熟

2023年2月,供应商添加了新的GPT层,T-Rex得到了进一步改进,使其能够生成内容来补充现有的定制问答。如今,该咨询机器人提供快速、一致且24*7的全天候支持,可供广泛用户使用,并符合WCAG 2.11 AA无障碍标准。它能够识别超过200万词汇——每个词汇的不同形式都被视为一个新词(例如,“renew”和“renewing”被视为两个不同的词)——并且拥有超过1000条定制回答。T-Rex在回答方向性问题时非常准确,所有问题中有50%获得了至少4的评分。
T-Rex的表现超出预期。在上线之前,实施团队估计该机器人能够回答14-24%的参考咨询问题,但如今它能回答大约50%的问题,并且这些问题的评分至少为4。这意味着它能够分流一半的实时参考咨询问题。这一成果具有重大意义,因为原本用于实时咨询服务的1.5个全职员工(FTE)的工作时间得以重新分配,以支持更具战略性和更高级别的任务。因此,图书馆减少了人工值班的台面服务时间,转而鼓励用户使用24/7的咨询机器人获取即时帮助。这一过程中并未减少员工数量,而是提高了工作效率。
如今,该咨询机器人已经成熟,每周只需大约一小时的时间来监督和监控,主要目的是确认其按预期运行。例如,图书馆网址的更新等变更可以通过一个简单的Excel电子表格高效管理。
实施T-Rex是该图书馆的首次AI尝试。最近,图书馆还联合成立了人工智能伦理、素养与诚信中心(CAELI)。CAELI 位于校园分馆内,通过培养卡尔加里大学学生强大的数字和信息素养技能来支持学生取得成功。
四、经验教训
卡尔加里大学团队分享了对项目的几点重要认识:
- 将图书馆网站作为记录系统。上线后最早学到的教训之一是,如果图书馆没有整理针对某个主题的网页或常见问题解答(FAQ),咨询机器人就无法回答相关问题。尽管直接更新咨询机器人的回答可能很方便,但建议不要这样做,因为这会产生重复的维护点。因此,建议将网站视为咨询机器人内容的记录系统。
- 采用团队合作方式。以团队合作方式实施咨询机器人可提高项目的弹性并减少失败可能性。
- 识别并响应用户的期望。用户更喜欢直接将他们引导到答案来源,而不是需要进一步导航的网页。随着时间的推移,团队改进了回答,以减少获取特定信息所需的点击次数。
- 会出现与图书馆无关的问题。团队发现,用户会向咨询机器人询问许多图书馆 RAG 无法回答的问题,例如“我什么时候可以注册春季学期?”在许多情况下,机器人可以将用户引导到校园内的其他相关咨询机器人(注册、招生、经济援助、职业服务等)以获取适当的答案。这是采用企业级咨询机器人技术方案的显著优势。
- 创造性地处理非图书馆问题。卡尔加里图书馆认识到咨询机器人在支持学术诚信方面的作用,并分析了机器人数据,以了解学生正在询问的学术诚信问题的类型。图书馆发现,学生询问有关参考文献格式、引文管理、抄袭及检测软件以及学术政策的问题。这些问题通常在深夜出现,当时实时支持不可用。图书馆与校园学术诚信协调员合作,开发了定制回答,并将其网站上添加了相关内容,提升了咨询机器人在助力学生成功方面的能力。
- 必然存在不采纳者。部分用户更倾向于直接与人互动,而不愿借助咨询机器人技术。约12-15%的咨询用户即便在机器人已解答其疑问的情况下,仍坚持要与真人交流。用户可在正常服务时段内,通过T-Rex直接点击“连接到人”选项。