未来的宇航员?AI时代图书馆员的角色与机遇
2024年08期【本期推荐】
编者按
《Artificial Intelligence and Librarianship: Notes for Teaching》是由亚利桑那大学(The University of Arizona)图情学院荣誉教授Martin Frické撰写的一本开源书籍。该书对人工智能技术进行了详尽阐述,主要涉及人工智能与大语言模型的关系,包括对这一领域内的研究和系统的分析。书中将AI技术与图书馆工作相结合,特别是对未来图书馆员可能扮演的角色进行了前瞻性的探讨。自2023年首版发布以来,作者不断更新以反映人工智能技术的最新进展,2024年8月8发布了第三版。
1989年,被誉为“专家系统之父”的爱德华·费根鲍姆(Edward Feigenbaum)在论文《走向未来的图书馆》中指出,图书馆面临的一个问题是书籍之间不能交流。他说:
…想象一下图书馆作为一个活跃的智能知识服务站。它以复杂的知识结构存储学科知识,可能还使用了尚未被开发的知识表达形式。该系统能够利用这些知识进行推理,满足用户的需求。用户能以流畅的自然语言来表达需求。系统不仅可以检索和展示信息,也就是说,它可以充当电子教科书,也可以收集相关信息,可以总结,可以挖掘深层次的联系。它以专业顾问的身份,提供特定解决方案的建议,用引用或逻辑推理来支撑其方案建议。用户提出的解决方案或假设,系统可以进行检查。它甚至可以扩展建议,或者以详细的理由同意或反对用户的观点。它通过探索知识间的关联路径,向用户揭示前所未有的新联系。在与用户的协作中,系统利用联想和类比的能力,激发出新颖创新的概念。在拥有更多自主性的同时,系统也接受用户的指导,它使用“有趣性”的标准来发现新概念、新方法、新理论、新度量。
费根鲍姆在这里讨论的是一种特定的图书馆,可以被称为“学术图书馆”或“研究图书馆”(这些类别可能包括大学图书馆和医学图书馆)。图书馆有多种类型,包括:学术图书馆、儿童图书馆、数字图书馆、医学图书馆、国家图书馆、公共借阅图书馆、参考图书馆、研究图书馆、特殊图书馆、大学图书馆等。
上述图书馆活动种类繁多,而且还有一些其他的图书馆活动与上述机构类型没有直接联系。为了研究目标,必须限定研究范围。大多数情况下,本研究将专注于与学术、研究及知识发展推动紧密相关的机器学习应用(即费根鲍姆将人工智能与图书馆作为知识服务站的概念联系起来的方法)。这意味着我们的主要关注点将是学术图书馆(包括大学图书馆)、医学图书馆和研究图书馆。此外,我们也会考虑一般性的图书馆工作。可能会偶尔提到其他类型图书馆中的机器学习(例如,Nguyen 2020年指出,在公共图书馆的儿童故事时间中,仿人机器人可能很有价值;D. Firmani等人2018年指出,在梵蒂冈档案馆——一个特殊图书馆中,手写识别可能很有价值),但对这些领域的探讨将较为有限。
在图书馆领域,存在着将馆藏视为数据以及将数据视为馆藏的观点,图书馆工作则充当了两者之间的接口。一个标准的图书馆可以被看作是各种收藏——包括文本、文件和书籍的集合,以及也许还包括了获取相似资源的途径。这些集合中的一部分或许多部分,其原生状态是数字化的,或者会被数字化,并可供计算机、人工智能和机器学习使用。因此,有将馆藏视为计算机数据的概念。同时,我们也生活在大数据时代。研究人员、政府、社会机构和商业机构正在积累大量数据。这些大数据的许多子集本身可视作收藏,它们是资源库。它们同时受图书馆工作的影响,如:组织、保存、存储、访问、检索和管理。因此有将馆藏视为数据以及将数据视为馆藏的这一观点,图书馆工作充当了两者之间的接口。例如,天体物理学家使用他们的望远镜、射电望远镜和其他无数仪器,产生需要图书馆工作的数据存储库。然后,这些研究人员在日常工作中,仍然阅读期刊和馆藏中的研究论文。提供这些资源同样需要图书馆工作。
当前,现代数字化或原生数字资源非常丰富,并且不断迅速增长。大量的来源不断产生越来越多的二进制数据。代表图书馆事业面对这一切的是相对较少的图书馆专家。这里存在一个数量级的差异——潜在有价值的任务和收藏规模,远远超出了人类图书馆员团队的能力,即使图书馆员的数量增加百万倍。例如,美国医学主题词表(MeSH)对生物医学出版物的索引(大约每天有7000篇文章被索引)。Yuqing Mao和Zhiyong Lu写道:
MeSH索引是根据人类索引员手动阅读学术出版物来分配相关MeSH术语的任务。这项任务对于改进文献检索和生物医学研究中的许多其他科学调查非常重要。不幸的是,鉴于其手动性质,MeSH索引的过程既耗时(新文章直到2或3个月后才会被索引)又昂贵(每篇文章大约十美元)。
这里有一个普遍的观点需要提出(该观点也将在其他地方反复提出)。计算机具有全天候的工作精神,而机器学习(ML)往往能提供专业的知识支持。许多领域的自动化已经实现,然而这是一个持续扩展和深化的过程。当然,人类图书馆员使用许多工具来提升他们的图书馆工作能力,但我们正步入一个新的时代,在这个时代,机器学习系统本身能够独立展现出卓越的性能(甚至可能超越人类的表现)。
图书馆员已经与许多人工智能(AI)和机器学习(ML)系统一起工作。以下是对在AI或机器学习领域工作的图书馆员角色的一种分类方式, 图书馆员可以被视为:
· 协同者(Synergists)
· 守卫者(Sentries)
· 教育者(Educators)
· 管理者(Managers)
· 宇航员(Astronauts)
个别图书馆员在不同场合可能扮演不同的角色,或者实际上同时在扮演不同的角色。
图书馆员作为守卫者
遗憾的是,将机器学习和图书馆工作结合具备诸多潜在的优势,也同时不可避免相应的缺点。在此情境下,图书馆员可以充当守卫者的角色。挑战在于,机器学习的进步如此迅速,使得构建合适的伦理框架、法律规范和政策体系尤为复杂,这些体系要么尚未建立,要么难以跟上时代步伐。图书馆员可以肩负协助创建这些体系的重任。
图书馆作为守卫者,以下是一些例子:
- 版权和知识产权:知识自由与隐私权、知识产权、国家机密等限制因素相互影响和制约。这些需要谨慎管理(例如,图书馆员在知识产权、合理使用和许可方面有丰富的经验)。
- 偏见管理:将机器学习应用到信息提供中可能出现各种偏见。图书馆员在管理偏见方面确实有经验。例如,他们在馆藏发展、资源描述、教学指导和研究支持中都进行了这种管理。
- 改善搜索的监控技术:个性化和推荐技术可能会侵犯隐私(例如,通过监控用户行为来创建个性化内容)。过滤在图书馆工作中一直饱受非议(主要涉及过滤学校访问网站)。但是,搜索和推荐本质上就是过滤。过滤可能导致信息孤立或信息茧房。这些是亟待我们解决的问题。
- 知识自由:这是图书馆必须维护的价值。图书馆的藏书和服务应当为读者提供广泛、多元且能激发思考的资源,同时保护他们免受可能有害、冒犯、虚假、无根据或明显荒谬的内容的影响。但如何做到这一点存在问题:一个人眼中的荒谬可能是另一个人的快乐源泉。而且“保护”的概念引入了家长式作风,对于完全成熟的成年人来说,这并不是必要的。机器学习系统很容易以家长式的方式运作。
- 无意的审查:以基于基础模型构建的高级机器学习系统为例,这些系统的属性和行为往往不完全透明。我们必须小心行事,确保不会发生偶然的审查行为。
图书馆员作为教育者
图书馆员承担着教育者的职责。教育者的工作涵盖以下几个方面:
- 信息素养:图书馆员一直是信息素养的倡导者。但人工智能(AI)已经改变了信息素养的内涵。目前,用于与信息互动的新工具正在不断发展,例如个性化搜索。在研究学科或商业企业背景下,AI或机器学习很少关注信息素养本身(除非AI或机器学习可以成为教育课程或学科教学、主题教学的一部分)。
- 数据素养、数据科学能力与人工智能素养:其他与信息相关的素养形式也日益变得重要。例如,研究科学家通常需要有数据管理计划。他们是数据的创造者,需要知道如何管理数据,以造福其他研究人员和整个世界。图书馆员可以直接帮助研究人员,也可以在指导学生研究者数据管理方面发挥作用。另一个例子是,AI和机器学习已经扩展了自动化决策(ADM)的领域(例如,发放贷款评估)。一个知情的公民群体应对ADM的优势和劣势保持警觉。
- 培养更智能的信息消费者:这包括读者和图书馆工作人员。
- 提高公民的信息意识:除了实际的信息素养外,还有帮助公民理解他们所生活世界中的机器学习和计算技术(还包括了解其他国家是如何处理这些问题)。例如,加拿大有算法和数据素养项目,还有欧洲通用数据保护条例。
图书馆员作为管理者
在日常运营层面,图书馆员负责管理实体和数字图书馆。计算机辅助自动化得到了广泛应用,并带来了明显的好处。图书馆在图书采购、编目、连续出版物管理、流通、信息检索与传播、馆际互借、合作采购和编目等工作领域已经实现了自动化。
人工智能可以改善图书馆的运营。在本文中,我们尽量不涉及基础性的自动化技术。我们将尽量聚焦于具体的软件应用与或模拟人工智能的案例。
图书馆员作为管理者,包括如:
- 工作流程与服务改进:机器学习有潜力提高图书馆的生产力和效率。这里已经提到了许多组成部分:机器学习编目、个性化服务、推荐系统、更好的搜索服务、客服聊天机器人、馆藏管理的预测分析、用户行为分析以改善服务,以及特藏数字化。
- 优化空间使用(以及其他资源):机器学习擅长解决优化问题。
- 机器人:将书籍放回书架,进行故事讲述,迎接和问候读者等。
- 模仿图书馆专家的行为:支持决策制定和管理。
图书馆员作为宇航员
宇航员,嗯,谁知道呢?但大部分人类知识都藏在图书馆中。机器学习将允许我们以前所未有的方式探索这些知识宝库。
图书馆员作为宇航员:
- 创造知识。通过对图书馆已有馆藏进行深度文本提取和综合,机器学习能够实现知识创造(这可能会使大学研究者在这方面变得多余)。
- 提炼知识:有许多特藏尚未数字化和转录(而且,对于某些藏品来说,采用这种方法可能并不可取)。但是,经过处理的藏品——例如带有索引的——可能为我们提供了接触宝贵资源的途径。
- 登月计划?谁知道它们会是什么?