瑞典国家图书馆利用人工智能解读百年数据宝藏

瑞典国家图书馆利用人工智能解读百年数据宝藏

2023年07期【本期推荐】

瑞典国家图书馆正在对半个世纪的瑞典文本进行最先进的人工智能模型训练,以支持历史、语言学、媒体研究等人文学科的研究。

在过去的 500 年里,瑞典国家图书馆几乎收集了瑞典语出版的所有词汇,从无价的中世纪手稿到今天的披萨菜单。

得益于一项百年来的法律要求,所有瑞典出版物需要提交副本给图书馆(被称为Kungliga biblioteket,或KB)——图书馆馆藏涵盖了从易见到罕见的各种资源内容:书籍、报纸、广播和电视节目、互联网内容、博士论文、明信片、菜单和视频游戏。这是一个非常多样化的近26PB的数据集合,非常适合训练最先进的人工智能。

“我们可以构建最先进的瑞典语人工智能模型,因为我们拥有最好的数据,”图书馆数据实验室、KBLab主任Love Börjeson说。

将图书馆档案转化为 AI 训练数据

图书馆的数据集全面地代表了瑞典语的多样性——包括其正式和非正式的变体、地区方言和时代变化。

“我们的数据流是持续不断的,而且在增长——每个月,我们会看到超过50TB的新数据,”Börjeson说。“在数字化数据呈指数增长,以及将数百年前的实体藏品数字化的工作持续进行的情况下,我们永远不会停止馆藏的增加。”

图书馆的档案包括音频、文本和视频

在2019年KBLab成立后不久,Börjeson就看到了利用图书馆的庞大档案来训练transformer 语言模型的潜力。他受到了谷歌早期的一种多语言自然语言处理模型的启发,该模型包含了5GB的瑞典文本。

KBLab的第一个模型使用了4倍的数据量——而且团队现在的目标是至少用1TB的瑞典文本来训练它们的模型。实验室开始尝试将荷兰语、德语和挪威语等其他语言的内容加入其数据集,因为发现多语言数据集可能会提高人工智能的性能。 

英伟达(NVIDIA)人工智能、GPU 加速模型开发

该实验室最初使用消费级 NVIDIA GPU,但 Börjeson 很快发现他的团队需要数据中心规模的计算来训练更大的模型。

“我们意识到,如果我们试图在小型工作站上做到这一点,我们就无法跟上,”Börjeson 说。“选择NVIDIA DGX是一件不费脑筋的决定。如果没有DGX系统,很多事情我们根本无法做。

实验室有两台来自瑞典供应商AddPro的NVIDIA DGX系统,用于本地的人工智能开发。这些系统用于处理敏感数据、进行大规模实验和微调模型。它们也用于为在欧盟范围内的大型GPU超级计算机上进行更大规模的运行做准备——包括卢森堡的MeluXina系统。

“我们在DGX系统上的工作至关重要,因为一旦我们进入了高性能计算环境,我们就要立即开始,”Börjeson说。“我们必须充分利用超级计算机。”

团队还采用了NVIDIA NeMo Megatron,一个基于PyTorch的用于训练大型语言模型的框架,底层使用NVIDIA CUDA和NVIDIA NCCL库来优化多节点系统中的GPU使用。

“我们很大程度上依赖于NVIDIA的框架,”Börjeson说。“对于我们这样一个拥有不到50名工程师的小实验室来说,这是NVIDIA给予的一个巨大优势,因为我们可以利用NVIDIA的框架来为每个项目优化人工智能训练”

利用多模态数据进行人文学科研究

除了瑞典语的transformer模型,KBLab还有一个人工智能工具,可以将声音转换为文本,使图书馆能够将其庞大的广播节目收藏进行转录,以便研究人员可以搜索音频记录中的特定内容。

KBLab还开始开发生成文本模型,并正在开发一个能够处理视频并自动生成其内容描述的人工智能模型。

“我们也想要链接所有不同的模态,”Börjeson说。“当你在图书馆的数据库中搜索一个特定的词语时,我们应该能够返回包括文本、音频和视频的结果。”

KBLab与哥德堡大学( University of Gothenburg)的研究人员合作,他们正在使用实验室的模型开发下游领域应用,进行语言学研究——包括一个支持瑞典学术用数据驱动的技术来更新瑞典词典的项目。

“这些模型带来的社会效益比我们最初预期的要大得多,”Börjeson说。

人工智能增强的数据库是图书馆馆藏记录的最新进化,这些记录长期以来都保存在实体卡片目录中

(本文图片由Kungliga biblioteket提供)

发表评论

云瀚联盟-智慧图书馆技术应用联盟(筹)