Library Data Platform——FOLIO的统计模块一览

Library Data Platform——FOLIO的统计模块一览

2021年04期 【本期推荐】

图书馆数据平台(Library Data Platform,LDP)是一个由FOLIO社区开发的开源分析平台。它支持元数据管理的报告工作流程、评估以及更多先进的工作流程和数据存储解决方案,是一款集数据管理、集成和分析功能于一体,用于生成图书馆数据报告的工具。

LDP由FOLIO的Reporting SIG(Special Interest Group,特别兴趣小组)主导开发,开发小组由来自超过16所研究型大学的图书馆员和信息技术专家组成,开发资源由索引数据(ID)和开放图书馆基金会(OLF)提供。随着数据科学的发展,图书馆善用数据的能力将对图书馆的未来发展意义重大。图书馆要做的不仅仅是用数据来回答问题,而是要有能力去发现当下未考虑到的,而在未来可能产生的问题。传统的供应商并没有相当的能力去分析数据,LDP的开发目的正是使图书馆与供应商达成合作,一同管理、测试、分析数据,实施软件解决方案,这也有利于形成一个社区共有的开源数据平台。多个SIG参与了关于其功能需求与技术架构的讨论,并于2020年6月发布了LDP1.0版本,2021年3月发布了最新版本LDP1.2。在一年的时间里,FOLIO完成了LDP核心部分——Metadb的部署。

Metadb又可以称为前元数据平台。它提供了一个查询生成器程序(LDP query builder app)和一个插件ldpmarc,能将Marc数据转换成一张更易查询的表。它可以在FOLIO中运行,并支持重复共享。

Metadb主要负责实现不同格式数据的转换,利用镜像库将不同应用系统中的数据收集起来。数据流进入Metadb后,经过同步、转换、版本控制等一系列操作,再进入分析数据库。为了方便查询和重用,Metadb使用跨域的分析数据库(PostgreSQL或Redshift)而非孤立的事务处理数据库,支持列存储,且可以显示数据处理的历史状态。目前Metadb支持实时提取数据,支持FOLIO生成电子资源管理报告和ReShare报告,并在历史数据处理和数据转换方面做了许多的改进。未来,LDP将继续关注集成外部数据集与支持开源图书馆系统(尤其是FOLIO)的数据分析。

查询FOLIO数据的方法比较

基于APILDP-ldpLDP-Metadb
装置自定义脚本,如Pythonldp命令行工具+分析数据库Metadb服务器+Kafka+分析数据库
是否开源
是否需要安装
FOLIO数据的可用性所有数据除ERM以外的数据所有数据
数据延时即时≤24小时几乎即时
是否可以从FOLIO内部查询
历史数据
可扩展性
使用案例操作、基本报告高级报告和分析高级报告和分析

LDP平台还具有获取数据、存储数据和分析数据的功能。LDP平台可以支持不同类型的数据库模型,因为通过插件能进行数据的格式转换。Metadb的设计是围绕着流的概念展开的,因此它能连续不断地同步数据,并可以对大量数据进行快速的查询与分析。

LDP平台是专门为数据分析功能而设计的,它建立在稳定的PostgreSQL和Redshift数据库技术之上,利用关系型和JSON模式的混合数据库仓库架构,支持行存储和列存储的数据存储模式,支持历史数据,并对数据进行去规范化处理,以减少查询所需的连接次数,将JSON转换为关系型数据。LDP目前正在开发自动提取、转换和加载(ETL)功能,并支持扩展ETL管道,支持与FOLIO以外的数据库连接。

目前LDP已经实现的功能包括:支持临时的全面的SQL分析和报告;存储所有历史FOLIO数据以支持时间序列纵向分析,并为整合多个子域数据集提供可扩展的平台;支持实时分析仪表板的创建;可自动捕捉和处理来自不同入站数据源的数据模式变化,同时支持先进的数据科学工作流程,如机器学习、预测分析等。目前正在开发的功能主要为可视化查询生成器。

LDP报告与In-APP报告的比较

FOLIO中的所有报告大致可以分为“LDP报告”与“In-APP报告”两种。In-APP报告使用图书馆集成系统(ILS)实现,通常是关于ILS日常运营中的各种功能实现。LDP报告基于图书馆数据平台(LDP),提供前瞻性分析功能以支持图书馆的战略决策。

LDP报告的创建过程类似于数据库查询,并且使用LDP中的数据。In-APP报告则通常作为FOLIO应用程序中的一项功能,使用通过不同的应用程序直接从FOLIO的操作数据库中检索得到的数据。

LDP报告与In-APP报告在传统的ILS中,可能难以区别,因为ILS所有的报告都是使用操作数据库或其副本完成的。然而在FOLIO中,两者的区别是直观的。

LDP报告In-APP报告
数据源使用LDP中的专用数据库,这些数据提供分析功能,并根据FOLIO应用程序中的数据间歇性地更新。直接使用FOLIO应用程序中的数据,这些数据始终反映图书馆数据的当前状态。
适用场景支持图书馆的战略决策,用于预测建模,也适用于执行广泛的传统报告功能。适合作为图书馆日常业务运营的一部分。
示例生成关于一段时间内流通趋势的报告,按顾客群体分类,以支持有关资源分配的战略决策。生成关于当前馆内有逾期图书的读者。

发表评论

云瀚联盟-智慧图书馆技术应用联盟