Library Data Platform——FOLIO的统计模块一览
2021年04期 【本期推荐】
图书馆数据平台(Library Data Platform,LDP)是一个由FOLIO社区开发的开源分析平台。它支持元数据管理的报告工作流程、评估以及更多先进的工作流程和数据存储解决方案,是一款集数据管理、集成和分析功能于一体,用于生成图书馆数据报告的工具。
LDP由FOLIO的Reporting SIG(Special Interest Group,特别兴趣小组)主导开发,开发小组由来自超过16所研究型大学的图书馆员和信息技术专家组成,开发资源由索引数据(ID)和开放图书馆基金会(OLF)提供。随着数据科学的发展,图书馆善用数据的能力将对图书馆的未来发展意义重大。图书馆要做的不仅仅是用数据来回答问题,而是要有能力去发现当下未考虑到的,而在未来可能产生的问题。传统的供应商并没有相当的能力去分析数据,LDP的开发目的正是使图书馆与供应商达成合作,一同管理、测试、分析数据,实施软件解决方案,这也有利于形成一个社区共有的开源数据平台。多个SIG参与了关于其功能需求与技术架构的讨论,并于2020年6月发布了LDP1.0版本,2021年3月发布了最新版本LDP1.2。在一年的时间里,FOLIO完成了LDP核心部分——Metadb的部署。
Metadb又可以称为前元数据平台。它提供了一个查询生成器程序(LDP query builder app)和一个插件ldpmarc,能将Marc数据转换成一张更易查询的表。它可以在FOLIO中运行,并支持重复共享。
Metadb主要负责实现不同格式数据的转换,利用镜像库将不同应用系统中的数据收集起来。数据流进入Metadb后,经过同步、转换、版本控制等一系列操作,再进入分析数据库。为了方便查询和重用,Metadb使用跨域的分析数据库(PostgreSQL或Redshift)而非孤立的事务处理数据库,支持列存储,且可以显示数据处理的历史状态。目前Metadb支持实时提取数据,支持FOLIO生成电子资源管理报告和ReShare报告,并在历史数据处理和数据转换方面做了许多的改进。未来,LDP将继续关注集成外部数据集与支持开源图书馆系统(尤其是FOLIO)的数据分析。
查询FOLIO数据的方法比较
基于API | LDP-ldp | LDP-Metadb | |
装置 | 自定义脚本,如Python | ldp命令行工具+分析数据库 | Metadb服务器+Kafka+分析数据库 |
是否开源 | 是 | 是 | 是 |
是否需要安装 | 否 | 是 | 是 |
FOLIO数据的可用性 | 所有数据 | 除ERM以外的数据 | 所有数据 |
数据延时 | 即时 | ≤24小时 | 几乎即时 |
是否可以从FOLIO内部查询 | 否 | 是 | 是 |
历史数据 | 无 | 有 | 有 |
可扩展性 | 无 | 有 | 有 |
使用案例 | 操作、基本报告 | 高级报告和分析 | 高级报告和分析 |
LDP平台还具有获取数据、存储数据和分析数据的功能。LDP平台可以支持不同类型的数据库模型,因为通过插件能进行数据的格式转换。Metadb的设计是围绕着流的概念展开的,因此它能连续不断地同步数据,并可以对大量数据进行快速的查询与分析。
LDP平台是专门为数据分析功能而设计的,它建立在稳定的PostgreSQL和Redshift数据库技术之上,利用关系型和JSON模式的混合数据库仓库架构,支持行存储和列存储的数据存储模式,支持历史数据,并对数据进行去规范化处理,以减少查询所需的连接次数,将JSON转换为关系型数据。LDP目前正在开发自动提取、转换和加载(ETL)功能,并支持扩展ETL管道,支持与FOLIO以外的数据库连接。
目前LDP已经实现的功能包括:支持临时的全面的SQL分析和报告;存储所有历史FOLIO数据以支持时间序列纵向分析,并为整合多个子域数据集提供可扩展的平台;支持实时分析仪表板的创建;可自动捕捉和处理来自不同入站数据源的数据模式变化,同时支持先进的数据科学工作流程,如机器学习、预测分析等。目前正在开发的功能主要为可视化查询生成器。
LDP报告与In-APP报告的比较
FOLIO中的所有报告大致可以分为“LDP报告”与“In-APP报告”两种。In-APP报告使用图书馆集成系统(ILS)实现,通常是关于ILS日常运营中的各种功能实现。LDP报告基于图书馆数据平台(LDP),提供前瞻性分析功能以支持图书馆的战略决策。
LDP报告的创建过程类似于数据库查询,并且使用LDP中的数据。In-APP报告则通常作为FOLIO应用程序中的一项功能,使用通过不同的应用程序直接从FOLIO的操作数据库中检索得到的数据。
LDP报告与In-APP报告在传统的ILS中,可能难以区别,因为ILS所有的报告都是使用操作数据库或其副本完成的。然而在FOLIO中,两者的区别是直观的。
LDP报告 | In-APP报告 | |
数据源 | 使用LDP中的专用数据库,这些数据提供分析功能,并根据FOLIO应用程序中的数据间歇性地更新。 | 直接使用FOLIO应用程序中的数据,这些数据始终反映图书馆数据的当前状态。 |
适用场景 | 支持图书馆的战略决策,用于预测建模,也适用于执行广泛的传统报告功能。 | 适合作为图书馆日常业务运营的一部分。 |
示例 | 生成关于一段时间内流通趋势的报告,按顾客群体分类,以支持有关资源分配的战略决策。 | 生成关于当前馆内有逾期图书的读者。 |