数据治理 – 云瀚联盟-智慧图书馆技术应用联盟

本文探讨了图书情报领域大语言模型的数据治理要求与开发模式。大语言模型是依赖海量文本数据，经过无监督预训练及有监督标注数据微调而成。领域大模型则是通用大模型经过领域数据的微调而得到，具备解决领域问题的能力，满足领域应用需求。本文首先回顾了生成式人工智能的突破历程，介绍了大模型的基本原理和应用现状，重点分析了大模型所具备的多任务能力背后的数据因素和数据需求。最后讨论了领域大模型的应用潜力和开发模式。本文的主要贡献在于分析了图书情报领域大模型的应用模式和数据治理，为图书馆行业应用生成式人工智能技术提供了理论依据和实践指导。同时，文章也讨论了行业大模型应用和评估时需要关注的问题和局限性。