
十年求索 智启新程:上海图书馆开放数据竞赛的价值与未来发展
2025年12期【特别报道】
11月27日,在“AI重塑智慧图书馆未来服务新生态主题研讨会暨上海图书馆开放数据竞赛十周年交流会”上,分会场一“十年求索·智启新程:开放数据的互联与重生”特别设置了以“上海图书馆开放数据竞赛的价值与未来发展”为主题的圆桌论坛。论坛由南京大学信息管理学院赵宇翔教授主持,嘉宾包括(按拼音首字母排序):上海交通大学图书馆馆长、法学院教授程金华,华东师范大学经管学院信息管理系教授金武刚,上海韬奋纪念馆(中国近现代新闻出版博物馆)副馆长王晨,复旦大学计算与智能创新学院教授汪卫以及上海图书馆(上海科学技术情报研究所)副馆(所)长徐强。
六位专家围绕开放数据的制度保障、文化机构的数字化实践、数据基础设施、生成式人工智能的技术变革等议题开展深入讨论,为竞赛迈向下一个十年给出了富有前瞻性的洞见。本文为本次圆桌论坛主要观点归纳,了解详细内容欢迎观看下方视频。
01 如何在强调开放与共享的同时,平衡审慎合规与风险可控?
程金华:这个问题确实非常难。从法学角度看,开放数据相关活动如果希望长期运行,合法性、合规性以及权利边界始终是基础,无论是数据的输入端还是输出端,都需要放在现行法律框架下加以考量。但在实践中,创新并不总是处在完全清晰的状态。理想情况下两端都清晰当然最好,但现实中并不总能做到。在不突破法律底线的前提下,有时需要在不同环节之间进行判断:比如数据来源相对清晰时,应用层面可以适度探索;而如果输入端存在需要进一步厘清的情况,输出端就必须更加审慎。这更像是一种思考框架,需要结合具体场景不断检验和调整。
02 开放数据在公共文化机构中最有潜力的应用模式是什么?
金武刚:从公共文化机构的使命来看,图书馆、博物馆、文化馆虽然资源类型不同,但都承担着文化传承与公共传播的共同任务。大量文献、文物、非遗和民俗资源在完成数字化后,如果缺乏进一步利用,往往仍处于“沉睡”状态。我的体会是,开放数据竞赛的意义在于通过关联分析、知识图谱、数据可视化等方式,把这些资源重新激活,让公众更容易理解文化从哪里来、如何演变,并由此进入更丰富的应用场景。通过这种方式,文化资源可以变得“可感、可知、可用、可传播”,这也是过去十年来竞赛中较为成熟,也较容易落地的一类应用模式。
03 韬奋纪念馆积极参与开放数据,在开放过程中有哪些思考?
王晨:我们馆的数字化建设从较早阶段就开始推进,最初更多是围绕藏品管理和基础数据规范展开。在参与开放数据竞赛之初,确实也会思考哪些数据适合开放、哪些需要暂缓,这个过程是逐步推进的。早年与上海图书馆交流时,我们更多是抱着学习的心态,希望通过合作看看数据被使用后能产生什么样的效果。最初提供的主要是文本、图片和较为基础的人物数据,随着技术能力和合作经验的积累,后来逐步过渡到通过接口方式提供数据。从博物馆的职能来看,服务社会、促进知识共享本身就是重要使命,因此在合规前提下,有序推进数据开放,对我们来说是一个自然的选择。
04 从技术视角看,开放数据生态最需要补齐的基础设施是什么?
汪卫:从技术角度来看,开放数据竞赛的核心仍然是数据本身,尤其是数据质量以及数据之间的关联和语义组织。如果基础数据能够被更好地链接和理解,参赛者就可以把更多精力放在应用和创意层面,而不是花大量时间做底层处理。近几年大模型的发展,为数据的进一步利用和表达提供了新的可能,很多项目已经开始借助大模型生成更丰富、更有趣的内容。同时我也觉得,除了完善数据平台本身,还需要关注数据利用的工具和环境,让不同背景的参与者都能较为便利地使用这些技术,把想法真正呈现出来。
05 在支撑开放数据竞赛成果转化与落地方面,云瀚平台发挥了什么作用?未来如何推动开放数据竞赛成果进一步转化,并持续释放数据价值?
徐强:未来图书馆情报机构最重要的优势还是数据本身,数据治理也会成为各项业务的关键工作。无论是在互联网时代还是人工智能时代,数据都是信息系统和智能应用的关键支撑。开放数据竞赛的意义,就在于通过开放来检验数据、发现问题,并推动数据真正发挥价值。在长期数字化建设过程中,我们也深刻体会到,系统可以不断迭代,但真正能够长期积累和传承下来的,始终是数据本身。依托云瀚平台,通过开放协作把分散在不同系统中的数据整合起来,促进数据融合和再利用,有助于让竞赛成果更好地转化为可持续的应用和服务,为读者和社会提供更高质量的支撑。
06 从另一个视角来看,上海图书馆开放数据应朝哪些方向拓展?
赵宇翔:从我的观察来看,开放数据竞赛在过去十年中主要以公众参与和作品产出为导向,已经积累了非常宝贵的经验。面向未来,开放数据或许可以在保持竞赛活力的同时,进一步拓展协作广度、提升社会价值。如与高校、科研机构以及相关公共部门形成更广泛的联动;探索高质量数据集和可信数据空间的建设;通过多主体参与、分阶段推进,在不同目标之间逐步形成协同机制等。期待未来,竞赛能进一步扩大开放生态,探索与政务、健康、交通等民生大数据的融合,从而在公共服务、文化传承和社会应用中释放更大的综合价值。
07 面对当前出现的AI大模型公司高频爬取公共文化数据影响服务的情况,应如何看待数据开放与运行保障之间的关系?
汪卫:从技术角度看,这并不是某一家机构独有的问题,而是很多拥有高质量数据的公共机构都会遇到的情况。这本身也说明,图书馆长期积累的数据具有很高价值。至于如何在防护和开放之间取得平衡,更多属于具体的信息安全和技术运维层面的议题,需要结合各自系统条件来处理。此外,数据交易机构为批量数据的合规、有序使用提供了新的可能路径,也值得关注和探索。
程金华:从法律角度来看,如果数据本身是依法向公众开放的,那么被使用本身并不存在法律障碍。但我更关注的是使用过程中的规范性,比如来源标识和合理使用的问题。既然是开放数据,开放本身是一种姿态,但在使用过程中,如何体现对数据来源机构的尊重,也值得重视。
金武刚:我更愿意从公共文化机构使命的角度来看这个问题。图书馆应该适应并融入社会的发展,公共图书馆数据被更多的使用,在一定程度上说明其公共价值正在被放大。当然,如果现有资源难以支撑服务压力,建议通过合理方式争取更多支持,而不是回避开放本身。
王晨:作为博物馆,我们也面临类似情况。总体来说,只要是合理合规的使用,我们是愿意向公众开放数字资源的。但在具体操作中,仍需关注著作权、隐私等边界问题,同时通过协议或使用说明,明确数据来源和使用方式,这有助于形成更清晰、可持续的开放环境。
08 开放数据竞赛如何促进学生的创新能力、批判性思维与跨学科素养?
程金华:从我的教学和管理体会来看,创新往往源于“有趣”或“有用”,而学生的好奇心、批判性思维和跨学科能力,也更容易在真实问题情境中被激发。开放数据竞赛恰恰提供了这样的实践场景,让学生围绕真实数据进行探索、分析和应用,而不是停留在抽象训练层面。如果能够在合规前提下,将竞赛中的项目实践与课程教学、科研训练相结合,尤其是在专业硕士培养中,把解决实际问题的成果作为重要评价内容之一,竞赛就有可能成为嵌入人才培养体系的有效切口。这类探索推进起来并不容易,但对于提升人才培养质量具有积极意义。
09 让开放数据真正“以用户为中心”,容易被忽视但又很重要的问题是什么?
金武刚:这个问题确实不太容易简单回答。我的体会是,技术本身当然重要,它确实为公共文化机构带来了新的可能,也创造了原来难以实现的服务场景,但技术并不能替代人类的思考和文化判断。关键在于如何定位技术——它应当服务于机构的使命,而不是反过来由技术牵着走。从以用户为中心的角度看,技术更多应当用于扩大公共文化服务的覆盖面,提供更精准、更可及的服务。另一方面,开放数据的价值也不应只停留在文化层面,它同样可以在合规前提下探索产业和应用方向,形成多元价值路径。通过这样的方式,开放数据才能更好地回应公众需求。
10 开放数据竞赛中的哪些使用到韬奋纪念馆的作品让人印象深刻,又为馆内业务带来了哪些启发?
王晨:我们一直比较关注馆方数据在竞赛中的实际使用情况,也看到一些作品给我们留下了较深印象。比如有作品以游戏化方式重构韬奋的一生,用互动体验帮助青年群体理解人物和时代背景,这对红色文化传播很有启发。还有作品结合多模态技术与时空信息,把人物、城市与历史放在更大的文化场景中进行呈现,也为文旅融合提供了新的思路。这些实践反过来对我们的展陈方式、数字策展以及公众服务产生了启发,促使我们在互动展示、研究开发和数字人文平台建设中进行新的尝试。对我们来说,竞赛不仅是数据的输出过程,也是一种反向学习和共同成长的过程。
11 生成式AI与大语言模型为开放数据竞赛带来了哪些新机遇与挑战?
汪卫:从技术角度来看,生成式AI和大语言模型的出现,确实为开放数据竞赛带来了很大的变化,也打开了一些新的可能性。一方面,这类技术在一定程度上降低了参与门槛,使不同背景的参赛者都能够更容易地利用数据进行表达和创作,作品的呈现方式也更加多样。但另一方面,这些技术仍然存在不少需要正视的问题,比如结果的可靠性、幻觉现象,以及如何真正将模型能力与高质量数据结合起来。
12 未来十年,上海图书馆开放数据竞赛如何向创新生态继续迈进?
徐强:开放数据竞赛在走向长期发展的过程中,本身也需要不断调整和完善。第一,在竞赛机制层面,应更加关注成果转化的完整链条。未来,我希望竞赛的成果从开发到落地转化能够更加顺畅,希望云瀚能提供有力支持,例如将应用成果接入云瀚平台,可在沙箱环境先“跑一跑”验证效果,再向云瀚成员馆、以及其他公共图书馆、高校图书馆等推广。第二,随着数据规模不断扩大,竞赛未来可考虑如何进一步降低参赛者理解和使用数据的门槛,帮助其更快理解数据结构和语义。第三,可结合十年来的数据使用情况,引导参赛者关注高质量但未被充分利用的数据,拓展新的应用方向。第四,在数据治理与授权层面,竞赛可结合《公共数据资源登记管理暂行办法》等制度探索,逐步明确数据使用范围和合规边界。
嘉宾一句话寄语
程金华:希望未来能把上海交通大学的力量更多地纳入,共同推动开放数据生态发展。
金武刚:牢记品牌初心,让开放数据成为图书馆与社会连接的桥梁,彰显图书馆在AI时代的独特价值。
王晨:未来韬奋纪念馆愿意继续与上海图书馆加强数据互联与共享,激发文化数据的活力,共创文化新业态。
汪卫:希望未来能为参赛者提供更好的开发和验证环境,帮助他们实现创意。
徐强:相信“十年求索”的开放数据竞赛,一定会成长为未来20年、30年的上图标志性品牌。
本次圆桌论坛以开放数据竞赛十年实践为线索,围绕数据开放、公共文化服务、技术演进与协作机制等议题,分享了多位专家的观察与思考。在生成式AI 快速发展的背景下,与会嘉宾一致认为,开放数据已不再只是单一项目或资源建设问题,而是一项需要持续探索、不断完善的长期实践。
面向未来,如何在保持开放初心的同时,更好地推动协作、促进应用落地、回应新技术带来的变化,仍有待在实践中不断检验和深化。正如主持人赵宇翔教授所言:“让我们共同期待开放数据竞赛的下一个十年,一起来,更精彩。”
.png)