人工智能系列:AI2.0 时代的数字学术及其范式变革

人工智能时代的元数据方法论

2023年11期【本期推荐】

作者:金家琴、刘炜

本文选自:金家琴,刘炜.AI2.0时代的数字学术及其范式变革[J/OL] .图书馆杂志https://link.cnki.net/urlid/31.1108.G2.20231011.1555.002

【摘要】数字学术是数字技术和方法介入学术研究过程的研究范式。以 ChatGPT为代表的生成式人工智能的突破,标志着通用人工智能的到来,有学者称之为AI2.0时代,也使得科学研究从数据密集型向计算密集型过渡,从而进入以人工智能介入研究过程的第五范式,越来越多的研究过程将有人工智能参与,甚至主导。与数据驱动型研究有所不同的是,大模型不仅可以更加高效甚至“自动”进行数据获取、提取、管理和分析等工作,而且有可能实现海量科学数据的“理解”,从而发现新的规律和趋势。大模型不仅可以帮助科学家更好地理解数据,还可以为科学研究提供更加全面和深入的视角,同时,它还能应用于多种相关场景,帮助科学家发现数据或成果中的错误和缺陷,从而提高科学研究的可靠性和可重复性。当然,随着人工智能技术的广泛应用,也带来了一些挑战。对于图书馆而言,面向科研的服务将更加学术化和技术化,除了基础设施、科研交流环境建设和数据支撑服务之外,还将以AI思维和数字化方法与工具更加深入地介入科研过程,并在保护数据的隐私和安全、避免数据泄露和滥用,以及数据伦理方面提供必要的支持。

0  引言

数字化转型的脚步一往无前。经过数十年的演进,以数据为中心的业务和服务已全面渗透到科研教育及图书情报服务领域,数据密集型或数据驱动的科学研究第四范式已站稳脚跟,并带来数据科学的繁荣。各类 iSchool纷纷创新教育模式和课程, 培养新型人才,得到了用人机构的认可和欢迎,也给图书情报机构的数字学术(包括数字人文)服务提供了广阔的市场和新的发展机遇。

数字学术是利用数据和数字化工具手段进行知识生产和知识交流的过程,是使用数字资源作为素材, 以查引、收集、分析、研究、出版等为方法来实现学术研究目标的各种行为的总称, 图书情报机构的数字学术服务通常以促进科研为目标, 不仅是通过对科学研究的数字化转型提供管理与服务支撑, 更重要的是直接参与研究过程, 提供数据和方法工具, 最终促 成数字科研方法和结果的高效产出。因此图书馆的数字学术服务绝不仅仅是帮助大学教授和 科研人员申请科研项目或庋藏数字资源,不能只有服务而不见学术,只有深入到学科内容, 对科研项目做出实质性贡献,才称得上真正的“学术”服务。

以 ChatGPT 为代表的大模型带来人工智能的突破性进展, 一方面对科学研究方法的使用效率和创新带来无穷想象, 另一方面也强化了数据的重要性,当算法和算力不再稀缺, 对数据的占有、治理和洞察将成为关键, 而数据仅仅依靠自身也无法实现其价值, 必须仅仅依附于“大模型”这类新型计算设施。图书情报的数字学术服务正可以依托人工智能技术而深入到内容层面,提供领域微调、语义知识库维护、提示词工程以及实体识别及成果可视化等工作,从而与科研人员建立真正的合作伙伴关系。

这是否意味着数据密集型科研正在向AI驱动型研究过渡?是否正在形成科学研究的“第五范式”?新的AI工具能够多大程度提高效率、提供启发?这些问题的探讨和实践仅仅依靠专业人员和技术人员是不够的, 图书情报工作者参与其中, 必能发挥非常显著而重要作用。

1  科学研究的范式变革与“数字学术”

图灵奖得主吉姆·格雷(Jim Gray)在《论 eScience:科学方法的一次革命》(eScience: a transformed scientific method)报告中对库恩“范式”和“科学革命”理论进行了延伸, 从科学研究方法的角度解释何为科学研究范式,将科学研究方法的演变凝练成四类范式:实验科学,理论科学,仿真科学和数据密集型科学发现(Data-Intensive Scientific Discovery)。第一范式实验科学强调通过观察和实验来获取知识,是人类认识世界的起点。第二范式理论科学开始强调理论和分析的重要性,以归纳法为基础进行定量研究,推动了现代科学的发展。第三范式计算科学则是随着计算机技术的发展出现的,利用计算机进行模拟和仿真, 实现对现实系统的重建和预测。第四范式数据密集型科学发现是大数据时代的产物,科学研究由传统的假设驱动转向对科学数据进行探索。大数据研究最重要的贡献是能够发现传统研究所不能分析的数据集之间的相关关系。运用工具对海量大数据进行挖掘分析, 获得新的科学发现, 改变了传统的学术研究方式, 强调通过大量数据、高性能计算机和先进的数据分析方法来发现知识和解决问题。

近年来, 由于各个学科中都存在现有知识和传统方法无法解决的科学问题,科学范式的转变又成为全球科学界的一个热门话题,人工智能应用于科学研究(AI for Science)逐 渐脱离数据范式而聚焦于对数据的洞察和研究过程的自动化, 越来越多的研究将其独立出来作为新的范式,Science、Nature 等期刊曾专门发文,介绍 AI 对于科学研究方法的巨大影响 ,微软专门组建 AI4Science 研究团队专注于新范式的实现 ,我国也部署了人工智能驱动的科学研究计划。总体来说,大数据仍是广泛影响整个社会发展的基础设施。在密集型数据和数字技术共同推动下, 当前的科学研究依旧沿着数据驱动的“第四范式”持续发展。第四范式是将数据变成科学研究的活的基础和工具,利用海量数据的知识对象化、可计算化, 构造基于数据的知识发现和协同研究,这种数据驱动的方法会进行大量的数据处理和模型训练,需要高效的计算资源和算法支持,包括GPU、TPU和分布式计算等。海量数据的增长在“摩尔定律 ”的支配下每两年就会翻倍,尤其是随着一些复杂系统和大模型的出现,知识生产过程中产生的数据越来越多。如何解决数据量大,复杂性高、跨学科合作等数据驱动方法所面临的挑战成为第四范式是否又将发生变革的新命题。

2  ChatGPT 为代表的 GPT 大模型驱动第四范式向“第五范式”转变

2022年 11 月,ChatGPT一经发布便惊艳了全世界。微软宣布将生成式AI整合到其Office 软件和搜索引擎 Bing 中。作为回应,谷歌先是宣布进入“红色代码 ”紧急状态,紧接着发布 AI 聊天机器人Bard。凭借着大数据、大算力和大语言模型的技术支持, ChatGPT拥有庞大的知识库, 深入的语义理解和严密的逻辑推理能力,可以直接应用在各种场景中游刃有余,不论是被要求解决问题,撰写学术论文,编写网页代码,还是创作小说诗歌,都能流畅地生成文本内容。比尔·盖茨评价 ChatGPT堪比个人电脑或互联网的诞生,会引发一场新的信息化革命。

2.1  ChatGPT 不只是聊天机器人

毫无疑问, ChatGPT 之所以能够快速崛起, 很大程度上得益于其出色的“Chat”聊天能力。它能够理解自然语言输入,进行流畅的对话和回答用户的问题;强大的文本生成能力, 根据用户的输入生成符合语法和语义规则的文本内容。语言本质上是一种由语法规则控制的复杂而精细的人类表达系统。在过去的二十年里, 语言建模的方法从统计语言模型演进为神经语言模型, 并广泛应用于语言理解和生成。而ChatGPT是迄今为止最先进的自然语言生成模型,具备解决各种NLP(Natural Language Processing,自然语言处理)任务的能力。虽然在此之前,语言翻译和语音识别被誉为人工智能的两个圣杯,当它们结合在一起时就有可能实现实时的跨文化交流, 但是真正帮助ChatGPT跨越人机交互的技术鸿沟直达通天巴别塔的, 是拥有千亿级参数的大语言模型(LLM,Large Language Model)的核心技术能力。

GPT所代表的大语言模型是一种深度学习模型,它从海量的文本数据中学习自然语言处理模式,应用于自然语言生成、问答、文本分类等任务。LLM通常由多层神经网络组成,每一层都包含大量神经元,其中每个神经元都代表了一种语言模式以及对应的权重。使用自监督学习或半监督学习在大量未标记的数据集上训练后,LLM能够自动捕捉单词之间的关系, 从而生成具备连贯性和有意义的句子 。GPT(Generative Pre-trained Transformer,生成式预训练交换模型)类技术所依赖的核心模型是LLM的一种,它基于Transformer架构的自然语言处理模型,采用无监督学习的方式进行训练,包含预训练和微调两个阶段。

Transformer 在机器翻译的任务中性能卓越。利用Transformer 的自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Self-Attention), GPT 可以自动学习语言的结构和规律, 从而生成具有上下文连贯性和语义一致性的文本。预训练是指在大规模无标注文本上进行语言模型训练,微调则是在具体任务的有标注数据上进行参数调整, 让模型能够适应特定的自然语言处理任务。值得一提的是, GPT 等大语言模型所采用的语料几乎囊括了所有的开放数据,从网页到具有海量知识内容的维基百科、电子书、程序代码、OA期刊以及股票交易数据等,可以认为它本身就是一个巨大的数字图书馆。ChatGPT是其利用会话数据进行微调的结果, 使其产生了强大的对话能力,它还能通过采用了人工标注数据和强化学习等方法, 将人类偏好作为奖励信号并微调模型,实现其他任务, 由于GPT模型显示出强大的泛化推理等逻辑能力, ChatGPT可以根据用户提供的信息和语境生成有逻辑、连贯的人机对话。换句话说,如果打开ChatGPT向它提问或者寻求帮助, 你实际上是在期待一个拥有全世界最丰富知识并且经过深度学习训练的大型语言模型(专家/助手)给你答案。

ChatGPT 是基于 GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是在 GPT-3 的基础上进行了微调和更新的版本。GPT-3模型通过自我监督学习,几乎可以完成自然语言处理的大部分任务, 包括面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等。然而,直到OpenAI把基于图形用户界面(GUI)的交互方式转变为基于聊天的对话式自然语言交互,为对话任务赋予了拥有与人类Chat的能力,大型语言模型才变得如此引人注目。我们正在经历一次软件界面交互的根本性变革,代表着强人工智能正在到来。

2.2  机器智能:颠覆还是创新?

作为一个大型语言模型的应用,ChatGPT以人机互动的方式不断输出的机器智能(machine intelligence)显然突破了人们的想象和认知边界。从ChatGPT推出仅仅几个月的时间, “大模型”已经从人工智能的技术概念中走出来, 成为全民皆可提高生产力的智能工具。

(1)强大的内容生产力。ChatGPT 的强大之处在于它可以生成各种类型的文本、回答 各种类型的问题、创造令人难以置信的文章段落摘要, 同时支持多语种翻译和多种语言编程等。相比之下,搜索引擎只能根据输入指令搜索匹配内容提供信息检索功能,而ChatGPT则具备了理解人类语言结构的能力。ChatGPT不仅可以理解自然语言的输入生成连贯流畅的自然语言文本,能够根据上下文学习(In Context Learning,ICL)进行语义理解和情感分析,输出具有针对性的回复内容, 而且在创造性的生成任务中也表现出“灵魂捕手 ”的优秀 特质。有学者请 ChatGPT 以“安妮·陈”这个名字为主角,创作3篇各1000字的短篇故事。ChatGPT 接到任务后很快就生成了三个内容完全不同的故事,而更有趣的是,在其中两个版本的故事中,主人公安妮·陈都被设定为一位爱尔兰姑娘。学者认为,全世界共计有 200 多个国家,ChatGPT 之所以会选择将爱尔兰作为故事背景而且是重复设定,可能只是因为在此之前,他刚刚在对话框写下过大约 80 个爱尔兰利默里克的信息,显然,聪明的ChatGPT记住了这一点。

(2)通用的泛化学习能力。指令微调(Fine Tuning)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)这两种监督大模型学习的方法增强了 ChatGPT 学习任务的泛化能力。它能够根据用户每一轮的意图和反馈来调整优化,捕捉不同的提示策略(prompt),根据输入内容实时生成答案。随着进一步的追问和要求不断修正输出结果,并且能够处理新的、未见过的数据。即使是少量标注或未经标注过的提示策略,使用先验知识来增强信息监督新任务的小样本学习(Few-Shot Learning)甚至零样本学习(Zero-Shot Learning)模型也能借助大量的数据学习并理解各种语言、话题和情境,并能对未知的问题进行推理和回答,适应各种开放性任务,应对不同的任务需求。这种泛化的学习能力让ChatGPT能够针对不同的主题和领域有效地生成相关性强、语义连贯的有效文本内容。例如,许多社交媒体用户热衷于在平台分享自己如何根据ChatGPT生成的蛋糕食谱,制作出完美的蛋糕的过程。ChatGPT不仅能根据用户要求列出制作蛋糕所需的所有原料清单,还能利用与烘焙相关的知识进行推理和回答问题, 为用户提供详细的烘焙技巧和过程,从而帮助用户轻松地制作出令人满意的蛋糕。这使得烘焙行业对 ChatGPT 和人工智能充满期待,认为它将会彻底改变面包店的未来。

在ChatGPT之前,GPT模型经历了多次迭代,而每一代的更新都是建构在模型规模和数据量爆发式增长的基础上。2018年,GPT-1拥有1.17 亿个参数。到了2019年,GPT-2的数量已经突破了15亿大关。2020年,GPT-3的数量更是达到了惊人的1750亿。而相比其他迭代版本的GPT大模型,ChatGPT显然要聪明得多:它能够以自然语言的方式与用户进行对话,理解用户的意图并生成相应的回应,自动纠正错误并不断学习新的知识,甚至可以完成较为复杂的逻辑推理任务。“如果一种能力不存在于较小的模型中,而存在于较大的模型中,那么这种能力就是涌现出来的。”相关研究已证明,扩大语言模型的规模可以在下游任务上表现出更好的效果和更高的样本效率。语言模型的表现并非随着模型规模增加而线性增长,而是存在临界点。当训练参数和数据量超过一定数值后,这种增加规模的语言模型不仅在性能方面取得了显著的提高,还展现出了一些小规模语言模型所没有的特殊能力,可以显著提高语言模型的性能和泛化能力。这些新能力并不是训练模型的目标,而是在参数规模足够大时无法预测的“涌现”(Emergence)能力,所以涌现也被称为黑盒,涌现的结果往往超出了人们的直觉或常识。

2.3  GPT 赋能数据驱动转变为大模型驱动

海量数据、超强算力和超大模型是大模型智能涌现的奇迹之源, 同时也为以数据驱动为核心的第四范式科研突破大型复杂数据集、跨学科合作和算力之困等现有挑战提供了解决方案。

(1)全量数据、全域知识、全程智能:大模型所使用的训练语料来源十分广泛:百科全书(维基百科)、网络文本(包含网站、博客、论坛、社交媒体、电子书)、图书资源、新闻等等公开信息源的全域获取, 训练数据规模达到 PB 级,基本全覆盖了所有互联网公开信息源。通过海量的非标注数据预训练,GPT 获得了丰富且通用的数据和知识。其泛化的学习能力可以根据不同任务进行微调或指令调整, 适应各种领域和场景, 为科学研究过程中从数据收集到决策输出的每个环节提供智能支持。

(2)更高效的数据收集、模拟、处理和分析:GPT 技术可以通过自然语言交互或图像输入来收集用户的需求和意图,并根据用户的反馈进行动态调整。通过超大算力对海量数据进行知识挖掘,通过人工智能技术实现复杂系统的推理,使得科学研究的效率得到了空前提高。例如DeepMind 公司的AlphaZero使用了深度学习和强化学习方法,在40天内进行了约4900万次围棋自我对弈,并达到了超越其他计算机程序的水平。

(3)深度挖掘数据潜在信息知识智慧,构建知识图谱和智能问答系统,支持多场景的知识获取和应用。GPT技术通过在大量文本等数据上进行预训练,展示出了强大的通识知识和问题解决能力。虽然即使是最新的大模型GPT-4在学术标准数据集上测试性能仍弱于全监督小模型,但是其较强的生成和泛化能力,可以对各种类型的数据进行深度挖掘,发现数据中隐藏的信息、知识和智慧,可以抽取新的复杂的知识, 且可以通过文本指令的优化不断提高性能,快速构建领域知识图谱。同时, GPT 实现的人机自然语言交互方式支持多场景的知识获取和应用,例如可以用于搜索引擎、智能客服、科研助手等,提供更加智能和便捷的服务。

(4)促进各种形态的知识交流和多模态跨学科研究与融合,打破数据孤岛和知识壁垒,激发创新活力和协同效应。多模态是指大模型可以处理多种结构/类型的数据,可接收多种类型的数据源, 例如文本、图像、音频、视频等,而这些未结构化数据中常常包含有价值的信息,却分散在不同的孤岛上。自然语言处理是一种处理自然语言的计算方法,能够解码非结构化数据,例如社交媒体帖子,对数据进行预处理以创建结构化数据,然后可用于分析。自然语言处理还能够快速将大量未结构化数据标准化为可操作的信息。GPT通过自然语言理解和生成技术实现多模态的信息转换和表达,促进多模态跨学科研究与融合。

在科学研究中,通常有四个范式或方法论,它们是经验主义、理论主义、计算主义和数据密集型或数据驱动主义。这些范式分别强调经验观察、理论构建、计算模拟和数据分析。然而,随着人工智能的发展,一种新的范式正在出现,被称为第五范式,即人工智能范式。

3  迈向第五范式

第五范式将人工智能全面应用于科学研究,并超越了第四范式仅仅依靠数据的收集、处理、分析和模式识别的做法。以下是第五范式区别于第四范式的主要特点:

(1)基于模型的预测与优化:人工智能可以通过建立模型来预测和优化科学系统的行

为。这些模型可以基于物理定律、化学反应、生物过程等,并利用机器学习和深度学习等技术进行训练和优化。通过这种方式,人工智能可以在大规模和复杂的系统中提供准确的预测和优化方案。

(2)机器辅助的科学发现:人工智能可以作为科学家的合作伙伴,通过分析大量的文献、数据和实验结果,提供新的洞察和发现。它可以帮助科学家发现隐藏的模式、关联和趋势,从而推动科学研究的进展。

(3)自动化实验设计和执行:人工智能可以自动设计和执行实验,从而提高实验效率和准确性。它可以分析已有的实验数据,生成最佳实验方案, 并利用自动化设备进行实验操作。这种自动化的实验设计和执行过程可以大大加快科学研究的进展。

(4)社会科学和人文科学的应用:人工智能不仅可以应用于自然科学领域,也可以在 社会科学和人文科学研究中发挥作用。例如, 它可以分析大规模的社交媒体数据, 了解人类行为和社会趋势; 它可以研究文学作品, 提供对文化和人类心理的洞察。人工智能在这些领域的应用将为研究人员提供新的工具和方法,推动社会科学和人文科学的发展。

其实科学研究的每一种范式都不是对前一种的取代,而是一种包含和增强, 新范式兼容老范式,而且每一次范式进步都能够使科技进步的速度发生巨大甚至指数级的提高。

第五范式是一种全面应用人工智能的新途径,它不仅依靠数据,还利用模型、预测、优化和自动化等技术, 为科学研究带来了新的可能性。通过与传统范式的结合,人工智能可以成为科学家的有力工具,加速科学研究的进展, 并为解决现实世界的复杂问题提供新的解决方案。

下表是对 5 个范式的简要总结和比较:

这些范式在科学研究中各有其优势和应用领域。经验主义和理论主义强调观察和推理, 计算主义注重模拟和分析,数据密集型侧重于数据驱动的发现,而人工智能范式结合了机器学习和人工智能技术,具备预测、优化、自动化和洞察等功能。综合运用这些范式可以为科学研究提供多种工具和方法,推动知识的进展和解决复杂问题。每个范式在不同学科领域中有不同的应用案例。经验主义强调实验观察, 理论主义注重理论构建和推理,计算主义利用计算机模拟和仿真, 数据密集型依赖大规模数据分析,而人工智能范式则结合机器学习和人 工智能技术。计算范式、数据范式和人工智能范式其实都是由计算机赋能的计算范式,只是经历了由算法主导、数据驱动和算力出奇迹的进步。这些范式的案例说明了它们如何促进科学研究的不同方面,从验证理论到模拟复杂系统、发现数据模式和加速科学进展。

4  AI2.0 时代下数字学术范式的变革与创新

通用人工智能(AGI,Artificial general intelligence)通常被定义为一种像人类一样能够处理各种任务和问题的人工智能系统, 具备广泛和综合的智能能力, 它可以自主思考、 学习和适应新的环境和任务, 理解和应对人类行为、情感和思维等复杂过程,具备推理和逻辑能力,同时具有多模态的智力(视觉、听觉、文本等) 。在人工智能领域, AGI 被看作是高级形式的人工智能,并可泛化到多个领域和环境。当然目前的 GPT还不具备如此高级的综合能力。前不久微软在对 GPT-4 早期版本研究的一份报告中声称,GPT-4 在各种不同的领域和任务上已经具有了非常强大的语言能力, 包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等,然而这还局限在语言方面, 对于多模态、智能体方面的进展还只是刚刚开始,不是算是完整的“通用人工智能 ”,因此我们暂且只能以 AI2.0 来概括它,区别于过去的专门 AI,而又为未来的AGI 留有余地。

AI2.0代表了人工智能的第二代发展阶段,可以认为是人工智能技术的新一轮升级和创新。与 AI1.0 相比, AI2.0 具备一定的通用性,通过训练超大规模数据集创建了一个具有跨 领域知识的基础大模型。它通过预训练和微调来适配和执行各种任务,有效解决了 AI1.0 时代人工智能泛化能力不足的问题,实现了平台化的效应,即一个大模型只需通过微调即可适应多种任务。同时, AI2.0能进行包括文本、图像、声音等多模态交互, 具备更高级的学 习能力和决策能力, 能够更好地理解和模仿人类的思维和行为, 还可以进行一些复杂的决策和推理,因而具有更强的处理能力和更广的应用范围。

4.1  基于大模型的数字学术服务

从 GPT-1的1.17亿个参数到GPT-4的百万亿级别参数,显然,从海量数据中训练出的大语言模型是通向AGI的必由之路。大模型走向平台化成为通用的技术, 构建一个与具体任务无关的超大型语言模型,在为数以百计或者更多不同的场景和垂直领域生成不同的模型应用,解决各种复杂的问题。未来,通过第三方插件等方式,大模型可能会成为电脑和移动设备的“操作系统 ” ,PC交互的前端形态不断创新,所有的数据和专业领域的知识都会成为生成式AI模型,机器学习可以在大部分任务上表现得比人类更好,比如数据分析、语音识别、图像识别和自然语言处理等。AI2.0时代,无论是科学研究领域还是像图书馆一样服务科学研究的领域,都将面临机器智能带来的巨大挑战。对于图书馆来说,“模型即平台 ” 意味着诞生新的机遇大模型的学术服务生态系统,数字学术服务的资源、技术、工具和方法等范式也将朝着大模型学术服务的方向一步步试探前行。

4.1.1  大模型作为知识库

GPT大模型训练的语料库来源于互联网上大量的文本、书籍、文档、媒体和搜索引擎等 数据,以 GPT-3 为例, 除了Common Crawl 了 60%的训练数据外, OpenAI 还提供了包括维基百科和历史相关书籍等精选资源的全文,可以认为它已经无所不知无所不晓, 等待我们以某种方式去搜索、利用它。当然它也由于神经网络的特有缺陷, 只关注语言的产出“像不像人类”,而无视内容是否符合常识、是不是凭空捏造, 当然这可以通过进行一定的限制加以弥补。

数据是大模型学习和发展的驱动力。在数据收集和预处理阶段, 高数据质量和足够的规 模体量对模型训练的效果有决定性影响。GPT搜索的文献资料大多来源于公开的互联网,缺少高质量学术数据库、机构库和专家学者库等专业数据库的支持, 基于 AIGC 算法模型创建、生成的合成数据质量也难以保障。与广泛而又繁杂的互联网数据集相比,图书馆大量丰富而专业的数据库资源为创建学术大模型提供了最核心的数据基础。数据库不再是用户获取学术信息的首选渠道,数据库的记录也不再是学术服务的直接内容。这些结构化、有组织的数据富含各领域知识、数据、事实和专家经验,被整合进大模型知识库中,成为训练学术大模型所需要的高质量语料。学术大模型可以根据用户的需求对资源进行主题识别和语义关联分析, 学术成果的呈现方式也不再局限于传统的文献库,而是以多语种、多媒体、细颗粒、多模态的方式呈现, 利用人工智能技术实现自动化标注和分类,让用户可以从不同的角度和层次了解和利用学术信息。

4.1.2  科研助手 Copilot

当大模型成为学术服务的基础设施,图书馆便可以在其基础上构建各类垂域模型或下游应用,生成针对用户复杂问题和解决方案的知识服务能力。知识发现水平是知识服务能力的重要体现,资源发现系统已替代信息检索系统、编目系统和外借系统,与图书馆既有系统、业务持续深化融合,是下一代服务平台的核心组成部分。然而,横空出世的ChatGPT所展现出的自然语言检索和内容生成能力显然打破了图书馆发现服务的能力边界,重新塑造知识服务的功能内涵:强大的信息检索工具,可以通过微调来回答特定领域的问题,为研究人员快速高效找到所需的信息。文献综述辅助,通过生成文章摘要或提供相关论文列表来帮助研究人员识别相关文献。数据分析,帮助研究人员分析大量文本数据并生成详细的介绍文档。语言翻译,帮助研究人员访问和理解多种语言的研究材料并自动摘要,使研究人员更容易了解其领域的最新发展。为了实现以上功能,发现服务将不再只是学术搜索引擎的替代品或者简单的功能补充,而是一种基于学术大模型的“会话搜索+科研助手”模式的融合解决方案。用户不仅可以像使用搜索引擎一样搜索相关信息,还能够获得个性化的学术支持和服务。

(1)自然语言交互的会话式搜索。为了提高资源的利用率,发现系统常常采用专业精准的多元化搜索功能来增强发现服务的能力。然而对于大多数使用关键词检索的普通用户来说,受限于专业检索的信息素养限制, 他们很难使用高级检索功能如逻辑运算符或者二次检索等方式来表达复杂的信息需求, 获取更深层次的研究资料和文献信息。采用 ChatGPT 式自 然语言交互的会话式搜索, 发现服务搜索框将被提问框所替代,知识服务的关键是个性化提示词工程,用户只需要使用自然语言提出问题或者使用多模态方式检索, 就可以完整说明需求, 得到学术大模型的回答或者智能推荐。不过,虽然 ChatGPT 在信息搜索和资源发现等方面已经表现得非常卓越,但是由于其无法提供准确的信息来源和参考资料, 仍然缺乏学术服务必须具备的可靠性。所以,将自然语言问答的方式与信息来源和参考链接相结合, 为图书馆资源发现服务创造了新的应用场景:用户既能像使用 ChatGPT 一样直接提问搜索, 又可以获得可靠的信息来源和参考链接支持。Perplexity AI 就是一款将ChatGPT和 Bing 搜索结合起来的会话搜索引擎,同时能够提供实时的信息。当用户使用 Perplexity AI 来探索新的研究领域并迅速找到答案时, 可以根据回复所附的参考链接进一步挖掘信息来源, 更系统地对该领域知识的进行探索和学习。

(2)文献阅读助手。阅读是个体知识获取的主要模式。从科研准备期开始,研究人员需要不断阅读文献,从海量的文献中获取相关的研究成果和知识,并进行整理和归纳, 为后续的研究工作做好准备。然而,发现服务通常会根据搜索关键词返回大量的文献资料,即使是最相关的文档通常也会有几十篇甚至几百篇。而且专业研究文献的阅读难度通常都会很高,用户评价每篇文献的价值并理解主要内容需要大量的时间。科研助手(Research Copilot)的目标是让用户更便利地获取相关文献, 更快速地阅读和理解研究论文。当用户找到一篇目标文献,接下来的工作可以完全交给文献阅读助手。例如,当用户阅读单篇文献时,助手会利用文本挖掘、机器学习和文本分类等一系列技术来协助用户“ 阅读 ”文献, 并从中提炼总结出核心内容。用户还可以让助手一次就对成百上千篇文章进行“ 阅读 ”分析,找出其中的结构、演变与疑难,发现那些隐藏在大量结果中的现象关系和科学规律。随着人工智能技术的快速发展, 一些高效的科研工具,特别是AI阅读工具也相继出现。如 SciSpace是一款解码研究论文的AI研究助手,帮助用户快速搜索和分析科学文献。SciSpace支持中文解读和对话式的论文解读,可以在用户阅读时突出显示令人困惑的文本、数学和表格,以获得清晰简明的解释。用户还可以提出后续问题,以更深入地了解研究论文。而图书馆目前能做的就是有效利用人工智能技术,采用更好的工具和方法,助力科研人员提高文献阅读和学术写作效率,支持科研用户产生更多的科研成果。

4.2  大模型技术驱动的智慧服务

以ChatGPT自然语言交互为代表的GPT大模型技术是自然语言处理、机器学习、多模态内容生成等多种技术的汇聚。GPT技术所展现出的涌现和泛化学习能力,为数字学术环境的发展带来了颠覆性变革。同时,从服务科学研究支持科研创新的角度来说,GPT技术是提升知识服务能力推动科研创新和发现的强大工具,正在重塑从信息到知识到智慧数据解决方案的数字学术服务过程。

(1)知识获取是指从各种数据源中找到有价值的信息和知识的过程。当大模型就是数据库,知识以参数的形式存储在大模型中, 用户使用自然语言即可直接调用这些数据和知识。大模型可以通过自然语言技术理解人类语言,提供信息的收集和监测服务,包括对各种来源的数据进行收集、整理、清洗和分类, 以便更好地理解和分析信息。当用户提出一个问题时,  GPT可以自动地进行数据获取、提取、管理和分析等工作,快速准确地返回结果。这种功能使其能够执行与语言处理相关的各种任务,如语言翻译、文本生成、数据合成等。在大模型的帮助下,数据科学工作可以更有效地执行。例如, ChaGPT/GPT-4 已经可以编写可行的代码来处理和清理数据。此外,大模型甚至可以创建用于训练的数据,例如有研究表明 ,使用大模型生成合成数据可以提高临床文本挖掘中的模型性能。

(2)利用深度学习、知识图谱和智能推荐等技术,GPT能够对不同学科领域的知识进行快速学习和泛化,从而构建自己的知识体系,通过数据挖掘技术发现隐藏在数据中的规律和趋势,促进学术创新和发现。不过,泛化的学习能力虽然让GPT能够根据适应不同的任务请求,但是一方面由于GPT的训练数据多来自公开的互联网缺乏可靠性而且时效性会滞后, 另一方面GPT系列和所有其他类似工具一次可以处理的数据量都有限制,比如对于GPT-3,每个请求限制为4097个令牌, 其中1 个令牌大约是3/4个单词,就意味着每个请求只能处理大约3000 个单词,包括请求输入和生成的输出,远远不足以处理大多数知识获取的需求。所以,图书馆可以根据本地知识库重新训练语言模型打造专属的聊天机器人,同时采用语义搜索的方式捕获用户问题背后的意图,查找与用户问题意图最匹配的文档。

(3)与大语言模型相比,被称为多模态大语言模型(Multi-modal Large Language Model, MLLM)的 GPT4 实现了多模态任务处理能力:GPT-4 可接受图像、文本信息作为输入并生成说明文字、分类和分析, 允许长文内容创建、扩展对话以及文档搜索和分析等功能;GPT-4在复杂问题的推理能力上大幅超越GPT-3.5,在大多数专业测试以及相关学术基准评测中, 分数超越人类平均水平;GPT-4引入了更多人类反馈数据进行训练, 不断吸取现实世界使用的经验教训,并基于模型的高级推理和指令遵循能力加快模型安全性的迭代。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高水平的熟练程度, 而且还能够流畅地结合多个领域的技能和概念,实现更好的跨学科常识推理性能,跨模态迁移更有利于知识获取,产生更多新的能力,加速了能力的涌现。就像新必应(NewBing)搜索引擎已接入 GPT-4,未来将会有更多把 GPT-4 技术嵌入到业务生态的应用和场景产生, 图书馆智慧服务当然也不例外。

5  结语

每一个新范式的产生都会经历不断成长、发展和完善的过程。正如库恩所说: “大部分新范式的早期形态都是粗糙的。”然而,伴随着众多大模型 AI工具的涌现,以ChatGPT为代表,它们不断突破认知界限扩大在各个行业的颠覆性影响力,推动我们步入由大模型驱动的AI2.0时代,引领新的实践方法和研究范式。新范式赋能数据驱动的数字学术研究过程,不仅提供自动化辅助工具和创新的研究方法,还能够以自然语言交互生成内容的方式充当研究助手,帮助用户高效地获取,信息满足其个性化研究需求。

本文中,我们回顾了ChatGPT区别于过去专用人工智能的不同之处,其内在机理和未来可能,预示着进入到人工智能发展的2.0时代,对原有的科学研究四个范式带来新的变化。在此背景下,对图书情报机构进行数字学术服务的方式方法提出新的需求,探讨了以大模型进行学术服务的方法和可行性,从大模型作为知识库;设计并构建基于学术大模型的“会话搜索+科研助手”模式的融合解决方案;以及采用GPT技术和工具,升级从信息到知识到智慧数据解决方案等三个方面提升图书馆数字学术服务的模式和水平,促进图书馆学术服务新范式的产生。随着大模型技术和 AI2.0时代的持续发展,图书馆将会凭借其资源和服务优势,引入大模型技术来重塑数字学术生态,积极应对范式转型带来的新的功能价值和发展方向。

发表评论

云瀚联盟-智慧图书馆技术应用联盟