从ChatGPT爆发到GPT技术革命的启示
2023年04期【本期推荐】
作者:叶鹰,朱秀珠,魏雪迎,王静静,王婉茹
本文选自《情报理论与实践》网络首发论文
摘 要
[目的/意义]文章旨在探讨GPT类技术发展带来的启示,提醒学界和业界关注GPT类技术应用将引发颠覆性变革。[方法/过程]揭示了从ChatGPT到ChatGPT Plus的发展及GPT技术革命的颠覆性特征,讨论了大语言模型的革命性潜力。[结果/结论]在GPT类大语言模型技术的支持下,ChatGPT类应用风靡世界,新技术革命正在发生,将全面影响以教育、科学、文化为核心的智力工作,彻底改变知识生态,开启智能信息处理和信息资源管理之颠覆性变革。
正 文
0 引言
2022 年 11 月 30 日,基于 GPT-3 微调版 GPT-3.5 的 ChatGPT 上线,不到一周用户量就超过了 100 万,推出两个月就吸引了上亿的活跃用户,意外成为全球技术热点。
当人们尚在 GPT-3.5 支持下的玩具级 ChatGPT 中流连忘返,却见 GPT-4 支持下的工具级 ChatGPT Plus(参见图 1)+ New Bing + Microsoft 365 Copilot +其他应用开启了改变世界的技术革命进程,多模态 GPT 技术正在重塑各行各业,而智能信息处理、信息资源管理等图书情报业务首当其冲,即将面临颠覆性变革。
GPT(Generative Pre-trained Transformer,基于 Transformer 的生成式预训练模型)的兴起得益于神经网络、深度学习等人工智能技术的推动和 2015 年成立的 OpenAI 研发大语言模型(Large Language Models,LLM)的实验。GPT-1 和 GPT-2 都在平淡无奇中发布,而 GPT-3 于 2020 年 6 月发布时,使用 285000 个 CPU、10000 个 GPU 在 45TB 文本数据上进行预训练的规模及 1200 万美元的耗资都令人震惊。2023 年 3 月 14 日,OpenAI 公司公布了 GPT-4,Microsoft 立即接入应用,两天后发布 Microsoft 365 Copilot 实现 Office 智能化。尽管人们尚未适应这一新生事物,GPT 类技术应用却开始了技术革命式飞速发展,值得高度关注。
1 从 ChatGPT 到 ChatGPT Plus
GPT 技术是基于 Transformer 架构的自然语言处理(Natural Language Processing,NLP)模型,Transformer 架构原由 Google 提出,后由 OpenAI 开发,短短几年就发生了天翻地覆的变化。
2018 年,当 GPT-1 作为 GPT 的第一个版本推出时,貌不惊人,只是表明在自然语言理解和生成中取得了显著进步,证明了预训练+微调方法在 NLP 任务中的有效性。
2019 年,有 15 亿参数的 GPT-2 推出,使它在自然语言生成任务中表现出更高的能力。由于担心其潜在的滥用,OpenAI 最初并未发布完整的模型,而是采用了逐步发布策略。
2020 年,拥有惊人的 1750 亿参数的 GPT-3 发布,成为当时世界上最大的自然语言生成模型。千亿参数的大语言模型开始涌现质变,天下从此改变。GPT-3 在许多 NLP 任务中表现出色,甚至可以在没有微调的情况下实现“零样本学习”(Zero-Shot Learning)。2022年 11 月 30 日,基于 GPT-3 微调版 GPT-3.5 的 ChatGPT 上线,不到一周的时间,用户量就超过了 100 万,推出两个月就吸引了上亿的活跃用户,意外成为技术焦点。
2023 年 3 月 14 日,使用多模态预训练大模型,输入输出覆盖文本、图像、音频、视频等的 GPT-4 语言模型更是强势推出,基于 GPT-4 的 ChatGPT Plus 性能大幅提升,立即在全世界掀起颠覆性变革。
如今,基于 GPT-4 的 ChatGPT Plus 在自然语言处理中显示出强大无比的力量,尤其是编程代码生成和语言文本生成独冠世界,以可以选择生成 20 种编程代码、可以在约 30 种语言之间自由切换之智能形成对人类智力之“降维打击”,即将影响数十亿人的工作和生活,呈现出明显的技术革命特征。
2 GPT 技术应用
GPT-4 面世后仅两天,微软即于 3 月 16 日宣布将其应用到搜索引擎和办公套件里,推出 New Bing + Microsoft 365 Copilot,世界惊呼 10 亿办公白领即将面临颠覆性挑战。随后几天,在 GPT-4 支持下具有编程革命性的 GitHub Copilot X 和各类 Apps 集成应用相继横空出世,标志新技术革命正在发生。
GPT 技术在聊天机器人方面的应用,使得 ChatGPT 应用火爆。如今除 ChatGPT Plus外,还有微软推出的基于 GPT 技术的 New Bing Chat(AI 支持的网页版 Copilot)。在 New BingChat 首页,除问题输入框之外,还包含了特色及问题示例、意外和错误声明与共享反馈说明、三种对话模式等选项。其中,特色包含“提出复杂问题”“获取更好的答案”与“获得创意灵感”;对话模式包括“更多创造力”“更多平衡”与“更多精确”。相比较而言,尽管New Bing Chat 提供了更多样的对话模式,但文本准确性以 ChatGPT Plus 为佳。
目前,除了 Chat 类聊天机器人应用之外,GPT 类技术的典型应用主要体现在以下方面:
1)自动文本生成。一方面,GPT 类技术能够生成高质量的文本内容,对于信息处理中的内容创建和编辑具有重要意义。例如,自动生成新闻、文章、报告等,可大大提高了内容生产效率和质量。另一方面,GPT 类技术能够从大量文本数据中挖掘有价值的信息和趋势,快速识别大量文档并提取其核心内容,帮助信息处理者深入理解文本内容的同时,支持自动生成文本摘要,为解析信息和优化服务提供有力支持,有助于提高信息检索效率,为决策者提供更好的信息支持。
2)自动代码生成。当前ChatGPT Plus 能生成20 种编程语言代码,包括 Python、JavaScript、Java、C++、C#、Ruby、PHP、Swift、Kotlin、TypeScript、Go、Scala、R、Rust、Haskell、Lua、SQL、Dart、Shell scripting (Bash, PowerShell, etc.)、MATLAB,这一系列仍在扩展中。
3)语义搜索与判识。一方面,GPT 类技术可以提高对自然语言查询的语义理解,结合图像识别技术提供更加精确的搜索以及多样化的搜索结果。这将有助于提高信息处理系统的搜索能力,使用户能够更容易地找到所需的信息。另一方面,基于检索结果,可进一步实现个性化推荐服务。例如,微软在 New Bing 中增加了 Knowledge Cards 2.0,旨在通过事实、基于图像的时间轴、投票、行动和相关主题等帮助用户推荐和探索感兴趣的主题,扩展了知识图谱卡片的丰富性和多样性。
4)智能信息处理。这一专题领域涉及自动标引、自动分类、自动文摘、机器翻译、智能索引等一系列过去相对艰深的主题,尤其是机器翻译。数十年在研究与发展中进退维谷,如今在 GPT 技术支持下居然完全化解于自然而然。
5)智能图像生成。GPT 类技术可基于文本内容进一步生成图像,为艺术创作、创意设计等可视化表达提供灵感。目前,微软 New Bing 已发布 DALL·E 图像生成器(https://www.bing.com/create),是 Bing Chat 网页版中推出的体验 OpenAI 图像生成器DALL·E 的高级版本,可通过对话形式进一步调整图像中的元素,增加创作趣味性。值得注意的是,当前图像生成器仅可在“更多创造力”模式下进行使用,且目前仅支持使用英文对话以生成图像。图 2 是 DALL·E 图像生成器和 New Bing 对话自动生成图像对比示例。
GPT 技术支持下的图像图形处理智能系统还有 Midjourney 等。
放眼 GPT 技术应用,从文本生成、图画生成、代码生成、乐谱生成,到机器翻译,堪称一场超语言、跨媒介、多模态内容生成革命和智能技术革命。这将彻底重塑知识生产与知识服务,也正是 GPT 技术革命的核心涵义。
3 启示:大语言模型引发技术革命
除 GPT 外,还有不同公司研发的多种大语言模型产品,如 Google 发布在 BERT基础上建立的 PaLM(LaMDA)及其支撑的会话系统 Bard;Facebook 公司也发布有 Roberta 大语言模型。因大语言模型侧重点不同,GPT 的主要优势之一是能够生成高质量文本,而BERT、Roberta 则擅长分析文本。国内百度在 2023 年 3 月 16 日也发布了“文心一言”大语言模型,强调在文学创作、商业文案写作、数理推算、中文理解、多模态生成中的应用。华为则发布了盘古-α。以 GPT、BERT 等为实例的大语言模型具有很强的语言理解和生成能力,能够处理大规模的自然语言数据,使得自然语言处理技术获得显著提升,包括文本生成、机器翻译、图像识别、多模态集成等技术难题迎刃而解。大语言模型导致技术革命不足为奇,特别是通过以下过程实现了质的飞跃:
1)大模型的训练和部署。大语言模型的一个显著特点是它们需要大规模的数据和计算资源来进行训练和部署。为了训练这些模型,研究人员需要处理数十亿或数万亿个语言单元的数据,并在分布式计算环境中训练模型。同时,为了部署这些模型,需要强大的计算和存储资源。这些挑战促进了计算机硬件和软件技术的发展,如 GPU、TPU、深度学习框架等。
2)零样本学习和多语言处理。大语言模型的另一个显著特点是它们具有一定的泛化能力,能够在没有额外训练数据的情况下处理新的任务。这种零样本学习能力有助于降低数据收集和标注的成本,并推动自然语言处理技术在多语言处理方面的发展。
3)多模态处理。大语言模型的成功也激发了研究人员对多模态数据处理的兴趣。通过结合多种形式的数据,包括文本、图像、音频和视频,可以更好地理解和生成自然语言文本。多模态处理为自然语言处理技术提供了更多的应用场景和机会,如图像描述、视频字幕和语音识别等。
以多模态 GPT-4 和 PaLM-E 技术为实例,智能信息处理正在发生以下变革:
1)信息理解和分析。多模态 GPT-4 和 PaLM-E 技术具有更强大的语言理解和生成能力,能够处理多种形式的数据,包括文字、图像、音频、视频等。这将为信息处理带来新的可能性。例如,通过自然语言生成图像描述,或者通过图像识别生成文字描述,进一步提升信息的理解和分析能力。
2)信息检索和推荐。通过利用多模态 GPT-4 和 PaLM-E 技术,可以更准确和高效地检索和推荐信息资源。例如,利用多模态技术,可以根据图像内容自动生成描述性文字,从而更好地匹配用户的需求和偏好。此外,多模态 GPT-4 和 PaLM-E 技术也可以用于自动化内容生成,如自动生成图像标题、视频字幕等。
3)信息交互和展示。多模态 GPT-4 和 PaLM-E 技术可以改善信息的交互和展示方式。通过将多种形式的数据进行整合和转换,可以更好地展示和呈现信息,使用户能够更直观地理解和获取信息。例如,通过将图像和文字进行整合,可以生成更生动、可视化的信息展示方式,从而提升信息的交互效果。
固然,技术发展中应关注信息安全和隐私保护等,需要加强对数据信息的保护和隐私控制,规避信息泄露和滥用。
纵观当前技术,经验表明百亿参数以上大语言模型将涌现智能特征,“大力出奇迹”,以多模态 GPT-4 和 PaLM-E 为代表的大语言模型已给智能信息处理革命奠定基础。由于自然语言的普遍通用性,这一技术不仅会给自然语言处理带来显著变革,也会引发智能技术革命。可以预计,以 GPT 为标志的 AI 2.0 技术将与量子计算、清洁能源一道成为第四次工业革命的主导力量。
笔者之一多年来一直思考智能信息处理问题,并招收过智能信息处理方向博士生硕士生,然而,“昨夜西风凋碧树。独上高楼,望尽天涯路”,独自徘徊于自然语言处理的WordNet 和 HowNet 之间不得其解;随之“衣带渐宽终不悔,为伊消得人憔悴”,纠缠于“规则式”AI 探寻智能分析、机器翻译、自动综述难以自拔;最终“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”,“生成式”AI 及其 GPT 类技术应用正是所思所寻,于是疑难尽扫、豁然开朗。虽然乔姆斯基抱残守缺于转换生成语法规则而不看好 GPT 技术进步,技术革命却不以人的意志为转移地发生了。“江山代有才人出”,今领风骚 GPT。GPT技术风华正茂,知识世界面临变革。
4 讨论:信息资源管理教学与科研面临变革
ChatGPT 类应用(包括 ChatGPT 和 ChatGPT Plus)正在多个维度上产生颠覆性创新,可能为教学和科研带来重大变革,信息资源管理领域首当其冲。
传统教学体系可能瓦解成定型知识传授课和创新思想方法课两大类别:前者将被ChatGPT 类应用基本取代,学生更多自主学习;后者才是教师能力发挥起引导启发作用的拓展方向。
在典型的 2S2R 科研程式中,选题(Select)、检索(Search)环节皆可渗入 ChatGPT类应用作为高效的知识问答平台,而研究(Research)、结果(Result)环节则可借助 ChatGPT类应用解读分析结果、论文翻译、润色和文本校对等,还能在投稿时帮助生成 Cover Letter等文档,科研程式将焕然一新。
固然,由于 ChatGPT 类应用缺乏透明度,可能生成虚假信息并产生道德层面的问题,也可能会使科研的创新性和可靠性受到抑制,与教学科研倡导的开放科学运动背道而驰。但我们不能因噎废食,而应借助这一革命性机遇有效提高教学效率,让科研人员投入到更具创新性的工作中。因此,面对新技术冲击,应以开放的态度吐故纳新,迎接新技术革命的到来。
5 结束语
综上,在 GPT 类技术支持下,以 ChatGPT Plus + New Bing + Microsoft 365 Copilot 为代表的应用以及 GPT-4 支持下具有编程革命性的 GitHub Copilot X 和各类 Apps 集成应用为标志,GPT 技术革命正在发生,必将全面影响以教育、科学、文化为核心的智力工作,彻底改变知识生态,开启智能信息处理和信息资源管理之颠覆性变革,这些变革及有关理论思维值得强调。
GPT 技术的发展不仅展示了 NLP 领域的快速进步,而且大语言模型在自然语言处理中的潜力高速显现,直接把人工智能从 AI 1.0 推进到 AI 2.0。笔者用一组略带实例的观点型文章揭示 GPT 技术革命的内涵和外延,对其典型应用作现象级梳理,以期有益学界和业界。