人工智能时代的元数据方法论
2023年08期【本期推荐】
作者:刘炜、刘倩倩、付雅明、祝蕊
本文选自:刘炜,刘倩倩,付雅明,祝蕊.人工智能时代的元数据方法论[J].图书馆理论与实践,2023(04):16-29
【摘要】元数据是关于数据的数据,随着技术的进步,元数据获取逐渐成为信息系统数据建模和实现功能的关键性步骤,发展起一套包括实体定义、关系描述、对象分析、属性提取、本体建模,以及数据清洗、消歧、对齐、映射、关联、丰富、导入、导出乃至服务部署、注册发现、运行监测等一系列操作的方法论体系,旨在帮助实现任何信息体的结构化描述、语义编码和机器理解。这些不仅是语义技术 (包括关联数据) 和知识图谱技术必需的应用,而且已成为信息系统建立独立的、基于知识的内容架构的基本操作和主要方案。文章把与元数据相关的一系列方法体系统称为元数据方法,相关的最佳实践基本体现于语义万维网已经制定、正在制订或正在考虑制订的各项标准规范中。元数据方法在未来基于 Web 3.0 的多模态元宇宙建设中会继续起到多方面的重 要作用,如利用知识模型构建数字孪生,甚至支持对整个虚拟世界的建模等。当然基于人工的描述和编码显然不能适应元宇宙时代用户生产内容 (UGC) 和 ChatGPT 带来的人工智能生成内容 (AIGC) 的内容生产方式,必须有一套方法论帮助自动实现语义形式化。这应该是元数据方法适应未来智慧时代需求的必由之路。
【关键词】元数据方法,内容架构,语义建模,知识本体,Web 3.0,ChatGPT,元宇宙
1 从元数据到元数据方法
1.1 元数据的产生与发展
元数据产生于对事物进行描述的需求。在有“元数据”这个术语之前其实就有这个概念了,最早可以追溯到五六千年前两河流域用来记载交易的泥板,到公元前 280 年左右亚历山大图书馆用来对卷轴进行描述的标签和分类系统 “Pinakes”,也就是后来演化并发展了数百年的图书馆卡片目录,这类早期的、数字时代之前的 元数据应用都是基于手工在物理载体上的描述, 只能以人工的方式进行管理、组织和利用,是“前”数字时代的元数据概念。都柏林核心元数据组织 (Dublin Core Metadata Initiative,DCM) 的首席信息官 Tom Baker 称之为元数据 1.0 时期。
“元数据”一词是伴随着数据库技术的发展和普及而出现的,在数据库应用中通常都需要对所 描述的数据表进行一定的说明。人们用一条条记 录 (通常是数据表中的行) 记载所描述对象的各种属性特征。这相当于把泥板内容或卡片元数据搬到了电脑里,从而实现“机器可读”;并通过赋 予对象描述一定的结构,实现“机器可计算”,使 人们能够利用计算机的能力,提高查询和管理元数据的效率。无论是磁带文件还是后来的关系型数据库,元数据都被用来记录数据结构信息及其 他附注信息。这一时期它是被限定在封闭系统中使用的,图书馆行业的 MARC 书目数据就产生这个时期,是最典型的元数据形式。这是元数据2.0 时期。
真正使元数据“发扬光大”而流行起来成为“显学”,还是在互联网时代,特别是在数字图书馆建设的需求背景下。此时信息爆炸使得信息的 查找和过滤变得非常困难,人们需要在全球网络 中找到有用的信息,于是寄希望于对信息体进行 描述和结构化。最迫切的是对网页等数据类型和 对象进行标识,以及满足数字图书馆中包含的大量商用与非商用的半结构化、非结构化资源库的检索需求,以实现“跨域”的数据组织、查找、 定位、选择、关联、比较等目的。可以认为这一阶段元数据的作用是帮助从信息向知识进行化,这是元数据的作用在互联网时代彰显出的核心价 值,可以将这个时期称为元数据 3.0 时期 。
随着技术的发展,计算机能够处理的结构单 元从信息进化为“知识”,机器的“可计算性”不 仅指操控文本图像等数字化信息,而且能通过对 语义的描述和编码,直接对“知识”进行计算和操控,这其实也是通过一系列元数据描述和编码 规范来实现的。通过标准化的编码,“知识”就能 在机器之间传递和融合,实现机器的可理解和互 操作。这可以认为是促进知识向“智慧”的转化,进而通过支持数据挖掘或机器学习实现“智慧数 据”的功能,甚至能够支持自动构建知识体系。元数据 2.0、3.0 时代主要依靠人力来实现元数据规范化的方式显然是不能持续的,因此推进元数 据标准规范的应用,使其从产生到编码、从关联 到可视化,都尽可能达到自动化,在整个生命周 期中尽可能减少人工参与,将人工智能应用于整 个流程,尽可能全面采用机器学习技术,这是对未来元数据 4.0 的预期。
1.2 元数据方法的形成
随着越来越多的数据库提供网络访问,元数 据描述和应用需要遵循统一的规范标准,才能实 现一致性理解和数据的互操作。回顾元数据的发展历史可以发现,元数据不仅仅是实现客观描述 那么简单,描述的目的 (为什么描述) 和方法 (如何描述) 也同样重要,需要考虑方便性和成本因素,以及未来的可扩展性及兼容性。需要指出的是,元数据方案总有权衡取舍,需要在各种因素之间寻找到合理的平衡点。
元数据方法通常体现为各类元数据标准及其最佳实践,以及与应用系统相关的各类元数据模型。DCMI 是专门推动元数据应用标准化的典型代表,其近 30 年来的发展,也代表着“元数据方法体系”的主要历程。DCMI 诞生于万维网问世之后不久。初衷是探讨对网页资源进行描述和编目的标准规范,名称中的“核心”一词是出于这批先行者的远见卓识,他们坚持了基本标准 的“小就是美”,致力于提供一个普适的、最简单的“核心”元素集,而对于大千世界的复杂情况建议优先推荐一套扩展方法,以方法论为引领,而不是直接定义元素集,以使任何领域需求都能够围绕这个核心生长起来。
后来的发展也证明了他们的明智之举。包含15 个核心元素的 DC 元数据集很快成为对互联网资源进行语义描述的基础标准,被 ISO、CEN、IETF、NISO 等国际标准化组织和很多国家标准机构认可,接纳为正式标准。DCMI 不仅提出了资源描述的属性元素核心集和扩展集 (Qualified Element Set),还提出了通过 DCAM 抽象模型对元数据记录的组成结构进行了规定,并且提出应用纲要(DCAP) 作为元数据模式 (Metadata Schema) 领域应用的扩展规则,例如可以与其他常见的元数据词表,如 FOAF (用以描述人或代理 agent) 进行融合而组成应用纲要,最常用的元数据词表和模式可以在 Linked Open Data 网站中 找到。欧盟甚至以应用纲要作为标准,将 W3C的数据目录词表 (DCAT) 定义为可用于数据编码的模式 DCAT-AP,颁布为欧洲标准。DCMI 近年又致力于制订将 DCAP 进行形式化编码的表格 (Tabular) 规范,使元数据记录能够自描述和 自解释,从而使元数据描述记录能够独立于技术实现。
DCMI 对资源描述的基本结构提出了一个抽象模型和编码规范,为元数据应用的标准化和功 能实现提供了基础的技术保证。图 1 定义了元数 据记录的结构,称为“DCMI 元数据抽象模型”, 规定了一个资源可以有任何编码形式 (图中举例为 HTML、XML 或 XML/RDF,也可以是其他编码语言,但推荐采用 RDF 兼容的语言) 的元数据集(描述集) 组成。每个描述需要有一个资源 URI, 属性元素和其取值构成了陈述 (键值对);属性也可以是资源 (拥有 URI), 值也可以是资源 (有URI) ;值可以取自某个规范的编码体系 (也有URI);取值的表达可以有语种和语法编码体系 (有 URI 进行规定,如给一组正则表达式赋予一个 URI) 的 限定;除此之外,取值也可以是字符串或复合值 (如 csv),或指向另一则描述。图 2是对元数据序列化的包结构进行说明:一个资源可以有多个描述,每个描述需要有规范的元素作为谓词及其取值,谓词可以有子元素,取值可以规定语言,以及从取值词表 (主题) 中获得。目前很多知识图谱应用中都没有严格使用这种抽象模型和包结构,因此在语义表达的规范性和互操作性程度方面,都达不到语义技术所希望的高度。
元数据应用逐渐普及,尤其是在科研数据库和文化遗产管理领域,逐渐形成了很多元数据的 标准规范和最佳实践。在互联网领域,谷歌等搜 索引擎提出基于 Schema.org 的知识图谱技术,使得网站建设开始普遍采用元数据方式提供搜索引擎优化(Search Engine Optimization,SEO),从而 使元数据几乎成为网页发布的标配;除此之外,DC 元数据标签 (指 dc.title、dc.subject 等) 的使用率大增,这也是搜索引擎希望揭示正确语义的 一个步骤。
元数据应用的普及有效提高了信息系统的查全率和查准率,能够多角度地揭示信息和数据之间的关系,也为不同资源系统之间的互操作提供了解决方案。然而这时的元数据应用大多只能通过人力来进行相关工作,如标引、抽取、组织、关联、校对等,成本巨大,且严格的标准经常造 成效率低下以及数据质量参差不齐,即使是简单 的标准也会有内容揭示不够深入、可用性不强等问题,虽然元数据方法已初步成型,但尚未达到 成熟阶段、未得到普遍应用,并且缺乏体系化的成果总结。
在这里我们对元数据方法给一个简单的定义。所谓元数据方法,是对特定知识体系的内容架构 进行形式化描述的系统性方法和规范,它不只是 对机构内文献资源库提供结构化描述,而是为了在网络环境下,满足信息系统关于资源揭示、互 操作和长期保存等相关需求,具体功能包括查询、 搜索、浏览、存取、排序,甚至分析、可视化等 等。可以认为它是对语义万维网的基本资源集合提供结构化描述的形式化方案。
2 元数据与机器智能
2.1 从结构描述到语义编码
如同编目之于传统图书馆,元数据方法是构建数字图书馆的基础,它初创于对网络资源和数字资源进行编目的需求。早期的数字图书馆通常缺乏整体的、宏观的知识体系描述,更没有在知识体系内部建立起实体之间的相关关系,只是提供了局部或微观的信息资源描述,实现的功能也很有限。在语义技术成熟之前,元数据只是用来生成结构化索引用以支持用户以结构化关键词方式进行资源检索,其中知识内容则隐含在结构化文本信息中。这类信息系统的知识传递只能面向人消费,人们在获取信息之后自行解读其中的内容,机器和机器之间则无法传递语义,或提供语义互操作,并进行任何形式的知识集成。
语义万维网技术的出现首次提出了一套完整的对语义进行编码和形式化的方式,支持通过对语义数据的计算,直接达到操控知识的目的。语义技术以“知识表示”技术为基础,实现了对一元谓词逻辑 (即描述逻辑) 的形式化表达,从而能够使计算机突破只能表示信息的限制,而直接对语义进行计算和操控。由于语义表达是标准化的,这种操控突破了任何单个、本地的信息系统,具有全网域的通用性,而且这种语义不仅是给人用的,也能在机器之间达 成互操作,从而应用于物联网、传感网或在服务器之间的语义交互。
可以说语义万维网技术的基础是元数据。元数据最基本的功能是应用于数据结构化,然而结 构化只是提供了机器可处理,光有元数据结构化 描述是不够的,还需要有赋予元数据形式化的编 码规范,形式化则是机器可理解的前提,解决元数据描述模式 (schema) 的可计算性问题形式化通常是以“元数据模式 (Schema)”方式提供机器可处理的编码,具体的元数据记录还需要实例化,即进行序列化编码。一切编码都可以用 XML 方式实现,当然也可以通过简化的等价的变种来实现。
我们通常所说的元数据编码,其实就是解决元数据的可计算问题,依据元数据模式对具体的实例进行序列化,这样每一条元数据记录 才能被计算机所理解和存储。严格的元数据编 码规范应该是基于万维网协会推出的资源描述框架,即 RDF,它规定了对任何实体进行描述的三元组结构,以及形式化编码规范,即RDFS 以及 OWL。当然也有不严格的直接采用图数据库的谱编码方案。每一条元数据都是关于事物属性的基本判断,三元组是元数据最自然的形式化表达,其具体实现可以是任何形式语言,如 RDF/XML 或 N3,或 JSON-LD 等。可以认为三元组是人类认知的最小结构单位,是整个知识宇宙的基本粒子和知识大厦的一砖一瓦。
元数据的形式化表达提供机器理解和更强大的可计算性,为元数据注册、查询、映射、发现、 扩展、导航等元数据服务提供了可能。并且使计 算机突破只能表示信息的限制,而直接对语义进 行计算和操控。由于语义表达是标准化的,这种 操控是突破了任何单个、本地的信息系统的,具 有全网域的通用性,而且这种语义不仅是给人用的,也能在机器之间达成互操作,从而应用于物 联网、传感网以及服务器之间的语义交互。至此,以提供信息系统语义架构和内容架构为目标的一整套元数据方法体系就得以建立起来。
元数据方法可以看成是通过人工分析而对领域知识体系整体进行建模的过程,知识本体本身就是领域知识的概念化模型,因此知识本体 (以下简称“本体”) 的构建也是元数据方法的重要内 容,如果采用了知识本体,就需要基于概念,而 不是基于语词,这与传统信息检索中的基于概念的知识体系是一个道理,本体的定义是领域概念及概念之间关系的规范化描述,这种描述需要尽可能做到规范、明确 (显性描述)、以形式化方式为机器所利用,并支持共享复用。“明确”意味着 所采用概念的类型和它们应用的约束实行明确的定义。我们知道传统的主题词表 (如叙词表) 也 是基于概念的,也是对领域知识的概念抽象,并具有一定的概念之间的关系描述,但当时主要是提供手工检索。虽然 DCMI 的元数据模型推荐采用 URI 来标识资源、术语等实体对象,这实际上也可以看成是一种“概念化”。当然一般的元数据应用对此并不强调,例如目前大量的知识图谱应用都直接采用语词作为节点,虽然不能建立严格的基于概念的知识体系,但这样的知识图谱构建成本很低,通常可以通过软件自动提取实体建立关系。
领域内容模型现在已经有一套已粗具规模的设计模式可以借鉴和遵循,这就是领域驱动 设 计 DDD (Domain-Driven Design)(见 图 3)。该模式提出以统一语言对需求进行提炼和规范化,从而建立模型,再付诸代码实现,其统一语言就是元数据方法的具体化。它的基本概念, 如 ENTITY、 VALUE OBJECT、 SERVICE、 AG-GREGATE、REPOSITORY、FACTORY 可以类比于内容知识模型,对实体、关系、取值和各类约束进行定义,然后采用规范编码 (如 RDFS、 OWL 等) 即可提供内容模型独立于实现的形式化 表达。
本体可以提供底层资源元数据模式之上的总体描述,通常是根据需求,对领域知识体系或资源库 / 知识库在宏观内容架构上的整体描述,包含各类高层实体及相互关系,可以看成是相关本体的组合。本体建模除了词表和关系较为复杂,采用的建模语言 (如 OWL 等) 有所不同之外,本质上与元数据编码没有什么不同,OWL 本身就可以看成是 RDFS 的扩展,因此也可以采用元数据同样的“应用纲要”方式融合不同的编码模式, 在本文中不做特别讨论。可以认为元数据模式与 形式化本体共同构成了领域知识体系或资源库 / 知识库的内容架构。
在图书馆工作的元数据应用中,元数据方法逐渐拓展到信息系统应用的相关各个方面,包括内容、管理、技术等过程的描述方案,最重要的是对作为数字馆藏主体的数字文献提供 基于“内容”的结构和索引,突破了数字图书馆以文献单元为描述基本对象,而深入文献的内容层面,对主题、人物、事务、事件等进行 描述和管理,还能进一步支撑内容模型的构建, 在数字人文平台甚至数字孪生和元宇宙应用中得到实践,进而更好地支撑科研、教育、出版等领域的数字化转型 (向科学研究的第四范式转型 。
2.2 大数据带来的挑战
在人工智能发展到深度神经网络之前,几乎所有知识组织和知识表达都是以对人类认知过程的充分掌握为前提的。元数据帮助信息结构化,数据之间的关联构成一张有意义的网络,关联关系的描述和获得都因此得益于元数据。这个网络越大,就越需要有一定的机制从数据中获得知识并加以存储和利用,进而提炼出所谓的“人工智能”。采用语义技术对知识的编码 (通过对知识中的客观内容——“语义”进行编码),使计算机 “懂得”知识、处理知识,并实现在分布式环境中 获取、传递、处理知识。目前元数据方法已经从 技术上基本解决了认知计算的基础问题:知识表 示和描述。这至少是提供了一种方案,即通过对信息体的结构化,结合对领域知识的认识,利用 本体工程,将领域知识概念化、语义化,得到领域知识模型,从而为信息体建立起基于内容的知 识关联。这样就能充分借助计算机系统的海量存储、永不遗忘、高速计算等远超于人的能力,开发出各种领域知识库的应用系统。
上述方法背后蕴含了两个重要的前提假设:第一,有足够的人力,能够及时完成不断增长的 海量信息的语义化工作;第二,所有知识都可以通过形式化的知识表示工具进行代码化、形式化、 模型化,从而被计算机所认知和计算。显然这两 个假设并非总是成立的:信息爆炸使得数据量呈 几何级数增长,现在普遍认为通过人工方式对信息进行标注和组织是不可能完成的任务;也并不是所有的知识都可以代码化或用符号逻辑来表达。
因而语义技术带来的语义数据作为“小而优 质的数据”,由于上述两个原因,再加上其商业驱 动力不足,并没有得到预期的普及和应用,仅在 数字图书馆领域取得了有限的成功。正由于本体 的复杂性、语义编码的模糊性、技术实现的不一致性和架构流程难以自动化,通常建设过程中需要大量的人工处理,让很多实践者望而生畏,成为应用语义技术的掣肘。虽然近来通过引入大数 据管理技术,尤其是图数据库技术,能够在一定 程度上缓解效率、规模和扩展性问题,但根本问题仍然没有得到解决,亟须找到一种可以迅速推 广的工程学方法。不过作为一个领域,元数据方法能够解决其他一些方法无法解决的问题,有其 独特的能力,欧洲的许多大学和研究机构一直资 助支持这方面的研究项目,做了大量实验性探索,产出很多学位论文和课题成果。
人工智能从一开始企图模拟人脑直接获得智 慧,在这条道路上艰难探索了几十年。而另一些人则认为知识是需要经过认知才能获得,才能彻 底掌握智慧的机理,实现以计算机来模拟。到2011 年,随着以深度神经网络为代表的机器学习 算法在计算机视觉、模式识别、自然语言处理等方面突破性的进展,直接通过海量数据的训练就让机器获得智慧的想法大获成功,于是很多人认为发现了人工智能的圣杯,通过机器学习的方式进行自动的模式识别是从数据中获得知识和智慧的最佳途径,而通过人类知识的编码而获得机器智慧的做法是一条死胡同,而这种做法正是所谓传统人工智能的“符号学派”的经典做法。
符号学派通常认为智慧来自人对大千世界的 理解,机器则只能模拟,永远无法获得“真的” 智慧。物理学家费曼曾经说过,“如果我无法创造某样东西,我就无法真正理解它”。符号学派相信,除非你能用算法表达出来,否则你就算不上真正了解某样东西,机器所获得的智能从根本上说还是人的智能。元数据、语义网等都属于符号学派,都是通过对知识赋予编码来操控知识的思想,在历史上符号学派确实对于人工智能没作出过特别重大的贡献,唯一可以提及的,是 20 世纪 70 年代在构建专家系统方面取得过一些进展。近年来随着谷歌提出的知识图谱概念逐渐普及,结合图数据库的发展刚刚开始显现出一些潜能。
联接学派并不这样认为。他们经常驳斥符号学派:人类学习知识的过程并非总是白箱,能够说得很清楚,人类儿童智力养成的突变过程就可以发现符号学派的假设不成立。人工智能发展历史上的几度盛衰也同时是不同学派此长彼消的竞争史。以深度神经网络崛起的联接学派自十几年前大爆发之后,虽然最近才随着 ChatGPT 而再度成为明星,但一年之前还被著名认知科学家、纽约大学教授加里·马库斯认为再度遭遇瓶颈。马库斯在一篇名为 《深度学习撞了南墙》 的文章中指出,联接学派 (即深度学习) 无法解释因果,没有时空常识,缺乏层级概念和推理机制等等,造成该方法有难以克服的不确定性、不稳定性和不 可移植性 。这些问题并没有随着 ChatGPT 或 GPT—4 的应用而彻底解决,反映了深度神经网络所获的都还是知识感知智能 (被业界称为系统1),还没有到达认知智能 (即系统 2),而系统2 的智能通常认为是进入了符号学派的领地。虽然信奉深度神经网络能力的联接学派一直对信奉知识显式表达的符号学派比较排斥,但并非所有人工智能专家都反对使用元数据,当人工智能遇到瓶颈时,尝试各种方式、对各个学派进行“融合”也经常成为寻求突破的灵感来源。目前可能的突破是发挥各个学派的长处,从各个学派的融合中去探寻,尤其是融合符号学派在人类常识、逻辑和因果规律方面的长处,以及对已有知识的掌握方面。近来取得成功的很多案例都是不同算法结合的产物,例如谷歌在阿尔法狗围棋算法中 就采用了深度学习(分析围棋棋盘上的棋子布局)和蒙特卡洛树搜索 (提前搜索以判断不同棋步的结果) 相结合的方法 。然而迄今为止三位因深度神经网络而获得图灵奖的大牛 Yoshua Benjio、 杨立昆 (Yann LeCun) 和 Geoffrey Hinton 都提出了改进方向,但都没有考虑从符号学派中获得帮助。不过马库斯的同道也大有人在,学术界近年来已开始了各种融合方法的探索,在各大计算机顶会上已成为亮丽的风景。
2.3 元数据方法与机器智能的结合
元数据方法可以在两个方面与机器学习结合:元数据方法可以通过机器学习实现一定程度的自动化,同时元数据方法所标注的知识体系也可以成为机器智能高质量训练数据的来源。
一方面,元数据的获取和建模可以通过机器学习获得帮助,即使目前还不能全方位满足全自动处理的需求,也能大大缓解效率和成本问题。在通用人工智能 (AGI) 出现 之前,完全的机器认知和语义理解可能还无法实现,资源内容的语义描述基本上还需要靠人工为主完成,机器的 “自主认知”还是科学幻想,但越来越多的工作可以通过应用业已成熟的计算机视觉、自然语言处理等技术提供解决方案。例如在字符识别和实体识别、关系抽取、自动标注、文本翻译转换等方面都可望取得突破,并探讨对内容数据进行大规模自组织的可能性。在这个背景下,一种具有自描述、可计算和可行动的“智慧数据”概念被提了出来,以 RDF 三元组表示、能够包含一定因果、时序或表达公理的三元组集合就可以认为是最简单的智慧数据,其处理加工流程也可以实现自动化,借助各类元数据规范词表和本体模式进行自动校验,进而自动生成语义数据甚至知识图谱等。
另一方面,元数据对于领域知识的描述可以看成是大量的语义标签,能够应用于神经网络或其他算法对算法模型进行训练,从而克服小数据领域所造成的训练瓶颈,得到更加精准的学习模型或分类器,使机器学习得到更广泛的应用。当下的数字图书馆和绝大多数知识体系 (例如维基百科),都可以看成是由元数据方法构建的知识大厦,它们无论是直接作为数字图书馆提供人类智慧,还是作为具有丰富的关联性的知识宝库为机器学习的训练或测试数据,都是很有价值的。事实上 GPT-3 预训练模型在训练过程中就是这样 做的,它训练了包括 600 万篇维基百科和数百万种电子图书,以及很多称得上“知识库”的网站, 这些都是经过结构化元数据标注的高质量语料, 此外还结合行为学派的人类反馈强化学习(RLHF)域标注数据进行调参 (fine-tuning),以及利用用户提示词进行优化。这些方式都可以归入“符号学派”,有专家认为上述符号学派和行为学派的思想完全应该发挥更大作用,目前这种合作才是刚刚开始。大量的研究已经有效证明标注元数据对于采用深度神经网络或其他机器学习方法的目标效果可以有更大的直接影响 。当下让机器更加善解人意的符号神经网络 / 系统已经 成 为 一 个 热 门 领 域 , 类 似 的 图 神 经 网 络 (GNN)、马尔可夫逻辑网络、知识图谱 KG 与DNN 结合研究,都是不同机器学习学派尝试进行方法融合的产物,其中处处都有元数据的影子, 应该是目前突破瓶颈的一条值得尝试的道路。
我们可以将数据变成信息——信息加工成知识——知识再升华为智慧的过程类比成一条去粗取精、逐渐递升的食物链:在人工智能的大陆中,爬虫、索引器相当于食草动物,元数据是他们最主要的食物;统计算法、分析软件则是食肉动物, 元数据被它们消化吸收后变成更有营养的信息, 并转换成“知识”;机器学习算法则将信息分门别类,供人们“食用”后就变成了智慧。数据科学是所有上述过程和方法的总结,其中转换的各种 模型、模式、格式,都是为有助于计算而产生,数据中台、数据湖、数据仓库等,是必要的仓储手段,本体是知识结构化 (可计算) 的必须、是抽象和固化,而算法是智慧化的催化剂,智慧数据存在于这两者之间。那些被认知的、有因果关系和能够被存储的智慧,就是由智慧数据构成。智慧数据的产生和应用也要可计算,才能适应发展,也是机器学习的必然结果。
智慧时代需要以智慧赋能系统,以智慧系统服务知识创造。让机器善解人意的前提是人先要为机器打工:编制并生成本体和描述,对常识进行编码,几乎所有的传统方法加上计算思维都需要用到数据建模和资源描述,因此元数据方法是普适的,而机器学习尤其是神经网络在还没有进化到通用人工智能之前,都还只能是在某些领域取得一定成功,而另一些领域可能完全不行。目前绝大多数问题都还是采用传统方法来完成,元数据方法甚至是机器学习的前提。当深度神经 网络的机理还没有被人所认识、被数学所证明之时,其在确定性和适用性方面也是未经证明的,虽然用于某些领域的工程实践可以带来效率的极大提升,但对于科学研究而言它还不够可靠,因而还不够“科学”。最终我们当然希望机器学习方法能取得成功,完全取代元数据方法,而不只是强化元数据方法。
3 元数据与元宇宙
3.1 元宇宙与 Web 3.0
元宇宙作为完全由数据与协议构建起来的虚拟时空,像金字塔和长城一样,都是人类利用技术进行大规模协作的产物,不论是物质的还是虚拟的,归根到底都是人的造物。元宇宙概念的兴起,让我们感受到“一切过往皆为序章”,更为广阔的未来之幕正在徐徐拉开,我们已站到了一个新纪元的入口。过去的一切都是为迎接一场新的宇宙大爆炸而做的准备和铺垫。我们虽然看不清未来,但可以确定:我们已经进入了一个无法逆行的时空隧道。
如果小说可以当成论文被引用,发明“元宇 宙 (Metaverse)”一词的美国科幻小说家尼尔·斯蒂 芬 森 携 他 的 1992 年 出 版 的 《雪 崩 (SnowCrash)》 应该可以占据近两年年度引文榜榜首。虽然他很不认同时下很多大公司对元宇宙的解读, 但他对元宇宙的描述基本获得了一致认同,即 “一个平行于现实世界的虚拟数字世界”。
美国著名投资人 Matthew Ball 的定义得到了较为普遍认可,他认为:“元宇宙是一个大规模的、可互操作的实时渲染的三维虚拟世界网络, 支持无限注册用户实时和连续地获得体验,具有 个人的存在感,并具有数据的连续性,如身份、历史、权利、物品、通信和支付。”
与其说元宇宙正在开启下一代互联网,不如说互联网是前一代元宇宙。当互联网发展到Web 2.0,上述元宇宙的大部分关键属性其实都已具备:各类标识系统构成大规模对象空间、各类关系描述将整个网络的各类实体联系起来,实现 一定的互操作,支持全球用户,能够实时、连续在其中活动,各种要素都不缺,但实现机制有所不同,其中最大的不同在于两点:区块链技术带来的身份、历史、权利、物品、通信和支付具有唯一性、不可窜改性和可追溯性,也使用户生成内容及各种投资和变现更具有确定性;以及混合现实能渲染出更加拟真的沉浸体验。波普尔所说的“第三世界”即知识世界空间此时可以说已经高度成型。数字造物与有形产品最大的不同是它可以任意拷贝而没有任何损失,因此不具备天然的唯一性,也因此就无法“拥有”从而实现资产化。体验的沉浸感也是元宇宙获得独立性的质变因素,当然人的沉浸感不一定要戴上头盔才能 获得,它有时只是心理界线的跨越,取决于物质世界的主体与其精神世界的代理能否“身心合一”。这两个需求现在已经可以由区块链技术和扩展现实技术 (XR=VR+AR+MR) 得到解决,这两个领域正在资本的刺激下突飞猛进。
Web 3.0 是将区块链的去中心化和加密通证功能赋予万维网,并能基于 3D 或 AR/VR/MR 的扩展现实技术呈现信息或提供服务的一种分布式网络应用的总称,通常还支持无处不在、永不停机、身份互通、资产互认等特性。元宇宙偏向于从大众理解的交互层面描述未来的互联网,而互联网 (Web 3.0) 说得更多的是元宇宙的底层实现技术,因此这两个术语经常可以互用:在面向大众、涉及应用场景和生活方式时更多使用“元宇宙”,而面向技术实现和未来趋势时,则更多地说“Web 3.0”,可以认为它们是一体两面。
如果追根溯源,可以发现 Web 3.0 一词先于区块链存在,其实它一开始并不是指以区块链为底层技术的网络基础架构,而是指在 Web 基础上提供一整套语义服务的技术。以语义万维网为特征的 Web 3.0 来自万维网的直接发明人蒂姆·伯纳斯—李爵士。我们在本文中所提到的知识本体、 语义技术、关联数据等,皆来自李爵士所领导的万维网协会 (W3C Consortium),在语义网完整的技术堆栈中有“可信”的要求,W3C 曾经提出应用区块链技术的社会机器 (Social Machine) 概念,给人的感觉是这才是正宗的 Web 3.0。然而 技术的发展就是这样,作为语义网的 Web 3.0 一 直没有成功,而以加密算法提供底层信任机制的 改造却迅速成为潮流,不得不让人感叹商业的力量远大于技术乌托邦。也有人为了区别于语义万维网的 Web 3.0,特意将区块链技术所代表的网络技术称为 Web 3。这样的区分反而增加了混淆,其实并无必要。
与前两代互联网技术进行对比:Web 1.0 是内容的互联网,用户在其中消费信息;Web 2.0 是社交互联网,用户在其中创造信息;而 Web 3.0 是价值互联网,用户可以拥有信息资产。从元数据的角度可以看到,元数据发轫于 Web 1.0,成就于 Web 2.0,而将会在 Web 3.0 时代大放异彩。
1.0 时代元数据起到了内容揭示和发现的作用,数字图书馆依靠元数据,谷歌等搜索引擎的崛起也利用了元数据成就了巨大的商业规模;2.0 时代兴起了用户生成内容,利用了移动互联网的崛起,诞生了更多的提供中心化服务的巨头,此时维基、 博客、播客、微博、电子商务等百花齐放,普遍的关系描述 (如社交网络就是关系计算) 成了必须,RSS 就是其中的典型代表;3.0 时代有望实现真正去中心化,底层以区块链技术进行架构,任何行为和所产生的信息都可以留下痕迹,因而它也带来了去中心化信任 (或者去信任化),借助个人数字钱包确认的去中心化身份 DID (Decentralized Identity),就可以行走穿梭于所有的元宇宙中。当然它也能够通过一些方式兼容 2.0 和 1.0 时代的中心化经济模式。虚拟数字世界所有的运动 都是信息的运动,几乎没有什么“摩擦力”,而以 现实世界所建立的生产关系来管理和运行数字世界常常需要很高的成本,电子书就是一个很好的例子,维持版权的成本大大高于让其自由流通的成本,以至于原本的商务模式无法维系,产生了流量模式、广告模式等新模式。3.0 时代的产权保护是与信息生产同步发生的,是平台与生俱来的 属性,当然这并不妨碍拥有权力的人支持开放运动,反而能够使开放共享免费做得更加有效。只有真正提供强有力保护的制度,才更有利于彰显道德,惩恶扬善。
3.2 元宇宙/Web 3.0 中的元数据
元宇宙由多层数据及其相互连接的协议组成,简单地说数据有内容元数据、技术元数据和管理元数据 。内容元数据总体上与 Web 2.0 的内容元数据大致相同,但 Web 3.0 世界更加复杂,会创新很多数据类型和格式,需要支持 3D 渲染、 空间计算等新颖的交互方式,例如 NFT 本身就是 一种元数据上链的方式,结合智能合约形成智慧数据,会生成很多有趣的属性组合,其市场估价 与属性的组合玩法直接有关。元宇宙建模也涉及 本体构建和属性描述等,都涉及大量的元数据模式。技术元数据主要包括系统架构、响应方式、 交互规范、服务的注册与发现,以及协议的具体 设计等。管理元数据包括所有具有独立意义的数字对象的生命周期管理,用于确保用户在每个场景和案例中建立信任机制,以及为信任机制的顺利运行而提供的各种约束和设定等等,通常对于元宇宙运行规则的规定 (体现在去中心化自治组织即 DAO 的运行规则中) 和智能合约都属于元宇 宙的管理元数据范畴。
Web 1.0 的元数据通常描述的是线下的实体,Web 2.0 直接可以通过元数据获取网上的对象文件,而 Web 3.0 时代元数据与它所描述的对象都是数据,常常难分彼此,互为描述。我们可以通过 Web 3.0 的著名项目 The Graph 来体会这种元数据无所不在的现象。The Graph 项目提出了一 套协议机制,能够以去中心化的方法为以太链(包括 IPFS 或其他 Web 3 的数据源) 上的应用数据建立索引并提供查询服务。Web 3 已经有 Filecoin、Arweave 等很好的去中心化存储方案,但缺乏对区块链上的数据建立搜索引擎的能力。The Graph 正是为了解决这个问题而提出。它定义了四类角色:用户、索引者、策展人、委托者,并发行代币 (GRT),用户需要花费 GRT 以支付索 引费用;索引者质押一定的 GRT 取得运行索引网络节点的权利,但当用户查询数据时他就可以获 利;策展人花费 GRT 提出值得索引的子图;委托者将 GRT 质押给节点以赚取收益。它首先根据策展人的需求,能够监听区块链上时时被触发的数据变化,然后它根据策展人的设定去区块链上抓 取所需的子图,所涉及的元数据可以包括任何区块链上的存储数据和事务数据,处理好之后存储在索引数据库中 (也是去中心化的);用户就可以通过开发好的 GraphQL 前端进行检索,并可以进行统计分析和可视化,可以支持其他 Dapp 在此基础上进行开发。这个方式很好地解决了去中心化环境下数据索引并提供查询服务的利益机制,包括定价模式和利益分配方式,具有很好的可编 程性、实时性、自组织性和扩展性。目前 The Graph 服务器每月处理来自 Uniswap、Coingecko、Synthetix 等数十亿次关于价格、历史交易量、流动性数据的查询请求,不依赖于任何单独服务器, 已经是一个无服务器应用。
Web 3 中几乎所有的模式创新都需要用到元数据。除了上述 The Graph 之外,另一个典型案例是源自 Web 2 时代的典型应用 RSS (RDF Site Summary 或 Really Simple Syndication) 内容分发与聚合标准,在 Web3 中它实现了一个分布式版 本:RSS3。如图 4 所示,传统模式的 RSS 下,用户创作的内容都是基于某个中心化平台,平台 再通过渠道 / 算法推荐给用户;而在 RSS3 下,创作者自己掌控内容,DApp (Decentralized application 去中心化应用程序) 调用用户内容,其他 用户则能够订阅创作者的内容。RSS3 不仅通过暴露元数据而获得自动的聚合,还能保证每篇内 容创造都能够被追踪和持续获得收益 (在作者设定了相应的权属的情况下;当然,很多作者是采用创作共用协议,即 Creative Commons 无偿分享内容)。
RSS3 设计得虽然稍嫌烦琐,但非常巧妙,由 Natural SelectionLabs 提出,实现了三个应用组件:RE:ID、Web2Pass、Revery,分别解决用户唯一身份 (与数字钱包捆绑,但可以赋予一个 RNS 全局 域名)、个人化主页,以及本地内容资产聚合以及 订阅问题,适合去中心化环境。与传统的 RSS 相 比,RSS3 最大的特点在于内容一经创建便永久存 储,由作者确权,分发和聚合完全由创作者掌控, 不交给平台。目前 RSS3 的应用是在 Solana 公链 上打造的,内容铸造费用很低,并支持低成本的 Arweave 存储,因此更具有十分广阔的应用前景。图 4 说明了 RSS2 与去中心化的 RSS3 的区别。
元宇宙的技术架构与目前互联网主流应用架 构相似,都是分层实现的。通常可以分为四层。
* 核心层:通过各种设备在数字层和物理世界之间建立关联 (这些关联是使元宇宙对人类有用的原因);
* 设施层:人工智能、机器学习和区块链能力,以增强、链接、翻译和优化特定用例的数据,并确保用户信任其体验的安全和隐私;
* 服务层:连接各层数字数据的技术,如机器对机器学习;
* 应用层:包含数字内容或数据,如 B2B 的数字孪生和 B2C 的游戏和电影。
从应用开发的角度看,又可以将元宇宙/Web3 应用分为三层:去中心化应用 (DApp)、去中心化服务网络和去中心化数据源,服务网络又可分为协议层和隐私层。目前这类应用还不普遍,为保证功能的尽快实施以及一定的效率, 在具体的应用层次中还有很多中心化的设计,且或多或少有相当部分是通过 Web2 的中心化解决 方案提供的,例如数据源既可以来自于去中心化数 据 网 络 , 如 IPFS, Arweave, Ceramic, Kwil等,用于存储用户链上身份数据、社交关系、UGC 数据和通信内容等;也可以来自本地数据库,采取链上链下并举的数据存储方式。现已有 一种基于存储数据流 (Stream) 利用链上数据的 创新方式 Ceramic,提供了非常强大的内嵌身份验证机制 3ID DID 和 IDX 跨链身份协议,目前已得到多个项目的支持,如社交图谱 CyberConnect 等。协议层是最为关键的部分,这方面的创新层出不穷,一个好的协议不仅要考虑技术上 的性能指标,还需要能长期持续吸引用户,产生新的关系、身份、荣誉的协议等,目前还没 有形成稳定的主流模式。应用层是协议层的实现,是指能形成可持续通证经济的社交应用。此外以太坊创始人 V 神等 2022 年 1 月提出的灵魂绑定通证 (SBT) 解决了非资产化身份的确认问题 ,形成的社交关系可以兼顾可组合性的更广泛的社交属性,将链上社交代币的核心价值回归到关系证明本身,成为真正有效的社交凭 证,补足了 Web3 区块链应用的非金融身份,使元宇宙中的人作为一种主体的属性更加完整。
目前元宇宙概念还处在炒作大于实际的泡沫期,最大问题是应用不够丰富,虽然类似于FilecoinArweave、RSS3、The Graph 等应用给人以 无穷想象,但这些都还属于 Web3 为元宇宙提供 的基础设施,还没看到真正完整的、激动人心的 “元宇宙”,使得人们能像 Web2 时代的腾讯帝国一样,在其中直接实现大多数日常需求。去中心化金融 DeFi 发了大量的数字货币但都没有实际需求的支持,大都被称为“空气币”,一些稳定币创新也在市场动荡中归于失败;游戏领域 GameFi虽然创新不断,但基本上都是在一个封闭世界中自嗨,其价值不具有普遍性;真正算得上出圈的应用是 2021 年流行起来的 NFT,结合社交应用 SocialFi 给人看到了很多创新,尤其在 DAO 的设计方面,但相关应用都还非常初级,还没有出现“杀手级”应用,在目前数字货币还没有走出熊 市,元宇宙也经历 ChatGPT 的浪潮迭代,正在走入低谷,希望撇去泡沫后留存下来的都是真正有价值的应用,一旦严冬过去,能够真正进入健康发展的良性周期。
元数据的价值之所以在网络时代才得以彰显, 主要是因为在分布式信息环境中需要对信息体的属性描述和语义互操作做一些显式的规定,突破了元数据的功能局限,并不是说在关系型数据库或更早的时代就不需要元数据,后者元数据的功能局限于系统内部,能够自解释即可。而到了元宇宙时代,Web3.0 的去中心化数据架构,物联网和边缘计算以及无所不在的机器学习、智能服务和信息实体的交互让元数据的功能更加发挥得淋漓尽致,元宇宙的整个大厦都建立在服务发现和资源发现基础之上,必须有一套描述、注册、发 布、发现、互操作机制,这些都必须依赖元数据的功能来实现。
3.3 元数据、元宇宙与认知计算
元宇宙就是一个数据的宇宙,无时不在产生、 处理数据和进行模式识别,这些数据都是机器可处理、可识别和可计算的,数据之间建立起非常复杂的联系,因此它们彼此互为“元数据”。而且元宇宙中的数据主要不是直接给人阅读的,绝大多数数据是由机器进行消费的,机器之间的数据整合、协同、传递,当然最终还是为了满足人类需求。元宇宙中的数据池就像生命体中的氨基酸 和有机分子,是智能的营养液,认知计算则是对这些数据进行编织,使其实现功能的工具。认知计算是让计算机模拟人的认知以及让人通过计算机获得更多更快认知的总称,认知计算的发展,不仅能利用计算机帮助人进行认知,最主要的作用是教会计算机以人的方式进行认知,即自主认知,因此人工智能在这个意义上来说完全是认知计算的一部分,而元宇宙作为真实世界的平行世界,充满了人的分身或自主的“认知主体”,因此认知计算在元宇宙中无所不在。
在 Jon Radoff 提出的元宇宙七层架构 (见图 5)中包含了彼此相互区别又紧密联系的功能要素,他把元宇宙定义为“基于活动的实时互联网”。此外,他还指出,Web3 是在该新互联网(元世界) 中实现应用程序之间的价值交换的关键。其中功能性架构和语义性架构彼此交织无所不在,而且都是通过相互关联的服务机制联系在 一起,其中必然会发展出一种近乎智能的自动的 交互和进化方式。
计算机认知能力的获得是以模仿人作为起点的,但人工智能的发展似乎正在说明人的认知机制非常复杂,而且人的认知方式不一定是最优的,建立在大数据基础之上的机器学习已经提供了一 条比人类更准确更高效的认知途径,因此认知计算不一定只能通过模拟人的方法,可能还有其他方法,尤其是机器智能能够自我进化之时,机器的自主认知将会极大地拓展知识的疆域。
认知计算在以下七个方面对元宇宙的建设和开发都能够发挥重要作用:内容生产;内容描述与展现 / 渲染;内容评价;智能交互;智能决策算法;数字孪生;元宇宙互操作。
元宇宙的世界用了大量的“造物”技术,都是对于人类真实世界的模拟,具有前所未有的复杂性和动态性,需要符合情境且模仿人类行为,实时接受传感信息进行判断和预测,因此尤其需要 AI 适应各种情况进行模拟和辅助。元宇宙对实时情境和实时交互、沉浸式体验、随时随地访问元宇宙和 AI/ 元数据有更高的需求。
目前 GPT — 4 已经能很好地具备多模态能力,即对文本、图像、音频、视频中的任何实体和场景都能很好地识别和认知,文生文、文生图、文生音、音转文、文种互译、摘要浓缩、远读细读、 文生视频、视频实体识别、图生图、图转文等等, 可以做到对除触觉嗅觉味觉以外的各类感知进行实时判断预测,与人互动,或指挥机器人行动。这里的各类场景充满了各类元数据的交互和输入输出,比如位置信息、语气语调、身体语言、面部表情等等,大量客观数据需要经过人工智能进行“主观”计算,才能提供相应的决策,并形成认知模式,建立认知模型,以供未来更高速地计算和判断。从元数据到 AI 的作用方式与传统方式可能会有很大不同,但仍然需要进行认知流程与模式的规范化。
人工智能应用的各个分支领域,如数字人, 需要大量的数据建设,同时需要 AI 对其个性、能力、魅力等进行自我改进,才能使它更像人类、 超越人类。人工智能应用于元宇宙生命周期的各个环节,但所有元宇宙都是人工系统,所有零部件都必须是经过描述和被掌控的,所有的元宇宙都按照人为设定的方式通信,即以无数的 DAO (分布式自组织方式) 运行,其自身无论是 DeFI、GameFi 还是 NFT、SocialFi,从本质上来说最终还是要提供满足人们需求的价值,而不能只靠“信 仰”或纯粹的内循环,意义消费是目前最常见的 一种形式,例如游戏中的虚拟装备、文化遗产或艺术品的稀缺价值等。再复杂的元宇宙,最终的价值还是要体现在为人服务上。
4 结语
本文在对元数据方法进行追溯总结的基础上,对大数据环境下元数据由结构描述到语义编码的发展进行了讨论,系统分析了元数据如何与机器 学习相结合,以智慧赋能知识体系构建与知识创造。元数据方法作为对知识体系的系统化描述规范,将在 Web3.0 分布式信息环境以及多模态元宇宙建设中继续起到多方面的重要作用。相对于Web2.0 应用中大量的因缺乏描述而削弱了其应用价值的非结构半结构化数据,Web3 中有意义的细颗粒度数据和无所不在的关联及描述,使其更像是被赋予了一个无所不包、全知全能的神经网络,元数据和机器学习 (AI) 在 其中的价值是基础性的。在这个过程中,元数据需要与机器学习算法相结合,发展出一套自动实现语义形式化的方法论,这即是元数据方法适应未来智慧时代需求的必由之路。
(注释、参考文献略)