
人工智能驱动的数字人文研究
2025年02期【本期推荐】
本文来源自liuwei.blog2月6日文章
作者:刘炜
以大模型为代表的人工智能技术正引发科学研究的范式变革,推动“AI for Science(AI4S)”迅猛发展,并向人文社会科学领域延伸,称之为AI4DH(AI for Digital Humanities)。
然而AI4DH是否成立?其实还是一个未知数。很大程度上取决于AI4S是否具有共通性?是否真是一个能够弥漫到所有科学研究的趋势?它有哪些特点能够应用于社会人文科学?这些问题其实都还没有解决。这里就做一些简单的探讨。
AI4S作为科学研究第五范式的提出
科学研究的第五范式,即“人工智能驱动的科学研究”(AI for Science,简称AI4S),是指以人工智能技术为主要方法,深度融合数据驱动与算法驱动模型,推动科学研究从传统经验归纳、理论演绎、计算模拟、数据密集型分析向智能化、自动化、人机协同的方向跃迁。“第五范式”的提法来自于美国微软的计算机科学家、图灵奖获得者Jim Gray提出的科学研究四范式理论,即科学研究的范式经历了四次重大变革:第一范式(经验范式):基于观察与实验,如古代自然现象记录。第二范式(理论范式):通过数学公式归纳规律,如牛顿力学、麦克斯韦方程组。第三范式(计算范式):利用计算机模拟复杂系统,如量子化学数值计算。第四范式(数据驱动范式):大数据分析驱动科学发现,如基因组学与天文学中的机器学习应用。第五范式则是在此基础上,通过人工智能技术实现科学问题的自主建模、推理与发现,被称为“科学智能+机器猜想”的新模式。
科学界对AI4S第五范式的认可和质疑
科学研究四范式理论提出之后得到了科学界的普遍认可,为数据科学的兴起和普及奠定了基础。然而随着大数据应用的普及,结合算力的增长和算法的突破,人工智能很快就得到了发展,以数据为基础的研究逐渐让位于AI驱动型研究。科学研究第五范式的核心特征包括:跨学科融合与复杂问题求解:强调通过AI处理高维度、多尺度的复杂科学问题,例如材料科学中的候选物质筛选和药物研发中的蛋白质结构预测。算法思维与科学场景深度结合:将科学方程的数值解作为训练数据,构建高效仿真器,提升科学模拟的效率和准确性。黑盒模型与可解释性平衡:在复杂问题中,允许黑盒模型存在,通过预测结果反向验证机制,并逐步通过数学理论解释AI决策过程,降低失控风险。等等。
AI驱动的科学研究很快在应用层面,如生物医药、材料与能源科学、基础科学研究等领域都取得了显著成果。AlphaFold系列成功预测了超过2亿个蛋白质结构,加速了药物靶点的发现;微软的Graphormer模型在Open Catalyst挑战赛中夺冠,模拟了催化剂-吸附物反应体系;在量子化学领域,AI技术突破了传统计算方法的规模限制,推动了基础物理研究的发展。
第五范式(AI for Science)不仅是工具层面的革新,更是科研思维与组织模式的革命。其核心在于通过AI的“机器猜想”能力突破人类认知边界。然而,第五范式也面临技术瓶颈、伦理与治理、学科协作与人才培养等挑战。超大规模模型对高性能计算的依赖、科学数据标注的高成本、AI决策过程的不透明性以及复合型人才的短缺,都是亟待解决的问题。毕竟通用人工智能AGI还刚刚看到曙光,未来,随着大科学模型(LSM)的成熟与计算模型的数学理论突破,第五范式才真正有可能成为科学发现的主流路径,推动人类迈向“智能科研”新纪元。
AI4S的成功能否移植于人文社会科学,而孕育出AI4DH?
人文社会科学与自然科学应该说在数据处理和模式识别能力方面的需求大多是一致的,但其应用前景和侧重点存在明显差异。对于自然科学而言,人工智能主要应用于海量数据的自动化采集与处理、实验模拟、模型预测和系统优化,这在物理、化学、生物等领域已带来诸多突破,如蛋白质结构预测、天体物理模拟和新材料发现等,依托于精确的实验数据和数学模型,AI能够高效发现规律并验证理论。而在应用于人文社会科学时,人工智能更多地侧重于大规模文本、图像、语音和社交数据的分析,通过自然语言处理、情感分析、主题建模和网络分析等技术手段,帮助研究者解读历史文献、文化现象、社会舆情及人类行为模式。例如,通过对古籍文献的数字化处理和语义解析,AI可以揭示文学作品中的隐性结构和文化变迁规律;在社会网络研究中,机器学习算法能够自动识别社群结构和意见领袖,推动社会行为的量化分析。
两者的相同点在于,均依赖于人工智能在大数据挖掘和信息提取方面的优势,都旨在提高研究效率,降低人工分析的繁琐度,并在一定程度上揭示传统方法难以捕捉的复杂关系。此外,无论是自然科学还是人文社会科学,AI的应用都促使跨学科合作,通过计算机科学、统计学和领域专业知识的融合,推动理论创新与实践验证。然而,二者的不同点也十分显著。自然科学的数据通常具有较强的结构性和可量化性,研究对象往往遵循严格的物理或生物规律,因此AI的应用更注重精确计算和模型预测;而人文社会科学中的数据往往呈现出非结构化和多义性特征,研究对象涉及文化、历史、社会情感等主观性较强的领域,AI在此领域的应用更侧重于文本理解、语义分析和情感识别,其结果常常需要结合深厚的理论背景和人文关怀来进行解读与判断。此外,自然科学中实验验证的可重复性较高,而人文社会科学的研究结果则往往具有多种解读可能,AI技术在此领域的应用虽然能够提供新的视角和数据支持,但仍需人文专家的深入分析与批判性思考来弥补机器理解上的不足。
因此可以断言,人工智能在自然科学与人文社会科学中的应用都拥有广阔前景,虽然二者在研究方法、数据类型和结果解读上存在根本性差异,在自然科学中更倾向于量化分析和模型预测,在人文社会科学中则更多辅助质性研究,二者各有侧重,却共同推动着科学研究方法的革新和跨学科交叉融合,因此AI4DH是完全能够向AI4S学习借鉴,也完全是站得住脚的。
人文学科庞杂而差异巨大,AI4DH如何能提供统一的支持?
人文学科的确浩若星河,不断有新的思潮、新的问题甚至新的领域产生,人工智能在不同人文学科中的应用存在显著差异,这种差异主要源于各学科的研究对象和方法论特性。然而数字人文本身就是一种“方法论共同体”,是数字时代人们对人文学科研究共性的一种总结。人工智能之所以能为人文学科构建统一方法论的核心,在源自于人工智能技术几个方面的能力:
- 将AI技术转化为基础研究能力。这种支持首先体现在数据处理层面,跨模态技术能够统一解析文本、图像、音频等不同形态的人文资料。无论是敦煌壁画的数字化修复还是《全唐诗》的格律分析,本质上都使用相同的卷积神经网络架构,只是输入数据经过不同的编码转换。知识图谱技术为各学科建立关联网络提供了通用工具,清史人物关系库与哲学概念演变图谱虽然内容迥异,但都依赖图神经网络挖掘实体间的潜在联系。时空数据分析框架的通用性更为明显,同一套地理信息系统既能还原黑死病的历史传播路径,也可用于追踪当代网络文化的扩散规律。
- 研究方法的转型也提供了强大的能力,定量与定性分析的融合形成了新的研究范式。例如词向量分析技术能够既用于检测《红楼梦》的文本风格差异,也能分析艺术作品的笔触特征,二者共享相同的统计显著性检验方法。形式化建模工具将不同学科的理论转化为可计算结构,哲学命题的逻辑验证与音乐理论的生成规则编码,本质上都是将抽象概念转化为机器可处理的符号系统。数字实验室环境的兴起更打破了学科界限,政策模拟沙盘与戏剧虚拟排演系统虽然应用场景不同,但底层都采用强化学习框架构建决策模型。
- 基础设施的协同效应进一步强化了方法论的统一性。数字人文平台为各领域研究者提供标准化工具链,从历史档案清洗到社交媒体分析,数据预处理流程使用相同的去噪算法和特征提取模块。开源算法库中的自然语言处理工具,既服务于古代经典的语义角色标注,也应用于当代舆情的情绪分析,区别仅在于领域词典的定制化调整。可视化技术同样形成通用范式,无论是呈现哲学概念的语义网络还是艺术流派的传播图谱,动态网络布局算法都能将抽象关系转化为直观的空间结构。
- 这种统一方法论在交叉研究中展现出独特价值。当探究宋代山水画与禅宗思想的关系时,研究者可并行调用图像分类、文本主题建模和时空分析三大技术模块,这些系统在底层共享相同的张量计算框架。但方法论的统一性并不消解学科特性,历史学需要为史料可信度设计加权算法,文学研究必须开发专门的隐喻识别模型,哲学分析则要增加逻辑一致性校验层。这种”通用架构+学科插件”的模式,既保留了人文学科的知识特异性,又使不同领域研究者能共享数字时代的分析工具,最终推动人文研究在保持学科深度的同时获得方法论的创新突破。
结论
社会人文科学研究素材的搜索获取、加工处理、选题确立、数据分析、假设洞察、推理引证、撰写成文以及成果交流等环节都已经受到AI的深刻影响。AI4DH的兴起,一方面作为工具正在展现巨大的潜力,另一方面也让人们看到了前所未有的创新机会,问题的存在往往就是学科的发展机遇,例如主体性问题、可信度问题、安全性问题等等,可能导致对传统伦理道德的冲击、对人类自身价值和存在意义的迷失,以及对人文主义内涵与外延的挑战等。这些问题一方面是一种不稳定性存在,促使老树发新芽,同时也在催生许多新的交叉边缘学科的诞生,拓展人文研究的新疆域。最后,AI4DH的最大贡献,可能还在于理论方面,不仅有助于深入理解技术对人文进步的影响,还将深化人文学科的理论基础,为应对技术的终极挑战而提供更强大的理论支持。