
基于大语言模型的古籍中医药知识服务智能体建设
2026年04期【行业交流】
作者:韩 丽 梁国庆 许 洁(上海中医药大学)
来源:韩丽,梁国庆,许洁.基于大语言模型的古籍中医药知识服务智能体建设[J/OL].信息与管理研究,1-13[2026-04-15].https://link.cnki.net/urlid/31.2118.G2.20260413.1734.002.
上海中医药大学图书馆“基于馆藏古籍医案数据挖掘的AI多智能体建设”案例,在2025年“第一届智慧图书馆技术应用创新实践案例征集活动”中荣获“最佳服务创新案例”。该案例依托上海中医药大学图书馆特色馆藏古籍,构建了“古籍医案AI多智能体集群”,推动了中医药古籍的数字化保护、智能化分析与创新应用,为中医药传承发展提供了创新解决方案。
0 引言
习近平总书记就中医药工作多次做出重要指示,强调要深入挖掘中医药宝库中的精华,充分发挥中医药的独特优势,把祖先留给我们的宝贵财富继承好、发展好、利用好。中医药古籍文献承载了先贤们对生命、健康与疾病的深刻洞察与无限智慧,因此,加快医学古籍资源的转化利用、挖掘其中的重要价值具有重要的现实意义。
近年来,以人工智能为代表的新兴技术在社会各领域加速落地应用。2025年8月,《国务院关于深入实施“人工智能 +”行动的意见》发布,进一步推动 AI 与各个行业领域的深度融合。大语言模型(Large Language Models, LLM)凭借强大的语义理解与文本生成能力,显著提升了非结构化数据的处理效率和分析深度。这为中医药古籍知识的挖掘、利用和传承提供了前所未有的历史性机遇。
在技术演进层面,以大语言模型为核心的智能体(AI Agent)技术迅速发展,成为推动大模型能力落地应用的关键形态。智能体以其感知环境、自主规划、工具调用与动态演进等能力,逐步成为生成式人工智能落地的重要形态。在教育领域,智能体已深度融合于“教、学、管、评”场景,具备多模态感知、复杂任务适应等特征,可基于 ReAct、CoT 等框架实现任务规划,并体现出在交互支持、题目生成与评估方面的优势 。除此之外,智能体还展现出较强的泛化与推理能力,例如结合知识图谱提升事实准确性,应用于无人艇路径规划、重大突发事件情报响应 以及音乐创作流程等,显著提升了相关领域的知识服务效率与智能化水平。
然而,智能体技术在中医药古籍医案抽取与数据挖掘方面的研究尚处于起步阶段。这主要源于两方面的挑战 : 一方面,古籍内容缺乏标点、语言晦涩难懂,通用大模型难以准确解析其中的复杂语义 ; 另一方面,中医“辨证论治”等核心思想涉及深层逻辑与临床语境关联,仅靠通用模型难以实现有效建模与推理。因此,探索面向中医药古籍医案的知识挖掘与服务智能体,既是应对当前技术瓶颈的可行路径,也是推动这一宝贵文化遗产深度活化与创新利用的关键举措。基于此,本文围绕古籍中医药知识服务智能体的建设展开研究,重点解决古籍文本的智能化抽取、知识问答与临床辅助决策等关键问题,以期为中医药古籍的智慧化保护与传承提供新的思路与实践参考。
1 研究基础与关键技术
1.1 馆藏优势及前期工作
上海中医药大学图书馆(以下简称“上中医图书馆”)是全国古籍重点保护单位,馆藏古籍36 663册件,其中包括特藏善本1110部6196册,以及10部入选《国家珍贵古籍名录》的珍本等特色医籍。目前馆藏古籍已完成高精度扫描,建立了图像库,文本清晰可识别。
在前期的工作中,上中医图书馆已采用深度学习OCR 技术(如基于Transformer的TrOCR模型)对部分图像数据进行预处理,并结合分布式文本切片技术,针对古籍竖排、繁体、无标点等特性,采用差异化分割算法,通过识别基于“案”“诊”“方”等关键词的语义边界划分,有效提升了单册处理效率。在提取古籍文本的基础上,图书馆组织中医文献专家对生僻字、异体字及模糊文本进行人工校勘,完成疫病、妇科、本草、方药、针推、养生等领域的古籍文本识别,累计形成约4 000 万字的基础语料库,为建设基于大模型的智能体构建了坚实的数据基础。
1.2 关键技术
要构建基于中医药古籍与大语言模型的智能体系统,需解决其与古籍语料库及应用程序之间的异构集成与协同问题。当前,大语言模型应用开发框架、检索增强生成(Retrieval-Augmented Generation,RAG)与多智能体协同等技术,为实现这一目标提供了可行的技术路径。
大语言模型应用开发框架为系统提供了基础架构支撑。目前比较通用的 LLM 应用开发架构包括LangChain、Semantic Kernel 等。其中,LangChain 可以让开发人员把诸如 GPT-5 这样的大语言模型和外部数据结合起来,并提供了Python或JavaScript (TypeScript)的开发环境。此框架包括 models、prompts、indexes、 memory、chains 和 agents 六个主要模块。智能知识库问答是其典型的应用场景。
Semantic Kernel 是微软开发的一个基于LLM 的应用开发框架,旨在通过提供一系列工具和应用,帮助开发人员快速构建高性能、可扩展的LLM应用。该框架支持多种编程语言,如Python、Java、C#等,并提供了丰富的API接口,方便开发人员进行定制开发。
RAG是当前提升大语言模型生成质量的关键技术之一。这一概念由Lewis等人提出后,发展为一种结合了信息检索与语言生成模型的人工智能技术,主要解决LLM 在生成文本时可能会出现的幻觉问题。基于此技术框架,目前比较流行的有 Dify、RAGflow等低代码平台。其中RAGflow 作为RAG的技术框架重点强调文档的精细化解析,并在文档解析方面进行了大量优化,能够从复杂格式的非结构化数据中提取信息,提供基于模板的文本切片功能 ; 与RAGflow不同,Dify 核心侧重点在于提供灵活、易用的可视化工作流编排能力,并构建了丰富的插件与Agent工具生态,旨在降低AI应用开发的整体门槛。
智能体(Agent)作为实现复杂任务自动化与协同决策的核心要素,其概念来源于哲学,在被引入人工智能领域后,用于表达能够感知周围环境、做出决策、开展行动的计算实体。智能体的发展经历了5个阶段,即符号智能体、反应智能体、基于强化学习的智能体、具有迁移和元学习能力的智能体、基于大模型的智能体。基于大模型的智能体是能够感知环境、自主规划、进行决策和执行动作以实现目标的人工智能系统,具有自主性、交互性、适应性等基本特征 ; 不仅能处理复杂的自然语言任务,还能跨越传统AI的限制,进行推理、决策与多模态互动,涵盖了从单一任务优化到多智能体协同的广泛应用。
2 古籍中医药知识服务智能体的设计与实现
2.1 智能体建设目标
本研究致力于将人工智能技术与中医药古籍医案智慧进行深度融合,以上海中医药大学图书馆为依托,建设一个集高效、智能、开放于一体的新一代知识服务平台。结合中医药学科特色,确立以下四个方面的核心建设目标。
(1)实现古籍医案知识的智能化抽取与结构化、向量化存储
针对中医药古籍文献中存在大量非结构化文本 的特点,充分利用大语言模型的自然语言理解与生成 能力,对已完成数字化处理的古籍文本进行全面而深 入的语义解析。本系统旨在自动识别并精准抽取出其 中蕴含的核心实体概念(如疾病名称、中医证候、经典 方剂、中药材及治疗方法等)及其内在关联(如“‘桂枝’为‘桂枝汤’之主药”、“‘伤寒论’创立‘六经辨证’”),从而将原本分散、隐晦的非结构化知识转化为系统化、规范化且具备良好可计算性的混合知识库。此举目标 在于改善传统古籍知识孤立存在的状况,构建起互联 互通的知识网络,为后续的深度挖掘与多模态应用奠 定坚实基础。
(2)构建交互式知识问答与探索平台
在构建完成的知识库基础上,需进一步结合通用大语言模型,开发直观友好的智能交互接口。各类用户群体,包括中医专业研究者、临床医师、在校学生及广大中医药爱好者等,可通过自然语言直接提出问题。例如 :“请列举古籍中治疗阴虚火旺的代表性方剂”, “分析‘补中益气汤’与‘四君子汤’在主治与配伍上的异同点”,“关于‘肝郁脾虚’的相关论述在古代医籍中是如何记载的 ?”本智能体目标在于能够准确捕捉并理解用户的真实意图,从构建的古籍知识库中进行高效检索与信息整合,最终生成较为准确、完整、易于理解的回答,并提供信息来源。
(3)完成知识的深度挖掘与临床辅助决策支持
区别于传统的文献检索与参考咨询服务,本研究计划构建一个具有较强的逻辑推理与综合分析能力的智慧知识服务平台。它能够灵活调用知识库中的多源信息,进行比较、归纳与演绎,从而产出具有洞见的结论。例如,平台可基于对不同历史时期、不同学术流派医案的分析,自动生成关于某一特定病征(如“失眠”)的专题综述,梳理其病因病机、治则治法的演变脉络 ; 或在遵循中医辨证论治基本原则的前提下,模拟古今名医的诊疗思路,为临床工作者提供具有参考价值的辅助诊断与治疗方案建议,促进古籍隐性知识的显性化与实用化。
(4)推动中医药知识的现代化传播与辅助学术应用
构建具备中医药学术及科普问答功能的智能体,使其成为文化传播与学术研究的载体。智能体能够以生动形象、互动性强的方式,向社会大众普及中医药健康知识,成为讲述中医药故事、传递中医药智慧的重要桥梁。在教学与研究方面,它能够帮助研究者们迅速把握中医药领域的核心概念与研究脉络,能有效促进中医药学与现代生命科学、信息科学等相关学科的交叉融合与创新发展。这不仅有助于提升国民健康素养,更有助于增进国际社会对中医药的理解与认同,为中医药学术与文化“走出去”战略提供有力的数字化支撑。
为实现上述目标,系统的建设思路为 : 以本地关系型数据库和向量数据库作为知识扩展来源,通过意图识别控制工作流的走向,在检索增强的基础上对内容进行评价与过滤,随后重构提示词,最终由基座大语言模型完成推理生成。该技术架构融合了当前主流的大语言模型应用开发框架、检索增强生成与多智能体协同等关键技术,确保系统在知识处理、交互体验与推理能力等方面达到预期目标。
2.2 智能体功能实现
基于前文提出的四大核心建设目标,本研究在技术实现层面将其归纳为三项核心任务。(1)古籍医案整理及内容抽取 : 智能体负责完成古籍知识的智能化抽取、结构化与向量化存储,为实现目标 1 提供基础 ;(2)古籍医案辅助健康问诊 : 智能体聚焦于知识的深度挖掘与临床辅助决策,支撑目标 2 和目标 3 的实现 ;(3)中医药学术问答 : 智能体承担交互式知识问答及现代化传播及学术应用两项功能,为用户提供直观友好的智能交互体验,支撑目标 4 的实现。
为实现上述功能,本研究聚焦疫病防治、养生保健、针灸推拿及经典方剂四大主题范畴,系统性采集并整理了涵盖元、明、清三代的万余条珍贵医案文献。基于自主研发的人工智能技术架构,深度融合自然语言处理、深度学习,以及关系型数据库和向量数据库相结合的混合知识库方法,深入挖掘古籍中蕴含的丰富诊疗经验与实践智慧。
2.2.1 “古籍医案整理及内容抽取”智能体
古籍医案整理及内容抽取智能体的构建流程如图1所示,依次展示了从古籍语料库出发,经文本切片引擎、LLM医案识别模块、人工校验平台处理后,先后构建SQL关系数据库与向量知识库,最终服务于上层应用的完整流程。
本智能体采用三级递进式处理架构,依次完成医案识别与关系抽取、语义标注与结构化数据库构建以及向量知识库生成的核心任务,系统地完成从原始语料向多维知识表示的自动化转换,为古籍非结构化数据的规模化开发利用提供了可行的技术路径。

图1 古籍医案整理及内容抽取智能体构建流程图
(1)第一层 : 医案识别与关系抽取
首先对原始古籍语料进行批量提取与预处理。针对古籍文本中医案边界模糊、结构异构等问题,采用多策略融合的文本切片引擎,集成固定标记定位、语义感知划分与滑动窗口截取等方法,将连续文本合理切分为适合模型处理的语义单元,为后续识别奠定基础。
在此基础上,通过构造结构化抽取提示词(prompt),与文本切片一并输入本地化部署的大型语言模型(包括 DeepSeek、Qwen3 等系列),驱动模型识别并抽取出符合预定数据结构的完整医案记录。
为实现高质量的标注效果,系统引入了大模型协同标注机制,部署了Qwen-72B 与DeepSeek-R1 等高性能模型,通过动态提示工程技术构建标准化的多任务指令集,从而实现对多样化医案文本的统一化抽取。典型的结构化抽取提示词指令范例如下:

最后,为确保数据准确性,建立了人机协同的双盲校验机制。专职馆员仅需对模型输出的低置信度(<0.85)片段进行重点审核,该方法相较于传统的全程人工校对模式,工作效率得到显著提升。
(2)第二层 : 标注语义关系,自动生成结构化关系型数据库
本层负责对已识别的医案记录进行细粒度的语义解析与关系标注。系统通过程序化流程调度大语言模型,从医案文本中准确抽提疾病名称、临床症状、方剂组成、中药药材及治疗方法等关键实体及其属性,并据此自动构建起结构严谨、关系明确的关系型数据库。
与此同时,研究定义了专用于中医药领域的中医本体元数据结构(Schema),并利用大语言模型实现实体间关系的三元组自动提取,例如:
( 张仲景 , 创立 , 六经辨证 )
( 桂枝汤 , 包含药材 , 桂枝 )
( 阴虚火旺 , 对应方剂 , 知柏地黄丸 ) 等
基于上述结构化数据,后续可进一步在 Neo4j 图数据库环境中构建动态可演化的知识图谱。该图谱不仅能支撑“症状—证候”的贝叶斯概率推导、方剂配伍规律的复杂网络分析,还可实现跨朝代医家学术渊源与流派传承关系的可视化呈现,为中医药历史研究与临床知识发现提供新型工具。
(3)第三层 : 构建向量知识库
为适配高层次认知任务如语义检索与智能问答的需求,系统采用本地化部署的 Embedding 嵌入模型,将所有已完成结构化的医案记录转换为高维向量表示,并持久化存储为向量数据库。此举为后续应用提供了高效的近似最近邻搜索与深层语义关联挖掘能力。
2.2.2 古籍医案辅助健康问诊智能体
为推动古籍医案知识在当代健康管理场景下的实践应用,本研究设计并实现了一种融合多源混合古籍医案知识库与动态推理机制的辅助健康问诊智能体。该智能体通过解析与融合古籍医案中的诊疗经验,为用户提供个性化的健康问诊支持,旨在将传统医学智慧转化为可供现代人参考的健康管理方案。具体建设过程如下。
首先,构建多源混合知识库。以馆藏的元、明、清时期代表性医籍(如《李士材先生伤寒括要》《临证指南》等)为底层数据源,整合数万条古代医案。所有医案数据均由古籍医案整理与内容抽取智能体进行深度处理,最终形成兼备传统关系型数据库(支持精准查询)与现代向量数据库(支持语义检索)的双轨制知识仓库。
第二步,设计与实现动态推理引擎。用户输入临床症状描述后,智能体启动基于 AI 代理的递进式工作流。整体运行流程如图 2 所示。具体过程为从用户输入开始,历经关系型数据库精确匹配、向量数据库语义扩展检索、动态阈值筛选、结果聚合、重排序及大模型推理,最终生成推荐方案。
图2 推理引擎工作流

整个过程的核心在于多层级的检索策略与智能路由机制。具体而言,系统的检索与推理过程遵循如下设计。
在初级检索阶段,系统首先访问关系型数据库,执行基于关键词与结构化属性的精确匹配,力求快速定位高度相关的医案。若初级检索结果未能满足预设的召回数量或相关性要求,则自动切换至向量数据库执行语义层面的扩展检索。该过程计算用户输入与知识库中医案的语义关联度,并将超过动态设定阈值的医案纳入备选集合。倘若仍无足够数量的合格医案,系统将启动多轮交互式追问流程,引导用户补充必要的诊断信息,此过程循环直至备选医案数量达标。
当来自两个检索层次的候选结果合并后,系统进入决策与生成阶段。首先运用动态阈值决策树进行初步筛选,其阈值参数可根据实际应用反馈进行在线调整。通过筛选的医案再经由bge-reranker-large 模型进行综合相关性重排序(Rerank),最终遴选出Top-k个最具参考价值的医案作为证据上下文。在此基础上,将精选的医案证据与重构后的推理提示词共同输入大型语言模型,驱动其进行归纳、类比与演绎,最终生成结构化的诊疗建议。
其中,用于激发模型进行结构化推理的核心提示词(prompt)设计如下:

在工程部署层面,系统依托 vLLM 或 Ollama 等高效部署框架实现大语言模型、嵌入模型、重排模型的本地化部署,并以标准化的 OpenAI 兼容 API 接口对外提供服务,确保了系统的易集成性与可扩展性。
2.2.3 中医药学术问答智能体
为实现中医药专业知识服务的智能化与专业化,本研究基于馆藏古籍医案构建了包含传统关系型数据库与向量数据库的综合知识集合。系统采用整合了图书馆现有业务系统及中国知网(CNKI)、PubMed、超星等商业化数据库资源,构建了集学术知识问答、业务咨询与文献检索于一体的综合性智能服务系统。该系统实现了中医药学术问答,同时也实现了图书馆常见业务的智慧咨询,在有效降低中医药知识的使用门槛的同时,为图书馆业务的智能化转型升级提供了可借鉴的技术路径。
(1)智能体工作流程
中医药学术问答智能体的核心流程如图 3 所示。系统首先对用户输入问题进行深度语义理解与意图识别,自动判别用户查询属于图书馆业务咨询、特定文献查询,还是基于古籍或现代资料的中医学术问答。根据识别出的不同意图,系统将路由至相应的工作流进行处理。
①中医药学术问答工作流 : 若用户发起中医学术性问题,系统会主动探询用户期望的知识来源偏好——是基于古籍智慧还是现代文献证据。若用户偏好古籍,则进入古籍混合知识库进行 RAG 检索与生成,最终的回答中将明确标注所引用的古籍原文出处,确保学术严谨性与可溯源性。若用户倾向于现代文献,系统将通过函数调用机制,激活中国知网等数据库的检索模块。在此过程中,管理员可预先在后台设定检索约束条件,如期刊发表时间范围、期刊影响因子级别、最大返回文献数量等。系统会对检索到的文献进行摘要提取、观点归纳与综合比对,最终为用户生成一份简洁的综述报告,并提供相关文献的直接访问链接以供深入研究。
②图书馆业务工作流(AI 馆员): 当用户提问属于图书馆业务范畴时,系统将路由至图书馆业务工作流进行处理。AI 馆员作为多智能体相互协同的一部分,实现了与中医药学术问答工作流的协同调用。此模块整合了图书馆日常运营中积累的大量结构化与向量化数据,包括但不限于常见问题解答(FAQ)、各项规章制度、部门联系方式等,形成了一个专用的业务知识库。更重要的是,该工作流中实现了与图书管理系统(如汇文系统)及商业数据库(如读秀、百链)的服务接口对接模块,使得系统能够替代用户执行一系列复杂操作。例如,用户可直接询问“请帮我查找近三年关于针灸治疗失眠的 SCI 论文”,系统不仅能返回符合条件的文献列表,更能直接提供全文下载链接,极大地简化了读者的信息获取过程,提升了服务效率与用户体验。

图3 中医药学术问答智能体程序流程
(2)核心技术模块
上述工作流程的高效运转,依赖于三个核心任务模块的协同支撑。各模块紧密协作,系统建立起一套智能、高效的处理机制。三个核心任务模块技术路径如下。
模块一 : 多重向量知识库构建。为实现异构知识的统一管理与高效检索,系统构建了融合多源信息的混合向量知识库。该库通过对不同类型知识采用最优嵌入模型进行处理,既保证了各类知识的语义表征质量,又实现了跨域知识的关联与融合。具体的向量库构建参数如表 1 所示。其中,古籍医案知识库选用在中文语义匹配评测中表现卓越的 BGE-large 模型。其强大的上下文理解能力尤其适合处理文言文或简练的古籍文本,能精准捕捉古代医案中病征、方剂、疗效间的复杂语义关系,将隐性知识转化为高质量的向量表示。图书馆规章知识库选用在指令遵循和文本分类任务上突出的 M3E 模型。图书馆规章条文结构清晰、要求精确,M3E 模型能更好地理解并向量化各类规则、流程、权限的规范性描述,便于进行高准确度的条款查询与匹配。而现代文献知识库,面对海量且不断更新的现代学术文献,采用“实时检索增强生成”策略。对于这部分知识,系统不预先固化存储全部向量,而是在需要时通过联网检索权威数据库获取最新、最相关的文献片段,动态集成到检索上下文中。这确保了知识的时效性,并规避了大规模向量化存储与更新的开销。
表1 混合向量库构建

模块二 : 生成式问答系统实现。基于 DeepSeek、 Qwen 等先进的推理模型,并依托 Semantic Kernel 等应用开发框架,构建了支持多轮交互的智能问答引擎。其实现是通过一个分层、协同的系统架构来完成,核心实现路径如下。
核心层通过混合模型调度与推理机制实现灵活调用。系统内置了多模型路由机制,可根据用户需求或主动选择,动态调用 DeepSeek、Qwen 等不同模型的API。通过统一的适配层,抽象各模型的差异,提供一致的交互接口。在推理优化上,利用模型的原生思维链、函数调用能力,结合框架的提示词模板,将复杂问题分解为多步推理任务,提升答案的准确性和逻辑性。
协作层依托智能体编排与插件化工作流实现复杂任务分解与协同。基于 Semantic Kernel 的智能体编排,利用框架的“规划器”将用户复杂请求自动分解为子任务序列,并协调数据采集工具、知识库以及 UI 协同工作。例如,一个需要实时数据的查询,会由规划器调度数据采集模块获取信息,再由分析模块调用大模型进行总结,最后将结果交由 UI 流式输出。插件化工具模块集成了计算、信息检索、数据库查询、自定义 API等各类插件作为智能体的“手和脚”,使模型能突破其固有知识边界,执行具体操作。
记忆层通过结构化对话状态管理实现上下文高效维护。对话历史管理不仅保存原始的对话轮次,更利用向量数据库对每轮交互的核心信息进行向量化嵌入存储,实现基于语义相似度的长期记忆检索,确保在多轮对话中能准确回溯上下文。
在应用层,通过标准化交互接口与业务集成实现对外服务。对外提供标准化的异步 API,支持流式响应,便于与 Web、移动应用集成。
上述架构使得该系统能够理解复杂的用户意图,在处理中医药科普咨询的同时,也能胜任常规的图书馆业务问答。系统的核心技术特点包括:支持长上下文对话(取决于模型的最大 Token 限制)、具备意图识别与上下文记忆能力,并能根据问答场景动态调整回答的风格与深度。
模块三 : 外部知识库互联互通。为实现对多源异构学术数据库的智能化调用,本系统设计了一套统一函数调用接口,使得智能体能够无缝链接中国知网、 PubMed、超星数字图书馆等权威外部数据库。该接口的核心机制在于 : 通过可配置的接口字段映射与动态拼接策略,适配各平台差异化的 API 协议;自动管理并轮转各平台的身份验证凭据,确保会话持续有效;根据统一的用户查询意图,将输入内容实时转换为符合各平台语法规则的查询参数,并据此构建标准化的HTTP 请求(支持 GET/POST 方法)。接口在异步接收各平台返回的原始数据后,执行多阶段数据清洗、结构解析与字段对齐操作,最终将异构数据归一化为统一的结构化表示形式。经此流程处理后的高质量知识语料,可直接嵌入检索增强生成(RAG)框架,为大语言模型提供实时、可靠、格式一致的跨库学术信息,进而支撑深层次的文献挖掘与综合性分析任务。
3 应用成效与价值意义
3.1 古籍医案整理及内容抽取智能体应用成效
作为系统底层的核心数据加工引擎,古籍医案整理及内容抽取智能体在实际运行中表现出显著的性能优势。该系统通过三层递进式工作流处理架构,实现了原始古籍语料—结构化关系数据库—向量化知识库的全自动化转换流程。
为验证该智能体的实际效能,本研究将其与传统人工处理方式进行对比。在 2021—2023 年上海市中医药管理局“三年行动计划”项目中,研究团队以馆藏古籍书目为基础,选取《伤寒瘟疫条辨》《临证指南医案》等古籍书目共 51 种古籍作为第一批遴选书目,由2~3 位馆员带领10名研究生,针对疫病的临床表现和病因病机,以人工方式筛选其中涉及外感戾气、感染疫毒、感受时疫等病因病机的条目,用时1年有余,共获得 8170 组医案。
在本项目中,研究团队重新梳理以上书目,并新增第二批馆藏古籍书目 62 种,由1位馆员带领10名研究生,依托古籍医案整理及内容抽取智能体开展处理,用时6个月,共处理医案23000 余条,折合每年处理近 5 万组医案。在质量保障方面,其所采用的“大模型协同标注”与“人机双盲校验”机制发挥了关键作用。特别是在处理低置信度(<0.85)数据片段时,专职馆员的复核效率相比传统逐字校勘方式提升了约60%,同时确保了最终入库数据的准确性与一致性,为人机协同的高效知识生产模式提供了成功的实践范例。
经实证测算,采用智能体进行医案整理的年平均数据处理量相较传统人工模式呈现出大幅增长,年产出增加 512.4%,有效改善了古籍非结构化数据规模化利用的瓶颈问题。例如,在对《临证指南医案》等代表性典籍的批量处理任务中,成功将原本需要数月才能完成的标引与录入工作在数周内完成,处理周期缩短约80%。表 2 为传统方式与智能体辅助处理古籍医案效率对比数据。
表2 传统方式与智能体辅助处理古籍医案效率对比

3.2 古籍医案辅助健康问诊智能体应用成效
古籍医案辅助健康问诊智能体已上线发布并投入使用,其应用界面如图4所示。该智能体的核心功能在于将封存于历史文献中的诊疗经验转化为可供现代临床参考的决策支持信息。用户在对话框内输入症状描述后,系统首先通过多层级检索机制精准定位并展示与之相关联的古籍原文证据,随后驱动大语言模型进行深度思考与逻辑推理,进而生成包含病名辨析、病因推测、证候归纳、诊断结论、治疗法则、处方建议及药物用法在内的综合性参考方案。

图4 古籍问诊智能体应用界面
该智能体的应用成效主要体现在两个方面: 其一,为中医药研究者提供了全新的数据挖掘视角,有助于揭示疾病与用药规律、症状与证候之间的潜在关联,从而发现以往通过人工阅读难以系统归纳的隐性知识。其二,作为一种低成本、高效率的模拟训练平台,它为临床医学院学生在步入现实的临床岗位之前,提供了一个安全、可靠的反复练习与技能巩固的机会,有效弥合理论学习与临床实践之间的鸿沟。
自投入使用以来,该智能体成为临床医学院师生的重要辅助工具。目前,该智能体已进一步和附属医院签约,合作进行临床数据采集,用于基于单中心回顾性病历,验证古籍医案辅助健康问诊智能体对临床症状提取、证候匹配及方药推荐的准确性,以及观察智能体辅助诊疗的安全性,为其临床推广提供证据支持。
3.3 中医药学术知识问答智能体应用成效
中医药科普与学术问答的应用界面如图5、图6所示,其功能构建于馆藏中医古籍知识库与中国知网(CNKI)、Pubmed 等学术资源库之上,共同构成了面向本校师生的权威知识服务体系。该智能体通过提供兼具准确性、学术性的知识问答,积极引导师生逐渐摆脱对网络百科等非专业信息来源的依赖,转而培养其利用图书馆采购的权威专业数据库进行学习和研究的良好学术习惯。对于从事跨学科研究的学者而言,该智能体能够帮助他们迅速把握中医药领域的核心概念与研究脉络,有效促进中医药学与现代生命科学、信息科学等相关学科的交叉融合与创新发展。

图5 基于古籍的科普知识问答界面

图6 基于CNKI的学术知识问答界面
该系统上线 6 个月以来,日均接收有效提问30 ~ 40次,累计校内访问已达数千人次,回答问题总量接近一万条。由于AI馆员模块是中医药学术问答智能体内嵌的一个附加功能,在每日提问中,除去图书馆业务咨询的问题外,古籍原文溯源、中医药现代研究进展、学术综述类问题占比接近 50%。这不仅显著提升了图书馆中医药学科服务的响应及时性,也明显提高了师生用户对服务便利性与专业性的满意度。
该智能体的部署与常态化运行,扩展了中医药学科服务以及图书馆业务咨询的服务时间范围,将原先每日最长12小时的人工服务,升级为7×24 小时不间断的智能化服务。更为重要的是,该应用将学科馆员、咨询馆员从大量重复性、事务性的常规咨询工作中解放出来,使其能够将更多精力投入到深层次的学科服务、专题信息分析、科研竞争力评估等具有更高附加值的工作中,从而优化了图书馆的人力资源配置,推动了服务模式的转型升级。
4 结语与展望
本研究系统阐述了在人工智能技术迅猛发展的时代背景下,如何利用以大语言模型为代表的先进技术,探索中医药古籍医案自动抽取、结构化向量化存储与智能化应用的新路径 ; 有效克服了长期以来中医药古籍“重收藏、轻利用”的问题,构建起一条从古籍数字化处理,到知识结构化挖掘,再到临床辅助决策、辅助学术研究及大众科普传播的闭环服务链路 ; 显著提升了古籍资源的可利用性与学术影响力,为推动中医药学的守正创新与数字化转型提供了重要的技术支撑与方法论借鉴。研究中构建的多个智能体不仅具备深度理解古籍语义的能力,还能够进行多轮对话与一定程度的复杂推理,从而为用户提供更为精准与个性化的知识服务。
必须指出的是,本研究总体上仍处于前瞻性探索与实践验证的阶段,诸多方面尚存进一步完善与深入研究的空间。未来的研究工作可围绕以下几个方向展开 : 在知识准确性方面,着力构建更为完善的本体Schema与动态校验机制,最大限度抑制大语言模型固有的幻觉现象,确保输出信息的权威性与可靠性;在功能深化方面,积极探索融入古籍中舌象、面象、药材图像等多模态数据,以开发更为复杂的临床决策支持功能,例如,基于古今病征对应的方剂智能加减建议、诊疗路径优化分析等;在领域适应性方面,将持续优化模型对古汉语语法、中医药专有术语及辩证逻辑的特殊处理能力,使其更加契合中医药学科的内在规律与专业化需求。
(参考文献略)
.png)