随着数字技术的不断发展,知识图谱、生成式大模型等技术在历史文化遗产展示、保护领域得到广泛研究和应用。江苏省规划设计集团研究团队提出基于知识图谱和大模型的历史文化遗产展示和查询方法,以纳入《中国大运河江苏段遗产保护规划》的大运河文化遗产(以下简称“大运河文化遗产”)作为研究对象,采集文化遗产的管理属性和文化属性信息,通过RDF三元组方法构建文化遗产知识图谱,用于可视化展示和遗产搜索;利用生成式大模型方法,构建大运河文化遗产的自然语言生成方案,最终抽取、生成大运河历史文化遗产的具体知识。
现状背景:用AI唤醒沉睡的文化遗产
历史文化遗产承载社会文化、先人智慧、民族精神,属于不可再生资源。数字化保护利用历史文化遗产是国家发展未来长期重视的议题,在AI应用爆发的背景下,如何发挥数字信息优势,将数字化技术应用于历史文化遗产保护传承,成为摆在面前的课题。
作为遗产可视化重要工具,知识图谱已经在不同区域、不同领域非物质、物质文化遗产保护进行了应用。随着AI技术快速发展,生成式大模型以极快的速度创作内容,带来文化遗产数字化管理和展示的新方法和新视角。目前生成式大模型已经广泛应用于历史文化遗产保护,通过数据复制、学习和训练,助力提升文化遗产的展示和管理效率。
在新的技术背景下,如何让文化遗产“沉默的信息”重新开口说话?
知识图谱:为大运河建立文化联系网络
首先要解决的问题是,如何让文化遗产更加“可感”。采用RDF三元组为描述框架,阐释历史文化遗产知识结构及数据关联,为碎片化的历史文化遗产数据资源统一建模和存储,实现可视化表达,对文化遗产进行识别、抽取、表示等。通过构建城乡历史文化遗产知识图谱,展现地域、文化名人与历史文化遗产之间的关联关系,形成历史文化遗产数据关联,并通过关系查询呈现历史文化遗产隐性关系。
具体而言,管理属性的知识图谱构建支撑管理端发挥管理职能,将文化遗产的类型、所属区域等信息联系起来,通过多源数据的关系可视化发挥管理价值。利用文化属性构建知识图谱,表现名人、地域、文化遗产之间的关联性,展现历史文化遗产间通过地域、河道、名人等产生的关系,发现深度高价值隐性联系。最后,构建遗产知识图谱为生成式大模型提供数据。大量的标签化、关系化数据为生成式大模型提供基底,用于问题输入后的查找与反馈输出。
图1 文化遗产知识图谱构建示意
本文在数据标签化的基础上,对文化遗产与文化名人的关系进行梳理并输入知识图谱内。利用传统结构化方法建立管理属性知识图谱间的联系,形成名称、类别、级别、市、县区、遗产类型、遗产分段、遗产所在河道、批次、经纬点坐标、年代基准等标签。以遗产名称为起点,连接历史保护信息(保护类别、分类级别)、行政信息(管理部门、通过批次)和地理空间信息(市县归属地、具体地址、经纬点坐标)等三部分管理内容,实现历史资源保护利用与管理的信息查询与数据管理。
图2 管理属性知识图谱示意(朝代、河段、类别部分)
输出名人与相关事迹之间的关系,构建文化属性知识图谱联系。将事迹与名人的关联输入星火大模型API,寻找名人事迹与文化遗产间的关联,将得到的关键词作为人地关系的属性。再根据保护类别(类别、级别)、行政管理(批准部门、通过批次、建筑年代)、地理信息(市县归属、经纬度、所属河道)、文化属性(水体、聚落、园林、建筑、漕运、水工、宗教、盐、民族工业、民俗、字画、诗词、红色)、人地关系(相关人名、相关地名)等5个方面对大运河文化遗产进行数据整合,最终构建出遗产名称-属性标签-具体信息的知识图谱框架(下图)。
图3 文化属性知识图谱示意(人地关系部分)
用“知识图谱”技术,将大运河的遗产名称、地理位置、历史名人、保护级别等信息编织成一张“文化联系网络”。比如,点击“江南运河苏州段”,就能看到相关的水工建筑、历史名人(如白居易治水)、诗词典故等。
AI问答:像聊天一样探索大运河
其次要解决的问题是,如何实现对历史文化遗产的知识问答。对于管理者而言,通过问答和查询系统,可以快速获取文化遗产的相关信息,提高文化遗产管理的效率。对于公众而言,遗产问答可以使用户以更自然、互动性更强的方式了解文化遗产的相关知识,提高用户对文化遗产的兴趣和认知,同时为用户提供更个性化的文化遗产推荐,提高用户体验。
本文基于遗产知识图谱数据和问答训练数据集,采用ChatGLM3-6B-base生成式语言模型进行自然语言理解和对话管理,进行数据库查询和自然语言生成,构建基于生成式大模型的遗产问答和查询模块。“基于生成式大模型的遗产问答和查询”技术流程框架包括数据采集、数据处理、自然语言理解、对话管理及数据库查询等步骤。
图4 基于生成式大模型的遗产问答查询技术路线图
完成数据采集、处理和分析后,使用预定义的模板或结构来组织提取的内容,模板包含了固定的格式和可变的内容位置,以便在生成文本时填充具体信息。根据模板,自然语言生成模块会生成文本。本文使用开源生成式大语言模型(chatglm-6b)来测试遗产问答和查询的效果,同时,将大语言模型与传统的基于规则的问答系统进行对比,以评估遗产问答和查询的结果准确度。
结果表明,基于生成式大模型的遗产问答和查询系统在各项指标上均优于传统的基于规则的系统,这可能是基于针对遗产知识问答的逻辑链设计,上下文的感知长度和长短期记忆更佳。具体表现在以下两个方面,首先是准确性更好,基于生成式大模型的系统能够更准确地理解和解析用户的意图和实体匹配,从而提供更加精确的答案;其次是召回率更高,基于生成式大模型的系统能够更好地检索到相关遗产信息,提高召回率。最终,进行历史文化遗产知识问答与查询结果呈现。通过输入相应问题,根据后台模型,输出对应的问题回答内容(下图)。
通过问答,用户可以直接提问:“宿迁大王庙属于哪个朝代?”“请问哪位历史人物和陈潘二公祠有关?”系统会像“文化导游”一样,用通俗语言给出答案,甚至推荐相关景点。基于ChatGLM大模型,AI能理解复杂问题,准确率比传统系统高,还能“联想”到用户可能感兴趣的内容。
图5 遗产知识问答示意
未来展望:科技赋能,让更多历史文化遗产“开口说话”
综上,本文提出基于知识图谱和大模型的历史文化遗产展示和查询方法,以大运河文化遗产作为研究对象,构建文化遗产知识图谱用于可视化展示和遗产搜索,利用生成式大模型方法完成文化遗产的知识问答。在大数据时代,知识图谱、生成式大模型等方法为历史文化遗产可视化展示、保护传承利用提供了新的思路。未来,AI技术不仅适用于大运河,还可推广到更多文化遗产的保护中。用AI解码历史,用科技守护文明——这是我们对祖先留给我们宝贵遗产的致敬。
具体内容详见:蒋金亮,徐云翼,杨晗等. 基于知识图谱和大模型的文化遗产展示和查询方法研究——以大运河文化遗产为例[J]. 中国名城, 2024(12): 88-96.
文章来源:城市规划新技术应用专业委员会