Topic on Technology and Application of Knowledge Graph
知识图谱技术与应用专题
基于知识图谱的数字人文研究平台构建The Construction of Digital Humanities Research Platform Based on Knowledge Graph同方知网数字出版技术股份有限公司 温晓雅摘 要 介绍了知识图谱在数字人文领域的研究与应用,通过知识建模、知识获取、知识存储与管理等知识图谱构建技术,同时结合深度学习、情感分析与定性分析方法,打造了数字人文研究平台。该平台改变了数字人文内容资源的获取方式,为人文研究提供了工具集,提高了数字人文研究的算力。关键词 数字人文 知识图谱 大数据 人文研究Abstract: This paper introduces the research and application of knowledge graph in digital humanities. Through knowledge modeling, knowledge acquisition, knowledge storage and management and other knowledge graph construction technologies, combined with deep learning, sentiment analysis and qualitative analysis methods, the digital humanities research platform is built. It changes the way of acquiring digital humanities content resources, provides a tool set for humanities research, and improves the computing power of digital humanities research. Keywords: digital humanities; knowledge graph; big data; humanities research1 引言进入21世纪以来,大数据、人工智能等新兴数字技术正在加速数字中国的构建进程[1]。数字人文是一种将计算机方法与技术融入人文的研究[2]。鉴于其跨学科的特点,不同的学者所研究的范围也不同。在全球范围内有超过183个以“数字人文”为名称的中心、项目、实验室或团队,主要位于美国、英国、日本等国家和地区。在我国数字人文研究在技术层面主要存在四大问题:一人文数据库或数据集的建设;二人文数字工具的开发和使用;三创新人文研究方法和研究范式,将定性研究转变为定性与定量研究相辅助的形式;四人文领域的创造性破坏与建设,通过数字技术切入人文领域,对人类文化遗产的传承、传播、全球化和创新提供新的方法[4]。知识图谱的发展雏形以语料库检索为基础。在1977年第五届国际人工智能会议上,美国斯坦福大[3]学计算机教授费根鲍姆(E.A.Feigenbaum)提出了“知识工程”的概念,确立了知识在人工智能中的重要地位[5]。知识图谱构建的主要目的是支撑数字人文数据关联组织与智能分析挖掘业务,覆盖数字人文核心业务环节,适应变幻不定的外部环境,完成多样化的任务。2 数字人文研究平台概述数字人文研究平台(以下简称“平台”)是一个利用知识图谱技术,将统计方法、深度学习、情感分析与定性分析方法相结合,同时整合平台、机构自建、个人研究数据、专家研究成果、相关网络等资源,以知识本体为基础重组数据,辅以文献计量分析、文本分析挖掘、可视化标注等研究工具的全流程、全方位服务科研的平台。在研究方法、路径、视点等方面为人文学科研究提供了崭新的思路。参2021年第5期
http://www.its.cesi.cn
17
知识图谱技术与应用专题
Topic on Technology and Application of Knowledge Graph
与方包括以下三大类:人文研究学者主要依托平台实现在线的基于大数据的人文研究;公共博物馆与公共图书馆作为生态的参与者,为其提供了馆内特色数据资源,使其形成良好的生态体系[6];资源集成商负责资源的整合、平台的运营与维护。数字人文研究平台相关方及关联关系图如图1所示。图1 数字人文研究平台相关方及关联关系图
平台中的应用主要有以下四个方面。(1)提供多种来源的人文数据资源平台人文数据包括:期刊、博硕士、报纸数据库、工具书、古籍范本、古籍图片库等。机构自有资源通过OCR识别工具进行数字化,通过系统集成的建库管理工具整理成库,实现人文研究资源统一检索。平台还支持对个人收集的数据资源进行管理和利用。(2)提供数字人文分析工具平台提供文献计量分析、实体识别、文本聚类、情感分析等大数据分析挖掘工具、可视化标注工具、知识图谱构建工具、文件格式转换工具等。工具操作使用易于人文研究者上手,降低工具使用的技术门槛。 (3)通过众包协同完成知识共建共享利用众包协同模式,数字人文研究机构或研究团队可充分调动群体智慧,高效完成研究任务。(4)支持数字人文研究成果的发布、交流和共享研究者通过平台对数据分析成果完成发布,有利于其思想碰撞、交换资源,促进数字人文研究方法、理念、工具使用经验等有价值内容的共享和传播。数字人文研究平台功能示意图如图2所示。3 数字人文研究平台系统架构与知识图谱构建3.1 系统架构平台依托人文研究资源体系与资源图谱化组织方式提供应用研究工具集,其业务架构如图3所示。平台整合了互联网人文资源、研究者研究机构内部信息资源,形成数字学术研究大数据资源池,18
信息技术与标准化
http://www.its.cesi.cn
Topic on Technology and Application of Knowledge Graph
知识图谱技术与应用专题
图2 数字人文研究平台功能示意图
图3 数字人文研究平台业务架构
提供面向计量与统计、分析与挖掘的新型数字人文研究工具集和研究模式,其功能架构如图4所示。应该具有的属性应根据研究需要进行设定。3.2.2 数字人文知识获取基于数字人文本体构建与管理中输出的领域本体库,对多源异构数字人物数据进行抽取和结构化表示,将结构化的人文领域知识输出后,进行知识融合形成知识图谱。数字人文知识获取结果示意图如图5所示。图5中,通过时间主线、人物主线、事件主线、时空主线等维度进行知识的抽取与挖掘。后台针对人物实体、事件实体、空间实体、时间实体进行实3.2 知识图谱构建3.2.1 数字人文知识建模知识建模与管理是基于数字人文数据源构建领域本体体系和业务本体,为知识抽取提供规范化描述的概念层次体系和业务知识库,提升知识获取、存储、图谱构建及应用水平。数字人文领域涉及众多的本体概念,例如历史人物、历史事件、官制、时间朝代、古籍、研究论文、绘画、书法等概念。每一类概念所2021年第5期
http://www.its.cesi.cn
19
知识图谱技术与应用专题
Topic on Technology and Application of Knowledge Graph
图4 数字人文研究平台功能架构图
图5 数字人文知识获取结果示意图
例抽取,并按照知识建模中的数字人文本体框架进行属性抽取与填充,最终构建起实体与实体之间互相关联的关系。3.2.3 数字人文知识存储与管理知识图谱存储与管理旨在实现对知识图谱数据的有效管理和高效访问,知识图谱更新及知识图谱可视化,主要分为以下三个部分。(1)知识图谱管理知识图谱管理涉及知识图谱的存储建模、物理存储设计、索引和查询。知识存储建模部分明确知识图谱的数据结构。存储部分完成知识图谱在硬盘或者分布式环境下的存储与组织。为了加快大规模知识图谱中的查询速度,建立相应的索引结构,包括子结构索引和关键词索引。最终基于这些索引方20
信息技术与标准化
http://www.its.cesi.cn
Topic on Technology and Application of Knowledge Graph
知识图谱技术与应用专题
式实现各类查询,包括特定子图结构的查询(如路径查询、社团搜索等)和关键词查询。(2)知识图谱更新知识图谱的更新可及时发现知识图谱中的过期知识,及时更新是知识图谱构建后质量控制的重要一环。知识图谱更新过程如图6所示。次开发框架、基础应用和个性化开发的应用。通过开发框架的选用,能够快速开发适合具体业务场景的专题应用,数据交互依赖于业务规划设计层,专注于前端开发的同时提供部分通用型的功能组件,如图谱基础检索查询工具、通用型的推理分析工具和基于模板的分析报告工具。3.2.4 数字人文知识推理数字人文知识推理可为待改进图谱进行推理计算,为现有图谱进行能力输出,并提供给知识图谱管理系统更加精准的领域知识。例如针对人物年代的补全,可以通过关联人物、关联事件的年代属性图6 知识图谱更新示意图
(3)知识图谱可视化知识图谱可视化功能主要包含图谱可视化及二补全。针对关系的补全,可以通过人物A与人物B、人物C的关系,推演人物B、人物C的关系,如 图7所示。 图7 数字人文知识推理与补全示意图
3.2.5 数字人文知识融合数字人文知识融合可实现将数据融合阶段获得的笼统的知识转化为可领悟知识,涉及人、事、物之间的各层级隔离度融合,基于融合后的知识面向需求提供知识服务。(1)数据整合主要是整合知识图谱的内部数据和外部数据。当外部知识库融合到本地知识库时需要处理两个层面的问题:数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题;通过模式层的融合,将新得到的本体融入已有的本体库中[7]。(2)实体链接实体链接模块用于对输入结构化知识中的实体进行处理,主要包含实体定位抽取、实体消歧和指代消歧三个组件。(3)冲突检测在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题[8]。通过冲突检测、真值发现等技术消解冲突之后,再对知识进行2021年第5期
http://www.its.cesi.cn
21
知识图谱技术与应用专题
Topic on Technology and Application of Knowledge Graph
关联与合并,最终形成一致的结果。因素。这部分功能模块的设计和研发后续需要就这些课题不断进行研究和尝试。(4)研究需要的资源多源异构,存在于各研究机构中,尚未有统一的衡量标准。需数字学术生态体系建立严谨且公认的数字人文资源格式参照依据,使得资源的多源异构问题能够跨越地域、技术鸿沟实现互通共享。参考文献 [1] 吕明元,麻林宵. 以数字化推动传统产业升级[N]. 经济日报, 2021-03-17(010).[2] 邱伟云,严程. 数字方法与传统人文更需迈向多元共生关系[N]. 社会科学报, 2021-02- 04(005).[3] 颜石磊.国内外数字人文研究主题比较分析[J].大学图书情报学刊, 2021,39(1):107-111.[4] 王蕾,苏日娜. 数字人文与新文科发展探索——以中山大学规划为例[EB/OL].[2021-03-23].https://4 数字人文研究平台建设成效基于知识图谱的数字人文研究平台的成效主要体现在以下四个方面。(1)整合和建立了数字人文数据资源,机构自建资源以及个人研究数据的三级数据资源体系。(2)提供了一系列功能丰富、交互简易友好的数字研究工具(3)为人文资源提供基于大数据技术的知识管理工具,帮助用户深度挖掘数据资源的价值。借助开放众包技术,提供新的数字人文学科科研模式。(4)采用“资源+工具+科研服务”的模式,可弥补国内同类产品的空白,促进人文社会科学基础设施的升级。5 未来展望知识图谱技术应用于数字人文,使得各学科、机构、地域之间的联系更加密切。就数字人文研究而言,面临的问题和进一步的解决办法如下。(1)对平台资源、机构自建资源及个人数据进行一定程度的建设和整合,但不能保证所调研的数据种类和支持的数据格式是完整全面的。因为数据每时每刻都在产生,各类学科之间的交织渗透也在日益增加,日后需要不断加强研究,以及对数据进行不断的补充和调整。(2)数据分析挖掘工具的使用带有一定的技术门槛,而人文研究者自身的数据分析能力参差不齐。因此,工具交互设计的易用性,是值得重视和研究的问题。(3)采用众包协同的模式丰富数据,服务数字人文机构开展科研工作。如何激励公众的参与,调动公众参与的积极性与持续性,以及根据研究情景,科学设计众包平台的用户交互机制,从而提高用户完成任务的绩效,是影响众包模式成功与否的重要kns.cnki.net/kcms/detail/detail.aspx?dbcode=IPFD&dbname=IPFDLAST2021&filename=KJQB202010001014&v=%25mmd2BKyG5bo7%25mmd2FIlTlB0wjtwkvHKftSBxrkOYSk%25mmd2B2tx8MR%25mmd2F46e%25mmd2FTfkYxSK4knMBpZ5jQDO%25mmd2BUJQ0jk5kg%3d.[5] 王雪梅.数字人文领域中知识图谱的研究与应用[J].山西科技, 2020, 35(6): 94-98.[6] 尚晓倩.欧洲研究型图书馆数字人文发展现状及启示[J].图书馆工作与研究, 2021(2): 42-49.[7] 北京艾真融科技术有限公司课题组. 智能监管合规报告系统研究[EB/OL].[2021-03-23].https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2019&filename=QUAN201907002021&v=YxxK3ofX506GyipZqmH0rGyxCy%25mmd2ByiCcEBFAW6gbovpaUR0HBPlFM6nKqH%25mmd2F993Pt9CgQHrvgYQz0%3d.[8] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展, 2016, 53(3): 582-600. (收稿日期:2021-03-24)22
信息技术与标准化
http://www.its.cesi.cn
因篇幅问题不能全部显示,请点此查看更多更全内容