利用知识图谱优化COVID-19研究流程
知识图谱通过结构化方式组织信息,使其更易于探索和分析。与所有图结构相同,知识图谱由节点(通常用圆圈表示)和边(连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体间的关系。
2020年5月,某中心公开发布了COVID-19知识图谱(CKG),该图谱整合了COVID-19开放研究数据集(CORD-19)中的信息。CORD-19是由某机构牵头创建的关于COVID-19及相关主题的学术出版物不断增长的资料库。CKG为某中心的CORD-19排名和推荐系统提供技术支持。
在近期于AACL-IJCNLP"结构化知识与神经网络融合自然语言处理研讨会"上发表的论文中,详细阐述了CKG的构建方法,并介绍了多种应用场景,包括特定主题论文排名和相关论文发现。
图谱结构设计
图谱包含五类节点:
- 论文节点:包含论文元数据(如标题和ID号)
- 作者节点:包含作者姓名
- 机构节点:包含机构名称和位置
- 概念节点:包含论文中出现的特定医学术语(如布洛芬、心功能障碍、哮喘)
- 主题节点:包含研究领域(如基因组学、流行病学、病毒学)
同时包含五类边关系:
- 作者关系:连接论文与作者
- 隶属关系:连接作者与机构
- 概念关联:连接论文与相关概念
- 主题关联:连接论文与主题
- 引用关系:连接论文与被引论文
图谱构建技术
CORD-19数据库中论文的标准格式便于提取标题、摘要、正文、作者、机构和引文信息。
概念识别采用某中心的医学理解服务,该服务从文本中提取医学实体并进行分类。例如,给定句子"腹部超声提示急性阑尾炎",系统会提取以下实体:腹部(解剖结构)、超声(检查治疗程序)、急性阑尾炎(医疗状况)。
主题提取使用潜在狄利克雷分配扩展模型Z-LDA,该模型使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映某些主题,并根据术语在语料库中的出现频率选择其中一个术语作为主题标签。通过医学专业人士协助,最终确定了10个主题。
应用实例:基于引用的排名
学术领域中,论文被引次数是衡量相关性的标准指标。图结构便于引用计数,同时支持定制化统计,如按特定主题或包含特定概念的出版物进行引用计数。
相似论文引擎
给定一篇论文,相似论文引擎会检索k篇相似论文。采用两种相似度度量方法,并在最终步骤中进行组合:
第一种使用SciBert嵌入表示,该模型基于流行的BERT语言模型,但针对科学文本进行微调。SciBert将输入句子表示为多维空间中的点,使涉及相同科学概念的句子倾向于聚集在一起。
分别为论文的标题、摘要和正文创建嵌入表示,然后通过平均计算得到最终嵌入。研究表明标题嵌入可能比正文嵌入更容易区分,而正文嵌入携带更丰富的信息。因此选择给予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明相关论文的相似性。
第二种模型使用知识图谱嵌入,试图保留知识图中编码的关系。如果两个实体通过代表关系的边连接,则第一个实体的嵌入加上代表关系的向量后,应产生在第二个实体附近(理想情况下在确切位置)的点。
使用某中心开发的DGL-KE工具创建知识图谱嵌入网络,该工具扩展了早期的深度图库(DGL)。从CKG提取向量三元组(h, r, t)作为训练数据,其中h是头实体,r是关系类型,t是尾实体。这些三元组是正训练样本,负样本通过随机替换现有三元组的头或尾实体合成生成。使用这些样本训练模型区分错误链接和真实链接,最终得到图中每个节点的嵌入表示。
在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创建新的高维表示空间。通过计算该空间中的top-k最接近向量(余弦距离),获得top-k最相似论文。
由于缺乏论文推荐的基础事实,通过分析性定量和定性措施评估算法,包括但不限于流行度分析、源论文与推荐之间的主题交集、低维聚类和摘要比较。
关于该方法的更多信息可在某中心博客的两篇文章中查看:“使用某中心图数据库、医学理解服务和图数据库浏览器探索COVID-19科学研究"和"构建和查询某中心COVID-19知识图谱”。
致谢:Xiang Song, Colby Wise, Vassilis N. Ioannidis, George Price, Ninad Kulkarni, Ryan Brand, Parminder Bhatia, George Karypis
研究领域:信息与知识管理、搜索与信息检索、可持续性
标签:冠状病毒(COVID-19)、知识图谱、知识发现