知识图谱加速COVID-19科研文献挖掘

本文详细介绍了如何利用知识图谱技术构建COVID-19研究图谱,包括节点类型定义、关系抽取方法、SciBert与知识图谱嵌入的融合技术,以及基于图谱的论文推荐和引文排名系统实现方案。

利用知识图谱加速COVID-19研究

知识图谱通过节点和边的结构化方式组织信息,便于深度探索与分析。在COVID-19知识图谱(CKG)中,节点代表论文、作者、机构、医学概念和研究主题五类实体,边则表征这些实体间的 authorship、隶属关系、概念关联和引证关系。

图谱构建方法

  • 数据源:基于COVID-19开放研究数据集(CORD-19),该数据集包含不断增长的学术文献
  • 概念抽取:采用某中心的医学实体识别服务,从文本中提取医疗实体并分类(如解剖结构、医疗条件等)
  • 主题提取:使用Z-LDA扩展模型分析论文标题、摘要和正文,经医学专家筛选后确定10个核心主题

技术实现

相似论文推荐引擎

结合两种嵌入技术:

  1. SciBert语义嵌入:分别生成标题、摘要和正文的嵌入向量,通过等权平均得到论文表征
  2. 知识图谱嵌入:使用DGL-KE工具训练节点嵌入,保留图谱中的结构关系 最终将两种嵌入拼接后,通过余弦距离计算论文相似度

引文排名系统

利用图谱结构实现:

  • 支持按特定主题或概念筛选引文
  • 提供定制化的引用统计功能

评估方法

采用多维度分析:

  • 流行度分析
  • 主题交叉验证
  • 低维聚类
  • 摘要对比
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计