利用知识图谱加速COVID-19研究
知识图谱通过节点和边的结构化方式组织信息,便于深度探索与分析。在COVID-19知识图谱(CKG)中,节点代表论文、作者、机构、医学概念和研究主题五类实体,边则表征这些实体间的 authorship、隶属关系、概念关联和引证关系。
图谱构建方法
- 数据源:基于COVID-19开放研究数据集(CORD-19),该数据集包含不断增长的学术文献
- 概念抽取:采用某中心的医学实体识别服务,从文本中提取医疗实体并分类(如解剖结构、医疗条件等)
- 主题提取:使用Z-LDA扩展模型分析论文标题、摘要和正文,经医学专家筛选后确定10个核心主题
技术实现
相似论文推荐引擎
结合两种嵌入技术:
- SciBert语义嵌入:分别生成标题、摘要和正文的嵌入向量,通过等权平均得到论文表征
- 知识图谱嵌入:使用DGL-KE工具训练节点嵌入,保留图谱中的结构关系 最终将两种嵌入拼接后,通过余弦距离计算论文相似度
引文排名系统
利用图谱结构实现:
- 支持按特定主题或概念筛选引文
- 提供定制化的引用统计功能
评估方法
采用多维度分析:
- 流行度分析
- 主题交叉验证
- 低维聚类
- 摘要对比