自然语言处理在毒理学机制信息提取中的应用

本研究探讨如何利用自然语言处理技术从科学文献中提取毒理学机制信息,重点分析深度学习模型在命名实体识别和因果关系提取中的应用,并通过肝脏毒性案例验证方法的有效性。

摘要

毒理学研究通过构建不良结局路径(AOPs)来理解化合物诱导不良反应的机制。传统AOP构建依赖人工文献检索,效率低下。本研究提出使用自然语言处理(NLP)技术自动提取科学文献中的机制信息,重点关注肝脏毒性案例(胆汁淤积和脂肪变性)。通过结合命名实体识别和基于规则的因果关系提取模型,成功从PubMed摘要中识别化合物与表型实体,并建立其因果关系网络。

方法

文献检索

从ASPIS联盟提供的813种化合物列表出发,通过程序化检索PubMed摘要(每化合物最多100篇),查询条件为"化合物名称 AND toxic* AND (human OR Animals, Laboratory OR Disease Models, Animal)"。使用Python的metapub和biopython包进行检索,去除重复摘要。

文本预处理

使用spaCy v3.0.8进行句子分割、分词和语义解析,为后续实体识别和关系提取提供基础。

命名实体识别

采用基于scispaCy en-core-sci-lg的机器学习模型,重新训练以识别毒理学概念(化合物和表型)。模型在训练语料上达到化合物识别F1分数88%,表型识别56%。

关系提取

基于语法规则的因果关系提取模型,通过spaCy的依赖匹配器识别具有共同因果动词祖先的实体对。因果动词列表包含"increase"、“cause”、“induce"等23个核心动词。

网络构建

将提取的实体和关系导入Neo4j图数据库,节点表示实体(化合物/表型),边表示因果关系并保留文献来源信息。

结果

文献检索效果

34%的化合物未检索到相关摘要,35%达到100篇上限。针对肝脏毒性化合物,约20%未检索到摘要,50%达到检索上限。

化合物关联分析

  • 胆汁淤积:查询发现10个化合物节点,除"oxygen”(活性氧物种相关)外均为已知阳性对照
  • 脂肪变性:发现11个化合物节点,其中2个为预期化合物,5个经手动验证确与脂肪变性相关,1个为保护性化合物(柚皮苷)

机制信息提取

从AOPWiki提取的肝脏毒性相关AOP中,NLP管道能识别40-80%的关键事件。分子水平事件(如PPAR受体激活)识别率较低,较高生物学层级事件识别效果更好。

讨论

NLP技术能有效支持毒理学机制信息提取和化合物筛选,但仍需改进:

  1. 实体消歧和标准化需加强,建议链接现有本体标识符
  2. 关系提取模型需优化分子水平信息的识别
  3. 大语言模型可能提升性能但需警惕幻觉问题

未来可扩展至全文分析,但需考虑计算成本和开放获取限制。建议保持人工验证环节,将NLP作为AOP构建的辅助工具。

数据可用性

所有数据和代码可通过GitHub获取:https://github.com/ontox-project/en-tox

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计