进入单细胞多元宇宙:生物医学文本中程序性知识提取的端到端数据集
许多最常探索的自然语言处理(NLP)信息提取任务可以被视为对陈述性知识或基于事实的信息提取的评估。程序性知识提取,即将描述的过程分解为一系列步骤,受到的关注要少得多,部分原因可能是缺乏从端到端捕捉知识提取过程的结构化数据集。
为了满足这一未满足的需求,我们提出了FlaMBé(多元宇宙生物实体流程标注),这是一系列互补任务中专家策划的数据集集合,用于捕捉生物医学文本中的程序性知识。该数据集的灵感来源于观察到,描述程序性知识的一个无处不在的来源是学术论文中描述其方法学的非结构化文本。
FlaMBé中标注的工作流程来自蓬勃发展的单细胞研究领域的文本,这是一个因软件工具数量和工作流程复杂性而闻名的研究领域。此外,据我们所知,FlaMBé提供了最大的手动策划的组织/细胞类型命名实体识别(NER)和消歧(NED)数据集,这是生物医学研究领域中知识提取的关键基本生物实体。
除了提供有价值的数据集以进一步开发用于程序性知识提取的NLP模型外,自动化工作流程挖掘过程还对推进生物医学研究的可重复性具有重要意义。
评论:
已提交至NeurIPS 2023数据集与基准跟踪。