Blackstone:面向非结构化法律文本的spaCy NLP管道与模型
Blackstone是一个基于spaCy的模型和库,专为处理长格式非结构化法律文本而设计。该项目由某机构的研究实验室ICLR&D开发,是一个实验性研究项目。
技术特性
模型架构
- 管道组件:包含tokenizer、tagger、parser(继承自spaCy的en_core_web_sm模型)、自定义NER和文本分类器
- 实体识别类型:
- CASENAME(案例名称,如"Smith v Jones")
- CITATION(案例引用编号,如"(2002) 2 Cr App R 123")
- INSTRUMENT(法律文书,如"Theft Act 1968")
- PROVISION(法律条文,如"section 1")
- COURT(法院名称,如"Court of Appeal")
- JUDGE(法官引用,如"Eady J")
文本分类功能
五类互斥分类:
-
AXIOM:确立原则的文本
-
CONCLUSION:作出裁决的文本
-
LEGAL_TEST:讨论法律测试的文本
-
UNCAT:不属于以上类别的文本
自定义管道扩展
缩写检测与解析
基于改进的scispaCy AbbreviationDetector,可识别如"ECtHR" → “European Court of Human Rights"的缩写对应关系。
复合案例引用检测
将CASENAME和CITATION实体配对处理,支持两种模式:
- 标准模式:Gelmini v Moriggia [1913] 2 KB 549
- 所有格模式:Jones’ case [1915] 1 KB 45
法规链接器
通过分析依赖树,将PROVISION实体与其父INSTRUMENT实体关联,并生成legislation.gov.uk的对应链接。
句子分割器
针对法律文本特点定制的规则型句子分割器,可处理法律文本中特殊的引用模式。
安装与使用
|
|
技术实现细节
- 基于spaCy框架构建,支持自定义管道组件
- NER模型F1分数约70%(原型版本)
- 训练数据时间跨度大(最早可追溯至1860年代)
- 专门针对英格兰和威尔士法律体系优化,但适用于普通法系地区
注意事项
- 当前为原型版本,准确度有待提升
- 训练数据来自某机构的案例报告库,未公开
- 非裁判或诉讼分析工具,专注于文本处理技术
该项目展示了NLP技术在法律文本处理领域的应用,为法律文档分析提供了开源技术解决方案。