摘要
实现2050年碳中和目标需依赖快速准确的信息决策支持。本研究通过微调五种法语RNN和Transformer模型,新增“TECH”类别以识别技术领域及产品,并提升“ORG”类别对初创公司名称的检测能力。实验表明,CamemBERT模型在有限数据(3260条标注)下表现最佳(F1分数91.28%),且仅需数千标注即可实现90%以上的实体识别准确率。该方法可自动分析新闻中的技术趋势与公司动态,为决策者提供高效洞察。
方法论
- 数据收集:通过GNews API爬取法语可再生能源领域新闻,经BeautifulSoup和Justtext清洗后构建标注数据集。
- 模型选择:测试包括spaCy CNN、Babelscape多语言NER、CamemBERT、DistilCamemBERT及CamemBERT NER在内的五种模型。
- 训练与评估:使用80%/20%划分的训练-验证集,通过spaCy框架统一微调,最终在独立测试集(460条标注)上评估性能。
关键结果
- 新技术检测:CamemBERT在“TECH”类别F1达91.28%,优于其他模型(如spaCy CNN仅56.67%)。
- 小数据训练:仅用40%训练数据时,模型仍保持73.93%的F1分数,验证了 frugal 数据可行性。
- 应用案例:从151篇新闻中自动提取高频公司(如TotalEnergies、EDF)与技术领域(如风电、光伏),并分析共现关系(如图6所示)。
结论
该方案证明了小规模高质量标注数据可有效微调NER模型,适用于领域特定实体识别。未来可通过数据增强和半监督学习进一步提升性能,扩展至其他垂直领域。