多语言金融文本关键词提取与情感分类技术

本研究提出一种混合NLP方法,针对僧伽罗语、英语及混合代码的银行客户评论,优化关键词提取与情感分类。结合微调SpaCy、FinBERT等模型,英语任务准确率达91.2%,僧伽罗语达87.4%,显著优于传统方法。

摘要

银行业品牌声誉需通过分析多语言及混合代码的客户评论来维护。传统NLP模型对僧伽罗语-英语等低资源语言的混合文本分类效果不佳。本研究提出混合NLP方法,改进银行领域的关键词提取、内容过滤及基于方面的分类:

  1. 英语关键词提取:结合微调SpaCy NER、FinBERT-KeyBERT、YAKE与EmbedRank,准确率91.2%;
  2. 混合代码与僧伽罗语提取:集成微调XLM-RoBERTa与领域专用词典,准确率87.4%;
  3. 数据过滤:BERT-base-uncased(英语85.2%)与XLM-RoBERTa(僧伽罗语88.1%)优于GPT-4o与SVM;
  4. 情感分类:BERT-base-uncased(英语87.4%)和XLM-RoBERTa(僧伽罗语85.9%)超越GPT-4。

结果表明,微调Transformer模型在多语言金融文本分析中优于传统方法,为低资源环境提供可扩展的声誉监控方案。

方法细节

  • 模型架构
    • 英语流程:SpaCy NER → FinBERT-KeyBERT → YAKE/EmbedRank融合;
    • 僧伽罗语流程:XLM-RoBERTa + 金融术语词典;
  • 数据质量:通过BERT/XLM-RoBERTa过滤无关评论,取代关键词规则;
  • 性能对比:所有微调模型均显著超过GPT-4、SVM及基于规则的方法。

结论

该框架为混合代码及低资源语言的金融文本分析提供了高精度解决方案,适用于实时品牌监测场景。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计