摘要
心理健康障碍日益普遍,亟需开发稳健的自动化工具进行早期检测与监测。自然语言处理(NLP)的最新进展,尤其是基于Transformer的架构,在文本分析中展现出巨大潜力。本研究全面评估了最先进的Transformer模型(包括BERT、RoBERTa、DistilBERT、ALBERT和ELECTRA)与基于长短期记忆(LSTM)的方法,使用不同文本嵌入技术在Reddit上进行心理健康障碍分类。构建了一个大型标注数据集,并通过统计判断分析和主题建模验证其可靠性。实验结果表明,Transformer模型优于传统深度学习方法。RoBERTa在保留测试集上取得了99.54%的F1分数,在外部测试集上为96.05%。值得注意的是,结合BERT嵌入的LSTM模型表现出高度竞争力,在外部数据集上F1分数超过94%,同时所需计算资源显著减少。这些发现突显了基于Transformer的模型在实时、可扩展心理健康监测中的有效性。讨论了临床应用和数字心理健康干预的启示,提供了关于最先进NLP方法在心理障碍检测中能力与局限的见解。
引言
心理健康障碍的检测和监测是当前研究的热点。随着社交媒体数据的丰富,利用NLP技术自动化分析用户生成内容成为可能。本研究比较了Transformer和LSTM架构在该领域的性能。
方法
数据集
研究构建了一个大型标注数据集,源自Reddit平台,涵盖多种心理健康障碍类别。数据可靠性通过统计判断分析和主题建模进行验证。
模型架构
评估了以下模型:
- Transformer模型:BERT、RoBERTa、DistilBERT、ALBERT、ELECTRA
- LSTM模型:使用不同文本嵌入技术,包括Word2Vec、GloVe和BERT嵌入
实验设置
采用标准训练-测试分割,保留部分数据作为外部测试集。性能评估基于F1分数、准确率和计算资源使用。
结果
性能比较
- RoBERTa在保留测试集上达到99.54% F1分数,在外部测试集上为96.05%
- LSTM模型结合BERT嵌入在外部数据集上F1分数超过94%,计算资源需求较低
- 所有Transformer模型均优于传统LSTM方法
计算效率
LSTM模型结合BERT嵌入在保持高性能的同时,显著减少训练和推理时间,适合资源受限环境。
讨论
基于Transformer的模型在心理健康检测中表现卓越,但计算成本较高。LSTM与BERT嵌入的组合提供了性能与效率的平衡。这些发现对实时监测系统和临床干预具有重要价值,但也需考虑模型泛化能力和伦理问题。