用户反馈自动分类的深度学习复现研究

本研究复现并扩展了基于深度学习的用户需求分类方法,评估了BERT、ELMo和GPT-4o等模型在小型数据集环境下的表现,验证了模型泛化能力并提供了完整的复现研究ID卡和实验包。

摘要

自然语言处理(NLP)技术在需求工程(RE)领域得到广泛应用,支持分类和歧义检测等任务。尽管RE研究以实证调查为基础,但对NLP4RE研究的复现关注有限。快速发展的NLP领域为高效的机器辅助工作流程创造了新机遇,可带来新的视角和结果。因此,本研究复现并扩展了先前的NLP4RE研究(基线),该研究评估了不同深度学习模型对用户评论中需求分类的效果。

方法

通过公开源代码复现了原始结果,从而加强了基线研究的外部有效性。扩展了实验设置,在外部分数据集上评估模型性能,并将结果与GPT-4o零样本分类器进行比较。此外,为基线研究准备了复现研究ID卡,这对评估复现准备度非常重要。

结果

结果显示不同模型的复现水平各异,其中朴素贝叶斯表现出完美的复现性。相比之下,BERT和其他模型的结果参差不齐。研究发现基线深度学习模型BERT和ELMo在外部分数据集上表现出良好的泛化能力,GPT-4o的性能与传统基线机器学习模型相当。评估确认了基线研究的复现准备度,但缺失的环境设置文件会进一步提升准备度。复现包中包含了缺失信息,并提供了本研究的复现研究ID卡,以进一步鼓励和支持研究的复现。

评论

10页,3图,复现包可通过指定链接获取,已被AIRE 2025(第12届人工智能与需求工程国际研讨会)接受。

主题

计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计