LLM增强聚类使QualIT在主题建模中表现卓越
通过员工调查、产品反馈渠道或非结构化文本源收集的定性数据,能够提供量化商业智能无法替代的洞察。然而,传统分析方法难以处理大规模开放式回答。潜在狄利克雷分配(LDA)等主题建模方法虽能通过词共现聚类文档,但常无法捕捉自然语言中的上下文细微差别。
Qualitative Insights Tool(QualIT)创新性地将预训练大型语言模型(LLM)与传统聚类技术结合,利用LLM的深度理解能力生成更具解释性的主题表示。在20 Newsgroups数据集测试中,QualIT的主题连贯性达70%(LDA为65%,BERTopic为57%),主题多样性达95.5%(基准方法分别为85%和72%)。
分层聚类架构
QualIT采用两阶段聚类方法:
- 关键短语提取:LLM分析每份文档提取核心短语,支持单文本多主题映射
- 幻觉检测:通过一致性评分过滤低相关性短语
- 分层聚类:先识别宏观主题,再细分次级主题
应用场景
该系统可分析:
- AI聊天机器人用户问题热点
- 结合用户评分识别服务短板
- 多语言支持(未来将扩展至低资源语言)
人类评估显示,QualIT生成主题与真实分类的重合度达50%(LDA和BERTopic仅25%)。该技术为定性分析提供了高效可靠的解决方案。