计算机幽默识别技术突破

本文介绍了一种基于 incongruity 和 subjectivity 双模块的幽默检测系统，通过产品问答数据训练模型，在无偏见数据集上达到84.4%准确率，有效区分商品页面的幽默问题与严肃问题。

计算机幽默识别技术研究

商品页面中的问答板块常出现幽默内容，例如针对香蕉切片机的提问"如果香蕉往反方向弯曲怎么办？"。为提升客户获取产品信息的效率并优化推荐系统，需要区分幽默与严肃问题。

技术架构

系统采用双模块处理流程：

Incongruity检测模块：量化产品名称与问题之间的不匹配程度
Subjectivity检测模块：分析问题的主观性程度

两个模块的输出分数与词嵌入向量拼接后，传输给分类器进行最终判断。模块采用自动标注数据预训练：incongruity模块使用跨产品问答构建正负样本，subjectivity模块从商品评论和商家描述中提取主客观语料。

数据集构建

通过众包平台创建标注数据集：

每个问题由3-7名标注者评估
需达到70%以上一致率才确定标签
标注者间一致性达89.5%（Fleiss’s kappa=0.67）

为消除产品偏差，构建两种数据集：

有偏数据集：幽默与严肃问题来自不同商品页面
无偏数据集：每个商品的幽默与严肃问题数量均衡

实验结果

在无偏数据集上：

系统准确率达84.4%
相比最佳基线模型错误率降低5.4%

在有偏数据集上准确率超过90.8%，表明系统能识别易引发幽默问答的商品特征。

技术意义

该研究推动了对话AI领域的自然语言理解技术发展，为商品问答系统提供了有效的幽默检测解决方案，既保障信息获取效率，又维护社区娱乐功能。

相关论文《Humor detection in product question answering systems》发表于SIGIR 2020会议

comments powered by Disqus