计算机幽默识别技术研究
商品页面中的问答板块常出现幽默内容,例如针对香蕉切片机的提问"如果香蕉往反方向弯曲怎么办?"。为提升客户获取产品信息的效率并优化推荐系统,需要区分幽默与严肃问题。
技术架构
系统采用双模块处理流程:
- Incongruity检测模块:量化产品名称与问题之间的不匹配程度
- Subjectivity检测模块:分析问题的主观性程度
两个模块的输出分数与词嵌入向量拼接后,传输给分类器进行最终判断。模块采用自动标注数据预训练:incongruity模块使用跨产品问答构建正负样本,subjectivity模块从商品评论和商家描述中提取主客观语料。
数据集构建
通过众包平台创建标注数据集:
- 每个问题由3-7名标注者评估
- 需达到70%以上一致率才确定标签
- 标注者间一致性达89.5%(Fleiss’s kappa=0.67)
为消除产品偏差,构建两种数据集:
- 有偏数据集:幽默与严肃问题来自不同商品页面
- 无偏数据集:每个商品的幽默与严肃问题数量均衡
实验结果
在无偏数据集上:
- 系统准确率达84.4%
- 相比最佳基线模型错误率降低5.4%
在有偏数据集上准确率超过90.8%,表明系统能识别易引发幽默问答的商品特征。
技术意义
该研究推动了对话AI领域的自然语言理解技术发展,为商品问答系统提供了有效的幽默检测解决方案,既保障信息获取效率,又维护社区娱乐功能。
相关论文《Humor detection in product question answering systems》发表于SIGIR 2020会议