计算机幽默识别技术突破

本文介绍了一种基于 incongruity 和 subjectivity 双模块的幽默检测系统,通过产品问答数据训练模型,在无偏见数据集上达到84.4%准确率,有效区分商品页面的幽默问题与严肃问题。

计算机幽默识别技术研究

商品页面中的问答板块常出现幽默内容,例如针对香蕉切片机的提问"如果香蕉往反方向弯曲怎么办?"。为提升客户获取产品信息的效率并优化推荐系统,需要区分幽默与严肃问题。

技术架构

系统采用双模块处理流程:

  1. Incongruity检测模块:量化产品名称与问题之间的不匹配程度
  2. Subjectivity检测模块:分析问题的主观性程度

两个模块的输出分数与词嵌入向量拼接后,传输给分类器进行最终判断。模块采用自动标注数据预训练:incongruity模块使用跨产品问答构建正负样本,subjectivity模块从商品评论和商家描述中提取主客观语料。

数据集构建

通过众包平台创建标注数据集:

  • 每个问题由3-7名标注者评估
  • 需达到70%以上一致率才确定标签
  • 标注者间一致性达89.5%(Fleiss’s kappa=0.67)

为消除产品偏差,构建两种数据集:

  • 有偏数据集:幽默与严肃问题来自不同商品页面
  • 无偏数据集:每个商品的幽默与严肃问题数量均衡

实验结果

在无偏数据集上:

  • 系统准确率达84.4%
  • 相比最佳基线模型错误率降低5.4%

在有偏数据集上准确率超过90.8%,表明系统能识别易引发幽默问答的商品特征。

技术意义

该研究推动了对话AI领域的自然语言理解技术发展,为商品问答系统提供了有效的幽默检测解决方案,既保障信息获取效率,又维护社区娱乐功能。

相关论文《Humor detection in product question answering systems》发表于SIGIR 2020会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计