幽默识别AI技术解析
模型架构
输入系统的问题和产品标题分别传递到 incongruity(不协调性)检测模块和 subjectivity(主观性)模块。incongruity 模块对产品与问题的匹配度进行评分,subjectivity 模块对问题的主观程度进行评分。
这些评分与捕捉输入语义信息的词嵌入向量进行拼接,最终传递到分类器判断问题是否具有幽默性。
训练方法
在整体网络训练前,使用自动标注数据对两个模块进行预训练:
- incongruity 模块:通过将产品名称与其他产品页面的问题配对生成正样本(不协调),负样本(协调)则直接使用本产品页面的问题配对
- subjectivity 模块:从产品评论中提取正样本(主观语言),从商家提供的客观产品描述中提取负样本
数据集构建
通过众包平台构建标注数据集:
- 向标注人员展示产品名称、图片和相关问题
- 要求通过单选按钮判断问题是否幽默
- 每个问题由3-7名标注者评估,直到达成70%以上的一致性
- 标注者间的一致性指标达到Fleiss’s kappa 0.67,平均同意度89.5%
偏差测试
创建两种数据集测试产品偏差:
- 有偏数据集:将幽默示例与随机不同产品页面的严肃示例配对
- 无偏数据集:确保每个产品的幽默和严肃示例数量相同
在无偏数据集上,模型准确率达到84.4%,比最佳基线误差降低5.4%;在有偏数据集上准确率超过90.8%。
技术价值
该幽默检测技术能够:
- 区分产品问答中的幽默与严肃问题
- 提升推荐系统的数据质量
- 帮助用户快速获取有效产品信息
- 保持在线社区的创意表达空间
该研究在SIGIR 2020会议上发表,相关论文题为《Humor detection in product question answering systems》。