数据集构建背景
产品检索系统(如某机构商店中的系统)常利用产品评论文本改善查询结果,但反事实语句可能误导这些系统。反事实语句描述未发生或不可能发生的事件,例如“如果这款衬衫有红色版本我本会购买”,其中“有红色版本”可能被简单系统误认为实际存在该特征。
技术方法与数据构建
- 多语言标注:针对英语、德语和日语产品评论,由专业语言学家标注反事实语句
- 语法结构分析:反事实语句分为前件(假设事件)和后件(结果事件),通过特定提示词(如“wished”“hoped”)和语法关系(条件连词+过去情态动词)识别
- 嵌入相似性补充:使用预训练BERT模型计算句子嵌入相似度,补充无提示词但语义相近的句子,减少数据偏差
- 质量控制:语言学家二次审核确保语句真实表达反事实语义(仅1-2%评论文句符合)
模型实验与发现
- 任务定义:将反事实检测建模为二分类任务(正例=反事实语句)
- 表示方法对比:评估词袋模型、静态词嵌入(如Word2Vec)和上下文嵌入(如BERT)
- 分类算法测试:逻辑回归、支持向量机、多层感知机,其中基于RoBERTa的跨语言模型(XLM)经微调后表现最佳
- 领域特异性验证:在新闻反事实数据集上测试显示性能下降,证明产品评论反事实语句具有独特语言特征
- 跨语言挑战:英语模型经机器翻译迁移至德/日语效果不佳,表明反事实表达高度语言相关
应用与持续工作
该数据集助力提升产品检索准确性,减少客户误导。当前研究正扩展至其他语言及更多语言结构类型(超越反事实语句)的过滤模型开发。