元学习在语言异常检测中的少样本应用

摘要

提出了一种元学习框架，用于在有限标注数据的情况下检测跨领域人类语言中的异常。语言异常（包括垃圾邮件、假新闻和仇恨言论）因其稀疏性和变异性构成重大挑战。该方法将异常检测视为少样本二元分类问题，并利用元学习训练能够跨任务泛化的模型。

使用来自SMS垃圾邮件、COVID-19假新闻和仇恨言论等领域的数据集，以最少标注的异常样本评估模型在未见任务上的泛化能力。方法结合了情景训练与原型网络，并通过领域重采样技术快速适应新的异常检测任务。

实证结果表明，该方法在F1和AUC分数上均优于强基线模型。同时公开了代码和基准测试以促进少样本文本异常检测的进一步研究。

提供15页技术文档，基于PyTorch的元学习异常检测代码可根据需求提供或通过GitHub分享。模型架构专注于跨域泛化能力，采用元学习优化策略解决标注数据稀缺问题。