代码和数据是否可用?
是的,代码和数据已在GitHub上公开。代码包含蒙特卡洛保形预测的实现以及论文v1版中的合理性区域计算。
论文中使用的保形p值如何推导?
保形预测与p值之间的联系在文献中较为分散,目前缺乏系统的参考资料。为此,我们在论文附录B中提供了详细的推导过程。
如何从不同格式的标注中获取合理性λλ?
这本质上是一个建模选择,取决于可用的标注类型。在3.1节中,我们以单标签标注和部分标签排序为例,通过聚合模型定义对应的分布PY|Xagg:
|
|
其中λλ为合理性向量(分类任务中即为类别概率向量),y为目标标签,x为样本,b为标注。获取λλ的核心在于定义p(λ|b)。论文中我们简化为p(λ|b),并假设标注者从未知模型p(b|x)生成标注。若标注为单标签或部分排序,3.1节提供了具体模型示例。
为何不在合理性空间直接进行保形预测?
我们已在论文v1版中尝试并报告了该方法,其本质是通过保形预测构建可信集。相关技术报告可参考《保形化可信集预测器》。
能否直接基于标注进行校准?
在标注格式与合理性格式匹配时可行(例如分类任务中标注为单标签且合理性为类别分布)。若格式不匹配,则需要通过p(λ|b)模型进行转换。论文3.1节以部分标签排序为例说明了这种情况。
标注本身是否存在不确定性?
确实存在。我们将标注不确定性隐藏在聚合模型p(λ|b)中。在另一篇论文中,我们将真实值不确定性分解为固有不确定性和标注不确定性。蒙特卡洛保形预测仅处理固有不确定性(即合理性可能具有高熵的情况)。本工作表明,我们不仅需要p(λ|b)的点估计,还需直接从中采样。通过采样λ∼p(λ|b)可同时考虑两类不确定性,或单独处理标注不确定性。
能否保证任意风险?
目前尚未明确探索。虽然可通过采样标签构建增强校准集并应用保形风险控制,但由于论文中的p值技巧无法直接适用,理论保证尚待验证。
为何实证覆盖率为1−α但理论保证仅为1−2α?
这仍是未解问题。类似方法(如Jackknife+保形预测)也存在相同现象,可能源于对依赖p值组合的理论限制。实践中极难构造达到1−2α下限的数据集。
能否扩展至回归问题?
可行,但需额外建模假设。分类任务中类别分布具有普适性,而回归任务需预先定义合理性分布(例如正态分布)。具体形式取决于标注和任务需求。
多标签分类实验中的覆盖定义如何理解?
传统方法对校准集中每个标签集的每个标签重复样本并执行标准保形预测。蒙特卡洛法则假设合理性在标签集上定义均匀分布,允许预测器分配"部分覆盖"。是否适用取决于具体场景。
数据增强实验的意义?
训练时数据增强旨在引入预测模型的不变性,但标准保形预测会忽略这些不变性导致覆盖不足。蒙特卡洛法通过在增强校准集上校准解决了这一问题。
皮肤病案例中能否直接对部分排序列表进行保形预测?
可以(例如使用Plackett-Luce模型),但需在测试时枚举所有可能排序构建预测集,计算成本高于多标签分类的标准方法,且实际应用中排序集合的用途常不明确。