A survey about neural network uncertainty

uncertainty

Posted by zz on 2020-07-10
Revisiting the Evaluation of Uncertainty Estimation and Its Application to Explore Model Complexity-Uncertainty Trade-Off url

通常情况下,我们计算完模型的uncertainty之后,有两个use cases. (1) selective prediction, (2) confidence calibration.

  • selective prediction: 选择一个confidence的阈值t,然后把小于阈值的样本剔除掉。通常情况下的评价指标是Area Under Receiver Operating Characteristic curve(AUROC) 和Area Under Precision-Recall curve(AUPR)。
  • confidence calibration: 找到一个confidence score,能够直接反应这个模型经验上的准确度 (一般情况下就算我们predict某个sample的confidence是0.9,假设confidence的范围为[0,1],那我们也并不能断定这个sample被predict正确的概率就是0.9,因为accuracy和confidence会有一定误差)。通常在这个use case里用来评价模型uncertainty预测好坏的指标是Expected Calibration Error(ECE)和Maximum Calibration Error(MCE)。

这篇文章针对两个use case,分别指出传统的评价指标可能存在的问题,然后提出了对应的解决方法: Area Under Risk-Coverage(AURC)和Adaptive binning。

测试的网络为DenseNet和WideResNet,数据集为Cifar10和Cifar100。除此之外还稍微介绍了一个Whole heart segmentation的实验,但没有具体的结果展示。