A survey about neural network uncertainty

通常情况下，我们计算完模型的uncertainty之后，有两个use cases. (1) selective prediction, (2) confidence calibration.

selective prediction: 选择一个confidence的阈值t，然后把小于阈值的样本剔除掉。通常情况下的评价指标是Area Under Receiver Operating Characteristic curve(AUROC) 和Area Under Precision-Recall curve(AUPR)。
confidence calibration: 找到一个confidence score，能够直接反应这个模型经验上的准确度 (一般情况下就算我们predict某个sample的confidence是0.9，假设confidence的范围为[0,1]，那我们也并不能断定这个sample被predict正确的概率就是0.9，因为accuracy和confidence会有一定误差)。通常在这个use case里用来评价模型uncertainty预测好坏的指标是Expected Calibration Error(ECE)和Maximum Calibration Error(MCE)。

这篇文章针对两个use case，分别指出传统的评价指标可能存在的问题，然后提出了对应的解决方法: Area Under Risk-Coverage(AURC)和Adaptive binning。

测试的网络为DenseNet和WideResNet，数据集为Cifar10和Cifar100。除此之外还稍微介绍了一个Whole heart segmentation的实验，但没有具体的结果展示。