我们都知道数据对于深度学习模型的重要性,但是如何省时省力的得到高质量的数据呢?这就是此文章探讨的问题。

目录

1. 论文下载

2. 背景 

3. 相关技术

4. 创新点

5. 算法

5.1 置信学习(Confident learning)

 5.2 目标检测中的CL算法

1. 论文下载

https://arxiv.org/abs/2211.13993

2. 背景 

对于深度学习模型来说,标注数据的准确性,对模型的精度有很大的影响。而对于比如安全领域、自动驾驶领域,模型的精度是至关重要的,所以需要一些技术能够评价数据集并找出标注错误的数据,这也是该论文的关注点。

3. 相关技术

科研人员处理噪声数据的方法有很多。

(1)最简单的办法:雇佣多个标注员,对同一张图片进行多次标注,然后投票或者利用一致性等一些方法,判断哪个标注是对的,此类的缺点是耗时耗力;

(2)还有就是提出实现自适应的、耐噪声的DL算法,而不是试图发现的错误标签。缺点是不能从根本上解决问题,只是兼容了当前数据的噪声;

(3)其他研究人员提出的自信学习(Confident learning)方法:自信学习通过假设类条件噪声和

估计噪声和正确标签之间的联合概率分布来指出可疑标签,后面会细讲。

4. 创新点

(1)在目标检测领域,提出第一个检测噪声数据的方法;

(2)利用提出的检测噪声方法,成功的从公开的数据集中检测出了错误的标注数据,从而证实被广泛使用的数据集中确实存在一些错标的数据。

5. 算法

5.1 置信学习(Confident learning)

统计预测值和正确标签之间的概率分布来指出可疑标签。具体例子如下。

(1)该算法有两个输入和一个输出,两个输入是二值化标注值Y和模型预测值P,如下

   

 每一行代表一个数据样本,第一个数据标注类别是3,第二个类别是1,然后预测第一个数据为类别2的概率最大,预测第二个数据是类别1的概率最大,第一个数据被错误预测,所以被怀疑为噪声数据。所以该算法输出是E.

 5.2 目标检测中的CL算法

(1)每张图片和对应的bbox标注输入到目标检测模型,进行推理预测;

(2)推理预测的数据必须不能来自训练集;

(3)将原始标注gt_bbox和预测p_bbox进行聚类,其中该聚类方法是基于一个距离阈值,该距离计算公式是1-IOU(bbox_a, bbox_b),

待续。。。

参考:

https://github.com/cleanlab/cleanlab

相关阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。