特征空间相似性分析之相似遮挡(三点距离关系)

方差实验组-升级

Posted by JoselynZhao on February 28, 2020

动机

基于前面提出的方差置信度问题。 我们首先是认为在最小欧几里得距离相差不多的情况下,我们优先选择 与其最近两个带标注样本距离方差(后简称方差)较大的伪标签样本。 其根据依据是当一个东西同时像两个不同的东西的时候,那这个东西谁都不像了

简单的通过方差二次采样 验证了方差置信度的在实际的迭代过程中的效果。通过可视化距离的数值,我们发现那些因为方差太小而被淘汰掉了的数据并没有和标签估计错误的数据有太明显的对应关系

由此,我们考虑是否在应用方差的过程中,漏掉了什么重要的条件信息。

方案

思路陈述

首先,我们简单的考虑在方差固定的情况下,两个距离待标注样本最近的标注样本之间可能存在的位置关系。

image

如上图,中间的黑色实心点表示待标注样本,1和2是两个不同的且距离带标注样本最近的标注样本。 在固定距离方差的情况下,很明显,1和2可以分别在以d1和d2为半径的圆环上移动,其相对位置的情况非常多。

我们考虑如下两种极端情况:

image

在两种极端情况下, 三个点都位于同一直线上,不同的是,第一种情况下, 1和2位于待标注样本同侧,而第二种情况下,1和2 异侧。 这个问题可以用拔河来解释,距离越短,力气越大。 方差小,说明二者的力气差不多,后面就不用考虑大小的问题了。当2和1同侧的时候,用力一拉,待标注点必然首先靠近距离更进的1 。 当1和2 异侧时,势力相当,僵持不下,谁都靠近不了。

由此, 我们把1和2同侧的这种情况下,称为相似遮挡,也就是说1在2的前面把2挡住了,2起不了影响 带标注属于1类的可信度的影响。

那究竟2应该位于1后什么位置才能算遮挡得住呢?

我们这里取特征控制中1的最小类间距来作为度量,假设1的最小类间距为c_min,1和2之间的距离为c, 待标注点和1的距离为a,和2的距离为b,如下图。

image

显然, c_min小于等于c。 我们设遮挡角度为2倍y1,y1对应的边长度即为c_min。 设1和2到待标注点的夹角为y2. 设定y2小于y1即出现相似遮挡。

公式计算

image image

由余弦曲线可知y2<=y1即cosy2 >=cosy1

image

也就是说

image

具体的应用

假设本轮训练共需选出800个数据,我们首先按0.9的比例进行扩展(0.9可以作为对标签估计准确率的估计)。

然后从扩展选出来的这些数据里面挑出具有相似遮挡的样本,设为m个。

随后再对剩下的数据进行方差排序,选前n-m个方差较大的数据。

image