HDBSCAN学习记录 参考文章

HDBSCAN

具体过程可分为如下五步:

空间变换构建最小生成树构建聚类层次结构(聚类树)压缩聚类树提取簇

一、空间变换

核心距离:将样本与第k个最近邻样本点的距离称为核心距离,表示为

c

o

r

e

k

(

x

)

=

d

(

x

,

N

k

(

x

)

)

core_{k}(x) = d(x, N^k(x))

corek​(x)=d(x,Nk(x)).互达距离:两个样本点的互达距离表示为

d

m

r

e

a

c

h

k

(

a

,

b

)

=

m

a

x

{

c

o

r

e

k

(

a

)

,

c

o

r

e

k

(

b

)

,

d

(

a

,

b

)

}

d_{mreach-k}(a,b) = max\{core_k(a),core_k(b),d(a,b)\}

dmreach−k​(a,b)=max{corek​(a),corek​(b),d(a,b)}. 可达距离的效果就是将密集点保持不变,稀疏点变得更远。这是因为对于密集点来说,其两个点之间的距离很小,肯定小于核心距离,这样其互达距离依旧是核心距离,没有变化;但是对于稀疏点来说,其距离可能已经大于两个样本点的核心距离了,这样其互达距离就会更大,变得更远。空间变换:用互达距离表示两个样本点之间的距离。密集区域测样本距离不受影响,稀疏区域的样本点与其他样本点的距离被放大,增加了聚类算法堆散点的鲁棒性。k对空间变换产生影响。k较大时,核心距离变大,互达距离也变大,所以就更多的点被视作散点,被分配到稀疏区域。

二、构建最小生成树

将所有的点看作一个加权图,权值为互达距离找到最小边集合,从集合中删除任何边都会导致图分裂,这个最小的边集合就是图的最小生成树。Prim算法构建最小生成树,具体可以找找别的文章看,这里暂且没有用到就先不细说了~

三、构建聚类树

四、压缩聚类树

五、提取簇

相关文章

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。