HDBSCAN学习记录 参考文章
HDBSCAN
具体过程可分为如下五步:
空间变换构建最小生成树构建聚类层次结构(聚类树)压缩聚类树提取簇
一、空间变换
核心距离:将样本与第k个最近邻样本点的距离称为核心距离,表示为
c
o
r
e
k
(
x
)
=
d
(
x
,
N
k
(
x
)
)
core_{k}(x) = d(x, N^k(x))
corek(x)=d(x,Nk(x)).互达距离:两个样本点的互达距离表示为
d
m
r
e
a
c
h
−
k
(
a
,
b
)
=
m
a
x
{
c
o
r
e
k
(
a
)
,
c
o
r
e
k
(
b
)
,
d
(
a
,
b
)
}
d_{mreach-k}(a,b) = max\{core_k(a),core_k(b),d(a,b)\}
dmreach−k(a,b)=max{corek(a),corek(b),d(a,b)}. 可达距离的效果就是将密集点保持不变,稀疏点变得更远。这是因为对于密集点来说,其两个点之间的距离很小,肯定小于核心距离,这样其互达距离依旧是核心距离,没有变化;但是对于稀疏点来说,其距离可能已经大于两个样本点的核心距离了,这样其互达距离就会更大,变得更远。空间变换:用互达距离表示两个样本点之间的距离。密集区域测样本距离不受影响,稀疏区域的样本点与其他样本点的距离被放大,增加了聚类算法堆散点的鲁棒性。k对空间变换产生影响。k较大时,核心距离变大,互达距离也变大,所以就更多的点被视作散点,被分配到稀疏区域。
二、构建最小生成树
将所有的点看作一个加权图,权值为互达距离找到最小边集合,从集合中删除任何边都会导致图分裂,这个最小的边集合就是图的最小生成树。Prim算法构建最小生成树,具体可以找找别的文章看,这里暂且没有用到就先不细说了~
三、构建聚类树
四、压缩聚类树
五、提取簇
相关文章
发表评论