Jaccard相似系数

Jaccard相似系数衡量的则是两个集合的相似性,它定义为两个集合的交集元素在并集中所占的比例。

与Jaccard相似系数相反,Jaccard距离则用不同元素所占的比例来衡量两个集合的区分度。

Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

当集合A,B都为空时,J(A,B)定义为1。

与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:

 

 

其中对称差(symmetric difference)

 

 

示例

集合A = {a, b, c, d} 集合B = {c, d, e, f} A∩B = {c, d} A∪B = {a, b, c, d, e, f} 交集中有2个元素,并集中有6个元素,因此: 杰卡德系数为:J(A,B) = 2/6 = 1/3 杰卡德距离为:1 - J(A,B) = 2/3

 

 

评价聚类质量:

在数据集上使用聚类方法之后,需要评估结果簇的质量。

两类方法:外在方法和内在方法

外在方法:有监督的方法,需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。

内在方法:无监督的方法,无需基准数据。类内聚集程度和类间离散程度。

 

 

 

 

 REF

https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin

https://blog.csdn.net/weixin_39785524/article/details/110717499

https://blog.csdn.net/bbbeoy/article/details/81065738?spm=1001.2101.3001.6650.13&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-13.topblog&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-13.topblog&utm_relevant_index=17

 

https://wenku.baidu.com/view/9a8b6025a5c30c22590102020740be1e650eccec.html (聚类结果评价)

 

https://www.cnblogs.com/czhwust/p/mlclusterpre.html (聚类结果评价)

 

查看原文