它刻画了所有属于同一类的样本对(要么在CC中属于同一类,要么在C∗C∗中属于同一类),同时在C,C∗C,C∗中属于同一类的样本量的比值。
FM指数(Fowlkes and Mallows Index,FMI):
FMI=aa+b⋅aa+c−−−−−−−−−−−√FMI=aa+b⋅aa+c
它刻画的是:在CC中属于同一类的样本对中,同时属于C∗C∗的样本对的比例为p1p1,在C∗C∗中属于同一类的样本对中,同时属于CC的样本对的比例为p2p2,FMI就是p1p1和p2p2的几何平均。
Rand指数(Rand Index,RI):
RI=2(a+d)N(N−1)RI=2(a+d)N(N−1)
它刻画的是同时隶属C,C∗C,C∗的样本对与同时不隶属于C,C∗C,C∗的样本对之和占所有样本对的比例。
ARI指数(Adjusted Rand Index,ARI):
ARI=RI−E[RI]max(RI)−E[RI]ARI=RI−E[RI]max(RI)−E[RI]
使用RI时有个问题,就是对于随机聚类,RI不保证接近0(可能还很大)。而ARI指数就可以利用随机聚类情况下的RI即**E[RI]**来解决这个问题.
这些外部指标性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好。
内部指标
给定数据集D=D={x⃗ 1,x⃗ 1,…,x⃗ Nx→1,x→1,…,x→N}。若聚类给出的簇划分为C=C={C1,C2,…,CKC1,C2,…,CK},定义
avg(Ck)=2|Ck|(|Ck−1|)∑x⃗ i,x⃗ j∈Ck,i≠jdistance(x⃗ i,x⃗ j),k=1,2,…,Kavg(Ck)=2|Ck|(|Ck−1|)∑x→i,x→j∈Ck,i≠jdistance(x→i,x→j),k=1,2,…,K
diam(Ck)=maxx⃗ i,x⃗ j∈Ck,i≠jdistance(x⃗ i,x⃗ j),k=1,2,…,Kdiam(Ck)=maxx→i,x→j∈Ck,i≠jdistance(x→i,x→j),k=1,2,…,K
dmin(Ck,Cl)=minx⃗ i∈Ck,x⃗ j∈Cldistance(x⃗ i,x⃗ j),k=1,2,…,K;k≠ldmin(Ck,Cl)=minx→i∈Ck,x→j∈Cldistance(x→i,x→j),k=1,2,…,K;k≠l
dcen(Ck,Cl)=distance(μ⃗ k,μ⃗ l),k=1,2,…,K;k≠ldcen(Ck,Cl)=distance(μ→k,μ→l),k=1,2,…,K;k≠l
其中,distance(x⃗ i,x⃗ j)distance(x→i,x→j)表示两点x⃗ i,x⃗ jx→i,x→j之间的距离;μ⃗ kμ→k表示簇CkCk的中心点,μ⃗ lμ→l表示簇ClCl的中心点;distance(μ⃗ k,μ⃗ l)distance(μ→k,μ→l)表示簇Ck,ClCk,Cl的中心点之间的距离。上述定义的意义如下:
avg(Ck)avg(Ck):簇CkCk中每对样本之间的平均距离; diam(Ck)diam(Ck):簇CkCk中距离最远的两个点的距离; dmin(Ck,Cl)dmin(Ck,Cl):簇C)k,ClC)k,Cl之间最近的距离; dcen(Ck,Cl)dcen(Ck,Cl):簇Ck,ClCk,Cl中心点之间的距离;
使用上述定义式,可有以下的内部指标。
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:python)
只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频**
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:python) [外链图片转存中…(img-zmpU8xU7-1710876214680)]
精彩内容
发表评论
2024-06-28 20:53:42回复
内部指标主要包括:
1. 平均簇内距离(avg(Ck)):簇Ck中每对样本之间的平均距离;
2. 簇最大距离(diam(Ck)):簇Ck中距离最远的两个点的距离;
3. 最近邻簇间距离(dmin(Ck,Cl)):簇Ck与簇Cl之间最近的距离;
4. 簇中心间距离(dcen(Ck,Cl)):簇Ck、Cl的中心点之间的距离。