全文链接:http://tecdat.cn/?p=32418
大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分(点击文末“阅读原文”获取完整代码数据)。
相关视频
人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理的分析和选择,聚类分析就显得尤为重要。
在本文中,我们采用了改进K-means聚类法帮助客户对随机选择的个股(查看文末了解数据免费获取方式)进行了聚类,并对各类股票进行了分析,给出了相应的投资建议。
读取数据
股票盈利能力分析数据
data=read.xlsx("股票盈利能力分析.xlsx")
初始聚类中心个数
初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k,但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的,这种情况下给出k值虽然对聚类本身会比较快速、高效,但是对于一些实际问题来说聚类效果却是不佳的。所以,下面我提出一种确定最佳聚类个数k的方法。
算法描述与步骤:
输入:包含n个对象的数据集;
输出:使得取值最小的对应的k值。
(1)根据初步确定簇类个数k的范围;
(2)仍然是用K-means算法对的每一个k值分别进行聚类;
(3)分别计算不同聚类个数k所对应的的值;
(4)找出最小的值,记下对应的k值,算法结束。
S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")
点击标题查阅往期内容
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
左右滑动查看更多
01
02
03
04
初始中心位置的选取
传统的K-means聚类算法中,我们总是希望能将孤立点对聚类效果的影响最小化,但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用;然而,本文排除以上这些因素,单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心,我们选择高密度数据集合区域D中的数据作为聚类初始中心。
基本思想:
传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点,会对聚类结果产生很大的影响,所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,有了第3个初始中心,同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心,以此类推,直到在高密度区将k个聚类中心都找出来为止。
算法描述与步骤:
输入:包含n个对象的数据集,簇类数目k;
输出:k个初始聚类中心。
(1)计算n个数据样本中每个对象x的的密度,当满足核心对象的条件时,将该对象加到高密度区域D中去;
(2)在区域D中计算两两数据样本间的距离,找到间距最大的两个样本点作为初始聚类中心,记为;
(3)再从区域D中找出满足条件:的点,将作为第三个初始聚类中心;
(4)仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点;
(5)按照同样的方法进行下去,直到找到第k个初始聚类中心,结束。
#首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,
dd=dist(data)
dd=as.matrix(dd)
#高密度区域
D=which(dd D=unique(D[,1]) dataD=data[D,] index=0 for(i in 1:k){ index[i]=as.numeric(row.names(which ( 相似性度量的改进 在前面确定了k值以及k个初始聚类中心后,只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量,这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的,一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。那么,我们如果根据数据样本的重要性对其赋予一个权值,就会减小孤立点等一些因素对聚类的影响,这种改进的度量方法我们称之为加权欧氏距离。 ###根据改进后的加权欧氏距离公式 ## 检验聚类操作是否需要结束,改进后的加权准则函数公式:的值最小或保持不变了 sqrt(sum((c1$Centers/(sum(c1$Centers)/len 绘制聚类中心和可视化 lot(data[,-c(1:4)], fit$cluste 输出聚类结果和聚类中心 ###########################聚类类别############### fit$Clusters ###########################聚类中心######################### fit$Centers 数据获取 在公众号后台回复“股票盈利数据”,可免费获取完整数据。 本文中分析的数据分享到会员群,扫描下面二维码即可加群! 点击文末“阅读原文” 获取全文完整代码数据资料。 本文选自《R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化》。 点击标题查阅往期内容 数据分享|R语言分析上海空气质量指数数据:kmean聚类、层次聚类、时间序列分析:arima模型、指数平滑法 R语言k-Shape时间序列聚类方法对股票价格时间序列聚类 K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较 KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数 PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较 有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据 R语言多维数据层次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据 r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化 Python Monte Carlo K-Means聚类实战研究 R语言k-Shape时间序列聚类方法对股票价格时间序列聚类 R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归 R语言谱聚类、K-MEANS聚类分析非线性环状数据比较 R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口 R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化 Python、R对小说进行文本挖掘和层次聚类可视化分析案例 R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集 R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间 R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化 R语言k-Shape时间序列聚类方法对股票价格时间序列聚类 R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析 R语言复杂网络分析:聚类(社区检测)和可视化 R语言中的划分聚类模型 基于模型的聚类和R语言中的高斯混合模型 r语言聚类分析:k-means和层次聚类 SAS用K-Means 聚类最优k值的选取和分析 用R语言进行网站评论文本挖掘聚类 基于LDA主题模型聚类的商品评论文本挖掘 R语言鸢尾花iris数据集的层次聚类分析 R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归 R语言聚类算法的应用实例 相关链接
发表评论