• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

聚类分析之R语言篇

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

聚类分析(cluster analysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法。聚类结果一般在4-6类,不易太多,或太少。聚类分析目的在于将相似的事物归类,同一类中的个体有较大的相似性,不同类的个体差异性很大。两个个体间(或变量间)的对应程度或联系紧密程度的度量可以用两种方式来测量:1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性;2、采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。

       聚类分析方法包括:系统聚类法、动态聚类法、有序样本聚类法和模糊聚类法等等。本文只介绍较常用的系统聚类法和动态聚类法。

系统聚类法

以R基础包自带的鸢尾花(Iris)数据进行聚类分析。分析代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
###### 代码清单 #######
data(iris); attach(iris)
iris.hc <- hclust( dist(iris[,1:4]))
# plot( iris.hc, hang = -1)
plclust( iris.hc, labels = FALSE, hang = -1)
re <- rect.hclust(iris.hc, k = 3)
iris.id <- cutree(iris.hc, 3)
table(iris.id, Species)
 
###### 运行结果 #######
> table(iris.id,Species)
      Species
iris.id setosa versicolor virginica
     1     50          0         0
     2      0         23        49
     3      0         27         1

聚类分析生成的图形如下:

鸢尾花花萼及花瓣的长度和宽度系统聚类图

   结果表明,函数cuttree()将数据iris分类结果iris.hc编为三组分别以1,2,
3表示,保存在iris.id中。将iris.id与iris中Species作比较发现:1应该是setosa类,2应该是virginica类(因为
virginica的个数明显多于versicolor),3是versicolor。

动态聚类法

仍以R基础包自带的鸢尾花(Iris)数据进行K-均值聚类分析,分析代码如下:

1
2
3
4
5
6
7
8
9
###### 代码清单 #######
library(fpc)
data(iris)
df<-iris[,c(1:4)]
set.seed(252964) # 设置随机值,为了得到一致结果。
 
(kmeans <- kmeans(na.omit(df), 3)) # 显示K-均值聚类结果
 
plotcluster(na.omit(df), kmeans$cluster) # 生成聚类图

生成的图如下:

动态聚类结果


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言 创建矩阵发布时间:2022-07-18
下一篇:
R语言模型中的加总偏误与内生性:一种数值模拟方法发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap