今天用来做系统聚类的软件是SPSS。要学习这个软件,你必须有一定的统计知识。聚类分析是指将物理或抽象对象的集合分组为多个由相似对象组成的类的分析过程。
聚类分析的目标是收集数据,根据相似性进行分类。聚类起源于许多领域,包括数学、计算机科学、统计学、生物学和经济学。许多聚类技术已经在不同的应用领域得到了发展。这些技术用于描述数据,测量不同数据源之间的相似性,并将数据源分类到不同的集群中。
聚类是将数据分类到不同类别或聚类的过程,因此同一聚类中的对象有很大的相似性,而不同聚类中的对象有很大的差异。
从010年到1010年,选取了中国31个省份的经济指标,将国民经济水平划分为不同的类别。
选定的数据如下:
打开SPSS从010到1010,点击分析分类系统聚类。
导入选择的变量,以区域为案例标注依据。
在图中选择谱系图,直观判断分类情况。
聚类方法选择Wald方法,选择Mahalanobis距离消除因经济变量单位不同而带来的维数影响。
案例实战:
我们的结果如下图所示。凭直觉,我们可以把全国分为四类:经济发达、比较发达、一般、落后。
从统计学的角度来看,聚类分析是一种通过数据建模来简化数据的方法。传统的统计聚类分析方法包括系统聚类法、分解法、加法法、动态聚类法、有序样本聚类法、重叠聚类法和模糊聚类法等。可以进一步探索相关的聚类方法。