聚类分析大纲.docxVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 什么是聚类分析 1.起源 \t "/Xin_101/article/details/_blank" 聚类分析最早起源于分类学,初期人们依靠经验将某类事件的集合分为若干子集。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,干是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。 聚类(Cluster) 按照某个特定标准(如距离准则)将一个数据集分成不同的类或簇,使同一个簇内的数据对象相似性尽可能大,同事不在同一簇中数据对象的差异性尽可能大。聚类后同一类数据尽可能聚集到一起,不同数据尽量分离。 聚类分析(Cluster Analvsis) 聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。(1、聚类分析是什么,聚类分析的目的是什么?) 我们认为,所研究的样品或指标(变量)(例:我们研究的是74位同学的7课成绩;74位同学是样本,7科成绩就是指标)之间是存在着程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,…。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。(2、聚类分析的基本思想) 聚类分析的思想 聚类分析可以用来对样品进行分类,也可以用来对变量进行分类。 对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。 与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 聚类的目的 在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标))归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。 例3-1:本例收集了2015年北上广和江浙地区批发零售、交通运输、住宿餐饮、金融、房地产、水利环境这6个服务业的就业人员年平均工资数据(数据来源于2016年《中国劳动统计年鉴》1.如表3-1所示。依据这6个主要服务行业就业人员的平均工资、单位所属地区和单位类型对其进行分类,以分析我国经济发达地区(北上广、江浙地区)的城镇服务业单位就业人员的平均工资水平。(用例子引出指标的三种尺度,进而引出指标(变量)的处理方式) 例3-1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度 间隔尺度:变量用连续的量来表示。 有序尺度:指标用有序的等级来表示,有次序关系但没有数量表示。 名义尺度:指标用一些类来表示,这些类之间没有等级关系也没有数量关系。 不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。 四、聚类分析法的分类 聚类分析根据实际的需要可能有两个方向,一是对样品,一是对指标聚类。 第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在$3.3中,我们将给类一些待探讨的定义。 聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3) K-均值法。(4) 有序样品的聚类。(5) 分解法。(6) 加入法。 1)系统聚类法。首先,将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有哪些样品。 (2)模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定性变量的分类。 (3)K-均值法。K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类 的个数k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法适用的大得 多的数据组。 (4)有序样品的聚类。n个样品按某种原因(时间、地层深度等)排成次序,必须是次序相邻的样品才能聚成一类。 (5)分解法。它的程序正好和系

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档

相关课程推荐