聚类分析1聚类分析1.doc

下载文档 降价啦

90
0
约1.65万字
约 28页
2018-01-27 发布于贵州
举报
版权申诉
保障服务

聚类分析1聚类分析1.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析1聚类分析1

系统聚类分析在实际工作中，我们经常遇到分类问题，若事先已经建立类别，则使用判别分析，若事先没有建立类别，则使用聚类分析。聚类分析主要是研究在事先没有分类的情况下，如何将样本归类的方法。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合。严格的数学定义是较麻烦的，在不同问题中类的定义是不同的。详见参考文献[1]。聚类分析起源于分类学，在考古的分类学中，人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展，人类的认识不断加深，分类越来越细，要求也越来越高，有时光凭经验和专业知识是不能进行确切分类的，往往需要定性和定量分析结合起来去分类，于是数学工具逐渐被引进分类学中，形成了数值分类学。后来随着多元分析的引进，聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。在社会经济领域中存在着大量分类问题，比如对我国30个省市自治区独立核算工业企业经济效益进行分析，一般不是逐个省市自治区去分析，而较好地做法是选取能反映企业经济效益的代表性指标，如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等，根据这些指标对30个省市自治区进行分类，然后根据分类结果对企业经济效益进行综合评价，就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察，而物价指数很多，有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多，通常先对这些物价指数进行分类。总之，需要分类的问题很多，因此聚类分析这个有用的数学工具越来越受到人们的重视，它在许多领域中都得到了广泛的应用。值得提出的是将聚类分析和其它方法联合起来使用，如判别分析、主成分分析、回归分析等往往效果更好。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本章主要介绍常用的系统聚类法。 1、聚类分析的基本知识系统聚类法的基本原理：首先将一定数量的样品（或指标）各自看成一类，然后根据样品（或指标）的亲疏程度，将亲疏程度最高的两类合并，如此重复进行，直到所有的样品都合成一类（即，将一个样品看作P维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类）。衡量亲疏程度的指标有两类：距离、相似系数。设有n个样品，每个样品测得p项指标（变量），原始资料阵为其中为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述，所以任何两个样品XK与XL之间的相似性，可以通过矩阵X中的第K行与第L行的相似程度来刻划；任何两个变量与之间的相似性，可以通过第K列与第L列的相似程度来刻划。如果把n个样品（X中的n个行）看成p维空间中n个点，则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。 1 常用的距离假设有两个p维样本，（1）欧氏距离（2）标准化欧氏距离这里D表示n个样本的方差矩阵，表示第j列的方差。（3）布洛克距离（绝对距离）（4）闵可夫斯基（Minkowski）距离注：当q=1时是布洛克距离（绝对距离）；当q=2时是欧氏距离。当各变量的测量值相差悬殊时，要用明氏距离并不合理，常需要先对数据标准化，然后用标准化后的数据计算距离。闵可夫斯基（Minkowski）距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但闵可夫斯基（Minkowski）距离存在不足之处，主要表面在两个方面：第一，它与各指标的量纲有关；第二，它没有考虑指标之间的相关性，欧氏距离也不例外。除此之外，从统计的角度上看，使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差，或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的，这时使用欧氏距离才合适，效果也较好，否则就有可能不能如实反映情况，甚至导致错误结论。因此一个合理的做法，就是对坐标加权，这就产生了“统计距离”。比如设，，且Q的坐标是固定的，点P的坐标相互独立地变化。用s11,s12,…,spp表示p个变量的n次观测的样本方差，则可以定义P到Q的统计距离为：所加的权是，即用样本方差除相应坐标。当取时，就是点P到原点O的距离。若时，就是欧氏距离。（5）马氏（Mahalanobis）距离马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的，故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用。假设共有p个指标，第i个指标共测得m个数据（要求mn） , 于是，得到阶的数据矩阵，每一行是一个样本数据。阶的数据矩阵的阶协方差矩阵记作，其中，如果存在，则两个样品之间的马氏距离为马氏距离既排除了各指标之间相关性的干扰，而且还不受各指标