多元统计分析多元统计分析 (31).ppt

多元统计分析多元统计分析 (31).ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
应用多元统计分析 第六章、聚类分析第3讲、定量变量样品间的距离 描述样品间的亲疏程度最常用的是距离. n个样品看成m维空间中的n个点,用dij表示样品X(i)和X(j) 之间的距离,一般要求: ① dij ≥0,对一切i,j ; 当dij =0 <==>X(i) = X(j) ; ② dij = dji ,对一切i,j; ③ dij ≤ dik+ dkj,对一切i,j,k(三角不等式).X(k)X(i)X(j) 对n个样品计算两两间的距离dij后,可排成矩阵D d11 d12 …. d1n d21 d22 …. d2n D = ………………. dn1 dn2 …. dnnn×ndij 值越小,表示两个样品越接近, dij值越大,表示两个样品越不相近. 1. 闵科夫斯基(Minkowski)距离当q=1时的一阶Minkowski度量就称为绝对值距离. 当q=∞时的Minkowski度量称为切比雪夫距离 . 当q=2时的二阶Minkowski度量称为欧氏距离.欧氏距离是聚类分析中用得最广泛的距离. 缺点:(1) 与各变量的量纲有关; (2) 没有考虑指标间的相关性; (3) 没有考虑各变量方差的不同.如欧氏距离,方差大的变量在距离中的作用(贡献)就会大,这是不合适的. 合理的方法就是对各变量加权,如用1/s2 作为权数可得出“统计距离”: 2. 兰氏距离(要求xij>0) 这是由Lance和Williams最早提出的,故称为兰氏距离.这是一个无量纲的量.克服了闵氏距离与各指标的量纲有关的缺点.且兰氏距离对大的奇异值不敏感,这样使得它特别适合高度偏倚的数据. 但兰氏距离也没有考虑变量间的相关性. 3. 马氏距离(Mahalanobis) 马氏距离既排除了变量间相关性的干扰,而且还不受各项指标量纲的影响.另马氏距离对线性变换具有不变性. 马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算均值和协差阵来求马氏距离,效果不是很好. 比较合理的办法是用各个类的样本来计算各自的协差阵,同一类样品间的马氏距离应当用这一类的协差阵来计算,但类的形成都要依赖于样品间的距离,而样品间合理的马氏距离又依赖于类,这就形成了一个恶性循环,因此在实际聚类分析中,马氏距离也不是理想的距离. 4. 斜交空间距离 在m维空间中,为使具有相关性变量的谱系结构不发生变形,采用斜交空间距离,即在数据标准化处理下,rkl为变量Xk和Xl之间的相关系数 小结定量变量样品间的距离1. 闵科夫斯基(Minkowski)距离2. 兰氏距离4. 斜交空间距离 3. 马氏距离

文档评论(0)

职教中心 + 关注
实名认证
内容提供者

学高为师,身正为范!

认证主体余**

1亿VIP精品文档

相关文档

相关课程推荐