- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2023/12/61第二讲聚类分析(一)
2023/12/62上讲复习什么是模式识别模式识别的实例模式识别系统的组成本门课程的上课内容和其他信息模式识别的数学基础
2023/12/63模式识别系统模式识别系统的基本构成数据获取特征提取和选择预处理分类决策分类器设计
2023/12/64本讲内容聚类分析概念相似性测度和聚类准则基于距离阈值的聚类算法系统聚类法
2023/12/65聚类分析的概念非监督分类 物以类聚,人以群分距离的理解距离:Distance,Metric。模式样本的特征值数量特征向量合适的特征使得模式样本点的分布呈现一定的规律不好的特征:围棋子的大小聚类分析中的两个问题特征的选择。略去多余的特征。测量值的量化。连续量的量化量级的数量化定性的指标
2023/12/66相似性的测度(SimilarityMetric)距离的四条基本公理设P表示一个点集,d表示距离。显然d是PXP到[0,∞)的函数。d(x,y)≥0,对于任意的x,y∈P;d(x,y)=0,当且仅当x=y;d(x,y)=d(y,x),对于任意的x,y∈P;d(x,y)≤d(x,z)+d(z,y),对于任意的x,y,z∈P;
1.欧氏距离(Euclid,欧几里德)——简称距离设X1、X2为两个n维模式样本,注意:1)各特征向量对应的维上应当是相同的物理量;注意物理量的单位。(D_Distance)距离越小,越相似。欧氏距离定义为:某些维上物理量采用的单位发生变化,会导致对同样的点集出现不同聚类结果的现象。
b(5,0)d(4,5)c(1,4)a(0,1)12345012345(a)2)解决方法:使特征数据标准化,使其与变量的单位无关。d(0.4,5)c(0.1,4)a(0,1)123450123b(0.5,0)(b)b(5,0)c(1,0.4)d(4,0.5)a(0,0.1)123012345(c)
对n维向量:,(样本点到均值向量的马氏距离)平方表达式:式中,X:模式向量;M:均值向量;C:该类模式总体的协方差矩阵。(M_Mean)(C_covariance)2.马氏距离(Maharanobis)
表示的概念是各分量上模式样本到均值的距离,也就是在各维上模式的分散情况。越大,离均值越远。
2023/12/611马氏距离的计算是建立在总体样本的基础上的。即,相同的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的。马氏距离与欧氏距离之间的关系当C=I时,马氏距离为欧氏距离。
当m=2时,明氏距离为欧氏距离。n维模式样本向量Xi、Xj间的明氏距离表示为:式中,xik、xjk分别表示Xi和Xj的第k个分量。街坊欧氏3.明氏距离(Minkowaki)当m=1时:称为“街区”距离(“Cityblock”distance)。当n=2时:图示
4.汉明(Hamming)距离设Xi、Xj为n维二值(1或-1)模式样本向量,则两个模式向量的各分量取值均不同:Dh(Xi,Xj)=n;全相同:Dh(Xi,Xj)=0式中,xik、xjk分别表示Xi和Xj的第k个分量。汉明距离:5.角度相似性函数是模式向量Xi,Xj之间夹角的余弦。
聚类准则:根据相似性测度确定的,衡量模式之间是否相似的标准。即把不同模式聚为一类还是归为不同类的准则。确定聚类准则的两种方式:1.阈值准则:根据规定的距离阈值进行分类的准则。2.函数准则:利用聚类准则函数进行分类的准则。聚类准则函数:在聚类分析中,表示模式类间相似或差异性的函数。它应是模式样本集{X}和模式类别的函数。可使聚类分析转化为寻找准则函数极值的最优化问题。一种常用的指标是误差平方之和。2.2.2聚类准则
聚类准则函数:式中:c为聚类类别的数目,为属于集的样本的均值向量,为中样本数目。J代表了分属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。适用范围:适用于样本类数给定,各类样本密集且数目相差不多,而不同类间的样本又明显分开的情况。
例1:类内误差平方和很小,类间距离很远。可得到最好的结果。类长轴两端距离中心很远,J值较大,结果不易令人满意。
错误分类例2:另一种
文档评论(0)