《Python数据分析与挖掘实战》数据挖掘算法基础-(2)聚类.pptx

《Python数据分析与挖掘实战》数据挖掘算法基础-(2)聚类.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第5章数据挖掘算法基础;;与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化。;常用聚类算法:

;聚类分析仅根据样本数据本身将样本分组,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越好。

常见评价法有:

purity评价法:

RI评价法:

F值评价法:

;K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的衡量指标,即认为两个对象的距离越近,相似度就越大。;连续属性

对于连续属性,要先对各属性值进行零-均值规范,再进行距离的计算。K-Means聚类算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。

欧几里得距离:

曼哈顿距离:

闵可夫斯基距离:;文档数据

对于文档数据使用余弦相似性度量,先将文档数据整理成文档—词矩阵格式:

两个文档之间的相似度的计算公式为式:

;K均值算法的具体步骤如下:

(1)从N个样本数据中随机选取K个对象作为初始的聚类中心。

(2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。

(3)所有对象分配完成后,重新计算K个聚类的中心。

(4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转步骤(2),否则转步骤(5)。

(5)当质心不发生变化时停止并输出聚类结果。

;使用误差平方和簇内误方差(SumSquaredError,SSE)作为度量聚类质量的目标函数,对于两种不同的聚类结果,选择误差平方和较小的分类结果。

连续属性的SSE计算公式为式:

文档数据的SSE计算公式为式:

簇的聚类中心计算公式为式:

;使用scikit-learn库中cluster模块的KMeans类可以实现K-Means聚类算法对数据进行聚类,KMeans类的基本使用格式和常用参数说明如下??

classsklearn.cluster.KMeans(n_clusters=8,*,init=‘k-means++’,n_init=10,max_iter=300,tol=0.0001);基于密度的聚类算法又称为密度聚类算法。密度聚类算法的基本思想是:以样本点在空间分布上的稠密程度为依据进行聚类,若区域中的样本密度大于某个阈值,则将相应的样本点划入与之相近的簇中。

具有噪声的基于密度聚类(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)是一种典型的密度聚类算法。该算法从样本密度的角度进行考察样本之间的可联接性,并由可联接样本不断扩展直到获得最终的聚类结果。

;对于样本集,给定距离参数,数目参数,任一样本点,定义如下概念:

将集合称为样本点的邻域,若,则称为一个核心对象。

若样本点属于的邻域,且为一个核心对象,则称由密度直达。

对于样本点和,若存在样本点序列,且由密度直达,则称由密度可达。

若存在样本点,使得样本点和均由密度可达,称与密度相联。;DBSCAN算法的基本过程:

(1)输入样本集合、初始化距离参数,数目参数。

(2)确定核心对象集合。

(3)在核心对象集合中,随机选择一个核心对象作为种子。

(4)依据簇划分原则生成一个簇,并更新核心对象集合。

(5)若核心对象集合为空,则算法结束,否则返回步骤(3)。

(6)输出聚类结果。

;使用scikit-learn库中cluster模块的DBSCAN类可以实现密度聚类算法对数据进行聚类,DBSCAN类的基本使用格式和常用参数说明如下:

classsklearn.cluster.DBSCAN(eps=0.5,*,min_samples=5,metric=euclidean,

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档