《Python数据分析与挖掘实战》数据挖掘算法基础-（2）聚类.pptx

下载文档

1
0
约2.76千字
约 19页
2024-01-30 发布于山东
举报
版权申诉
保障服务

《Python数据分析与挖掘实战》数据挖掘算法基础-（2）聚类.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第5章数据挖掘算法基础;;与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组内样本最小化而组间（外部）距离最大化。;常用聚类算法：

;聚类分析仅根据样本数据本身将样本分组，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性越大，组间差别越大，聚类效果就越好。

常见评价法有：

purity评价法：

RI评价法：

F值评价法：

;K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的衡量指标，即认为两个对象的距离越近，相似度就越大。;连续属性

对于连续属性，要先对各属性值进行零-均值规范，再进行距离的计算。K-Means聚类算法中，一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。

欧几里得距离：

曼哈顿距离：

闵可夫斯基距离：;文档数据

对于文档数据使用余弦相似性度量，先将文档数据整理成文档—词矩阵格式：

两个文档之间的相似度的计算公式为式：

;K均值算法的具体步骤如下：

（1）从N个样本数据中随机选取K个对象作为初始的聚类中心。

（2）分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中。

（3）所有对象分配完成后，重新计算K个聚类的中心。

（4）与前一次计算得到的K个聚类中心比较，如果聚类中心发生变化，转步骤（2），否则转步骤（5）。

（5）当质心不发生变化时停止并输出聚类结果。

;使用误差平方和簇内误方差（SumSquaredError，SSE）作为度量聚类质量的目标函数，对于两种不同的聚类结果，选择误差平方和较小的分类结果。

连续属性的SSE计算公式为式：

文档数据的SSE计算公式为式：

簇的聚类中心计算公式为式：

;使用scikit-learn库中cluster模块的KMeans类可以实现K-Means聚类算法对数据进行聚类，KMeans类的基本使用格式和常用参数说明如下??

classsklearn.cluster.KMeans(n_clusters=8,*,init=‘k-means++’,n_init=10,max_iter=300,tol=0.0001）;基于密度的聚类算法又称为密度聚类算法。密度聚类算法的基本思想是：以样本点在空间分布上的稠密程度为依据进行聚类，若区域中的样本密度大于某个阈值，则将相应的样本点划入与之相近的簇中。

具有噪声的基于密度聚类（Density-BasedSpatialClusteringofApplicationswithNoise，DBSCAN）是一种典型的密度聚类算法。该算法从样本密度的角度进行考察样本之间的可联接性，并由可联接样本不断扩展直到获得最终的聚类结果。

;对于样本集，给定距离参数，数目参数，任一样本点，定义如下概念：

将集合称为样本点的邻域，若，则称为一个核心对象。

若样本点属于的邻域，且为一个核心对象，则称由密度直达。

对于样本点和，若存在样本点序列，且由密度直达，则称由密度可达。

若存在样本点，使得样本点和均由密度可达，称与密度相联。;DBSCAN算法的基本过程：

（1）输入样本集合、初始化距离参数，数目参数。

（2）确定核心对象集合。

（3）在核心对象集合中，随机选择一个核心对象作为种子。

（4）依据簇划分原则生成一个簇，并更新核心对象集合。

（5）若核心对象集合为空，则算法结束，否则返回步骤（3）。

（6）输出聚类结果。

;使用scikit-learn库中cluster模块的DBSCAN类可以实现密度聚类算法对数据进行聚类，DBSCAN类的基本使用格式和常用参数说明如下：

classsklearn.cluster.DBSCAN(eps=0.5,*,min_samples=5,metric=euclidean,

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

《Python数据分析与挖掘实战》数据挖掘算法基础-（2）聚类.pptx