数据管理--聚类的分析.ppt

下载文档

8
0
约1.11万字
约 104页
2016-11-11 发布于安徽
举报
版权申诉

数据管理--聚类的分析.ppt

1、本文档共104页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

求职应注意的礼仪求职时最礼貌的修饰是淡妆面试时最关键的神情是郑重无论站还是坐，不能摇动和抖动对话时目光不能游弋不定要控制小动作不要为掩饰紧张情绪而散淡最优雅的礼仪修养是体现自然以一种修养面对两种结果必须首先学会面对的一种结果----被拒绝仍然感谢这次机会，因为被拒绝是面试后的两种结果之一。被拒绝是招聘单位对我们综合考虑的结果，因为我们最关心的是自己什么地方与用人要求不一致，而不仅仅是面试中的表现。不要欺骗自己，说“我本来就不想去”等等。认真考虑是否有必要再做努力。必须学会欣然面对的一种结果----被接纳以具体的形式感谢招聘单位的接纳，如邮件、短信考虑怎样使自己的知识能力更适应工作需要把走进工作岗位当作职业生涯的重要的第一步，认真思考如何为以后的发展开好头。 Thank you * * * * 对点之间距离的定义 * 对点之间距离的定义 * 注意左下角的复选框，选择与否情况不同 * 分类数 3 最大迭代次数 10 * * * 可以点击图形中的线，点右键调整其属性，包括Pattern—line pound * * * * 正太分布、对数正态分布、泊松分布 * * * * * * 反映了每个变量的取值在三个类中的分布情况。 * * * * 各聚类变量在各类中的平均值 Members & Probabilities 表格展示了每个样本点的最终分类结果、所有聚类变量的取值、该样本点分到该类中的权数。 Graph of distributions 通过交叉验证寻找最佳聚类数应用要点： 1）交叉验证的折数 v value 2) 指定 k 的取值范围 [a, b] 3) 距离判定条件：增大 k 值或停止 da' 当距离 da' 大于某个标准时，增大 k 值；当距离 da' 小于某个标准时，停止交叉验证参数设置。交叉验证参数输出结果展示交叉验证参数输出结果-2 展示 * * Cm表示第m 个子总体。 * 更新高斯分布的二关键参数μ和σ * 象windows操作一样，按住Ctrl键，进行多个变量的分别选择。 * 选择值为文本型或文本标签的变量当前分析所选变量中有“text”类型或包含文本标签参考：帮助中关于“变量类型”的内容 * 对要聚类的数据源的性质的定义：Raw data 原始数据，或称数据矩阵（Data matrix) Distance matrix 距离矩阵，或称“相异度矩阵” Ref. Jiawei Han 数据挖掘概念与技术 P253 * 对聚类对象的选择，是对行聚类还是对列聚类 * 对类与类之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * Linkage distance: 该列反映了每一步合并类时被合并的类之间的距离，右侧显示合并之后的类中含有哪几个个体。 * 对点之间距离的定义 * 反映了对称矩阵的特征。 * 均值：该样本所有数值型数据的均值标准差：该样本所有数值型数据的标准差 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * * 下图说明解释：对角线下是距离，对角线上是平方距离类之间距离的定义点之间距离的定义结果输出窗口水平层级树状图—矩形形状垂直层级树状压缩图—冰挂形状在图形上用右键菜单 Amalgamation Schedule对聚类过程的详细描述合并过程中类与类之间的距离 Distance matrix 距离矩阵 Descriptive Statistics 变量均值及标准差例3.2 鸢尾花的分类问题根据花萼的长度(sepal length)和宽度(sepal width)，花瓣的长度(petal length)和宽度(petal width)把鸢尾花分为三类。运用基于划分的聚类方法：K-means 进行分析。选取聚类变量基于划分的聚类(K-means)参数设定指定分为 k 类指定最大迭代次数初始凝聚点选择方法 K-means聚类结果输出窗口 Summary: Cluster means & Euclidean distances between clusters 反映各个聚类变量在各类中的均值输出各类之间的距离 Analysis of Variance 输出每个聚类变量按照聚类类别的方差分析结果, 四个聚类变量在不同类中取值均有显著差异各个聚类变量在不同类中取值的均值 Descriptive Statistics for each Cluster 共3张表，每张表展示各聚类变量的一些描述统计量,

您可能关注的文档

文档评论（0）

tk2469tk + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta

认证主体柏**

1亿VIP精品文档

更多 >

数据管理--聚类的分析.ppt