数据管理--聚类的分析.ppt

  1. 1、本文档共104页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
求职应注意的礼仪 求职时最礼貌的修饰是淡妆 面试时最关键的神情是郑重 无论站还是坐,不能摇动和抖动 对话时目光不能游弋不定 要控制小动作 不要为掩饰紧张情绪而散淡 最优雅的礼仪修养是体现自然 以一种修养面对两种结果 必须首先学会面对的一种结果----被拒绝 仍然感谢这次机会,因为被拒绝是面试后的两种结果之一。 被拒绝是招聘单位对我们综合考虑的结果,因为我们最关心的是自己什么地方与用人要求不一致,而不仅仅是面试中的表现。 不要欺骗自己,说“我本来就不想去”等等。 认真考虑是否有必要再做努力。 必须学会欣然面对的一种结果----被接纳 以具体的形式感谢招聘单位的接纳,如邮件、短信 考虑怎样使自己的知识能力更适应工作需要 把走进工作岗位当作职业生涯的重要的第一步,认真思考如何为以后的发展开好头。 Thank you * * * * 对点之间距离的定义 * 对点之间距离的定义 * 注意左下角的复选框,选择与否情况不同 * 分类数 3 最大迭代次数 10 * * * 可以点击图形中的线,点右键调整其属性,包括Pattern—line pound * * * * 正太分布、对数正态分布、泊松分布 * * * * * * 反映了每个变量的取值在三个类中的分布情况。 * * * * 各聚类变量在各类中的平均值 Members & Probabilities 表格展示了每个样本点的最终分类结果、所有聚类变量的取值、该样本点分到该类中的权数。 Graph of distributions 通过交叉验证寻找最佳聚类数 应用要点: 1)交叉验证的折数 v value 2) 指定 k 的取值范围 [a, b] 3) 距离判定条件:增大 k 值或停止 da' 当距离 da' 大于某个标准时,增大 k 值; 当距离 da' 小于某个标准时,停止 交叉验证参数设置 。 交叉验证参数输出结果 展示 交叉验证参数输出结果-2 展示 * * Cm表示第m 个子总体。 * 更新高斯分布的二关键参数μ和σ * 象windows操作一样,按住Ctrl键,进行多个变量的分别选择。 * 选择值为文本型或文本标签的变量 当前分析所选变量中有“text”类型或包含文本标签 参考:帮助中关于“变量类型”的内容 * 对要聚类的数据源的性质的定义:Raw data 原始数据,或称数据矩阵(Data matrix) Distance matrix 距离矩阵,或称“相异度矩阵” Ref. Jiawei Han 数据挖掘概念与技术 P253 * 对聚类对象的选择,是对行聚类还是对列聚类 * 对类与类之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * Linkage distance: 该列反映了每一步合并类时被合并的类之间的距离,右侧显示合并之后的类中含有哪几个个体。 * 对点之间距离的定义 * 反映了对称矩阵的特征。 * 均值:该样本所有数值型数据的均值 标准差:该样本所有数值型数据的标准差 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * * 下图说明解释:对角线下是距离,对角线上是平方距离 类之间距离的定义 点之间距离的定义 结果输出窗口 水平层级树状图—矩形形状 垂直层级树状压缩图—冰挂形状 在图形上用右键菜单 Amalgamation Schedule 对聚类过程的详细描述 合并过程中类与类之间的距离 Distance matrix 距离矩阵 Descriptive Statistics 变量均值及标准差 例3.2 鸢尾花的分类问题 根据花萼的长度(sepal length)和宽度(sepal width),花瓣的长度(petal length)和宽度(petal width)把鸢尾花分为三类。 运用基于划分的聚类方法:K-means 进行分析。 选取聚类变量 基于划分的聚类(K-means)参数设定 指定分为 k 类 指定最大迭代次数 初始凝聚点选择方法 K-means聚类结果输出窗口 Summary: Cluster means & Euclidean distances between clusters 反映各个聚类变量在各类中的均值 输出各类之间的距离 Analysis of Variance 输出每个聚类变量按照聚类类别的方差分析结果, 四个聚类变量在不同类中取值均有显著差异 各个聚类变量在不同类中取值的均值 Descriptive Statistics for each Cluster 共3张表,每张表展示各聚类变量的一些描述统计量,

文档评论(0)

tk2469tk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体柏**

1亿VIP精品文档

相关文档

相关课程推荐