python数据分析与挖掘.docxVIP

下载本文档

3
0
约2.83千字
约 4页
2022-07-27 发布于四川
举报
版权申诉

python数据分析与挖掘.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

经过数据探索与数据预处理，得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型，包括：分类与预测、聚类分析、关联规那么、时序鹦斯勰土交类型,分类主要是预测分类标号时序鹦斯勰土交类型, 分类主要是预测分类标号（离散属性），而预测主要是建立连续值函数模型，预测给定自变量对应的因变量的值。分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便的计算，所以分类属于有监督的学习。分类算法分两步：第一步是学习，通过归纳分析训练样本集来建立分类模型得到分类规那么；第二步是分类，先用的测试样本集评估分类规那么的准确率，如果可以接受，那么用该模型对未知标号的待测样本集进行预测。预测预测是指建立两种或两种以上变量间相互依赖的函数模型，然后进行预测或控制。预测模型也分两步，第一步是通过训练集建立预测属性的函数模型; 第二步在模型通过检验后进行预测或控制。常用分类与预测算法算法名称算法描述回归分析回归分析是确定预测属性与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型决策树决策树采用自顶向下的递归方式，在内部节点进行属性值的比拟，并根据不同的属性值从该节点向下分支，最终得到的叶节点是学习划分的类人工神经网络人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统，表示神经网络的输入与输出变量之间关系的模型贝叶斯网络贝叶斯网络又称信度网络，是Bayes方法的扩展，是目前不确定知识表达和推理领域最有效的理论模型之一支持向量机是一种通过某种非线性映射，把低维的非线性可分转化支持向量机为高维的线性可分，在高维空间进行线性分析的算法聚类分析与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将其划分为假设干组，划分的原那么是组内距离最小化而组间（外部）距离最大化。常用聚类方法K-Means 类别主要算法划分（分裂）方法 K-Means算法（K-平均）、K-MED0IDS算法（K-中心点）、 CLARANS算法（基于选择的算法）层次分析方法 B1RCH算法（平衡迭代规约和聚类）、CURE算法（代表点聚类）、CHAMELEON算法（动态模型）基于密度的方法 DBSCAN算法（基于高密度连接区域）、DENCLUE算法（密度分布函数）、OPTICS算法（对象排序识别）基于网络的方法 STING算法（统计信息网络）、CLIOUE算法（聚类高维空间）、WAVE-CLUSTER 算法（小波变换）基于模型的方法统计学方法、神经网络方法常用聚类分析算法算法名称算法描述 K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数Ko该算法原理简单并便于处理大量数据 K-中心点 K-均值算法对孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心系统聚类也称为多层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其所包含的对象就越少，但这些对系统聚类象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会非常慢关联规那么关联规那么分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找出各项之间的关联关系，而这种关系并没有在数据中直接表示出来。比方一个常见的例子，在美国，一般都是男士下班后顺便去买尿布，而他们通常会顺带买啤酒，那么超市就把啤酒摆放在靠近婴儿尿布的位置，满足了客户的体验，更提高了业绩。就是通过大量的历史数据的分析，得到这两种商品之前的密切关联，因而做出上面的决策。常用关联规那么算法算法名称算法描述Apriori Apriori FP-Tree Eclat算法灰色关联法 AprioriFP-TreeEclat算法灰色关联法关联规那么最常用也是最经典的挖掘频繁项集的算法，其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集针对Apriori算法的固有的屡次扫描事务数据集的缺陷，提出的不产生候选频繁项集的方法。Apriori和FP-Tree Apriori FP-Tree Eclat算法灰色关联法分析和确定各因素之间的影响程度或是假设干子因素对主因素的贡献度而进行的一种分析方法时序模式对于时间