大数据治理(高级) 课件 西财 实训项目9:健康数据挖掘.pptx

大数据治理(高级) 课件 西财 实训项目9:健康数据挖掘.pptx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

实训9健康数据挖掘

项目背景实训目标实训任务技术准备实训步骤目录

项目背景随着生活质量的提高,人们越来越关注自身的健康问题,健康数据是随着近几年数字浪潮和信息现代化而出现的新名词,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的健康数据的集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。健康大数据的整合再利用对于身体状况监测,疾病预防和健康趋势分析都具有积极的意义。

实训目标理解健康数据分析的意义;掌握项目流程;掌握数据挖掘的基本方法;掌握不同方法的具体使用;掌握实验结果对比分析;掌握算法之间的优劣。

实训任务(1)进一步掌握项目流程(Crisp-DM框架)并应用到健康数据挖掘中;(2)对K近邻、逻辑回归、支持向量机、神经网络、决策树、随机森林、Adaboost、朴素贝叶斯种算法应用到健康数据中实践;(3)对多种算法的实验结果进行对比和分析。

技术准备监督学习半监督学习无监督学习有特征有标签即有标准答案有特征部分标签训练部分有标准答案有特征,无标签即无标准答案分类回归分类回归聚类聚类

技术准备由于数据挖掘的应用领域十分广泛,因此产生了多种数据挖掘的算法和方法。对于某一数据集很有效的算法,对另一数据集却有可能完全无效。因此,要针对具体的挖掘目标和应用对象设计不同的算法。

技术准备本章节主要采用的是分类。使用以下八种算法进行实验:K近邻、逻辑回归、支持向量机、神经网络、决策树、随机森林、Adaboost、朴素贝叶斯算法

K近邻算法K-近邻(k-NearestNeighbor,KNN)算法是一种基本分类方法。最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但测试对象与训练对象的完全匹配是不现实的,一个训练对象可能被分到多个类中,由此诞生了K-近邻算法。它是通过测量不同特征值之间的距离进行分类,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。

K近邻算法K-近邻算法的基本思路是:选择未知样本在一定范围内确定个数的K个样本,该K个样本大多数属于某一类型,则未知样本九被判定为该类型。

K近邻算法1、导入K近邻算法模块fromsklearn.neighborsimportKNeighborsClassifier2、建模model=KNeighborsClassifier()KNeighborsClassifier(n_neighbors=5,weights=uniform,algorithm=auto,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1)

K近邻算法KNeighborsClassifier类常用的参数及其说明如下表所示。参数名称说明n_neighbors接收int。表示“邻居”数。默认为5weights接收str。表示分类判断时最近邻的权重,可选参数为uniform和distance,uniform表示权重相等,distance表示按距离的倒数赋予权重。默认为uniformalgorithm接收str。表示分类时采取的算法,可选参数为auto、ball_tree、kd_tree和brute,一般选择auto自动选择最优的算法。默认为autometric接收str。表示距离度量。默认为minkowskip接收int。表示距离度量公式,p=1表示曼哈顿距离,p=2表示欧式距离。默认为2n_jobs接收int。表示计算时使用的核数。默认为1

K近邻算法3、调用模型对象中的fit()方法,对数据进行拟合训练model=model.fit(X_train,y_train)model4、调用模型中的score()方法,考察训练效果,训练集上的准确率判断rv=model.score(X_train,y_train)rv

K近邻算法5、调用模型中的predict()方法,对测试样本进行预测,获得预测结果。y_test_pred=model.predict(X_test)判断模型准确的的机器学习相关包:#导入相关的数据包fromsklearn.metricsimportconfusion_matrix,classification_reportfromsklearn.metricsimportaccuracy_score,precision_score,recall_score

K近邻算法6、调用模型中的predict_proba()方法,对测试样本的概率进

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档