数据科学基础课件8.pdfVIP

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 常用机器学习方法 . 中国人民大学 常用机器学习方法 1/73 机器学习涉及很多方法,我们主要介绍监督学习(supervisedlearning)和非监督 学习(unsupervisedlearning)。其他的机器学习方法比如半监督学习、加强学习等,就 留给感兴趣的同学们自己去探索了。监督学习是通过具有正确标识(label)的数据来对 新的对象进行预测的过程。我们上几章学习的回归模型,即是根据已有标识(即响应变 量y) 的数据进行推断和预测。因此,回归模型属于一种监督学习。另外,在垃圾邮件分 类问题中,我们提前已有一个数据库,它含有“垃圾邮件”的内容以及“正常邮件”的 内容,这样的数据库就起着一个家长(正确标识的数据)对学生(算法)的“监督作 用”。通过这样的监督作用,我们可以对新邮件的类别进行预测。因此,分类 (classification)也属于监督学习范畴。 常用机器学习方法 2/73 根据监督学习的定义,我们容易猜测到非监督学习即是对不含有标识的数据的分析 过程。聚类(clustering)是一种常用的非监督学习过程。聚类和分类不同。在分类问题 中,我们需要具有正确标识的数据集,比如根据身高、体重信息判别“男生”、“女生”, 我们必须要有“男生”、“女生”这样正确的标识,通过分类,将身高、体重的信息和标 识联系起来,最后对于一个新个体的身高、体重,来判断此新个体的性别。但是在聚类 中,我们并没有性别的标识,我们的任务仅仅是根据身高、体重的信息发现不同的组, 比如组A、组B,但是我们不知道性别信息。 常用机器学习方法 3/73 在本章中,我们首先介绍监督学习中的多元(多变量)线性回归模型问题,这类方 法是我们之前介绍的一元(单变量)线性回归模型的推广。我们随后介绍分类问题。对 于非监督学习,我们将介绍用于聚类问题的一些有用算法。这节我们主要使用 Python 的sklearn 模块。sklearn 模块全称scikit-learn 是 Python 中重要的机器学习库,它提供 了一系列的机器学习的算法,主要包括五大部分:分类、回归聚类、降维以及模型选择。 sklearn 模块可以帮助我们轻松实现常用的模型或算法。 常用机器学习方法 4/73 回归模型 .. 本节主要介绍回归模型,回归模型是一种监督学习方法。这里我们主要关注线性模 型,线性模型指的是回归函数是未知参数的线性函数。在数学上,我们用y 表示响应变 量,x , . . . , x 表示预测变量,w , . . . , w 以及b 为线性模型的参数。那么,线性模型 p p 具有如下表达式: y b w x w x . . . w x ϵ p p 在python 中,回归系数w , w , . . . , w 被表示为coef_,截距b 表示为intercept_。 p 常用机器学习方法 5/73 普通线性回归 .. 在sklearn 中,我们利用LinearRegression 函数可以用来对普通线性模型进行拟 T

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

知识共享

1亿VIP精品文档

相关文档