数据科学基础课件8.pdfVIP

下载本文档

2
0
约3.83万字
约 73页
2022-03-24 发布于广东
举报
版权申诉

数据科学基础课件8.pdf

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

. 常用机器学习方法 . 中国人民大学常用机器学习方法 1/73 机器学习涉及很多方法，我们主要介绍监督学习（supervisedlearning）和非监督学习（unsupervisedlearning）。其他的机器学习方法比如半监督学习、加强学习等，就留给感兴趣的同学们自己去探索了。监督学习是通过具有正确标识（label）的数据来对新的对象进行预测的过程。我们上几章学习的回归模型，即是根据已有标识(即响应变量y) 的数据进行推断和预测。因此，回归模型属于一种监督学习。另外，在垃圾邮件分类问题中，我们提前已有一个数据库，它含有“垃圾邮件”的内容以及“正常邮件”的内容，这样的数据库就起着一个家长（正确标识的数据）对学生（算法）的“监督作用”。通过这样的监督作用，我们可以对新邮件的类别进行预测。因此，分类（classification）也属于监督学习范畴。常用机器学习方法 2/73 根据监督学习的定义，我们容易猜测到非监督学习即是对不含有标识的数据的分析过程。聚类（clustering）是一种常用的非监督学习过程。聚类和分类不同。在分类问题中，我们需要具有正确标识的数据集，比如根据身高、体重信息判别“男生”、“女生”，我们必须要有“男生”、“女生”这样正确的标识，通过分类，将身高、体重的信息和标识联系起来，最后对于一个新个体的身高、体重，来判断此新个体的性别。但是在聚类中，我们并没有性别的标识，我们的任务仅仅是根据身高、体重的信息发现不同的组，比如组A、组B，但是我们不知道性别信息。常用机器学习方法 3/73 在本章中，我们首先介绍监督学习中的多元（多变量）线性回归模型问题，这类方法是我们之前介绍的一元（单变量）线性回归模型的推广。我们随后介绍分类问题。对于非监督学习，我们将介绍用于聚类问题的一些有用算法。这节我们主要使用 Python 的sklearn 模块。sklearn 模块全称scikit-learn 是 Python 中重要的机器学习库，它提供了一系列的机器学习的算法，主要包括五大部分：分类、回归聚类、降维以及模型选择。 sklearn 模块可以帮助我们轻松实现常用的模型或算法。常用机器学习方法 4/73 回归模型 .. 本节主要介绍回归模型，回归模型是一种监督学习方法。这里我们主要关注线性模型，线性模型指的是回归函数是未知参数的线性函数。在数学上，我们用y 表示响应变量，x , . . . , x 表示预测变量，w , . . . , w 以及b 为线性模型的参数。那么，线性模型 p p 具有如下表达式： y b w x w x . . . w x ϵ p p 在python 中，回归系数w , w , . . . , w 被表示为coef_，截距b 表示为intercept_。 p 常用机器学习方法 5/73 普通线性回归 .. 在sklearn 中，我们利用LinearRegression 函数可以用来对普通线性模型进行拟 T