数据科学基础课件9.pdfVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 回归中的统计推断 . 中国人民大学 回归中的统计推断 1/55 到目前为止,我们对于两个变量之间的关系仅仅是描述性的。我们知道如何在散点 图中找到拟合数据最好的直线。这条线是所有直线中具有最小均方误差的。但是当我们 的数据来自于一个很大的总体时,如果我们在数据中找到了两个变量具有线性关系,这 样的线性关系在总体中依然成立吗?总体中也会是精确的线性关系?我们还能够预测不 在我们数据中的新个体的响应值吗?如果我们相信散点图能反应两个变量的潜在关系, 但并不完全假设这样的关系,上面的推断和预测问题便会出现。比如,出生体重和妊娠 时间的散点图能够精确展现数据中这两个变量的关系。但是我们想要知道这个关系在数 据所来自的那个总体中是否正确,或者部分正确。推断思想总是从对数据的假设的认真 检验开始。一组假设的集合叫做模型。一组关于呈大致线性的散点图的假设就是一种回 归模型。 回归中的统计推断 2/55 回归模型 .. 简单说来,回归模型假设两个变量的关系是完美的线性,这条直线就是我们想要去 识别的信号(signal)。但是,我们并不能够很清楚地看到这条线。我们所看到的只是散 乱在这条线周围的数据点。对于每一个这样的点,信号被随机噪音(randomnoise)干 扰。因此,我们的推断目标就是将信号和噪音分开。具体来说,回归模型假定散点图中 的数据点由下面步骤随机生成。x 和y 的关系是完美的直线。我们不能直接看到这条直 线,但是它是存在的。数据点是通过在这条直线上取点,并将点垂直向上或者向下移 动: 1.. 对于每一个x,在直线上找到对应的点(信号),再生成一个随机噪音。 2.. 随机噪音是来自一个以0 为均值的正态分布总体。 3.. 构建一个以x 为横坐标,以直线在x 的高度加噪音为纵坐标的数据点。 回归中的统计推断 3/55 最终擦去直线,仅仅展现这些数据点。基于这样的散点图,我们应该如何去估计这 条真实的直线呢?我们能够在散点图上放置的最好的直线就是回归直线。因此,回归直 线是对于未知的真实直线的一个自然估计。下面的模拟展示了回归直线离真实直线有多 近。它展示了数据点,回归直线,和真实的直线。我们利用自定义函数 draw_and_compare 来进行模拟,其中此函数有三个输入,分别是真实直线的斜率,截 距,以及样本量。通过选取不同大小的样本量可以发现:当样本量足够大的时候,回归 直线是真实直线的很好的估计。 def standard_units(numbers_array): # 定义估计回归直线的函数 # 将数据标准化 return (numbers_array np.mean(numbers_array))/np.std(numbers_array) 回归中的统计推断 4/55 回归直线 def correlation(x, y): # 计算相关系数 x =standard_units(x) y =standard_units(y) return np.mean(x*y) def slope(x, y): # 计算回归线斜率(在原始单位下) r =correlation(x, y) return r * np.std(y) / np.std(x) def intercept(x, y): # 计算回归线截距(在原始单位下) return np.mean(y) slope(x,y) *np.mean(x)

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

知识共享

1亿VIP精品文档

相关文档