数据科学基础课件10.pdfVIP

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 均值与中心极限定理 . 中国人民大学 均值与中心极限定理 1/106 在这门课中,我们已经学习到了几个不同的统计量,比如样本分布与指定分布之间 的总变异距离、样本最大值、样本中位数以及样本平均值等。我们可以通过不断从总体 中取样或者当取样很难重复时利用自助法得到这些统计量的经验分布。我们已经观察 到,对于样本最大值、总变异距离这样的统计量,它们的分布是不对称的、靠一边倾斜 的。但是,对于样本平均值的经验分布,无论样本来自什么分布,它基本都是对称并呈 钟型分布。这个性质将是用于推断的强大的工具,这是因为在实际生活中我们几乎不会 知道总体的信息。这也是为什么样本均值大量被应用在数据科学中的重要原因。 均值与中心极限定理 2/106 在这一章中,我们将在对总体分布尽可能少的假设下研究均值的性质。具体地,我 们将处理以下问题: 1.. 均值测量的是什么? 2.. 大多数数据接近均值到底有多近? 3.. 样本量和样本均值的波动程度之间有怎样的联系? 4.. 为什么样本均值的经验分布呈现钟型? 5.. 我们如何利用样本均值有效地进行推断? 均值与中心极限定理 3/106 均值的定义 .. 定义:一组数的均值是这组数所有数字的加和再除以这组数中数字的个数。在 numpy 中我们可以利用np.average 或者np.mean 来计算均值。 import numpy as np import pandas as pd import matplotlib.pyplot as plt age =np.array([18, 19, 18, 21, 20, 17]) np.average(age) # 利用np.average 18.833333333333332 均值与中心极限定理 4/106 在numpy 中我们可以利用np.average 或者np.mean 来计算均值。 np.mean(age) # 利用np.mean 18.833333333333332 age.sum()/ len(age) # 利用定义 18.833333333333332 均值与中心极限定理 5/106 从以上例子可以看出均值具有以下性质: 1.. 它可以不是原数组中的元素。 2.. 即使原数组都是整数,此数组的均值可能不是整数。 3.. 均值始终处于最小值和最大值之间的某个位置。 4.. 均值没必要在最小值和最大值的中点处,也不必要在数组中有一半的数大于它。 5.. 如果数组中的元素具有相同的单位,那么均值也有相同单位。 均值与中心极限定理 6/106 0/1 数据的均值是数据中 1 的比例 .. 如果一个数组仅包括0 或者 1,那么这个数组的和是数字1 出现的频数。这个数组 的均值是数字1所占的比例。 zero_one =np.array([0, 0, 1, 0, 1, 1, 1, 1]) sum(zero_one 1)/ len(

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

知识共享

1亿VIP精品文档

相关文档