数据科学基础课件13.pdfVIP

下载本文档

10
0
约3.85万字
约 70页
2022-03-24 发布于广东
举报
版权申诉

数据科学基础课件13.pdf

1、本文档共70页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

. 假设检验 . 中国人民大学假设检验 1/70 数据科学家常常会被人问到一些“是”或者“不是”的问题。比如：多吃巧克力会不会增加体重？有死刑判决能不能降低犯罪率？两个学校的学生在某次统考中的平均分数有差别吗？回答这些问题需要我们去寻找数据中的证据，根据证据是否充分来判断是否能够推翻我们做出的原始假设，这样的过程叫做假设检验。我们首先看一个例子。假设检验 2/70 某品牌盲盒实物比例问题 .. 随着经济发展，商品出现了多样化的销售形式。盲盒就是其中一种方式。盲盒一般里面装有不同样式的玩偶，但在拆开盒子前，消费者不能通过肉眼看到盒子里具体装的是何种样式的玩偶。盲盒通常一个系列中包含普通款和隐藏款，隐藏款被抽中的概率会低于普通款。而正是这种不确定性，让购买盲盒像抽奖一样变得更有意思。为了研究是否市场上某品牌盲盒系列各个样式抽中的概率和其声称的情况一致，我们在某个地区内随机收集了1000个盲盒，统计其中各样式的数据。假设检验 3/70 下面的表格中前两个数值分别记录了该品牌声称的和我们统计出来的比例情况。 import numpy as np import pandas as pd import matplotlib.pyplot as plt MH =pd.DataFrame({'Model':['A', 'B', 'C', 'D', 'E'], 'Expected':[0.20,0.20,0.28, 0.28, 0.04], 'Actual':[0.15,0.26, 0.23, 0.33, 0.03]}, columns=['Model', 'Expected', 'Actual']) MH Model Expected Actual 0 A 0.20 0.15 1 B 0.20 0.26 2 C 0.28 0.23 3 D 0.28 0.33 4 E 0.04 0.03 假设检验 4/70 我们可以看到，模型 D 实际比例较高。通过垂直柱状图，我们可以直观地观察到这种差异。 x =np.arange(len(MH[ 'Model']))+1 width =0.35 #第一选项为’Expected’的中心设定 plt.bar(x − 0.5 * width, MH['Expected'], width =width, facecolor 'blue',edgecolor 'white',alpha =0.5) #第二选项为’Actual’的中心设定 plt.bar(x + 0.5 * width, MH['Actual'],