数据科学基础课件7.pdfVIP

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 表格处理 . 中国人民大学 表格处理 1/91 表格是展示数据集的一种基本方法。本章我们介绍如何通过 Pandas 模块来处理表 格。这个模块纳入了大量的库、方法和一些标准的数据类型,提供了高效地操作大型数 据集所需的工具。这个模块最初是被作为金融数据分析工具而开发的,为时间序列分析 提供了很好的支持。时间序列数据一般指的是对单个个体连续观测一段时间收集到的数 据。但是,Pandas 这个模块的名称来自于面板数据数据分析(PanelDataAnalysis)。 面板数据一般指的是我们对多个个体在一段时期内进行连续观测得到的数据。因此,在 同一个时间点,我们会同时观察多个个体;对每个个体而言,我们会有多次观测。可以 简单地认为,面板数据是时间序列数据的推广。 表格处理 2/91 我们可以利用 Pandas 模块处理如下四种类型数据: 1.. 一维序列Series:与Numpy 模块中的Array 非常类似。二者与Python 基本的数 据结构 List 有相似的地方,但其中一个区别是,List 中的元素可以是不同的数据类 型,而Array 和Series 中则只允许存储相同的数据类型,这样可以更有效的使用内 存,提高运算效率。 2.. 以时间为索引的Time-Series:这也是一个一维序列。 3.. 两维表格型数据结构DataFrame:可以将DataFrame 理解为Series 的容器,也就 是说,多个序列Series 放在一起,组成了 DataFrame。 4.. 三维面板数组结构Panel:可以理解为DataFrame 的容器。 表格处理 3/91 我们着重介绍Series 和 DataFrame 这两种数据结构。利用Series 产生一维、相同 类型数据;利用DataFrame 产生两维、可以包含不同类型的数据。从这个意义上说, Series 是 DataFrame 的一种特殊情况,一个DataFrame 中可以包含若干个Series。为 了展示方便,除Pandas 模块以外,我们同时导入 Numpy 模块。 import numpy as np import pandas as pd 表格处理 4/91 我们导入了这些模块,并对每个模块都重新使用了更简单的名称。首先,我们调用 Series 函数创建一个自带索引(index)的数组。 s =pd.Series([1, 2, np.nan, 4]) 表格处理 5/91 我们可以通过print(s) 或者直接运行s 来输出结果。 s 0 1.0 1 2.0 2 NaN 3 4.0 dtype: float64 表格处理 6/91 这段输出的最后一行是Series 中数据的类型。数据在第二列输出,第一列是数据的 索引 Index。我们可以分别打印出Series 中的数值和索引: s.values array([1.,2.,nan,4.]) s.index RangeIndex(start=0,stop=4,step=1) 表格处理

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

知识共享

1亿VIP精品文档

相关文档