大数据治理(高级) 课件 西财 实训项目3:人力资源数据预处理.pptx

大数据治理(高级) 课件 西财 实训项目3:人力资源数据预处理.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

实训3人力资源数据预处理2

知识点层级索引数据重塑标准化处理离散化处理哑变量处理3

实训目标理解层级索引的概念与表示;掌握数据重塑的分类与方法;掌握数据离散化处理的方法;掌握数据标准化处理的方法;掌握数据哑变量处理的方法;4

知识点层级索引数据重塑标准化处理离散化处理哑变量处理5

层级索引在处理高维度数据时,可以考虑采用层级索引。使用层级索引可以在较低维度的数据结构(Series和DataFrame)中存储和操作任意维数的数据,MultiIndex在常规索引的基础上提供了分层功能。Series(1D)DataFrame(2D)MultiIndexMultiIndexSeries(2D)DataFrame(3D)6

层级索引层级索引对象(MultiIndex)的创建方式有三种:元组列表创建,数组列表创建,交叉迭代器创建。层级索引对象MultiIndexfrom_tuples()from_arrays()from_product()7

010203政府需求岷山集团需求同盟商家群众arrays=[[bar,bar,baz,baz,foo,foo,qux,qux],[one,two,one,two,one,two,one,two]]tuples=[(bar,one),(bar,two),(baz,one),(baz,two’),(foo,one),(foo,two),(qux,one),(qux,two’)]层级索引层级索引对象iterables=[[bar,baz,foo,qux],[one,two]]85MIN

0102政府需求岷山集团需求群众pd.MultiIndex.from_tuples(tuples,names=[first,second])pd.MultiIndex.from_arrays(arrays,names=[first,second])层级索引层级索引对象创建pd.MultiIndex.from_product(iterables,names=[first,second])93MIN

0102政府需求岷山集团需求群众df_obj=pd.DataFrame(np.random.randn(8,4),index=arrays)层级索引层级索引对象使用102MIN

0102政府需求层级索引层级索引数据选取df_obj.loc[baz]df_obj[0]df_obj.loc[foo,two]df_obj[2][foo][one]116MIN

知识点层级索引数据重塑标准化处理离散化处理哑变量处理12

数据重塑数据重塑即对数据表当前的行列结构进行重设,以满足观察和操作的需要。Pandas中用于重塑操作的有:行列索引重塑、多层索引重塑数据重塑行列索引重塑多层索引重塑13

0102政府需求岷山集团需求同盟商家群众数据重塑行列索引重塑Pivot()方法可根据给定的行或列索引重新组织一个DataFrame对象。pivot(index=None,columns=None,values=None)index:用于创建新DataFrame对象的行索引。columns:用于创建新DataFrame对象的列索引。values:用于填充新DataFrame对象中的值。14

010203政府需求岷山集团需求df_obj=pd.DataFrame({date:pd.date_rangeperiods=9,freq=D),var:list(str(ABC)*3),value:np.random.random(9)})数据重塑行列索引重塑153MIN

010203政府需求岷山集团需求df_obj1=df_obj.pivot(index=date,columns=var,values=value’)数据重塑行列索引重塑164MIN

01政府需求岷山集团需求群众数据重塑多层索引重塑stack()方法可以将数据的列索引转换为行索引。unstack()可执行相反操作。DataFrame.stack(level=-1,dropna=True)level:索引层次。-1表示内层(默认),0表示外层索引。dropna:是否将缺失值删除,若设为True,则表示自动过滤缺失值,设置为False则相反。fill_value:空缺填充值。DataFrame.unstack(level=-1,fill_value=None)17

政府需求岷山集团需求群众df_obj2=df_obj1.resample(3D,label=right).sum()数据重塑多层索引重塑df_ob

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档