《商务数据分析》教学课件:4.2 数据清洗.ppt

《商务数据分析》教学课件:4.2 数据清洗.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

商务数据分析

模块四规范化,数据处理

学习目标

数据处理

数据清洗

缺失值

错误数据

重复数据

数据合并

字段合并

字段匹配

数据拆分

分列

字符串截取

数据计算

简单计算

函数计算

合并计算

数据转换

行列互换

二维表转换

一维表

数据类型转换

单元二数据清洗

一、数据清洗

一、数据清洗

二、缺失值清洗

二、缺失值清洗

【定位】批量清洗空值操作

二、缺失值清洗

【定位】批量清洗空值操作

三、错误数据清洗

错误数据包括数据集中某个或某些字段字段的值出现书写格式不规范、不统一,或者违反逻辑规则而产生的错误。对于错误数据应进行纠正或剔除。

内容格式错误

逻辑错误

数据不合理:如客户年龄500岁,或者消费金额为-100元,明显不符合客观事实;

数据关联矛盾:如客户的出生年份是1980年,但年龄却显示18岁;城市为西安,省份却为广东;

数据不符合规则:如限购1件的商品,客户的购买数量却为3。

格式不规范:如日期中出现“2017*11*30”、2018.9.5”等不规范数据格式;

格式不统一:书写格式不统一,如性别出现“男”、“男性”;或内容里包含多余的空格,如“苏州”和“苏州”;

错误标识符:如公式计算中出现“#DIV/0!”、“#VALUE!”、“#N/A”等错误标识符。

三、错误数据清洗

三、错误数据清洗

三、错误数据清洗

四、重复数据清洗

重复数据数据集中值相同的记录信息被认为是重复数据,重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。

四、重复数据清洗

四、重复数据清洗

五、数据清洗流程

数据清洗一般步骤

通过【筛选】功能逐一检查各字段有无缺失值、错误值(格式/逻辑)并纠正,如年龄、单价为负值,电话号码不足11位等;

检查有关联关系的字段是否逻辑正确并纠正;

存在对应关系的相关字段是否对应正确,如国家和大洲、地市和省份

存在计算关系的相关字段是否计算正确,如数量、单价和金额三者间是存在计算关系的

通过【删除重复值】功能删除重复记录。

课后思考

谢谢观看

THANKYOU

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档