《大数据技术入门》 课件 第5章 数据清洗.ppt

《大数据技术入门》 课件 第5章 数据清洗.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本章小结 1)数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。 2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。 思政案例 大数据清洗的质量规范 数据缺失值的处理方法 (1)删除缺失值 (2)均值填补法 (3)热卡填补法 (4)最近距离决定填补法 (5)回归填补法 (6)多重填补法 (7)k-最近邻法 (8)有序最近邻法 (9)基于贝叶斯的方法 噪声数据的处理方法 噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。噪声数据主要包含错误数据、假数据和异常数据。 (1)分箱法 分箱法是通过考察某一数据周围数据的值,即“近邻”来光滑有序数据的值。 (2)平滑处理 在分箱之后,需要对每个箱子中的数据进行平滑处理。平滑方法主要有:按平均值平滑、按边界值平滑和按中值平滑。 (3)回归法 回归法是试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。 回归法 (4)聚类分析 将数据集合分组为若干个簇,在簇外的值即为孤立点,这些孤立点就是噪声数据,应当对这些孤立点进行删除或者替换。 大数据清洗的质量规范 冗余数据的处理方法 冗余数据既包含重复的数据,也包含对分析处理的问题无关的数据,通常采用过滤数据的方法来处理冗余数据。例如,对于重复数据采用重复过滤的方法,对于无关的数据则采用条件过滤的方法。 数据清洗的评估描述 数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量的评价指标等。 在进行数据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。但是,数据质量评估至少应该包含以下两方面的基本评估指标:数据对用户必须是可信的和数据对用户必须是可用的。 数据质量与数据仓库 大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。因此,数据质量正是企业应用数据的瓶颈。 对国内某企业数据质量问题进行的调研显示如下:常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问题占24%,一致性问题占8%,这在一定程度上代表了国内企业面临的数据问题。 数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 ETL ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。 1)数据抽取 数据抽取指把数据从数据源读出来,一般用于从源文件和源数据库中获取相关的数据,目前在实际应用中,数据源较多采用的是关系数据库。 2)数据转换 数据转换在数据的ETL中常处于中心位置,它把原始数据转换成期望的格式和维度。 3) 数据加载 数据加载指把处理后的数据加载到目标处,比如数据仓库或是数据集市中。加载数据到目标处中的基本方式是刷新加载和更新加载。 主数据与元数据 主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。 集成、共享、数据质量、数据治理是主数据管理的四大要素。 元数据,又称中介数据、中继数据,是描述数据的数据,是数据仓库的重要构件,是数据仓库的导航图,在数据源抽取、数据仓库应用开发、业务分析以及数据仓库服务等过程中都发挥着重要的作用。 元数据是对数据本身进行描述的数据,或者说,它不是对象本身,它只描述对象的属性,就是一个对数据自身进行描绘的数据。 数据清洗环境介绍 目前的数据清洗主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。 非

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

1亿VIP精品文档

相关文档

相关课程推荐