数据预处理ppt解析.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据预处理ppt解析

主要内容 2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生 现实世界的数据 不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。 含噪声的 包含错误或存在偏离期望的离群值。 不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出 数据错误的危害性 高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力 数据预处理的形式 小结 现实世界的数据一般是脏的、不完整的和不一致的。 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。 2.2 描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的。 描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。 动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。 2.2.1 度量数据的中心趋势 算数平均值 最常用 分布式度量 可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。 sum()、count()、min()、max() 2.2.1 度量数据的中心趋势… 代数度量 可以通过应用一个代数函数于一个或多个分布度量计算的度量。 mean()、中列数 整体度量 必须对整个数据集计算的度量。 中位数、众数 代数度量 mean(): 加权平均: 截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。 中列数(midrange ):(max+min)/2 整体度量 中位数(median):适用于倾斜的数据。近似值计算如下: 设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。 例如:1,3,5,7 中位数4 1,3,5,6,7 中位数5 整体度量 众数(mode):集合中出现频率最高的值。 单峰、多峰(双峰、三峰…)、无众数 对于适度倾斜的单峰频率曲线,有如下的经验关系: 度量数据的离散程度… 盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分位数Q1 、中位数、上四分位数Q3和最大值 盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和最大观测值。 盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状 直方图 Histogram 概括给定属性分布的图形方法 每个矩形等宽 分位数图 Quantile Plot 观察单变量数据分布的简单有效方法 散布图scatter plot 直接观察是否存在簇(cluster),离群点等 每个点对应一个坐标对 局部回归(Loess)曲线 添加一条光滑曲线到散布图 2.3 数据清理 现实世界的数据一般是不完整的、有噪声的和不一致的。 数据清理的任务: 填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。 分箱法光滑数据 Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 回归:用一个函数(回归函数)拟合数据来光滑数据。 线性回归 多元线性回归 聚类:将类似的值聚集为簇。检测离群点 回归Regression 聚类Cluster Analysis 2.3.3 数据清理作为一个过程 偏差检测 使用“元数据” 编码使用的不一致、数据表示的不一致、字段过载等 一些规则:唯一性规则、连续性规则、空值规则。 商业工具:数据清洗工具、数据审计工具 数据变换(纠正偏差) 数据迁移工具 提取/变换/载入(ETL)工具 加强交互性 数据清理工具:Potter’s Wheel 开发数据变换操作规范说明语言 2.4 数据集成和

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体雷**

1亿VIP精品文档

相关文档

相关课程推荐