人民大2024付东普《数据采集与处理:基于python》PPT第11章-数据集成与ETL技术.ppt

人民大2024付东普《数据采集与处理:基于python》PPT第11章-数据集成与ETL技术.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ETL应用示例5.运行查看结果点击“运行”按钮,如果因试用版提示样本超过数量,可点击缩减样本规模以继续运行,运行成功后自动切换到“Results”视图,如图11-14所示。**ETL应用示例从图11-14中可知,选择的列数运行结果正常,但budget列的缺失值NA没有被正确替换,说明NA值在RapidMiner中并没有被认为是缺失值,后续可以使用指定值替换形式变更。MySQL数据库的写入结果如图11-15所示。**思考与练习什么是数据集成?ETL与数据集成有何关系?数据集成在技术上存在哪些难点?数据集成分为几个层次?常见数据集成方法有哪些?对于关系数据库来源的数据,增量抽取方法都有哪些?练习:使用ETL相关工具(如RapidMiner、Kettle等),将文件auto.csv进行以下操作:读取,去除重复值,基本的描述性统计并有输出结果,选取部分属性(自行选择三个即可)并将数据输出到MySQL对应表中。**数据采集与处理:基于Python*付东普,首都经济贸易大学管理工程学院*数据采集与处理:基于Python*付东普,首都经济贸易大学管理工程学院*1.*Copyright?2014PearsonEducation,Inc.管理信息系统第1章:当今全球商业中的信息系统阅读互动环节并讨论以下问题互动讨论:管理1.*Copyright?2014PearsonEducation,Inc.ManagementInformationSystemsChapter1:InformationSystemsinGlobalBusinessToday阅读互动环节并讨论以下问题互动讨论:技术第十一章

数据集成与ETL技术《数据采集与处理:基于Python》付东普管理工程学院电子邮箱:fudongpu@****教学目标本章学习目标1.了解数据集成的基本概念、分类、常见方法和相关产品;2.了解ETL相关技术和常用的ETL工具,理解常见的ETL相关技术和基本操作方法。本章提纲1.数据集成2.ETL相关技术与工具数据集成**数据集成概述大型组织中往往同时运行多个应用系统并管理和存储多种数据,对于管理者和决策者而言,往往需要对整个组织中不同来源的业务数据进行整体分析,才能完整反映一个组织的业务面貌及不同部门和业务之间的联系,从而进行科学准确的业务决策。数据集成(dataintegration,DI)就是将不同来源的异构数据,通过数据清洗、转换等多种处理,合并成一致的数据视图或物理存储。数据集成的核心任务是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性,提高信息共享利用的效率;透明的方式是指用户无须关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统称作数据集成系统,它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。**数据集成概述数据集成的数据源主要指关系型数据库系统和非关系型数据库系统,广义上也包括各类XML文档、HTML文档、电子邮件、普通文件等结构化、半结构化数据。数据集成是信息系统集成的基础和关键,但数据集成主要存在以下难点:(1)异构性。被集成的数据源通常是独立开发的,数据模型异构给集成带来了很大困难。这种异构性主要表现在数据语义、相同语义数据的表达形式、数据源的使用环境等方面。(2)分布性。数据源是异地分布的,依赖网络传输数据,这就存在网络传输的性能和安全性等问题。(3)自治性。各个数据源有很强的自治性,它们可以在不通知集成系统的前提下改变自身的结构和数据,给数据集成系统的鲁棒性带来挑战。**数据集成分类数据集成可以分为以下4个层次。1.基本数据集成基本数据集成面临的问题很多,通用标识符问题是数据集成时遇到的最大难题之一。当同一业务实体存在于多个系统源中,并且没有明确的办法确认这些实体是同一实体时,就会产生这类问题。处理该问题的办法如下:(1)隔离。保证实体的每次出现都指派唯一标识符。(2)调和。确认哪些实体是相同的,并将该实体的各次出现合并起来。当目标元素有多个来源时,可指定某一系统在冲突时占主导地位。数据丢失问题是最常见的问题之一,一般的解决办法是为丢失的数据产生一个非常接近实际的估计值来进行处理。**数据集成分类2.多级视图集成多级视图机制有助于对数据源之间的关系进行集成:底层数据表示为局部模型的局部格式,如关系和文件;中间数据表示为公共模型格式,如扩展关系模型或对象模型;高级数据表示为综合模型格式。多级视图集成的过程分为

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档