数据处理、清洗、获取.docx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据获取 .1.1接口服务采集 各业务部门的应用系统建立与数据中心平台的接口,通过系统与系统之间的接口交互模式,实现数据的共享与调用。支持常见的接口服务有webservice、API、等多种接口类型,满足平台的接口服务采集需求。 .1.2关系型数据库采集 基于关系型数据库的采集方式,对各业务部门的业务系统的数据库类型、网络环境、数据密级等多方面进行调研分析,可使数据中心的连接部门业务系统的数据库,直接读取相关数据。 .1.3数据采集校验 数据校验从校验对象细粒度维度分析,支持文件级校验与记录级校验二大类。数据校验模块还内置了部分的数据检查功能,如数据唯一性检查、完整性检查。数据校验内容有类型、长度、是否为空、精度、范围、格式等信息。如果数据不符合,会进行过滤,只有正确的数据才能继续使用。对于错误的数据,可以进行输出,包括错误原因和错误字段序号等信息。相关的错误类型和数量等统计信息也会绑定到流程变量中,以便后续节点进行判断使用。 能够提供将分散的、异构数据源中的数据如关系数据、非关系数据、数据文件、FTP等抽取到临时中间层后进行入库前的数据类型校验功能以及针对海量数据的高性能数据解析功能。 实现对数据进行校验检查,主要检查空间拓扑一致性、属性结构的一致性、数据内容的一致性。该检查主要在数据采集和数据同步中使用,并可以单独提供数据校验比对服务。 在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入,如果不一致,则用最新的数据覆盖不一致信息。 数据校验比对工具,要将检查比对的结果以便于阅读分析的报告形式展现给用户。 .1.4采集服务配置 获取信息资源中定义的信息资源更新频率,自动实现采集、可以配置全量或者增量采集方式,可以配置数据提供部门在数据中心部门前置库的存储位置等。 能够提供对于采集周期,时间的采集策略配置、接口配置采集任务配置功能。 对于应用数据采集,需要管理的关键业务点有采集点、数据传输。主要性能指标包括:在采样周期内成功取得文件的数量、采集数据间隔时间、采集文件大小、进程状态、文件连续性、采集状态、传输速率等。 获取信息资源中定义的信息资源更新频率,自动实现采集、可以配置全量或者增量采集方式,可以配置数据提供部门在数据中心部门前置库的存储位置等。 .1.5采集管理控制 系统提供采集异常处理机制,如采集任务中断、采集数据失败等相关异常现象时,实现相关的补采机制,或通过告警的方式通知系统用户等。数据采集过程的日志推送到系统运营管理平台、报错推动到数据提供部门的代办事宜。 .2数据清洗 .2.1数据集成设计 .2.2数据抽取 通过ETL工具抽取待清洗的数据。根据增量装载工作和初始完全装载的变化来抽取数据。 数据抽取的要点: ?抽取方法:通过ETL工具抽取; ?抽取方式:增量抽取; ?抽取频率:每天一次; ?异常处理:产生异常时重新执行抽取一次,如异常无法解决则记录异常日志,停止对出现异常数据的抽取。 .2.3全量抽取 全量抽取指将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。 .2.4增量抽取 增量抽取指的是只抽取源数据表或视图中增加的数据。主要有以下几种抽取方式。 1、触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据。触发器方式的优点是数据抽取的性能较高,缺点是要求在业务数据库中建立触发器,对业务系统有一定的性能影响。 2、时间戳:它是一种基于递增数据比较的增量数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。 3、全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源

您可能关注的文档

文档评论(0)

蜕下面具已不再是我 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档