数据治理标准规范文档.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据治理标准规范 2019-12-06 引言 概述 遵循国家、省、市标准规范要求,结合项目实际情况,制定适应项目数据特征及大数据应用要求的管理及维护体系,确保大数据的灵活可用性,适应未来数据扩展、海量数据增长及大数据发展的趋势,为项目数据资源的连通、共享、交互打好基础。本文是项目数据模型的命名,设计和管理规范。 文档目标 介绍主题模型命名规范 介绍主题模型数据类型定义规范 介绍主题模型布局规范 介绍主题模型注释及版本管理规范 适用读者 项目的参与成员,包括项目参与人员、客户参与人员、合作伙伴等希望了解本项目主题模型的人员可以参考本文档。 术语和定义 STG:stage,数据缓冲区。 ODS:operational data store,数据标准化层。 DWD:data warehouse detail,数据仓库明细层。 DWS:data warehouse subject,数据仓库主题层。 ADM:analysis data market,数据专题层。 设计目标 业务目标 将基础数据作为一个公共服务,为用户提供公共数据服务支撑,帮助数据应用提升获取数据的效率,降低数据加工的深度和复杂度;提升各个产品和应用间数据的一致性。主要包括以下几方面的内容: 将业务系统数据同步进入到 ODPS,建立统一、一致、唯一的 ODS 数据 层 实现通用模型层(DWD、DWS)逻辑的加工和转换。 技术目标 在满足业务目标的同时,在数据模型设计上,重点关注以下目标: 1、成本:模型设计者必须平衡性能和成本要素对数据模型的影响,尤其是海量数据情况下,在保障业务和性能的前提下,应该使用合理的数据模型方案和存储策略,尽量消除不必要的数据复制和冗余。 2、性能:模型设计者需要兼顾模型刷新性能开销、产出时间和访问性能。 3、数据一致性和数据互通:各个数据模型或者数据表之间保障数据输出的一致性,相同粒度的相同数据项(指标、维度)具有相同的字段名称和业务描述, 不同算法的业务指标应显性化区分。 4、数据质量:数据模型需要屏蔽源头垃圾数据源,一方面要保障数据本身的高质量,减少数据缺失、错误、异常等情况发生;另一方面需要保障其对应的业务元数据的高质量,数据有明确的业务含义,为数据使用者提供正确的指引。 5、易用:在保障以上目标的前提下,数据用户能从业务角度出发快速找到所需的数据;能较快的掌握模型的适用场景和使用方法;能相对便捷获取数据。但是,在目标出现冲突时,在通用数据模型并不完全承载用户使用数据的易用性目标要求,数据消费产品和数据应用可以提升数据使用的易用性。 设计原则 公共处理逻辑下沉及单一:越是底层公用的处理逻辑更应该在数据调度依赖的底层进行封装与实现,不要让公共的处理逻辑暴露给应用层实现, 不要让公共逻辑在多处同时存在。 数据可追溯性:处理逻辑不变,在不同时间多次运行数据结果确定不变。 一致性:相同的字段在不同表字段名相同。 命名清晰可理解:表命名规范需清晰、一致,表名需易于下游理解和使用。 成本与性能平衡:适当的数据冗余换取查询和刷新性能,不宜过度冗余 与数据复制。 数据分层 数据分为 5 层,每层的作用如下: DWD 层(整合数据资源库):DWD 层按业务过程和业务对象整合数据,并把数据表按一定如人口、法人、办件、政策等数据域进行分类存放。 ADM 层(应用资源库):将数据按照分析的专题组织成多为宽表的形式存 放,数据主要来源于 DWD 和 DWS 层 模型设计规范 STG 层模型设计规范 表命名规范 STG 层表命名规范:stg_{业务库名}_{业务库原始表名}。 数据存储及生命周期管理规范 数据表类型 数据表类型 存储方式 最长保存策略 增量表 按日分区 100 天 字段集命名规范 字段默认使用源系统字段名称,字段名与maxcompute 关键字冲突时处理规则: 加一个”_col”后缀,即:源字段名_col。 ODS 层模型设计规范 表设计规范 ODS 层数据对 STG 层数据进行数据全/增量合并以及数据清洗和标准化动作, ODS 层有两类数据表: 1、保持原始格式的全量数据表,主要是用于溯源,按照业务主键对 STG 表数据与前一天 ODS 清洗全量数据进行合并去重。 2、清洗和代码标准化,代码名称字段扩充后的标准基础数据表,标准化动作: 标准代码转换,按行业代码定义标准,对源系统代码进行转换,源系统 代码字段及标准代码字段均保留,不能转换成标准代码的代码值在标准代码项内保存成未知值。 代码值扩展,对常用代码,将代码对应的名称字段扩展到表内。 字符格式转换,进行全半角转换,null/none/空字符串统一转换为 null, 字段中部分特定字段的清理。 时间标准化,扩充按 datatime 类型的时间字段。 身份证格式标准化,统一格式化为 18 位

文档评论(0)

zhanghaoyu888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档