- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硬核科普⼤数据资产管理平台实践(下):设计、研发、运营
背景介绍
随着信息经济发展,以⼤数据为代表的信息资源正在朝着⽣产要素的形态演进:
中共中央、国务院近⽇发布的 《关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳⼊⽣产要素范围,明
确加快培育数据要素市场;
今年的政府⼯作报告中也明确指出,需要培育技术和数据市场,激活各类要素潜能;
数据成为⽣产要素,是对其价值的充分肯定,对于数字经济的发展起到导向作⽤。但现阶段我国数据要素市场化配置尚
处于起步阶段,仍需加强探索与完善。作为值得信赖的数据智能科技服务专家,联通⼤数据公司在数据要素市场化、数
据资产管理等领域有了较丰富的沉淀,基于此,我们在今天的推送中,将公司在数据资产管理平台的设计、研发与运营
⽅⾯的实践经验进⾏梳理,欢迎⼤家共同探讨、指正。
本⽂作者:尹正军,联通⼤数据公司⾼级架构师
上⼀期传送门→
硬核科普 | ⼤数据资产管理平台实践(上):定义、⽬标、挑战
五
数据资产管理平台的功能设计
(⼀) 整体架构设计: ⼀站式端到端数据治理管控
Q :这个平台有这么多功能模块啊!如何理解这些模块的定位和价值呢?
A :简单的说,我们的数据资产管理平台=数据治理平台+数据服务平台,其中数据服务平台的核⼼是能⼒开放平台,包
括租户建模分析平台、数据查询分析、数据资源共享交换、数据能⼒商店、API服务中⼼等典型应⽤。
再举⼀个⼩例⼦,当你想在数据仓库中建⼀张表(模型),⾸先就是借助于数据开发平台的数据模型管理模块,进⾏逻
辑模型设计,这⾥涉及到表命名和字段schema结构的定义与配置;表命名可以参考数据标准模块的相关规范要求来定
义,字段设计可选择直接导⼊ER图,或者参考数据标准管理模块中的标准(历史相似)模型对应的数据元 (属性)、代码
集 (字典)、数据集 (属性集合)等条⽬信息进⾏设计,逻辑模型设计之后选择相应数据源进⾏物化处理,从⽽⽣成产
线环境中的物理模型,这⾥的数据源是基于平台中数据源管控功能进⾏配置管理。当模型上线后,我们可能会基于数据
集成平台的数据采集交换模块,从其他数据源系统导⼊相应的表数据,同时会触发元数据管理模块中的元数据采集及变
更管控稽核功能,确保模型的所有变更状态能够及时通知数据组织相关⼈员;然后是基于数据加⼯过程管理模块,围绕
新建的表进⾏加⼯过程 (通常是SQL或Shell脚本)的标准化管理,这⾥的标准化是指根据加⼯的基础模板⾃动⽣成相
应加⼯脚本处理模型,并⼀键完成该处理模型的仿真测试和上线;在仿真测试阶段和正式上线后,都会涉及到数据集成
平台的⼯作流调度;上线⼀段时间后,可能会遇到数据质量问题,则可采⽤数据质量平台对模型中的数据进⾏数据质量
稽核,还可能会遇到表数据具备问题,⽐如每天凌晨批处理过程执⾏前,数据没有按时具备,以⾄于对后续处理产⽣影
响,这时就可以借助元数据管理模块的⾎缘分析和数据地图功能,⼤致评估出影响范围;同时,根据数据集群治理平台
的底层洞察功能,找到该数据模型相关⼤数据作业处理背后的底层存储和计算瓶颈,然后进⾏数据治理优化动作的实
施 ;数据质量问题和集群治理问题解决之后,可以通过数据服务平台开放共享给内外部租户,刚才提到的数据采集交
换、元数据稽核、数据质量稽核等任务,都会交给数据集成平台的⼯作流模块进⾏调度处理,另外,涉及到该模型后续
的使⽤消费、变更删除等操作,会由数据开发平台⽣命周期模块全局管控。
(⼆) 数据集成平台:解决数据采集交换与调度问题
定位与⽬标:
把政府、企业内外部数据快速整合到⼀起,通常会包含数据采集交换和⼯作流调度系统,如果还要⽀撑DataOps数据开
发运维运营⼀体化平台功能落地的话,需提供⼤数据平台与⽣产应⽤系统的双向通信能⼒,⽅便构建数据开发、运维、
治理、运营闭环系统。
核⼼模块列表:
数据采集交换平台、数据⼯作流调度系统、数据应⽤代理系统。
主要功能列表:
数据源原理:RDBMS、MPP、Hadoop、txtFile、ftp等
映射管理:映射新增、映射设计、映射导⼊、⽬录编辑与迁移
流程管理:流程汇总、导⼊/添加⼯作流、流程编排、流程实例管理(⽇志查看、重跑、暂停、失败恢复)、⽬录编辑与
迁移
运⾏监控:资源监控、异常监控 (调度和宕机)、历史流程实例查看与清理
配置管理:⼯作流消息配置、⾃定义插件维护、计划调度管理、作业组管理、计算资源管理、流程模板管理、⾃定义函
数管理
参考设计:
(三) 数据开发平台:解决数据开发标准化问题
定位与⽬标:
⽀撑数据模型设计、数据加⼯脚本标准化,实现开发、测试、上线过程⾃动化,保障数据模型与⽣命周期管理标准落
地。
文档评论(0)