硬核科普大数据资产管理平台实践(下):设计、研发、运营.pdf

硬核科普大数据资产管理平台实践(下):设计、研发、运营.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硬核科普⼤数据资产管理平台实践(下):设计、研发、运营 背景介绍 随着信息经济发展,以⼤数据为代表的信息资源正在朝着⽣产要素的形态演进: 中共中央、国务院近⽇发布的 《关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳⼊⽣产要素范围,明 确加快培育数据要素市场; 今年的政府⼯作报告中也明确指出,需要培育技术和数据市场,激活各类要素潜能; 数据成为⽣产要素,是对其价值的充分肯定,对于数字经济的发展起到导向作⽤。但现阶段我国数据要素市场化配置尚 处于起步阶段,仍需加强探索与完善。作为值得信赖的数据智能科技服务专家,联通⼤数据公司在数据要素市场化、数 据资产管理等领域有了较丰富的沉淀,基于此,我们在今天的推送中,将公司在数据资产管理平台的设计、研发与运营 ⽅⾯的实践经验进⾏梳理,欢迎⼤家共同探讨、指正。 本⽂作者:尹正军,联通⼤数据公司⾼级架构师 上⼀期传送门→ 硬核科普 | ⼤数据资产管理平台实践(上):定义、⽬标、挑战 五 数据资产管理平台的功能设计 (⼀) 整体架构设计: ⼀站式端到端数据治理管控 Q :这个平台有这么多功能模块啊!如何理解这些模块的定位和价值呢? A :简单的说,我们的数据资产管理平台=数据治理平台+数据服务平台,其中数据服务平台的核⼼是能⼒开放平台,包 括租户建模分析平台、数据查询分析、数据资源共享交换、数据能⼒商店、API服务中⼼等典型应⽤。 再举⼀个⼩例⼦,当你想在数据仓库中建⼀张表(模型),⾸先就是借助于数据开发平台的数据模型管理模块,进⾏逻 辑模型设计,这⾥涉及到表命名和字段schema结构的定义与配置;表命名可以参考数据标准模块的相关规范要求来定 义,字段设计可选择直接导⼊ER图,或者参考数据标准管理模块中的标准(历史相似)模型对应的数据元 (属性)、代码 集 (字典)、数据集 (属性集合)等条⽬信息进⾏设计,逻辑模型设计之后选择相应数据源进⾏物化处理,从⽽⽣成产 线环境中的物理模型,这⾥的数据源是基于平台中数据源管控功能进⾏配置管理。当模型上线后,我们可能会基于数据 集成平台的数据采集交换模块,从其他数据源系统导⼊相应的表数据,同时会触发元数据管理模块中的元数据采集及变 更管控稽核功能,确保模型的所有变更状态能够及时通知数据组织相关⼈员;然后是基于数据加⼯过程管理模块,围绕 新建的表进⾏加⼯过程 (通常是SQL或Shell脚本)的标准化管理,这⾥的标准化是指根据加⼯的基础模板⾃动⽣成相 应加⼯脚本处理模型,并⼀键完成该处理模型的仿真测试和上线;在仿真测试阶段和正式上线后,都会涉及到数据集成 平台的⼯作流调度;上线⼀段时间后,可能会遇到数据质量问题,则可采⽤数据质量平台对模型中的数据进⾏数据质量 稽核,还可能会遇到表数据具备问题,⽐如每天凌晨批处理过程执⾏前,数据没有按时具备,以⾄于对后续处理产⽣影 响,这时就可以借助元数据管理模块的⾎缘分析和数据地图功能,⼤致评估出影响范围;同时,根据数据集群治理平台 的底层洞察功能,找到该数据模型相关⼤数据作业处理背后的底层存储和计算瓶颈,然后进⾏数据治理优化动作的实 施 ;数据质量问题和集群治理问题解决之后,可以通过数据服务平台开放共享给内外部租户,刚才提到的数据采集交 换、元数据稽核、数据质量稽核等任务,都会交给数据集成平台的⼯作流模块进⾏调度处理,另外,涉及到该模型后续 的使⽤消费、变更删除等操作,会由数据开发平台⽣命周期模块全局管控。 (⼆) 数据集成平台:解决数据采集交换与调度问题 定位与⽬标: 把政府、企业内外部数据快速整合到⼀起,通常会包含数据采集交换和⼯作流调度系统,如果还要⽀撑DataOps数据开 发运维运营⼀体化平台功能落地的话,需提供⼤数据平台与⽣产应⽤系统的双向通信能⼒,⽅便构建数据开发、运维、 治理、运营闭环系统。 核⼼模块列表: 数据采集交换平台、数据⼯作流调度系统、数据应⽤代理系统。 主要功能列表: 数据源原理:RDBMS、MPP、Hadoop、txtFile、ftp等 映射管理:映射新增、映射设计、映射导⼊、⽬录编辑与迁移 流程管理:流程汇总、导⼊/添加⼯作流、流程编排、流程实例管理(⽇志查看、重跑、暂停、失败恢复)、⽬录编辑与 迁移 运⾏监控:资源监控、异常监控 (调度和宕机)、历史流程实例查看与清理 配置管理:⼯作流消息配置、⾃定义插件维护、计划调度管理、作业组管理、计算资源管理、流程模板管理、⾃定义函 数管理 参考设计: (三) 数据开发平台:解决数据开发标准化问题 定位与⽬标: ⽀撑数据模型设计、数据加⼯脚本标准化,实现开发、测试、上线过程⾃动化,保障数据模型与⽣命周期管理标准落 地。

文档评论(0)

166****9181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档

相关课程推荐