大数据入门知识总结.pdfVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⼤数据⼊门知识总结 ⼤数据⼊门知识总结 ⼀、⼤数据部门及流程 1、部门架构 2、⼤数据处理流程 ⼆、数据仓库 1、数据仓库的基本概念 数据仓库 (D t W rehouse,DW/DWH)是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业 务数据进⾏筛选与整合。它为企业提供⼀定的BI (商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。 数据仓库⾯向分析,平时的Mysql数据库主要⾯向业务。 数据仓库是专门⽤来进⾏数据分析的,它可以是Mysql、Or cle等数据库,但是在⼤数据中常⽤到的是Hive。 2、数据仓库的主要特征 数据仓库是⾯向主题的、集成的、稳定的和时变的数据集合,⽤以⽀持管理决策。 (1)主题性 不同于传统数据库对应于某⼀个或多个项 ⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数 据都围绕某⼀主题来组织。 ⽐如对于城市, “天⽓湿度分析”就是⼀个主题。对于淘宝, “⽤户点击⾏为分析”就是⼀个主题。 (2)集成性 数据仓库中存储的数据是来源于多个数据源的集成,原始数据来 ⾃不同的数据源,存储⽅式各不相同。要整合成为最终的数据集合,需要从 数据源经过⼀系列抽取、清洗、转换的过程。 (3)稳定性 数据仓库中保存的数据是⼀系列历史快照,不允许被修改。⽤户只能通过分析⼯具进⾏查询和分析。这⾥说明⼀点,数据仓库基本上是不许 允许⽤户进⾏修改,删除操作的。⼤多数的场景是⽤来查询分析数据。 (4)时变性 数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和稳定特点并不⽭盾。 3、数据仓库与数据库区别 (1)数据库 数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。⽤户较为关⼼操作的响应时间、 数据的安全性、完整性和并发⽀持的⽤户数等问题。传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务 处理 OLTP (On-Line Tr ns ction Processing)。 (2)数据仓库 数据仓库⼀般针对某些主题的历史数据进⾏分析,⽀持管理决策,⼜被称为联机分析处理 OLAP (On-Line An lytic l Processing)。⾸ 先要明⽩,数据仓库的出现,并不是要取代数据库。 (3)两者区别 数据库是⾯向事务的设计,数据仓库是⾯向主题设计的。 数据库⼀般存储业务数据,数据仓库存储的⼀般是历史数据。 数据库设计是尽量避免冗余,⼀般针对某⼀业务应⽤进⾏设计,⽐如⼀张简单的User表,记录⽤户名、密码等简单数据即可,符合业 务应⽤,但是不符合分析。数据仓库在设计是有意引⼊冗余,依照分析需求,分析维度、分析指标进⾏设计。 数据库是为捕获数据⽽设计,数据仓库是为分析数据⽽设计。以银⾏业务为例。数据库是事务系统的数据平台,客户在银⾏做的每笔交 易都会写⼊数据库,被记录下来,这⾥,可以简单地理解为⽤数据库记账。 数据仓库,是在数据库已经⼤量存在的情况下,为了进⼀步挖掘数据资源、为了决策需要⽽产⽣的,它决不是所谓的 “⼤型数据库”。 (4)数据仓库分层架构 按照数据流⼊流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应⽤。 数据仓库的数据来源于不同的源数据,并提供多样的数据应⽤,数据 ⾃下⽽上流⼊数据仓库后向上层开放应⽤,⽽数据仓库只是中间集成化 数据管理的⼀个平台。 源数据层 (ODS): 操作性数据(Oper tion l D t Store) ,是作为数据库到数据仓库的⼀种过渡,ODS的数据结构⼀般与数据来源保持⼀致,⽽且ODS的数据周期⼀般⽐较短。ODS的数据为 后⼀步的数据处理做准备。 数据仓库层 (DW) :数据仓库(D t W rehouse),是数据的归宿,这⾥保持这所有的从ODS到来的数据,并长期报错,⽽且这些数 据不会被修改,DW层的数据应该是⼀致的、准确的、⼲净的数据,即对源系统数据进⾏了清洗 (去除了杂质)后的数据。 数据应⽤层 (DA) :数据应⽤(D t pplic tion),为了特定的应⽤ ⽬的或应⽤范围,⽽从数据仓库中独⽴出来的⼀部分数据,也可称为 部门数据或主题数据,该数据⾯向应⽤。如根据

文档评论(0)

爱分享的达人 + 关注
实名认证
文档贡献者

爱分享

1亿VIP精品文档

相关文档