大数据解决方案.docxVIP

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据平台技术解决方案 目录 TOC \o "1-3" \h \z \u 第1章 技术解决 4 1.1 大数据采集 4 1.1.1 概述 4 1.1.2 数据来源 4 1.1.3 数据现状 5 1.1.4 技术支撑 6 1.1.5 价值体现 10 1.1.6 解决工具 10 1.2 大数据存储 11 1.2.1 概述 11 1.2.2 技术支持--Hadoop概论 11 1.2.3 价值体现 19 1.3 大数据治理 20 1.3.1 概述 20 1.3.2 数据治理现状 20 1.3.3 数据治理概念 21 1.3.4 数据治理主要内容 22 1.3.5 技术实现 28 1.3.6 价值体现 32 1.3.7 解决工具 34 1.4 大数据分析 34 1.4.1 概述 34 1.4.2 大数据分析方法 35 1.4.3 数据分析的类型 40 1.4.4 数据分析步骤 40 1.4.5 价值体现 41 1.4.6 大数据分析应用 42 1.4.7 解决工具 44 1.5 大数据可视化 44 1.5.1 概述 44 1.5.2 大数据可视分析的概念 45 1.5.3 大数据可视化分析的方法 45 1.5.4 价值体现 48 技术解决 大数据采集 概述 随着大数据时代的到来,数据正呈现出爆炸式的增长趋势。随着IT技术的不断发展,无论是传统的业务系统数据,还是新型的非结构化数据,我们能够利用并转化为有用信息的数据变得越来越多。 表格 1 SEQ 表格 \* ARABIC \s 1 1 传统数据采集与大数据数据采集对比 项 目 传统的数据采集 大数据的数据采集 数据来源 来源单一,数据量相对大数据较小 来源广泛,数据量巨大 数据类型 结构单一 数据类型丰富,包括结构化、半结构化、非结构化 数据处理 关系型数据库和并行数据仓库 分布式数据库 数据来源 按照数据来源划分,大数据的三大主要来源分为商业数据、互联网数据与物联网数据。 商业数据 商业数据是指来自企业ERP系统,各种POS终端以及网上支付系统等业务系统的数据,商业数据是现在最主要的数据来源渠道。 互联网数据 互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。 物联网数据 物联网是指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万物互联的The Internet of Things。其内涵包含两个方面意思:一是物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络;二是其用户端延伸和扩展到了任何物品与物品之间进行信息交换和通信。物联网的定义是:通过射频识别(Radio Frequency Identification,RFID)装置、传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。 物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等结点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。物联网数据的特点主要包括以下几点。 物联网中的数据量更大。物联网的最主要特征之一是结点的海量性,其数量规模远大于互联网;物联网结点的数据生成频率远高于互联网,如传感器结点多数处于全时工作状态,数据流是持续的。 物联网中的数据传输速率更高。由于物联网与真实物理世界直接关联,很多情况下需要实时访问、控制相应的结点和设备,因此需要高数据传输速率来支持。 物联网中的数据更加多样化 物联网对数据真实性的要求更高。 数据现状 数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载。 在以上过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,数据的质量至关重要。 常见的数据质量问题可以根据数据源的多少和所属层次(定义层和实例层)分为 4 类。 1)单数据源定义层 违背字段约束条件(例如,日期出现 9 月 31 日),字段属性依赖冲突(例如,两条记录描述同一个人的某一个属性,但数值不一致),违反唯一性(同一个主键 ID 出现了多次)等。 2)单数据源实例层 单个属性值含有过多信息,拼写错误,存在空白值,存在噪音数据,数据重复,数据过时等; 3)多数据源定义层 同一个实体的不

文档评论(0)

movie + 关注
实名认证
文档贡献者

喜欢分享的作者

1亿VIP精品文档

相关文档