大数据技术实战教程 第1章 大数据技术概述.pptx

大数据技术实战教程 第1章 大数据技术概述.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章 大数据技术概述目 录大数据概念1大数据关键技术2大数据软件3认识大数据从20世纪开始,政府以及电商、医疗、金融等各行各业的信息化迅速发展,结构化数据、非结构化数据也在快速增长,数据量的暴增使得传统的数据库已经很难存储、管理、查询和分析这些数据。如何实现结构化和非结构化的PB级,ZB级等海量数据的存储,如何挖掘出这些海量数据隐藏的商业价值,已成为两大挑战。为解决这两大挑战,大数据技术应运而生,并成功解决这两大挑战。大数据的时代已经到来。1.1.1大数据概念1、大数据的定义大数据(big data),指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2、大数据的特征目前普遍使用5V特征来具体描述大数据,如图1-1所示。大数据的5V特征(1)数据量大(Volume) 大数据的第一个特征就是数据量巨大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB,也可以采用更大的单位EB或者ZB。相关信息单位的换算关系如下:1Byte = 8 bit,1KB = 1024 Bytes,1MB = 1024 KB1GB = 1024 MB,1TB = 1024 GB,1PB = 1024 TB1EB = 1024 PB,1ZB = 1024 EB,1YB = 1024 ZB1BB = 1024 YB大数据的5V特征(2)数据类型种类繁多(Variety) 大数据的第二个特征是数据类型种类和来源多样化。数据可以是结构化、半结构化和非结构化的,具体表现为网络日志、音频、视频、图片、地理位置信息等。类型多样化的数据对数据的处理能力提出了更高的要求。大数据的5V特征(3)数据价值密度低(Value)大数据的第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题。大数据的5V特征(4)速度快时效高(Velocity)大数据的第四个特征是数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。大数据的5V特征(5)真实性(Veracity)该特征主要体现了数据的质量。3、大数据在各行各业的典型应用 目前,大数据无处不在,应用于各个行业,金融、政务、汽车、餐饮、电信、能源、生物医学、电子商务、教育、制造等各行各业都融入了大数据的印迹。并且,大数据与实体经济不断融合发展,融合深度也在不断增强。1.1.2大数据关键技术大数据处理的关键技术主要包括:数据采集和预处理、数据存储和管理、数据分析和挖掘、数据可视化和数据安全及隐私保护。利用大数据技术对数据处理流程如图1-2所示。1、数据采集和预处理 目前,数据采集经常通过传感器、射频识别技术、交互型社交网络及移动互联网等途径获取数据。 大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、传感适配体系、网络通信体系、智能识别体系等软硬件资源,可以实现结构化、半结构化和非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器,结构化、半结构化和非结构化数据的数据库及物联网资源等基础支撑环境。1、数据采集和预处理 数据预处理是利用ETL(?Extract-Transform-Load)工具将分布的、异构的数据源的数据抽取到临时中间层后进行数据清洗和转换,最后加载到数据集市或者数据仓库中,成为联机分析处理(OLAP)和数据挖掘(DATA MINING)的数据基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。2、数据存储和管理数据的存储和管理主要是利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储。3、数据分析和挖掘数据分析指利用相关数学模型及机器学习算法对数据进行统计、分析和预测。数据挖掘是指利用人工智能、机器学习和统计学等多学科方法从大量的、不完全的,有噪声的、模糊的、随机的实际应用数据集中提取隐含在其中有价值的信息或模式的计算过程。大数据的分析和挖掘主要是利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的分析挖掘处理。4、数据可视化数据可视化主要是对分析后的结果进行可视化的呈现,更好地帮助人们理解数据,分析数据。数据可视化有时也被视为数据分析的

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001
认证主体丁**

1亿VIP精品文档

相关文档

相关课程推荐