商业大数据分析与可视化-全套PPT课件.pptx

商业大数据分析与可视化-全套PPT课件.pptx

  1. 1、本文档共413页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
商业大数据分析与可视化-全套PPT课件.pptx

第1章 商业大数据分析 1.1 大数据处理与大数据分析 数据规模的迅速增大致使各行业数据的积累量变得十分庞大,其中包含的数据类型也繁杂多样,老旧的数据管理系统和数据处理模式没有足够强大的性能可以应对这样的数据现状,由此产生了新的概念,即大数据。 1.1.1大数据处理与大数据分析 大数据的基本概念、来源与应用 大数据的基本概念 从数据库到大数据 大数据的产生和应用 大数据的基本概念 大数据是指人们利用常用的软件工具捕获、管理和处理的庞大数据集,这里的庞大是指数据处理耗时超过可接受的时长。从表面上看“大数据”这个概念是在说明数据量之多,但是已有的概念中也有表示数据量极多的名词,如“海量数据”“超大规模数据”。如何将这些概念与“大数据”相区分呢?3V定义在各种不同的大数据概念定义之中具有显著代表性,一般人们认为有规模性(Volume)、多样性(Variety)和高速性(Velocity)这三个特性的数据即大数据。1 在定义中,规模性主要代表数据集整体规模之大,是一个数据全集的概念;多样性主要形容的是数据类型多样;高速性指实时动态处理数据的速度很快,达到以秒为单位的速度即可。2 大数据的基本概念 另外,有人基于上述的3V定义补充了一个新特性,由此出现了4V定义,但是不同的研究组织对这条新特性有着不同的想法,以国际数据公司(IDC)为例,该公司认为第四特性应该是价值性,并且认为大数据所拥有的价值不是密集的,即价值密度具有稀疏性。而国际商业机器公司(IBM)则认为第四特性理应为真实性(Veracity)。 从数据库到大数据 简单来看数据库(Data Base,DB)到大数据(Big Data,BD)似乎仅仅是一个技术发展的过程,但详细探究二者本质我们就会发现它们之间的跨越带来的影响变化是很大的。数据来源、数据管理方式和处理数据的思维方式等很多方面都发生了翻天覆地地转变。 从数据库到大数据 我们将过去只能应对少量数据的数据管理方式与大数据时代下的数据管理方式分别比喻为“水池捕鱼”与“大海捕鱼”,其中的“鱼”代表需要被处理的数据。“捕鱼”的方式随着“捕鱼”环境和条件动态变化而有所不同,不同之处主要表现在以下这几个方面。 1.数据规模 从数据库到大数据“水池”和“大海”之间最显著的差异在于规模大小,二者相比较时,“大海”具有较大规模。如XLDB(Extremely Large Data Base)的“大海”规模就大于如VLDB(Very Large Data Base)等的“水池”。“水池”中的待处理数据对象以MB为基本单位,而“大海”中处理数据对象的基本单位一般要达到GB、TB、PB。 2.数据类型 从数据库到大数据在未步入大数据时代之前,“水池”中的数据类型通常只涵盖一种或个别几种,并且普遍为简单不复杂的结构化数据。但是现在“大海”中的数据种类不再是少数几种类型组成的,还出现了非结构化数据、半结构化数据相混杂的情况,每个类型的数据量都很大且并非以某个单一类型为主。 结构化数据结构化数据在类型、结构、属性划分和其他信息上均为固定的。在关系型数据库中存储的全部信息中,主体数据类型是结构化的,如hd_user(用户资料表),它具有open_id(用户id)、name(姓名)、mobile(联系方式)、card_id(身份证号)、gender(性别)等基本属性。数据记录中结构化数据的每一个属性值都与数据库表中的一个字段相对应,通过这样的方式可以使数据直接存入数据库中。数据类型 非结构化数据非结构化数据是指不能用统一结构表示的数据,如音频、视频、图片、文本文件等信息中包含的数据都是非结构化的。例如,单位为KB这样的少量级别数据记录,直接存储于数据库的表中即可,这样的一整条数据得到映射有助于使数据记录被很快检索到。相反,假如数据记录中数据量大,应该利用文件系统提供存储功能,此时相关数据的索引信息可存入数据库之中。数据类型 半结构化数据 半结构化数据是指数据不仅具有一定的结构,还具有灵活可改变的特性,如 xml和html等半结构化数据也属于非结构化数据,而且可以灵活改变为结构化数据以便存储。人们通常参照非结构化数据选择存储方式的思维来解决半结构化数据如何选择存储方式的问题。数据类型 大数据的基本概念一般来说,结构化数据只占全部数据的20%甚至更少,但20%以下的数据却凝结了企业过去很长一段时间内各方面的数据需求,而且发展得相当成熟,即数据也有所谓的“二八法则”,这个法则是指20%的数据有80%的价值。音频、视频、图片、文本文件等无法完全数字化的信息就属于非结构化数据,在这些非结构化数据之中通常存在大量有价值信息,尤其随着移动互联网、物联网及车联网的发展,非结构化数据量也在高速增长。 3.模式和数据

文档评论(0)

四百八十寺 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004
认证主体洪**

1亿VIP精品文档

相关文档

相关课程推荐