电子商务数据分析PPT课件(共8章)第6章 电子商务大数据分析.pptxVIP

电子商务数据分析PPT课件(共8章)第6章 电子商务大数据分析.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6.1大数据的含义与特征教学目的与要求: 解释大数据的含义描述大数据的基本特点说明大数据生态环境的主要参与者描述大数据分析的生命周期的6个阶段及其主要工作一、大数据的含义 大数据(Big Data):是具有大规模、分布式、多样性和时效性的数据,一般只有采用新技术架构的分析方法,才能有效地挖掘出其商业价值。也就是说,大数据需要新的处理模式才能在合理时间内撷取、管理、处理并被整理成为人类所能解读的数据资讯。电子商务大数据类型多种多样,既包含消费者交易信息、消费者基本信息、企业的产品信息与交易信息,也包括消费者评论信息、行为信息、社交信息和地理位置信息等。二、大数据的基本特征 业界将大数据的基本特征归纳为“4V”,即Volume(体量性)、Variety(多样性)、Value(价值性)、Velocity(快速性)。二、大数据的基本特征 业界将大数据的基本特征归纳为“4V”,即Volume(体量性)、Variety(多样性)、Value(价值性)、Velocity(快速性)。大数据的数据体量巨大,动辄几十亿行、数百万列,数据量从TB级别跃到PB、EB级别。1EB约等于6626亿部红楼梦,4462个藏书约1.5亿册规模图书馆的数据存储量。大数据的类型和结构复杂,包括结构化数据和文本文件、多媒体以及网页上留下的各种商务活动数据、位置信息等半结构化和非结构化数据,对数据处理能力提出了更高要求。二、大数据的基本特征 业界将大数据的基本特征归纳为“4V”,即Volume(体量性)、Variety(多样性)、Value(价值性)、Velocity(快速性)。大数据能够描述高速数据,其新数据的创建和增长也非常快,因此,大数据处理需要遵循“1秒定律”,快速地采集数据和近乎实时地分析数据,快速获得高价值信息,这是大数据分析区分于传统数据挖掘最显著的特征。价值密度高低与数据总量成反比。以网络视频为例,1小时的视频其中可能只有1分钟甚至几秒钟的数据有价值。因此,如何完成数据的价值“提纯”,是大数据背景下亟待解决的难题。三、大数据的生态系统的构成 大数据生态系统主要有4种生态参与者: (1)数据设备 (2)数据收集器 (3)数据整合者 (4)数据使用者和购买者数据设备包括PC机、智能手机、车载GPS设备、商场会员卡等。数据收集器从设备和用户那里收集数据的样本实体。数据整合者能利用传感器网络和物联网收集的数据创造价值。数据使用者和购买者能直接受益于数据价值链上其他人收集和汇总的数据。四、大数据分析的生命周期 大数据分析的生命周期可分为6个阶段:依次为发现问题、数据准备、规划模型、建立模型、沟通结果、实施阶段。发现问题阶段需要完成如下主要工作: (1)团队成员学习业务领域的相关知识; (2)团队评估可以用于项目实施的人员、技术、系统、工具、时间和数据等资源,理解数据源,盘点能否借鉴相关经验; (3)设定问题,研究构建问题的语境,识别项目的主要目标,制定项目成功或失败的标准; (4)确定利益相关者,弄清每个人期望参与项目的方式; (5)采访分析发起人,更多地了解背景和业务,了解团队需要解决哪些业务问题?项目的预期结果是什么?哪些行业问题可能影响到分析? (6)形成初步假设并生成更多的潜在解决方案; (7)明确潜在数据源,考虑用于检验假设的数据体量、类型和时间跨度,评估数据结构和所需工具,并选择团队后续阶段使用的分析方法。 数据准备阶段的主要工作包括以下5个方面: (1)准备分析沙盘。分析沙盘可以方便团队在不干扰到生产数据库的前提下探索数据。 (2)提取、转换和加载数据。将数据转换成可以被使用和分析的格式。 (3)研究数据。分析团队需要彻底熟悉数据,并对可以访问的数据进行归类,识别可以利用但暂时无法访问的其他数据源。 (4)数据治理。即清洗数据、标准化数据集和执行数据转换,涉及关联数据和整合数据集。 (5)调查和可视化。即在团队收集和获得用于后续分析的部分数据集后,利用数据可视化工具在相对较短的时间内获悉给定数据集的大量信息。 规划模型该阶段的主要工作包括以下2个方面: (1)数据探索和变量选择。数据探索的目标是理解变量之间的关系,以便决定变量的选择和方法,了解问题领域。 (2)模型的选择。在模型选择子阶段,主要目标是基于项目的最终目标来选择一种分析技术,或者选择一系列候选技术。 建立模型阶段的主要工作: (1)团队要创建用于测试、培训和生产的数据集,构建并运行由上一阶段确定的模型; (2)团队还需要考虑现有工具是否能够满足模型的运行需求,是否还需要一个更强大的模型和工作流的运行环境,诸如更快的硬件和并行处理系统等。 沟通结果阶段的主要工作: (1)团队需要与主要利益相关者进行合作,以第一阶段制定的标准来判断项目结果是成功还是失败。 (2)团队鉴别关键的

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档

相关课程推荐