数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt

数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库的数据模型、数据组织、数据仓库设计(学时2)

数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING) 石家庄铁道大学 内 容 第2章 数据仓库的数据模型 第3章 数据仓库的数据组织 第4章 数据仓库设计 第2章 数据仓库的数据模型 本章要点 数据仓库的概念模型:信息包图 数据仓库的逻辑模型:星型图、雪花模型 数据仓库的物理模型 数据仓库的数据模型- 与数据库系统数据模型的区别 数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了键结构,增加了时间属性作为键的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。 信息包图(概念模型) 信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息 信息包: 维度 类别 空白信息包图样式 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。 销售分析的信息包图 星型图模型(逻辑模型) 星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。 与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标、维度、详细类别 在很多情况下,维度实体还要向外延伸至详细类别实体,或者说,详细类别实体是维度实体的附加信息,是维度实体的扩展,说明了维度实体间的关系。这种在维度实体上扩展详细类别实体的星形图称为雪花图。 雪花图模型(逻辑模型) 雪花模型包括了三种逻辑实体:指标、维度、详细类别。 雪花模型通常由一个很大的中心表(指标表)和一组较小的表(维表)组成。雪花模型的指标表与所有的维表都要进行连接。 物理模型 物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。 第3章 数据仓库的数据组织 本章要点 数据仓库中的数据组织 粒度与分割 数据仓库的数据追加 数据仓库中的数据存在着不同的综合级别 早期细节级 当前细节级 轻度综合级 高度综合级 粒度:数据的不同综合级别 粒度越大、表示细节程度越低、综合程度越高。 级别的划分是根据粒度进行的 粒度问题是设计数据仓库的一个最重要方面。 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。 需要在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。 该图的左边是一个低粒度级,每一次电话都被详细记录下来,每个顾客平均有2 0 0条记录,每个记录2 0 0个字节,因而总共需要40 000个字节。 该图的右边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需2 0 0个字节。 显然,用高粒度级表示数据将比用低粒度级表示数据的效率空间要高得多。 高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。 但是,当提高粒度级时,会出现另一个问题。即当提高数据粒度级时,数据所能回答查询的能力

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档