数据仓库与数据挖掘课后习题答案.docx

数据仓库与数据挖掘课后习题答案.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据库房与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据库房中的数据都是一些历史的、存档的、概括的、计算的数据。 2)数据库房中的数据分为四个级别:早起细节级、目前细节级、轻度综合级、高度综合级。 3)数据源是数据库房系统的基础,是整个系统的数据源泉,往常包括业务数据和历史数据。 4)元数据是“对于数据的数据”。根据元数据用途的不同将数据库房的元数据分为技术元数 据和业务元数据两类。 5)数据办理往常分为两大类:联机事务办理和联机事务剖析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果剖析三个主要部分组成。 7)如果从整体上看数据挖掘技术,能够将其分为统计剖析类、知识发现类和其他种类的数 据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web构造挖掘和web使用挖掘。 10)查问型工具、剖析型工具盒挖掘型工具联合在一同组成了数据库房系统的工具层,它们 各自的重视点不同,因此合用范围和针对的用户也不相同。 二:简答题 1)什么是数据库房数据库房的特点主要有哪些 数据库房是一个面向主题的、集成的、相对稳定的、反应历史变化的数据会合,用于支持管理决议。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的会合性、支持决议作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据 中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据 业务元数据从业务角度描绘了数据库房中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据库房中的数据 4)简述数据挖掘与传统剖析方法的区别。 本质区别是:数据挖掘是在没有明确假定的前提下去挖掘信息、发现知识。数据挖掘所获得的信息应拥有先前未知、有效和实用三个特点。 5)简述数据库房4种体系构造的异同点及其合用性。 a.虚构的数据库房体系构造 b.独自的数据库房体系构造 c.独自的数据集市体系构造 d.散布式数据库房构造 第二章课后习题 一:填空题 1)模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其相关特点 变换为信息世界的数据才能对信息进行办理与管理,这就需要依靠数据模型作为这种变换的桥梁。 2)数据库房模型设计包括观点、逻辑、物理、元数据模型设计等内容。 3)现实世界是存在于现实之中的各样客观事物。观点世界是现实情况在人们头脑中的反响。 逻辑世界是人们为将存在于自己头脑中的观点模型变换到计算机中的实际的物理存储过程 中的一个计算机逻辑表示模式。计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。 4)数据库房设计的观点模型与业务数据办理系统的三级数据模型仍旧拥有一定的差距。表现在数据种类的差别、数据的历史变迁性、数据概略性 5)数据库房项目需求的收集与剖析需求要从历史数据与用户需求两个方面同时着手,采用数据驱动+用户驱动的理念。 6)所谓主题,是指在较高程度上将业务数据进行综合,归类和剖析利用的一个抽象观点, 每个主题基本对立业务的一个剖析领域。 7)多维数据模型较为普遍地采用星型模型、雪花模型两种模式。 8)设计齐集模型时,首先需要考虑用户的使用要求,其次要考虑数据库房的粒度模型和数据的统计剖析情况。 9)切割是数据库房逻辑设计中要解决的另一个重要问题,它的目的在于提高效率能为数据 库房的物理实施提供设计依据。 10)元数据根据使用情况,主要有技术元数据和业务元数据两类元数据。 二:简答题 1)简述观点模型设计主要达成哪些工作 界定系统边界、确定主要的主题域、细化剖析详细内容 2)简述一个切合第三范式的关系必须拥有的三个条件。 A.每个属性的值唯一,不拥有多义性 B.每个非主属性必须完全依靠于整个主键 C.每个非主属性不能依靠于其他关系中的属性。 3)简述确定粒度级其他步骤 A.估算DASD B.计算存储空间、确定是否区分粒度。 C.计划影响数据库房的粒度区分 D.使用多重粒度 E.使用多种存储介质的空间量 F.选择合适的粒度 G.只采用概略数据 4)简述CWM五个功能层 对象模型层、基础层、资源层、剖析层、管理层 5)数据库房物理模型进行优化时能够考虑的解决方案有哪些 A.归并表与簇文件 B.成立数据序列 C.引入冗余,反规范办理 D.表的物理切割分区 E.生成派出数据 第三章课后习题 一:填空题 1)ETL过程主要包括三个部分: 数据抽取、数据冲洗与数据变换 以及数据的加载。 2)ETL工作流模型包括 ETL观点模型和ETL逻辑模型两部分。 3)触发器方式是普遍采取的一种增量抽取体制。该方

文档评论(0)

134****6803 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体李**

1亿VIP精品文档

相关文档

相关课程推荐