数据挖掘分类算法综述.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘分类算法综述 谈恒贵1,一,王文杰1,李游华2 (1.中国科学院研究生院,北京100039;2.北京军区66362部队,北京101200) 摘 要:基于数据挖掘分类算法的研究现状,对目前发展较成熟的几种分类算法如决策树、关 联规则分类、神经网络、贝叶斯方法、遗传算法等数据挖掘分类算法分别进行了论述。主要分析比较 各典型算法的优点和不足,对其他一些算法也作了简单介绍,旨在追溯算法的发展轨迹,指出部分算 法可能发展的方向,为进一步研究提供有益的借鉴。 . 关键词:数据挖掘关联规则决策树分类算法 in 1.2分类规则 数据库中的知识发现KDD(KnowledgeDiscovery Database)是近年来随着数据库和人工智能技术的发展而 Data)是一个具有如下描述的结构:对于每一个 出现的,它是从大量数据中提取出可信的、新颖的、有效的 (Training 并能被人理解的模式的高级处理过程。它主要采用机器学 数据对象obj,在分类集中都存在某一分类值c曲一C与之 习算法或统计方法进行知识学习,一般将KDD中知识学 关联。分类的某种划分C是一个从属性集合(A1,.…一A0 习的阶段称为数据挖掘(DataMining)。 在数据挖掘的各种方法中,分类是一种主要的分析手 且返回具体的某一个分类值。也就是说,假定每一个数据 段,旨在生成一个分类函数或分类模型,由该模型把数据 对象(也可以称之为元组、样本或实例)属于一个预定义 Label 库中的数据项映射到某一给定类别中。目前许多分类方法 的类,由一个称作类标号属性(Class 已被机器学习、专家系统、统计学和神经生物学方面的研 性确定。为建立模型而被分析的数据元组形成数据训练 究者提出,如决策树、关联规则、贝叶斯、神经网络、遗传算 集。数据训练集中的单个元组称作训练样本,并由样本群 法、基于案例的推理等。不同的算法有其不同的特性,充分 随机地抽取。 结合关联规则的概念,在进行分类规则的挖掘时,可 认识各算法的优点和存在的缺陷,掌握其特定的适用环 境,便于研究者明确对算法的改进点和研究的方向,也便 以将关联规则表示为模式。某个模式P=aF…一a;。是属性集 于使用者选择和应用。而目前,大部分研究者倾向于提出 合的一系列取值,即a;:∈A¨其中(1≤_『≤后),且对于_『7≠_『, 新的算法,而很少对算法的研究现状作分析和比较。为弥 补这一不足,本文着眼于不同分类算法的典型代表,分析 对于此模式,数据对象含有属性值a;EA汕模式P相当于 比较各自的特性,为读者提供有益的借鉴。 ||}一项频繁集。给定某个数据训练集r,设C是某种分类值。 1问题定义 对于规则R:P斗c,训练集中符合模式P并且分类值等于C 1.1分类【11 分类(Cla晶ification)是数据挖掘中的一个重要的概念。 俾)。所有满足某个模式P且满足分类值C的元组的个数与 数据分类(DataClassification)一般分为二个过程。第一步 仅仅满足某个模式P的元组的比值,叫做某个分类的置信 是建立分类模型,描述预定的数据类集或者概念集。通过 度(Confidence),记为conf(R)。 分析有属性描述的数据库元组来构造模型。通常,这样的 2数据挖掘分类算法研究现状 分类模型用分类规则集、决策树或者数学公式的形式给 近年来,数据挖掘分类已提

文档评论(0)

山丹丹 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体刘**

1亿VIP精品文档

相关文档

相关课程推荐