- 1、本文档共547页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘;第1章 绪论;引例;超市货架的组织——“啤酒与尿布” ;网上购物——“定向营销”(广告投放);客户流失分析;信息检索——“智能搜索”;入侵检测;1.1 数据挖掘技术使用背景;时代的挑战、市场的需求 ; 数据挖掘——商业的驱动
在强大的商业需求驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。然而,面对高维、复杂、异构的海量数据,提取潜在的有用信息已经成为巨大的挑战。面对这一挑战,数据挖掘和知识发现(DMKD)技术应运而生,并显示出强大的生命力。; 数据挖掘——科学计算、人工智能的驱动
外太空探索、气象预报、基因数据分析、智慧城市、无人驾驶,......。
;数据挖掘技术正在变成信息技术的核心之一;特别是大数据时代的来临冲击着???统行业,包括社交媒体、零售业、电子商务、交通、教育、金融、医疗、工业制造、旅游、生物医药等行业,同时大数据也正在彻底改变人们的生活、学习和工作方式。;1.2 数据挖掘任务及过程;技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。
商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。;;;1.2.2 数据挖掘任务;;;聚类与分类的主要区别聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义有类。分类是训练样本包含有分类属性值,而聚类则是在训练样本中找到这些分类属性值。;;; (3) 回归(Regression )分析
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。
分类与回归的区别
分类和回归都有预测的功能,但是:
分类预测的输出为离散或标称的属性;
回归预测的输出为连续属性值;
分类与回归的例子:
预测未来某银行客户会流失或不流失,这是分类任务;
预测某商场未来一年的总营业额,这是回归任务。
;;;(8) 描述和可视化(Description and Visualization)
描述和可视化是对数据挖掘结果的表示方式。一般通过可视化工具进行数据的展现、分析、钻取,将数据挖掘的分析结果更形象,深刻地展现出来。
;1.2.3 数据挖掘过程;知识发现(Knowledge Discovery in Database, KDD);知识发现的主要步骤: ;1.2.4 数据挖掘对象;1.2.5数据挖掘工具及其选择挖掘软件;1.3 数据挖掘应用;1.3 数据挖掘应用;1.3.1 数据挖掘在计算机领域中的应用;;;(3) 自动问答系统
自动问答系统Q/A(automatic Question Answering) 采用自然语言处理技术,一方面完成对用户疑问的理解;另一方面完成正确答案的生成。这些研究涉及到计算语言学、信息科学和人工智能学,是计算机应用研究的热点之一,其核心是自然语言理解技术。
如:Lexxe
wolfrram
Baidu知道,维基百科(Wikipedia)等利用群体智慧来部分实现自动问答的功能。
注:在2011年2月14日至16日举行的有史以来首次广义性人机智力大赛中,IBM超级电脑“沃森”(Watson)击败美国颇受欢迎的智力竞赛节目Jeopardy中的两位最成功的参赛者肯-詹宁斯(Ken Jennings)和布拉德-鲁特(Brad Rutter)。
智能客服 ;;1.3.2 数据挖掘在商业领域中的应用;1.3.3 ??它领域中的应用;数据挖掘技术的价值和前景。
在对产业界具有深远影响的大型IT公司里,数据挖掘技术发挥着重要作用,如Microsoft、Google、Yahoo、Baidu、Tencent等国内外著名IT公司
包括IBM在内的世界上主要数据库厂商,纷纷在数据挖掘领域加大投入,把数据挖掘功能集成到其产品中,以提高产品的竞争力。2009年10月2日,IBM 成功收购了SPSS Inc。 ;数据挖掘技术具有巨大价值和光明前景。有关学者撰文指出:门户解决了Web0.5时代的信息匮乏;Google解决了Web1.0时代的信息泛滥;Fackbook解决了Web2.0时代的社交需求;未来是谁的十年?展望Web3.0时代,当高效的社交网络趋于信息量爆炸,我们庞大的社交关系也需要一个“Google”来处理,那就是下一个十年,数据挖掘的十年,网络智能的十年。
2012年10月,《哈佛商业评论》公开报道“数据科学家是21世纪最性感的职业”。截止2021年6月,全国有674所高校开设有“数据科学与大数据
您可能关注的文档
- UI界面设计(第3版)全套PPT课件.pptx
- 信息技术基础(WPS Office 2019)全套PPT课件.pptx
- 室内装饰工程概预算与招投标报价-全套PPT课件.pptx
- 中考物理夯实基础过教材第十五章电功率第一节电能电功率焦耳定律复习市赛课公开课一等奖省名师优质课获奖P.pptx
- 中考物理系统复习成绩基石第六章质量与密度市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 中考化学总复习系统复习成绩基石主题二碳和碳的化合物市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 中考物理考点复习欧姆定律市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 中考化学第一部分中考考点复习第一单元我们身边的化学物质第2讲自然界的水资料市赛课公开课一等奖省名师优.pptx
- 中考语文系统复习成绩基石八上文言文市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 中考地理专题冲刺三等高线的判读市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 高考生物复习第一部分第八单元生命活动的调节第28讲动物生命活动调节的综合分析提升课全国公开课一等奖百.pptx
- 高考政治第总复习第3单元中华文化与民族精神第7课我们的民族精神市赛课公开课一等奖省名师优质课获奖PP.pptx
- 高考数学复习第八章第六节双曲线理市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 高考复习二轮冲刺化学元素复习铁省公开课金奖全国赛课一等奖微课获奖PPT课件.pptx
- 高考数学复习第四章三角函数解三角形第一节任意角和弧度制任意角的三角函数文市赛课公开课一等奖省名师优质.pptx
- 高考物理复习实验8测定金属的电阻率同时练习使用螺旋测微器市赛课公开课一等奖省名师优质课获奖PPT课件.pptx
- 10-第六节曲面与曲线市公开课特等奖市赛课微课一等奖PPT课件.pptx
- 2023年二级建造师考试建筑工程管理与实务复习.doc
- “印象·温莎”商业营销推广143422066ppt课件.pptx
- 市场营销学的核心理念培训课件.ppt
文档评论(0)