特征提取的有监督和无监督方法.ppt

下载文档

4
0
约5.3千字
约 27页
2024-03-15 发布于四川
举报
版权申诉
保障服务

特征提取的有监督和无监督方法.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

01/特征提取02/有监督的特征提取方法03/无监督的特征提取方法04/半监督学习CONTENTS特征提取1PARTONE特征提取特征提取就是通过映射（变换）的方法，将高维的特征向量变换为低维特征向量。假设有n个原始特征：希望通过线性映射压缩为d个特征Y特征提取好的特征，特别在高维空间中的特征，很多情况下，是不容易直接由人类看出来的。那么，如何找到好的特征，就成为一个难题了。特征非常重要，如果特征选择得好的话，即使后面的分类器不是最优，依然可以得到一个不错的结果。而如果特征没选好的话，后面分类器即使再好，结果也不会太好。有监督和无监督学习方法的差异◎有监督学习：分类：K近邻、支持向量机、朴素贝叶斯、决策树、人工神经网络回归：线性回归、神经网络◎无监督学习：聚类：K-means聚类、高斯混合模型有监督和无监督学习方法的差异有标签有监督学习和无监督学习的发展历史有监督学习无监督学习有监督学习和无监督学习的发展历史有监督学习无监督学习监督学习方法2PARTONE监督学习方法有监督的过程为先通过已知的训练样本（如已知输入和对应的输出）来训练，从而得到一个最优模型，再将这个模型应用在新的数据上，映射为输出结果。再经过这样的过程后，模型就有了预知能力。监督学习方法监督学习方法监督学习方法监督学习方法监督学习方法识别准确率损失系数无监督学习方法3PARTONE半监督学习方法无监督学习方法如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入的几种不同表示（每一层代表一种表示），这些表示就是特征。*******1936年Fisher发明了线性判别分析（LDA），那个时候还没有机器学习的概念；贝叶斯分类器起步于1950年代，基于贝叶斯决策理论。在1980年之前，这些机器学习算法都是零碎化的，不成体系。从1980年开始，机器学习才真正成为一个独立的方向，从此之后，各种机器学习算法被大量提出，机器学习得到了飞速的发展。1986年诞生了用于训练多层神经网络的真正意义上的反向传播算法；1989年，LeCun设计出了第一个真正意义上的卷积神经网络，用于手写数字的识别；1990年代是机器学习百花齐放的年代。在1995年诞生了两种经典的算法SVM和AdaBoost，此后它们纵横江湖数十载，神经网络则黯然失色。聚类分析的早期研究始于60年前——K-means算法的出现，它最初在1955年由Steinhaus提出，随后StuartLloyd在1957年提出K-均值聚类算法。随后其一直受到青睐，并延伸出了凝聚分层算法（agglomerativehierarchicalalgorithm）和基于密度的空间聚类（Density-BasedSpatialClusteringofApplicationswithNoise/DBSCAN）等。主成分分析（PCA）则由卡尔·皮尔逊于1901年发明，用于分析数据及建立数理模型。1930s由哈罗德·霍特林演进并命名。这也是一种十分成熟并且常用的无监督算法。异常检测的发展历史则相对较晚一些，虽然统计界早在19世纪就已经研究了检测数据中的异常值或异常，但直到1986年，DorothyDenning教授才系统的提出了入侵检测系统（IDS）的异常检测方法。1977年诞生了EM算法，它不光被用于聚类问题，还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。*无监督学习的另一大类——一系列神经网络也可以追溯到上世纪。1949年，Hebb发明了赫布学习规则，奠定了神经网络的基石，这是最古老的也是最简单的神经元学习规则。Hinton等人在1986年通过使用输入数据作为引导来解决“没有引导的反向传播”问题而提出的模型是自动编码器最早的形式。1987年Ballard在提出了无监督自编码器模型的研究中首先研究了基于无监督学习的预训练的潜在好处。但直到本世纪初，这种思想才被广泛认可。自2000年初以来，深度学习的第一个重要成果就是使用深度置信网络来预训深层网络。***以轮式车辆和履带式车辆的震动信号识别为例****绝大多数情况下，往往只能通过试错(trail-and-error)，或者索性把所有能想到的特征都挨个试一遍。这种方法主要是依赖于经验和运气，因此受到很多人的诟病。**无监督学习是一类用于在数据中寻找模式的机器学习技术。无监督学习算法使用的输入数据都是没有标注过的，这意味着数据只给出了输入变量（自变量X）而没有给出相应的输出变量（因变量）。在无监督学习中，算法本身将发掘数据中