数据处理方法.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- . z. 回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进展中心化〔Zero-centered或者Mean-subtraction〕处理和标准化〔Standardization或Normalization〕处理。 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态布的数据。计算过程由下式表示: 下面解释一下为什么需要使用这些数据预处理步骤。在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比方在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,则他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有一样的尺度〔Scale〕。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。 简言之,当原始数据不同维度上的特征的尺度〔单位〕不一致时,需要标准化步骤对数据进展预处理。 以下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的〔红色线段的长度表示尺度〕。 其实,在不同的问题中,中心化和标准化有着不同的意义, 比方在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。 另外,对于主成分分析〔PCA〕问题,也需要对数据进展中心化和标准化等预处理步骤 二、利用E*cel对数据进展标准化处理 在使用各种方法进展综合评价时,首先要对原始数据进展标准化和无量纲化处理,本例分享利用office的E*cel对数据进展标准化处理,使用的是极值处理法。1. 该种方法的算法即标准化公式如附图所示,注:对于指标值恒定的情况不适用。 这里以我国2007年中部地区6省的税收数据为例进展计算。易知,附图中的税收指标为极大型数据。所以采用的公式为*=〔*-min〕/(Ma*-min),这样标准化后的数据最大值为1,最小值为0 使用Ma*,Min函数分别求出数据矩阵中每列中的最大值和最小值。 ?Ma* ?146.1136 ?184.2366 ?102.9228 ?30.2578 ?25.8857 ?42.8733 ?15.656 ?7.8004 ?18.2303 ?14.9975 ?1.9689 ?17.1054 ?35.0698 ?3.3696 ?Min ?53.0534 ?95.0788 ?37.8106 ?14.8271 ?2.8286 ?17.0098 ?5.7824 ?3.1799 ?4.1246 ?1.1311 ?0.3081 ?1.7933 ?5.5753 ?0.0874 再求出极值处理法的分母即最大值与最小值的差值 ?ma*-min ?93.0602 ?89.1578 ?65.1122 ?15.4307 ?23.0571 ?25.8635 ?9.8736 ?4.6205 ?14.1057 ?13.8664 ?1.6608 ?15.3121 ?29.4945 ?3.2822 使用每列中的数值与最小值的差比上分母即可求出标准化后的数据。公式举例:值=(B6-$B$13)/$B$14。如附图所示为使用极值处理法后的前后数据比照。 一、熵shang权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的根本思路是根据指标变异性的大小来确定客观权重。 一般来说,假设*个指标的信息熵越小,说明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,*个指标的信息熵越大,说明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。 二、熵权法赋权步骤 1.数据标准化 将各个指标的数据进展标准化处理。 假设给定了k个指标,其中。假设对各指标数据标准化后的值为,则。 2.求各指标的信息熵 根据信息论**息熵的定义,一组数据的信息熵。其中,如果,则定义。 3.确定各指标权重 根据信息熵的计算公式,计算出各个指标的信息熵为。通过信息熵计算各指标的权重:。 三、熵权法赋权实例 1.背景介绍 *医院为了提高自身的护理水平,对拥有的11个科室进展了考核,考核标准包括9项整体护理,并对护理水平较好的科室进展奖励。下表是对各个科室指标考核后的评分结果。 但是由于各项护理的难易程度不同,因此需要对9项护理进展赋权,以便能够更加合理的对各个科室的护理水平进展评价。 2.熵权法进展赋权 ???????1〕数据标准化 根

文档评论(0)

hmwn621 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体王**

1亿VIP精品文档

相关文档

相关课程推荐