回归分析总结.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11111 .......... 回归分析 应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有次大起大落,难以满足样本有较规律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1 标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理 一元线性回归假设对于的n个值,得到的n个相应的值,确定的方法是根据最小二乘准则,要使 取最小值。利用极值必要条件令,求的估计值,从而得到回归直线。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的运算。 (1)参数的区间估计 由于我们所计算出的仍然是随机变量,因此要对取值的区间进行估计,如果区间估计值是一个较短的区间表示模型精度较高。 (2)对误差方差的估计 设为回归函数的值,为测量值,残差平方和 剩余方差 (3)线性相关性的检验 由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察(后面的例子说明)。 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程的能力越强。 另外,当e S 越小时,还说明残差值i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 例1 测得16名成年女子身高与腿长所得数据如下: 表8-1 16名女子身高(cm)腿长(cm)数据 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 首先利用命令plot(x,y,'r*')画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下: %输入y(因变量,列向量)、x(1与自变量组成的矩阵,见下例),alpha是显著性水平(缺省时默认0.05)。输出,注意:b中元素顺序(系数)与拟合命令polyfit的输出不同,bint是的置信区间,r是残差(列向量),rint是残差的置信区间,s包含4个统计量:决定系数(相关系数为R);F值;F(1,n-2)分布大于F值的概率p;剩余方差的值(MATLAB7.0以后版本)。也可由程序sum(r.^2)/(n-2)计算。 其意义和用法如下:的值越接近1,变量的线性相关性越强,说明模型有效;如果满足,则认为变量与显著地有线性关系,其中的值可查F分布表,或直接用MATLAB命令finv(1-,1, n-2)计算得到;如果表示线性模型可用。这三个值可以相互印证。的值主要用来比较模型是否有改进,其值越小说明模型精度越高。 y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]; x=[88 85 88 91 92 93 93 95 96 98 97 96

文档评论(0)

哆啦 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档