回归分析总结.doc

下载文档

199
0
约1.39万字
约 15页
2019-05-18 发布于重庆
举报
版权申诉
保障服务

回归分析总结.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

11111 .......... 回归分析应用最广泛的一种办法。但回归分析要求大样本，只有通过大量的数据才能得到量化的规律，这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几样本有较好的分布规律，而很多实际情形并非如此。例如，我国建国以来经济方面有次大起大落，难以满足样本有较规律的分布要求。因此，有了大量的数据也不一定能得到统计规律，甚至即使得到了统计规律，也并非任何情况都可以分析。另外，回归分析不能分析因素间动态的关联程度，即使是静态，其精度也不高，且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得最好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看，问题似乎已经完全解决了，还有进一步研究的必要吗? 从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。简单地说，回归分析就是对拟合问题作的统计分析。数据的标准化处理数据的中心化处理是指平移变换数据的无量纲化处理在实际问题中，不同变量的测量单位往往是不一样的。为了消除变量的量纲效应，使每个变量都具有同等的表现力，数据分析中常用的消量纲的方法，是对不同的变量进行所谓的压缩处理，即使每个变量的方差均变成 1 标准化处理所谓对数据的标准化处理，是指对数据同时进行中心化－压缩处理一元线性回归假设对于的n个值，得到的n个相应的值，确定的方法是根据最小二乘准则，要使取最小值。利用极值必要条件令，求的估计值，从而得到回归直线。只不过这个过程可以由软件通过直线拟合完成，而无须进行繁杂的运算。（1）参数的区间估计由于我们所计算出的仍然是随机变量，因此要对取值的区间进行估计，如果区间估计值是一个较短的区间表示模型精度较高。（2）对误差方差的估计设为回归函数的值，为测量值，残差平方和剩余方差（3）线性相关性的检验由于我们采用的是一元线性回归，因此，如果模型可用的话，应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察（后面的例子说明）。一个好的拟合方程，其残差总和应越小越好。残差越小，拟合值与观测值越接近，各观测点在拟合直线周围聚集的紧密程度越高，也就是说，拟合方程的能力越强。另外，当e S 越小时，还说明残差值i e 的变异程度越小。由于残差的样本均值为零，所以，其离散范围越小，拟合的模型就越为精确。例1 测得16名成年女子身高与腿长所得数据如下：表8-1 16名女子身高(cm)腿长(cm)数据 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164 首先利用命令plot(x,y,'r*')画出散点图，从图形可以看出，这些点大致分布在一条直线的左右，因此，可以考虑一元线性回归。可编制程序如下： %输入y（因变量，列向量）、x（1与自变量组成的矩阵，见下例），alpha是显著性水平（缺省时默认0.05）。输出，注意：b中元素顺序（系数）与拟合命令polyfit的输出不同，bint是的置信区间，r是残差（列向量），rint是残差的置信区间，s包含4个统计量：决定系数（相关系数为R）；F值；F(1,n-2)分布大于F值的概率p；剩余方差的值（MATLAB7.0以后版本）。也可由程序sum(r.^2)/(n-2)计算。其意义和用法如下：的值越接近1，变量的线性相关性越强，说明模型有效；如果满足，则认为变量与显著地有线性关系，其中的值可查F分布表，或直接用MATLAB命令finv(1-,1, n-2)计算得到；如果表示线性模型可用。这三个值可以相互印证。的值主要用来比较模型是否有改进，其值越小说明模型精度越高。 y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]; x=[88 85 88 91 92 93 93 95 96 98 97 96