基于主成分分析的我国各地区文化事业机构数研究.docxVIP

基于主成分分析的我国各地区文化事业机构数研究.docx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
得分 基于主成分分析的我国各地区文化事业机构数研究 蔡俊 信息与计算科学07级2班 2010年12月17日 基于主成分分析的我国各地区文化事业机构数研究 蔡俊 (信息与计算科学07级2班0711010202) 摘要 文化事业机构指从事专业文化工作和为专业文化工作服务的独立建制的单位。不包括这些单位另外举办独 立核算的其他机构和各部门的业余文化组织。该指标主要反映文化事业机构发展规模水平,列举了31个城市的8 个主要文化事业机构,并通过主成分分析对这些指标进行了分析,提出了能够反映我国文化事业机构发展状况的3 个主成分,为改善我国文化水平提供帮助。 关键词 主成分分析文化事业机构实证分析 1 主成分分析内容提要 1.1. 主成份分析的基本概念 1.1.1. 主成分分析(Principal Component Analysis,PCA) 主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指 标(变量)。主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分 分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用: a 、了解数据(screening the data);b、和 cluster analysis 一起使用; c 、和判别分析一起使用,比如当 变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化 (reduce dimensionality);d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指 数),还可以用来处理共线性。 1.1.2. 主成分分析的数学模型 设原始样本点×变量型数据资料阵 X= ( x)., △(X?,X?,,x,) 其中 X,=(x?,x?, …,xm),i=1,2, …,p 用数据矩阵X 的P 个向量(即P 个指标向量) X?,X?, …,X P 作线性组合(即综合指标向 量 ) F?=a?X?+a?;X?+ …+aXp,i=1,2, …,p 满足条件 (i) cov(F,F)=0,i≠j,i,j=1,2, …,P; (2) var(F)>var(F2)> …>var(F,) (3) a2+a?2+ …+am2=1,i=1,2, …,p 1.1.3. 主成分的几何解释 以最简单的二元正态变量来说明主成分的几何意义。 设X=(X,X?)~N?(u,Z), 其π个样本点o=(x?,x?),i=1,2. …,”的散布大致为一个 椭圆, 在坐标系X?OX2 中,n 个点的坐标X?和X?呈现某种线性相关性。在平面上作一个坐标变 换,即按逆时针方向旋转0角度,若在椭圆长轴方向取坐标轴F, 在短轴方向取F2, 根据旋轴变 换公式新老坐标之间有关系 易见,n个点在新坐标系FOF2下的坐标F 和F2几乎不相关,它们在F 轴上的方差达到最大 (F 轴方向能使信息的损失降低到最小,即在此方向上所含的有关n个样品间差异的信息是最多 的),称F 为第一主成分。而在与F 轴正交的F 轴上,有着较小的方差,称F2为第二主成分。 若欲将二维空间(X?,X?)的点投影到某个一维方向,由于平面上的n个点的方差大部分都归结 在Fi轴上,而F2轴上的方差很小,所以这个一维方向应选第一主成分F, 如此用一维空间代替二 维空间所造成的信息损失较小。这种系统结构的简化方法,体现了抓事物主要矛盾的哲学思维]。 1.2. 关于主成分性质的数学定理 【定理】 设p 个 n 维随机向量X?,X?, …,Xp协方差矩阵为 ∑, ∑ 的特征值为 λ≥A?≥ …≥2,>0, 相应的单位特征向量为“,M2, …,, 令 F?=a?X?+a?X?+ …+aXp,i=1,2, …,P 记a,=(ay,a?, · …,am)′, 则 (1)a,=u,i=1,2, …,P; (2) var(F)=λ,i=1,2, …,P; (3)cov(F,F)=0,i≠j,i,j=1,2, …,P. 这个定理表明:X?,X?, …,Xp的主成分就是以协方差矩阵 ∑ 的单位特征向量为系数的线性组 合,主成分方差为 ∑ 的特征值,主成分之间互不相关,主成分的名次是按特征根取值大小的顺序 排列的。 【推论1】主成分F,F? ,…,Fp的的协差阵为对角阵A=diag(an,O2,…,Cm) 【推论2】 主成分的总方差 【推论3】 原始变量与主成分之间的相关系数 [2] 1.3. 应用中主成份的选取与使用条件 1.3.1. 定义- 方差贡献率 称 为第k 个主成分的方差贡献率,称 为前k 个主成分的累积方差贡献率。 在解决实际问题时, 一般不是取P 个主成分,而是根据累计贡献率的大小取前k 个。如

文档评论(0)

137****8896 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

认证主体赵**

1亿VIP精品文档

相关文档

相关课程推荐