聚类分析实例分析题.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

酿酒葡萄的等级划分

葡萄酒的质量分类

由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。

表5:葡萄酒等级表

等级

特优

优良

及格

不及格

分数

95-100

90-94

80-89

70-79

60-69

0-59

在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。

表6:细化后的葡萄酒等级表

等级

偏优

偏优良

及格

分数

80-84

75-79

70-74

65-69

60-64

数字等级

5

4

3

2

1

通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):

表7:各支葡萄酒的等级

编号

红酒

原等级

细化等级

白酒

原等级

细化等级

1号

68.1

2

2

77.9

3

4

2号

74

3

3

75.8

3

4

3号

74.6

3

4

75.6

3

4

4号

71.2

3

3

76.9

3

4

5号

72.1

3

3

81.5

4

5

6号

66.3

2

2

75.5

3

4

7号

65.3

2

2

74.2

3

3

8号

66

2

2

72.3

3

3

9号

78.2

3

4

80.4

4

5

10号

68.8

2

2

79.8

3

4

11号

61.6

2

1

71.4

3

3

12号

68.3

2

2

72.4

3

3

13号

68.8

2

2

73.9

3

3

14号

72.6

3

3

77.1

3

4

15号

65.7

2

2

78.4

3

4

16号

69.9

2

3

67.3

2

2

17号

74.5

3

3

80.3

4

5

18号

65.4

2

2

76.7

3

4

19号

72.6

3

3

76.4

3

4

20号

75.8

3

4

76.6

3

4

21号

72.2

3

2

79.2

3

4

22号

71.6

3

3

79.4

3

4

23号

77.1

3

4

77.4

3

4

24号

71.5

3

3

76.1

3

4

25号

68.2

2

2

79.5

3

4

26号

72

3

3

74.3

3

3

27号

71.5

3

3

77

3

4

28号

79.6

3

4

经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。

考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

建立模型

在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward最小方差法,又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析,最终确定元素对象的分类问题。

建立数据阵,具体数学表示为:

?X

? 11

... X

?

1m?

?X????

?

(5.2.1)

??X

?

n1

... X ?

nm

式中,行向量X

i

?(x

i1

,...,x

im

)表示第i个样品;

列向量X

j

?(x

1j

,...,x

nj

)’,表示第j项指标。(i=1,2,…,n;j=1,2,…m)

接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用了使用最广范的方法,ward最小方差法。其中用到了类间距离来进行比较,定义为:

D ?||X

kl k

?X||2/(1/n

k

?1/n) (5.2.2)

l

Ward方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出

文档评论(0)

dqy118 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海海滋实业有限公司
IP属地上海
统一社会信用代码/组织机构代码
91310115MA7DL1JF2N

1亿VIP精品文档

相关文档