分类算法评价标准.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分类算法评价标准

⼀、引⾔

分类算法有很多,不同分类算法⼜⽤很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要

根据特定的任务进⾏算法的选择,如何选择分类,如何评价⼀个分类算法的好坏,前⾯关于决策树的介绍,我们主要⽤的正确率

(accuracy)来评价分类算法。

正确率确实是⼀个很好很直观的评价指标,但是有时候正确率⾼并不能代表⼀个算法就好。⽐如某个地区某天地震的预测,假设我们有

⼀堆的特征作为地震分类的属性,类别只有两个:0:不发⽣地震、1:发⽣地震。⼀个不加思考的分类器,对每⼀个测试⽤例都将类别划分

为0,那那么它就可能达到99%的正确率,但真的地震来临时,这个分类器毫⽆察觉,这个分类带来的损失是巨⼤的。为什么99%的正确率

的分类器却不是我们想要的,因为这⾥数据分布不均衡,类别1的数据太少,完全错分类别1依然可以达到很⾼的正确率却忽视了我们关注的

东西。接下来详细介绍⼀下分类算法的评价指标。

⼆、评价指标

1、⼏个常⽤的术语

这⾥⾸先介绍⼏个常见的模型评价术语,现在假设我们的分类⽬标只有两类,计为正例(positive)和负例(negtive)分别是:

1)Truepositives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);

2)Falsepositives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;

3)Falsenegatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;

)Truenegatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

预测类别

YesNo总计

YesTPFNP(实际为

Yes)

NoFPTNN(实际为

实No)

总计P’(被分为Yes)N’(被分为P+N

际No)

上图是这四个术语的混淆矩阵,我只知道FP叫伪阳率,其他的怎么称呼就不详了。注意P=TP+FN表⽰实际为正例的样本个数,我曾经

误以为实际为正例的样本数应该为TP+FP,这⾥只要记住True、False描述的是分类器是否判断正确,Positive、Negative是分类器的分类

结果。如果正例计为1、负例计为-1,即positive=1、negtive=-1,⽤1表⽰True,-1表⽰False,那么实际的类标=TF*PN,TF为true或

false,PN为positive或negtive。例如Truepositives(TP)的实际类标=1*1=1为正例,Falsepositives(FP)的实际类标=(-1)*1=-1为负

例,Falsenegatives(FN)的实际类标=(-1)*(-1)=1为正例,Truenegatives(TN)的实际类标=1*(-1)=-1为负例。

2、评价指标

1)正确率(accuracy)

正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来

说,正确率越⾼,分类器越好;

2)错误率(errorrate)

错误率则与正确率相反,描述被分类器错分的⽐例,errorrate=(FP+FN)/(P+N),对某⼀个实例来说,分对与分错是互斥事件,所以

accuracy=1-errorrate;

3)灵敏度(sensitive)

sensitive=TP/P,表⽰的是所有正例中被分对的⽐例,衡量了分类器对正例的识别能⼒;

)特效度(specificity)

specificity=TN/N,表⽰的是所有负例中被分对的⽐例,衡量了分类器对负例的识别能⼒;

5)精度(precision)

精度是精确性的度量,表⽰被分为正例的⽰例中实际为正例的⽐例,precision=T

文档评论(0)

189****6678 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档