7.第八章节数据挖掘模型评估.ppt

下载文档 降价啦

1
0
约5.68千字
约 42页
2017-09-13 发布于浙江
举报
版权申诉
保障服务

7.第八章节数据挖掘模型评估.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

7.第八章节数据挖掘模型评估

Response rate =预测会违约且实际会违约/所有预测会违约 =66/(66+28)=70.21% 预测模型回应率的高低须和总体回应率比较：总体response rate =总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1% * * 预测值 1（实际“会违约”） 0（实际“不会违约”） 1 66 28 0 185 721 ?回应率(response rate)：在预测的名单中找出有多少小概率事件（在预测违约的名单中，真正违约的所占比例是多少）。可以发现，原始回应率为25.1%，运用数据挖掘模型提升为70.21%，因此回应率提升了2.8倍。回应率讲究的是模型“宁缺勿滥”的能力。回应率高并不代表一定是好模型，因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客，结果回应率是100%，但是却漏掉了大多数会买产品的顾客，因此，还得参考“反查率”这个指标。 * * Recall =预测会违约且实际违约/所有实际会违约 =66/(66+185)=26.29% 它的意义在于：预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高，表明犯第二类错误的可能性越小，那么模型越好。 * * 预测值 1（实际“会违约”） 0（实际“不会违约”） 1 66 28 0 185 721 ?反查(recall)：预测出来的小概率事件占总体小概率事件的比例是多少。完美的预测模型反查率是100%，但是反查率与回应率是互相矛盾的。 recall=67/(67+184)66/(66+185) Response rate=67/(67+38)66/(66+28) * * 预测值 1（实际“会违约”） 0（实际“不会违约”） 1 67 38 0 184 711 预测值 1（实际值） 0（实际值） 1 66 28 0 185 721 Range reduce =预测会违约/总体=(66+28)/(66+28+721+185) =9.4% 间距缩减代表的是根据模型执行活动时的成本，当如果名单量没有有效缩减时，执行的总成本会很高，因此间距缩减越低越好。 * * 预测值 1（实际值） 0（实际值） 1 66 28 0 185 721 ?间距缩减(range reduce)：通过DM模型来找出小概率事件时，名单缩小了多少。从上述三个指标来看，这个预测模型可以让名单缩减至原来的9.4%，但是却只包含了总体26.29%会违约的人（反查率），让回应率提升了原先的2.8倍。 * * 很少有模型同时能够满足上述三个指标的要求，当回应率很高时，一定是筛选高概率族群，因此名单间距缩减一定会变低，但是会遗漏掉低概率族群必定会造成反查降低，所以若只看分类矩阵，找不出最好的模型。分类矩阵是根据一个概率阀值将顾客分作两种情况，过度简化了实际的结果。因为所有的演算法除了预测结果之外，同时还会提供概率值作为排序的基准。 * * * * 横轴百分比代表根据DM模型根据概率由高到低排序后的名单占总体百分比。纵轴则是在这批名单中小概率事件的人数占总体小概率事件人数的百分比。 45度线表示随机的状态，代表当筛选一半的名单去检查违约状况时，刚好会包含全体名单一半的违约户数量。正常模型的增益图要比45度线向第二象限弯曲，越向上弯曲表示模型效果越好。理想模型线：在增益图的最上方两段直线所构成的，表示完美预测的结果。 AUC(area under curve)：模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。 AUC越接近于1，表示模型的预测能力越高。吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积基尼系数？吉尼系数越接近1，表示模型的预测能力越高。 * * AUC Gini 模型预测能力 =50% 0 无预测能力 50%-70% 0-0.4 极差 70%-80% 0.4-0.6 可以接受 80%-90% 0.6-0.8 非常良好 90%-100% 0.8-1 过度完美 * * 从收益的角度来看，DM有两种类型：回应模型（直效行销）：预测的小概率事件能够为企业带来大量获利。损失模型：预测的小概率事件为企业带来大量损失。 * * 上述两个模型都没有包含整个公司的固定成本，不管成功案例多、少，都必须付出的成本。收益图:首先在成本获利参数的输入对话框中，要输入：总体（？）固定成本（？）单位成本（？）每个收益（？）：每个小概率事件发生时所得到的获利或是减少的损失。 * * 假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是250元；而每成功销售一通的话第一年可以为公司净赚1000元。所以每打出去一通电话：销售成功：1000—250=收益750（即正确

您可能关注的文档

文档评论（0）

ctuorn0371 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

7.第八章节数据挖掘模型评估.ppt