徐娟-医学数据挖掘-第二章-1-预测型知识.ppt

徐娟-医学数据挖掘-第二章-1-预测型知识.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.计算所指定的组别(本例为中药组,序号为i2)的logrank变换值之和T 上式的连加系在指定的i2范围内相加。其均数与方差分别为 E(T)=m1/n ∑W V(T)=m1m2/[n(n-1)]∑(W-E(T)/m1)2 式中连加系在全部观察值上完成,m1系指所指定的组别的例数,(本例为中药组m1=16),n为总例数。 Z=[T-E(T)]/√V(T) Z服从标准正态分布,故可由Z0.05=1.96,Z0.01=2.58作出统计推断。 本例资料有T=3.822,E(T)=0.4402×10-6, V(T)=3.1755,Z=2.145,故P0.05, 拒绝H0,认为两种疗法生存分布不相同。 R实现 对所有变量画KM plot,并计算logrank p values t11 - survfit(Surv(time,censored)~type,data); plot(t11,col=c(“yellow,orange,red),xlab=Time,ylab=Estimated survival functions); legend(1300,0.8,c(type II,type III,type IV),col=c(“yellow,orange,red),lty=c(1,1,1)); survdiff(Surv(time,censored)~type,data); 性别做生存分析 挖掘预测型知识 线性回归 (Linear Regression) 一元线性回归 多元线性回归 Cox回归 (Cox Regression) logistic回归 (logistic Regression) logistic回归模型 应变量Y是一个二值变量,取值为 如果发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。 自变量X1,X2,……,Xm。 自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。 P表示在m个自变量作用下阳性结果发生的条件概率。 1-P=P(y=0|x) 为不发病概率 数据结构 概率型非线性回归模型 S-形曲线,符合流行病学对危险因素与疾病风险关系的认识 logit变换 事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。 概率P的取值范围在0~1之间,而logit(P)取值是没有界限的。 ?0(常数项):所有影响因素均为 0 时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。 ?j 的含义:某因素因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。 优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。 某影响因素的两个不同水平的优势的比值称为优势比 如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为: 优势比(odds ratio,OR) 结果 吸烟 不吸烟 合计 食管癌患者 309(a) 126(b) 435 非食管癌患者 208(c) 243(d) 451 合计 517(a+c) 369(b+d) 886 吸烟与食管癌关系的病例对照调查结果 优势比(odds ratio,OR) OR表示影响因素对事件发生的影响方向和影响能力大小。一般地, OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。 OR1表示该因素取值越大,事件发生的概率越小,又称保护因素。 OR=1表示该因素与事件的发生无关。 logistic回归的应用 流行病学危险因素分析 病例对照研究中探索疾病的发病原因; 临床试验数据分析 当评价指标为分类数据,而且有其他影响评价指标的影响因素(年龄、病情、病种等)存在时。 预测和判别 根据个体的特征,判断个体发生某事件的概率; 判断个体属于的类型。 R实现 glm(formula,family=binomial(link=logit),data=) formula 如G~X1+X2+X3 data代表数据 family是指这些数据服从什么分布 有binomaial(两项分布)、gaussian(正态分布)、gamma(伽马分布)、poisson(泊松分布) 例题 胃癌手术后预后因素分析资料共98例, 各项指标如下: NO: 例号;X1: 胃癌位置 ( 1 胃底, 2 胃体, 3 胃窦 ) X2: 胃癌大小 ( 分 0, 1, 2, 3, 4, 5 级 ) X3: 大体类型 ( 1 溃疡, 2 肿块, 3 浸润 ) X4: 组

文档评论(0)

137****7707 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档