《比例風險模型-Cox回歸》由會員分享,可在線閱讀,更多相關(guān)《比例風險模型-Cox回歸(43頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,第十八章生存分析和,COX,回歸,上海第二醫(yī)科大學,生物統(tǒng)計教研室,第一節(jié) 基本概念,在醫(yī)學,生物學研究中,常用到生存分析(,Survival Analysis),方法,。,例如對于腫瘤等疾病的療效及預后的考核,通常不用治愈率,有效率等表示,而用將來復發(fā)或死亡的時間長短表示,也即生存期來表示。,所謂生存期(,survival time),是指從某個標準時刻(如發(fā)病,確診,開始治療或進行手術(shù)的時間)算起至死亡或復發(fā)為止的時間。,生存期不同于一般指標的二個特點:,1.有截尾數(shù)據(jù)(,censored data)
2、,隨訪中未能知道病人的確切生存時間,只知道病人的生存時間大于某時間。,(1)病人失訪或因其他原因而死亡-失訪,(2)到了研究的終止期病人尚未死亡-終訪,截尾數(shù)據(jù)可記為,t,+,如:4,+,=生存時間大于4年。,雖然,截尾數(shù)據(jù)提供的信息是不完全的,但不能刪去,因為這不僅損失了資料,而且會造成偏性。,2.生存期的資料一般不服從正態(tài)分布。,由于上述原因,常用的統(tǒng)計方法不適用,而要用特殊的統(tǒng)計方法。,生存分析是指對于生存期這一指標進行分析的一系列特殊的統(tǒng)計方法。,生存時間不一定專用于死與活的情況,生存時間(存活時間)可定義為從某種起始事件到達某終點事件所經(jīng)歷的時間跨度。例如急性白血病病人從治療開始到復
3、發(fā)為止之間的緩解期;冠心病病人在兩次發(fā)作之間的時間間隔;已作輸卵管結(jié)扎的婦女從施行輸卵管吻合手術(shù)后至受孕的時間間隔;在流行病學研究中,從開始接觸危險因素到發(fā)病所經(jīng)歷的時間等都可作為生存時間用作生存分析。,有時還收集一些有關(guān)因素(稱為自變量或協(xié)變量),以分析這些協(xié)變量是否對生存時間有影響,影響的大小,是縮短或延長生存時間。這可以通過,Cox,回歸進行分析,因此,Cox,回歸可看成帶有協(xié)變量的生存分析。,包括:,(1)開始觀察日期,終止觀察日期-生存時間,(2)結(jié)局(最終的觀察到的是死亡還是存活),死于該病-完全數(shù)據(jù),存活或死于其他原因-截尾數(shù)據(jù),每個生存期數(shù)據(jù)要用2個變量表示:觀察到的生存時間和
4、是否截尾(如:用1表示截尾,用0表示死亡;4,+,用4,1表示;4用4,0表示)。,(3)協(xié)變量-各種影響生存期長短的因素。,隨訪資料的記錄:,第二節(jié) 描述生存時間分布規(guī)律的函數(shù),一.生存率(,Survival Rate),又稱為生存概率或生存函數(shù),它表示一個病人的生存時間長于時間,t,的概率,用,S(t),表示:,s(t)=P(T,t),如5年生存率:,s(5)=P(T,5),以時間,t,為橫坐標,S(t),為縱坐標所作的曲線稱為生存率曲線,它是一條下降的曲線,下降的坡度越陡,表示生存率越低或生存時間越短,其斜率表示死亡速率。,1.2 概率密度函數(shù),(,Probability Density
5、 Function),簡稱為密度函數(shù),記為,f(t),其定義為:,f(t)=lim,(,一個病人在區(qū)間(,t,t+t),內(nèi)死亡概率/,t),它表示死亡速率的大小。如以,t,為橫坐,f(t),為縱坐標作出的曲線稱為密度曲線,由曲線上可看出不同時間的死亡速率及死亡高峰時間。縱坐標越大,其死亡速率越高,如曲線呈現(xiàn)單調(diào)下降,則死亡速率越來越小,如呈現(xiàn)峰值,則為死亡高峰。,1.3 風險函數(shù)(,Hazard Function),用,h(t),表示,其定義為:,h(t)=lim(,在時間,t,生存的病人死于區(qū)間(,t,t),的概率/,t),由于計算,h(t),時,用到了生存到時間,t,這一條件,故上式極限式
6、中分子部分是一個條件概率??蓪?h(t),稱為生存到時間,t,的病人在時間,t,的瞬時死亡率或條件死亡速率或年齡別死亡速率。當用,t,作橫坐標,h(t),為縱坐標所繪的曲線,如遞增,則表示條件死亡速率隨時間而增加,如平行于橫軸,則表示沒有隨時間而加速(或減少)死亡的情況。,風險函數(shù)的不同情況:,常數(shù),如:死于飛機失事。,下降,如:急性損傷。,上升,如:持續(xù)接觸危險因素。,澡盆樣,如:人的一生,。,生存分析目的:,(1)估計生存函數(shù)。,(2)比較各組的生存函數(shù)。,(3)研究影響生存期長短的因素。,第三節(jié) 生存率的估計方法,生存率,S(t),的估計方法有參數(shù)法和非參數(shù)法。常用非參數(shù)法,非參數(shù)法主要
7、有二個,即,乘積極限法與壽命表法,前者主要用于觀察例數(shù)較少而未分組的生存資料,后者適用于觀察例數(shù)較多而分組的資料,不同的分組壽命表法的計算結(jié)果亦會不同,當分組資料中每一個分組區(qū)間中最多只有 1個觀察值時,壽命表法的計算結(jié)果與乘積極限法完全相同。,參數(shù)法可求出一個方程表示生存函數(shù),S(t),和時間,t,的關(guān)系,畫出的生存曲線是光滑的下降曲線。,非參數(shù)法只能得到某幾個時間點上的生存函數(shù),再用直線聯(lián)起來,畫出的生存曲線是呈梯型的。,一.乘積極限法(,Product-Limit Method),簡稱為積限法或,PL,法,它是由統(tǒng)計學家,Kaplan,和,Meier,于1958年首先提出的,因此又稱為,
8、Kaplan-Meier,法,是利用條件概率及概率的乘法原理計算生存率及其標準誤的。,設(shè),S(t),表示,t,年的生存率,s(ti/ti-1),表示活過,ti-1,年又活過,ti,年的條件概率,例如,s(1),s(2),分別表示一年,二年的生存率,而,s(2/1),表示活過一年者,再活一年的條件概率,據(jù)概率的乘法定律有:,S(2)=S(1)S(2/1),一般地有,S(ti)=S(ti-1)S(ti/ti-1),例22.1 用某中藥加化療(中藥組)和化療(對照組)兩種療法治療白血病后,隨訪記錄各患者的生存時間,不帶+號者表示已死亡,即完全數(shù)據(jù),帶+號者表示尚存活,即截尾數(shù)據(jù),試作生存分析。時間單
9、位為月。,中藥組 10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24,對照組 2+,13,7+,11+,6,1,11,3,17,7,資料中藥組積限法計算生存率,時間 狀態(tài) 期初人數(shù) 死亡人數(shù) 條件生存率 累積生,di di/ni(ni-di),累積生存,ti si ni di (ni-di)/ni,存率,S(ti)ni(ni-di),率標準誤,=,2 活,4 死 15 1 0.9333 0.9333 0.004762 0.004762 0.0644,6 活,6 活,8 活,9 死 11 1 0.9090 0.8485 0.009091 0.0138
10、53 0.0999,9 活,10 死 9 1 0.8889 0.7542 0.013889 0.027742 0.1256,12 活,13 死 7 1 0.8571 0.6465 0.023810 0.051551 0.1468,18 死 6 1 0.8333 0.5387 0.033333 0.084885 0.1570,19 活,24 死 4 1 0.7500 0.4040 0.083333 0.168218 0.1657,26 死 3 1 0.6667 0.2694 0.166667 0.334885 0.1559,31 死 2 1 0.5000 0.1347 0.500000 0.83
11、4885 0.1231,43 活,二.壽命表法(,Life Table Method),適用于隨訪的病例數(shù)較多,將資料按生存期進行分組,在分組的基礎(chǔ)上計算生存率,本法也能用于不分組的資料,此時計算結(jié)果與積限法相同。,某醫(yī)院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情況如表22.2,試用壽命表法估計生存率。,表22.2 126例胃癌患者壽命表法估計生存率,時間(年)期初例數(shù) 死亡例數(shù) 失訪例數(shù) 截尾例數(shù) 有效例數(shù) 條件生存率 累積生存率,di di/ni(ni-di),累積生存,ti ni di ui wi ni S(ti/ti-1)S(ti)ni(ni-di),率標
12、準誤,=,0-126 47 4 15 116.5 0.5966 0.5966 5.80510-3 5.80510-3 0.0455,1-60 5 6 11 51.5 0.9029 0.5386 2.08810-3 7.89310-3 0.0479,2-38 2 0 15 30.5 0.9344 0.5033 2.30110-3 0.0102 0.0508,3-21 2 2 7 16.5 0.8788 0.4423 8.35910-3 0.0186 0.0602,4-10 0 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602,5-4 0 0 4 2.0 1.0000 0
13、.4423 0 0.0186 0.0602,壽命表法估計生存率步驟如下:,1.將觀察例數(shù)按時間段(年)0-,1-,2-,劃分,分別計數(shù)期初例數(shù),死亡,失訪,截尾例數(shù)列入表22.2的1-5列。事實上,從第二個時間段開始,期初人數(shù),ni,系由下式算得:,ni=ni-1-di-ui-wi,例如第二行,即時間段1-,有,n2=126-47-4-15=60,2.,計算各時間段期初實際觀察例數(shù),(亦稱有效例數(shù)),ni,ni=ni-ui/2-wi/2,上式表明該時間段期初例數(shù)中的失訪,及截尾例數(shù)只計其半時,即得有效例數(shù)。,如第一行,n1=126-4/2-15/2=116.5,3.,分別用(22.5)(22.
14、6)(22.7)式計算條件生存率,S(ti/ti-1),累積生存率,s(ti),及其標準誤。,計算結(jié)果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列的計算。,例如時間段0-中,S(ti/ti-1)=(116.5-47)/116.5=0.5966,S(ti)=10.5966=0.5966,SE(S(ti)=0.59665.80510-3=0.0455,故一年生存率的估計為0.59660.0455,同樣二年生存率的估計為0.53860.0479,由于壽命表法與積限法的累積生存率及其標準誤的計算公式完全相同,所以,當分組資料中每一個分組區(qū)間中最多只有1個觀察值時,壽命表法就是積
15、限法。,第四節(jié) 生存率的比較,當有兩個或兩個以上的生存分布時,我們常需比較它們是否來自同一生存分布,此時的假設(shè)檢驗為:,H0:,樣本所來自的總體生存分布相同。,H1:,樣本所來自的總體生存分布不相同。,可選用的檢驗方法有:,Logrank,法,廣義,Wilcoxon,法,和,Cox-Mantel,法等。當拒絕,H0,時,認為幾個生存分布不相同。,當不需要整體比較,而只要比較個別時間點上幾組生存率時可用下面方法:,(1)兩個生存率比較,生存率,S1,和,S2,,其方差為,V1,和,V2,用卡方檢驗:,2,=(,S1-S2),2,/(V1+V2),df=1,(2)兩個以上兩個生存率比較,生存率,S
16、1,S2,和,S3,,方差為,V1,V2,和,V3,用卡方檢驗:,權(quán)重,W1=1/V1,W2=1/V2,W3=1/V3,加權(quán)平均生存率:,S=(W1*S1+W2*S2+W3*S3)/(W1+W2+W3),2,=,W1*(S1-S),2,+,+,W2*(S2-S),2,+W3*(S3-S),2,df=3-1,3.1,Logrank,檢驗(,Log Rank Test),當比較的幾個樣本生存分布,全部為完全數(shù)據(jù)時,本檢驗又稱為,Savage,檢驗。,Logrank,檢驗的計算步驟如下:,1.將兩樣本的生存數(shù)據(jù)混合,由小到大排列,并給以秩次,i1,當截尾數(shù)據(jù)與完全數(shù)據(jù)數(shù)值相同時,截尾數(shù)據(jù)排列在后。并設(shè)兩樣本含量分別為,m1,m2,總例數(shù),n=m1+m2。,例22.1中藥組與對照組生存數(shù)據(jù)排列結(jié)果見表,22.3,中第1,2列。,2.列出所比較的兩組中任一個組的序號,i2(,本處選用中藥組),記入表,22.3,中第3列。,3.列出死亡例的序號,i3(,見表,22.3,中第4列)。,4.計算非截尾數(shù)據(jù)(完全數(shù)據(jù))各時間點處于危險狀態(tài)的例數(shù),r,它表示該時刻時還剩下多少例數(shù)。,r,系由與,i3,相應