武漢大學醫(yī)學統(tǒng)計學串講講義演示文檔
《武漢大學醫(yī)學統(tǒng)計學串講講義演示文檔》由會員分享,可在線閱讀,更多相關《武漢大學醫(yī)學統(tǒng)計學串講講義演示文檔(540頁珍藏版)》請在裝配圖網上搜索。
.,醫(yī)學統(tǒng)計學武漢大學,.,第一部分 緒 論,.,,,,,,一、什么是統(tǒng)計學? What’s statistics?,是一門關于收集、整理和分析(統(tǒng)計)數據的科學。 醫(yī)學統(tǒng)計學是統(tǒng)計學方法在醫(yī)學中的運用。 醫(yī)學研究中觀測結果多為隨機事件,通過統(tǒng)計學方法可以揭示其內在規(guī)律。,.,(1)設計: design (2)收集資料 collection of data (3)整理資料 sorting data (4)分析資料 analysis of data,二、統(tǒng)計工作的基本步驟,1)專業(yè)設計 2)統(tǒng)計設計,1)統(tǒng)計報表 2)醫(yī)療衛(wèi)生工作記錄 3)專題調查和實驗,1)對數據檢查、核對 2)按分析要求分組、匯總,1)統(tǒng)計描述 2)統(tǒng)計推斷,.,用定量方法測定得到,有大小之分,有度量衡單位。,三、 統(tǒng)計資料類型,(一)計量資料 measurement data,.,將觀察單位按屬性或類型分組計數所得的資料。 分為:1、二項分類資料; 2、多項分類資料。,(二)計數資料 enumeration count data,.,.,(三)等級資料 ranked ordinal data,將觀察單位按某屬性不同程度分組計數所得的資料。,.,例:測得一群人Hb值(g/dL),此資料為 計量資料 ; 按正常和異常分為兩組,此時資料為 計數資料 ; 按量的多少分為: 16 (Hb增高)。此時資料為 等級資料 。,資料間的相互轉化,.,四、統(tǒng)計學的基本概念,(一)同質與變異,同質(homogeneity) 指各觀察指標受相同因素影響的部分。,變異(variation) 在同質的基礎上個體間的差異。,.,例某地某年用隨機抽樣方法檢查了140名健康成年男子的紅細胞數(1012/L),檢測結果如下表:,觀察指標的同質部分:“某地某年健康成年男子” 觀察指標的變異部分:各個體間紅細胞數間的差異,.,醫(yī)學統(tǒng)計學的基本概念,(二)總體與樣本(population & sample),總體:是根據研究目的所確定的同質觀察單位(某種變量值)的全體。 1)有限總體(有時間、空間限制) 例研究2008年溫州市肝癌死亡率。 2)無限總體 例研究某藥對高血壓病的療效。 樣本:從總體中隨機抽取一部分個體所組成的集合。,.,醫(yī)學統(tǒng)計學的基本概念,(三)隨機抽樣,1.單純隨機抽樣 2.系統(tǒng)(機械)隨機抽樣 3.整群隨機抽樣 4.分層隨機抽樣,從總體中隨機抽取部分個體的過程。(總體中每一個觀察單位均有同等的機會被抽取到) 隨機抽樣是樣本客觀反映總體情況的前提。 隨機抽樣方法:,.,單純隨機抽樣,即先將調查總體的全部觀察單位編號,再隨機抽取部分觀察單位組成樣本。,例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按單純隨機抽樣法,抽取一例數為100的樣本。,.,系統(tǒng)隨機抽樣,又稱等距抽樣或機械抽樣,即先將總體的觀察單位按某一順序號等分成n個部分,再從第一部分隨機抽第k號觀察單位,依次用相等間隔,機械地從每一部分各抽一個觀察單位組成樣本。,例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按系統(tǒng)抽樣法,抽取一例數為100的樣本。,.,整群隨機抽樣,先將總體劃分為n個群,每個群包括若干觀察單位,再隨機抽取k個群,并將被抽取的各個群的全部觀察單位組成樣本。,例:某校有80個班級,各班學生50人,現用錫克氏試驗調查該校學生白喉易感率,隨機抽查了8個班的全部學生。,.,分層隨機抽樣,按有關影響因素把觀察對象分成若干層次,然后將同一層次的觀察對象進行隨機抽取。,例:欲了解某地人群HBsAg陽性率情況,按年齡段、職業(yè)、性別等因素分層后進行抽樣。,.,醫(yī)學統(tǒng)計學的基本概念,(四)誤差 主要有:粗差、系統(tǒng)誤差、隨機誤差(如測量誤差、 抽樣誤差等),問題:某中醫(yī)師對某方劑進行改良,改良后的方劑治療某病患者30例,有效率為80%,原方劑治療30例,有效率為60%,問兩者有效率有無差別?,抽樣誤差:抽樣引起的總體參數與樣本統(tǒng)計量之間sampling error 的差別。,.,醫(yī)學統(tǒng)計學的基本概念,(五)參數與統(tǒng)計量 (parameter & statistic) 參數: 統(tǒng)計量: 檢驗統(tǒng)計量:,總體的特征量,如總體均數、總體標準差等。 樣本的統(tǒng)計指標如樣本均數、標準差等。 用于統(tǒng)計檢驗的樣本指標。 如 t、u、x2、F 等,.,均表示某事件發(fā)生可能性大小的量。,(六)頻率和概率,但:頻率為變量,fn(A) =m/n 概率P(A)為常數。 若n足夠大, fn(A) ≈P(A),?小概率事件 P(A) ? 0.05 “小概率事件一次是不太可能發(fā)生的”,醫(yī)學統(tǒng)計學的基本概念,第二部分 計量資料的統(tǒng)計描述,.,第一節(jié) 計量資料的統(tǒng)計描述,一、計量資料的頻數表 二、集中趨勢的描述 三、離散程度的描述,.,,1、頻數表的編制 2、頻數分布的特征 3、頻數分布的類型 4、頻數表的用途,,一、計量資料的頻數表,.,例某地用隨機抽樣方法檢查了140名成年男子的紅細胞數,檢測結果如下表:,,.,(1)求全距或極差(R),(2)定組段和組距(i),1. 頻數表的編制,.,(3)列出頻數表,某地140名正常男子紅細胞數的頻數表,.,2. 頻數分布的特征,(1)集中趨勢 (2)離散趨勢,.,(1)對稱分布 其中一種常見的類型為正態(tài)分布. (2)偏態(tài)分布 有正偏態(tài)、負偏態(tài)之分.,3. 頻數分布的類型,.,4. 頻數表的用途 (1)了解資料的分布類型. (2)發(fā)現異常值. (3)在頻數表的基礎上計算有關指標。,.,1、算術均數 μ ,X 2、幾何均數 G 3、中位數 M,,二、集中趨勢的描述,.,概念: 數值的平均. 計算: 1)直接法:,例2.1 求某地140名正常成年男子紅細胞數均值為,,,1. 均數(mean) μ ,X,2)加權法:,,應用: 對稱分布,尤其是正態(tài)分布.,.,概念:指一組數據的倍數平均。 計算:(1)直接法:,2. 幾何均數 ( geometric mean, G ),,.,例:5份血清的抗體效價為1:10,1:100,1:1000,1:10000,1:100000,求其平均效價。,或者: 1:10,1:100,1:1000,1:10000,1:100000的指數部分為:-1,-2,-3,-4,-5,其平均值為-3,故G =10-3=1:1000,.,(2)加權法:,.,何謂對數正態(tài)分布? 某資料由變量值 X1,X2,…… Xn組成,已知其分布呈偏態(tài)。若每個變量值取對數,如Y1=lgX1,Y2=lgX2,…… Yn=lgXn,且Y1,Y2,…… Yn呈正態(tài)分布。 此時,,將對數值還原為原始數值,則:,?應用: (1)變量值呈倍數關系 (2)對數正態(tài)分布,.,3. 中位數 M,概念:是一組由小到大按順序排列的觀察 值中位次居中的數值。 計算:(1)直接法: n為奇數時,,n為偶數時,,某病患者9人發(fā)病潛伏期為2,3,3,3,4,5,6,9,16天, 求中位數。 若在第20天又發(fā)現1例患者,則其中位數為:,3. 中位數 (median M),.,利用百分位數計算公式進行計算. 百分位數(PX)是一種位置指標, 。中位數是一個特定的百分位數,即M= P50 。,(2)頻數表法:,.,百分位數計算公式:,.,百分位數計算公式:,M,.,M,.,.,.,.,應用: (1)偏態(tài)分布資料; (2)資料分布一端或兩端有未確定值。,.,.,三、離散程度的描述,例: 三組同性別、同年齡兒童的體重(Kg)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數:X=30 Kg 乙組:24 27 30 33 36 均數:X=30 Kg 丙組:26 29 30 31 34 均數:X=30 Kg,,,,,三、離散趨勢的描述,.,描述離散程度的常用指標,1、全距(極差) (R) 2、四分位數間距(QR) 3、方差(?2 S2)和 標準差(?、S) 4、變異系數 (CV),.,反映一組同質觀察值個體差異的范圍。 R甲=8; R乙=12; R丙=8。 缺點(1)不能反映組內其它觀察值的變異度。 (2)樣本含量越大,則全距可能也越大。,1. 全距(極差),.,即P75-P25 四分位數可看作是一組同質觀察值居中的50%變量值的變異范圍。,2. 四分位數間距(quartile range, QR),.,不受極值影響,較穩(wěn)定。,與全距比較有何優(yōu)點?,應用: (1)偏態(tài)分布; (2)資料一端或兩端有未確定值。,.,.,變量值的離散程度可看作是各個變量值距離中心點(均數)的遠近問題。 用算式表示: ??x??? 但: ??x???=0 則求: ??x???2 (離均差平方和) ??x???2 大小與變異度有關外,還與變量值個數(N)有關。 故:,3. 方差(?2 S2)和 標準差(?、S) (variance & standard deviation),.,為了用原單位表示,開方即:,標準差或方差越大,說明個體差異越大,則均數的代表性越差。,.,實際工作中經常得到的是樣本資料,總體均數?是不知道的,只能用樣本均數來估計總體均數,這樣: 用 ??x?x?2 代替 ??x???2 n 代替 N 但這樣算得結果常比真實?低。,因此,統(tǒng)計學家提出用 n - 1 來校正。,,.,即:樣本標準差(S),S2 稱為 —— 樣本方差,.,,式中n-1稱為自由度,用希臘字母 ? (ju:psilen)表示。 自由度的概念: 是指隨機變量能自由取值的個數。 例:X+Y+Z=10 ? = 2 又例:,當樣本均數一定時,隨機變量可以自由取值的變量值個數只能是n - 1 個。,.,計算: 1)不分組資料:,例: 三組同性別、同年齡兒童的體重(Kg)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數:X=30 Kg 乙組:24 27 30 33 36 均數:X=30 Kg 丙組:26 29 30 31 34 均數:X=30 Kg,計算得:S甲=3.16,S乙=4.74,S丙=2.92,,,,.,2)分組資料:,計算得:S = 0.38(×1012/ L),.,?應用: 對稱分布,尤其是正態(tài)分布,.,,?應用:(1)比較單位不同的幾組資料的變異程度 ?。?)比較均數相差懸殊的幾組資料的變異程度,4. 變異系數(CV),.,例2.9 某地調查110名18歲男大學生,其身高均數為172.73cm,標準差為4.09cm;其體重均數為55.04kg,標準差為4.10kg,試比較兩者變異度。,,某衛(wèi)生防疫站對30名麻疹易感兒童經氣溶膠免疫一個月后,測得其血凝抑制抗體滴度資料如下,試計算其平均滴度 抗體滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 例 數 2 6 5 10 4 2 1,.,某市1974年為了解該地居民發(fā)汞的基礎水平, 為汞污染的環(huán)境監(jiān)測積累資料, 調查了留住該市一年以上, 無明顯肝、腎疾病,無汞作業(yè)接觸史的居民238 人的發(fā)汞含量如下:,用何種指標說明本資料的集中位置和變異程度較好?并計算之;,.,某檢驗師測定了10名正常成年鋼鐵工人的血紅蛋白值(g/dl)和紅細胞數(萬/mm3)如下,試比較這兩個檢測項目的結果哪個變異性大?,血紅蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0 血細胞數(萬/mm3) 510 515 517 518 520 522 524 525 528 530,.,第二部分 數值變量的描述性統(tǒng)計,統(tǒng)計圖表; 統(tǒng)計指標。,.,第一節(jié) 頻數分布一. 編制頻數表的步驟,求極差 R=84-57cm=27(次/分) 劃分組段 確定組數:較大樣本時,一般取10組左右。 確定組距:極差/組數=27/10=2.7≈3(次/分) 確定各組段的上下限:上限=下限+組距 統(tǒng)計各組段內的數據頻數,編制頻數表,.,表2.1 130名健康成年男子脈搏(次/分)的頻數分布表,,脈搏組段 (1),頻數 (2),頻率(%) (3),累計頻數 (4),累計頻率(%) (5),,56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85 合計,,2 5 12 15 25 26 19 15 10 1 130,1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77,2 7 19 34 59 85 104 119 129 130,1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00,.,二. 頻數表的用途,可以揭示資料的分布類型和分布特征,以便于選用相應的統(tǒng)計分析方法。 便于進一步計算指標和統(tǒng)計處理。 便于發(fā)現某些特大或特小的可疑值。,.,第二節(jié) 集中趨勢的描述,三種平均數 算術均數 幾何均數 中位數。,.,(一)算術均數(x),簡稱均數,適合于表達呈正態(tài)分布資料的平均水平。 直接法: X=,,,X1+···+Xn,,n,=,?X,,n,例2-2:X,,=,81+70+66+···+69,,13,=71.69(次/分),.,,加權法 X=,,?fX,,?f,例: X=,,57?2+60?5+63?12+···+84 ?1,,130,=71.12(次/分),.,(二)幾何均數(G),適用于原始數據分布不對稱,但經對數轉換后呈對稱分布的資料。 G= n X1X2···Xn G=lg-1( ),,,,,?lgX,,n,G=lg-1( ),?f lgX,,?f,.,例:40名麻疹易感兒童接種麻疹疫苗后一個月,測其血凝抑制抗體滴度,結果如表所示,求幾何均數。,,抗體滴度,人數 f,滴度倒數 X,lgX,,1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512,1 4 5 8 11 6 4 1,4 8 16 32 64 128 256 512,0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093,,G′=lg-1(,,?f lgX,,n,)=lg-1(1 ?0.6021+4 ?0.9031+ ··· +1 ?2.7093),,40,.,=lg-1(,,40,67.1282,),=48,G=1:48,.,(三)中位數(M),適合于表達偏態(tài)資料、或分布不明的資料的平均水平,尤其適合于表達只知數據的個數、但部分較大或較小數據的具體數值未準確知道的資料的平均水平。,.,對于原始數據和頻數分布表資料,分別用下列兩式計算中位數。,M=,,(X n/2+X(n/2+1) )/2,(n為偶數),X(n+1)/2,(n為奇數),M = LM +,iM,,fM,(,n,,2,?fL ),,其中, LM :中位數所在組下限; iM :中位數所在組的組距; fM :中位數所在組的頻數; ?fL :中位數所在組前一組的累計頻數。,.,例2-4 表2.3 107正常人的尿鉛含量(?g/L)的中位數計算表,,含量( ?g/L ) (1),頻數f (2),累計頻數 ?f (3),累計頻率 % (4),,0~ 4~ 8~ 12~ 16~ 20~ 24~ 28~ 合計,14 22 29 18 15 6 1 2 107,14 36 65 83 98 104 105 107,13.08 33.64 60.75 77.57 91.59 97.20 98.13 100.00,,,M=8+ (107/2 - 36) = 10.41(?g/L),4,,29,.,第三節(jié) 離散程度的描述,例:設有三組同年齡、同性別兒童體重(kg)數據如下: 甲組 26 28 30 32 34 乙組 24 27 30 33 36 丙組 26 29 30 31 34,.,描述離散程度的指標: 極差、四分位數間距、方差、標準差、變異系數。,.,一. 極差(全距,R),為一組同質觀察值中最大值與最小值之差。 甲組 R=34-26=8 乙組 R=36-24=12 甲組數據分布較乙組集中。,.,優(yōu)點:計算簡單 缺點: 1.沒有充分利用樣本信息,只考慮最大值與最小值之差異,不能反映組內其它觀察值的變異度。 2.樣本含量越大,抽到較大或較小觀察值的可能性越大,則極差可能越大,因此,樣本含量懸殊時不宜用極差比較分布的離散度。 所以,一般不用極差來反映離散程度。,.,二. 四分位數間距(Q) 1.分位數的概念 分位數是一種位置指標,一個特定的分位數將任何一個頻數曲線下的面積分為兩部分。 第1四分位數記作Q1,第2、第3四分位數,分別記作Q2、Q3;第1百分位數,記作P1。同理,還有第2、第3、 ···、第99百分位數,分別記作P2、P3、 ···、P99。 顯然,Q1=P25、Q2=P50=M、Q3=P75,.,2.百分位數的計算公式 對連續(xù)型變量頻數表資料,按下式計算第X百分位數PX: PX=LX+,iX,,fX,(nX%,,?fL ),,其中, LX :第X百分位數所在組下限; iX :第X百分位數所在組的組距; fX :第X百分位數所在組的頻數; ?fL :第X百分位數所在組前一組的累計頻數。,.,例 某地200例正常成人血鉛含量的頻數分布如表所示,請計算出血鉛含量的95%正常值范圍。 200例正常成人血鉛含量的頻數分布表,,血鉛含量 頻數 累計頻數 (?mol/L) (1) (2),,0~ 0.24~ 0.48~ 0.72~ 0.97~ 1.21~ 1.45~ 1.69~ 1.93~ 2.17~ 2.42~ 2.66~ 2.90~3.14,6 48 43 36 28 13 14 4 4 1 2 0 1,6 54 97 133 161 174 188 192 196 197 199 199 200,,解:即求P95。 nX%=200×95%=190 P95 =1.69+ (190-188),0.24,,4,=1.81 (?mol/L),故某地正常人血鉛含量95%的單側正常值范圍的上限為 1.81 (?mol/L)。,.,,3.四分位數間距(Q) Q=P75-P25 Q=QU-QL 優(yōu)缺點:用四分位數間距作為描述數據分布離散程度的指標,比極差穩(wěn)定,但仍未考慮到每個數據的大小,常用于描述偏態(tài)頻數分布以及分布的一端或兩端無確切數值資料的離散程度。,.,?2=,?(X-?)2,,N,S2=,?(X-X)2,,,n - 1,n - 1稱為自由度,三.方差,.,? =,?(X-?)2,,N,,,,S=,?(X-X)2,,,n - 1,,,,直接法; s=,?X2-( ?X)2/n,由于?(X-X)2 =?X2-( ?X)2/n,所以,,n - 1,,,,加權法: s= ?fX2-( ?fX)2/?f,,?f - 1,,,,,,四.標準差,.,五. 變異系數(CV),CV=,S,,X,,?100%,1.用于比較度量衡單位不同的多組資料的變異度。 2.比較均數相差懸殊的多組資料的變異度。,.,一. 正態(tài)分布的概念和特征,正態(tài)分布的圖形:正態(tài)分布的密度函數: f(X)=,1,,,? 2?,,,,e,-(X-?)2,,2 ?2,-?- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 武漢大學 醫(yī)學 統(tǒng)計學 串講 講義 演示 文檔
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://appdesigncorp.com/p-359924.html