教育測量與評價的質(zhì)量特性演示課件
《教育測量與評價的質(zhì)量特性演示課件》由會員分享,可在線閱讀,更多相關(guān)《教育測量與評價的質(zhì)量特性演示課件(78頁珍藏版)》請在裝配圖網(wǎng)上搜索。
教育測量與評價的質(zhì)量特性,第一節(jié) 教育測量與評價的信度,第二節(jié) 教育測量與評價的效度,第三節(jié) 教育測量與評價中項目的難度,第三節(jié) 教育測量與評價中項目的區(qū)分度,第二章 教育測量的質(zhì)量特性,衡量教育測量的質(zhì)量,可采用四個指標: 信 度 主要對整個測驗而言。 效 度 難 度 主要對測驗項目而言。 區(qū)分度,,,一、什么是信度 ——指測量結(jié)果的穩(wěn)定性或可靠性程度。 一般地說,一個好的測量必須具有較高的信度,也就是說,一個好的測量工具,只要遵守操作規(guī)則,其結(jié)果就不應(yīng)隨工具的使用者或使用時間等方面的變化而發(fā)生較大的變化。,第一節(jié) 教育測量與評價的信度,對信度的理解,①信度指實測值(X)和真值(T)相差的程度; ②考察信度系數(shù)時,常常采用相關(guān)系數(shù)作為信度指標,測驗結(jié)果之間的相關(guān)程度越高,信度就越高。采用不同的方式計算相關(guān)系數(shù),就得到不同類型的信度系數(shù)。 ③心理測驗的信度值在0-1.00之間,當信度系數(shù)等于1.00時,表示測驗完全可靠;當信度系數(shù)等于0時,則表示測驗根本不可靠。,問題,一個能力測驗用于人才招聘,經(jīng)檢驗它的信度為0.70,如何理解這個信度系數(shù)的含義。 理解:0.70的信度系數(shù)表明,在不同的招聘候選人之間進行比較,候選人測驗分數(shù)的70%差別是由于個體之間真實的能力差異所導(dǎo)致的,而30%差別是由于隨機誤差所導(dǎo)致。,二、信度的種類及估計方法,采用不同的方法來計算相關(guān)系數(shù),就會得到不同類型的信度指標:重測信度、復(fù)本信度、分半信度、同質(zhì)性信度、評分者信度。 五種信度的含義和計算方法各異,我們在使用時要特別注意每一種信度的特定內(nèi)涵和適用范圍。,(一)重測信度 ——指同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度。 其大小等于同一組被試在兩次測驗上所得分數(shù)的相關(guān)系數(shù),一般采用皮爾遜積差相關(guān)的公式來計算。,,施測,再施測,重測信度的計算,X:第一次測驗的實得分數(shù); Y:第二次測驗的實得分數(shù); N:被試人數(shù)。,統(tǒng)計學(xué)上,我們通常把對同一組被試實施的兩次等值測驗的成績的相關(guān)系數(shù)作為這一測驗的信度。,例一,用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為X,為了考察測量結(jié)果的可靠性,于3個月后再測一次,得分記為Y,問測驗結(jié)果是否可靠? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29,在使用重測法計算信度值時,應(yīng)注意以下問題:,1、信度的取值范圍為[0,1],當信度值較大時,說明前后兩次測量結(jié)果比較一致; 2、兩次測驗之間的時間間隔要適宜。應(yīng)由測驗的性質(zhì)、測題類型、測題數(shù)量和被試特點所決定; 3、重測法適用于速度測驗而不適用于難度測驗; 4、應(yīng)注意提高被試者的積極性。,重測信度與時間間隔,兩次測量之間的間隔時間不同,重測信度也不同。 間隔時間太短,存在記憶效應(yīng);間隔時間太長,影響測量的干擾因素增加。一般而言,時間間隔越長,信度系數(shù)越低。 適宜的間隔時間因測驗性質(zhì)、被試特點而異。 如:對兒童測量時間間隔相對短一些成人測量時間間隔可以長一些。一般以2周到4周較宜,最好不超過6個月。 報告重測信度時要明確說明兩次測驗之間的時間間隔,并且,一個經(jīng)過良好評估的測驗應(yīng)當具有多個時間間隔的重測信度。,(二)復(fù)本信度,——指兩個平等的測驗測量同一批被試所得結(jié)果的一致性程度。 其大小等于同一批被試在兩個復(fù)本測驗上所得分數(shù)的相關(guān)系數(shù)。 所謂復(fù)本測驗是指在性質(zhì)、內(nèi)容、題型、題數(shù)、難度等方面都一致(或相等)的兩份或多份測驗。,,施測A型,施測B型,例二,以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避免由測驗施測順序所造成的誤差,其中5個學(xué)生先做A型測驗,休息15分鐘后,再做B型測驗;而另5個學(xué)生先做B型測驗,休息15分鐘后,再做A型測驗。10個學(xué)生A型測驗結(jié)果記為X,B型測驗結(jié)果記為Y,其測驗的復(fù)本信度如何? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12,復(fù)本信度的優(yōu)缺點表現(xiàn):,優(yōu)點: 1、測驗的兩個復(fù)本,如果在不同的時間使用,其信度既可以反映在不同時間的穩(wěn)定性,又可以反映對于不同測題的一致性; 2、兩個復(fù)本在同時使用時,可以避免再測信息的一些缺點,如首測時再測在記憶、練習(xí)、效果的影響,間隔期間獲得新知識的影響,兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響,以及為了應(yīng)付測驗所作訓(xùn)練的影響等。,復(fù)本信度缺點:,1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分相似,則變成再測形式,而過分不相似,又使等值的條件不存在; 2、兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì),這就會低估測驗的信度; 3、被試同時接受性質(zhì)相似的兩個測驗,可能減少完成測驗的積極性; 4、雖然兩個復(fù)本測驗的題目材料不同,但被試一旦掌握了解題的某一模式,就能觸類旁通,有可能失去復(fù)本的意義。,(三)同質(zhì)性信度,同質(zhì)性信度 ——也稱內(nèi)部一致性信度,指測驗內(nèi)部所有題目之間的一致性程度。 兩層意思: ①測驗所有題目測的是否為同一種心理特質(zhì); ②測驗所有題目得分之間是否具有較高的正相關(guān)。 基本假設(shè):當一個測驗具有較高的同質(zhì)性信度時,說明測驗主要測的是某一個單一心理特質(zhì),由于眾多題目測試了同一心理特質(zhì),那么實測結(jié)果就是該特質(zhì)水平的反映。,估計方法,分半信度(p49) 庫德-理查遜信度(p50) 克龍巴赫系數(shù)(α系數(shù),p52) 荷伊特信度(p52),分半信度,——將測驗分半,再求被試在每一半測驗上所得分數(shù)的相關(guān)系數(shù)。 首先根據(jù)內(nèi)容、形式、題數(shù)、平均數(shù)、標準差、難度、測題間相關(guān)以及分布形態(tài)相等的原則,將試題分成兩半,或者將從易到難排列的測題,按照測題序號,奇數(shù)測題為一組,偶數(shù)測題為一組,分成兩半; 然后計算每個被試在兩個分半測驗分數(shù)的相關(guān)系數(shù),再用斯皮爾曼—布朗公式加以校正:p49,分半信度只需要一種測驗形式,實施一次測驗,它比重測信度和復(fù)本信度的操作更簡便。 注意:當一個測驗無法分成對等的兩半時,不宜使用分半信度。,分半信度的計算方法,1、當兩個半測驗分數(shù)的方差相等時,計算兩個“半測驗”之間的皮爾遜積差相關(guān)系數(shù),然后用斯皮爾曼-布朗公式校正。 rxx=2rhh/(1+rhh) 其中rxx是整個測驗的分半信度,rhh是兩個半測驗之間的相關(guān)系數(shù)。,2、當兩個半測驗分數(shù)的方差不相等時, 采用弗朗那根公式和盧侖公式。 弗朗那根公式:rxx=2[1-(s2a+s2b)/s2x] 盧侖公式:rxx=1-s2d/s2x 其中: rxx:測驗的分半信度, s2a、s2b:兩半測驗上得分的方差, s2x:整個測驗上得分的方差, s2d:兩半測驗上得分之差的方差。,例三,對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答錯1題得0分,其測驗結(jié)果如下表,試估計該測驗的分半信度? 學(xué)生序號 題 序 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 0 0 1 0 0 3 1 0 1 0 0 0 4 1 1 0 0 1 0 5 1 0 0 1 0 0 6 1 1 1 0 1 1 7 1 1 1 1 0 1 8 1 1 0 1 1 0 9 0 1 1 0 0 1 10 1 1 1 1 1 1,(四)評分者信度,評分者信度 ——指多個評分者給同一批被試作答情況評分的一致性程度。 它主要用于主觀性作品的評價過程中,如論述題評分,作文題評分、歌唱比賽的評分,設(shè)計作品的評分等。,評分者信度的計算方法,1、當評分者人數(shù)=2時,評分者信度等于兩者評分的相關(guān)系數(shù)。 2、當評分者人數(shù)大>2時,評分者信度采用肯德爾和諧系數(shù)計算。,(五)標準參照測驗的信度分析,1、百分比一致性指標(PA , p54 ) 2、к一致性系數(shù)(p55) 3、 指數(shù)(p55),總結(jié)和比較1:五種信度的誤差來源,總結(jié)和比較2: 測試次數(shù)、測試卷份數(shù)與信度系數(shù),作業(yè),1、用某量表測驗10名學(xué)生,得分記為X,為了考察結(jié)果的可靠性,于15天后用原量表對這10個學(xué)生重測一次,得分記為Y,問測驗結(jié)果是否可靠? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4,2、對10名應(yīng)試者先進行某種測驗X,隔適當時間后(半年),再進行內(nèi)容、范圍、難度類似的第二次測驗Y,試求測驗的復(fù)本信度? 應(yīng)試者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4,3、有一個由100題構(gòu)成的量表施行于10個高三學(xué)生(分數(shù)見下表)。測驗一次后,學(xué)生即畢業(yè)離校,現(xiàn)怎樣評價測驗結(jié)果的信度? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36,信度的作用,1、信度是確定測驗工具好壞的指標之一。,注:表中數(shù)據(jù)來源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.,判斷原則: 多年的研究結(jié)果,一般的能力測驗和成就測驗的信度系數(shù)都在0.90以上,有的可以達0.95;而人格測驗、興趣、態(tài)度、價值觀等測驗的信度一般在0.80—0.85或更高些。 R原有的同類測驗或相似測驗。,2、信度是測量過程中隨機誤差大小的反映。 3、信度可以直接解釋真分數(shù)與實得分數(shù)之間的關(guān)系,明確告知測驗誤差的大?。y量標準誤可作為測量誤差大小的客觀指標) 4、下結(jié)論說某測驗比較可靠,必須依據(jù)情境,并經(jīng)多次證實。 5、信度可以解釋、預(yù)測個人分數(shù)的意義。,三、提高信度的方法,(一)影響測量信度的主要因素 1、被試方面 2、主試方面 3、施測情境方面 4、測量工具方面 5、兩次施測的間隔時間方面,(二)提高測量信度的常用方法,1、適當增加測驗的長度 2、測驗的難度要適中 3、測驗的內(nèi)容應(yīng)盡量同質(zhì) 4、測驗的程序應(yīng)統(tǒng)一 5、測驗的時間要充分 6、測驗的評分要盡量做到客觀化,減少評分誤差,一、什么是效度 ——指測量結(jié)果的準確性和有效性的程度。也可以說是測量是否達到了預(yù)期的目的。 1、效度是一個相對的概念。 (1)測量的效度是相對一定的測量目的而言的 (2)測量的效度是相對測量的結(jié)果而言的 2、一種測量的效度只是高或低的問題 測量結(jié)果總是有一定效度的,只是效度高低不同罷了。,第二節(jié) 教育測量與評價的效度,根據(jù)測量目標的不同,對測量工具進行效度驗證的方法主要有三種: 內(nèi)容效度(基于所測內(nèi)容的效度驗證方法) 結(jié)構(gòu)效度(基于所測心理結(jié)構(gòu)的效度驗證方法) 準則關(guān)聯(lián)效度(基于效標關(guān)聯(lián)性的效度驗證方法),二、效度的估計,1、什么是內(nèi)容效度 ——指測驗題目樣本對應(yīng)測內(nèi)容及行為領(lǐng)域的代表性程度。如果是教學(xué)情境下的成就測驗,那么其內(nèi)容效度就是看測驗題目樣本能體現(xiàn)教學(xué)目標與教材要求的程度。 例如,教師給學(xué)生做一份語文成就測驗,如果該測驗的題目涵蓋了語文教學(xué)所達到的各項目標及教材的重要內(nèi)容,那么我們便說該測驗具有較高的內(nèi)容效度。 為了使測驗的內(nèi)容具有有效性,成為所欲測量內(nèi)容的一個具有代表性的行為樣本,在編制測驗時,就要考慮建立內(nèi)容效度的問題。,(一)內(nèi)容效度,2、內(nèi)容效度的估計,(1)邏輯分析法 其工作思路是請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。 以考試內(nèi)容效度分析來說,就是依靠專家來分析一份試卷的所有題目,把所有題目按考試內(nèi)容分布和考查目標分布進行雙向分類,形成實際的“題目雙向分類表”;基于這個“題目雙向分類表”的分析,然后由專家對這次考試(測量)的內(nèi)容效度的滿意程度作出等級判斷或評語描述。 這里不妨先提供一份測驗的命題雙向細目表(參見表3-9,p62),以增加讀者的感性認識。 (2)量化分析法(p63),內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔和分類職業(yè)測驗。 內(nèi)容效度不適合用于能力傾向和人格測驗。,(二)結(jié)構(gòu)效度,結(jié)構(gòu)(Construct)——是指心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì)。它本身觀察不到、并且也無法直接測量到,但學(xué)術(shù)理論假設(shè)它是存在的,以便能夠來解釋和預(yù)測個人或團體的行為表現(xiàn)。 例如,智力就是心理學(xué)中的一種結(jié)構(gòu)結(jié)構(gòu)效度,指的就是測驗?zāi)軌驕y量到理論上(通常是心理學(xué)或社會學(xué))所定義的某一心理結(jié)構(gòu)或特質(zhì)的程度。,(二)結(jié)構(gòu)效度,結(jié)構(gòu)效度——測驗對于人的心理特性或理論概念測量到的程度。通常用某種操作來定義,并用測驗來測量。 例如:人的創(chuàng)造力可以分解為人的思維流暢性、靈活性和創(chuàng)造性三大特性,并根據(jù)這三大特性編制測驗,若有足夠的證據(jù)來證明該測驗確實可以測到這些特性,則認為該測驗是個結(jié)構(gòu)效度較高的創(chuàng)造力測驗。,1、結(jié)構(gòu)效度的特點,結(jié)構(gòu)效度的大小完全取決于事先假定的心理特質(zhì)理論,一旦人們對同一種心理特質(zhì)有著不同的定義或假設(shè),則會使得關(guān)于特質(zhì)測驗的結(jié)構(gòu)效度的研究結(jié)果無法比較。 當實際測量的資料無法證實我們的理論假設(shè)時,并不一定就表明該測驗結(jié)構(gòu)效度高。因為還有可能出現(xiàn)理論假設(shè)不成立,或者該實驗設(shè)計不能對該假設(shè)作適當?shù)臋z查等情況,這就使得結(jié)構(gòu)效度的獲取更為困難。,2、建立結(jié)構(gòu)效度的步驟,A、提出理論假設(shè); B、根據(jù)假定結(jié)構(gòu)擬定測題,編制測驗; C、以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。,3、結(jié)構(gòu)效度的估計,(1)因素分析法 其目的是把一些具有錯綜復(fù)雜關(guān)系的因素歸結(jié)為數(shù)量較少的幾個綜合因素或稱共同因素,并以此測驗所測之特質(zhì)對測驗分數(shù)作出解釋。 (2)多元特質(zhì)多重方法矩陣法 是由肯貝爾和菲斯克1959年提出的最受歡迎的一種結(jié)構(gòu)效度的評估方法。 這種方法的設(shè)想:若采用兩種方法以上的方法去測量兩種以上的特質(zhì),那么這些測量結(jié)果之間可以形成一個多元特質(zhì)多重方法矩陣。,從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當為最高;以相同方法測量不同特質(zhì)的相關(guān)次之;以不同方法測量特質(zhì)的相關(guān)為最低。 與內(nèi)容效度不同,結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。,(三)效標關(guān)聯(lián)效度,——是以測驗分數(shù)和效標之間的相關(guān)系數(shù)來表示測驗效度高低的方法。 例如:某年全國高考物理學(xué)科的測驗效度,可用大學(xué)一年級物理學(xué)科的測驗分數(shù)為效標,然后求同一組學(xué)生高考物理得分與大一物理得分之間的相關(guān),此相關(guān)系數(shù)就是該年高考物理測驗的效標關(guān)聯(lián)效度系數(shù)。當這個相關(guān)系數(shù)與總體零相關(guān)有顯著性差異時,相關(guān)系數(shù)的值(正值)越大,效度就越高;相關(guān)系數(shù)的值越小,效度就越低。,效標不僅隨測驗的種類不同而不同,而且可能隨時間而改變,現(xiàn)在是一個好的成功的效標,將來就不一定是。所以,為某個測驗選擇一個最有效的效標,這是最重要的事情。 教育測驗的效標,可采用各學(xué)科成績和教師評定的結(jié)果; 智力測驗的效標,可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他事物;,能力傾向測驗的效標,可采用特殊課程或特殊訓(xùn)練的成績; 職業(yè)興趣測驗的效標,可采用從業(yè)人員實際服務(wù)成績或記錄; 人格測驗的效標,可采用編制者的主觀標準,或以被試以后行為或臨床資料。,效標關(guān)聯(lián)效度的估計方法,1、相關(guān)法 由于測驗分數(shù)和效標分數(shù)這兩個變量的類型不同,二者相關(guān)系數(shù)的計算方法也就不同。 (1)積差相關(guān)法:適用于兩個變量為連續(xù)變量 進行顯著性檢驗: 自由度df=N-2,檢驗的是兩個變量,都減去2; 置信度取0.05,查相關(guān)系數(shù)界值表,尋找臨界值; 結(jié)論:r>臨界值,說明顯著相關(guān),效度高;r<臨界值,說明無相關(guān),效度低。,例二,用一套高中數(shù)學(xué)成就測驗對某校高一10個學(xué)生施測,其測驗分數(shù)X如下,并以這些學(xué)生的物理學(xué)科考試成績?yōu)樾耍嚬烙嫺咧袛?shù)學(xué)成就測驗的效標關(guān)聯(lián)效度系數(shù),且檢驗數(shù)學(xué)和物理兩成績變量是否相關(guān)?效度如何? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 數(shù) 學(xué) X 88 80 68 60 96 32 32 64 64 75 物 理 Y 94 78 56 48 70 38 62 78 70 82,(2)等級相關(guān)法,如找不到效標分數(shù),可用等級分數(shù)(即排名的次數(shù))來替代 適用于連續(xù)變量數(shù)據(jù)小于30,精確度稍差于積差相關(guān),例三,高中一年級學(xué)生10個學(xué)生數(shù)學(xué)測驗與物理學(xué)科成績?nèi)缦卤?,試計算?shù)學(xué)測驗的效標關(guān)聯(lián)效度系數(shù)? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 原始分X 88 80 68 60 96 32 32 64 64 75 數(shù)學(xué) 等級 Rx 2 3 5 8 1 9.5 9.5 6.5 6.5 4 原始分Y 94 78 56 48 70 38 62 78 70 82 物理 等級 Ry 1 3.5 8 9 5.5 10 7 3.5 5.5 2,,,(3)點二列相關(guān)法,當測驗分數(shù)和效標分數(shù)其中一個變量為連續(xù)變量,而另一個為真正的二分變量時,測驗的效標關(guān)聯(lián)效度系數(shù)用點二列相關(guān)系數(shù)來表示。 適用于兩變量:一列變量為連續(xù)變量;另一列變量為二分名義變量。,例四,對16個學(xué)生的某一學(xué)科進行測驗,所得測驗分數(shù)如下,并從中探求學(xué)生的這次考試的成績與其預(yù)習(xí)與不預(yù)習(xí)的關(guān)系如何,也就是試估計學(xué)科成績測驗的效標關(guān)聯(lián)效度?(其中預(yù)習(xí)用1表示,不預(yù)習(xí)用0表示) 學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 成績97 92 75 68 74 99 78 80 70 64 87 96 54 86 93 80 預(yù)習(xí) 1 0 1 0 1 1 0 1 0 1 0 1 0 1 1 0,2、區(qū)分法,該方法的思路是:被試接受測驗后,讓他們工作一段時間,再根據(jù)工作成績好壞分成兩組,然后再回過頭來分析這兩組被試原先接受測驗的分數(shù)差異,若這兩種人的測驗分數(shù)差異顯著,則說明該測驗有較高的效度。,作業(yè),1、用一套高中生成就測驗對某校高二15個學(xué)生施測,其測驗得分如下,并以這些學(xué)生校內(nèi)生物學(xué)科的期末成績?yōu)樾?,試估計高中生物成就測驗的效標關(guān)聯(lián)效度? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 測驗分數(shù)X 42 38 50 40 42 48 39 45 41 43 46 36 54 44 42 校內(nèi)成績Y 72 66 85 70 78 83 69 82 72 75 77 82 90 84 80,2、小學(xué)五年級12個學(xué)生閱讀理解能力測驗與平時閱讀作業(yè)成績?nèi)缦拢囉嬎汩喿x理解能力測驗的效標關(guān)聯(lián)效度系數(shù)? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 能力測驗 32 33 34 34 36 37 38 39 40 41 43 45 平時成績 8 6 4 9 7 11 3 5 13 14 12 10,3、對20個學(xué)生進行機械性向測驗,其男(以0表示),女(以1表示)。學(xué)生測驗得分如下,試估計機械性向測驗的效標關(guān)聯(lián)效度? 學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 分數(shù)16141413151822101216 17 19 11 20 11 18 16 21 13 15 男女 0 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1,三、提高測量效度的方法,1、影響測量效度的因素 測驗的構(gòu)成(要素) 測驗實施方面(過程) 被試主觀狀態(tài)方面 估計效度所依循的效標 樣本方面,2、提高測量效度的方法,控制系統(tǒng)誤差 精心編制測驗量表 擴充樣本的容量和代表性 合理處理效度和信度的關(guān)系 妥善組織測驗 適當增加測驗長度,第三節(jié) 教育測量與評價中項目的難度,一、什么是難度 ——是指試題的難易程度。 一道試題,如果大部分被試都能答對,則該題的難度就小;如果大部分被試都不能答對,則該題的難度就大。 一個題目的難度大小,除了所測的內(nèi)容本身的難易程度有關(guān)以外,還與測驗的編制技術(shù)和被試的知識經(jīng)驗有關(guān),由于學(xué)得不清楚或者因被試沒學(xué)過,一個本來容易的題可能變難。這就是說測驗的難度具有相對性,正因為此,必須讓試題通過實踐來對難度作出檢驗。,二、難度的計算,(一)基本公式 1、客觀題難度的計算 P=R/N R為答對該試題人數(shù),N為參加測驗總?cè)藬?shù) 例1:在100個學(xué)生中,答對第一題的30人,答對第二題的60人,求第一、二道題的難度?比較這兩道題誰比誰難?,2、主觀題難度的計算,例2:某道論述題滿分12分,所有考生在這道題上的平均得分為3.6分,求該題的難度? 例3:語文測驗第五題最高得分為12分,這道題考生的平均得分是8.5分,求該題難度? 例4:60人參加考試,某題滿分為12分,正確得分累積是480分,求該題難度?,(二)極端分組法,步驟: 將測驗總分進行高低排序(由高到低) 進行高低分組(各取27%),并計算某題的得分率 求兩組的平均值 公式: P=(PH+PL)/2 PH為高分組答對該題的百分比; PL為低分組答對該題的百分比。,例5,某區(qū)域1000人參加考試,試卷第一題高分組180人答對,低分組60人答對,求該題難度? 如果該題滿分為10分,高分組得分總數(shù)為2100分,低分組得分總數(shù)為830分,求該題難度?,三、難度的分析與控制,1、難度分析 進行難度分析的主要目的是為了篩選題目。 (1)測驗題目難度水平的確定 測驗題目難度水平的適當與否,取決于測驗的目的、性質(zhì)和題目的形成。 當P值接近于0或接近于1時,即被試在該題上全部答對或全部答錯,則該題無法提供個體的信息。而只當P值接近于0.50時,題目才能把被試做最大的程度的區(qū)分。但在實際工作中,若每一題的難度值均為0.50,那么此測驗很可能只能區(qū)分出好與差兩種極端被試的差異,卻不能對各種被試作更精確的區(qū)分。因此,一般各題的難度可在0.50±0.20之間。,(2)測驗難度對分數(shù)分布的影響,測驗的難度直接依賴于組成測驗的題目的難度,通過考察測驗分數(shù)的分布,可以對測驗的難度做出直觀檢查。 由于多數(shù)人的心理特性多數(shù)呈正態(tài)分布,因此當測驗?zāi)康脑谟跍y量個體差異時,若被試樣本具有代表性,則其結(jié)果應(yīng)呈正態(tài)分布。 測驗分數(shù)背離正態(tài)分布有兩種情況:其一是題目難度普遍較大,被試得分普遍較低,使得低分端出現(xiàn)高峰,呈正偏態(tài);其二是題目難度普遍較小,被試的得分普遍較高,使得高分端出現(xiàn)高峰,呈負偏態(tài)。,2、難度的控制,一般說來,影響題目難度的主要因素有: ①考察知識點的多少; ②考察能力的復(fù)雜程度或?qū)哟蔚母叩停? ③考生對題目的熟悉態(tài)度; ④命題的技巧。 難度控制: ①正確估計考生水平; ② 弄清弄懂各知識點; ③掌握命題技巧。,第四節(jié) 教育測量與評價中題目的區(qū)分度,一、區(qū)分度的意義 題目區(qū)分度——就是題目區(qū)別被試水平的能力的量度,常記為D。 如一道題,學(xué)業(yè)水平、實際能力都較高的考生都答對了;而學(xué)業(yè)水平、實際能力都較低的考生都答錯了,則可認為該題目有好的區(qū)分度。 區(qū)分度(D)的取值范圍介于- 1.00∽+1.00之間,值越大,區(qū)分度的效果越佳。 區(qū)分度D>0為正區(qū)分,D<0為負區(qū)分,D=0為零區(qū)分,區(qū)分度的分析方法,大約可以歸納成兩類: 一為外在效標法,即分析被試在測驗題目上的得分與在外在的客觀標準上的表現(xiàn)之間的關(guān)系。 另一為內(nèi)部一致性法,即分析被試在測題上的得分與在整個測驗總分之間的一致性程度。,二、區(qū)分度的計算,(一)高低分組法 D=PH-PL 例6:有道試題,高分組有70%學(xué)生通過,低分組有30%的學(xué)生通過;而另一道題,高分組有40%學(xué)生通過,低分組有70%學(xué)生通過,求兩題的各自區(qū)分度?,2、主觀題,D=(XH-XL)/N(H-L) XH為高分組得分總數(shù) XL為低分組得分總數(shù) H為該道題的最高分 L為該道題的最低分 N為應(yīng)試總?cè)藬?shù)的27%。,例7,高分組 低分組 得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 4 0 0 0 4,(二)相關(guān)法,1、點二列相關(guān)法 例8:15個學(xué)生在數(shù)學(xué)測驗中得分記錄如下,計算數(shù)學(xué)測驗中第一題的區(qū)分度? 學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 測驗 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 第一題 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0,2、二列相關(guān),例9:已知一測驗中某選擇題的通過率為0.5,答對者的測驗總分平均為76分,答錯者的測驗總分平均為63分,全體被試20人總分的標準差為16,求該題的區(qū)分度?,三、提高區(qū)分度的方法,1、使題目的難度適中,使整個考試難度適中 題目的難度適中可使區(qū)分度達到最大值,因此,使難度適中是提高區(qū)分度的重要方法。 2、著重考察復(fù)雜的學(xué)習(xí)結(jié)果 使高能學(xué)生得高分或低能學(xué)生得低分,使分數(shù)盡量分布在整個分數(shù)量尺上。 3、掌握區(qū)分度的評價標準。,.,,,,Thank you!,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
10 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 教育 測量 評價 質(zhì)量 特性 演示 課件
鏈接地址:http://appdesigncorp.com/p-326723.html