教育測量與評價的質(zhì)量特性演示課件

上傳人：1**

文檔編號：326723

上傳時間：2018-05-27

格式：PPT

頁數(shù)：78

大?。?.21MB

《教育測量與評價的質(zhì)量特性演示課件》由會員分享，可在線閱讀，更多相關(guān)《教育測量與評價的質(zhì)量特性演示課件（78頁珍藏版）》請在裝配圖網(wǎng)上搜索。

教育測量與評價的質(zhì)量特性,第一節(jié) 教育測量與評價的信度,第二節(jié) 教育測量與評價的效度,第三節(jié) 教育測量與評價中項目的難度,第三節(jié) 教育測量與評價中項目的區(qū)分度,第二章教育測量的質(zhì)量特性,衡量教育測量的質(zhì)量，可采用四個指標：信度主要對整個測驗而言。效度難度主要對測驗項目而言。區(qū)分度,,,一、什么是信度 ——指測量結(jié)果的穩(wěn)定性或可靠性程度。一般地說，一個好的測量必須具有較高的信度，也就是說，一個好的測量工具，只要遵守操作規(guī)則，其結(jié)果就不應(yīng)隨工具的使用者或使用時間等方面的變化而發(fā)生較大的變化。,第一節(jié) 教育測量與評價的信度,對信度的理解,①信度指實測值（X）和真值（T）相差的程度； ②考察信度系數(shù)時，常常采用相關(guān)系數(shù)作為信度指標，測驗結(jié)果之間的相關(guān)程度越高，信度就越高。采用不同的方式計算相關(guān)系數(shù)，就得到不同類型的信度系數(shù)。 ③心理測驗的信度值在0-1.00之間，當信度系數(shù)等于1.00時，表示測驗完全可靠；當信度系數(shù)等于0時，則表示測驗根本不可靠。,問題,一個能力測驗用于人才招聘，經(jīng)檢驗它的信度為0.70，如何理解這個信度系數(shù)的含義。理解：0.70的信度系數(shù)表明，在不同的招聘候選人之間進行比較，候選人測驗分數(shù)的70%差別是由于個體之間真實的能力差異所導(dǎo)致的，而30%差別是由于隨機誤差所導(dǎo)致。,二、信度的種類及估計方法,采用不同的方法來計算相關(guān)系數(shù)，就會得到不同類型的信度指標：重測信度、復(fù)本信度、分半信度、同質(zhì)性信度、評分者信度。五種信度的含義和計算方法各異，我們在使用時要特別注意每一種信度的特定內(nèi)涵和適用范圍。,（一）重測信度 ——指同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度。其大小等于同一組被試在兩次測驗上所得分數(shù)的相關(guān)系數(shù)，一般采用皮爾遜積差相關(guān)的公式來計算。,,施測,再施測,重測信度的計算,X：第一次測驗的實得分數(shù)； Y：第二次測驗的實得分數(shù)； N：被試人數(shù)。,統(tǒng)計學(xué)上，我們通常把對同一組被試實施的兩次等值測驗的成績的相關(guān)系數(shù)作為這一測驗的信度。,例一,用一個算術(shù)四則的速度測驗12個小學(xué)生，得分記為X，為了考察測量結(jié)果的可靠性，于3個月后再測一次，得分記為Y，問測驗結(jié)果是否可靠？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29,在使用重測法計算信度值時，應(yīng)注意以下問題：,1、信度的取值范圍為[0，1]，當信度值較大時，說明前后兩次測量結(jié)果比較一致； 2、兩次測驗之間的時間間隔要適宜。應(yīng)由測驗的性質(zhì)、測題類型、測題數(shù)量和被試特點所決定； 3、重測法適用于速度測驗而不適用于難度測驗； 4、應(yīng)注意提高被試者的積極性。,重測信度與時間間隔,兩次測量之間的間隔時間不同，重測信度也不同。間隔時間太短，存在記憶效應(yīng)；間隔時間太長，影響測量的干擾因素增加。一般而言，時間間隔越長，信度系數(shù)越低。適宜的間隔時間因測驗性質(zhì)、被試特點而異。如：對兒童測量時間間隔相對短一些成人測量時間間隔可以長一些。一般以2周到4周較宜，最好不超過6個月。報告重測信度時要明確說明兩次測驗之間的時間間隔，并且，一個經(jīng)過良好評估的測驗應(yīng)當具有多個時間間隔的重測信度。,（二）復(fù)本信度,——指兩個平等的測驗測量同一批被試所得結(jié)果的一致性程度。其大小等于同一批被試在兩個復(fù)本測驗上所得分數(shù)的相關(guān)系數(shù)。所謂復(fù)本測驗是指在性質(zhì)、內(nèi)容、題型、題數(shù)、難度等方面都一致（或相等）的兩份或多份測驗。,,施測A型,施測B型,例二,以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測，為避免由測驗施測順序所造成的誤差，其中5個學(xué)生先做A型測驗，休息15分鐘后，再做B型測驗；而另5個學(xué)生先做B型測驗，休息15分鐘后，再做A型測驗。10個學(xué)生A型測驗結(jié)果記為X，B型測驗結(jié)果記為Y，其測驗的復(fù)本信度如何？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12,復(fù)本信度的優(yōu)缺點表現(xiàn)：,優(yōu)點： 1、測驗的兩個復(fù)本，如果在不同的時間使用，其信度既可以反映在不同時間的穩(wěn)定性，又可以反映對于不同測題的一致性； 2、兩個復(fù)本在同時使用時，可以避免再測信息的一些缺點，如首測時再測在記憶、練習(xí)、效果的影響，間隔期間獲得新知識的影響，兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響，以及為了應(yīng)付測驗所作訓(xùn)練的影響等。,復(fù)本信度缺點：,1、編制兩個完全相等的測驗是很困難的，如果兩個復(fù)本過分相似，則變成再測形式，而過分不相似，又使等值的條件不存在； 2、兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì)，這就會低估測驗的信度； 3、被試同時接受性質(zhì)相似的兩個測驗，可能減少完成測驗的積極性； 4、雖然兩個復(fù)本測驗的題目材料不同，但被試一旦掌握了解題的某一模式，就能觸類旁通，有可能失去復(fù)本的意義。,（三）同質(zhì)性信度,同質(zhì)性信度 ——也稱內(nèi)部一致性信度，指測驗內(nèi)部所有題目之間的一致性程度。兩層意思： ①測驗所有題目測的是否為同一種心理特質(zhì)； ②測驗所有題目得分之間是否具有較高的正相關(guān)。基本假設(shè)：當一個測驗具有較高的同質(zhì)性信度時，說明測驗主要測的是某一個單一心理特質(zhì)，由于眾多題目測試了同一心理特質(zhì)，那么實測結(jié)果就是該特質(zhì)水平的反映。,估計方法,分半信度（p49）庫德-理查遜信度（p50）克龍巴赫系數(shù)（α系數(shù)，p52）荷伊特信度（p52）,分半信度,——將測驗分半，再求被試在每一半測驗上所得分數(shù)的相關(guān)系數(shù)。首先根據(jù)內(nèi)容、形式、題數(shù)、平均數(shù)、標準差、難度、測題間相關(guān)以及分布形態(tài)相等的原則，將試題分成兩半，或者將從易到難排列的測題，按照測題序號，奇數(shù)測題為一組，偶數(shù)測題為一組，分成兩半；然后計算每個被試在兩個分半測驗分數(shù)的相關(guān)系數(shù)，再用斯皮爾曼—布朗公式加以校正：p49,分半信度只需要一種測驗形式，實施一次測驗，它比重測信度和復(fù)本信度的操作更簡便。注意：當一個測驗無法分成對等的兩半時，不宜使用分半信度。,分半信度的計算方法,1、當兩個半測驗分數(shù)的方差相等時，計算兩個“半測驗”之間的皮爾遜積差相關(guān)系數(shù)，然后用斯皮爾曼-布朗公式校正。 rxx=2rhh/(1+rhh) 其中rxx是整個測驗的分半信度，rhh是兩個半測驗之間的相關(guān)系數(shù)。,2、當兩個半測驗分數(shù)的方差不相等時，采用弗朗那根公式和盧侖公式。弗朗那根公式：rxx=2[1-(s2a+s2b)/s2x] 盧侖公式：rxx=1-s2d/s2x 其中： rxx：測驗的分半信度， s2a、s2b：兩半測驗上得分的方差， s2x：整個測驗上得分的方差， s2d：兩半測驗上得分之差的方差。,例三,對初中一年級學(xué)生進行地理成績測驗，每答對1題得1分，答錯1題得0分，其測驗結(jié)果如下表，試估計該測驗的分半信度？學(xué)生序號題序 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 0 0 1 0 0 3 1 0 1 0 0 0 4 1 1 0 0 1 0 5 1 0 0 1 0 0 6 1 1 1 0 1 1 7 1 1 1 1 0 1 8 1 1 0 1 1 0 9 0 1 1 0 0 1 10 1 1 1 1 1 1,（四）評分者信度,評分者信度 ——指多個評分者給同一批被試作答情況評分的一致性程度。它主要用于主觀性作品的評價過程中，如論述題評分，作文題評分、歌唱比賽的評分，設(shè)計作品的評分等。,評分者信度的計算方法,1、當評分者人數(shù)=2時，評分者信度等于兩者評分的相關(guān)系數(shù)。 2、當評分者人數(shù)大>2時，評分者信度采用肯德爾和諧系數(shù)計算。,（五）標準參照測驗的信度分析,1、百分比一致性指標（PA ， p54 ） 2、к一致性系數(shù)（p55） 3、指數(shù)（p55）,總結(jié)和比較1：五種信度的誤差來源,總結(jié)和比較2：測試次數(shù)、測試卷份數(shù)與信度系數(shù),作業(yè),1、用某量表測驗10名學(xué)生，得分記為X，為了考察結(jié)果的可靠性，于15天后用原量表對這10個學(xué)生重測一次，得分記為Y，問測驗結(jié)果是否可靠？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4,2、對10名應(yīng)試者先進行某種測驗X，隔適當時間后（半年），再進行內(nèi)容、范圍、難度類似的第二次測驗Y，試求測驗的復(fù)本信度？應(yīng)試者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4,3、有一個由100題構(gòu)成的量表施行于10個高三學(xué)生（分數(shù)見下表）。測驗一次后，學(xué)生即畢業(yè)離校，現(xiàn)怎樣評價測驗結(jié)果的信度？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36,信度的作用,1、信度是確定測驗工具好壞的指標之一。,注：表中數(shù)據(jù)來源，Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.,判斷原則：多年的研究結(jié)果，一般的能力測驗和成就測驗的信度系數(shù)都在0．90以上，有的可以達0．95；而人格測驗、興趣、態(tài)度、價值觀等測驗的信度一般在0．80—0．85或更高些。 R原有的同類測驗或相似測驗。,2、信度是測量過程中隨機誤差大小的反映。 3、信度可以直接解釋真分數(shù)與實得分數(shù)之間的關(guān)系，明確告知測驗誤差的大?。y量標準誤可作為測量誤差大小的客觀指標） 4、下結(jié)論說某測驗比較可靠，必須依據(jù)情境，并經(jīng)多次證實。 5、信度可以解釋、預(yù)測個人分數(shù)的意義。,三、提高信度的方法,（一）影響測量信度的主要因素 1、被試方面 2、主試方面 3、施測情境方面 4、測量工具方面 5、兩次施測的間隔時間方面,（二）提高測量信度的常用方法,1、適當增加測驗的長度 2、測驗的難度要適中 3、測驗的內(nèi)容應(yīng)盡量同質(zhì) 4、測驗的程序應(yīng)統(tǒng)一 5、測驗的時間要充分 6、測驗的評分要盡量做到客觀化，減少評分誤差,一、什么是效度 ——指測量結(jié)果的準確性和有效性的程度。也可以說是測量是否達到了預(yù)期的目的。 1、效度是一個相對的概念。（1）測量的效度是相對一定的測量目的而言的（2）測量的效度是相對測量的結(jié)果而言的 2、一種測量的效度只是高或低的問題測量結(jié)果總是有一定效度的，只是效度高低不同罷了。,第二節(jié) 教育測量與評價的效度,根據(jù)測量目標的不同，對測量工具進行效度驗證的方法主要有三種：內(nèi)容效度（基于所測內(nèi)容的效度驗證方法）結(jié)構(gòu)效度（基于所測心理結(jié)構(gòu)的效度驗證方法）準則關(guān)聯(lián)效度（基于效標關(guān)聯(lián)性的效度驗證方法）,二、效度的估計,1、什么是內(nèi)容效度 ——指測驗題目樣本對應(yīng)測內(nèi)容及行為領(lǐng)域的代表性程度。如果是教學(xué)情境下的成就測驗，那么其內(nèi)容效度就是看測驗題目樣本能體現(xiàn)教學(xué)目標與教材要求的程度。例如，教師給學(xué)生做一份語文成就測驗，如果該測驗的題目涵蓋了語文教學(xué)所達到的各項目標及教材的重要內(nèi)容，那么我們便說該測驗具有較高的內(nèi)容效度。為了使測驗的內(nèi)容具有有效性，成為所欲測量內(nèi)容的一個具有代表性的行為樣本，在編制測驗時，就要考慮建立內(nèi)容效度的問題。,（一）內(nèi)容效度,2、內(nèi)容效度的估計,（1）邏輯分析法其工作思路是請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。以考試內(nèi)容效度分析來說，就是依靠專家來分析一份試卷的所有題目，把所有題目按考試內(nèi)容分布和考查目標分布進行雙向分類，形成實際的“題目雙向分類表”；基于這個“題目雙向分類表”的分析，然后由專家對這次考試（測量）的內(nèi)容效度的滿意程度作出等級判斷或評語描述。這里不妨先提供一份測驗的命題雙向細目表（參見表3-9，p62），以增加讀者的感性認識。（2）量化分析法（p63）,內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔和分類職業(yè)測驗。內(nèi)容效度不適合用于能力傾向和人格測驗。,（二）結(jié)構(gòu)效度,結(jié)構(gòu)（Construct）——是指心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì)。它本身觀察不到、并且也無法直接測量到，但學(xué)術(shù)理論假設(shè)它是存在的，以便能夠來解釋和預(yù)測個人或團體的行為表現(xiàn)。　　例如，智力就是心理學(xué)中的一種結(jié)構(gòu)結(jié)構(gòu)效度，指的就是測驗?zāi)軌驕y量到理論上（通常是心理學(xué)或社會學(xué)）所定義的某一心理結(jié)構(gòu)或特質(zhì)的程度。,（二）結(jié)構(gòu)效度,結(jié)構(gòu)效度——測驗對于人的心理特性或理論概念測量到的程度。通常用某種操作來定義，并用測驗來測量。例如：人的創(chuàng)造力可以分解為人的思維流暢性、靈活性和創(chuàng)造性三大特性，并根據(jù)這三大特性編制測驗，若有足夠的證據(jù)來證明該測驗確實可以測到這些特性，則認為該測驗是個結(jié)構(gòu)效度較高的創(chuàng)造力測驗。,1、結(jié)構(gòu)效度的特點,結(jié)構(gòu)效度的大小完全取決于事先假定的心理特質(zhì)理論，一旦人們對同一種心理特質(zhì)有著不同的定義或假設(shè)，則會使得關(guān)于特質(zhì)測驗的結(jié)構(gòu)效度的研究結(jié)果無法比較。當實際測量的資料無法證實我們的理論假設(shè)時，并不一定就表明該測驗結(jié)構(gòu)效度高。因為還有可能出現(xiàn)理論假設(shè)不成立，或者該實驗設(shè)計不能對該假設(shè)作適當?shù)臋z查等情況，這就使得結(jié)構(gòu)效度的獲取更為困難。,2、建立結(jié)構(gòu)效度的步驟,A、提出理論假設(shè)； B、根據(jù)假定結(jié)構(gòu)擬定測題，編制測驗； C、以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。,3、結(jié)構(gòu)效度的估計,（1）因素分析法其目的是把一些具有錯綜復(fù)雜關(guān)系的因素歸結(jié)為數(shù)量較少的幾個綜合因素或稱共同因素，并以此測驗所測之特質(zhì)對測驗分數(shù)作出解釋。（2）多元特質(zhì)多重方法矩陣法是由肯貝爾和菲斯克1959年提出的最受歡迎的一種結(jié)構(gòu)效度的評估方法。這種方法的設(shè)想：若采用兩種方法以上的方法去測量兩種以上的特質(zhì)，那么這些測量結(jié)果之間可以形成一個多元特質(zhì)多重方法矩陣。,從理論上說，以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當為最高；以相同方法測量不同特質(zhì)的相關(guān)次之；以不同方法測量特質(zhì)的相關(guān)為最低。與內(nèi)容效度不同，結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。,（三）效標關(guān)聯(lián)效度,——是以測驗分數(shù)和效標之間的相關(guān)系數(shù)來表示測驗效度高低的方法。例如：某年全國高考物理學(xué)科的測驗效度，可用大學(xué)一年級物理學(xué)科的測驗分數(shù)為效標，然后求同一組學(xué)生高考物理得分與大一物理得分之間的相關(guān)，此相關(guān)系數(shù)就是該年高考物理測驗的效標關(guān)聯(lián)效度系數(shù)。當這個相關(guān)系數(shù)與總體零相關(guān)有顯著性差異時，相關(guān)系數(shù)的值（正值）越大，效度就越高；相關(guān)系數(shù)的值越小，效度就越低。,效標不僅隨測驗的種類不同而不同，而且可能隨時間而改變，現(xiàn)在是一個好的成功的效標，將來就不一定是。所以，為某個測驗選擇一個最有效的效標，這是最重要的事情。教育測驗的效標，可采用各學(xué)科成績和教師評定的結(jié)果；智力測驗的效標，可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他事物；,能力傾向測驗的效標，可采用特殊課程或特殊訓(xùn)練的成績；職業(yè)興趣測驗的效標，可采用從業(yè)人員實際服務(wù)成績或記錄；人格測驗的效標，可采用編制者的主觀標準，或以被試以后行為或臨床資料。,效標關(guān)聯(lián)效度的估計方法,1、相關(guān)法由于測驗分數(shù)和效標分數(shù)這兩個變量的類型不同，二者相關(guān)系數(shù)的計算方法也就不同。（1）積差相關(guān)法：適用于兩個變量為連續(xù)變量進行顯著性檢驗：自由度df=N-2，檢驗的是兩個變量，都減去2；置信度取0.05，查相關(guān)系數(shù)界值表，尋找臨界值；結(jié)論：r>臨界值，說明顯著相關(guān)，效度高；r<臨界值，說明無相關(guān)，效度低。,例二,用一套高中數(shù)學(xué)成就測驗對某校高一10個學(xué)生施測，其測驗分數(shù)X如下，并以這些學(xué)生的物理學(xué)科考試成績?yōu)樾耍嚬烙嫺咧袛?shù)學(xué)成就測驗的效標關(guān)聯(lián)效度系數(shù)，且檢驗數(shù)學(xué)和物理兩成績變量是否相關(guān)？效度如何？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 數(shù) 學(xué) X 88 80 68 60 96 32 32 64 64 75 物理 Y 94 78 56 48 70 38 62 78 70 82,（2）等級相關(guān)法,如找不到效標分數(shù)，可用等級分數(shù)（即排名的次數(shù)）來替代適用于連續(xù)變量數(shù)據(jù)小于30，精確度稍差于積差相關(guān),例三,高中一年級學(xué)生10個學(xué)生數(shù)學(xué)測驗與物理學(xué)科成績?nèi)缦卤?，試計算?shù)學(xué)測驗的效標關(guān)聯(lián)效度系數(shù)？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 原始分X 88 80 68 60 96 32 32 64 64 75 數(shù)學(xué) 等級 Rx 2 3 5 8 1 9.5 9.5 6.5 6.5 4 原始分Y 94 78 56 48 70 38 62 78 70 82 物理等級 Ry 1 3.5 8 9 5.5 10 7 3.5 5.5 2,,,（3）點二列相關(guān)法,當測驗分數(shù)和效標分數(shù)其中一個變量為連續(xù)變量，而另一個為真正的二分變量時，測驗的效標關(guān)聯(lián)效度系數(shù)用點二列相關(guān)系數(shù)來表示。適用于兩變量：一列變量為連續(xù)變量；另一列變量為二分名義變量。,例四,對16個學(xué)生的某一學(xué)科進行測驗，所得測驗分數(shù)如下，并從中探求學(xué)生的這次考試的成績與其預(yù)習(xí)與不預(yù)習(xí)的關(guān)系如何，也就是試估計學(xué)科成績測驗的效標關(guān)聯(lián)效度？（其中預(yù)習(xí)用1表示，不預(yù)習(xí)用0表示）學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 成績97 92 75 68 74 99 78 80 70 64 87 96 54 86 93 80 預(yù)習(xí) 1 0 1 0 1 1 0 1 0 1 0 1 0 1 1 0,2、區(qū)分法,該方法的思路是：被試接受測驗后，讓他們工作一段時間，再根據(jù)工作成績好壞分成兩組，然后再回過頭來分析這兩組被試原先接受測驗的分數(shù)差異，若這兩種人的測驗分數(shù)差異顯著，則說明該測驗有較高的效度。,作業(yè),1、用一套高中生成就測驗對某校高二15個學(xué)生施測，其測驗得分如下，并以這些學(xué)生校內(nèi)生物學(xué)科的期末成績?yōu)樾?，試估計高中生物成就測驗的效標關(guān)聯(lián)效度？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 測驗分數(shù)X 42 38 50 40 42 48 39 45 41 43 46 36 54 44 42 校內(nèi)成績Y 72 66 85 70 78 83 69 82 72 75 77 82 90 84 80,2、小學(xué)五年級12個學(xué)生閱讀理解能力測驗與平時閱讀作業(yè)成績?nèi)缦拢囉嬎汩喿x理解能力測驗的效標關(guān)聯(lián)效度系數(shù)？學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 能力測驗 32 33 34 34 36 37 38 39 40 41 43 45 平時成績 8 6 4 9 7 11 3 5 13 14 12 10,3、對20個學(xué)生進行機械性向測驗，其男（以0表示），女（以1表示）。學(xué)生測驗得分如下，試估計機械性向測驗的效標關(guān)聯(lián)效度？學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 分數(shù)16141413151822101216 17 19 11 20 11 18 16 21 13 15 男女 0 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1,三、提高測量效度的方法,1、影響測量效度的因素測驗的構(gòu)成（要素）測驗實施方面（過程）被試主觀狀態(tài)方面估計效度所依循的效標樣本方面,2、提高測量效度的方法,控制系統(tǒng)誤差精心編制測驗量表擴充樣本的容量和代表性合理處理效度和信度的關(guān)系妥善組織測驗適當增加測驗長度,第三節(jié) 教育測量與評價中項目的難度,一、什么是難度 ——是指試題的難易程度。一道試題，如果大部分被試都能答對，則該題的難度就小；如果大部分被試都不能答對，則該題的難度就大。一個題目的難度大小，除了所測的內(nèi)容本身的難易程度有關(guān)以外，還與測驗的編制技術(shù)和被試的知識經(jīng)驗有關(guān)，由于學(xué)得不清楚或者因被試沒學(xué)過，一個本來容易的題可能變難。這就是說測驗的難度具有相對性，正因為此，必須讓試題通過實踐來對難度作出檢驗。,二、難度的計算,（一）基本公式 1、客觀題難度的計算 P=R/N R為答對該試題人數(shù)，N為參加測驗總?cè)藬?shù) 例1：在100個學(xué)生中，答對第一題的30人，答對第二題的60人，求第一、二道題的難度？比較這兩道題誰比誰難？,2、主觀題難度的計算,例2：某道論述題滿分12分，所有考生在這道題上的平均得分為3.6分，求該題的難度？例3：語文測驗第五題最高得分為12分，這道題考生的平均得分是8.5分，求該題難度？例4：60人參加考試，某題滿分為12分，正確得分累積是480分，求該題難度？,（二）極端分組法,步驟：將測驗總分進行高低排序（由高到低）進行高低分組（各取27%），并計算某題的得分率求兩組的平均值公式： P=（PH+PL）/2 PH為高分組答對該題的百分比； PL為低分組答對該題的百分比。,例5,某區(qū)域1000人參加考試，試卷第一題高分組180人答對，低分組60人答對，求該題難度？如果該題滿分為10分，高分組得分總數(shù)為2100分，低分組得分總數(shù)為830分，求該題難度？,三、難度的分析與控制,1、難度分析進行難度分析的主要目的是為了篩選題目。（1）測驗題目難度水平的確定測驗題目難度水平的適當與否，取決于測驗的目的、性質(zhì)和題目的形成。當P值接近于0或接近于1時，即被試在該題上全部答對或全部答錯，則該題無法提供個體的信息。而只當P值接近于0.50時，題目才能把被試做最大的程度的區(qū)分。但在實際工作中，若每一題的難度值均為0.50，那么此測驗很可能只能區(qū)分出好與差兩種極端被試的差異，卻不能對各種被試作更精確的區(qū)分。因此，一般各題的難度可在0.50±0.20之間。,（2）測驗難度對分數(shù)分布的影響,測驗的難度直接依賴于組成測驗的題目的難度，通過考察測驗分數(shù)的分布，可以對測驗的難度做出直觀檢查。由于多數(shù)人的心理特性多數(shù)呈正態(tài)分布，因此當測驗?zāi)康脑谟跍y量個體差異時，若被試樣本具有代表性，則其結(jié)果應(yīng)呈正態(tài)分布。測驗分數(shù)背離正態(tài)分布有兩種情況：其一是題目難度普遍較大，被試得分普遍較低，使得低分端出現(xiàn)高峰，呈正偏態(tài)；其二是題目難度普遍較小，被試的得分普遍較高，使得高分端出現(xiàn)高峰，呈負偏態(tài)。,2、難度的控制,一般說來，影響題目難度的主要因素有： ①考察知識點的多少； ②考察能力的復(fù)雜程度或?qū)哟蔚母叩停? ③考生對題目的熟悉態(tài)度； ④命題的技巧。難度控制： ①正確估計考生水平； ② 弄清弄懂各知識點； ③掌握命題技巧。,第四節(jié) 教育測量與評價中題目的區(qū)分度,一、區(qū)分度的意義題目區(qū)分度——就是題目區(qū)別被試水平的能力的量度，常記為D。如一道題，學(xué)業(yè)水平、實際能力都較高的考生都答對了；而學(xué)業(yè)水平、實際能力都較低的考生都答錯了，則可認為該題目有好的區(qū)分度。區(qū)分度（D）的取值范圍介于- 1.00∽+1.00之間，值越大，區(qū)分度的效果越佳。區(qū)分度D>0為正區(qū)分，D<0為負區(qū)分，D=0為零區(qū)分,區(qū)分度的分析方法，大約可以歸納成兩類：一為外在效標法，即分析被試在測驗題目上的得分與在外在的客觀標準上的表現(xiàn)之間的關(guān)系。另一為內(nèi)部一致性法，即分析被試在測題上的得分與在整個測驗總分之間的一致性程度。,二、區(qū)分度的計算,（一）高低分組法 D=PH-PL 例6：有道試題，高分組有70%學(xué)生通過，低分組有30%的學(xué)生通過；而另一道題，高分組有40%學(xué)生通過，低分組有70%學(xué)生通過，求兩題的各自區(qū)分度？,2、主觀題,D=（XH-XL）/N（H-L） XH為高分組得分總數(shù) XL為低分組得分總數(shù) H為該道題的最高分 L為該道題的最低分 N為應(yīng)試總?cè)藬?shù)的27%。,例7,高分組低分組得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 4 0 0 0 4,（二）相關(guān)法,1、點二列相關(guān)法例8：15個學(xué)生在數(shù)學(xué)測驗中得分記錄如下，計算數(shù)學(xué)測驗中第一題的區(qū)分度？學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 測驗 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 第一題 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0,2、二列相關(guān),例9：已知一測驗中某選擇題的通過率為0.5，答對者的測驗總分平均為76分，答錯者的測驗總分平均為63分，全體被試20人總分的標準差為16，求該題的區(qū)分度？,三、提高區(qū)分度的方法,1、使題目的難度適中，使整個考試難度適中題目的難度適中可使區(qū)分度達到最大值，因此，使難度適中是提高區(qū)分度的重要方法。 2、著重考察復(fù)雜的學(xué)習(xí)結(jié)果使高能學(xué)生得高分或低能學(xué)生得低分，使分數(shù)盡量分布在整個分數(shù)量尺上。 3、掌握區(qū)分度的評價標準。,.,,,,Thank you!,

下載提示(請認真閱讀)

1.請仔細閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認領(lǐng)！既往收益都歸您。

同意并開始全文預(yù)覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載文檔到電腦，查找使用更方便

10 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標，表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 教育測量評價質(zhì)量特性演示課件

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標題：教育測量與評價的質(zhì)量特性演示課件
鏈接地址：http://appdesigncorp.com/p-326723.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

教育測量評價 質(zhì)量 特性演示課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

教育測量與評價的質(zhì)量特性演示課件

最新文檔