心理測量的誤差
前面我們已經(jīng)討論了什么是測驗(yàn),以及如何編制測驗(yàn),現(xiàn)在轉(zhuǎn)入研究什么是一個(gè)好的測驗(yàn)。
無論何種測量工具,我們對它起碼的要求是穩(wěn)定,準(zhǔn)確。用心理測量學(xué)的術(shù)語來說,就是要可信和有效。所謂可信是指多次測量的結(jié)果是一致的,所謂有效是指正確地測量了所要測的東西。信度是測量一致性程度的估計(jì),效度是測量準(zhǔn)確性程度的估計(jì)。
關(guān)于測量的信度和效度問題,下邊有專章分別討論。為了考察測量的信度和效度,首先要了解測量的誤差。
第二節(jié) 誤差的來源
一個(gè)測驗(yàn)要準(zhǔn)確可靠,必須控制各種誤差,為此首先要了解誤差的來源。
根據(jù)誤差定義,任何變因只要與測量目的無關(guān),并使得結(jié)果不準(zhǔn)確、不一致,便可認(rèn)為是一種誤差因素。在心理測量中,
常見的誤差來源于三個(gè)方面:測驗(yàn)內(nèi)部,施測過程,受測者本身。
一、測驗(yàn)內(nèi)部引起的誤差
測驗(yàn)內(nèi)部的誤差主要來源于題目取樣:當(dāng)測驗(yàn)題目較少或取樣缺乏代表性時(shí),被試的反應(yīng)受機(jī)遇影響較大,(譬如一次考試碰巧準(zhǔn)備到或沒準(zhǔn)備到某題),當(dāng)幾個(gè)測驗(yàn)復(fù)本不等值時(shí),接受不同的題目,就會(huì)獲得不同的分?jǐn)?shù)。
除題目取樣不當(dāng)可引起誤差外,其它一些因素,如題目用詞的模棱兩可,對反應(yīng)步驟說得不清,題目過難引起猜測,時(shí)限短使被試倉促作答等,也都可能成為誤差的來源。
二、由施測過程引起的誤差
在三種誤差來源中,與施測過程有關(guān)的誤差可能是最容易控制和檢驗(yàn)的。通過長期實(shí)踐,測驗(yàn)的標(biāo)準(zhǔn)化水平越來越高,大部分施測條件能夠得到控制。但由于心理現(xiàn)象的復(fù)雜性,許多意想不到的偶然因素仍可能影響測驗(yàn)分?jǐn)?shù),使人防不勝防。
(一)物理環(huán)境
施測現(xiàn)場的溫度。光線,聲音、桌面好壞,空間闊窄等皆具有影響。
(二)主試者方面:
主試者的年齡、性別、外表,施測時(shí)的言談舉止、表情動(dòng)作等均能影響測驗(yàn)結(jié)果。倘若不按照規(guī)定實(shí)施測驗(yàn),如制造緊張氣氛,給予特別協(xié)助或暗示,以及計(jì)時(shí)錯(cuò)誤等,都會(huì)帶來較大誤差,特別是當(dāng)測驗(yàn)具有復(fù)雜步驟和說明,或測驗(yàn)題本身是模糊不確定的形式時(shí),當(dāng)主試者在安排測驗(yàn)條件上有較多余地(例如個(gè)別施測)時(shí),當(dāng)測驗(yàn)是對幼兒,有情緒困擾者以及對測驗(yàn)程序不熟悉的人施測時(shí),主試者的影響更大。
(三)意外干擾:
在測驗(yàn)環(huán)境復(fù)雜,特別是當(dāng)受試人數(shù)較多時(shí),容易發(fā)生出乎預(yù)料的干擾或分心事件。例如:停電、有人生病,有人作弊,計(jì)價(jià)表停了、臨時(shí)發(fā)現(xiàn)題目或作答紙印刷不清或裝訂錯(cuò)誤等,無論哪種情況都會(huì)引起不安和擾亂,導(dǎo)致成績不準(zhǔn)確、不一致。
(四)評分計(jì)分,
評分不客觀以及計(jì)算登記分?jǐn)?shù)出錯(cuò)等也是常見的誤差。一般選擇題的評分較為客觀。而問答題、論文題等自由反應(yīng)型的題目,評分標(biāo)準(zhǔn)很難掌握,加之閱卷者的偏好各不相同,因而難以保證分?jǐn)?shù)的一致性.
早在幾十年前,國外就有人對舊法考試的評分誤差做過研究。斯達(dá)奇(D?storch)和埃立奧特(E?C?Elliott)將一份英文考卷請142位英文教員評閱,所得分?jǐn)?shù)從50分到98分應(yīng)有盡有。某國教育界還有一件引為笑談的事,1920年夏季,許多大學(xué)教授在評閱歷史試卷時(shí),有一位教授為評分便利起見,自己寫了一份標(biāo)準(zhǔn)答案,不料和其它考卷混在一起,經(jīng)另一位教授評閱竟然不及格。為慎重起見,由其它教授重復(fù)評定,結(jié)果所得分?jǐn)?shù)以10分到90分不等。1961年美國教育測驗(yàn)中心由53個(gè)評判員組成專門小組。對大學(xué)一年級學(xué)生寫的200篇作文按九個(gè)等級評分,結(jié)果有1/3的文章得到了九個(gè)等級,有60%的文章得到了七個(gè)或八個(gè)等級,沒有一篇文章少于五個(gè)等級。一般理科評分要比文科客觀些,但也不盡然。羅雪(Ruch)將—道地理題的解答請91位教員評閱,滿分為20分,結(jié)果給17種分?jǐn)?shù),全距為2—20,給各種分?jǐn)?shù)的人次見表4—1,斯達(dá)奇和埃立奧特將一份幾何考卷請115位中學(xué)教員評立,所得分?jǐn)?shù)為28—92分,全距60多分。我國1979年高考數(shù)學(xué)試卷第四題敘述并證明勾股定理,對于
表4—1 91位教師對于一個(gè)地理題的回答所給分?jǐn)?shù)的分布
分?jǐn)?shù) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
人次 0 0 1 2 0 1 4 3 7 5 24 5 14 8 2 10 2 1 1 0 1
用余弦定理進(jìn)行循環(huán)論證的答卷,有的閱卷教師不給分,有的卻給滿分(6分)。不僅各教師間有此差異,即使同一教師一次評許多卷,受情緒,疲勞,外界干擾;卷面整潔、試卷前后位置引起的對比效應(yīng)以及對學(xué)生成見的影響,標(biāo)準(zhǔn)也可能不統(tǒng)一,甚至同一張?jiān)嚲砀粢欢螘r(shí)間再評,前后給分也可能不一致。至于學(xué)校之間,地區(qū)之間的差別就更大了。1980年,清華大學(xué)受教育部委托對新生進(jìn)行數(shù)學(xué)復(fù)試,并與高考數(shù)學(xué)成績對照。將各省市學(xué)生按兩次考試的平均成績分別排隊(duì)。G省學(xué)生的高考平均成績居第11名,而復(fù)試成績降到第28名,T市學(xué)生成績次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分別升至第3名和第7名,產(chǎn)生這種變化的原因很多,其中很重要的一條是各省評分標(biāo)準(zhǔn)掌握不同,寬嚴(yán)不一。這就使得學(xué)生分散的差異在一定程度上反映的是評分者的差異,而不完全是學(xué)生水平的差異。
初級會(huì)計(jì)職稱中級會(huì)計(jì)職稱經(jīng)濟(jì)師注冊會(huì)計(jì)師證券從業(yè)銀行從業(yè)會(huì)計(jì)實(shí)操統(tǒng)計(jì)師審計(jì)師高級會(huì)計(jì)師基金從業(yè)資格稅務(wù)師資產(chǎn)評估師國際內(nèi)審師ACCA/CAT價(jià)格鑒證師統(tǒng)計(jì)資格從業(yè)
一級建造師二級建造師消防工程師造價(jià)工程師土建職稱房地產(chǎn)經(jīng)紀(jì)人公路檢測工程師建筑八大員注冊建筑師二級造價(jià)師監(jiān)理工程師咨詢工程師房地產(chǎn)估價(jià)師 城鄉(xiāng)規(guī)劃師結(jié)構(gòu)工程師巖土工程師安全工程師設(shè)備監(jiān)理師環(huán)境影響評價(jià)土地登記代理公路造價(jià)師公路監(jiān)理師化工工程師暖通工程師給排水工程師計(jì)量工程師
人力資源考試教師資格考試出版專業(yè)資格健康管理師導(dǎo)游考試社會(huì)工作者司法考試職稱計(jì)算機(jī)營養(yǎng)師心理咨詢師育嬰師事業(yè)單位教師招聘公務(wù)員公選考試招警考試選調(diào)生村官
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護(hù)士資格證初級護(hù)師主管護(hù)師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實(shí)踐技能內(nèi)科主治醫(yī)師外科主治醫(yī)師中醫(yī)內(nèi)科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗(yàn)技師臨床醫(yī)學(xué)理論中醫(yī)理論