Rasch
內容記點
From 潘老師上課課程
背景知識:
1.
IRT有分成3種參數估計模式
1.
1-Parameter:僅估計Item difficulty
2.
2-parameter:估計Item difficulty +
Discrimination
3.
3-parameter:僅估計Item difficulty +
Discrimination +Guessing(猜測)
* Guessing:受試者作答可能用猜的
* Discrimination:項目鑑別度,指題目算出來的斜率為何。
2. Infit/outfit:
假設今天有一道題目難度為:1(最易)~7(最難)
Infit:受試者是否在相近的題目中,能夠照題目難度呈現能力。例如:答對4後也答對3,2。
Outfit:受試者是否有極端不一致的作答情形,例如:答對7,但卻答錯1的情形。
2.
Anlysis for residuals:用以找出剩下的殘差還有沒有什麼主成分。
3.
DIF是指「O特徵」,會造成測驗之難易度不同,須排除。
4.
Categories:指的是測驗量表的項目尺度,例如:李克特式3點/5點
5.
Monotonically increasing:單調遞增,指如受試者能力上升,答對A題之機率只增不減。
6.
step calibrations:指跨過不同的得分點,有相應的難度要求。
7.
average measures:指題目中的「難度順序」是固定的(聽起來很common
sense,但是重點應是題目需要針對難度順序做共同基準),如果人的能提升,期平均得分也會提升。
優點:
1.
可以解決資料尺度的ordinal的問題,嚴格來說我們學門資料大多都是ordinal的
2.
IRT比起CTT比較不需要在意樣本代表性的問題。
* Sample-free:因為同樣一套難度的題目,對於不同族群來說,難易度應該相同。(驗證完成的測驗的應用,不太需要再考慮適用樣本因難度已固定)
*不太需要/具有樣本代表性的另外思路為:要驗證Rasch,必須要每個難度階層都有一定的人數,但真實樣本之能力大多會落在中間難度,故如果要能夠cover很簡單/很難的題目,勢必要找特定的族群,因此整體樣本就會非現實分配。
3.
Scale-free/task-free:如果個案的能力固定,在測相同概念的不同測驗中(例如BI and FIM)的相對位置應該都相同。
4.
Rater-free:將評估者主觀的評分加入校準
5.
Activity-free:將受試者要做的活動加入模式中加以校準。
6.
可以突破計分形式不一的問題
缺點:
1.
CTT對於所有考生測驗的精準度是一樣的;IRT對於越極端的考生精準度越差(根據上述點2)
圖的解釋:
本圖為4點李克特式量表,圖的產出為,將整個量表的0~3分進行機率疊加
如果項目難度是-1.2以下,最有可能拿0分。(紅色)
如果項目難度是-1.2~-0.1之間,最有可能拿1分。(藍色)