2021年3月31日 星期三

評估之目的

 

評估的目的為何?

從應用領域先初分為研究與臨床。

 

就研究而言:

1.      評估想要觀察的是「概念量化」或「改變量化」。

另研究端的評估特性有以下兩點:

1.      以團體趨勢為主:

這使研究所使用的評估工具之心理計量特性不須到完美,因為概念上隨機測量誤差將會被平均掉。

2.      個體反應亦有意義:

就評估工具的驗證而言,在挑選工具時可以觀察其個體層級反應性,代表這個工具是否足夠敏感可以反應出個案之改變。

 

就臨床而言:

臨床之評估依時機主要可分為三大部分:

時機

理想

現實

理想現實差距之原因

初評

1.      初步了解個案之狀況,應越完整越佳。

2.      使用良好心理計量特性之工具

1.      鮮少完整的時間可以進行

1-1.    治療師業務繁重沒時間

1-2.    個案端期待越早開始治療越好

1.      臨床缺少快速又好用之工具,所以才無法好好進行評估

追蹤

1.      反應個案之進步,隨時調整治療計畫

1.      沒有追蹤。

1.      無人要求(醫院評鑑也不需要)

結案/再評

1.      了解個案之狀況

2.      了解治療期間之改變量

3.      提供轉介資訊

1.      以觀察進行描述

1.      個案端自己很了解自己之狀況,無須其他數據(可能比較需要相對數據)

2.      治療師端:個案88

2021年3月24日 星期三

Part-3 , CAT-FM (問題與摘要)

問題:

1.      羅序的分數產出是不是有兩種模式?

一種是回答全部的題目,再去看回答與題目難度的相符程度,最後再估算信度

一種是用CAT回答,依據難度去回答問題,看中途有多少不符合假設的作答情形。


 2. individual comparison 的意思?

不急的問題:

1.      Maximum Fisher information methodMaximum a posteriori

 

研究目的:

 

1.      雖然S-FM已經被發展出來,但使用S-FM需要特別的軟體,缺乏即時立即的數據報告,導致限制了臨床實用性(CAT-FM 不是也沒有辦法嗎

2.      CAT-FM 可以減輕受試者負擔且不會降低精準度

 

研究方法:

第一階段:simulation study – 發展CAT 與檢查心理計量特性

第二階段:field study – 測驗其施測效率與同時效度

 

第一階段:

樣本:301 中風14天內之個案,用以發展CAT與檢查同時效度

工具:

CAT-FM :輸出一個0~200的總分 (為什麼是200?我以為是標準分數沒有上下限)

流程:

1.      決定停止施測標準

1. 信度係數>0.9 (common standard for individual comparison)

2. 如果信度係數無法到達0.9,則看最小增加信度小於等於0.01

3. 上下肢個別輸出0~100的分數

*所有參與者之信度平均大於等於0.78

*模擬分析中,平均施測題數5.7題,大部分四題後即可達到信度0.9,即便最差(7)與最佳(9)的個案,也可以達到信度0.8

2.      CAT-FM之羅序信度

 上下肢量表 >0.93 (0.93~0.99)

3.      CAT-FM之同時效度

 0.91~0.98

4.      CAT-FM之反應性

SRM= 0.670.790.77

 

第二階段:

樣本:226位個案(301中,中風90天後之個案),檢驗羅序信度、同時效度以及反應性

流程

1.      兩位施測者,一位用原版FM、一為用CAT-FM24小時,測兩次,並且雙盲其評估結果以及分析CAT-FM之平均施測題數。

平均施測題數:4.7

CAT-FM 花費時間 42

FM花費時間 15 31

同時效度:UE=0.93LE = 0.84 motor = 0.92

結論:

1.      CAT-FM 有好的羅序信度、同時效度、反應性以及施測效率

Part-2, S-FM(12-FM)(問題與摘要)

 問題:

     1.      為什麼已經分開上下肢了還要用多向度羅序去跑呢?

           2.      建立題目難度的資料與跑出羅序信度的資料為同一筆,這樣會不會有資料假設的問題呢?(像是同一筆資料又驗證信度/又驗證反應性)

          3.         下肢選擇第二容易的原因是為了function 還是  item difficulty

 

也是問題但是可能不用這麼快解決的:

      1.      關於羅序分析的概念:partial credit modelfits of itemitem difficulty

 

研究目的:

    原版FM過長,亦造成施測者負擔,故欲發展短版以提升其實用性。

 

方法:

    樣本:亞急性中風

中風後14

中風後30

中風後90

中風後180

279

254

207

198

評估工具:

2.      原版FM (上述4個時間點)

3.      BIFAI (中風後180)

資料分析:

選題

1.      使用partial credit model檢查fits of each subscale

2.      專家小組與Rasch 專家依據Brunnstrom stages 以及 item difficulty (including overall and step difficulties) 來選題

3.      所有選題都符合partial credit model 的預期

4.      為了最小化天花板效應與地板效應,保留了最難與最簡單的題目

5.      選擇平均分散的難度的題目

檢查心理計量特性

1.      使用多向度rasch 分別檢查上肢題目與下肢題目之羅序信度。

2.      S-FM FM 於各時間點跑同時效度

3.      前三時間點S-FM 與最後一次之FAIBI 跑預測效度

 

結果:

1.      Rasch 的結果顯示,共有37題具有滿意的羅序信度(係數大於等於0.95

2.      下肢量表為了step difficulty選擇了第二簡單的題目。

3.      兩個子量表S-FM 羅序信度 >0.92

4.      兩個子量表S-FM FM之同時效度 >0.93

5.      兩個子量表S-FM FAI/BI 預測效度 (0.49~0.59)

6.      S-FM 的反應性:SRM0.62~0.71

 

結論:

1.      S-FM 只有原版的1/4

2.      S-FM之心理計量特性與原版幾乎相似

3.      S-FM產出之羅序分數為等距分數,可以用以比較個案內/間之分數變化。

 

*S-FM 會分別產出上肢與下肢的分數。

*羅序分析會跑出兩個分數:1.羅序信度(代表個別分數的穩定性)2.羅序分數(標準化後的分數,尺度為等距)

*也因為羅序分數為標準化後之分數,導致解讀困難

2021年3月23日 星期二

Part-1,AI-FM(問題與摘要)

整理完之後的問題如下:


1. 機器學習模型無法估計樣本數,那要怎麼知道結果是穩定的?(重新再跑一次看結果會不會一致?)

2. 當初為什麼不照上下肢題目的比例去選?

3. 分數雖然變得可比較性,但可比較性似無沒有太大意義。我認為的原因如下:雖然可以用AI-ML去逼近原始分數,但是轉換後的原始分數,沒有辦法呈現各關節的狀況。且FM也沒有常模。還是難以推估個案能力;所以對於臨床人員來說,分數解讀的問題還是在。

4. 文中提到用,Person's r 看反應性,但person'r的數值不是差距,這個概念想要釐清。

5. 如何決定幾個cell/幾層layer


AI-FM 整理

AI-FM研究目的:AI-FM想要突破的主要問題為短版FM (12-FM / 32-FM)的分數無法與原版分數相比較,所以臨床應用性低。

研究方法與結果:

第一步:

1.      受試者資料:使用次級資料

2.      將此筆資料(208筆)分成8:280%用以發展、20%用以測試

第二步

1.      選題:上肢/下肢各選5題;選題方式:使用randomized lasso method

概念大致如下:

「抽取少數樣本量,使用該群樣本之各題分數預測其總分,並挑出相關係數最高的5題」此過程重複多次,再挑出出現次數最高的5題,當作最終題目。

2.      建立計分系統

使用Artifical neural network(類似多層的全有全無率,所以文中才說可能是線性/非線性)

概念大致如下:

「選題後,得題分數會「乘以某係數」後將題目資訊輸入information shared layer中的cell,在cell中,會加總原題目「得分X係數」,並判斷是否有通過某閾值,如有通過,則再乘以某係數傳到下一層的cell;如未通過則乘以0。以此可以將有重要資訊的題目保留,並替除不重要之題目。」

*因為有很多不同段之係數轉換,故其分數轉換非線性。

「保留重要資訊後,再進入到information specific layer,將被保留的重要資訊分數膨脹以推估總分」

第三步

1.      檢查其心理計量特性

                     i. 同時效度:

FM AI –FMpearson’s r = 0.95~0.99(優於其他版本)

                     ii.收斂效度:

全部UE-FMBIpearson’s r = 0.54~0.76

全部LE-FMBIpearson’s r = 0.58~0.82 (與PASS優於其他版本,與BI劣於其他版本)

                      iii.反應性:

UE (優於其他版本)

AI-FM4.9~6.7SRMs=0.37-0.71

FMAI-FM person’s=0.72~0.95

LE(其他版本相似)

AI-FM2.4-3.4SRMs=0.37-0.71

FMAI-FM person’s=0.78~0.91

                       iv. 再測信度

UE:AI-FM ICC = 0.92MDC=13.2MDC%=20%ICC劣於其他版本;MDC優於其他版本)

LE:AI-FM ICC = 0.88MDC=5.3MDC%=15.6% (劣於其他版本) 

結論:

1.      AI-FM較有效率(比12-FM37-FM更短)

2.      有好的同時效度、再測信度;MDC優於其他版本

3.      AI-FM可以非常逼近原始分數

 

 


CAT終止條件注意事項

  CAT 終止條件設定:   共會有三種考量: 分別為: 1.       MRR :某個人的信度到達 N 後,即停止施測。 2.       LRI : 某個人 增加信度小於 N 3.       MRR or LRI   首先: CAT 的考...