M. cercetare

Index de conținut

Introducere

În orice studiu de cercetare, o problemă cheie este fiabilitatea procedurilor de măsurare utilizate. După cum subliniază Fleiss în contextul studiilor clinice, nici măcar modelul cel mai elegant nu ar fi capabil să atenueze daunele cauzate de un sistem de măsurare nesigur.

acord

O sursă importantă de eroare de măsurare a fost recunoscută în mod tradițional în variabilitatea între observatori. În consecință, un obiectiv al studiilor de fiabilitate ar trebui să fie estimarea gradului unei astfel de variabilități.

În acest sens, două aspecte diferite fac de obicei parte din studiul fiabilității: pe de o parte, părtinire între observatori –Declarată mai puțin riguros, tendința unui observator de a da în mod constant valori mai mari decât altul– și a altuia, a acord între observatori –Adică în ce măsură observatorii sunt de acord în măsurarea lor–.

Ținând cont de acest al doilea aspect, modalitatea specifică de abordare a problemei depinde îndeaproape de natura datelor: dacă acestea sunt continue, utilizarea estimatorilor coeficientului de corelație intraclasă este comună, în timp ce atunci când se tratează date categorice, cea mai utilizată statistică este indicele kappa, căruia îi dedicăm restul acestui articol.

Indicele Kappa

Să presupunem că doi observatori diferiți clasifică independent un eșantion de n itemi în același set de categorii nominale C. Rezultatul acestei clasificări poate fi rezumat într-un tabel precum tabelul 1, în care fiecare valoare xij reprezintă numărul de itemi care au fost clasificați de observatorul 1 din categoria i și de observatorul 2 din categoria j.

De exemplu, ne putem gândi la doi radiologi care se confruntă cu sarcina de a clasifica un eșantion de radiografii folosind scara: „anormal”, discutabil „normal”. Tabelul 2 prezintă un set de date ipotetic pentru acest exemplu, aranjat în conformitate cu schema din tabelul 1.

Dintr-un punct de vedere tipic statistic, este mai potrivit să ne eliberăm de eșantionul specific (cele n itemi care sunt clasificați de către cei doi observatori) și să gândim în funcție de populația din care se presupune că a fost extras eșantionul. Consecința practică a acestei modificări de cadru este că trebuie să modificăm schema tabelului 1 pentru a înlocui valorile xij ale fiecărei celule cu probabilitățile comune, pe care le vom nota cu Π ij (tabelul 3).

Cu tipul de schematizare pe care l-am propus în tabelele 1 sau 3, este evident că răspunsurile care indică acord sunt cele care sunt situate pe diagonala principală. Într-adevăr, dacă o bucată de date este situată pe diagonala menționată, aceasta înseamnă că ambii observatori au clasificat articolul în aceeași categorie a sistemului de clasificare. Din această observație rezultă în mod firesc cea mai simplă dintre măsurile de acord pe care le vom lua în considerare: suma probabilităților de-a lungul diagonalei principale. În simboluri, dacă notăm această măsură cu Π 0, va fi

unde indicii însumării merg de la i = 1 la i = C.
Evident, este adevărat că
valoarea 0 corespunzătoare acordului minim posibil și 1 maximului.

Deși acest index simplu a fost propus ocazional ca o măsură de acord de alegere, interpretarea sa nu este lipsită de probleme. Tabelul 4 ilustrează tipul de dificultăți care pot apărea. În cazul A, Π 0 = 0,2, prin urmare acordul este mult mai mic decât în ​​cazul B, unde Π 0 = 0,8. Cu toate acestea, condiționat de distribuțiile marginale, se observă că în cazul A concordanța este maxim posibil, în timp ce în cazul B este minim.

Prin urmare, pare clar că căutarea ar trebui să fie direcționată către noi măsuri de acord care să țină seama de distribuțiile marginale, pentru a face distincția între două aspecte diferite ale acordului, la care ne-am putea referi în mod informal ca acord absolut sau relativ. Indicele kappa reprezintă o contribuție în această direcție, practic prin încorporarea în formula sa a unei corecții care exclude acordul datorat exclusiv întâmplării - corecție care, așa cum vom vedea, este legată de distribuțiile marginale.

Cu notația deja utilizată în Tabelul 3, indicele kappa, Κ, este definit ca

[1]
unde indicii însumării merg de la i = 1 la i = C.

Este instructiv să analizăm expresia anterioară. Să observăm mai întâi că, dacă presupunem independența variabilelor aleatorii care reprezintă clasificarea aceluiași item de către cei doi observatori, atunci probabilitatea ca un item să fie clasificat de ambii în aceeași categorie i este Π i.Π .i. Prin urmare, dacă extindem suma la toate categoriile, ∑ Π i.Π .i este tocmai probabilitatea ca cei doi observatori să fie de acord din motive exclusiv atribuibile întâmplării. În consecință, valoarea lui simply este pur și simplu raportul dintre acordul de exces observat dincolo de cel atribuit întâmplării (∑ Π ii - ∑ Π i.Π .i) și excesul maxim posibil (1 - ∑ Π i.Π. i) .

Concordanța maximă posibilă corespunde cu Κ = 1. Valoarea Κ = 0 este obținută atunci când acordul observat este exact ceea ce se așteaptă doar din cauza întâmplării. Dacă acordul este mai mare decât se aștepta pur și simplu din întâmplare, Κ> 0, în timp ce dacă este mai mic, Κ vedeți mai sus). Pentru a înțelege rezultate paradoxale ca acestea, merită să ne amintim comentariile pe care le-am făcut mai sus despre limitările indexului Π 0.

Când interpretați valoarea lui Κ, este util să aveți o scală ca următoarea, în ciuda arbitrariului său:

Testarea ipotezei și intervalele de încredere

Obținerea unei estimări punctuale simple a valorii lui Κ nu ne oferă nicio indicație a preciziei acelei estimări. Din punctul de vedere al Statisticii inferențiale, este esențial să se cunoască variabilitatea estimatorilor și să se utilizeze aceste cunoștințe în formularea testelor de ipoteze și în construirea intervalelor de încredere.

Fleiss, Cohen și Everitt dau expresia varianței asimptotice - adică pentru eșantioane infinit de mari - a estimatorului k, când adevărata valoare a lui Κ este zero:

[3]

Înlocuind probabilitățile teoretice, pe care nu le cunoaștem, cu proporțiile eșantionului, obținem un estimator de ∑ 0 2 (k) pe care îl vom nota cu s0 2 (k):

[4]

Putem folosi acest rezultat pentru a testa ipoteza nulă că Κ este zero față de alternativa pe care nu o are, folosind coeficientul ca statistică de testare

[5]

(| k | denotă valoarea absolută a lui k) și comparând valoarea acesteia cu cuantilele distribuției normale standard. Cu datele din tabelul 2, k = 0.6600 și s0 2 (k) = 0.0738, apoi | k |/s0 (k) = 8.9441 și din moment ce z 0.975 = 1.96, concluzionăm că, la nivelul de semnificație Δ = 0.05, valoarea lui k este semnificativă și ne determină să respingem faptul că Κ este zero.

Utilitatea testului ipotezei anterioare este discutabilă, întrucât, în general, este rezonabil să ne așteptăm la un anumit grad de acord dincolo de întâmplare, vom găsi în mod trivial un rezultat semnificativ. Pentru a efectua teste de ipoteză mai interesante, este necesar să cunoaștem expresia varianței asimptotice atunci când Κ nu este presupus a fi zero. Expresia este semnificativ mai complexă decât [3]:

[6]
Unde: T1 = ∑ π ii,
T2 = ∑ π i.π .i,
T3 = ∑ π ii (π i. + Π .i),
T4 = ∑ ∑ π ij (π j. + Π .i) 2 .

Se poate arăta că atunci când Κ este zero, expresia [6] se reduce la [3]. Pentru a testa ipoteza nulă că Κ este egal cu o valoare dată Κ0 împotriva unei alternative bilaterale, procedăm ca în cazul Κ = 0, folosind doar ca statistică de testare:

[7]

unde s (k) este acum rădăcina pătrată a lui s 2 (k), estimatorul lui ∑ 2 (k) obținut prin substituirea în [6] probabilități a proporțiilor eșantionului. Este evident că cazul Κ = 0 pe care l-am explicat anterior nu este altceva decât un caz particular al acestui test, cu o estimare mai bună a erorii standard.