M. cercetare

Index de conținut

Introducere

În mod normal, în acest tip de analiză putem stabili o ipoteză de pornire (ipoteză nulă), care presupune în general că efectul interesului este nul, de exemplu că tensiunea arterială este aceeași la bărbați și femei sau că două tratamente pentru hipercolesterolemie sunt la fel de eficiente. Mai târziu, probabilitatea de a obține datele observate poate fi evaluată dacă această ipoteză este corectă. Valoarea acestei probabilități coincide cu valoarea p furnizată de fiecare test statistic, astfel încât, cu cât este mai mică, cu atât este mai puțin probabil ca ipoteza inițială să fie verificată.

pentru

În prima secțiune, testul t al studentului va fi prezentat pentru două eșantioane independente, introducând modificările necesare în cazul în care variabilitatea ambelor grupuri este diferită. Apoi, testul t al studentului va fi introdus pentru cazul a două eșantioane dependente.

Studentul pentru două eșantioane independente

Una dintre cele mai frecvente analize statistice în practică este probabil cea utilizată pentru a compara două grupuri independente de observații cu privire la o variabilă numerică. De exemplu, să luăm în considerare datele prezentate în Tabelul 1, corespunzătoare a 75 de indivizi supraponderali supuși la două diete diferite, astfel încât să dorim să comparăm greutatea indivizilor care au început fiecare dintre diete.

După cum a fost deja avansat, aplicarea unui test parametric necesită normalitatea observațiilor pentru fiecare dintre grupuri. Verificarea acestei ipoteze poate fi realizată atât prin metode grafice (prin intermediul histogramelor, graficelor cutiei sau graficelor de normalitate), cât și prin teste statistice (testul Kolmogorov-Smirnov, testul Shapiro-Wilks). Cu toate acestea, un număr suficient de observații (să spunem mai mult de 30), așa cum se întâmplă în exemplul dat, justifică utilizarea aceluiași www. De asemenea, acest tip de metodologie va necesita ca varianța în ambele grupuri de observații să fie aceeași. În primul rând, testul Student t va fi dezvoltat pentru cazul în care ambele condiții sunt verificate, discutând ulterior cum să abordăm formal cazul în care variațiile nu sunt similare.

Conform ipotezelor de normalitate și varianță egală, comparația ambelor grupuri poate fi efectuată în termeni de un singur parametru, cum ar fi valoarea medie (Figura 1a), astfel încât, în exemplul prezentat, ipoteza de pornire va fi, prin urmare:

H0: Greutatea inițială medie este aceeași în ambele grupuri

Va fi notat cu < X 1, X 2. X n> și < Y 1, Y 2. Y m> la greutatea observată la fiecare dintre subiecții supuși dietei A și respectiv dietei B. În general, numărul observațiilor din fiecare dintre grupurile comparate nu va trebui să coincidă, astfel încât în ​​exemplul n = 40 și m = 35.

Testul t pentru două eșantioane independente se bazează pe statistică:

(1)

unde e denotă greutatea medie în fiecare dintre grupuri:

și, eșantionul corespondent corespondent:

Cu care, în acest caz particular, valoarea utilizată pentru contrast va fi:

Dacă ipoteza de pornire este adevărată, statistica (1) va urma o distribuție t a lui Student cu n + m-2 grade de libertate. Dacă da, valoarea obținută ar trebui să se încadreze în intervalul de probabilitate cea mai mare în conformitate cu această distribuție (Figura 2). De obicei, domeniul de date în care este concentrată 95% din probabilitate este luat ca referință. Valoarea p pe care o raportează de obicei majoritatea pachetelor statistice nu este altceva decât probabilitatea de a obține, conform acelei distribuții, date mai extreme decât cele furnizate de www. După cum sa menționat deja, reflectă și probabilitatea de a obține datele observate dacă ipoteza inițială ar fi adevărată. Dacă valoarea p este foarte mică (de obicei se ia în considerare p 0,05. În exemplul prezentat, valoarea p corespunzătoare este 0,425, deci nu există dovezi statistice că greutatea medie în ambele grupuri este diferită. În tabelul 2, gradele de libertate (în prima coloană) și valoarea lui α (în primul rând) sunt determinate. Numărul care determină intersecția lor este valoarea critică corespunzătoare. Astfel, dacă statistica obținută ia o valoare cu atât mai mare se va spune că diferența este semnificativă.

O altă modalitate de a obține aceleași informații este prin calcularea intervalelor de încredere pentru diferența de răspuns mediu în ambele grupuri. La niveluri superioare, intervalul de încredere constituie o măsură a incertitudinii cu care se estimează această diferență din eșantion, făcând posibilă evaluarea atât a semnificației statistice, cât și a amplorii clinice a acestei diferențe. În cazul de față, intervalul de încredere va fi dat ca:

unde denotă valoarea care, în funcție de distribuția t a studentului cu n + m-2 grade de libertate, lasă 2,5% din date la dreapta sa. În exemplu, intervalul de încredere de 95% pentru diferența de greutate este dat de:

care exprimă în cele din urmă o gamă de valori între care se poate găsi valoarea reală a diferenței dintre greutățile ambelor grupuri. De asemenea, oferă aceleași informații pe care le-am obținut din contrastul statistic. Faptul că valoarea zero aparține intervalului indică faptul că nu există dovezi care să concluzioneze că greutatea este diferită în ambele grupuri.

Pe măsură ce mărimea eșantionului crește, distribuția statisticii (1) devine mai apropiată de cea a unei variabile normale standard. Astfel, în unele texte se alege utilizarea acestei distribuții pentru a realiza compararea mijloacelor. Deși această aproximare este corectă pentru eșantioane suficient de mari, ambele metode oferă rezultate practic identice în acest caz, ceea ce face mai ușor de utilizat, indiferent de dimensiunea eșantionului, aceeași metodologie din distribuția t. Aceeași abordare ar putea fi utilizată în cazul diferențelor diferite sau al probelor asociate.

Două eșantioane independente cu varianță diferită

În cazul în care sunt disponibile două grupuri de observații independente cu variații diferite, distribuția datelor din fiecare grup nu poate fi comparată numai în ceea ce privește valoarea sa medie (Figura 1b). Contrastul statistic ridicat în secțiunea anterioară necesită unele modificări care iau în considerare variabilitatea datelor din fiecare populație. Evident, prima problemă care trebuie rezolvată este găsirea unei metode statistice care să ne permită să decidem dacă varianța în ambele grupuri este aceeași sau nu. Testul F sau testul raportului de varianțe vine să rezolve această problemă. Presupunând că cele două populații urmează o distribuție normală și au varianță egală, raportul variațiilor este de așteptat:

urmați o distribuție Snedecor F cu parametrii (n-1) și (m-1).

Să presupunem că în exemplul anterior vrem să comparăm pierderea în greutate la subiecții supuși fiecăreia dintre cele două diete. Aplicarea statisticii (1) nu va fi fezabilă, deoarece variațiile din ambele grupuri sunt substanțial diferite. În acest caz, raportul varianțelor este de 3,97/0,80 = 4,96, valoare care trebuie comparată cu o distribuție F 39,34. Valoarea p asociată va fi p f de grade de libertate care vor depinde de variațiile eșantionului în funcție de expresia:

Două probe dependente

S-a comentat deja că, atunci când vine vorba de compararea a două grupuri de observații, este important să se distingă cazul în care sunt independenți de cel în care datele sunt asociate. Seriile dependente apar în mod normal atunci când aceleași date sunt evaluate de mai multe ori la fiecare subiect din eșantion. Astfel de observații pot fi găsite și în studiile caz-control în care fiecare caz este asociat individual cu un control.

Să presupunem că dorim să verificăm, în datele din Tabelul 1, dacă există cu adevărat o pierdere semnificativă în greutate la acești indivizi, pentru care greutatea lor este colectată la fiecare subiect înainte și după ce a urmat dieta. În acest tip de analiză, interesul nu se concentrează pe variabilitatea care poate exista între indivizi, ci pe diferențele care se observă la același subiect între un moment și altul. Din acest motiv, este intuitiv să lucrăm cu diferența ambelor observații (în exemplu va fi pierderea în greutate), așa că vrem să testăm ipoteza:

H0: Pierderea în greutate este zero

comparativ cu alternativa că pierderea în greutate este semnificativă (adică non-zero).

Veridicitatea acestei ipoteze poate fi testată și folosind testul t al Studentului. După cum sa spus, acest tip de metodă are normalitatea datelor ca o ipoteză fundamentală. În acest caz, însă, nu va fi necesar ca observațiile din ambele grupuri să provină din populații normale, ci doar pentru a verifica normalitatea diferenței lor. Notând prin pierderea medie în greutate ipoteza este că:

versus alternativa

Din observațiile eșantionului < Y 1, Y 2. Y n> și < Y 1, Y 2. Y n> în fiecare dintre grupuri se calculează diferența de greutate pentru fiecare subiect < d 1, d 2. d n> cu dj = Xj-Yj j = 1,2. n. Rețineți că, în acest caz, o cerință fundamentală este să existe un număr egal de observații în ambele grupuri. Din aceste date, contrastul se bazează pe statistici:

sau în calcularea intervalului de încredere de 95%:

unde denotă pierderea medie în greutate estimată din eșantion:

și denotă cvasi-varianța eșantionului diferenței date de:

În exemplul nostru, valoarea statisticii ar fi dată de: