Anda di halaman 1dari 20

Analiza bivariata a datelor

Curs 6

Analiza bivariata a datelor


Presupune masurarea gradului de asociere a

doua variabile sub aspectul:


Directiei (naturii) Intensitatii Semnificatiei statistice

Analiza diferentiala bivariata


Testele utilizate sunt alese in functie de modul de

masurare al variabilelor, numarul de esantioane (grupuri) analizate si relatiile existente intre esantioane: Variabile categoriale:

2 grupuri:

Independente: 2 , MannWhitney, WaldWolfowitz Dependente: 2 (varianta McNemar), Wilcoxon

mai multe grupuri: KruskalWallis 2 grupuri:

Variabile proportionale:
Independente: testul Student pentru variabile independente Dependente: testul Student pentru variabile dependente

mai multe grupuri: ANOVA

Variabilele nominale
Tabele de frecvente (contingenta) considerata simultan pentru

doua sau mai multe variabile caracteristice aceluiasi esantion.


Coeficientul de corelatie (valori intre -1 si +1)

rphi =ad-bc/[(a+b)(c+d)(a+c)(b+d)]1/2

Directia asocierii este data de valoarea lui (rphi)2 Gradul de semnificatie al asocierii dintre opiniile subiectilor

constituiti in cele doua esantioane independente este

determinat cu ajutorul testului 2, McNemar sau Fisher.

Testul neparametric 2
Testul neparametric 2 In varianta clasica, testul 2 presupune testarea unor variabile

categoriale (de regula nonparametrice) si independenta esantioanelor analizate. Se bazeaza pe utilizarea tabelelor de contingenta.

Bazat pe ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. Valoarea calculata c 2 a testului se compara cu valoarea tabelata t 2 a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1). c2 t2 : se accepta ipoteza nula c2 > t2 : se respinge ipoteza nula

Testul neparametric 2
Pentru mai mult de doua subesantioane

independente trebuie ca frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20%. ! Masurarea gradului de asociere se poate realiza cu ajutorul coeficientului de contingenta: C= c2/N+c2

Testul Fisher
Inlocuieste testul 2 atunci cand dimensiunea esantionului N<40

si k=r=2 ! Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. P=(A+B)(C+D)(A+C)(B+D)!/N!A!B!C!D!
! Valoarea calculata p a testului se compara cu probabilitatea de

garantare a rezultatului (ex.: 95%). p 0,05 : se respinge ipoteza nula p > 0,05 : se accepta ipoteza nula

Testul Fisher

Atunci cand dimensiunea esantionului n>20

si k=r=2 se utilizeaza corectia lui Yates a testului Fisher:


2= N ([ad-bc!+ N/2)2/ A+B)(C+D)(A+C)(B+D

Testul McNemar

Inlocuieste testul 2 atunci cand cele doua esantioane investigate nu sunt independente Testul McNemar are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. 2|= ((a-d)-1)2/a+d a si d reprezinta frecventele subesantioanelor independente. Interpretarea este aceiasi ca si in cazul testului2 : c 2 t2 : se accepta ipoteza nula c2 > t2 : se respinge ipoteza nula

Testul Mann Whitney Utilizat de preferinta pentru pentru identificarea diferentelor

semnificative intre (doua) variabile ce provin din esantioane independente, masurate cu ajutorul scalei ordinale (se poate utiliza insa si in cazul variabilelor proportionale), distribuite normal. Ipotezele testului MannWhitney: H 0 : NU exista diferente semnificative intre cele doua variabile. H 1 : Cele doua variabile difera in mod semnificativ.

Testul MannWhitney

R i reprezinta rangurile asociate valorilor din

esantionul i (primul sau al doilea). Pentru esantioane totale (n 1 +n 2 ) mai mici de 30, valorile lui U t sunt tabelate. Pentru esantioane de peste 30 de subiecti se utilizeaza testul Student pentru stabilirea semnificatiei statistice a testului U, dupa formula:

Interpretarea testului U pentru esantioane

mai mici de 30 de subiecti: U c U t : se accepta ipoteza nula U c > U t : se accepta ipoteza alternativa Interpretarea teoretica a testului U pentru esantioane mai mici de 30 de subiecti: z c z t : se accepta ipoteza nula z c > z t : se accepta ipoteza alternativa

Testul Wilcoxon Testul Wilcoxon este un test nonparametric bivariat utilizat

pentru identificarea semnificatiei statistice a diferentelor identificate pentru variabile provenite din esantioane dependente (masuratori repetate sau variabile masurate ale acelorasi respondenti), masurate cu ajutorul scalelor ordinale, indiferent de tipul distributiei.
Exemplu: existenta unor diferente semnificative statistic

intre perceptiile asupra a doua marci diferite (utilizand scala Likert) sau pentru perceptia asupra imaginii berii Redds inainte si dupa realizarea unei campanii promotionale.

Variabilele ordinale
Variabilele ordinale Tabele de frecvente (contingenta) considerata simultan pentru

doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere se poate utiliza coeficientul Spearman de corelatie a rangurilor
=1-6Di2/n(n2-1) Directia asocierii este data de valoarea lui sau . Gradul de semnificatie al asocierii dintre opiniile subiectilor

constituiti in cele doua esantioane independente este determinat cu testului semnificatiei coeficientului Spearman.

Coeficientul de corelatie Spearman


Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele

investigate. ! Valoarea calculata Zc a testului se compara cu valoarea tabelara Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt Zc Zt : se accepta ipoteza nula Zc= /1/n-1

Coeficientul de corelatie al lui Goodman si Kruskall ! Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente. ! Valoarea lui , la fel ca si , poate lua valori in intervalul -1 si +1.

=P-Q/P+Q

! P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre prima valoare a randului urmator si suma frecventelor incepand de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.

Variabilele metrice
Tabele de frecvente (contingenta) considerata simultan pentru

doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere se poate utiliza coeficientul Pearson de corelatie a rangurilor
r= nxy- x y/(n x2- 2x(n y2- 2y)1/2)1/2 Directia asocierii este data de valoarea lui r. Gradul de semnificatie al asocierii dintre opiniile subiectilor

constituiti in cele doua esantioane este determinat prin testarea semnificatiei statistice a coeficientului r.

Coeficientul de corelatie Pearson


! Utilizat pentru variabile continue, normale, cu dispersii asemanatoare ! Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele investigate (r nu este in mod semnificativ diferit de zero).

Zc=1,11513+log10(1+r/1-r)/1/(n-3)1/2

! Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a

acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt2 Zc2 Zt2 : se accepta ipoteza nula altfel : se respinge ipoteza nula

Variabilele ordinale
Tabele de frecvente (contingenta) considerata

simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere se poate utiliza coeficientul Spearman de corelatie a rangurilor Directia asocierii este data de valoarea lui sau . Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente este determinat cu testului semnificatiei coeficientului Spearman.