Analiza Bivariata A Datelor Files Merged)

Analiza bivariata a datelor
Analiza bivariata a datelor
Presupune masurarea gradului de asociere a doua variabile sub aspectul:
Directiei (naturii) Intensitatii
Semnificatiei statistice
Variabilele nominale
Tabele de frecvente (contingenta) considerata simultan pentru doua sau
mai multe variabile caracteristice aceluiasi esantion.
Coeficientul de corelatie (valori intre -1 si +1)

ad  bc
r 
phi [(a  b)(c  d )(a  c)(b  1/2

d)]
Directia asocierii este data de valoarea lui (rphi)2
Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele
doua esantioane independente este determinat cu ajutorul testului χ2, McNemar
sau Fisher.
2
Testul neparametric χ
Bazat pe ipoteza nula:

H0: nu exista diferente semnificative intre cele doua
2
variabile. r k O A )
2
  ij ij
(
c
i1 j 1 A ij
 Valoarea calculata χc2 a testului se

c
compara cu valoarea tabelata χ 2
t a
acestuia, obtinuta in functie de
probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1).
χ 2 ≤ χ 2 : se accepta ipoteza nula
c t
χ 2 > χ 2 : se respinge ipoteza nula
c t
2
Testul neparametric χ
 Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1
si Oij
< 5 sa nu depaseasca 20%.
 Masurarea gradului de asociere se poate realiza cu ajutorul coeficientului de
contingenta:
2

c
C 
2
N
c
Testul Fisher
 Inlocuieste testul χ2 atunci cand dimensiunea esantionului N<40 si k=r=2

 Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula:
H0: nu exista diferente semnificative intre cele doua variabile.
(A  B)!(C  D)!(A  C)!(B  D)!
p
N! A!B!C!D!
 Valoarea calculata p a testului se compara cu probabilitatea de garantare a
rezultatului (ex.: 95%).
p ≤ 0,05 : se respinge ipoteza nula
p > 0,05 : se accepta ipoteza nula
Testul McNemar
 Inlocuieste testul χ2 atunci cand cele doua esantioane investigate nu sunt

independente
 Testul McNemar are aceiasi ipoteza nula:
H0: nu exista diferente semnificative intre cele doua variabile.
( a d 2
2  1)
 
c
ad
 a si d reprezinta frecventele subesantioanelor independente.
 Interpretarea este aceiasi ca si in cazul testului
χ2 :
χc2 ≤ χ 2 : se accepta ipoteza nula
c t
χc2 > χ 2 : se respinge ipoteza nula
c t
Variabilele ordinale
Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai
multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere
se poate utiliza coeficientul
Spearman de corelatie a rangurilor

n
6 Di2
i
  1  1 1)
2
n(n
Directia asocierii este data de valoarea lui ρ sau γ.
doua esantioane independente este determinat cu testului semnificatiei
coeficientului Spearman.
Coeficientul de corelatie Spearman
Bazat pe ipoteza nula:

H0: nu exista o corelatie intre variabilele investigate.

Zc 
1
n 1
Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta
in functie de probabilitatea de garantare a rezultatului.
-Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se
respinge ipoteza nula
Coeficientul de corelatie γ al lui Goodman si Kruskall
 Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente.

 Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1
si +1.
P Q
 
P Q
 P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de
frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub
ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre
prima valoare a randului urmator si suma frecventelor incepand de pe randul
urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza
dupa aceleasi reguli, insa incepand din dreapta sus.
Variabilele metrice
Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai
multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere
se poate utiliza coeficientul
Pearson de corelatie a rangurilor

n n n
nxi yi  xi  yi
i1 i1
r n n
i
1 n n
n  (x )  ( x ) 2
2 n( y )2  ( y )2
i i i i
i 1 i 1 i1 i 1
Directia asocierii este data de valoarea lui r.
doua esantioane este determinat prin testarea semnificatiei statistice a
coeficientului r.
Coeficientul de corelatie Pearson
Utilizat pentru variabile normale, cu dispersii asemanatoare
 Bazat pe ipoteza nula:

H0: nu exista o corelatie intre variabilele investigate (r nu este in mod
semnificativ diferit de zero).
1  r log10
Zc  1,1513 
( )
1 1 r
n 3
Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta
in functie de probabilitatea de garantare a rezultatului.
-Zt2 ≤ Z 2 ≤ Z 2 : se accepta ipoteza nula
t c t
altfel : se respinge ipoteza nula
Analiza multivariata a datelor
Analiza multivariata
 Presupune utilizarea unui grup de metode statistico-matematice cu ajutorul

carora se pot cerceta simultan legaturile de asociere existente intre mai
mult de doua variabile.
Analiza multivariata
 Cele mai utilizate tehnici:
Analiza regresiei multiple Analiza discriminantului Analiza
multivariata a variatiei Analiza canonica
Analiza factoriala
Analiza grupurilorScalarea multidimensionala
Clasificare
 Criterii de clasificare
Existenta unor relatii de dependenta (cauzalitate) si/sau
asociere Numarul de variabile dependente
Tipul de scala utilizat

Clasificare
 O singura variabila dependenta: Scale parametrice: analiza discriminantului liniar

multiplu
Scale nonparametrice: regresia multipla
 Mai multe variabile dependente: Scale parametrice: analiza multivariata a
variatiei
Scale nonparametrice: analiza canonica
Clasificare
 Variabile independente:
Scale parametrice: Analiza factoriala
Analiza grupurilor
Scalare multidimensionala parametrica
Scale nonparametrice:
Scalare multidimensionala nonparametrica Analiza structurilor
latente
Metoda regresiei multiple
Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe
variabile indepentende
Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de
covarianta ei cu variabilele independente.
ˆ ˆ ˆ
Y a 
1 X 1  2 X 2
ˆ ˆ  ... i Xi  ... n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in
functie de factori determinanti (venituri,
cifra de afaceri, pret, etc.)
Discriminantul liniar multiplu
Estimarea relatiei dintre o variabila dependenta masurata cu ajutorul unei scale

nonparametrice si combinatii liniare ale mai multor variabile independenta
(masurate pe o scala parametrica)
Presupune definirea a doua sau mai multe grupuri, omogene interne si eterogene
intre ele.
Obiectiv: maximizarea raportului dintre dispersie dintre grupuri si dispersia interna
Discriminantul liniar multiplu
Utilizari:
Determinarea contributiei fiecarei variabile explicative la discriminare
Determinarea celei mai bune combinatii liniare a variabilelor explicative care
maximizeaza raportul intre dispersia dintre grupuri si dispersiile din
interiorul grupurilor
Stabilirea procedurilor de predictie legata de apartenenta componentelor la
diversele grupuri (segmentare)
Analiza existentei diferentelor semnificative statistic intre profilurile
grupurilor definite
Analiza multivariata a varitiei
Cuprinde un grup de metode: proiectari factoriale, patratele latine, patratele greco-

latine.
Obiectiv: separarea si testarea semnificatiei efectelor cauzate de actiunea
simultana a mai multor factori
Analiza multivariata a variatiei
Cerinte asupra datelor:

Datele provin de la grupuri experimentale, la nivelul unei populatii
normale, pe baza unei esantionari aleatoare.
Eroarea experimentala are o abatere standard constanta.
Variatia aleatoare este independeta de timp. Efectele diferitelor surse de
variatie este aditiv, nu multiplicativ.
Analiza canonica
Nu depinde de tipul scalei utilizate. Obiectiv: studierea relatiei liniare intre un

grup de variabile
dependente si un grup de variabile
independente.
Numarul maxim de functii utilizat este egal cu numarul variabilelor din grupul cel
mai mic.
Analiza canonica
Utilizari:
Determinarea directiei, intensitatii si semnificatiei corelatiei dintre
cele doua seturi de variabile.
Estimarea coeficientilor celor doua seturi de variabile, in conditiile
maximizarii corelatiei dintre seturi.
Explicarea si previzionarea variatiei setului dependent, pe baza
covariantei acestuia cu setul independent.
Determinarea contributiei relative a fiecarei variabile in cadrul functiilor
canonice.
Analiza factoriala
Realizata cu ajutorul mai multor tehnici: metoda componentelor principale, criteriul

varimax, criteriul quartimax, rotatia axelor.
Obiectiv: cercetarea legaturilor de interdependenta dintre mai multe
variabile, in scopul determinarii setului minim de explicarea a unui anumit
fenomen.
Presupune definirea unor factori care sa condenseze o cat mai mare parte din informatia
(variabilele) initiala.
Analiza factoriala
Utilizari:
Identificarea setului de dimensiuni latente existente in variabila initiala
(analiza factoriala de tip R).
Combinarea sau condensarea componentelor unui populatii statistice si
crearea unor grupuri distincte (analiza factoriala de tip Q).
Concentrarea (minimizarea) variabilelor.
Analiza grupurilor
Realizata cu ajutorul mai multor tehnici: distanta euclidiana, gruparea pe baza

coliniaritatii si gruparea de proximitate.
Obiectiv: clasificarea componentelor unei multimi eterogene in grupuri omogene, pe
baza unor criterii obiective.
Varianta 1: abordare top-down. Varianta 2: abordare bottom-up.
Scalarea multidimensionala
Obiectele sau fenomenele analizate sunt reprezentate sub forma de puncte intr-un
spatiu perceptual multidimensional.
Obiectiv: estimarea importantei relative a variabilelor si a relatiilor perceptuale
dintre ele.
Permite construirea unui spatiu perceptual in care se reprezinta obiectele sau
fenomenele, pe baza perceptiilor respondentilor.
Analiza univariata a datelor
Analiza
 Analiza reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico-

matematice, in scopul extragerii din colectia de date constituita a informatiilor
necesare procesului decizional
Clasificare
Tipul de scala utilizata

Nominala Ordinala
Interval Proportionala
Clasificare
Numarul esantioanelor cercetate
Un singur esantion Doua esantioane
Mai mult de doua esantioana

Clasificare
 Natura relatiei dintre esantioane Esantioane independente Esantioane

dependente
 Numarul variabilelor utilizate
O singura variabila Doua

variabile
Mai mult de doua variabile

Obiectivele analizei
Determinarea tendintei centrale Caracterizarea variatiei si dispersiei Masurarea

gradului de asociere Realizarea de estimari si previziuni
Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile
Evidentierea legaturilor cauzale
Masurarea tendintei centrale
Grupul modal (modulul)

Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri
Mediana
Valoarea care imparte numarul de observatii

in doua grupuri egale
n
Media aritmetica xi
i1
Media geometrica x
n
n
xG  n
 xi
i1
Indicatori ai tendintei centrale

Tipuri de scale
Modulul Mediana Media Media

Nominala aritmetica geometrica
X -
Ordinala - -
X X
Interval X X - -
X X X
Proportionala -
X
X
Dispersia
Distributia de frecventa Cuartile, decile, centile

Amplitudinea variatiei Abaterea media Variatia
Abaterea standard Amplitudinea variatiei
Dispersia
Indicatori ai Tipuri de scale
dispersiei Nominale Ordinale Interval Proportionale
X
Frecvente X X X
X
- X X
Cuartile
X
X
- -
Amplitudine X
X
- -
X
X
medie - X
- X
Variatia
- -
standard
Evaluarea modelelor multifactoriale de regresie
Criterii de evaluare
 Teoretice: compatibilitatea rezultatelor obtinute cu teoria economica (ex.: semnul si

marimea parametrilor estimati)
 Statistice:
Nivelul de semnificatie al parametrilor Proportia variatiei
“explicate” de multimea variabilelor independente
Eroarea standard a estimarii Autocorelatia valorilor
reziduale
De previziune
Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe
variabile indepentende
Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de
covarianta ei cu variabilele independente.
ˆ ˆ ˆ
Y a 
1 X 1  2 X 2
ˆ ˆ  ... i Xi  ... n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in
functie de factori determinanti (venituri,
Semnificatia statistica a parametrilor
Se dau asigurari ca variatia variabilei dependente nu este datorata intamplari, ci

este rezultatul variatiei uneia sau mai multor variabile independente.
Testul t este utilizat cel mai frecvent. Intre nivelul de semnificatie si nivelul de
incredere in testul t exista relatia:
Nivelul de semnificatie = (1-nivelul de confidenta)/2

Eroarea standard
Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in
jurul valorii sale ca urmare a erorii aleatoare.
Limitele variatiei sunt date de relatia:
s t
ˆj T,j
 
j
Semnificatia statistica a asocierii dintre variabile
Testarea semnificatiei legaturii dintre variabila dependenta si variabila/ele

independente se bazeaza pe utilizarea testelor statistice (ex.: testul Fisher).
Se explica in ce masura variatia totala a variabilei dependente este rezultatul
variatiei variabilelor independente considerate.
Valoarea calculata a lui F foloseste

formula:
ˆ
(Y Y )/(k 1)
Fc  ˆ 2
/(n  k)
(Y Y )
Caracterizarea multilaterala a intensitatii legaturilor
Matricea coeficientilor de corelatie simpla prezinta intensitatea legaturilor intre toate

perechile de variabile
Matricea coeficientilor de corelatie partiala descrie intensitatea legaturilor intre doua
variabile, excluzand efectul celorlalte variabile implicate.
Coeficientul de corelatie multipla si coeficientul de determinare caracterizeaza
proportia variatiei variabilei dependente datorata variatiei setului variabilelor
independente ale modelului si proportia variatiei aleatoare (neexplicate).
Coeficientul de determinare
2
Coeficientul de determinare R reprezinta raportul dintre variatia explicata si variatia
totala, dupa formula:
2 2
R  1
e
2
 y
unde e reprezinta valoarea reziduala si y abaterea variabilei Y de la media sa Ŷ
Utilizeaza metoda celor mai mici patrate

Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri,
Analiza multicoliniaritatii
Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale

unui model.
Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului.
Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a
parametrilor.
Evidentiata utilizandu-se cele trei teste Farrar si Glauber.
Primul test Farrar si Glauber
T
Se bazeaza pe compararea matricei de corelatie Z Z a modelului cu matricea
2
unitate, cu ajutorul testului χ
2  1  T
   n 1  (2(m 1)  5) ln det[Z Z ]
c  
 6 
2 2
Valoarea teoretica a lui χ se regaseste in tabelele statistice ale repartitiei χ ,
considerandu-se V=1/2(m-1)(m-2) grade de libertate.
2 2
Daca χ > χ , atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului
(regresiei) analizate.
Al doilea test Farrar si Glauber
Permite identificarea variabilelor cel mai afectate de coliniaritate

Se bazeaza pe compararea matricei de corelatie
ZTZ a modelului cu matricea unitate, cu ajutorul
testului Fisher. 
Fc  ii 1) (n  (m 1))
(r
m 2
Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher,

considerandu-se n- m+1 so m-2 grade de libertate.
Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele
independente nu este acceptata.
Al treilea test Farrar si Glauber
Permite stabilirea semnificatiei statistice a coeficientilor de corelatie

Coeficientii de corelatie partiala intre Xi si Xj se determina pe baza formului:
rij 
 r
ij
ii  jj
r  r
Apoi se calculeaza valoarea testului Student dupa formula:

rij  n  (m 1)
tij

2
(1 r ij)
Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
Analiza erorii medii patratice a valorilor reziduale
Masura sintetica a acuratetii modelului si o metoda de evidentiere a erorilor de
previziune.
T
1  A) (SP
 (Pt
 At ) 2  (P S A) 2  2(1 r)S P S A
T t1
2
(P-A) indica tendinta medie a modelului de a supraestima sau subestima valorile reale.
(SP-SA)2 indica sensitivitatea modelului la
modificarea valorilor independente.
2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile
previzionate si cele actuale.
Analiza autocorelatiei
Testul Durbin-Watson necesita calculul parametrului d, dupa formula:

T
Û t1 2)
 (Ût
d  t2 T
 2
Uˆ t
t 1
Daca d<dL sau d>dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele
asociate testului Durbin-Watson).
Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului
schimbarilor de semn in seria valorilor reziduale δ.
Daca δmin< δ < δmax (tabelate), atunci ipoteza nula este acceptata.
Analiza datelor de
marketing utilizand S.P.S.S.
- curs introductiv -
Mihai Orzan
– mihai.orzan@ase.ro
– joi, 19:30, sala 1406
Chestiuni organizatorice
• Nota:
– Examen final (1 iunie): 40%
– Test seminar: 60%
• http://orzanm.ase.ro/spss
• Suport curs:
• Cătoiu I. (coord.), Bălan C., Dăneţiu T., Orzan Gh.,
Popescu I., Vegheş C., Vrânceanu D. - "Cercetări de
marketing", Ed. Uranus, 2002
• Popa, D., “Analiza datelor in psihologie. Teorie si practica cu
SPSS”, Ed. Polirom, 2008.
• Suport semiar (recomandat):
• Howitt, D. si Cramer, D., “Introducere in SPSS pentru
psihologie”, Ed. Polirom, 2006.
Ce reprezinta analiza datelor?
Analiza datelor reprezinta un proces
complex si sistematic de aplicare a
tehnicilor statistico-matematice, in scopul
extragerii din colectia de date constituita a
informatiilor necesare procesului
decizional
Surse de date
• Surse de date:
– Cercetari cantitative:
• Sondaje;
• Observari;
– Surse secundare de date:
• interne;
• externe;
– Cercetari calitative:
• focus grupuri;
• clientul misterios;
• interviuri in profunzime;
• teste de utilitate;
Clasificare tipurilor de analiza
• Numarul esantioanelor cercetate

Un singur esantion;
Doua esantioane;
Mai mult de doua esantioane;
• Natura relatiei dintre esantioane
Esantioane independente;
Esantioane dependente;
Clasificare tipurilor de analiza
• Numarul variabilelor utilizate:

O singura variabila (analiza univariata);
Doua variabile (analiza bivariata);
Mai mult de doua variabile (analiza
multivariata);
• Natura relatiei dintre variabile
Variabile independente;
Variabile dependente;
Determinarea tendintei centrale;

Caracterizarea variatiei si dispersiei;
Masurarea gradului de asociere;
Realizarea de estimari si previziuni;
Evaluarea semnificatiei diferentelor dintre
variabile si grupuri de variabile;
Evidentierea legaturilor cauzale;
• Analiza primara a datelor
• Masurarea tendintei centrale
• Analiza variatiei
• Stabilirea normalitatii distributiei
• Analiza diferentiala
• Identificarea existentei unor diferente statistice
intre esantioane (grupuri) de respondenti
• Analiza asociativa
• Identificarea existentei unor asemanari (asocieri)
semnificative statistic variabile demografice si
psiho-comportamentale
Analiza inferentiala
• Identificarea gradului in care valorile identificate la
nivel de esantion sunt reprezentative la nivelul
populatiilor investigate
• Analiza predictiva
• Identificarea evolutiei ulterioare a fenomenelor
investigate
• Analiza complexa a datelor
• Analiza canonica, analiza discriminantului, analiza
structurilor latente
• Modelare
Tipuri de Indicatori ai tendintei centrale

scale
Modulul Mediana Media Media
aritmetica geometrica
Nominala X - - -
Ordinala X X - -
Interval X X X X
Proportionala X X X X
Grupul modal (modulul)
Grupul care cuprinde cele mai multe componente comparativ
cu celelalte grupuri
Mediana
Valoarea care imparte numarul de observatii in doua grupuri
egale
x
n
Media aritmetica i
n
x  i1 
pi 1n pi 1
x
i
n
 
i
x
p
Media geometrica 
xG  x 
i
i1
Analiza variatiei




Distributia frecventelor (absolute si relative)

Amplitudinea variatiei (Xmax-Xmin)
x  ˘
2
x
x 1
n
 
Varianta 2
σ
i n
i

1

Abaterea medie patratica (standard)
Coeficientul de variatie (variatia relativa)
σ x

C
V
Distributia frecventelor
Perceptia gustului pentru berea Redd’s
Eticheta Codificare Frecventa Frecventa Procent valid Frecvente
(%) cumulate
Cel mai neplacut 1 0 0,0 0,0 0,0
Foarte neplacut 2 2 6,7 6,9 6,9
Neplacut 3 6 20,0 20,7 27,6
Nici/Nici 4 6 20,0 20,7 48,3
Placut 5 3 10,0 10,3 58,6
Foarte placut 6 8 26,7 27,6 86,2
Cel mai placut 7 4 13,3 13,8 100,0
Valori lipsa 9 1 3,3
Total 30 100 100
Analiza variatiei
Indicatori ai Tipuri de scale
dispersiei Nominale Ordinale Interval Proportionale
Frecvente X X X X
Amplitudine - X X X
Coeficient de
- - X X
variatie
Varianta - - X X
Abaterea
- - X X
standard
Distributia normala
Este constituita dintr-o familie de distributii care au
reprezentari grafice asemanatoare unui clopot;
Distributia normala
Este importanta pentru ca majoritatea instrumentelor
statistice utilizate in analiza primara au ca premisa
existenta unei distributii normale (ex.: testul Student,
Mann-Whitney, ANOVA, Pearson, regresia, nivelarea
exponentiala Brown, etc.).
Ipoteza distributiei normale:
Pentru δ ales, δ procente dintre valorile inregistrate ale variabilei
se vor afla in intervalul:
 
x
σ
t
;δ
x
σ
t
x
δ
Distributia normala

Aplatizarea: reprezinta o masura a inaltimii relative a

“clopotului” definit de distributia frecventelor variabilei.
n
x  ˘
4
n
x
x
i
 
K
3
i
1
n
x x  ˘˘
2
2
x
x
i
i
1


Asimetria: tendinta variatiilor valorilor observate fata de

medie de a fi mai mari catre unul dintre capetele intervalului
n
de valori.
x  ˘
3
n
x
x
 ˘ 
i
n
n 2
1
x
 
G
i
1
 n 
n
3
x x  ˘˘
2
x
x
2
i

i
1
Distributia normala

Inaltimea curbei este data de formula:
n
  ˘
x
x
x x
i
1

i
1

h
2
2
σ

2
2


π


Testarea normalitatii distributiei:

variabile parametrice: testul Kolmogorov-Smirnov
variabile ordinale: testul Shapiro-Wilk
variabile nominale: testul χ2
Testul Kolmogorov-Smirnov
Utilizat pentru estimarea normalitatii distributiei acolo
unde se poate (are sens) calcula media si abaterea
medie patratica.
De fapt, determina care dintre ipoteze va fi adoptata:
H0: NU exista diferente semnificative statistic intre
distributia variabilei investigate si distributia normala.
H1: Exista diferente semnificative statistic intre distributia
variabilei investigate si distributia normala.
Se calculeaza utilizand:
1 n
n I
Fn x ˘ 
x
 ˘
x
x
i
i
1




i- n
1
i n
n
m
a
 ˘  x
K
F
x
x x
x
F
1
S
i
i



H0 este acceptata daca:
0,11
Ks ( n  0,12  )  c
n
unde:
α 0,85 0,9 0,95 0,975 0,99
cα 1,138 1,224 1,358 1,480 1,628
Testul Shapiro-Wilk
Utilizabil atat pentru variabile non-parametrice, cat si
pentru variabile parametrice (aici insa testul
Kolmogorov-Smirnov este mai puternic).
Determina daca va fi adoptata ipoteza nula sau ipoteza
alternativa:
H0: NU exista diferente semnificative statistic intre
distributia variabilei investigate si distributia normala.
H1: Exista diferente semnificative statistic intre distributia
variabilei investigate si distributia normala.
Testul Shapiro-Wilk
n
x  ˘
2
a
xi
Se calculeaza utilizand:
i

i
1
 
n
 x  ˘
2
x
μ
i
i
1


ai reprezina parametrii dati, obtinuti din tabele statistice

pe baza medianei, numarului de valori (categorii)
distincte si dimensiunii esantionului investigat.
p(W) > 0,05 => H0 este acceptata
altfel => H1 este acceptata
Analiza datelor de
- analiza diferentiala -
Analiza diferentiala a datelor
• Utilizata pentru stabilirea reprezentativitatii

statistice a diferentelor constatate intre:
• o valoare presupusa a unui indicator (ipoteza) si valoarea
estimata la nivelul populatiei investigate;
• doua sau mai multe variabile independente;
• doua sau mai multe esantioane dependente (analiza
transversala sau longitudinala).
• Utilizari frecvente:
• testarea ipotezelor statistice;
• testarea reprezentativitatii indicatorilor statistici;
• testarea semnificatiei variatiei valorilor observate pentru doua
sau mai multe variabile;
• testarea semnificatiei variatiei valorilor observate pentru doua
sau mai multe grupuri (esantioane);
Testarea ipotezelor statistice
• Exemple de ipoteze utilizate in marketing:

In cinematografele bucurestene merg cel putin o
data pe an 20% dintre locuitorii orasului;
Consumatorii frecventi si ocazionali ai unui produs
(marca) au caracteristici psihografice diferite;
Imaginea publica a hotelului Howard Johnson este
mai buna decat cea a hotelului Ibis.
• Etape pentru testarea ipotezelor:
1. Identificarea testelor statistice adecvate.
2.Formularea ipotezei nule H0 si a ipotezei
alternative H1.
3. Alegerea unei probabilitati de garantare a
rezultatelor.
4. Calcularea indicatorului asociat testului statistic.
5.Stabilirea ipotezei acceptate (nula sau alternative).
6.Formularea unei concluzii logice in limbajul
specific marketingului.
• Cunoscuta si sub denumirea de analiza

diferentiala univariata.
– Variabile categoriale: se utilizeaza testul χ2
univariat;
– Variabile parametrice: se utilizeaza testul
Student univariat (in varianta t sau z,
depinzand de marimea esantionului).
Testul χ2 univariat
• Utilizat pentru variabilele categoriale.

– Exemplu: in Romania, 25% dintre consumatori
prefera Dacia. In urma unei cercetari (sondaj)
s-a constatat ca 33% dintre soferi se afla la
volanul unui autoturism Dacia. Ipoteza este
falsa sau corecta?
• H0: NU exista diferente semnificative statistic intre
cei doi parametrii.
• H1: exista diferente semnificative statistic intre cei
doi parametrii.
• Valori asteptate (conform ipotezei):

– Conduc Dacia: 25%
– Nu conduc Dacia: 75%
• Valori observate (din sondaj):
– Conduc Dacia: 33%
– Nu conduc Dacia: 67%
• Indicatorul (calculat) al testului χ2:
2

O
A
n
x

2c
.
i

A

i
1
i


˘x ˘
2
2
3
3 2

6
7 7 
2
5
7
5
x
2c
2
,
5
6
0
,
8
5
3
,
4
1
.
    
5

5





• Pentru o probabilitate de garantare a rezultatelor

de 99%, valoarea tabelata a lui t univariat este de
6,635.
• Se observa ca χc2 ≤ χ t 2 (3,41 < 6,635) => se
accepta ipoteza nula (nu exista diferente
semnificative statistic intre valorile prognozate si
cele observate, deci ipoteza initiala a fost
corecta!)
Testul Student univariat
• Utilizat pentru variabile parametrice (se poate
calcula media), normal distribuite.
– Exemplu: venitul mediu in gospodariile celor care isi
cumpara Dacia este de 2000 de lei lunar. In urma
aceluiasi sondaj, am constatat ca venitul in cauza este
de fapt de 1752 de lei. Este confirmata sau infirmata
ipoteza initiala?
• H0: NU exista diferente semnificative statistic intre valoarea
din ipoteza si cea estimata la nivelul populatiei investigate, pe
baza valorii observate in esantionul cercetat.
• H1: Exista diferente semnificative statistic intre valoarea din
ipoteza si cea estimata la nivelul populatiei investigate, pe
baza valorii observate in esantionul cercetat.
• Valoarea calculata a testului:

x s
μ


tc
x σ





s
x
 n

• Pentru o dimensiune a esantionului de 1000 de

persoane si o abaterea medie patratica de de
3315, avem tc =2,36.
• Gradele de libertate asociate testului t univariat
sunt n-1, in cazul de fata 999, iar probabilitate de
garantare a rezultatelor α aleasa este de 95%. In
acest caz gasim tt = 1,64
• Interpretarea teoretica a testului Student:
tc ≤ tt : se accepta ipoteza nula
tc > tt : se accepta ipoteza alternativa
• tc (2,36) > tt (1,64) => se respinge ipoteza nula
(exista diferente semnificative statistic intre
valoarea ipotezei si cea estimata la nivelul
populatiei, deci ipoteza formulata este gresita).
Analiza diferentiala bivariata
• Testele utilizate sunt alese in functie de modul de
masurare al variabilelor, numarul de esantioane (grupuri)
analizate si relatiile existente intre esantioane:
• Variabile nominale:
– grupuri (esantioane) independente: χ2
– grupuri (esantioane) dependente: χ2 (varianta McNemar)
• Variabile ordinale (sau variabile interval tratate ca variabile
ordinale):
– 2 grupuri (esantioane) independente: Mann-Whitney, Wald-
Wolfowitz;
– 2 grupuri (esantioane) dependente: Wilcoxon;
– 3 sau mai multe grupuri (esantioane): Kruskal-Wallis;
• Variabile proportionale:
– 2 grupuri (esantioane) independente: testul Student pentru
esantioane independente;
– 2 grupuri (esantioane) dependente: testul Student pentru
variabile dependente;
– 3 sau mai multe grupuri (esantioane): ANOVA;
Testul neparametric χ2
• In varianta clasica, testul χ2 presupune testarea
unor variabile categoriale (de regula non-
parametrice) si independenta esantioanelor
analizate.
• Se bazeaza pe utilizarea tabelelor de
contingenta.
• Preferinta pentru imbracaminte sport, in functie
de statutul marital.
Prefera pantofii Statut marital
sport Total
Casatoriti Necasatoriti
Adesea 196 104 300
Rar 58 142 200
Total 254 246 500
• Valorile din tabelul de contingenta, rezultate in urma

cercetarii, sunt denumite valori observate.
• Bazat pe ipotezele:
H0: NU exista diferente semnificative intre cele doua variabile.
H1: Exista diferente semnificative intre cele doua variabile.
• Valoarea calculata a testului este data de:

˘
2
O
A
r
k
x 
  
ij
ij
2c
.
A
i
1
j
1
 
ij

• Valorile asteptate sunt determinate conform

distributiei (teoretice) χ2 de formula:
k
  
O
ij
ij
i
1
j
1
 
A

ij


k
 
O
ij
i
1
j
1
 

• Valoarea calculata χc2 a testului este comparata cu

valoarea tabelata χ t 2 a acestuia, obtinuta in functie de
probabilitatea de garantare a rezultatului si gradele de
libertate asociate: (r-1)(k-1).
χc2 ≤ χt2 : se accepta ipoteza nula
χc2 > χt2 : se accepta ipoteza alternativa
• Conditie:
– Pentru mai mult de doua subesantioane independente trebuie ca
frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20% (celulele din
tabelul de contingenta cu frecvente de aparitie diferita de zero si
mai mica decat 5 sa nu depaseasca 20%).
Testul Fisher
• Inlocuieste testul χ2 atunci cand dimensiunea
esantionului n<20 si k=r=2 (variabile dihotomice);
• Tabelul de contingenta pentru k=r=2:
Prefera Statut marital
incaltamintea Total
Casatoriti Necasatoriti
sport
Adesea A B A+B
Rar C D C+D
Total A+C B+D N
Testul Fisher
• Testul probabilitatii exacte (Fisher) are aceiasi ipoteza
nula:
H0: NU exista diferente semnificative intre cele doua variabile;
 ˘x  ˘x  ˘x  ˘
A
B
! N
C !
D A
! B
A !
C !
!
B
D
!
x

p
!
!C
D



• Valoarea calculata p a testului se compara cu

probabilitatea de garantare a rezultatului (ex.: 95%).
p ≤ 0,05 : se accepta ipoteza alternativa
p > 0,05 : se accepta ipoteza nula
Testul Fisher (corectia Yates)
• Atunci cand dimensiunea esantionului n>20 si
k=r=2 se utilizeaza corectia lui Yates a testului
Fisher:
N 2
  ˘
2
N
a
d
b
c
x

2c
.
 ˘x  ˘x  ˘x  ˘
a
b
d
x






Testul McNemar

• Inlocuieste testul χ2 atunci cand cele doua esantioane investigate sunt

dependente (analiza longitudinala sau transversala).
• Testul McNemar are aceiasi ipoteza nula:
H0: NU exista diferente semnificative intre cele doua variabile;
 
2
a
d
1 d
2c

.
a 
• a si d reprezinta frecventele subesantioanelor independente.
• Interpretarea este aceiasi ca si in cazul testului χ2 :
χ ≤ χ : se accepta ipoteza nula
2 2
c t
χ 2 > χ 2 : se accepta ipoteza alternativa
c t
Testul Mann-Whitney
• Utilizat de preferinta pentru pentru identificarea
diferentelor semnificative intre (doua) variabile ce
provin din esantioane independente, masurate cu
ajutorul scalei ordinale (se poate utiliza insa si in
cazul variabilelor proportionale), distribuite normal.
• Ipotezele testului Mann-Whitney:
H1: Cele doua variabile difera in mod semnificativ.
• Valoarea calculata a testului U este data de:
 ˘
n
1n
x
ic
  x
U
, 2
u
d
e
i
1
,
2
i
i
i
Testul Mann-Whitney

• Ri reprezinta suma rangurilor asociate valorilor

din esantionul i (primul sau al doilea).
• Pentru esantioane totale (n1+n2) mai mici de 30,
valorile lui Ut sunt tabelate.
• Pentru esantioane de peste 30 de subiecti se
utilizeaza testul Student pentru stabilirea
semnificatiei statistice a testului U, dupa formula:
n 1 σU
n 2

2
 unde:
U

z
n1
n

n n1
n 2
 
1
c
σ

1 n
2
U

Testul Mann-Whitney

• Interpretarea testului U pentru esantioane mai mici

de 30 de subiecti:
Uc ≤ Ut : se accepta ipoteza nula
Uc > Ut : se accepta ipoteza alternativa
• Interpretarea teoretica a testului U pentru
esantioane mai mari de 30 de subiecti:
zc ≤ zt : se accepta ipoteza nula
zc > zt : se accepta ipoteza alternativa
Testul Mann-Whitney
• Presupunand ca Esop nu a fost foarte satisfacut de
experimentul sau clasic, in care o broasca testoasa intrece
un iepure si repeta experiementul cu 6 iepuri si 6 broaste
testoase. “Clasamentul” se afla in tabelul de mai jos:
I II III IV V VI VII VIII IX X XI XII

T I I I I I T T T T T I
• Suma rangurilor R1 asociate testoaselor este:
1+7+8+9+10+11 = 46
Testul Mann-Whitney
 ˘
1
x
1c
4
6
2
5
  
U
2

• Din tabelul asociat testului Mann-Whitney gasim ca Ut

(pentru n1=6, n2=6 si α=0,05) = 5, deci putem constata
ca Uc > Ut => vom accepta ipoteza alternativa (exista
diferente semnificative intre comportamentul in
concurs al broastelor testoase si al iepurilor, dat de
suma rangurilor, mai exact 46
pentru testoase si 25 pentru iepuri)
Testul Wilcoxon
• Testul Wilcoxon este un test non-parametric bivariat
utilizat pentru identificarea semnificatiei statistice a
diferentelor identificate pentru variabile provenite din
esantioane dependente (masuratori repetate sau variabile
masurate ale acelorasi respondenti), masurate cu ajutorul
scalelor ordinale, indiferent de tipul distributiei.
– Exemplu: existenta unor diferente semnificative statistic
intre perceptiile asupra a doua marci diferite (utilizand scala
Likert) sau pentru perceptia asupra imaginii berii Redd’s
inainte si dupa realizarea unei campanii promotionale.
Testul Wilcoxon
• Ipotezele testului Wilcoxon:
H1: Cele doua variabile difera in mod semnificativ.
• Pentru calculul statisticii W+, asociata testului
Wilcoxon, se ordoneaza toate valorile observate,
se calculeaza diferentele observate wi, aceste
diferente sunt ordonate in functie de marime,
fiecareia fiind ulterior asociat un rang Ri pe baza
pozitiei in aceasta serie de diferente:
 
w
y
x

R
ra
n
g
u
l
w
i
i
i
i
Testul Wilcoxon

• De asemenea, pentru calculul W+ se utilizeaza o

functie indicator, Φi: 
 x 
I
w
0
i
i

• Valoarea W+ este data de:
n

W
˳
Ri


i

i
1
• Sustinerea (sau respingerea) ipotezei nule se bazeaza pe
probabilitatea de aparitie a valorii W+, data de tabele statistice
asociate testului (pentru n de maxim 30 de respondenti) sau
estimata cu ajutorul testului Student.
Testul Wilcoxon
• Utilizand scala Likert pentru identificarea disponibilitatii
respondentilor de a cumpara berea Redd’s, masurata inainte si dupa
expunerea la un spot de promovare a produsului, au fost inregistrate
urmatoarele valori (5 = sigur da; 4 = probabil da, 3 = indiferent, 2 =
probabil nu; 1 = sigur nu):
Respondent 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Inainte 5 3 1 5 2 4 4 3 2 1 1 5 4 2 1
Dupa 5 4 2 3 5 5 4 3 1 4 4 5 3 2 5
Diferente 0 -1 -1 2 -3 -1 0 0 1 -3 -3 0 1 0 -4
(wi)
Ranguri Ri - 3 3 6 8 3 - - 3 8 8 - 3 - 10
Testul Wilcoxon
• Insumand rangurile pozitive Ri din tabelul anterior obtinem
W+=12, careia ii este asociata o probabilitate
p(12)=0,002136 (aleasa pentru n=15 si α=0,05), mai mica
decat 0,05 – pragul de sustinere al ipotezei nule in
textul Wilcoxon, deci se poate concluziona ca ipoteza nula
este acceptata (este respinsa ipoteza alternativa) => cele
doua seturi de date NU difera in mod semnificativ (spotul
publicitar NU a schimbat atitudinea respondentilor fata de
marca Redd’s).
• Pentru esantioane dependente de peste 30 de
respondenti se utilizeaza:
 n  
n
1 2
2
n
1


W
0
,0
5

σ

z
n
c
σ
W
Testul Student bivariat

• Utilizat pentru stabilirea semnificatiei satistice a

diferentelor constatate intre doua esantioane (dependente
sau independente) sau variatia a doua variabile, masurate
pe scala proportionala.
– Exemplu: persoanele de sex masculin si feminin au un
comportament diferit in utilizarea Internetului (numarul de ore de
utilizare saptamanale)? Persoanele cu venit mare au un procent
mai ridicat de “loialisti” fata de marca decat persoanele cu venit
scazut?
• Observatii:
• Analiza este realizata diferentiat pentru medii si procente.
• Analiza este realizata diferentiat in cazul esantioanelor independente,
in functie de existenta unor diferente (semnificative statistic) intre
dispersiile celor doua grupuri.
– Bazat pe ipotezele
• H0: NU exista diferente semnificative statistic intre (media)
celor doua esantioane investigate.
• H1: Exista diferente semnificative statistic intre (mediile) celor
doua esantioane investigate.
– In cazul esantioanelor independente, se utilizeaza
testul F (varianta Levine) pentru stabilirea asocierii
dintre dispersiile celor doua grupuri (in anumite cazuri
poate fi folosit si testul Kolmogorov-Smirnov).
• Ipotezele testului F:
– H0: NU exista diferente semnificative statistic intre
dispersiile celor doua esantioane investigate.
– H1: cele doua esantioane inregistreaza diferente ale
valorilor observate semnificative statistic.
• Valoarea testului F:
2 1 22
σ σ

Fc 


• Gradele de libertate asociate testului F sunt n1-1 si n2-1, iar

probabilitate de garantare a rezultatelor α este aleasa, in functie de
nevoile analizei.
• Daca probabilitatea asociata testului Ft (data de gradele de libertate si
probabilitatea de garantare a rezultatelor) este mai mare decat cea
asociata Fc atunci se accepta H1 (cele doua esantioane au dispersii
diferite), altfel se accepta H0 (dispersiile celor doua esantioane
independente sunt asemanatoare).
• Pentru esantioane independente (medii distincte) formula testului t (z
in esantioane de peste 30 de respondenti) este:
x s
x


1
2
z
c

x
x
2
1

• Abaterea standard asociata dispersiei, pentru esantioane

independente, cu dispersii diferite semnificativ:
22
σ n
σ n
s
 
1

x
x
2
1
2

• Abaterea standard asociata dispersiei, pentru esantioane

independente, cu dispersii asemanatoare:
1 n1
1
2
 
s
σ

x
x
n
2
1
2

• Gradele de libertate asociate testului t bivariat (esantioane

independente) sunt n1+n2-2 si probabilitate de garantare a
rezultatelor α.
• Interpretarea teoretica a testului Student:
tc ≤ tt : se accepta ipoteza nula
tc > tt : se accepta ipoteza alternativa
• Analiza difera in functie de dispersiile asociate celor doua

esantioane utilizate
• Numarul de ore petrecute saptamanal utilizand resurse din Internet
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ore
14 2 3 3 13 6 2 6 6 15 3 4 9 8 5
Internet
Sex 1 2 2 2 1 2 2 2 2 1 2 2 1 1 1
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Ore 3 9 4 14 6 9 5 2 15 6 13 4 2 4 3
Internet
Sex 2 1 1 1 2 1 1 2 1 2 1 2 2 1 1
Media (orelor de Eroarea
Nr. de
Sex navigatie standard
respondenti
saptamanale) asociata mediei
Masculin 15 9.33 1.14
Feminin 15 3.87 0.44
Fc = 15,507 > F14,14,95% = 2,46 => se accepta ipoteza alternativa

(dispersiile celor doua esantioane sunt semnificativ diferite)
tc = 4,492 > t28, 95% = 1,701 => se accepta ipoteza alternativa (exista
diferente semnificative intre gradul de utilizare a Internetului pentru
barbati si femei)
• Testul t bivariat (pentru esantioane independente)
se poate folosi si pentru alti indicatori (ex.:
procente).

p s
p

z
2
c

p
2
1


˘
p
1 n
p 1

1

p
x x

s

1
2

p
n
p
2
1
2
(esantioane dependente)

• Testul t bivariat pentru esantioane dependente

(masuratori repetate sau variabile masurate ale
acelorasi respondenti).
– Exemplu: existenta unor diferente semnificative
statistic intre perceptiile asupra a doua marci diferite
(utilizand scala Stapel) sau pentru perceptia asupra
unei marci la doua momente diferite (inainte si dupa
efectuarea unor activitati promotionale?
(esantioane dependente)
• Testul t bivariat pentru esantioane dependente

D s
μ

z
D
c
n
x

2
 ˘
D
D
D
i


i
1
n
1

s
n

D
D
n
i
D
i
1
 
n
Analiza Variatiei (ANOVA)
• In ciuda denumirii, reprezinta tot un test statistic,
utilizat pentru stabilirea semnificatiei satistice a
diferentelor constatate intre trei sau mai multe
esantioane (dependente sau independente),
masurate pe o scala proportionala.
• Echivalentul testului Stundent pentru mai mult de
doua esantioane
• Exemple: utilizarea Internetului (numarul de ore de utilizare
saptamanale) difera in functie de nivelul de educatie al
persoanelor investigate (gimnazial, liceal, universitar, post-
universitar)? Categoriile (intervalele) de varsta influenteaza
semnificativ nivelul salarial al respondentilor?
– Utilizeaza:
o variabila de grupare X (ce determina
subgrupurile), denumita si variabila independenta;
o variabila analizata (dependenta), masurata pe
scala proportionala;
– Variabila dependenta este subdivizata in c subesantioane
(grupuri), de dimensiuni n1, n2,…nc.
– In analiza diferentelor constatate intre mediile subgrupurilor 1…c,
ANOVA utilizeaza notiunea de descompunere a variatiei totale,
in variatie interna (in interiorul acestor grupuri) si variatie externa
(diferenta constatata intre grupuri).
• Variatia totala:
 
V
V
V
E
T
I
nj
c
 x  ˘
2
V
x
x
T
ij
 
1
1
i
j
 x  ˘ 2
V
x
x
E

1
j
nj
c
 x  ˘
2
V
x
I
ji
 
1
1
j
i
• Gradele de libertate asociate:
variatia totala: n-1;
variatia interna: n-c;
variatia externa: c-1;
• Magnitudinea (importanta) variatiilor se calculeaza
cu ajutorul unui indicator, denumit media patratica η:
V n
Media patratica interna: 
2 in

η
I
t
e
rn
a
c

V -c

2e
η
E 1
Media patratica externa: x
t
e
rn
a

• Ipotezele asociate ANOVA:

NU exista o diferenta semnificativa statistic intre (mediile)
grupurile analizate;
grupurile investigate (mediile lor) difera in mod semnificativ;
• Ipotezele sunt acceptate sau respinse in functie de
valoarea coeficientului F asociat ANOVA:
 2 t 2 t

Fc
e
x
e
r
n
 a
in
e
rn
a

• Valorile teoretice ale testului F se regasesc in tabele,

indexate pe baza probabilitatii de garantare a
rezultatelor (1-α) si gradele de libertate interne (n-1)
si externe (c-1).
• Interpretarea teoretica a testului F (ANOVA):
Fc ≤ Ft : se accepta ipoteza nula
Fc > Ft : se accepta ipoteza alternativa
– Exemplu: Zone Records doreste sa lanseze pe piata noul
album Holograf si, pentru inceput, produce 10000 de cópii.
Trimite cate 2000 de exemplare in cele 5 depozite regionale
sau tine seama de vanzarile celorlalte grupuri de rock din
fiecare regiune din ultimul an?
• Date istorice despre vanzarile de muzica rock:
Grup Bucuresti Constanta Iasi Cluj Timisoara Total
Iris 3000 800 1000 1500 1000 7300

Bere gratis 750 200 1200 2000 1500 5650
O.C.S. 1250 400 300 1400 1000 4350
Sarmalele reci 2000 500 600 400 800 4300
Celelalte cuvinte 1000 400 100 200 700 2400
Total 9000 2300 3200 5500 5000 25000
Medii partiale 1800 460 640 1100 1000 1000
• n = 5x5=25 de observatii
• c=r=5 (n1=n2=n3=n4=n5=5)
c
 x  ˘  1071200
2
V
x
x
E
j
j
1


n
c
  ˘  3525000 198800  852000  2360000  380000  39040800

2

V
x
x
x
I
ij
 
j
1
i
1
 ˘  ˘
V
1
0
c
7
1
2
0
0
2
5 1
 x  x 
Fc
1
,
2
8
7
E
 ˘  ˘
V
3I
9
c
0
1
4
0
8
0
0
4
x x

• Fc =1,827 < Ft (5,5,α=0,05)=5,05 => se accepta ipoteza

nula (mediile subesantioanelor nu difera in mod
semnificativ).
• Cum se distribuie CD-ul celor de la IRIS?
Testul Levene
• Un test bivariat, pentru stabilirea gradului de
asemanare intre variatiile a doua esantioane
(dependente sau independente), masurate pe o
scala categoriala sau continua, normal distribuite.
• Ipotezele asociate testului Levene:
NU exista o diferenta semnificativa statistic intre dispersiile
grupurilor analizate (dispersiile sunt asemanatoare – avem o
relatie de homoscedasticitate);
Disersiile grupurilor investigate sunt semnificativ diferite
(prezinta o relatie de heteroscedasticitate);
Testul Levene
• Indicatorul testului este denumit Levene F sau W
si se calculeaza conform formulei:
c
 ˘ x
2
 ˘
n
c
n
D
D
x
j

j
1

W
c
n
c
j
 ˘x  ˘
2
c
1
D
D
x
ij
i
j
1
i
1
 
• unde: 
D
y
 
ij
ij
j
Testul Levene

• Valorile teoretice ale testului Levene se regasesc in

tabele, indexate pe baza probabilitatii de garantare a
rezultatelor (1-α) si gradele de libertate (n-c).
• Interpretarea teoretica a testului Levene:
Fc ≤ Ft : se accepta ipoteza nula (relatia este homoscedastiva)
Fc > Ft : se accepta ipoteza alternativa (relatia este
heteroscedastiva)
Testul Kruskal-Wallis
• utilizat pentru stabilirea semnificatiei satistice a
diferentelor constatate intre trei sau mai multe esantioane
(dependente sau independente), masurate pe o scala
ordinala, normal distribuite si homoscedastice.
• Kruskal-Wallis este echivalentul testelor Mann-Whitney si
Wilcoxon pentru mai mult de doua esantioane.
– Exemple: identificarea gradului in care nivelul de educatie
influenteaza preferinta pentru un anumit produs, masurat pe o
scala categoriala; Stabilirea gradului in care gradul de loialitate al
respondentilor este influentat de perceptia imaginii unui produs?
• Ipotezele asociate testului Kruskal-Wallis:
NU exista o diferenta semnificativa statistic intre (medianele)
Grupurile investigate (medianele) difera in mod semnificativ;
• Gradele de libertate asociate K sunt c-1 (c
reprezentand numarul de grupuri determinat de
variabila de grupare asupra variabilei independente).
valoarea coeficientului K asociat testului:
c
  ˘
2
n
rj
r
x
j

j c
1 n
x  ˘
K
n
1

c
j
x  ˘
2
ri
r
j
j
1
i
1
 
• unde: - rij reprezinta rangul observatiei i din grupul j;

– rj – media subesantionului j;
– nj – dimensiunea subesantionului j;
– c – numarul de grupuri (c>2)
• Interpretarea teoretica a testului Kruskal-Wallis se bazeaza
pe valorile tabelate ale testului χ2, pentru c-1 grade de
libertate si o probabilitate de garantare a rezultatelor de α:
Kc ≤ χ2t: se accepta ipoteza nula (grupurile nu sunt semnificativ
diferite);
Kc > χ2t: se accepta ipoteza alternativa (grupurile au comportamente
diferite).
• Observatii:
– In cazul variabilelor nominale se utilizeaza testul χ2 , indiferent de
numarul subesantioanelor;
– Testul K este mai exact decat χ2 in cazul variabilelor ordinale, utilizand
rangurile, spre deosebire de χ2, care utilizeaza frecvente de aparitie.
• Exemplu: In urma unor focus grupuri realizate pentru
identificarea perceptiei consumatorilor potentiali
pentru berea Redd’s, inainte de lansarea acesteia pe
piata, au fost stranse date despre nivelul de educatie
(liceu, universitar, post-universitar) al respondentilor,
ca si asupra perceptiei asupra gustului, pretului si
imaginii produsului, folosindu-se scala Stapel (note
de la 1 la 10, 10 reprezentand valoarea maxima).
Datele stranse se regasesc in tabelul urmator.
• Pentru fiecare respondent, valorile celor 3 indicatori
ai perceptiei (gust, pret si imagine) sunt agregati
utilizandu-se media algebrica.
Liceu Facultate Master/Doctor
1 6.4 2.5 1.3
2 6.8 3.7 4.1
3 7.2 4.9 4.9
4 8.3 5.4 5.2
5 8.4 5.9 5.5
6 9.1 8.1 8.2
7 9.4 8.2
8 9.7
Medie 8.2 5.5 4.9
• Valorile sunt agregate intr-o singura variabila, de
dimensiunea n=21, iar apoi sunt atribuite ranguri, dupa
sistemul explicat pentru testul Mann-Whitney:
1 11 2 1
2 12 3 4
3 13 5.5 5.5
4 17 8 7
5 18 10 9
6 19 14 15.5
7 20 15.5
8 21
Suma rangurilor 131 58 42
Medie 16.4 8.3 7
• Suma tuturor rangurilor este 231, cu o medie de 11
(231/21). Tabelul patratelor diferentelor de rang este:
1 0 81 100
2 1 64 49
3 4 30.25 30.25
4 36 9 16
5 49 1 4
6 64 9 20.25
7 81 20.25
8 100
Suma
29.16 7.29 16
rangurilor
• Suma patratelor diferentelor intre rangurile observate si media
rangurilor este 769, in timp ce patratul diferentelor dintre
rangurile mediie ale grupurilor si media generala a rangurilor
este 52,45. In acest fel, putem calcula:
c
  ˘
2
n
rj
r
x
j
769
x  ˘ 
j c
1 n  20  293,23
K
n
1

c
x
52.45
 ˘
2
ri
r
j
j
1
i
1
 
– Observam ca Kc = 293,23 > χ2t =5,991, calculat pentru 3-1 grade de

libertate si un α=0,05, deci acceptam impoteza alternativa,
concluzionand ca nivelul de educatie influenteaza semnificativ modul in
care este perceputa marca de bere Redd’s
Analiza CoVariatiei (ANCOVA)
• Reprezinta un test statistic, utilizat pentru stabilirea
semnificatiei satistice a diferentelor constatate intre trei
sau mai multe esantioane (dependente sau
independente), masurate pe o scala categoriala sau
continua, normal distribuite si homoscedastice.
– Exemple: utilizarea Internetului (tipuri de abonament) difera in
functie de nivelul de educatie al persoanelor investigate
(gimnazial, liceal, universitar, post-universitar)? Cum este
influentata intentia de cumparare pentru un produs, la nivelul unor
grupuri distincte, de catre expunerea la instrumente promotionale
distincte, in conditiile in care respondentii cunosteau deja
produsul?
• ANCOVA testeaza in plus (fata de ANOVA) efecte ale
covariantei (influenta unor variabile independente
suplimentare) variabilei dependente.
• CoVarianta este utilizata pentru izolarea efectelor altor
variabile indepentente (covariante) asupra variabilei
dependente investigate.
• Variabilele independente suplimentare sunt denumite
variabile de control.
• Variabila dependenta este subdivizata in c
subesantioane (grupuri), de dimensiuni n1,
n2,…nc.
• Covariatia totala a subesantioanelor este
descompusa in covariatie interna (in interiorul
acestor grupuri) si covariatie externa (diferenta
constatata intre grupuri).
• Variatia totala:  
VI
V
T
E





n
 c
j
x  ˘
2
y
ij
n
c
 
j

j
1
i
1
2 ij
V
n
T
j
1
i
1
 
 
c
  ( yij  y j )(xij  x j )
V
E
j
1
i
1
 
c
Analiza CoVariatiei  y)(x  x)
(ANCOVA)
 n( y
V
j
I
j
j
1

• CoVariatia este data de:
n
c
c
j
 
2 j
2 ji
yi
x
n
c
 
j
j1
   
1
1j
O
i
C
2 ij i
V
2 ij
x
y
-
E
n
j1
 
1
nj

y
x
n
c
ij
ij
 x 
j
O
C
1
V
x
yi
i
 
I
ij
 
n
1
1
j
j
• Gradele de libertate asociate (fiecare variabila de
control suplimentara duce la pierderea unui grad de
libertate):
variatia interna: n-c-1;
variatia externa: c-1;
• Coeficientul de determinare (indica in ce masura
variatia din interiorul/exteriorul grupurilor identificate
la nivelul variabilei dependente este explicata de
variabila de grupare):
2 E
C V
O T
V
2 ex

r
externa (intre grupuri):
te
rn
V

2
C V
O T
VI V I
interna (in interiorul grupurilor):
2i nte

r
r
n

• Ipotezele asociate ANCOVA:

NU exista o diferenta semnificativa statistic intre (mediile)
grupurile investigate (mediile lor) difera in mod semnificativ;
valoarea coeficientului F asociat ANCOVA:
 ˘
V
1
x

Fc
 
V
n
c
1
x
I

• Interpretarea testului F se face la fel ca in cazul

ANOVA, prin identificarea valorilor tabelate,
indexate pe baza probabilitatii de garantare a
rezultatelor (1-α) si gradele de libertate interne (n-1)
si gradele de libertate externe (c-1).
• Interpretarea teoretica a testului F (ANCOVA):
Fc ≤ Ft : se accepta ipoteza nula
Fc > Ft : se accepta ipoteza alternativa
• Exemplu: Pentru cursul de Analiza Datelor de
Marketing utilizand SPSS avem 4 manuale
alternative. Pentru a testa care dintre ele este mai
util studentilor, am oferit cate un manual fiecarei
grupe. Am administrat un examen comun, cu 25 de
intrebari, tuturor celor 4 grupe, iar apoi am prelevat
esantioane formate din 10 studenti din fiecare
grupa, pentru a determina daca exista diferente
semnificative in pregatirea acestora.
• Raspunsuri corecte la examen, pe baza unor
manuale diferite
Medii
Nota la SPSS 1 2 3 4 5 6 7 8 9 10 Total
partiale
Grupa 1 12 15 14 14 18 18 16 14 19 19 159 15,9
Grupa 2 13 16 15 16 19 17 19 23 19 22 179 17,9
Grupa 3 14 16 18 20 18 19 22 21 23 20 191 19,1
Grupa 4 15 16 13 15 19 17 20 18 20 21 174 17,4
• Media generala a raspunsurilor corecte: 17,57

• n = 4 x 10 = 40 de observatii
• c = 4, iar r = 10
c
 x  ˘  5,2675
x j
2
V
x
E

1
j
n
cj
 x  ˘     
2
x
x
V
5
4
8
6
6
6,
6
2
2
7
1
9,
9,
4,
1,
ji
I
 
1
1
i
j
 ˘  ˘
V
x x
1 1
0
5
2,
6
7
5
4
c 1
  
E
Fc
0
6
4
8
0,
 ˘  ˘
7
1
,1
x x
V
1
0
c
I
– Fc = 0,0648 < Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza
nula (mediile subesantioanelor NU difera in mod
semnificativ) => dintre cele 4 grupe, nu exista cel putin
doua ale caror masteranzi au o pregatire semnificativ
diferita la Analiza Datelor de Marketing Utilizand SPSS
(ex.: grupa 1 a raspuns corect, in medie, la 16 intrebari,
iar membrii grupei 3 au raspuns corect, in medie, la 19
intrebari, insa aceasta diferenta nu este semnificativa
statistic, data fiind dimensiunea esantioanelor utilizate).
– Putem concluziona ca nu conteaza ce manual voi
recomanda anul viitor?
– Dupa cum stiti, la Marketing Strategic studentii sunt
ordonati in diferite grupe in functie de facultatile absolvite,
deci este teoretic posibil ca unii dintre ei sa aiba o
pregatire anterioare in domeniul analizei datelor, ceea ce
ar afecta acuratetea testului efectuat.
– Pregatirea anterioare poate fi estimata prin intermediul
notei la Metode si Modele in Marketing, de pe primul
semestru, care presupunea cunostinte in aproximativ
acelasi domeniu.
• Raspunsuri corecte la examen, pentru grupe care
s-au pregatit cu manuale diferite, incluzand nota la
Metode si Modele in Marketing.
1 2 3 4 5 6 7 8 9 10 Total Medii partiale
SPSS 12 15 14 14 18 18 16 14 19 19 159 15,9
Grupa 1
Modelare 5 5 6 7 7 8 8 9 9 10 74 7,4
Grupa 2 SPSS 13 16 15 16 19 17 19 23 19 22 179 17,9
Modelare 4 4 5 6 6 8 8 9 10 10 70 7
Grupa 3 SPSS 14 16 18 20 18 19 22 21 23 20 191 19,1
Modelare 4 4 6 6 7 8 8 9 10 10 72 7,2
Grupa 4 SPSS 15 16 13 15 19 17 20 18 20 21 174 17,4
Modelare 4 5 5 6 6 7 7 9 9 10 68 6,8
• Analiza covariatiei:
c
 x n
˘
V
y
y
x
x
1j
6
1
 x̆ 
ij
E
ij
j
j
1
i
1
 

c
  ˘x  ˘
V
n
y
x
x
3
,3
 x
I
j

j
1
 ˘  ˘ 
1
6
1
1
x
V
 x  
11
3
,
1
Fc
  ˘   ˘
4
0
9
V
n
c
1
3
,
3
x x
I

• Fc = 13,1 > Ft (39,9,α=0,05) = 2,84 => se accepta

ipoteza alternativa (mediile subesantioanelor difera
in mod semnificativ) => exista diferente
semnificative intre contributiile la pregatirea
studentilor a celor 4 manuale utilizate!
Analiza datelor de
- Analiza asociativa -
Analiza asociativa a datelor
• Presupune masurarea gradului de asociere

sistematica a valorilor a doua variabile sub
aspectul:
Directiei (directa / inversa)
Intensitatii (fortei)
puternica;
moderata;
slaba;
foarte slaba;
inexistenta.
Semnificatiei statistice.
• 4 tipuri de asocieri statistice:
Non-monotone (prezenta sau absenta unei variabile este
sistematic asociata cu prezenta sau absenta valorilor unei alte
variabile) – nu permite identificarea clara a directiei (ex.:
utilizatorii PlayStation sunt copii, nu adulti);
Monotone (se poate identifica directia asociatiilor, dar nu si
intensitatea) – ex.: inaltimea unei persoane influenteaza marimea
pantofilor);
Liniara si non-liniara (se pot identifica directia si intensitatea)
daca se cunoaste valoarea unei variabile poate fi
identificata automat voaloarea celeilalte variabile;
• Indicatori utilizati:
– Coeficientul de corelatie rphi (Φ);
– Coeficientul de contingenta C;
– Coeficientii de corelatie a rangurilor ρ
(Spearman) si γ (Kruskal si Goodman);
– Coeficientul de corelatie r (Pearson);
Coeficientul de corelatie rphi
Utilizat pentru identificarea asocierilor existente intre doua variabile dihotomice.
Coeficientul de corelatie:

a d
d
b
c a

rp
 ˘x  ˘x  ˘x  ˘
h
i
]1
/
2
[
a
b
b
d
x

Directia asocierii este data de semnul lui rphi
Coeficientul de determinare (rphi)2 determina gradul in care variabila dependenta este

influentata de variabila independenta.
Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua

esantioane este determinat cu ajutorul testului χ2 in varianta Fisher (esantioane
independente) sau McNemar (esantioane dependente).
Coeficientul de corelatie rphi
Intensitatea corelatiei:
0 ≥ |rphi| ≥ 0,2 => corelatie nesemnificativa;
0,2 > |rphi| ≥ 0,4 => corelatie foarte slaba;
0,4 > |rphi| ≥ 0,6 => corelatie slaba;
0,6 > |rphi| ≥ 0,8 => corelatie moderata;
0,8 > |rphi| ≥ 1 => corelatie puternica;

Coeficientul de contingenta C
• Utilizat pentru variabile categoriale (tabele de contingenta
de dimensiunea rxk);
• Dependent de conditiile de calcul ale χ2.
• Nu poate fi determinata directia asocierii!
• Coeficientul de contingenta:
2c χ
χ

2c

N

N.B.: Coeficientii de contingenta nu pot fi comparati decat daca
provin din tabele de contingenta de aceeasi dimensiune!
Coeficientul de contingenta C
Intensitatea corelatiei:
k

1
C
 [0
,
k



Intervalul astfel obtinut este impartit in 5 sub-intervale

egale
Nu exista un test de semnificatie al Coeficientului de

contingenta!
Denumit si “coeficientul de corelatie al rangurilor”, este

utilizat doar pentru a compara variabile masurate pe
scala ordinala sau interval.
Coeficientul Spearman de corelatie a rangurilor
n

2i
6
D
ρ
1
  x i
1 2

n
n
1

Di reprezinta diferentele dintre rangurile unei inregistrari
(respondent);
Directia asocierii este data de semnul lui ρ.
Intensitatea asocierii este data de valoarea lui ρ.
Gradul de semnificatie al asocierii este determinat cu

ajutorul testului de semnificati al coeficientului Spearman,
calculat cu ajutorul formulei:
ρ

Z
1
c

n
1

• Bazat pe ipoteza nula:

H0: coeficientul de corelatie NU DIFERA in mod semnificativ de
zero.
H1: coeficientul de corelatie DIFERA in mod semnificativ de

zero.
• Valoarea calculata zc a testului se compara cu
valoarea tabelata zt a acestuia, obtinuta in functie de
probabilitatea de garantare a rezultatului.
-Zt ≤ Zc ≤ Zt : se accepta ipoteza nula
altfel : se accepta ipoteza alternativa
Coeficientul de corelatie γ
(Goodman si Kruskall)
• Se poate utiliza atunci cand coeficientul Spearman nu ofera valori
concludente.
• Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1.

P P
Q Q
γ 

– P se obtine inmultind valoarea frecventei din coltul din stanga sus a
tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea
care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care
se insumeaza cu produsul dintre prima valoare a randului urmator si
suma frecventelor incepand de pe randul urmator, insa din nou fara
valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi
reguli, insa incepand din dreapta sus.
Coeficientul de corelatie γ
(Goodman si Kruskall)
Categorie de Intentiile de cumparare
varsta 1 2 3 4 5
1 – (sub 20 de ani) 5 10 15 20 25
2 – (20 – 40 de ani) 10 10 15 20 20
3 – (40 – 60 de ani) 20 15 15 10 5
4 – (peste 60 de ani) 35 25 20 5 1
P = 5 (10+15+20+20+20+15+15+10+5+25+20+5+1) +
10 (15+20+20+15+10+5+20+5+1) + 15 (20+20+10+5+5+1) +
20 (20+5+1) + 10 (15+15+10+5+25+20+5+1) +
10 (15+10+5+20+5+1) + 15 (10+5+5+1) + 20 (5+1) +
20 (25+20+5+1) + 15 (20+5+1) + 15 (5+1) + 10x1 = 6815
Utilizat atunci cand cel putin una dintre variabile este metrica, variabilele sunt
continue, au distributii normale si dispersii asemanatoare.
Calculat cu ajutorul formulei:
n
  
n
x
yi
y
i
i
r
i
1
i
1
i
1
  
n
n
x  x 

˘ x ˘˘x ˘ x ˘
2
2
n
x
yi
y
 x
i
i

i
1
i
1
i
1
i
1

   
Directia asocierii este data de semnul lui r.
Intensitatea asocierii este data de valoarea (absoluta) a lui r.

Coeficientul de determinare r2 indica gradul in care variatiile de la nivelul
variabilei independenta explica variatiile constatate la nivelul variabilei
dependente.
• Gradul de semnificatie al asocierii este stabilit prin
testarea semnificatiei statistice a coeficientului r.
• Bazat pe ipoteza nula:
H0: nu exista o corelatie intre variabilele investigate (r nu este in
mod semnificativ diferit de zero).
x 
11
rr

1
,5
1
3
lo
g
1
0

Z
1
c
n
3

• Valoarea calculata Zc a testului se compara cu valoarea
tabelata Zt a acestuia, obtinuta in functie de
probabilitatea de garantare a rezultatului.
-Zt2 ≤ Zc2 ≤ Zt 2 : se accepta ipoteza nula
altfel : se respinge ipoteza nula
• Indicatori utilizati:
– Variabile categoriale:
• variabile dihotomice =>rphi;
• variabile ordinale sau interval => ρ sau γ;
• variabile nominale, non-dihotomice: C.
– Variabile proportionale => r;
Corelatii partiale
• Nu intotdeauna o corelatie observata reprezinta
asocieri directe intre variabile (corelatia nu
implica cauzalitatea)!
• Exemplu: a fost demonstrata o relatie directa si
puternica intre consumul de inghetata si
infractionalitatea (numarul de infractiuni
saptamanale) din New York!! (sa le propunem sa
interzica inghetata!?!)
– Motivul: ambele sunt influentate de temperatura!
Corelatii partiale
• Coeficientul de corelatie partiala masoara gradul
de asociere dintre doua variabile, excluzand in
prealabil efectele asupra variabilei dependente a
una sau mai multe variabile de control
(independente)!
– Exemple:
• efectul asupra cresterii vanzarilor al unui spot promotional,
atunci cand este exclus efectul reducerilor de pret asociate;
• perceptia consumatorilor asupra calitatii produsului este
influentata de perceptia asupra pretului, in conditiile in care
se exclude perceptia asupra imaginii marcii, etc.
Corelatii partiale
Coeficientul de corelatie partiala dintre variabila independenta X si
variabila dependenta Y, in conditiile in care este exclus (“controlat”)
efectul variabilei independente (de contro) Z, notat rxy-z.
Calculat cu ajutorul formulei:
x ˘x ˘
rx
y
x
z
y
z

rx
y
-
z
˘ ˘
2 xz
2 yz
x x
1
r
1
r




unde: rxy este coeficientul de corelatie dintre variabilele X si Y, etc.

Corelatii partiale
Coeficientii de corelatie partiala au o ordine asociata, care
indica numarul de variabile de control utilizate (coeficientii
de corelatie directi sunt “de ordin zero”).
Formula de calcul este recursiva. Coeficientul de corelatie

partiala de ordin n (cu n variabile de control Z={Z1,
Z2,…Zn}) se calculeaza pe baza a trei coeficienti
de corelatie partiala de ordin n-1:

ρ
ρ
ˇ  x ˇ  x ˇ
x
y
-
Z
\
Z
Z
\z
Z
\
z
x

ρ
y
z
z
0
0
0
0
x
y
-
z
2x
1
ρ
1
ρ
  
2y 
Z
\
z
Z
\
z
z
z
0
0
0
Corelatii partiale


Directia asocierii este data de semnul lui rxy-z.

Intensitatea asocierii este data de valoarea (absoluta) a
lui rxy-z.
Coeficientii de corelatie partiala sunt utilizati pentru o

predictie mai exacta a directiiei asocierilor (cauzalitatii),
dar nici ei nu trebuie considerati exclusivi!
Corelatii partiale
Atitudinea fata de berea Redd’s.
Respondent Atitudinea (scala Ore petrecute Importanta

Stapel) lunar in cluburi relativa a pretului
1 6 10 3
2 9 12 10
3 8 12 4
4 3 4 1
5 10 12 10
6 4 6 1
7 5 8 7
8 2 2 4
9 10 18 8
10 9 9 10
11 10 17 8
12 2 2 5
Corelatii partiale
Coeficientii simpli (de ordin zero) intre
variabile sunt:
rx1y = 0,9361 

rx
y
x
z
y
z
ryx2 = 0,7334 rx 
y1
x
2x z
2y z
 
-
1
r
1
r
rx1x2 = 0,5459
˘x ˘
0
,
9
3
6
0
,1
5
x
4
9
5
3
,7
3
4
0
,3
9
8
6
 
˘
rx
˘
y1
x
2
1
0
,4
5
9
5
1
0
,7
3
x x 3
4
-
2
Corelatii partiale




• In conditiile in care rxy-z = 0,9386 se poate

conclude ca preferinta pentru berea Redd’s
este foarte puternic asociata cu numarul de ore
petrecut de respondenti in cluburi, chiar si
atunci cand este exclus efectul perceptiei
respondentilor asupra pretului berii.
Analiza datelor de
- analiza predictiva -
Analiza predictiva
• Presupune realizarea de estimari asupra

evolutiei viitoare a fenomenelor de
marketing, utilizand ca metode de lucru:
Analiza seriilor dinamice (univariata)
Regresia (bivariata sau multivariata)
liniara;
logistica;
hiperbolica;
Modelarea.
Criterii de clasificare ale
analizei predictive
• Gradul de cuprindere la care se face previziunea:
• nivel de produs (marca);
• nivel de grup de produse (linie sau gama);
• nivel de unitate economica;
• nivel de ramura de activitate;
• nivelul economiei nationale (previzune macro-economica);
• Aria geografica inclusa in procesul de previziune:
• nivel local;
• nivel regional;
• nivel national;
• nivel international.
Criterii de clasificare ale
analizei predictive
• Orizondul de previziune poate fi:
• scurt (o perioada/1 an);
• mediu (pana la 5 perioade/ani);
• lung (peste 5 perioade/ani);
• Alte criterii:
• Precizia rezultatelor (previziuni cantitative si
calitative);
• Tipul de date utilizate;
• Considerarea influentelor unor factori perturbatori
(metode endogene si exogene);
Lanturile Markov
• Metoda lanturilor Markov reprezinta o modalitate de
previziune cu utilitate limitata, ce nu presupune nici
existenta unei serii cronologice, nici existenta unei
asocieri.
• Proprietatea Markov: starea viitoare depinde doar de
starea prezenta si de o matrice a probabilitatilor de
schimbare a starii (starea viitoare nu depinde de stari
trecute) – viitorul este conditional independent de trecut.
• Probabilitatea unei anumite stari de a depinde de starile
anterioare:
P(sik | si1, si 2 ,K, sik 1 ) P(sik | sik 1 )

Lanturile Markov
• Probabilitatea unei stări poate fi calculată cu
ajutorul următoarei formule:
˘ x ˘
P
,
s i1 s i s
,2 s
s
P s
| ki i | 1
, ,2 s
s
si s
,
s
P
,
si
,
s
x K K 
x K 
i
i
k
1
i
2
i
k
1
1
i
2
i
k
1
 x ˘ x ˘
 K
P P
P P
, 1i s i
s
 K
k
1
k
ik
1
i
˘ x ˘ ˘ ˘
| ik
s
P
s
|i
s2
P
s
 x  K
x x
i
k
1
ik
2
i
1
i
1
 
• Pentru a defini lanţul Markov trebuie specificate :

a

P
|
si
• probabilitatea de tranziţie:  x
ij
j
• probabilitatea iniţială:
 i  P(si )
Lanturile Markov
• Matricea probabilitatilor de tranzitie este
alcatuita pe baza probabilitatile de transformare
(schimbare a starii) a fiecarei variabile:
– Exemplu: utilizarea clasica in marketing – evolutia
cotei de piata (matricea probabilitatii de tranzitie este
alcatuita pe baza unui indicator de loialitate / tranzitie
a respondentilor pentru o anumita marca).
– Pe piaţa şampoanelor dermato-cosmetice există trei
produse (2007): Selegel, T-gel şi Nizoral, cu cotele de
piata:
Selegel Ducray Nizoral
25% 35% 40%
Lanturile Markov
• Indicele de loialitate. Selegel Ducray Nizoral
0,85 0,75 0,8
• Probabilitatile de tranzitie (cumparatori

care isi vor schimba samponul in luna
urmatoare):
Produsul Reorietări
părăsit Selegel Ducray Nizoral
Selegel x 0.10 0.05
Ducray 0.15 x 0.10
Nizoral 0.10 0.10 x
Lanturile Markov
• Matricea probabilitatilor de tranzitie.
0,85 0.10 0.05
0.15 0,75 0.10
0.10 0.10 0,8
• Cotele de piata la t1:
     
S
e
g
l
e
l
2
5
0
,
8
5
3
5
0
,
1
0
4
0
*
0
,
0
5
3
0
,
5

Selegel Ducray Nizoral

30,5% 32,75% 36,75%
Analiza seriilor dinamice

• Cunoscuta in literatura de specialitate si sub denumirea

de analiza seriilor de timp.
• Presupun utilizarea unor date istorice (inregistrari ale
evolutiei unui fenomen in timp).
• Reprezinta cea mai facila metoda (logistic si matematic)
de realizare a previziunilor.
• Previziunea naiva: in perioada urmatoare variabila
investigata isi va pastra nivelul actual:

P
Y

t
1
t
Metoda modificarii procentuale

• Metoda modificării procentuale (MMP) urmăreşte să

evalueze schimbarea procentuală a variabilei între
perioade succesive de timp.
  
Pt
t
M
M
Pt
Y0

1
– unde: MMPt reprezinta media modificării procentuale pentru

primele t perioade, iar Y0 este valoarea observată din prima
perioada a variabilei previzionate.
• Exemplu: Presupunand un volum al desfacerilor (vanzari)
pentru berea Tuborg in primele 6 luni ale anului conform
tabelului de mai jos, se vor estima vanzarile din luna iulie.
Luna Vanzari (hl)

Ianuarie 12000
Februarie 10000
Martie 11000
Aprilie 13000
Mai 14000
Iunie 15000
• Exemplu: Presupunand un volum al desfacerilor
(vanzari) pentru berea Tuborg in primele 6 luni ale anului
conform tabelului de mai jos, se vor estima vanzarile din
luna iulie.

Y
Y 1

M
M
Pt
t n
0


1M
5P
0
0
1
2 6
0
0
0
0
 
M
6
0
0
6
1 16

 ˘
Y
1 iu
2 lie

0
0
0
x
0
1
0
5 
6
0
0
mobile

• Metoda modificării procentuale mobile (MMPM) are un

grad mai mare de precizie decat MMP si este utilizata in
cazul in care se observa tendinte (trend-uri) in date.
• MMPM presupune calculul prealabil al indicilor care
exprimă modificarea procentuală a variabilei de la o
perioadă la alta.
• De asemenea, presupune calculul prealabil al mediilor
mobile ale schimbarilor procentuale (MPM), dupa formula:
Y
Y
Y
    
  
t
2
t1

t
t
1
 
Y1
Y
Y
.
.
.
2
M
P
Mt

1
2

t

Y1
t
n
mobile
• Metoda modificării procentuale mobile (MMPM)
presupune utilizarea formulei de previziune:
x  ˘
Pn
1
M
M
Pn
·Y

1
n
• Pentru perioada m care urmeaza celor n perioade
observate (date istorice), formula se transforma
dupa:
Pn
M
M
Pn
·
Y
·mn
Y
  
m
n
Metoda mediilor mobile

• Metoda mediilor mobile (MM) este utilizata atunci cand se doreste

acordarea unei importante (greutati) superioare observatiilor recente
dintr-un set de date istorice, fata de cele de la inceputul setului.
• Previziunile se fac asupra unui set de valori ajustate (teoretice), care
inlocuiesc termenii initiali ai seriei cronologice, determinate cu ajutorul
formului:
L
-
1 2
ˆ  1 L  
Yt
Yt
t- 2
L
i


• presupunea alegerea unui interval de referinta L (L < n), la nivelul caruia se
vor raporta calculele pentru determinarea mediilor mobile. Se recomanda ca L
< 8.
• Pentru o serie de aplicatii, se pot utiliza si date “viitoare”,
metoda fiind centrata pe o anumita valoare. In acest fel,
metoda nu prevede evolutia ulterioara a fenomenului, ci
valorile “asteptate”, conform trend-urilor presupuse de
valoarile observate.
• Metoda se bazeaza pe propritatea mediei aritmetice de
compensare a erorilor, diminuand astfel influenta
oscilatiilor periodice. Sirul obtinut reprezinta trendul si
reflecta tendinta comuna, generala a seriei cronologice.
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti.
Perioada 1 2 3 4 5 6 7 8 9 10 11 12
Valori observate 5 6 8 7 6,5 7,2 6,8 6,3 6 6,6 7,4 7,8
Valori previzionate (L=5) - - 6,5 6,9 7,1 6,8 6,6 6,6 6,6 6,8 - -
1 5
1 5
5
• Metoda de calcul:
 ˘
P3
5
6
8
7
6
,
5
6
,
5
Yt
  x    

i
1


1 515 i
1 51
6
     ˘ 
P4
Yt
6
8
7
6
,
7
5
,
2
6
,
9
  x

i
7
2

     ˘ 
P
8
7
6
,
5
7
,
2
6
,
8
7
,
1
  x
5
t
5
3


• Previziunea se face asupra setului de date

ajustat, utilizand metode de analiza a seriilor
dinamice la alegere (MMP, MMPM, etc.).
• Media mobila a schimbarilor procentuale (MPM)
pentru setul de valori ajustate dupa metoda
mediilor mobile este:
Y
   
Y

Y
Y

  
t
t
1
t1
 .t2 
.
.
Y
1
Y
t
1
Y1
M
P
Mt
 
0
6
.1
0
2
5
t
2

n
ˆ ˆ
P1
M
M
P10
·Y1
·3
6
Y
. 10
6
9
2
 
3
0
Metoda nivelarii exponentiale

• Metoda nivelarii exponentiale este mai precisa decat

metodele anterioare. La randul ei, creaza posibilitatea ca
cele mai recente observatii sa fie luate în calcul cu ponderi
mai mari.
x  ˘
Pt
a
Y
1
a
Pt

1 
t

• presupunea alegerea unui coeficient de nivelare α (0 < α
< 1), valoarea acestuia fiind stabilita fie prin utilizarea
mediilor mobile, fie prin incercari, urmata de evaluarea
acuratetei seriilor de valori previzionate (suma patratelor
valorilor reziduale).
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti. Vom analiza trei coeficienti:
• α = 0,5;
  x  ˘
P2
0
,
5
6
1
0
,
5
5
• α = 0,33;
• α = 0,25;

Perioada 1 2 3 4 5 6 7 8 9 10 11 12
Valori observate 5 6 8 7 6,5 7,2 6,8 6,3 6 6,6 7,4 7,8
Previziune (α=0,5) 5 5,5 6,75 6,9 6,7 6,9 6,9 6,6 6,3 6,4 6,9 7,4
Previziune (α=0,33) 5 5,33 6,22 6,48 6,49 6,73 6,75 6,6 6,4 6,47 6,78 7,12
Previziune (α=0,25) 5 5,25 5,94 6,2 6,28 6,51 6,58 6,51 6,38 6,44 6,68 6,96



• Valorile asteptate pentru perioada urmatoare:

• 7,6 milioane (α = 0,5);
˘
P1
0
,
5
7
,
8
1
0
,
5
7
,
4
7
,
6
  x  
3
• 7,34 milioane (α = 0,33);

˘
P
0 13
,
3
3
7
,
8
1
0
,
3
7
3
,
1
2
7
,
3
4
  x  

• 7,18 milioane (α = 0,25);

  x  ˘ 
P
0 13
,
2
5
7
,
8
0
1
,
2
5
6
,
9
6
7
,
1
8
• Pe care o vom alege?
• Metoda nivelarii exponentiale duble (Metoda Brown) este
recomandabila atunci cand seria dinamica poseda în
configuratia sa o tendinta liniara.
• Necesita doar un minim de 3 valori istorice pentru a fi
implementate (insa acuratetea ei este influentata direct de
dimensiunea seriei istorice utilizate).
• presupunea utilizarea a doi vectori de nivelare dinamica
αi si þi (0 < αi, þi < 1).
• Pentru previzionarea unei valori ulterioare k momentului

actual (t), se utilizeaza formula:

P
a
 
þ
Ptk
t
k
t

-1
• unde:
a
       
2
P
P

a
P
P

t
t
t
t
t
1
a
• iar
Pt  Xt  1  Pt
1
Pt   t 1 Pt1
Metoda nivelarii P
exponentiale
• Metoda nivelarii exponentiale cu doi parametrii (Metoda
Holt) este mai flexibilitata decat metoda Brown, intrucat
permite nivelarea tendintei folosind un parametru diferit de
cel al seriei dinamice iniţiale.
• Necesita doar un minim de 3 valori istorice pentru a fi
implementate (insa acuratetea ei este influentata direct de
dimensiunea seriei istorice utilizate).
• presupunea utilizarea a 3 coeficient de nivelare dinamici
α, þ si ç (0 < α, þ, ç < 1).
• Metoda este utilizata pentru a determina trend-ul evolutiei
fenomenului, iar pe baza acestuia nivelul ulterior al
variabilei previzionate.
• Seriile asociate metodei Holt au forma:
Pt x  ˘ 
a
þ
st
t
t

• unde α reprezinta o constanta subunitara asociata

nivelului initial al seriei, þ este un indice asociat trend-ului
seriei, iar st este asociat erorilor (influentelor) aleatorii.
• Tt reprezinta trend-ul (evolutia) asociat seriei de valori
istorice observate, calculat dupa formula:
 x ˘   
T
ç
Pt
-1
Pt-
1
ç
P

t
t
1

• Previziunea valorilor, conform metodei Holt, presupune

utilizarea formulei:
 ˘x
P
a
Y
1
a
T
 x  
1
t
t

• In cazul in care in setul de date este inclus si un factor de

sezonalitate, se utilizeaza metode nivelarii exponentiale
sezoniere a lui Winters.
• Previziunea cu ajutorul acestei metode se bazeaza pe
formula:
Ptm  Pt  bt m St Lm

• Sezonalitatea in modelul Winters este estimata cu

ajutorul formulei:
Yþ P
   
1
þ
S

S
t

t1
 t
t
• unde Y T
     
a
P
T

P
1
t
t
1
t
1
 
t
t
1

    
1
ç
T
 
T
ç
P
t
1
 
t
t
1


Alegerea metodei de previziune
adecvata

• Selectia modelului de previziune adecvat este realizata

prin compararea valorilor reziduale (denumite si variatia
neexplicata), dupa formula:
n
 x ˆ ˘
2
S
S
y
y
E
i
i
1


• daca metoda utilizata este perfecta, atunci SSE = 0.

• Alternativ, se poata utiliza abaterea medie absoluta
(AMA) asociata fiecarei metode de previziune:
n

|
y
y
|
ˆ
i
i
A
M
A
i
1
 
n
adecvata
• Exemplu: previziunea vanzarilor pentru a 11-a perioada:
MMP Brown Holt Winters
Anul Xi Yi εi Yi εi Yi εi Yi εi
Ian 2 1,8 0,2 2 0 2,3 -0,3 - -
Feb 2,5 2,3 0,2 2,7 -0,2 2,8 -0,3 2,5 0
Mar 3,2 2,8 0,4 3,3 -0,1 3,4 -0,2 3,1 0,1
Apr 3,0 2,9 0,1 3,1 -0,1 3,2 -0,2 3,1 -0,1
Mai 4,0 3,8 0,2 3,8 0,2 3,8 0,2 3,7 0,3
Iun 4,5 4,6 -0,1 4,6 -0,1 4,4 0,1 4,4 0,1
Iul 5,0 5,2 -0,2 4,8 0,2 4,8 0,2 5,0 0
Aug 4,8 5,0 -0,2 5,3 -0,5 5,0 -0,2 5,1 -0,3
Sep 5,3 5,5 -0,2 5,5 -0,2 5,1 0,2 5,2 0,1
Oct 6,0 5,7 -0,3 5,6 0,4 5,8 0,2 5,5 0,5
adecvata
• Suma patratelor valorilor reziduale, respectiv abaterea
medie absoluta:
n| 1
 ˆ
y
yi
|
iA
n
i
 x
A
M
ˆ ˘
2
S
SE
yi
y
 
i
i
1

MMP Brown Holt Winters
SSE 0,51 0,6 0,47 0,47
AMA 2,1 0,2 0,21 0,17

Modele autoregresive (AR)
• Modelele autoregresive reprezinta o varianta

univariata a regresiei liniare, in care valoarea curenta
este estimata utilizand una sau mai multe valori
anterioare ale seriei (serii cronologice).
• Modelul AR: ˆ    
Y
ð
a
Y1
a
Y2
.
.
.
a
Yp
s
 
1
t
t
-
t
-
2
t
-
p
t


• unde p reprezinta ordinul de autoregresie (nivelarea

exponentiala reprezinta un model AR de ordin 1), ð
este un indice asociat trend-ului seriei, iar st este
asociat erorilor (influentelor) aleatorii.
x   ˘
ð
1i
Y
i
1




• Box & Jenkins au demonstrat ca una dintre cele mai

eficiente modalitate de rezolvare a modelelor
autoregresive este prin utilizarea mediilor mobile
(Moving Averages – MA).
• Variantele metodei Box-Jenkins:
– ARMA – utilizat pentru serii stationare (serii cu
proprietatea ca media si variatia nu se modifica
semnificativ in timp – practic, o serie de tip Brown, in
care nu exista trend si sezonalitate).
– ARIMA – utilizat pentru serii dinamice (“I” vine de la
Integrate).
• Metoda Box-Jenkins presupune trecerea prin 3 faze
pentru determinarea modelului utilizat in previziune:
1. Identificarea modelului
2. Estimarea parametrilor modelului
3. Validarea modelului
• In general, pentru realizarea unei autoregresii eficiente,
sunt recomandate serii cronologice lungi – unii autori
recomanda minim 50 de observatii, alti chiar 100.
• Identificarea modelului:
– Dinamicitatea unei serii (modelul ARMA sau ARIMA) este
determinata utilizand un grafic de autocorelatie, care va
prezenta sezonalitate in cazul in care graficul este
continuu
– Graficul de autocorelatie reprezinta pe abcisa trecerea
timpului, iar pe ordonata coeficientul de auto-corelatie
corespunzator, calculat dupa formula:

1 n
h
N x  ˘x
Yt
Y
Yt
Y
 
h

R
i
1
h
2
σ
– Liniile (valorile) de demarcatie pentru autocorelatie sunt
calculate dupa formula (α corespunde probabilitatii de
arantare
g a rezultatelor): t1
 a2

n


– Modelul ARMA (fara sezonalitate si trend):
p
q
x  ˘ x    ˘
L
i
iL
1
a
Yt
st
i
i
i
1
i
1
 



– Modelul ARIMA (serii dinamice):

p
q
 ˘   ˘
iL i
iL
1
1
-
L
Y
s
x x̆ x
t
t
i
1
i
1
 

– estimarea parametrilor αi si þi - in intervalul [-1;1] se realizeaza prin
aproximare (recomandabil cu un program statistic, gen SPSS);
– Li reprezinta vectorul primilor i parametrii estimati pentru o serie
cronologica simpla sau care include sezonalitate (operatorul de lag).
• Estimarea parametrilor modelului:
– parametrii p si q sunt estimati cu ajutorul graficului de
autocorelatie (valoarea maxima a lui α (probabilitatea de
garantare a rezultatelor) pentru care coeficientii de
autocorelatie nu depasesc valoarea-prag).
– parametrii αi sunt estimati prin aproximare, folosind metoda
celor mai mici patrate (recomandabil cu un program
statistic, gen SPSS);
• Validarea parametrilor modelului:
– Se realizeaza prin testarea ipotezei nule ca valorile
reziduale sunt independente, vectorul acestora avand o
medie si o varianta nediferite semnificativ statistic in timp.
In cazul in care parametrii nu sunt validati, trebuie revenit
la pasul 1.
– Valoarea testul Student asociat parametrilor modelului

a s
este:

z
i
c


a

i

• -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula (parametrul NU este

valid);
• altfel, se accepta ipoteza alternativa (parametrul este valid);
• Exemplu: previziunea vanzarilor pentru a 11-a perioada:
Anul Yi (Vanzari mil. $)

Ian 10
Feb 12
Mar 11
Apr 14
Mai 14,5
Iun 15
Iul 16
Aug 18,5
Sep 19
Oct 20
ˆ  
Yt
ð
a1
Yt-
a
Y. -
   
.2
.
ap
Yt-
st
2t
1
p



• Valoarea coeficientilor de grad 3, estimata de

catre SPSS:
– ð = -0,934
– α1 = 0,534 α2 = - 0,398 α3 = 1,062
• Ecuatia de autoregresie devine astfel:
ˆ  0,934  ,534  ,398  ,062

Y
0
Y
1
Y
Y
t
-
1
t
-
2
t
-
3
t
• Pentru perioada 11 vom avea:
ˆ 
Y1
-0
,3
9
4
0
,
3
5
4
2
0
0
,
9
3
8
1
9
1
,
6
0
2
1
8
,
5
2
1
,
8
      
1
• Testarea semnificatiei parametrilor:

a 3 s a3 1,062
z
   3,218
c
0,333
– pentru α=0,05 zt=1,96 => zc > zt => ipoteza alternativa

va fi acceptata (parametrul este valid)
• Testarea semnificatiei parametrilor:
0,398
a sa
 0,534
a s
   1,005
z
   1,684
1
c
c
0,396 0,317
a
1
2
• pentru α=0,05 zt=1,96 =>

-zt (-0,96) ≤ zc (-1,005) ≤ zt (1,96) => ipoteza nula va fi
acceptata (parametrul NU este valid)
ˆ  0,934  ,062
Y
Yt
-
3
t
ˆ
1
8
,5
1
8
,
7
Y1
-0
,3
9
4
1
,
6
0
2
   
1



Analiza autocorelatiei
Testul Durbin-Watson necesita calculul parametrului d,
dupa formula:
T (Û t Û t1
)
2
d t2
T
U t
ˆ 2
t1
Daca d<dL sau d>dT, atunci este acceptata ipoteza nula (dL si dT
sunt luate din tabelele asociate testului Durbin-Watson).
Testul Geary este de natura neparametrica si are ca punct
de plecare calculul numarului schimbarilor de semn in seria
valorilor reziduale ð.
Daca ðmin< ð < ðmax (tabelate), atunci ipoteza nula este acceptata.
Regresia
– Regresia reprezinta o clasa semnificativa de metode de
previziune, in care valoarea unei variabile (denumita
dependenta) este previzionata folosind valorile altor variabile
(independente), de ale carei valori depinde.
– Dependenta variabilei previzionate trebuie demonstrata,

utilizand un coeficient de corelatie (corelatia trebuie sa fie cel
putin medie, dar se recomanda utilizarea corelatiilor puterice
sau foarte puternice).
Regresia
• Formele regresiei:
– in functie de numarul de variabile utilizate:
• bivariata (o singura variabila independenta);
• multivariata (doua sau mai multe variabile independente);
– in functie de forma relatiei dintre variabile (identificata
cu ajutorul analizei grafice):
• liniara;
• logistica;
• polinomiala;
• trigonometrica;
Regresia liniara
• Regresia liniara bivariata:
 
y
a
b
x


Regresia liniara


• Parametrii regresiei (metoda celor mai mici

patrate):
n
 x  ˘x 
x
n
y
y
i
i

b
i
1
i
1
i
1
– panta (b):  
n
 x  ˘
2
2
n
x
x
i
i
i
1
i
1
 

a
y
b
x
– termenul liber (a):  

• Permite analiza relatiei liniare dintre o variabila dependenta

si una sau mai multe variabile indepentende
• Obiectiv: explicarea si previziunea variatiei variabilei
dependente in functie de covarianta ei cu variabilele
independente.
ˆ  ˆ ˆ  ˆ  ˆ
Y
a
þ
X1
þ
X.2
.
.
þ
.Xi
. i
.
þ
Xn
1
n
• Parametrii þ sunt estimati utilizand metoda celor mai mici patrate (un
model cu n variabile va avea nevoie de n perechi de date “istorice”
pentru scrierea unui sistem de n ecuatii).
• Exemplu: cererea de bunuri/servicii (dependenta) in functie de factori

determinanti (venituri, cifra de afaceri, pret, etc.)
• Metoda celor mai mici patrate pentru o regresie
liniara de gradul 2:
nn
n
n
x  ˘ x 

˘x ˘
2 2
yi
x
x
yi
x
x
-
2i
2i
i
1i
1i
  1   
i
1
1
1
þ
i
i
i
n
1
  x  ˘
x
2 1i
2 2i
2
x
x
-
2i
1i
  
1
1
i
i
n
n
n
x ˘ x 

˘x ˘
x
2 i
x
x
yi
yi
x
x
-
1
1i
2i
1i
2i
    
i
1 n
1
1
þ
i
i
nn
2
  x  ˘
x
2 2i
2 1i
2
x
x
-
1i
2i
  
ii
1
1
1
i
  
a1
x2
þx
þ
y
1
2
• Estimarea semnificatiei statistice a parametrilor
este utilizata pentru a se verifica faptul ca variatia
variabilei dependente nu este datorata intamplari
(evenimentelor aleatoare), ci este rezultatul
variatiei uneia sau mai multor variabile
independente.
• Realizata cu ajutorul testului Student, in care
numarul de grade de libertate al valorii teoretice
(tabelate) se determina cu conform:
Nivelul de semnificatie = (1-nivelul de confidenta)/2
• Testarea semnificatiei (reprezentativitatii) parametrilor
de regresie:
þ s  s t

tc
i þ i
j ̂ j T , j
• Eroarea standard a unui parametru estimat arata cu cat

poate sa varieze acesta in jurul valorii sale ca urmare a
erorii aleatoare.
• Testul F este utilizat pentru a determina semnificatia
(reprezentativitatea) variatiei variabilei dependente
explicata de variatia variabilelor independente
considerate.
• Utilizeaza formula:
n
 ˆ  x̆Y
Y
n
k
1
x i  
Fc
i
1 n
 
 ˆ  x̆ 2  ˘
Yi
k
1
Y
x
i
1


• Coeficientul (raportul) de corelaţie multiplă R

reprezinta gradul in care variabilele
independente, per ansamblu, explica variatia
variabilei dependente .
• Utilizeaza formula:
n
ˆ 
2
y
y

i
R
 i n
1

y
,,
.
x
.,
x
.
,2
x
k
 
1
2
y
y
i 
i
1



• Pentru a putea caracteriza proporţia variaţiei variabilei dependente

datorată variaţiei setului de variabile variabile independente ale
modelului se calculează coeficientul de determinare multiplă R2
(pătratul raportului de corelaţie multiplă), care arată proporţia din
variaţia totală a variabilei Y care este explicată de variabilele
independente X1, X2, ...Xk.
• În afara coeficienţilor de corelaţie multiplă, în analiza corelaţiei dintre

variabile se mai pot calcula şi coeficienţii de corelaţie parţială, ce
caracterizează intensitatea legăturii dintre două variabile, în ipoteza că
celelalte variabile rămân constante
• Exemplu: Estimarea nivelului vanzarilor de telefoane mobile plecand
de la suprafata comerciala a magazinului si numarul de asistenti de
vanzare.
Vânzări (bucăţi) Număr vânzători (persoane) Suprafaţa comercială

22 7 98
20 5 90
23 8 110
26 9 130
30 12 140
32 15 145
45 22 156
50 25 160
52 32 164
60 40 175
• Sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea
estimatorilor α, þ1 şi þ2 este.

   
x
n  
þ
a
y
1
1

2
i
i
i

    
2
xi
x2
y ii
  
a
þ1
x1
x1

x1
1
i
i
i


    
xi
y ii
 
2
þ
þ
x
x1
x
x
þ

2
2
i
2
2
i



 
1
7
51
þ
3
6
8þ
0 7

a
1
1
0
3
6

2
  
a 1
2 94
6 8
7 7
21 6
8
1
6

þ þ
5 6
þ
1 3
7
4 2
3
2 6
1 7
1
1 a
   
8
21
þ
1
5
1
2
7
5
4

2


• Dupa rezolvarea ecuatiei vom obtine:
– þ1 = 0,974543752;
– þ2 = 0,104112437;
– α = 4,702902918;
Ŷ = 4,703 +0,97X1i+ 0,104X2i
• Coeficientul de corelatie multipla este:

n
  ˆ   2
y
y
i
 
R
8
0
9
,
9
0
8
5

i n
1
y
,,
.
x
,.
x
.
,
x
k
 
1
2


y
y
i
i
1




• Valorile reziduale:
2
Yi ŷ yi ε = yi - ŷ (yi- ŷ)
22 22,92209467 22 -0,922094675 0,850258589
20 18,15286921 20 1,847130787 3,411892145
23 23,49930977 23 -0,499309769 0,249310245
26 26,96671515 26 -0,966715154 0,934538188
30 31,04921181 30 -1,04921181 1,100845422
32 34,49973652 32 -2,499736517 6,248682653
50 45,79082822 50 4,209171778 17,71712706
52 52,87302888 52 -0,873028881 0,762179427
60 61,77950786 60 -1,779507855 3,166648206
40,85910144
• Validitatea valorilor previzionate:
n
x ˆ  x̆
Y   ˘
Y
n
k
1 1 1
i

Fc
5
7
,
7
1
2
5
5
1
6
i
1 n
 
x ˆ  x̆
Y
2
 ˘
Yi
k
i
1

• Valoarea tabelata a lui F pentru o probabilitate de garantare a
rezultatelor de 95% si 52 de grade de libertate: 3,23 => Fc =157,71 > Ft
=3,23 => se accepta ipoteza alternative (valoarea coeficientului de
corelatie multipla este semnificativ diferita de zero), deci regresia este
valida.
Analiza multicoliniaritatii
• Coliniaritatea reprezinta relatia liniara dintre

doua variabile independente ale unui model.
• Prezenta sa poate duce la distorsiuni serioase
ale parametrilor modelului.
• Sugerata de prezenta erorilor standard mari sau
de sensitivitatea exagerata a parametrilor.
• Evidentiata utilizandu-se cele trei teste Farrar si
Glauber.
Primul test Farrar si Glauber
– Se bazeaza pe compararea matricei de corelatie a

modelului cu matricea unitate, cu ajutorul testului χ2

    x 1 6 
2c
χ
n
1
  ˘ ˘ 
T
Z
]
2
m
1
d
5
e
ln
t
[
Z
x
 

• Valoarea teoretica a lui χ2 se regaseste in tabelele statistice ale

repartitiei χ2, considerandu-se 1/2(m-1)(m-2) grade de libertate.
• Daca χ2 > χ2, atunci se concluzioneaza ca exista
multicoliniaritate la nivelul modelului (regresiei) analizate.
Al doilea test Farrar si Glauber
• Permite identificarea variabilelor cel mai afectate de

coliniaritate
• Se bazeaza pe compararea matricei de corelatie a
modelului cu matricea unitate, cu ajutorul testului Fisher.
x  ˘
m
1
x
 ˘
i
i
x
Fc
r
m
2

• Valoarea teoretica a lui F se regaseste in tabelele statistice ale
repartitiei Fisher, considerandu-se n-m+1 si m-2 grade de libertate.
• Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre

variabilele independente nu este acceptata.
Al treilea test Farrar si Glauber
• Permite stabilirea semnificatiei statistice a coeficientilor de

corelatie
• Coeficientii de corelatie partiala intre Xi si Xj se determina
pe baza formului:
ij

r
ri j 
ii
jj
r

r
• Apoi se calculeaza valoarea testului Student dupa formula:
 x  ˘
ri
m
1
j

tij
 2j
1
 ri


• Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
Analiza erorii medii patratice a
valorilor reziduale
Masura sintetica a acuratetii modelului si o metoda de

evidentiere a erorilor de previziune.
1 T

T t1
(Pt  A
t
)2
 (P  A)  (S P S A) 2

2(1 r)S P S A 
(P-A)2 indica tendinta medie a modelului de a supraestima sau

subestima valorile reale.
(SP-SA)2 indica sensitivitatea modelului la modificarea valorilor
independente.
2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte
dintre valorile previzionate si cele actuale.

Analiza Bivariata A Datelor Files Merged)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analiza Bivariata A Datelor Files Merged)

Diunggah oleh

Hak Cipta:

Format Tersedia

Analiza bivariata a datelor

Analiza bivariata a datelor

Presupune masurarea gradului de asociere a doua variabile sub aspectul:

Directiei (naturii) Intensitatii

Tabele de frecvente (contingenta) considerata simultan pentru doua sau

mai multe variabile caracteristice aceluiasi esantion.

Coeficientul de corelatie (valori intre -1 si +1)

phi [(a  b)(c  d )(a  c)(b  1/2

Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele

doua esantioane independente este determinat cu ajutorul testului χ2, McNemar

Bazat pe ipoteza nula:

 Valoarea calculata χc2 a testului se

 Inlocuieste testul χ2 atunci cand dimensiunea esantionului N<40 si k=r=2

 Inlocuieste testul χ2 atunci cand cele doua esantioane investigate nu sunt

Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai

multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere

se poate utiliza coeficientul

Spearman de corelatie a rangurilor

Directia asocierii este data de valoarea lui ρ sau γ.

Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele

doua esantioane independente este determinat cu testului semnificatiei

Bazat pe ipoteza nula:

 Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente.

Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai

multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere

se poate utiliza coeficientul

Pearson de corelatie a rangurilor

Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele

doua esantioane este determinat prin testarea semnificatiei statistice a

Utilizat pentru variabile normale, cu dispersii asemanatoare

 Bazat pe ipoteza nula:

 Presupune utilizarea unui grup de metode statistico-matematice cu ajutorul

Existenta unor relatii de dependenta (cauzalitate) si/sau

asociere Numarul de variabile dependente

Tipul de scala utilizat

 O singura variabila dependenta: Scale parametrice: analiza discriminantului liniar

Estimarea relatiei dintre o variabila dependenta masurata cu ajutorul unei scale

Cuprinde un grup de metode: proiectari factoriale, patratele latine, patratele greco-

Cerinte asupra datelor:

Nu depinde de tipul scalei utilizate. Obiectiv: studierea relatiei liniare intre un

dependente si un grup de variabile

Realizata cu ajutorul mai multor tehnici: metoda componentelor principale, criteriul

Realizata cu ajutorul mai multor tehnici: distanta euclidiana, gruparea pe baza

 Analiza reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico-

Tipul de scala utilizata

Un singur esantion Doua esantioane

Mai mult de doua esantioana

 Natura relatiei dintre esantioane Esantioane independente Esantioane

 Numarul variabilelor utilizate

O singura variabila Doua

Mai mult de doua variabile

Determinarea tendintei centrale Caracterizarea variatiei si dispersiei Masurarea

Grupul modal (modulul)

Valoarea care imparte numarul de observatii

Indicatori ai tendintei centrale

Modulul Mediana Media Media

Distributia de frecventa Cuartile, decile, centile

Indicatori ai Tipuri de scale

dispersiei Nominale Ordinale Interval Proportionale

 Teoretice: compatibilitatea rezultatelor obtinute cu teoria economica (ex.: semnul si

Se dau asigurari ca variatia variabilei dependente nu este datorata intamplari, ci

Nivelul de semnificatie = (1-nivelul de confidenta)/2

Testarea semnificatiei legaturii dintre variabila dependenta si variabila/ele