Semnificatiei statistice
Variabilele nominale
sau Fisher.
2
Testul neparametric χ
c
i1 j 1 A ij
Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1
si Oij
< 5 sa nu depaseasca 20%.
Masurarea gradului de asociere se poate realiza cu ajutorul coeficientului de
contingenta:
2
c
C
2
N
c
Testul Fisher
coeficientului Spearman.
Coeficientul de corelatie Spearman
Zc
1
n 1
Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta
in functie de probabilitatea de garantare a rezultatului.
-Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se
respinge ipoteza nula
Coeficientul de corelatie γ al lui Goodman si Kruskall
i1 i1
r n n
i
1 n n
n (x ) ( x ) 2
2 n( y )2 ( y )2
i i i i
i 1 i 1 i1 i 1
Directia asocierii este data de valoarea lui r.
coeficientului r.
Coeficientul de corelatie Pearson
Analiza factoriala
Analiza grupurilorScalarea multidimensionala
Clasificare
Criterii de clasificare
Variabile independente:
Scale parametrice: Analiza factoriala
Analiza grupurilor
Scalare multidimensionala parametrica
Scale nonparametrice:
Scalare multidimensionala nonparametrica Analiza structurilor
latente
Metoda regresiei multiple
Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe
variabile indepentende
Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de
covarianta ei cu variabilele independente.
ˆ ˆ ˆ
Y a
1 X 1 2 X 2
ˆ ˆ ... i Xi ... n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in
functie de factori determinanti (venituri,
cifra de afaceri, pret, etc.)
Discriminantul liniar multiplu
Utilizari:
Determinarea contributiei fiecarei variabile explicative la discriminare
Determinarea celei mai bune combinatii liniare a variabilelor explicative care
maximizeaza raportul intre dispersia dintre grupuri si dispersiile din
interiorul grupurilor
Stabilirea procedurilor de predictie legata de apartenenta componentelor la
diversele grupuri (segmentare)
Analiza existentei diferentelor semnificative statistic intre profilurile
grupurilor definite
Analiza multivariata a varitiei
independente.
Numarul maxim de functii utilizat este egal cu numarul variabilelor din grupul cel
mai mic.
Analiza canonica
Utilizari:
Determinarea directiei, intensitatii si semnificatiei corelatiei dintre
cele doua seturi de variabile.
Estimarea coeficientilor celor doua seturi de variabile, in conditiile
maximizarii corelatiei dintre seturi.
Explicarea si previzionarea variatiei setului dependent, pe baza
covariantei acestuia cu setul independent.
Determinarea contributiei relative a fiecarei variabile in cadrul functiilor
canonice.
Analiza factoriala
Utilizari:
Identificarea setului de dimensiuni latente existente in variabila initiala
(analiza factoriala de tip R).
Combinarea sau condensarea componentelor unui populatii statistice si
crearea unor grupuri distincte (analiza factoriala de tip Q).
Concentrarea (minimizarea) variabilelor.
Analiza grupurilor
Obiectele sau fenomenele analizate sunt reprezentate sub forma de puncte intr-un
spatiu perceptual multidimensional.
Obiectiv: estimarea importantei relative a variabilelor si a relatiilor perceptuale
dintre ele.
Permite construirea unui spatiu perceptual in care se reprezinta obiectele sau
fenomenele, pe baza perceptiilor respondentilor.
Analiza univariata a datelor
Analiza
i1
Media geometrica x
n
n
xG n
xi
i1
Masurarea tendintei centrale
Interval X X - -
X X X
Proportionala -
X
X
Dispersia
X
Frecvente X X X
X
- X X
Cuartile
X
X
- -
Amplitudine X
X
- -
X
X
medie - X
- X
Variatia
- -
standard
Evaluarea modelelor multifactoriale de regresie
Criterii de evaluare
Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe
variabile indepentende
Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de
covarianta ei cu variabilele independente.
ˆ ˆ ˆ
Y a
1 X 1 2 X 2
ˆ ˆ ... i Xi ... n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in
functie de factori determinanti (venituri,
cifra de afaceri, pret, etc.)
Semnificatia statistica a parametrilor
Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in
jurul valorii sale ca urmare a erorii aleatoare.
Limitele variatiei sunt date de relatia:
s t
ˆj T,j
j
Semnificatia statistica a asocierii dintre variabile
Fc ˆ 2
/(n k)
(Y Y )
Caracterizarea multilaterala a intensitatii legaturilor
2
Coeficientul de determinare R reprezinta raportul dintre variatia explicata si variatia
totala, dupa formula:
2 2
R 1
e
2
y
unde e reprezinta valoarea reziduala si y abaterea variabilei Y de la media sa Ŷ
T
Se bazeaza pe compararea matricei de corelatie Z Z a modelului cu matricea
2
unitate, cu ajutorul testului χ
2 1 T
n 1 (2(m 1) 5) ln det[Z Z ]
c
6
2 2
Valoarea teoretica a lui χ se regaseste in tabelele statistice ale repartitiei χ ,
considerandu-se V=1/2(m-1)(m-2) grade de libertate.
2 2
Daca χ > χ , atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului
(regresiei) analizate.
Al doilea test Farrar si Glauber
rij
r
ij
ii jj
r r
T
1 A) (SP
(Pt
At ) 2 (P S A) 2 2(1 r)S P S A
T t1
2
(P-A) indica tendinta medie a modelului de a supraestima sau subestima valorile reale.
(SP-SA)2 indica sensitivitatea modelului la
modificarea valorilor independente.
2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile
previzionate si cele actuale.
Analiza autocorelatiei
d t2 T
2
Uˆ t
t 1
Daca d<dL sau d>dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele
asociate testului Durbin-Watson).
Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului
schimbarilor de semn in seria valorilor reziduale δ.
Daca δmin< δ < δmax (tabelate), atunci ipoteza nula este acceptata.
Analiza datelor de
marketing utilizand S.P.S.S.
- curs introductiv -
Mihai Orzan
– mihai.orzan@ase.ro
– joi, 19:30, sala 1406
Chestiuni organizatorice
• Nota:
– Examen final (1 iunie): 40%
– Test seminar: 60%
• http://orzanm.ase.ro/spss
• Suport curs:
• Cătoiu I. (coord.), Bălan C., Dăneţiu T., Orzan Gh.,
Popescu I., Vegheş C., Vrânceanu D. - "Cercetări de
marketing", Ed. Uranus, 2002
• Popa, D., “Analiza datelor in psihologie. Teorie si practica cu
SPSS”, Ed. Polirom, 2008.
• Suport semiar (recomandat):
• Howitt, D. si Cramer, D., “Introducere in SPSS pentru
psihologie”, Ed. Polirom, 2006.
Ce reprezinta analiza datelor?
Analiza datelor reprezinta un proces
complex si sistematic de aplicare a
tehnicilor statistico-matematice, in scopul
extragerii din colectia de date constituita a
informatiilor necesare procesului
decizional
Surse de date
• Surse de date:
– Cercetari cantitative:
• Sondaje;
• Observari;
– Surse secundare de date:
• interne;
• externe;
– Cercetari calitative:
• focus grupuri;
• clientul misterios;
• interviuri in profunzime;
• teste de utilitate;
Clasificare tipurilor de analiza
Media aritmetica i
n
x i1
pi 1n pi 1
x
i
n
i
x
p
Media geometrica
xG x
i
i1
Analiza variatiei
2
x
x 1
n
Varianta 2
σ
i n
i
1
Abaterea medie patratica (standard)
Coeficientul de variatie (variatia relativa)
σ x
C
V
Distributia frecventelor
Perceptia gustului pentru berea Redd’s
Eticheta Codificare Frecventa Frecventa Procent valid Frecvente
(%) cumulate
Cel mai neplacut 1 0 0,0 0,0 0,0
Foarte neplacut 2 2 6,7 6,9 6,9
Neplacut 3 6 20,0 20,7 27,6
Nici/Nici 4 6 20,0 20,7 48,3
Placut 5 3 10,0 10,3 58,6
Foarte placut 6 8 26,7 27,6 86,2
Cel mai placut 7 4 13,3 13,8 100,0
Valori lipsa 9 1 3,3
Total 30 100 100
Analiza variatiei
Indicatori ai Tipuri de scale
dispersiei Nominale Ordinale Interval Proportionale
Frecvente X X X X
Amplitudine - X X X
Coeficient de
- - X X
variatie
Varianta - - X X
Abaterea
- - X X
standard
Distributia normala
Este constituita dintr-o familie de distributii care au
reprezentari grafice asemanatoare unui clopot;
Distributia normala
Este importanta pentru ca majoritatea instrumentelor
statistice utilizate in analiza primara au ca premisa
existenta unei distributii normale (ex.: testul Student,
Mann-Whitney, ANOVA, Pearson, regresia, nivelarea
exponentiala Brown, etc.).
Ipoteza distributiei normale:
Pentru δ ales, δ procente dintre valorile inregistrate ale variabilei
se vor afla in intervalul:
x
σ
t
;δ
x
σ
t
x
δ
Distributia normala
n
x ˘
4
n
x
x
i
K
3
i
1
n
x x ˘˘
2
2
x
x
i
i
1
n
de valori.
x ˘
3
n
x
x
˘
i
n
n 2
1
x
G
i
1
n
n
3
x x ˘˘
2
x
x
2
i
i
1
Distributia normala
n
˘
x
x
x x
i
1
i
1
h
2
2
σ
2
2
π
1 n
n I
Fn x ˘
x
˘
x
x
i
i
1
i- n
1
i n
n
m
a
˘ x
K
F
x
x x
x
F
1
S
i
i
Testul Kolmogorov-Smirnov
0,11
Ks ( n 0,12 ) c
n
unde:
α 0,85 0,9 0,95 0,975 0,99
cα 1,138 1,224 1,358 1,480 1,628
Testul Shapiro-Wilk
Utilizabil atat pentru variabile non-parametrice, cat si
pentru variabile parametrice (aici insa testul
Kolmogorov-Smirnov este mai puternic).
Determina daca va fi adoptata ipoteza nula sau ipoteza
alternativa:
H0: NU exista diferente semnificative statistic intre
distributia variabilei investigate si distributia normala.
H1: Exista diferente semnificative statistic intre distributia
variabilei investigate si distributia normala.
Testul Shapiro-Wilk
n
x ˘
2
a
xi
Se calculeaza utilizand:
i
i
1
n
x ˘
2
x
μ
i
i
1
2
O
A
n
x
2c
.
i
A
i
1
i
˘x ˘
2
2
3
3 2
6
7 7
2
5
7
5
x
2c
2
,
5
6
0
,
8
5
3
,
4
1
.
5
5
Testul χ2 univariat
x s
μ
tc
x σ
s
x
n
Testul Student univariat
2
O
A
r
k
x
ij
ij
2c
.
A
i
1
j
1
ij
k
O
ij
ij
i
1
j
1
A
ij
k
O
ij
i
1
j
1
Testul neparametric χ2
˘x ˘x ˘x ˘
A
B
! N
C !
D A
! B
A !
C !
!
B
D
!
x
p
!
!C
D
N 2
˘
2
N
a
d
b
c
x
2c
.
˘x ˘x ˘x ˘
a
b
d
x
Testul McNemar
2
a
d
1 d
2c
.
a
• a si d reprezinta frecventele subesantioanelor independente.
• Interpretarea este aceiasi ca si in cazul testului χ2 :
χ ≤ χ : se accepta ipoteza nula
2 2
c t
χ 2 > χ 2 : se accepta ipoteza alternativa
c t
Testul Mann-Whitney
• Utilizat de preferinta pentru pentru identificarea
diferentelor semnificative intre (doua) variabile ce
provin din esantioane independente, masurate cu
ajutorul scalei ordinale (se poate utiliza insa si in
cazul variabilelor proportionale), distribuite normal.
• Ipotezele testului Mann-Whitney:
H0: NU exista diferente semnificative intre cele doua variabile.
H1: Cele doua variabile difera in mod semnificativ.
• Valoarea calculata a testului U este data de:
˘
n
1n
x
ic
x
U
, 2
u
d
e
i
1
,
2
i
i
i
Testul Mann-Whitney
2
unde:
U
z
n1
n
n n1
n 2
1
c
σ
1 n
2
U
Testul Mann-Whitney
1
x
1c
4
6
2
5
U
2
w
y
x
R
ra
n
g
u
l
w
i
i
i
i
Testul Wilcoxon
I
w
0
i
i
n
W
˳
Ri
i
i
1
• Sustinerea (sau respingerea) ipotezei nule se bazeaza pe
probabilitatea de aparitie a valorii W+, data de tabele statistice
asociate testului (pentru n de maxim 30 de respondenti) sau
estimata cu ajutorul testului Student.
Testul Wilcoxon
• Utilizand scala Likert pentru identificarea disponibilitatii
respondentilor de a cumpara berea Redd’s, masurata inainte si dupa
expunerea la un spot de promovare a produsului, au fost inregistrate
urmatoarele valori (5 = sigur da; 4 = probabil da, 3 = indiferent, 2 =
probabil nu; 1 = sigur nu):
Respondent 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Inainte 5 3 1 5 2 4 4 3 2 1 1 5 4 2 1
Dupa 5 4 2 3 5 5 4 3 1 4 4 5 3 2 5
Diferente 0 -1 -1 2 -3 -1 0 0 1 -3 -3 0 1 0 -4
(wi)
Ranguri Ri - 3 3 6 8 3 - - 3 8 8 - 3 - 10
Testul Wilcoxon
• Insumand rangurile pozitive Ri din tabelul anterior obtinem
W+=12, careia ii este asociata o probabilitate
p(12)=0,002136 (aleasa pentru n=15 si α=0,05), mai mica
decat 0,05 – pragul de sustinere al ipotezei nule in
textul Wilcoxon, deci se poate concluziona ca ipoteza nula
este acceptata (este respinsa ipoteza alternativa) => cele
doua seturi de date NU difera in mod semnificativ (spotul
publicitar NU a schimbat atitudinea respondentilor fata de
marca Redd’s).
• Pentru esantioane dependente de peste 30 de
respondenti se utilizeaza:
n
n
1 2
2
n
1
W
0
,0
5
σ
z
n
c
σ
W
Testul Student bivariat
2 1 22
σ σ
Fc
Testul Student bivariat
2
z
c
x
x
2
1
Testul Student bivariat
22
σ n
σ n
s
1
x
x
2
1
2
1 n1
1
2
s
σ
x
x
n
2
1
2
Testul Student bivariat
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ore
14 2 3 3 13 6 2 6 6 15 3 4 9 8 5
Internet
Sex 1 2 2 2 1 2 2 2 2 1 2 2 1 1 1
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Ore 3 9 4 14 6 9 5 2 15 6 13 4 2 4 3
Internet
Sex 2 1 1 1 2 1 1 2 1 2 1 2 2 1 1
Testul Student bivariat
Media (orelor de Eroarea
Nr. de
Sex navigatie standard
respondenti
saptamanale) asociata mediei
Masculin 15 9.33 1.14
Feminin 15 3.87 0.44
p s
p
z
2
c
p
2
1
˘
p
1 n
p 1
1
p
x x
s
1
2
p
n
p
2
1
2
Testul Student bivariat
(esantioane dependente)
D s
μ
z
D
c
n
x
2
˘
D
D
D
i
i
1
n
1
s
n
D
D
n
i
D
i
1
n
Analiza Variatiei (ANOVA)
• In ciuda denumirii, reprezinta tot un test statistic,
utilizat pentru stabilirea semnificatiei satistice a
diferentelor constatate intre trei sau mai multe
esantioane (dependente sau independente),
masurate pe o scala proportionala.
• Echivalentul testului Stundent pentru mai mult de
doua esantioane
• Exemple: utilizarea Internetului (numarul de ore de utilizare
saptamanale) difera in functie de nivelul de educatie al
persoanelor investigate (gimnazial, liceal, universitar, post-
universitar)? Categoriile (intervalele) de varsta influenteaza
semnificativ nivelul salarial al respondentilor?
Analiza Variatiei (ANOVA)
– Utilizeaza:
o variabila de grupare X (ce determina
subgrupurile), denumita si variabila independenta;
o variabila analizata (dependenta), masurata pe
scala proportionala;
– Variabila dependenta este subdivizata in c subesantioane
(grupuri), de dimensiuni n1, n2,…nc.
– In analiza diferentelor constatate intre mediile subgrupurilor 1…c,
ANOVA utilizeaza notiunea de descompunere a variatiei totale,
in variatie interna (in interiorul acestor grupuri) si variatie externa
(diferenta constatata intre grupuri).
Analiza Variatiei (ANOVA)
• Variatia totala:
V
V
V
E
T
I
nj
c
x ˘
2
V
x
x
T
ij
1
1
i
j
x ˘ 2
V
x
x
E
1
j
nj
c
x ˘
2
V
x
I
ji
1
1
j
i
Analiza Variatiei (ANOVA)
• Gradele de libertate asociate:
variatia totala: n-1;
variatia interna: n-c;
variatia externa: c-1;
• Magnitudinea (importanta) variatiilor se calculeaza
cu ajutorul unui indicator, denumit media patratica η:
V n
Media patratica interna:
2 in
η
I
t
e
rn
a
c
V -c
2e
η
E 1
Media patratica externa: x
t
e
rn
a
Analiza Variatiei (ANOVA)
2 t 2 t
Fc
e
x
e
r
n
a
in
e
rn
a
Analiza Variatiei (ANOVA)
x ˘ 1071200
2
V
x
x
E
j
j
1
n
c
V
x
x
x
I
ij
j
1
i
1
˘ ˘
V
1
0
c
7
1
2
0
0
2
5 1
x x
Fc
1
,
2
8
7
E
˘ ˘
V
3I
9
c
0
1
4
0
8
0
0
4
x x
Analiza Variatiei (ANOVA)
c
˘ x
2
˘
n
c
n
D
D
x
j
j
1
W
c
n
c
j
˘x ˘
2
c
1
D
D
x
ij
i
j
1
i
1
• unde:
D
y
ij
ij
j
Testul Levene
c
˘
2
n
rj
r
x
j
j c
1 n
x ˘
K
n
1
c
j
x ˘
2
ri
r
j
j
1
i
1
c
˘
2
n
rj
r
x
j
769
x ˘
j c
1 n 20 293,23
K
n
1
c
x
52.45
˘
2
ri
r
j
j
1
i
1
VI
V
T
E
n
c
j
x ˘
2
y
ij
n
c
j
j
1
i
1
2 ij
V
n
T
j
1
i
1
c
( yij y j )(xij x j )
V
E
j
1
i
1
c
Analiza CoVariatiei y)(x x)
(ANCOVA)
n( y
V
j
I
j
j
1
Analiza CoVariatiei (ANCOVA)
• CoVariatia este data de:
n
c
c
j
2 j
2 ji
yi
x
n
c
j
j1
1
1j
O
i
C
2 ij i
V
2 ij
x
y
-
E
n
j1
1
nj
y
x
n
c
ij
ij
x
j
O
C
1
V
x
yi
i
I
ij
n
1
1
j
j
Analiza CoVariatiei (ANCOVA)
• Gradele de libertate asociate (fiecare variabila de
control suplimentara duce la pierderea unui grad de
libertate):
variatia interna: n-c-1;
variatia externa: c-1;
• Coeficientul de determinare (indica in ce masura
variatia din interiorul/exteriorul grupurilor identificate
la nivelul variabilei dependente este explicata de
variabila de grupare):
2 E
C V
O T
V
2 ex
r
externa (intre grupuri):
te
rn
V
2
C V
O T
VI V I
interna (in interiorul grupurilor):
2i nte
r
r
n
Analiza CoVariatiei (ANCOVA)
˘
V
1
x
Fc
V
n
c
1
x
I
Analiza CoVariatiei (ANCOVA)
c
x ˘ 5,2675
x j
2
V
x
E
1
j
n
cj
x ˘
2
x
x
V
5
4
8
6
6
6,
6
2
2
7
1
9,
9,
4,
1,
ji
I
1
1
i
j
˘ ˘
V
x x
1 1
0
5
2,
6
7
5
4
c 1
E
Fc
0
6
4
8
0,
˘ ˘
7
1
,1
x x
V
1
0
c
I
Analiza CoVariatiei (ANCOVA)
– Fc = 0,0648 < Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza
nula (mediile subesantioanelor NU difera in mod
semnificativ) => dintre cele 4 grupe, nu exista cel putin
doua ale caror masteranzi au o pregatire semnificativ
diferita la Analiza Datelor de Marketing Utilizand SPSS
(ex.: grupa 1 a raspuns corect, in medie, la 16 intrebari,
iar membrii grupei 3 au raspuns corect, in medie, la 19
intrebari, insa aceasta diferenta nu este semnificativa
statistic, data fiind dimensiunea esantioanelor utilizate).
– Putem concluziona ca nu conteaza ce manual voi
recomanda anul viitor?
Analiza CoVariatiei (ANCOVA)
– Dupa cum stiti, la Marketing Strategic studentii sunt
ordonati in diferite grupe in functie de facultatile absolvite,
deci este teoretic posibil ca unii dintre ei sa aiba o
pregatire anterioare in domeniul analizei datelor, ceea ce
ar afecta acuratetea testului efectuat.
– Pregatirea anterioare poate fi estimata prin intermediul
notei la Metode si Modele in Marketing, de pe primul
semestru, care presupunea cunostinte in aproximativ
acelasi domeniu.
Analiza CoVariatiei (ANCOVA)
• Raspunsuri corecte la examen, pentru grupe care
s-au pregatit cu manuale diferite, incluzand nota la
Metode si Modele in Marketing.
1 2 3 4 5 6 7 8 9 10 Total Medii partiale
SPSS 12 15 14 14 18 18 16 14 19 19 159 15,9
Grupa 1
Modelare 5 5 6 7 7 8 8 9 9 10 74 7,4
Grupa 2 SPSS 13 16 15 16 19 17 19 23 19 22 179 17,9
Modelare 4 4 5 6 6 8 8 9 10 10 70 7
Grupa 3 SPSS 14 16 18 20 18 19 22 21 23 20 191 19,1
Modelare 4 4 6 6 7 8 8 9 10 10 72 7,2
Grupa 4 SPSS 15 16 13 15 19 17 20 18 20 21 174 17,4
Modelare 4 5 5 6 6 7 7 9 9 10 68 6,8
Analiza CoVariatiei (ANCOVA)
• Analiza covariatiei:
c
x n
˘
V
y
y
x
x
1j
6
1
x̆
ij
E
ij
j
j
1
i
1
c
˘x ˘
V
n
y
x
x
3
,3
x
I
j
j
1
˘ ˘
1
6
1
1
x
V
x
11
3
,
1
Fc
˘ ˘
4
0
9
V
n
c
1
3
,
3
x x
I
Analiza CoVariatiei (ANCOVA)
- Analiza asociativa -
Analiza asociativa a datelor
• Indicatori utilizati:
– Coeficientul de corelatie rphi (Φ);
– Coeficientul de contingenta C;
– Coeficientii de corelatie a rangurilor ρ
(Spearman) si γ (Kruskal si Goodman);
– Coeficientul de corelatie r (Pearson);
Coeficientul de corelatie rphi
Utilizat pentru identificarea asocierilor existente intre doua variabile dihotomice.
Coeficientul de corelatie:
a d
d
b
c a
rp
˘x ˘x ˘x ˘
h
i
]1
/
2
[
a
b
b
d
x
2c χ
χ
2c
N
N.B.: Coeficientii de contingenta nu pot fi comparati decat daca
provin din tabele de contingenta de aceeasi dimensiune!
Coeficientul de contingenta C
Intensitatea corelatiei:
k
1
C
[0
,
k
n
2i
6
D
ρ
1
x i
1 2
n
n
1
Di reprezinta diferentele dintre rangurile unei inregistrari
(respondent);
Coeficientul de corelatie Spearman
ρ
Z
1
c
n
1
Coeficientul de corelatie Spearman
P P
Q Q
γ
– P se obtine inmultind valoarea frecventei din coltul din stanga sus a
tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea
care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care
se insumeaza cu produsul dintre prima valoare a randului urmator si
suma frecventelor incepand de pe randul urmator, insa din nou fara
valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi
reguli, insa incepand din dreapta sus.
Coeficientul de corelatie γ
(Goodman si Kruskall)
Categorie de Intentiile de cumparare
varsta 1 2 3 4 5
1 – (sub 20 de ani) 5 10 15 20 25
2 – (20 – 40 de ani) 10 10 15 20 20
3 – (40 – 60 de ani) 20 15 15 10 5
4 – (peste 60 de ani) 35 25 20 5 1
P = 5 (10+15+20+20+20+15+15+10+5+25+20+5+1) +
10 (15+20+20+15+10+5+20+5+1) + 15 (20+20+10+5+5+1) +
20 (20+5+1) + 10 (15+15+10+5+25+20+5+1) +
10 (15+10+5+20+5+1) + 15 (10+5+5+1) + 20 (5+1) +
20 (25+20+5+1) + 15 (20+5+1) + 15 (5+1) + 10x1 = 6815
Coeficientul de corelatie Pearson
Utilizat atunci cand cel putin una dintre variabile este metrica, variabilele sunt
continue, au distributii normale si dispersii asemanatoare.
n
n
x
yi
y
i
i
r
i
1
i
1
i
1
n
n
x x
˘ x ˘˘x ˘ x ˘
2
2
n
x
yi
y
x
i
i
i
1
i
1
i
1
i
1
x
11
rr
1
,5
1
3
lo
g
1
0
Z
1
c
n
3
• Valoarea calculata Zc a testului se compara cu valoarea
tabelata Zt a acestuia, obtinuta in functie de
probabilitatea de garantare a rezultatului.
-Zt2 ≤ Zc2 ≤ Zt 2 : se accepta ipoteza nula
altfel : se respinge ipoteza nula
Analiza asociativa a datelor
• Indicatori utilizati:
– Variabile categoriale:
• variabile dihotomice =>rphi;
• variabile ordinale sau interval => ρ sau γ;
• variabile nominale, non-dihotomice: C.
– Variabile proportionale => r;
Corelatii partiale
• Nu intotdeauna o corelatie observata reprezinta
asocieri directe intre variabile (corelatia nu
implica cauzalitatea)!
• Exemplu: a fost demonstrata o relatie directa si
puternica intre consumul de inghetata si
infractionalitatea (numarul de infractiuni
saptamanale) din New York!! (sa le propunem sa
interzica inghetata!?!)
– Motivul: ambele sunt influentate de temperatura!
Corelatii partiale
• Coeficientul de corelatie partiala masoara gradul
de asociere dintre doua variabile, excluzand in
prealabil efectele asupra variabilei dependente a
una sau mai multe variabile de control
(independente)!
– Exemple:
• efectul asupra cresterii vanzarilor al unui spot promotional,
atunci cand este exclus efectul reducerilor de pret asociate;
• perceptia consumatorilor asupra calitatii produsului este
influentata de perceptia asupra pretului, in conditiile in care
se exclude perceptia asupra imaginii marcii, etc.
Corelatii partiale
Coeficientul de corelatie partiala dintre variabila independenta X si
variabila dependenta Y, in conditiile in care este exclus (“controlat”)
efectul variabilei independente (de contro) Z, notat rxy-z.
x ˘x ˘
rx
y
x
z
y
z
rx
y
-
z
˘ ˘
2 xz
2 yz
x x
1
r
1
r
ρ
ˇ x ˇ x ˇ
x
y
-
Z
\
Z
Z
\z
Z
\
z
x
ρ
y
z
z
0
0
0
0
x
y
-
z
2x
1
ρ
1
ρ
2y
Z
\
z
Z
\
z
z
z
0
0
0
Corelatii partiale
rx
y
x
z
y
z
ryx2 = 0,7334 rx
y1
x
2x z
2y z
-
1
r
1
r
rx1x2 = 0,5459
˘x ˘
0
,
9
3
6
0
,1
5
x
4
9
5
3
,7
3
4
0
,3
9
8
6
˘
rx
˘
y1
x
2
1
0
,4
5
9
5
1
0
,7
3
x x 3
4
-
2
Corelatii partiale
- analiza predictiva -
Analiza predictiva
P s
| ki i | 1
, ,2 s
s
si s
,
s
P
,
si
,
s
x K K
x K
i
i
k
1
i
2
i
k
1
1
i
2
i
k
1
x ˘ x ˘
K
P P
P P
, 1i s i
s
K
k
1
k
ik
1
i
˘ x ˘ ˘ ˘
| ik
s
P
s
|i
s2
P
s
x K
x x
i
k
1
ik
2
i
1
i
1
j
• probabilitatea iniţială:
i P(si )
Lanturile Markov
• Matricea probabilitatilor de tranzitie este
alcatuita pe baza probabilitatile de transformare
(schimbare a starii) a fiecarei variabile:
– Exemplu: utilizarea clasica in marketing – evolutia
cotei de piata (matricea probabilitatii de tranzitie este
alcatuita pe baza unui indicator de loialitate / tranzitie
a respondentilor pentru o anumita marca).
– Pe piaţa şampoanelor dermato-cosmetice există trei
produse (2007): Selegel, T-gel şi Nizoral, cu cotele de
piata:
Selegel Ducray Nizoral
25% 35% 40%
Lanturile Markov
• Indicele de loialitate. Selegel Ducray Nizoral
0,85 0,75 0,8
P
Y
t
1
t
Metoda modificarii procentuale
Pt
t
M
M
Pt
Y0
1
Y
Y 1
M
M
Pt
t n
0
1M
5P
0
0
1
2 6
0
0
0
0
M
6
0
0
6
1 16
˘
Y
1 iu
2 lie
0
0
0
x
0
1
0
5
6
0
0
Metoda modificarii procentuale
mobile
Y
Y
t
2
t1
t
t
1
Y1
Y
Y
.
.
.
2
M
P
Mt
1
2
t
Y1
t
n
Metoda modificarii procentuale
mobile
• Metoda modificării procentuale mobile (MMPM)
presupune utilizarea formulei de previziune:
x ˘
Pn
1
M
M
Pn
·Y
1
n
• Pentru perioada m care urmeaza celor n perioade
observate (date istorice), formula se transforma
dupa:
Pn
M
M
Pn
·
Y
·mn
Y
m
n
Metoda mediilor mobile
L
-
1 2
ˆ 1 L
Yt
Yt
t- 2
L
i
• presupunea alegerea unui interval de referinta L (L < n), la nivelul caruia se
vor raporta calculele pentru determinarea mediilor mobile. Se recomanda ca L
< 8.
Metoda mediilor mobile
• Pentru o serie de aplicatii, se pot utiliza si date “viitoare”,
metoda fiind centrata pe o anumita valoare. In acest fel,
metoda nu prevede evolutia ulterioara a fenomenului, ci
valorile “asteptate”, conform trend-urilor presupuse de
valoarile observate.
• Metoda se bazeaza pe propritatea mediei aritmetice de
compensare a erorilor, diminuand astfel influenta
oscilatiilor periodice. Sirul obtinut reprezinta trendul si
reflecta tendinta comuna, generala a seriei cronologice.
Metoda mediilor mobile
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti.
Perioada 1 2 3 4 5 6 7 8 9 10 11 12
Valori observate 5 6 8 7 6,5 7,2 6,8 6,3 6 6,6 7,4 7,8
Valori previzionate (L=5) - - 6,5 6,9 7,1 6,8 6,6 6,6 6,6 6,8 - -
1 5
1 5
5
• Metoda de calcul:
˘
P3
5
6
8
7
6
,
5
6
,
5
Yt
x
i
1
1 515 i
1 51
6
˘
P4
Yt
6
8
7
6
,
7
5
,
2
6
,
9
x
i
7
2
˘
P
8
7
6
,
5
7
,
2
6
,
8
7
,
1
x
5
t
5
3
Metoda mediilor mobile
Y
Y
Y
t
t
1
t1
.t2
.
.
Y
1
Y
t
1
Y1
M
P
Mt
0
6
.1
0
2
5
t
2
n
ˆ ˆ
P1
M
M
P10
·Y1
·3
6
Y
. 10
6
9
2
3
0
Metoda nivelarii exponentiale
1
a
Pt
1
t
• presupunea alegerea unui coeficient de nivelare α (0 < α
< 1), valoarea acestuia fiind stabilita fie prin utilizarea
mediilor mobile, fie prin incercari, urmata de evaluarea
acuratetei seriilor de valori previzionate (suma patratelor
valorilor reziduale).
Metoda nivelarii exponentiale
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti. Vom analiza trei coeficienti:
• α = 0,5;
x ˘
P2
0
,
5
6
1
0
,
5
5
• α = 0,33;
• α = 0,25;
Perioada 1 2 3 4 5 6 7 8 9 10 11 12
Valori observate 5 6 8 7 6,5 7,2 6,8 6,3 6 6,6 7,4 7,8
Previziune (α=0,5) 5 5,5 6,75 6,9 6,7 6,9 6,9 6,6 6,3 6,4 6,9 7,4
Previziune (α=0,33) 5 5,33 6,22 6,48 6,49 6,73 6,75 6,6 6,4 6,47 6,78 7,12
Previziune (α=0,25) 5 5,25 5,94 6,2 6,28 6,51 6,58 6,51 6,38 6,44 6,68 6,96
Metoda nivelarii exponentiale
1
0
,
5
7
,
4
7
,
6
x
3
1
0
,
3
7
3
,
1
2
7
,
3
4
x
0
1
,
2
5
6
,
9
6
7
,
1
8
• Pe care o vom alege?
Metoda nivelarii exponentiale
• Metoda nivelarii exponentiale duble (Metoda Brown) este
recomandabila atunci cand seria dinamica poseda în
configuratia sa o tendinta liniara.
• Necesita doar un minim de 3 valori istorice pentru a fi
implementate (insa acuratetea ei este influentata direct de
dimensiunea seriei istorice utilizate).
• presupunea utilizarea a doi vectori de nivelare dinamica
αi si þi (0 < αi, þi < 1).
Metoda nivelarii exponentiale
P
a
þ
Ptk
t
k
t
-1
• unde:
a
2
P
P
a
P
P
t
t
t
t
t
1
a
• iar
Pt Xt 1 Pt
1
Pt t 1 Pt1
Metoda nivelarii P
exponentiale
Metoda nivelarii exponentiale
• Metoda nivelarii exponentiale cu doi parametrii (Metoda
Holt) este mai flexibilitata decat metoda Brown, intrucat
permite nivelarea tendintei folosind un parametru diferit de
cel al seriei dinamice iniţiale.
• Necesita doar un minim de 3 valori istorice pentru a fi
implementate (insa acuratetea ei este influentata direct de
dimensiunea seriei istorice utilizate).
• presupunea utilizarea a 3 coeficient de nivelare dinamici
α, þ si ç (0 < α, þ, ç < 1).
• Metoda este utilizata pentru a determina trend-ul evolutiei
fenomenului, iar pe baza acestuia nivelul ulterior al
variabilei previzionate.
Metoda nivelarii exponentiale
• Seriile asociate metodei Holt au forma:
Pt x ˘
a
þ
st
t
t
x ˘
T
ç
Pt
-1
Pt-
1
ç
P
t
t
1
Metoda nivelarii exponentiale
1
a
T
x
1
t
t
Yþ P
1
þ
S
S
t
t1
t
t
• unde Y T
a
P
T
P
1
t
t
1
t
1
t
t
1
1
ç
T
T
ç
P
t
1
t
t
1
Metoda nivelarii exponentiale
Alegerea metodei de previziune
adecvata
n
x ˆ ˘
2
S
S
y
y
E
i
i
1
|
y
y
|
ˆ
i
i
A
M
A
i
1
n
Alegerea metodei de previziune
adecvata
• Exemplu: previziunea vanzarilor pentru a 11-a perioada:
MMP Brown Holt Winters
Anul Xi Yi εi Yi εi Yi εi Yi εi
Ian 2 1,8 0,2 2 0 2,3 -0,3 - -
Feb 2,5 2,3 0,2 2,7 -0,2 2,8 -0,3 2,5 0
Mar 3,2 2,8 0,4 3,3 -0,1 3,4 -0,2 3,1 0,1
Apr 3,0 2,9 0,1 3,1 -0,1 3,2 -0,2 3,1 -0,1
Mai 4,0 3,8 0,2 3,8 0,2 3,8 0,2 3,7 0,3
Iun 4,5 4,6 -0,1 4,6 -0,1 4,4 0,1 4,4 0,1
Iul 5,0 5,2 -0,2 4,8 0,2 4,8 0,2 5,0 0
Aug 4,8 5,0 -0,2 5,3 -0,5 5,0 -0,2 5,1 -0,3
Sep 5,3 5,5 -0,2 5,5 -0,2 5,1 0,2 5,2 0,1
Oct 6,0 5,7 -0,3 5,6 0,4 5,8 0,2 5,5 0,5
Alegerea metodei de previziune
adecvata
• Suma patratelor valorilor reziduale, respectiv abaterea
medie absoluta:
n| 1
ˆ
y
yi
|
iA
n
i
x
A
M
ˆ ˘
2
S
SE
yi
y
i
i
1
ð
a
Y1
a
Y2
.
.
.
a
Yp
s
1
t
t
-
t
-
2
t
-
p
t
x ˘
ð
1i
Y
i
1
Modele autoregresive (AR)
Modele autoregresive (AR)
Yt
Y
Yt
Y
h
R
i
1
h
2
σ
– Liniile (valorile) de demarcatie pentru autocorelatie sunt
calculate dupa formula (α corespunde probabilitatii de
arantare
g a rezultatelor): t1
a2
n
Modele autoregresive (AR)
• Identificarea modelului:
– Modelul ARMA (fara sezonalitate si trend):
p
q
x ˘ x ˘
L
i
iL
1
a
Yt
st
i
i
i
1
i
1
q
˘ ˘
iL i
iL
1
1
-
L
Y
s
x x̆ x
t
t
i
1
i
1
Modele autoregresive (AR)
• Identificarea modelului:
– estimarea parametrilor αi si þi - in intervalul [-1;1] se realizeaza prin
aproximare (recomandabil cu un program statistic, gen SPSS);
– Li reprezinta vectorul primilor i parametrii estimati pentru o serie
cronologica simpla sau care include sezonalitate (operatorul de lag).
• Estimarea parametrilor modelului:
– parametrii p si q sunt estimati cu ajutorul graficului de
autocorelatie (valoarea maxima a lui α (probabilitatea de
garantare a rezultatelor) pentru care coeficientii de
autocorelatie nu depasesc valoarea-prag).
– parametrii αi sunt estimati prin aproximare, folosind metoda
celor mai mici patrate (recomandabil cu un program
statistic, gen SPSS);
Modele autoregresive (AR)
• Validarea parametrilor modelului:
– Se realizeaza prin testarea ipotezei nule ca valorile
reziduale sunt independente, vectorul acestora avand o
medie si o varianta nediferite semnificativ statistic in timp.
In cazul in care parametrii nu sunt validati, trebuie revenit
la pasul 1.
– Valoarea testul Student asociat parametrilor modelului
a s
este:
z
i
c
a
i
.2
.
ap
Yt-
st
2t
1
p
0
Y
1
Y
Y
t
-
1
t
-
2
t
-
3
t
Modele autoregresive (AR)
• Pentru perioada 11 vom avea:
ˆ
Y1
-0
,3
9
4
0
,
3
5
4
2
0
0
,
9
3
8
1
9
1
,
6
0
2
1
8
,
5
2
1
,
8
1
3,218
c
0,333
a s
1,005
z
1,684
1
c
c
0,396 0,317
a
1
2
Yt
-
3
t
ˆ
1
8
,5
1
8
,
7
Y1
-0
,3
9
4
1
,
6
0
2
1
Analiza autocorelatiei
Testul Durbin-Watson necesita calculul parametrului d,
dupa formula:
T (Û t Û t1
)
2
d t2
T
U t
ˆ 2
t1
Daca d<dL sau d>dT, atunci este acceptata ipoteza nula (dL si dT
sunt luate din tabelele asociate testului Durbin-Watson).
Testul Geary este de natura neparametrica si are ca punct
de plecare calculul numarului schimbarilor de semn in seria
valorilor reziduale ð.
Daca ðmin< ð < ðmax (tabelate), atunci ipoteza nula este acceptata.
Regresia
– Regresia reprezinta o clasa semnificativa de metode de
previziune, in care valoarea unei variabile (denumita
dependenta) este previzionata folosind valorile altor variabile
(independente), de ale carei valori depinde.
y
a
b
x
Regresia liniara
n
x ˘x
x
n
y
y
i
i
b
i
1
i
1
i
1
– panta (b):
n
x ˘
2
2
n
x
x
i
i
i
1
i
1
a
y
b
x
– termenul liber (a):
Metoda regresiei multiple
þ
X.2
.
.
þ
.Xi
. i
.
þ
Xn
1
n
• Parametrii þ sunt estimati utilizand metoda celor mai mici patrate (un
model cu n variabile va avea nevoie de n perechi de date “istorice”
pentru scrierea unui sistem de n ecuatii).
nn
n
n
2 2
yi
x
x
yi
x
x
-
2i
2i
i
1i
1i
1
i
1
1
1
þ
i
i
i
n
1
x ˘
x
2 1i
2 2i
2
x
x
-
2i
1i
1
1
i
i
n
n
n
x
2 i
x
x
yi
yi
x
x
-
1
1i
2i
1i
2i
i
1 n
1
1
þ
i
i
nn
2
x ˘
x
2 2i
2 1i
2
x
x
-
1i
2i
ii
1
1
1
i
a1
x2
þx
þ
y
1
2
Metoda regresiei multiple
• Estimarea semnificatiei statistice a parametrilor
este utilizata pentru a se verifica faptul ca variatia
variabilei dependente nu este datorata intamplari
(evenimentelor aleatoare), ci este rezultatul
variatiei uneia sau mai multor variabile
independente.
• Realizata cu ajutorul testului Student, in care
numarul de grade de libertate al valorii teoretice
(tabelate) se determina cu conform:
Nivelul de semnificatie = (1-nivelul de confidenta)/2
Metoda regresiei multiple
• Testarea semnificatiei (reprezentativitatii) parametrilor
de regresie:
þ s s t
tc
i þ i
j ̂ j T , j
ˆ x̆Y
Y
n
k
1
x i
Fc
i
1 n
ˆ x̆ 2 ˘
Yi
k
1
Y
x
i
1
Metoda regresiei multiple
n
ˆ
2
y
y
i
R
i n
1
y
,,
.
x
.,
x
.
,2
x
k
1
2
y
y
i
i
1
Metoda regresiei multiple
x
n
þ
a
y
1
1
2
i
i
i
2
xi
x2
y ii
a
þ1
x1
x1
x1
1
i
i
i
xi
y ii
2
þ
þ
x
x1
x
x
þ
2
2
i
2
2
i
1
7
51
þ
3
6
8þ
0 7
a
1
1
0
3
6
2
a 1
2 94
6 8
7 7
21 6
8
1
6
þ þ
5 6
þ
1 3
7
4 2
3
2 6
1 7
1
1 a
8
21
þ
1
5
1
2
7
5
4
2
Metoda regresiei multiple
• Dupa rezolvarea ecuatiei vom obtine:
– þ1 = 0,974543752;
– þ2 = 0,104112437;
– α = 4,702902918;
Ŷ = 4,703 +0,97X1i+ 0,104X2i
ˆ 2
y
y
i
R
8
0
9
,
9
0
8
5
i n
1
y
,,
.
x
,.
x
.
,
x
k
1
2
y
y
i
i
1
Metoda regresiei multiple
• Valorile reziduale:
2
Yi ŷ yi ε = yi - ŷ (yi- ŷ)
22 22,92209467 22 -0,922094675 0,850258589
20 18,15286921 20 1,847130787 3,411892145
23 23,49930977 23 -0,499309769 0,249310245
26 26,96671515 26 -0,966715154 0,934538188
30 31,04921181 30 -1,04921181 1,100845422
32 34,49973652 32 -2,499736517 6,248682653
50 45,79082822 50 4,209171778 17,71712706
52 52,87302888 52 -0,873028881 0,762179427
60 61,77950786 60 -1,779507855 3,166648206
40,85910144
Metoda regresiei multiple
• Validitatea valorilor previzionate:
n
x ˆ x̆
Y ˘
Y
n
k
1 1 1
i
Fc
5
7
,
7
1
2
5
5
1
6
i
1 n
x ˆ x̆
Y
2
˘
Yi
k
i
1
• Valoarea tabelata a lui F pentru o probabilitate de garantare a
rezultatelor de 95% si 52 de grade de libertate: 3,23 => Fc =157,71 > Ft
=3,23 => se accepta ipoteza alternative (valoarea coeficientului de
corelatie multipla este semnificativ diferita de zero), deci regresia este
valida.
Analiza multicoliniaritatii
x 1 6
2c
χ
n
1
˘ ˘
T
Z
]
2
m
1
d
5
e
ln
t
[
Z
x
m
1
x
˘
i
i
x
Fc
r
m
2
• Valoarea teoretica a lui F se regaseste in tabelele statistice ale
repartitiei Fisher, considerandu-se n-m+1 si m-2 grade de libertate.
ij
r
ri j
ii
jj
r
r
• Apoi se calculeaza valoarea testului Student dupa formula:
x ˘
ri
m
1
j
tij
2j
1
ri
• Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
Analiza erorii medii patratice a
valorilor reziduale