Anda di halaman 1dari 22

Universitatea Tehnic Gh.

Asachi Iai
Centrul de Educaie i Formare Continu - CETEX
coala de studii postuniversitare

ANALIZA BAZA DE DATE CU SPSS


-

PROIECT STATISTIC -

Coordonator
Prof.univ.dr. Elisabeta Jaba

Masterand
Puiu (Costescu) Elena

CUPRINS

1. Introducere
1.1 Definirea problemei
1.2 Obiectivul proiectului
2. Baza de date
2.1. Alegerea variabilelor analizate
2.2. Definirea variabilelor i introducerea datelor n SPSS
3. Verificarea bazei de date
3.1. Depistarea outlieri-lor
3.2. Verificarea normalitii distribuiilor
4. Analiza statistic univariat a datelor
4.1. Descrierea statistic a variabilelor nominale
4.2. Descrierea statistic a variabielor numerice
5. Analiza statistic bivariat a datelor
5.1. Analiza statistic a gradului de asociere ntre dou variabile
5.2. Analiza de regresie i corelaie
5.3. Analiza dispersional (ANOVA)
6. Concluzii

BIBLIOGRAFIE
JABA, E., STATISTICA, Ediia a III-a, Editura Economic, Bucureti, 2002;
JABA, E., GRAMA, A., ANALIZA STATISTIC CU SPSS SUB WINDOWS, Editura
Polirom, Iai, 2004.

I. INTRODUCERE

1.1
Definirea problemei
Un importator de produse dermocometice a iniiat o campanie de promovare a produselor
importate, alegand site-ul propriu de vnzri online ca i loc de desfurare a acestei aciuni.
Obiectivul campaniei: gsirea i definirea targetului de pia, a clienilor. Aceasta ajut n
poziionarea produsului/produselor, putnd identifica astfel mult mai uor oportunitile.
n cadrul campaniei de promovare au fost active diverse promoii la a cror participare era
obligatorie completarea unui formular de participare care include ntrebri privind profesia i
domeniul de activitate, venitul lunar obinut, judeul de domiciliu, opiunile pentru unul sau altul
dintre mrcile de produse dermocometice prezente pe piaa din Romnia.
Rspunsurile la ntrebrile din chestionar au fost introduse n programul SPSS i au format o
baz de date pentru diferite analize.
1.2
Obiectivul lucrrii
n cadrul acestei lucrri mi-am propus analiza unor ntrebri din chestionar, reprezentative
pentru stabilirea targetului de pia: ntrebrile privind vrsta, venitul, profesia i domeniul de
activitate ale clienilor, mediul i opiunile pentru o anumit marc de dermocometice.
Prin utilizarea programului SPSS am ncercat s obin informaii privind vrsta medie a
clienilor i venitul mediu; repartiia clienilor pe sexe, judee i domenii de activitate. Va fi prezent
i analiza grafic a acestor repartiii.
Pentru analiza mai complex i, poate, ct mai complet a acestor date, am considerat util
aplicarea procedeului ANOVA pentru a studia influena domeniului de activitate asupra venitului
obinut de clieni. Analiza de regresie i corelaie permite studierea legturii dintre vrsta i venitul
clienilor. Am aplicat analiza asocierii pentru a identifica gradul de asociere ntre domeniul de
activitate i profesia clienilor.
II. BAZA DE DATE
2.1
Alegerea variabilelor analizate
Am analizat rspunsurile clienilor la ntrebrile din chestionar cu ajutorul programului SPSS.
Principalele ntrebri considerate se refer la: sex, vrsta, profesia, domeniul de activitate, venit,
mediu, jude.
Fiecare ntrebare reprezint o variabil ce a fost introdus n programul SPSS. Rspunsurile
clienilor la aceste ntrebri constituie valori ale variabilelor definite anterior.
2.2
Definirea variabilelor i introducerea datelor n SPSS
Pentru a face analizele propuse n obiectivul acestui proiect, trebuie creat baza de date. Acest
proces presupune prezentarea datelor ntr-o form care s permit organizarea i efectuare analizei
lor i const n dou etape:
- definirea variabilelor
- introducerea datelor.
3

Am definit variabilele n coloanele foii Variable View din fereastra Data Editor. Pentru
fiecare variabil introdus trebuie s precizm atributele:
- numele variabilei;
- tipul variabilei (numeric, alfanumeric);
- lungimea (numrul de caractere, numrul de zecimale);
- eticheta i valorile etichetei;
- modalitatea de msurare a variabilei (scal, ordinal, nominal).
Variabilele definite, n numr de 10, sunt prezentate n figura de mai jos:

Fig. 1. Foaia Variable View din fereastra Data Editor


n cazul variabilelor categoriale (nominale) am precizat valorile luate de variabile i etichetele
corespunztoare lor n fereastra Value Label.
Pentru sexul respondentului am definit:
1 masculin;
2 feminin.
Pentru profesia respondentului am definit:
1 economist;
4 medic;
2 inginer;
5 profesor;
3 jurist;
6 altele.
Pentru domeniul de activitate am definit:
1 industrie;
3 servicii;
2 comer;
4 altele.
Pentru mediul de reziden am definit:
1 >100 000 locuitori;
2 <100 000 locuitori.

Pentru preferina 1, 2, 3 privind utilizarea produselor dermocosmetice (mrci) am definit:


1 Sebamed;
5 Ivatherm;
2 Eucerin;
6 Iwostin;
3 Avene;
7 Klorane;
4 Vichy;
8 Altele.
Variabila judeul a fost definit ca variabil alfanumeric (String).
Pentru variabila venitul lunar lei am scris intervalele oferite ca variante ajuttoare de rspuns:
1 <1000 lei;
2 1001-2000 lei;
3 2001-3000 lei;
4 3001-4000 lei;
5 >4001 lei.
Am introdus datele n celulele foii Data View din fereastra Data Editor. n fiecare coloan
(variabil) am introdus rspunsul corespunztor. n total au fost 27 de subieci, deci am obinut 27 de
rspunsuri.

III. VERIFICAREA BAZEI DE DATE


Pentru a verifica dac distribuia valorilor unei variabile prezint asimetrie accentuat, dac
sunt outlieri sau alte anomalii utilizm diagramele Boxplot create prin opiunea Explore a comenzii
Descriptive Statistics din meniul Analyze, sau alte procedee de verificare a normalitii (procedee
grafice: histograma, P-P plot, Q-Q plot i teste de normalitate).
3.1
Depistarea outlieri-lor
n output-ul opiunii Explore am obinut valorile extreme (maxime i minime) pentru cele
dou variabile numerice: vrsta respondentului i venitul lunar mil. lei.

Extreme Values

varsta respondentului

Highest

Lowest

venit lunar (lei)

Highest

Lowest

1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5

Case Number
15
14
10
18
9
27
6
5
24
21
9
14
1
3
4
6
27
21
12
7

Value
48
45
44
43
41a
16
16
17
18
18
5
5
4
4
4b
1
2
2
2
2c

a. Only a partial list of cases with the value 41 are shown in the
table of upper extremes.
b. Only a partial list of cases with the value 4 are shown in the table
of upper extremes.
c. Only a partial list of cases with the value 2 are shown in the table
of lower extremes.

Din tabel i din figura 5 observm c diagrama Boxplot pentru variabila venitul lunar (lei)
indic trei valori outlier-e : pentru respondenii cu nr. crt. 9 i 14 cu valoarea egal cu 5 (venit mai
mare de 4001 lei) i pentru respondentul cu nr. crt. 6 respectiv cu valoarea egal cu 1 (venit mai mic
de 1000 lei) ceea ce este vizibil i n reprezentarea grafic (histograma).
3.2
Verificarea normalitii distribuiilor
Ca procedee numerice pentru testarea normalitii am folosit asimetria (Skewness) i
boltirea (Kurtosis).
Valorile pentru asimetrie obinute pentru distribuiile dup variabilele vrsta respondentului i
venitul respondentului sunt mai mici dect 0 (-0,281 i respectiv -0,335) indicnd o asimetrie la
stnga (negativ).
Valorile pentru boltire obinute pentru ambele variabile sunt negative ceea ce relev o
distribuie platicurtic: pentru variabila vrsta respondentului valoarea coeficientului de boltire este
-1,244 iar pentru variabila venitul respondentului valoarea coeficientului de boltire este -0,594. Nu
avem aici distribuie leptocurtic.

Descriptives
varsta respondentului

venit lunar (lei)

Mean
95% Confidence
Interval for Mean

Lower Bound
Upper Bound

5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
95% Confidence
Interval for Mean

Lower Bound
Upper Bound

5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis

Statistic
31.67
27.68

Std. Error
1.939

35.65
31.67
34.00
101.462
10.073
16
48
32
19
-.281
-1.244
3.26
2.85

.448
.872
.197

3.66
3.27
3.00
1.046
1.023
1
5
4
2
-.335
-.594

.448
.872

Principiul verificrii normalitii unei distribuii pe baza testului Kolmogorov-SmirnovLilliefors (K-L-S) const n compararea frecvenelor reale cumulate cu frecvenele teoretice
cumulate extrase din tabelul Gauss.
Tests of Normality
a

varsta respondentului
venit lunar (lei)

Kolmogorov-Smirnov
Statistic
df
Sig.
.128
27
.200*
.247
27
.000

Shapiro-Wilk
Statistic
df
.925
27
.894
27

Sig.
.051
.010

*. This is a lower bound of the true significance.


a. Lilliefors Significance Correction

Nivelul ridicat al gradului de semnificaie obinut pentru variabila vrsta respondentului


(Sig. mai mare dect 0,05) arat c distribuia dup aceast variabil nu difer semnificativ de forma
distribuiei normale.
Nivelul redus al gradului de semnificaie obinut pentru variabila venitul respondentului
(Sig. mai mic dect 0,05) arat c distribuia dup venitul respondentului difer semnificativ de
forma distribuiei normale.

Diagrama Q-Q pentru variabila vrsta respondentului prezint punctele Q-Q conturnd o
linie care este apropiat de dreapta care reprezint distribuia teoretic. Aceast situaie indic o
distribuie normal.
Normal Q-Q Plot of varsta respondentului
2

Expected Normal
1

-1

-2
10

20

30

40

50

Observed Value

Figura 2. Diagrama Q-Q plot pentru variabila vrsta respondentului


Diagrama Q-Q pentru variabila venitul respondentului arat c punctele nu indic abateri
relevante de la normalitate, este deci o distribuie normal.
Normal Q-Q Plot of venit lunar (lei)
2

Expected Normal
1

-1

-2
1

Observed Value

Figura 3. Diagrama Q-Q plot pentru variabila venit lunar (lei)


Diagrama Boxplot pentru variabila vrsta respondentului arat o distribuie asimetric la
stnga (negativ).

50

40

30

20

10
varsta respondentului

Figura 4. Diagrama Boxplot pentru variabila vrsta respondentului


Diagrama Boxplot pentru variabila venitul respondentului indic o distribuie relativ
omogen cu asimetrie pozitiv (la dreapta).
5

1
venit lunar (lei)

Figura 5. Diagrama Boxplot pentru variabila venitul lunar (lei)

IV. ANALIZA STATISTIC UNIVARIAT A DATELOR


4.1
Descrierea statistic a variabilelor nominale
n urma analizei variabilelor nominale cu ajutorul opiunii Frequencies din comanda
Descriptive Statistics a meniului Analyze am obinut tabele de frecven pentru fiecare variabil n
parte, n care sunt calculate, sub form procentual, proporiile diferitelor categorii de respondeni n
totalul eantionului.
Pentru reprezentarea grafic a variabilelor nominale i prezentarea vizual a acelorai
rezultate privind proporiile diferitelor categorii de respondeni am ales opiunea Pie charts din
fereastra de dialog Frequencies Charts.
Informaiile obinute att din tabelele de frecven ct i din diagramele Pie privesc
structura eantionului de respondeni pe sexe, profesii, domenii de activitate, medii, judee i
preferina pentru marca de dermocosmetice.
9

sexul respondentului

Valid

masculin
feminin
Total

Frequency
8
19
27

Percent
29.6
70.4
100.0

Valid Percent
29.6
70.4
100.0

Cumulative
Percent
29.6
100.0

profesia respondentului

Valid

economist
inginer
jurist
medic
profesor
altele
Total

Frequency
3
2
5
6
4
7
27

Percent
11.1
7.4
18.5
22.2
14.8
25.9
100.0

Cumulative
Percent
11.1
18.5
37.0
59.3
74.1
100.0

Valid Percent
11.1
7.4
18.5
22.2
14.8
25.9
100.0

domeniul de activitate

Valid

industrie
comert
servicii
altele
Total

Frequency
4
1
15
7
27

Percent
14.8
3.7
55.6
25.9
100.0

Valid Percent
14.8
3.7
55.6
25.9
100.0

Cumulative
Percent
14.8
18.5
74.1
100.0

mediul

Valid

>100000 locuitori
<100000 locuitori
Total

Frequency
23
4
27

Percent
85.2
14.8
100.0

10

Valid Percent
85.2
14.8
100.0

Cumulative
Percent
85.2
100.0

judetul

Valid

alba
arad
bacau
brasov
bucurest
cluj
dolj
focsani
iasi
mures
sibiu
Total

Frequency
2
2
2
2
5
2
2
1
3
3
3
27

Percent
7.4
7.4
7.4
7.4
18.5
7.4
7.4
3.7
11.1
11.1
11.1
100.0

Valid Percent
7.4
7.4
7.4
7.4
18.5
7.4
7.4
3.7
11.1
11.1
11.1
100.0

Cumulative
Percent
7.4
14.8
22.2
29.6
48.1
55.6
63.0
66.7
77.8
88.9
100.0

pref.1 marca dermocosmetice

Valid

Sebamed
Eucerin
Avene
Vichy
Ivatherm
Iwostin
Klorane
Total

Frequency
8
8
3
2
4
1
1
27

Percent
29.6
29.6
11.1
7.4
14.8
3.7
3.7
100.0

Valid Percent
29.6
29.6
11.1
7.4
14.8
3.7
3.7
100.0

Cumulative
Percent
29.6
59.3
70.4
77.8
92.6
96.3
100.0

pref.2 marca dermocosmetice

Valid

Sebamed
Eucerin
Avene
Vichy
Ivatherm
Iwostin
Total

Frequency
11
8
2
2
1
3
27

Percent
40.7
29.6
7.4
7.4
3.7
11.1
100.0

11

Valid Percent
40.7
29.6
7.4
7.4
3.7
11.1
100.0

Cumulative
Percent
40.7
70.4
77.8
85.2
88.9
100.0

pref.3 marca dermocosmetice

Valid

Sebamed
Eucerin
Avene
Vichy
Ivatherm
Iwostin
Klorane
altele
Total

Frequency
5
3
3
3
5
2
3
3
27

Percent
18.5
11.1
11.1
11.1
18.5
7.4
11.1
11.1
100.0

Valid Percent
18.5
11.1
11.1
11.1
18.5
7.4
11.1
11.1
100.0

Cumulative
Percent
18.5
29.6
40.7
51.9
70.4
77.8
88.9
100.0

Din totalul celor 27 de respondeni, 70,4% sunt persoane de sex feminin iar 29,6% sunt
persoane de sex masculin.
Din cele 27 persoane intervievate 22,2% sunt de profesie medic, 18,5% sunt juriti, 14,8%
sunt profesori, 11,1% sunt economiti, 7,4% sunt ingineri i 25,9% au alte profesii.
Cele mai multe din persoanele chestionate i desfoar activitatea profesional n domeniul
serviciilor (55,6%), n industrie lucreaz 14,8% din intervievai, doar 3,7% i desfoar activitatea
n comer, iar 25,9% i desfoar activitatea n alte domenii.
n ceea privete mediul de reziden, 4 persoane (14,8%) provin din orae cu sub 100000
locuitori, n timp ce restul persoanelor, n proporie de 85,2%, locuiesc n orae cu peste 100000
locuitori.
Repartizarea pe judee este destul de dispersat: 5 persoane (18,5%) sunt din Bucureti, 3
judee Iai, Mure, Sibiu - au adunat fiecare cte 3 persoane (fiecare jude ocup 11,1%), alte 6
judee Alba, Arad, Bacu, Braov, Cluj, Dolj au fiecare cte 2 persoane (fiecare cte 7,4%) i
judeul Focani are un singur exponent ocupnd un procent de 3,7%.
Pentru prima opiune: din totalul respondenilor, 29,6% prefer produsele Sebamed, alte
29,6% prefer principalul lui concurent Eucerin - n timp ce 14,8% prefer Ivatherm, 11,1%
prefer Avene, 7,4% prefer produsele Vichy, iar mrcile Iwostin i Klorane au atras fiecare cte
3,7% din respondeni.
Pentru a doua opiune: Sebamed a ntrunit 40,7% din opiuni, Eucerin are 29,6 din preferine,
Iwostin deine 11,1%, Avene i Vichy atrage fiecare cte 7,4% i Ivatherm este a doua opiune
pentru 3,7% dintre persoanele chestionate.
A treia opiune: 18,5% prefer Sebamed i nc 18,5% prefer Ivatherm, cte 11,1% au ales a
treia opiune Eucerin, Avene, Klorane respectiv Vichy, i 7,4% prefer Iwostin.

12

sexul respondentului

profesia respondentului
masculin

economist

feminin

inginer
jurist
medic
profesor
altele

domeniul de activitate

mediul

industrie

>100000
locuitori

comert

<100000
locuitori

servicii

altele

judetul

pref.1 marca dermocosmetice


alba

Sebamed

arad

Eucerin

bacau

Avene

brasov

Vichy

bucurest

Ivatherm

Iwostin

cluj

Klorane

dolj
focsani

iasi
mures
sibiu

pref.2 marca dermocosmetice


pref.3 marca dermocosmetice

Sebamed

Eucerin
Sebamed

Avene
Vichy

Eucerin

Ivatherm

Avene

Iwostin

Vichy
Ivatherm

Iwostin
Klorane
altele

Figura 6. Diagramele Pie


13

Am aflat categoria cea mai des ntlnit pentru fiecare variabil nominal calculnd modul.
Astfel, din cei 27 de participani la studiu, predomin persoanele de sex feminin, avnd profesia de
medic, desfurndu-i activitatea n domeniul serviciilor, predominant din localiti cu peste 100000
locuitori i care au prima, a doua i chiar a treia opiune Sebamed.
4.2
Descrierea statistic a variabilelor numerice
Am caracterizat distribuiile statistice dup vrsta respondentului i venitul lunar calculnd
indicatorii tendinei centrale, dispersiei i formei prin selectarea opiunii Frequencies din comanda
Descriptive Statistics a meniului Analyze.
Statistics

varsta
responde
ntului
27
0
31.67
1.939
34.00
16a
10.073
101.462
-.281
.448
-1.244
.872
32
16
48
855
21.00
34.00
40.00

Valid
Missing

Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles

25
50
75

venit
lunar (lei)
27
0
3.26
.197
3.00
4
1.023
1.046
-.335
.448
-.594
.872
4
1
5
88
2.00
3.00
4.00

a. Multiple modes exist. The smallest value is shown

Pentru variabila vrsta respondentului am obinut urmtoarele valori ale indicatorilor


calculai:
 Mean (media) = 31,67 ani : Vrsta medie a respondenilor este de 31,67 ani.
 Median (mediana) = 34 ani : Jumtate dintre respondeni au vrsta pn la 34 ani i jumtate din
respondeni au vrsta peste 34 ani.
 Mode (modul) = sunt variante multiple: poate fi 16 ani (vrsta purtat de cei mai muli dintre
participani este vrsta de 16 ani) dac alegem opiunea de a ordona cresctor valorile sau
varianta 41 ani dac alegem s sortm valorile descresctor (vrsta purtat de cei mai muli dintre
participani este vrsta de 41 ani) etc. (alte variante: 18, 32, 37 ani).
 Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 10,073 ani : n medie,
vrsta unui participant se abate fa de vrsta medie a participanilor cu 10,073 ani, adic

14

aproximativ 59% dintre participani au vrsta cuprins ntr-un interval egal cu media plus sau
minus valoarea abaterii medii ptratice, respectiv: 31,67 10,073 ani.
 Kurtosis (boltirea) = -1,244 : valoarea negativ a coeficientului de boltire relev o distribuie
platicurtic.
 Skewness (asimetria) = -0,281 : valoarea negativ a coeficientului de asimetrie indic o asimetrie
la stnga (negativ).
 Percentile (procente) = ne arat c 25% din participani au vrsta pn n 21 ani, 50% au varsta
de pn n 34 ani i 75% au varsta pn n 40 ani.
Pentru a arta forma distribuiei respondenilor dup vrst am folosit histograma i curba
frecvenelor obinute cu ajutorul butoanelor de comand din fereastra Frequencies: Charts.
varsta respondentului
5

Frequency
3

0
10

20

30

40

varsta respondentului

50

60

Mean = 31.67
Std. Dev. =
10.073
N = 27

Figura 7. Histograma i curba frecvenelor : distribuia dup vrst a respondenilor


Din figura 7 observm c, pe ansamblu, eantionul are o distribuie dup vrst uor
asimetric la dreapta ceea ce nseamn c predomin vrsta tnr.
Pentru variabila venitul lunar milioane lei am obinut urmtoarele valori ale indicatorilor calculai:
 Mean (media) = 3,26 mii lei : Oricare respondent din cei 27 realizeaz n medie un venit lunar de
3,26 mii lei.
 Median (mediana) = 3 mii lei : Jumtate dintre chestionai realizeaz un venit lunar pn la 3 mii
lei iar jumtate dintre chestionai realizeaz un venit de peste 3 mii lei.
 Mode (modul) = 4 mii lei : venitul realizat de cei mai muli dintre respondeni este de 4 mii lei.
 Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 1,023 mii lei : n medie,
venitul lunar ctigat de un respondent se abate fa de venitul mediu lunar cu 1,023 mii lei, adic
aproximativ 74% dintre respondeni realizeaz un venit mediu lunar cuprins ntr-un interval egal
cu media plus sau minus valoarea abaterii medii ptratice, respectiv: 3,26 1,023 mii lei.
 Kurtosis (boltirea) = -0,594 : valoarea coeficientului de boltire este negativ relevnd o
distribuie platicurtic.
 Skewness (asimetria) = -0,335 : valoarea negativ a coeficientului de asimetrie indic o asimetrie
la stnga (negativ).
15

 Sum (suma tuturor observaiilor) = 88 mii lei : cei 27 de respondeni au realizat un venit lunar de
88 mii lei.
 Percentile (procente) = ne arat c 25% din participani au venit lunar cuprins ntre1001 i 2000
lei, 50% au venit ntre 2001 i i 3000 i 75% au venit lunar cuprins n limitele 3001-4000 lei.
Din figura 8 observm c, pe ansamblu, eantionul are o distribuie dup venitul lunar
asimetric la stnga predominnd veniturile medii i mari. Curba frecvenelor este platicurtic.
venit lunar (lei)
12
10

Frequency
8

6
4
2
0
0

Mean = 3,26
Std. Dev. = 1,023
N = 27

venit lunar (lei)

Figura 8. Histograma i curba frecvenelor: distribuia dup venit a respondenilor

V. ANALIZA STATISTIC BIVARIAT A DATELOR


5.1
Analiza statistic a gradului de asociere ntre dou variabile
Tratarea datelor n vederea analizei statistice a gradului de asociere presupune:
- construirea tabelelor de asociere i calculul frecvenelor condiionate;
- calculul i interpretarea lui hi-ptrat;
- calculul coeficienilor de asociere.
n acest subcapitol voi studia gradul de asociere dintre dou variabile nominale: domeniul de
activitate i profesia respondentului.
Distribuia eantionului de respondeni observai simultan dup cele dou variabile
considerate poate fi obinut prin opiunea Crosstabs a comenzii Descriptive Statistics din meniul
Analyze.
Distribuia de frecven domeniul de activitate / profesia respondentului este obinut n
crostabelul de mai jos. Tabelul ne arat cte persoane ce activeaz ntr-un anumit domeniu de
activitate au o anumit profesie.

16

domeniul de activitate * profesia respondentului Crosstabulation


Count

domeniul
de activitate

Total

industrie
comert
servicii
altele

economist
1
0
2
0
3

inginer
1
0
1
0
2

profesia respondentului
jurist
medic
2
0
1
0
2
6
0
0
5
6

profesor
0
0
4
0
4

altele

Total
0
0
0
7
7

4
1
15
7
27

Dintre cei 15 respondeni care i desfoar activitatea n servicii, 6 sunt medici, 4 sunt
profesori, 2 sunt economiti i 2 juriti. Dintre cei 4 respondeni care activeaz n industrie, 2 sunt
juriti, 1 este economist i 1 este inginer. Cei 7 respondeni care i desfoar activitatea n alte
domenii toi 7 au alte profesii dect cele precizate n chestionar. n comer activeaz doar un
intervievat cu profesia de jurist.
Am reprezentat grafic distribuia dup domeniul de activitate i profesia respondentului.
Bar Chart
7

profesia
respondentului

economist

inginer

jurist

Count

medic

profesor

altele

1
0
industrie

comert

servicii

altele

domeniul de activitate

Figura 9. Distribuia de frecven domeniul de activitate / profesia respondentului


(clustered bar charts)
Am analizat diferenele calitative prin calculul i interpretarea lui hi-ptrat (Pearson ChiSquare).
Chi-Square Tests

Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases

Value
39,165a
41,260
12,733

15
15

Asymp. Sig.
(2-sided)
,001
,000

,000

df

27

a. 24 cells (100,0%) have expected count less than 5. The


minimum expected count is ,07.

17

Valoarea testului hi-ptrat este egal cu 39,165. Pentru 15 grade de libertate valoarea
semnificaiei (Asymp.Sig.) este egal cu 0,001, mai mic dect 0,05. Se respinge deci ipoteza H0 i
se accept ipoteza H1 - exist asociere ntre variabilele domeniul de activitate i profesia
respondentului.
5.2
Analiza de regresie i corelaie
n acest subcapitol analizez legtura dintre dou variabile, dintre care una este efectul
(rezultativa, dependenta) iar cealalt este cauza (factoriala, independenta).
Am aplicat analiza de regresie pentru a evalua n ce msur variabila dependent venitul
lunar milioane lei poate fi explicat prin variabila independent vrsta respondentului.
Programul SPSS estimeaz parametrii modelului de regresie ales - am ales modelul de
regresie simplu liniar.
Pentru analiza modelului de regresie am parcurs urmtorii pai:
- estimarea parametrilor ecuaiei de regresie (pe baza metodei celor mai mici ptrate) i
interpretarea regresiei n funcie de semnul i valoarea parametrilor modelului de regresie;
- testarea semnificaiei parametrilor de regresie.
Parametrii ecuaiei de regresie , ntr-un model liniar simplu, Y = + X + , sunt:
-

ordonata la origine (valoarea variabilei Y cnd X = 0);


panta dreptei, numit i coeficient de regresie;

Variabila independent (X) i variabila dependent (Y) sunt prezentate n tabelul Variables
Entered.
Variables Entered/Removedb

Model
1

Variables
Entered
varsta
responden
a
tului

Variables
Removed

Method
.

Enter

a. All requested variables entered.


b. Dependent Variable: venit lunar (lei)

n ecuaia de regresie, parametrii i sunt necunoscui. n practic parametrii unui model


de regresie sunt estimai pe baza datelor la nivelul unui eantion observat: Y = a + bX , unde:
- a i b sunt estimaii ale parametrilor i .
Coefficientsa

Model
1

(Constant)
varsta respondentului

Unstandardized
Coefficients
B
Std. Error
1,059
,491
,069
,015

Standardized
Coefficients
Beta
,685

t
2,156
4,696

Sig.
,041
,000

a. Dependent Variable: venit lunar (lei)

Am obinut n tabelul Coefficients valorile estimaiilor parametrilor de regresie i anume


valorile lui a i b (Unstandardized Coefficients).
a (Constant) = 1,059
b (vrsta respondentului) = 0,069
18

Modelul de regresie estimat este: Y = 1.059 + 0,069 X


Deoarece am obinut o valoare pozitiv a coeficientului de regresie b, nseamn c exist o
legtur direct ntre vrsta respondentului i venitul lunar obinut. Dac vrsta crete cu 1 an, atunci
venitul lunar crete, n medie, cu 0,069 mii lei.
Am testat parametrii modelului de regresie folosind testul t. n tabelul Coefficients citim
valoarea testului t i valoarea Sig. corespunztoare. Pentru coeficientul de regresie b, citim valoarea
testului egal cu 4,696 i valoarea semnificaiei Sig. de 0,000. Deoarece Sig. este mai mic dect 0,05,
atunci respingem ipoteza H0 ( nu difer semnificativ de 0) i acceptm ipoteza H1 ( difer
semnificativ de 0). n conlcuzie, putem spune c exist legtur semnificativ ntre vrsta
respondentului i venitul lunar obinut.
n continuare studiem intensitatea legturii dintre variabilele vrsta respondentului i
venitul lunar (lei). n acest sens am folosit analiza de corelaie i am obinut i interpretat
indicatorii corelaiei.
Model Summaryb
Model
1

R
R Square
,685a
,469

Adjusted
R Square
,447

Std. Error of
the Estimate
,760

a. Predictors: (Constant), varsta respondentului


b. Dependent Variable: venit lunar (lei)

Valoarea R (valoarea coeficientului de corelaie) arat dac exist sau nu corelaie ntre
variabila dependent (Y) i variabila independent (X). Valoarea lui R este egal cu 0,685, deci
putem spune c exist o legtur strns (dar nu foarte strns) ntre cele dou variabile.
Putem calcula coeficientul de corelaie i cu ajutorul opiunii Bivariate a comenzii Correlate
din meniul Analyze.
Tabelul Correlations prezint valorile coeficienilor de corelaie dintre variabilele vrsta
respondentului i venitul lunar. Coeficientul de corelaie Pearson (Pearson Correlation) este egal
cu 0,534. Valoarea coeficientului este pozitiv deci, corelaia dintre variabile este direct i strns.
Correlations

varsta respondentului

venit lunar (lei)

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

varsta
responde
ntului
1

venit
lunar (lei)
,685**
,000
27
27
,685**
1
,000
27
27

**. Correlation is significant at the 0.01 level (2-tailed).

Testul t este aplicat pentru a verifica dac exist o corelaie semnificativ ntre cele dou
variabile. Valoarea Sig. corespunztoare testului t este egal cu 0,000, deci putem concluziona c am
obinut un coeficient de corelaie semnificativ.
19

5.3
Analiza dispersional (ANOVA)
n acest subcapitol mi propun studierea influenei domeniului n care i desfoar
activitatea respondenii asupra venitului lunar realizat.
Pentru atingerea acestui obiectiv am aplicat procedeul de analiz ANOVA unifactorial (OneWay ANOVA) care analizeaz variana pentru o variabil cantitativ (venitul lunar) dependent de o
singur variabil factor (domeniul de activitate).
Prin ANOVA se compar venitul mediu pentru cele patru grupuri definite de variabila de
grupare (respondenii care activeaz n industrie, comer, servicii i respondenii care activeaz n
alte domenii).
n SPSS, am ales opiunea One-Way ANOVA din comanda Compare Means a meniului Analyze.
Pentru a verifica dac sunt ndeplinite restriciile cerute de ANOVA am bifat casetele de
validare Descriptives, Homogeneity of variance test i Means plot. Restriciile impuse unei analize
ANOVA i verificarea lor constau n:
- restricia de normalitate (pentru a verifica normalitatea putem folosi: rezultatele din tabelul
Descriptives, diagrama Boxplot vezi figura 5, diagrama Q-Q vezi figura 3, testul K-L-S);
- restricia de homoscedasticitate (pentru a verifica dac varianele grupelor sunt egale folosim
testul Levene Test of Homogeneity of Variances);
- restricia de independen;
Descriptives
venit lunar (lei)

N
industrie
comert
servicii
altele
Total

4
1
15
7
27

Mean
3,75
5,00
3,53
2,14
3,26

Std.
Deviation
,500
.
,834
,690
1,023

95% Confidence
Interval for Mean
Lower
Upper
Bound
Bound
2,95
4,55
.
.
3,07
4,00
1,50
2,78
2,85
3,66

Std.
Error
,250
.
,215
,261
,197

Minimum
3
5
2
1
1

Maximum
4
5
5
3
5

Test of Homogeneity of Variances


venit lunar (lei)
Levene
Statistic
1,229a

df1

df2
2

23

Sig.
,311

a. Groups with only one case are ignored in computing


the test of homogeneity of variance for venit lunar (lei).

n tabelul ANOVA am obinut valoarea statisticii test Fisher, valoarea semnificaiei Sig. i
elementele de calcul pentru statistica test F (Fisher).

20

ANOVA
venit lunar (lei)

Between Groups
Within Groups
Total

Sum of
Squares
13,845
13,340
27,185

df
3
23
26

Mean Square
4,615
,580

F
7,956

Sig.
,001

Statistica test F se calculeaz dup relaia:


F=

S E2
S R2

SE2 reprezint estimatorul varianei intergrupe (Between-Groups);


SR2 reprezint media varianelor de grup i arat variana din interiorul fiecrei grupe
(Within Groups).
Valoarea statisticii F este mare (7,956) iar semnificaia Sig. corespunztoare este egal cu
0,001. Deoarece Sig. este mai mic dect 0,05 se respinge ipoteza H0 (ipoteza de egalitate a mediilor),
deci exist diferene semnificative ntre domeniile de activitate cu privire la venitul mediu lunar
realizat.
Graficul corespunztor pentru mediile din cele trei domenii de activitate este prezentat n
figura de mai jos:
5

Mean
4,5of venitul
4
3,5
3
2,5
2
industrie

comert

servicii

altele

domeniul de activitate

Figura 10. Venitul mediu lunar pe domenii de activitate

21

VI. CONCLUZII
Analizele aplicate prin utilizarea programului SPSS au permis atingerea obiectivelor propuse
prin acest proiect: caracterizarea clienilor participani la promoie, dup vrst, venit, sex, jude,
profesie, domeniul de activitate, mediul i opiunile pentru o anumit marc de dermocometice.
Din eantionul observat (27 de respondeni), 70,4% sunt persoane de sex feminin iar 29,6%
sunt persoane de sex masculin. Din punct de vedere profesional, 22,2% sunt de profesie medic,
18,5% sunt juriti, 14,8% sunt profesori, 11,1% sunt economiti, 7,4% sunt ingineri i 25,9% au alte
profesii.. Cei mai muli dintre respondeni activeaz n domeniul serviciilor (55,6%), n industrie
lucreaz 14,8% din intervievai, 3,7% i desfoar activitatea n comer, iar 25,9% i desfoar
activitatea n alte domenii.
Conform analizei gradului de asociere exist legtur semnificativ ntre variabila domeniul
de activitate i variabila profesia respondentului.
n ceea privete mediul de reziden, 4 persoane (14,8%) provin din orae cu sub 100000
locuitori, n timp ce restul persoanelor, n proporie de 85,2%, locuiesc n orae cu peste 100000
locuitori. Repartizarea pe judee este destul de dispersat: 5 persoane (18,5%) sunt din Bucureti, 3
judee Iai, Mure, Sibiu - au adunat fiecare cte 3 persoane (fiecare jude ocup 11,1%), alte 6
judee Alba, Arad, Bacu, Braov, Cluj, Dolj au fiecare cte 2 persoane (fiecare cte 7,4%) i
judeul Focani are un singur exponent ocupnd un procent de 3,7%.
Pentru prima opiune: din totalul respondenilor, 29,6% prefer produsele Sebamed, alte
29,6% prefer principalul lui concurent Eucerin - n timp ce 14,8% prefer Ivatherm, 11,1%
prefer Avene, 7,4% prefer produsele Vichy, iar mrcile Iwostin i Klorane au atras fiecare cte
3,7% din respondeni. Pentru a doua opiune: Sebamed a ntrunit 40,7% din opiuni, Eucerin are 29,6
din preferine, Iwostin deine 11,1%, Avene i Vichy atrage fiecare cte 7,4% i Ivatherm este a doua
opiune pentru 3,7% dintre persoanele chestionate.
Vrsta medie a persoanelor observate n eantion este de 31,67 ani. La nivelul populaiei,
vrsta medie este cuprins, cu o ncredere de 95%, ntre 27,68 i 35,65 ani. Conform testului t (One
Sample T Test) putem concluziona c nu exist o diferen semnificativ ntre vrsta medie
observat n eantion i valoarea specificat (31,67 ani).
Oricare respondent-participant realizeaz n medie un venit lunar de 3,26 mii lei. Venitul
mediu al eantionului este cuprins, cu o ncredere de 95%, ntre 2,85 i 3,66 milioane lei.
Am aplicat analiza de regresie pentru a evalua n ce msur venitul lunar lei poate fi
explicat prin variabila vrsta respondentului. Conform modelului de regresie estimat, dac vrsta
crete cu 1 an, atunci venitul lunar crete, n medie, cu 0,069 mii lei. Legtura dintre cele dou
variabile este strns (valoarea lui R este egal cu 0,685).
Prin analiza varianei (ANOVA) am observat c domeniul de activitate (variabil care are
patru categorii: industrie, comer, servicii i altele) influeneaz semnificativ venitul mediu lunar
realizat. Testul t pentru eantioane independente arat c venitul mediu lunar realizat de respondenii
din comer difer semnificativ de venitul mediu lunar realizat n servicii dar i n industrie.
n ceea ce privete proporia celor care prefer Sebamed altor mrci de dermocosmetice,
29,6% au prima opiune Sebamed, 40,7% au a doua opiune Sebamed iar pentru a treia opiune
18,5% prefer Sebamed, toate trei opiunile aflndu-se n lupt strns cu concurena.
n concluzie, participanii la aciune, sunt tineri (media aproximativ 30 de ani), obin venituri
peste venitul mediu pe ar i sunt de profesii diferite.
22