X
53
Come si presenta una tabella di distribuzione di frequenza?
- Di solito si usano soltanto le frequenze percentuali; non occorrono segni di
percentuali, perch il tipo di numero chiaramente indicato nel titolo.
- Inserire nella tavola una riga che riporta il totale 100 (indirizza la lettura)
- Inserire il totale dei casi sui quali le percentuali sono state calcolate (base delle
percentuali, vedi la riga intestata con (N)); in questo modo ci si pu rendere conto
della significativit della percentuale e inoltre possibile ricalcolare le frequenze
assolute della distribuzione
- Utilizzare un solo decimale (anche usare numeri interi, senza decimali, va bene); se
il decimale zero, va riportato (si veda sotto 22,0)
- A volte, si possono ritenere interessanti anche le frequenze assolute, in tal caso si
presentano i dati come in tab. 3.
Quadratura: a causa degli arrotondamenti pu succedere che la somma delle
percentuali faccia 99,9 oppure 100,1. In questi casi alterare una cifra per far tornare il
100,0: agendo o sul secondo decimale alterando quello pi prossimo a 5 (es. 42,34
diventa 42,4), oppure agendo sulla percentuale pi elevata (sulla quale questa
forzatura ha un impatto relativo minore)
Tab. 2 Istruzione degli intervistati. Valori percentuali
Titolo di studio
Senza titolo 2,5
Licenza elementare 42,4
Licenza media 28,5
Diploma 22,0
Laurea 4,6
Totale 100,0
(N) (1200)
Tab. 3 Distribuzioni di frequenza assolute e relative della variabile
Partito votato alle elezioni per la Camera del 1996, parte proporzionale
in Lombardia e in Emilia Romagna (variabile nominale)
Valori assoluti
(in migliaia)
Valori percentuali
Lombardia Emilia R. Lombardia Emilia R.
Forza Italia 1510 451 23,6 15,1
Alleanza nazionale 575 344 9,0 11,5
Ccd-Cdu 298 144 4,6 4,8
Lega Nord 1636 216 25,5 7,2
Pds 965 1065 15,1 35,7
Lista Dini 267 116 4,2 3,9
Ppi 398 238 6,2 8,0
Verdi 152 75 2,4 2,5
Rifond. com. 437 249 6,8 8,3
Altri 168 90 2,6 3,0
Totale
6406
2988
100,0
100,0
54
Arrotondamenti
16,7
7
16,75
7
16,8
7
16,76
7
16,751
7
55
Variabili cardinali
Le variabili cardinali come l'et mal si prestano ad essere rappresentate in tabella a
causa dell'elevato numero di categorie. Per cui nella distribuzione di frequenza si
raggruppano i dati in categorie
Tab. 2.4 Distribuzione di frequenza di una
variabile cardinale (distribuzione per et
degli operai di uno stabilimento): valori
singoli e raggruppati in classi.
et v.a. classi d'et v.a
15 1
16 2
17 3 15-20 32
18 7
19 7
20 12
21 10
22 12
23 12 21-25 72
24 17
25 21
26 ... 26-30 96
... 31-35 112
... 36-40 130
41-45 138
46-50 159
51-55 142
56-60 107
61-65 83
Dati mancanti
Tab. 12.6 Distribuzione di frequenza della variabile nominale Nell'ultimo anno lei andato in
chiesa? (se s) Ogni quanto?.
a) tabella di lavoro b) tabella di presentazione dati c) tabella di presentazione
dati
v.a. % %
No, mai 1 132 No, mai 8,8 No, mai 9,4
2-3 volte l'anno 2 416 2-3 volte l'anno 27,9 2-3 volte l'anno 29,5
1 volta al mese 3 167 1 volta al mese 11,2 1 volta al mese 11,8
2-3 volte al mese 4 233 2-3 volte al mese 15,6 2-3 volte al mese 16,5
1 v. la settimana 5 415 1v. la settimana 27,8 1v. la settimana 29,5
Pi v. la settimana 6 35 Pi v. la settimana 2,3 Pi v. la settimana 2,5
Altra religione 7 11 Altra religione 0,7 Altra religione 0,8
8 5 Non risponde 5,7 Totale 100
NR 9 86 Totale 100 (N) (1409)
Totale 1500 (N) (1495)
valori mancanti: 5 valori mancanti: 91
56
2. LE DISTRIBUZIONI DI FREQUENZA:
RAPPRESENTAZIONI GRAFICHE
Diagrammi a barre (voto per la Camera nel 1996; sui dati di tab. 12.5) -
Lunghezze della barre proporzionali alle frequenze (ortogrammi)
a) diagramma a barre (a colonne)
Lombardia
0
5
10
15
20
25
30
Forza
Italia
All.
naz.
Ccd-
Cdu
Lega
Nord
Pds Lista
Dini
Ppi Verdi Rifond.
com.
Altri
b) diagramma a barre (a nastri)
Lombardia
0 5 10 15 20 25 30
Altri
Rif ond. com.
Verdi
Ppi
Lista Dini
Pds
Lega Nord
Ccd-Cdu
All. naz.
Forza Italia
57
c) diagramma a barre appaiate
0
5
10
15
20
25
30
35
40
Forza
Italia
All.
naz.
Ccd-
Cdu
Lega
Nord
Pds Lista
Dini
Ppi Verdi Rifond.
com.
Altri
Lombardia
Emilia R.
d) diagramma a barre contrapposte
-40 -20 0 20 40
Forza Italia
All. naz.
Ccd-Cdu
Lega Nord
Pds
Lista Dini
Ppi
Verdi
Rifond. com.
Altri
Lombardia
Emilia R.
58
Fig. 12.11 Diagrammi di composizione - Aree proporzionali alle frequenze
(areogrammi)
a) diagramma a barra suddivisa
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1881 1983
Boghesia
Classi medie urbane
Coltivatori diretti
Salariati agricoli
Operai ind. e terz.
Classi sociali in Italia nel 1891 e 1993 [Sylos Labini 1986,20]
b) diagramma a settori circolari
Lombardia
24%
9%
5%
25%
15%
4%
6%
2%
7%
3%
Forza Italia
All. naz.
Ccd-Cdu
Lega Nord
Pds
Lista Dini
Ppi
Verdi
Rifond. com.
Altri
Voto nel 1996 in Lombardia (sui dati di tab. prec)
59
LEZIONE N 10
DATI AGGREGATI
pagine corrispondenti
- sul testo La ricerca sociale: metodologia e tecniche, Bologna, Il Mulino Vol IV. L'analisi dei dati:
Cap. II: par. 12, 13
- oppure sul testo Metodologia e tecniche della ricerca sociale, Bologna, Il Mulino - Cap. XII: par.
12, 13
1. Dati individuali e dati aggregati
Dati individuali: unit danalisi lindividuo
Dati aggregati: lunit danalisi un aggregato di individui (es. comune,
regione, nazione...)
Problema dei dati aggregati: diversa dimensione dellaggregato, per cui i
dati vanno relativizzati alla dimensione dellaggregato
Fra le seguenti regioni, qual quella che presenta un maggior tasso di
divorziati ? (Istat, censimento 1991; dati in migliaia)
Celibi e
nubili
Coniugati Separati
legalmente
Divorziati Vedovi
Piemonte 1604 2215 57 44 383
Lombardia 3559 4424 91 73 710
Emilia R. 1424 2049 42 38 355
Campania 2679 2597 24 20 310
Sicilia 2214 2404 23 19 306
% Divorziati Totale
(N)
Piemonte 1,02 4303
Lombardia 0,82 8857
Emilia R. 0,97 3908
Campania 0,36 5630
Sicilia 0,38 4966
60
Quale di queste citt ha il maggior indice di vecchiaia?
0-14 15-29 30-44 45-64 65 e oltre Totale
Bologna 32.764 62.542 82.548 108.094 99.188 385.136
Napoli 196.165 247.757 215.473 236.136 150.343 1.045.874
Palermo 139.435 157.531 146.364 154.905 89.620 687.855
Roma 345.119 521.082 608.546 723.006 447.569 2.645.322
Torino 99.291 177.544 200.495 261.489 180.793 919.612
Venezia 28.954 55.456 63.610 84.658 63.744 296.422
Due possibilit:
- % di anziani su tutti
- rapporto: popolazione sopra i 65 anni / popolazione sotto i 15
% 65 anni e oltre
sulla
popolazione
65 anni e oltre /
sotto i 15 anni
Bologna 25,8 3,03
Napoli 14,4 0,77
Palermo 13,0 0,64
Roma 16,9 1,30
Torino 19,7 1,82
Venezia 21,5 2,20
61
2. Rapporti statistici
Rapporti di composizione: parte al tutto (* 100 = percentuali). Esempi:
- Proporzione di spesa per affitto = spesa della famiglia per affitto /
spesa totale della famiglia
- Proporzione di maschi = maschi / (maschi + femmine).
Esempio
Distribuzione dei consumi delle famiglie
2007
Generi Valori
assoluti (in
euro/anno)
Valori
percentuali
Alimentari 3922 26,4
Tabacchi 212 1,4
Abbigliamento 1447 9,7
Abitazione 1818 12,2
Combustibili 942 6,3
Mobili 1270 8,5
Igiene 245 1,6
Trasporti 2298 15,5
Istruzione 912 6,1
Altre spese 1800 12,1
Totale 14866 100,0
Altro esempio: distribuzione degli studenti dell'universit di Bologna per
facolt
Rapporti di coesistenza: rapporto fra due parti, cio il rapporto fra la
frequenza di una modalit e la frequenza di unaltra. Esempi:
- Rapporto (o quoziente) di mascolinit = maschi / femmine
- Rapporto di matrimoniabilit per sesso = coniugati / non coniugati
- Occupati nellindustria manifatturiera / occupati in agricoltura.
- Indice di vecchiaia = popolazione sopra i 65 anni / popolazione sotto i
15 anni.
Rapporti di derivazione: rapporto fra la misura di un fenomeno e quella di
un altro che pu essere considerato un suo presupposto necessario
- Quoziente di natalit = nati / popolazione x 1.000.
Rientrano in questa categoria molti quozienti demografici che hanno
62
alla loro base lammontare della popolazione (quoziente di nuzialit, di
mortalit, di immigrazione, di abortivit, ecc.). Altri esempi di rapporti di
derivazione sono:
- Laureati / iscritti alluniversit;
- Pensioni / popolazione;
- Operai cassaintegrati / totale operai;
- Suicidi / popolazione;
- Reati / popolazione.
Rapporti medi: sono diffusissimi e si hanno tutte le volte che il fenomeno
posto al numeratore si pu associare mediamente ad ogni unit posta al
denominatore. Per esempio:
- rendimento medio per ettaro = tonnellate di grano prodotto / ettari
coltivati;
- densit della popolazione = n. abitanti / superficie del territorio
(interpretabile come numero medio di abitanti per kmq);
- indice di affollamento = n. componenti la famiglia / n. stanze
dellabitazione (interpretabile come n. medio di persone per stanza);
- n. posti letto in ospedali / popolazione;
- n. ore di sciopero / n. occupati.
Regione N posti letto N abitanti in
migliaia
N posti letto x
1000 abitanti
Valle d'Aosta 621 112 5,6
Piemonte 35339 4479 7,9
Lombardia 63975 8892 7,2
Veneto 47889 4345 11,0
Liguria 17789 1808 9,8
Fare attenzione: rapporto = numeratore / denominatore; massima
attenzione quando gli concessa libert di scelta per il denominatore (il
problema non si pone per altri tipi di rapporti, come il rapporto di
composizione).
Tab. 12.20 Rapporti medi. Tassi di fatalit per mezzo di trasporto (Gran Bretagna,
1992).
Incidenti mortali per 100.000 passeggeri
Tipo di trasporto per viaggio per ora di viaggio per km percorso
Motocicletta 100 300 9,7
63
Aereo 55 15 0,03
Navigazione 25 12 0,6
Bicicletta 12 60 4,3
A piedi 5,1 20 5,3
Auto 4,5 15 0,4
Furgone 2,7 6,6 0,2
Treno 2,7 4,8 0,1
Autobus 0,3 0,1 0,04
Fonte: The Economist, 11.1.1997
3. Serie temporali e serie territoriali
Serie temporale (o serie storica) la sequenza dei valori assunti da una
variabile nello stesso aggregato territoriale in tempi diversi
Serie territoriale la sequenza dei valori assunti da una variabile nello
stesso momento in diversi aggregati territoriali
64
Serie temporale
Tab. 12.21 Andamento dei morti per droga (in valore assoluto) in Italia dal 1985 al
1996
Anno Morti per
droga (v.a.)
Incremento
percentuale
N. indice
(1985=100)
N. indice
a base
mobile
1985 242 100
1986 292 20,7 121 121
1987 543 86,0 224 186
1988 809 49,0 334 149
1989 974 20,4 402 120
1990 1161 19,2 480 119
1991 1383 19,1 571 119
1992 1217 -12,0 503 88
1993 888 -27,0 367 73
1994 867 -2,4 358 98
1995 1195 37,8 494 138
1996 1551 29,8 641 130
media 927
dev.stand. 393
Fonte: Ministero dell'Interno
Fig. 12.23 Serie temporale: morti per droga in Italia dal 1985 al 1996
0
200
400
600
800
1000
1200
1400
1600
1800
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
65
Serie territoriale
Tab. 12.22 Suicidi (per 1 milione di abitanti) in Italia nel 1974-83 per regione
Regione Suicidi N. indice
(Italia=100)
Suicidi N. indice
(Italia=100)
Valle
d'Aosta
135,41 288 Basilicata 49,46 105
Friuli V.G. 97,27 207 Veneto 43,67 93
Emilia R. 88,95 189 Sicilia 38,15 81
Umbria 82,11 175 Sardegna 37,77 80
Trentino
A.A.
80,43 171 Lombardia 37,27 79
Piemonte 70,43 150 Puglia 28,14 60
Liguria 69,95 149 Lazio 24,75 53
Molise 61,70 131 Calabria 24,68 53
Toscana 60,97 130 Campania 21,08 45
Marche 57,70 123
Abruzzo 50,31 107 Italia 46,94 100
Fonte: Istat
0 20 40 60 80 100 120 140 160
Valle d'Aosta
Friuli V.G.
Emilia R.
Umbria
Trentino A.A.
Piemonte
Liguria
Molise
Toscana
Marche
Abruzzi
Basilicata
Veneto
Sicilia
Sardegna
Lombardia
Puglia
Lazio
Calabria
Campania
Italia
66
Differenza assoluta e differenza relativa
a = numero morti per droga nel 1985 = 242
b = numero morti per droga nel 1986 = 292
Variazione del numero di morti per droga fra 1985 e 1986
Variazione assoluta: b a = 292 242 = +50
Variazione relativa:
(b - a) : a = X : 100
b a
a
100=
50
242
100= 20, 7
Nel periodo considerato i casi di morte per droga sono cresciuti del
20,7%.
Numeri indice
Se ponessimo eguale a 100 i morti per droga nel 1985, a quanto essi
ammonterebbero nel 1986?
242 : 100 = 292 : X
X =
292
242
100= 120, 7
Quindi il numero di morti per droga fra il 1985 ed il 1986 passato
da 100 a 120,7
67
Secondo esempio
2007 2000
Generi Valori
assoluti (in
euro/anno)
Valori
assoluti (in
euro/anno)
N indice
2007
(2000=100)
Alimentari 3922 3876 101
Tabacchi 212 241 88
Abbigliamento 1447 1334 108
Abitazione 1818 1491 122
Combustibili 942 923 102
Mobili 1270 1278 99
Igiene 245 241 102
Trasporti 2298 2172 106
Istruzione 912 894 102
Altre spese 1800 1746 103
Totale 14866 14196 105
68
Numeri indici territoriali
Si pone a 100 il tasso nazionale. Se il tasso di suicidi della Valle dAosta
135,41 e quello nazionale di 46,94, se poniamo il secondo = 100 il primo
diventer:
46,9 : 100 = 135,41 : X
X =
135, 41
46,94
100= 288
69
I numeri indice:
- non sono mai negativi (quando il valore inferiore a quello di
riferimento assumono valori inferiori a 100)
- non dipendono dallunit di misura in cui sono espressi (permettono
confronti fra unit di misura diverse)
Esempio andamento nel tempo di medici ed abitanti in Italia (dati fittizi)
a) valori assoluti
anno medici abitanti
1881 20.000 30.000.000
1911 30.000 35.000.000
1941 50.000 50.000.000
2001 100.000 60.000.000
0
10.000.000
20.000.000
30.000.000
40.000.000
50.000.000
60.000.000
70.000.000
1881 1911 1941 2001
medici
abitanti
70
b) Numeri indice
medici abitanti
1881 100 100
1911 150 117
1941 250 167
2001 500 200
0
100
200
300
400
500
600
1881 1911 1941 2001
medici
abitanti
Ancora sul fatto che i numeri indice sono dei numeri puri, cio sono
indipendenti dallunit di misura dei dati
Variazione dei costi nelledilizia (dati fittizi)
2000 2007 2000 2007
Materiali
Cemento (alla tonnellata) 215 217 100 101
Calce (alla tonnellata) 123 118 100 96
Ferro tondini (al metro) 54 75 100 139
Legname (per metro cubo) 18 22 100 122
Mattoni (per confezione di 1000) 75 80 100 107
Manodopera (paga oraria) 15 25 100 167
Aree al mq) 215 418 100 194
71
Variazioni nella produzione (valori fittizi)
1970 1980 1990 2000 N. indice
2000
(1970=100)
N automob. 235.000 278.000 312.000 375.000 160
T. di patate 1.556.000 1.580.214 1.178.214 1.432.212 92
N televisori 425.200 1.560.000 2.121.415 1.512.271 356
N laureati 55.213 84.218 115.219 218.425 396
Posti letto osp 7.245 8.213 8.432 8.546 118
Esemplificazione: relazione della Commissione didattica della facolt
72
LEZIONE 11
ANALISI BIVARIATA: TABELLE A DOPPIA ENTRATA
pagine corrispondenti
- sul testo La ricerca sociale: metodologia e tecniche, Bologna, Il Mulino Vol IV. L'analisi dei dati -
Cap. III: par. 1, 2 (con esclusione di 2.5, 2.6, 2.7)
- oppure sul testo Metodologia e tecniche della ricerca sociale, Bologna, Il Mulino - Cap. XIII: par.
1, 2 (con esclusione di 2.5, 2.6).
Le tecniche di analisi bivariata
Variabile indipendente
Variabile dipendente nominale cardinale
nominale Tavole di
contingenza
cardinale Analisi della
varianza
Regressione
e correlazione
Le variabili ordinali, a seconda dei casi, possono essere trattate come se fossero
nominali oppure cardinali
1. Che cos' una tabella a doppia entrata (o tavola di contingenza)
Tab. 2.7 Pratica religiosa per et. (Valori assoluti)
18-34 35-54 Oltre 54 Totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
Totale 914 1134 438 2486
Domanda: Mi pu dire con quale frequenza si recato in chiesa nel corso
dell'ultimo anno?.
Risposte: Una o pi volte la settimana = Praticanti; 2-3 volte al mese + 1 volta
al mese = Saltuari; 2-3 volte all'anno + Mai = Non praticanti. (Fonte: Itanes
[1996]).
- Una tabella a doppia entrata (detta anche "tavola di contingenza" o
"incrocio") una distribuzione di frequenza a due variabili (di ogni
intervistato considera contemporaneamente la posizione su due variabili,
nell'esempio, pratica religiosa ed et).
73
- Le due variabili sono collocate sulle righe e sulle colonne della tabella;
all'incrocio tra una riga e una colonna troviamo una casella o cella della
tabella. Il numero allinterno la frequenza con la quale si presentano
congiuntamente le corrispondenti modalit di riga e di colonna (es: 223 =
numero di praticanti fra i 18 e i 34 anni)
- La colonna e la riga 'Totale' si chiamano (frequenze) marginali della
tabella. Sono le distribuzioni semplici di frequenze rispettivamente dell'et
e della pratica. Sono distribuzioni semplici perch si riferiscono a tutto il
campione.
2. A cosa serve una tabella a doppia entrata
- Serve a studiare la relazione tra due variabili.
- Si dice che c' relazione tra due variabili (et e pratica nell'esempio) se
dividendo il campione in sottocampioni secondo una variabile (l'et:
giovani, adulti, anziani) la distribuzione semplice della seconda variabile
(la pratica religiosa) diversa nei differenti sottocampioni di et.
Viceversa, se le distribuzioni sono identiche si dice che non c' relazione.
- La variabile usata per dividere il campione in sottocampioni detta
variabile indipendente, la variabile di cui si studia la distribuzione nei
sottocampioni detta variabile dipendente.
- Da un punto di vista statistico sia l'et che la pratica religiosa possono
assumere il ruolo di variabile indipendente. Dal punto di vista sociologico,
tuttavia, non ha molto significato chiedersi se la distribuzione delle et
varia al variare della pratica religiosa, come se la pratica di un soggetto
potesse influire sulla sua et.
- Nella tabella 2.7 compaiono frequenze assolute: difficile dire a colpo
d'occhio se la proporzione di praticanti tra i giovani maggiore, minore,
uguale a quella dei praticanti tra gli anziani. Per questo necessario
passare al calcolo percentuale (percentualizzare significa porre uguale a
100 il totale; in tal modo si rendono uguali i totali dei gruppi da
confrontare che cos diventano confrontabili)
74
3. Direzione delle percentuali nelle tabelle a doppia entrata
Tab. 2.7 Pratica religiosa per et. (Valori assoluti)
18-34 35-54 Oltre 54 Totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
Totale 914 1134 438 2486
Tab. 2.8 Pratica religiosa per et. (Valori percentuali per riga)
18-34 35-54 Oltre 54 Totale
Praticanti 31,1 43,6 25,3 100,0
Saltuari 39,6 47,2 13,1 100,0
Non praticanti 38,7 45,9 15,3 100,0
Tab. 2.9 Pratica religiosa per et. (Valori percentuali per colonna)
18-34 35-54 Oltre 54
Praticanti 24,4 27,6 41,6
Saltuari 29,1 28,0 20,1
Non praticanti 46,5 44,4 38,4
Totale 100,0 100,0 100,0
Tab. 2.10 Pratica religiosa per et. (Valori percentuali sul totale)
18-34 35-54 Oltre 54 Totale
Praticanti 9,0 12,6 7,3 28,9
Saltuari 10,7 12,8 3,5 27,0
Non praticanti 17,1 20,3 6,8 44,1
Totale 36,8 45,6 17,6 100,0
75
1. La percentualizzazione per riga (tab. 2.8) risponde a questa domanda:
il gruppo dei praticanti mediamente pi giovane o pi anziano
rispetto ai non praticanti e ai saltuari? Non una domanda 'esplicativa',
non intendiamo che essere praticante o meno abbia effetti sull'et
dell'intervistato, il nostro scopo meramente descrittivo.
2. La percentualizzazione per colonna (tab. 2.9) risponde a questa
domanda: "l'et degli intervistati influenza il loro grado di pratica
religiosa?". Come si vede si tratta di una domanda esplicativa: "l'et
la causa della pratica religiosa?".
3. La percentualizzazione sul totale (tab. 2.10) risponde a questa
semplice domanda: "qual la consistenza di ciascun sottogruppo
(praticanti giovani, praticanti adulti ecc..) nel campione?". Ha scopi
puramente descrittivi. In generale si usa per confrontare un campione
con la popolazione da cui estratto.
76
Scelta della direzione di percentualizzazione.
Di solito siamo interessati ad analizzare relazioni esplicative, da cui una
semplice regoletta:
a. si individua la variabile indipendente (la causa)
b. si usa la variabile indipendente come variabile di colonna.
c. si percentualizza per colonna.
Detto diversamente:
Si definisce qual la variabile indipendente, e si percentualizza all'interno
delle sue modalit.
- si sceglie la percentuale per colonna quando si vuole analizzare
l'influenza che la variabile posta in colonna ha sulla variabile posta in riga;
- si sceglie le percentuale per riga quando si vuole analizzare l'influenza
che la variabile posta in riga ha sulla variabile posta in colonna.
Questa regoletta di solito funziona, ma ha delle eccezioni: a) non sempre la
domanda cui siamo interessati esplicativa e b) non sempre facile
individuare a colpo d'occhio la variabile indipendente (causa). E' pertanto
pi opportuno partire dall'interrogativo cui vogliamo rispondere. In genere
l'interrogativo contiene gi l'indicazione della direzione corretta.
Prendiamo l'esempio dell'et e della pratica religiosa: ci chiediamo se l'et
influenza la pratica religiosa. Posta in altri termini, la domanda se i
giovani sono pi o meno praticanti degli anziani. Cosa vogliamo
confrontare? Il campione dei giovani con quello degli anziani. Quindi
dobbiamo calcolare la percentuale di praticanti giovani (anziani) sul totale
dei giovani (anziani), cio per colonna.
77
Altri esempi di percentualizzazioni di tabella a doppia entrata
Sulla base della seguente tabella a doppia entrata, stabilire se c una
relazione fra soddisfazione / insoddisfazione della propria situazione
economica e zona di residenza
"Secondo lei, negli ultimi 12 mesi, la situazione della sua famiglia
migliorata, rimasta la stessa o peggiorata?
Migliorata Rimasta
uguale
Peggiorata Totale
Nord-ovest 45 445 203 693
Nord-est 17 188 78 283
Centro 27 308 142 477
Sud 56 579 408 1043
Totale 145 1520 831 2496
Migliorata Rimasta
uguale
Peggiorata
Nord-ovest 31,0 29,3 24,4
Nord-est 11,7 12,4 9,4
Centro 18,6 20,3 17,1
Sud 38,6 38,1 49,1
Totale 100 100 100
Migliorata Rimasta
uguale
Peggiorata Totale
Nord-ovest 6,5 64,2 29,3 100
Nord-est 6,0 66,4 27,6 100
Centro 5,7 64,6 29,8 100
Sud 5,4 55,5 39,1 100
78
A partire dalla seguente tabella a doppia entrata, effettuare gli opportuni
calcoli per poter rispondere alla domanda se esiste una relazione fra classe
sociale e fiducia nel governo
Per
nulla
Poco Non so Abbast Molto Totale
Classe operaia 241 300 15 118 25 699
Piccola borghesia
autonoma
166 227 21 85 13 512
Ceto medio impiegatizio 237 332 22 119 14 724
Ceti superiori 165 234 18 77 10 504
Totale 809 1093 76 399 62 2439
Domanda: Quanta fiducia lei ha nelloperato del governo?
Per
nulla
Poco Non so Abbast Molto
Classe operaia 29,8 27,4 19,7 29,6 40,3
Piccola borghesia
autonoma 20,5 20,8 27,6 21,3 21,0
Ceto medio impiegatizio 29,3 30,4 28,9 29,8 22,6
Ceti superiori 20,4 21,4 23,7 19,3 16,1
Totale 100 100 100 100 100
Per
nulla
Poco Non so Abbast Molto Totale
Classe operaia 34,5 42,9 2,1 16,9 3,6 100
Piccola borghesia
autonoma 32,4 44,3 4,1 16,6 2,5 100
Ceto medio impiegatizio 32,7 45,9 3,0 16,4 1,9 100
Ceti superiori 32,7 46,4 3,6 15,3 2,0 100
79
Casi (rari) in cui non si segue il criterio sopra enunciato per la direzione
delle percentuali
Tab. 13.3 Confronti fra i profili degli abbonati al telefono e dell'intera popolazione
italiana nel 1991
Residenza Abbonati Popolazio
ne
Titolo di
studio
Abbonati Popolazione
Nord
ovest
27,9 26,3 Lic. Elem. 24,2 38,0
Nord est 18,9 18,3 Lic. Media 27,7 35,8
Centro 19,8 19,2 Diploma 37,4 21,7
Sud 33,4 36,2 Laurea 11,7 4,5
Totale 100 100 100 100
Tab. Relazione fra pratica religiosa e comportamento di voto nel 2008 (dati fittizi)
a) Voto a seconda della pratica religiosa (come votano le persone classificate secondo
la loro religiosit)
Non pratic Saltuari Praticanti Totale
Sinistra arc. 17,4 11,4 6,9 13,3
Pd 42,9 39,2 35,6 40,2
Udc 3,5 7,4 12,6 6,7
Pdl 33,1 37,9 40,8 36,3
Lega 3,0 4,1 4,0 3,6
Totale 100,0 100,0 100,0 100,0
(N) (1132) (704) (522) 2358
Commento: si vede che i praticanti scelgono in maggioranza il Pdl, e i non praticanti
il Pd
b) Pratica religiosa a seconda del voto (come sono religiosamente connotati gli
elettori dei vari partiti)
Non pratic Saltuari Praticanti Totale (N)
Sinistra arc. 62,9 25,6 11,5 100,0 (313)
Pd 51,3 29,1 19,6 100,0 (948)
Udc 25,3 32,9 41,8 100,0 (158)
Pdl 43,9 31,2 24,9 100,0 (855)
Lega 40,5 34,5 25,0 100,0 (84)
Commento: si vede che il partito che fra i suoi elettori la maggior presenza di cattolici
lUdc
80
La tabella a) risponde alla seguente domanda: "L'orientamento religioso
influenza l'orientamento di voto?" (dom. esplicativa)
La tabella b) risponde alla seguente domanda: "Sono pi religiosi gli
elettori del Polo o dell'Ulivo?" (dom. descrittiva)
81
Quando si commette un grave errore
Supponiamo di essere interessati alla composizione degli elettori dell'Ulivo
secondo l'orientamento religioso a fini di propaganda elettorale. Se
usassimo la tabella a) e sostenessimo che tra gli elettori dell'Ulivo ben il
54,7% rappresentato da Cristiani non cattolici commetteremmo un
errore. In questa tabella la percentuale di 54,7 rappresenta la quota di
cristiani che votano Ulivo, non la quota di elettori dell'Ulivo di
orientamento cristiano. L'errore consiste nel porsi un interrogativo che
richiede percentuali per riga, calcolando le percentuali per colonna (o
viceversa).
4. Analisi bivariata: presentazione delle tavole
a) prima forma di presentazione consigliata
Tab. 2.12. Grado di pratica religiosa per et. (Valori percentuali)
18-34 35-54 Oltre 54
Praticanti 24,4 27,6 41,6
Saltuari 29,1 28,0 20,1
Non praticanti 46,5 44,4 38,4
Totale 100,0 100,0 100,0
(N) (914) (1134) (438)
b) seconda forma di presentazione consigliata (con il
marginale della variabile dipendente)
Tab. 2.13. Grado di pratica religiosa per et. (Valori percentuali)
18-34 35-54 Oltre 54 Totale
Praticanti 24,4 27,6 41,6 28,9
Saltuari 29,1 28,0 20,1 27,0
Non praticanti 46,5 44,4 38,4 44,1
Totale 100,0 100,0 100,0 100,0
(N) (914) (1134) (438) (2486)
82
5. Criteri guida per la presentazione delle tavole:
1. Parsimonia. La tabella deve contenere solo i dati significativi per
valutare la relazione. In genere si escludono i valori assoluti, salvo che
non si ritengano necessari. I titoli come negli esempi devono essere
sintetici, ma contenere l'indicazione delle variabili coinvolte.
2. La tabella deve contenere sempre la riga (o colonna ) totale
contenente i valori 100. Serve ad indicare in che direzione sono state
calcolate le percentuali.
3. La tabella deve contenere sempre una riga (o colonna) in cui sono
indicate le basi delle percentuali, cio i valori assoluti corrispondenti al
100,0%. Il lettore deve sapere se i dati percentuali riguardano molti o
pochi casi.
4. I dati percentuali devono essere arrotondati alla prima cifra decimale,
come negli esempi, o arrotondati alla prima cifra intera (cio senza
decimali). La seconda cifra decimale non si userebbe mai nei
commenti e quindi non significativa. Le singole percentuali devono
essere arrotondate: se si usa una cifra decimale, i calcoli vanno fatti
fino alla seconda che verr usata per gli arrotondamenti (da 0 a 4, per
difetto, da 5 a 9 per eccesso). Dopo gli arrotondamenti occorre
controllare che il totale dia effettivamente 100,0 (non 99,9 o 100,1). Se
non accade correggere il valore pi alto (quadratura).
5. Se il decimale pari a zero, va riportato ugualmente.
6. La forma della tabella 2.13 da preferire, soprattutto se non stata
precedentemente presentata la distribuzione di frequenza della
variabile dipendente (orientamento al voto - la colonna totale infatti
presenta tale distribuzione). Questa colonna utile perch permette il
raffronto tra le singole colonne e il dato medio del campione.
Avvertenze: Se le percentuali sono calcolate per colonna, possono essere
sommate solo entro la colonna stessa, ma non fra le colonne. Se si
decide di accorpare due colonne bisogna sommare i valori assoluti e
solo dopo calcolare le percentuali.
83
6. Cosa fare se si vogliono ricavare i valori assoluti da una tabella che
contiene solo percentuali
L'esempio che segue mostra come si pu ricavare la colonna 'Totale' in una
tabella in cui era stata omessa. Mostra indirettamente perch importante
indicare le basi assolute delle percentuali.
Tab. 2.15 Composizione sociale degli iscritti alla facolt di
Lettere
Maschi Femmine
Ceti superiori 12,2 20,2
Ceti medi autonomi (art. comm.) 27,5 30,2
Ceti medi dipendenti (impiegati) 23,2 23,4
Operai 37,1 26,2
Totale 100,0 100,0
(N) (237)
(1178)
Se si vuole ricavare la percentuale complessiva di maschi e di femmine
che proviene dai ceti superiori, occorre passare attraverso i valori assoluti:
- ricavare quanti sono i maschi dei ceti superiori
12,2 : 100 = X : 237 X = 12,2*237/100 = 29
- quante sono le femmine dei ceti superiori: (1178*20,2/100 = 238)
- sommare i due valori assoluti cos ottenuti: (29+238 = 267)
- percentualizzare sul totale dei casi: [267/(237+1178)*100 = 18,7].
84
7. Interpretazione delle tavole
Tab. 13.7. Risposte alla domanda Lei soddisfatto dell'operato del governo? per
ampiezza del comune di residenza
a) valori assoluti
>250.000 100-
250.000
50-
100.000
10-
50.000
1-10.000 <1.000 Totale
Per nulla 97 26 29 23 62 10 246
Poco 168 71 99 249 253 8 848
Non so 89 36 49 118 153 1 446
Abbastanza 159 66 92 246 326 5 894
Molto 3 2 2 8 14 1 30
Totale 516 201 271 643 808 25 2464
Semplificazione della tabella (non si possono fare % su N < 50)
b) percentuali per colonna
>250.000 100-
250.000
50-
100.000
10-
50.000
<10.000
Per nulla 18,8 12,8 10,8 3,5 8,6
Poco 32,5 35,3 36,5 38,8 31,3
Non so 17,3 18,0 18,0 18,3 18,5
Abbastanza 30,8 32,9 34,0 38,2 39,8
Molto 0,6 1,0 0,7 1,2 1,8
Totale 100 100 100 100 100
(N) (516) (201) (271) (643) (833)
Idp -17,9 -14,2 -12,6 -2,9 +1,7
Nulla+poco 51,3 48,1 47,3 42,5 39,9
Abb+molto 31,4 33,9 34,7 39,4 41,6
Interpretazione: Si prende una modalit significativa della variabile
dipendente, e si vede come essa varia al variare della variabile
indipendente.
Commenti inutili e commenti sbagliati
Idp: Indice di differenza percentuale = soddisfatti - insoddisfatti
85
8. Forma della relazione
Tab. 13.8 Risposte alla domanda Con che frequenza si vede con amici o
amiche, al di fuori dell'orario scolastico o di lavoro?, per et
dell'intervistato.
Tutti i
giorni
Almeno
una volta
a
settimana
Almeno
una
volta
al mese
Non ha
amici
Totale (N)
19-25 anni 41,4 52,9 5,7 0,1 100 (87)
26-35 anni 15,0 67,1 12,1 5,7 100 (173)
36-45 anni 8,3 66,2 15,2 10,3 100 (145)
46-55 anni 4,9 54,0 27,6 13,5 100 (163)
56-65 anni 10,5 43,7 29,3 16,5 100 (133)
0ltre 65 23,1 35,5 18,8 22,6 100 (208)
9. Presentazione compatta di tavole
Tab. 3.8 Giudizio sulla partecipazione a scioperi spontanei per et.(Valori
percentuali)
15-19 20-29 30-29 40-49 50-59 60-69 70 e pi
Approva 45,2 42,1 32,8 17,7 13,1 11,8 11,2
Non approva 54,8 57,9 67,2 82,3 86,9 88,2 88,8
Totale 100.0 100.0 100.0 100.0 100.0 100.0 100.0
(N) (55) (132) (212) (75) (53) (83) (62)
Tab. 3.7 - Percentuale di persone che approvano le diverse forme di azione politica
non istituzionalizzata per et.
15-19 20-29 30-39 40-49 50-59 60-69 70 e pi
Partecipare a scioperi spontanei 45,2 42,1 32,8 17,7 13,1 11,8 11,2
Bloccare il traffico 11,1 19,0 13,3 11,4 9,8 7,9 2,2
Fare l'autoriduz dell'affitto 18,3 22,3 15,8 12,0 14,3 13,9 15,8
Fare l'autoriduz delle bollette 19,1 20,0 18,7 15,4 21,7 16,3 17,7
Occupare case sfitte 32,2 38,9 27,4 24,2 27,6 29,2 12,1
Occupare fabbriche 33,7 44,8 48,7 35,6 36,8 31,9 22,7
Scrivere slogan sui muri 9,1 7,2 4,8 2,1 3,3 1,0 2,3
(N) (55) (132) (212) (75) (53) (83) (62)
Domanda: Ora le legger alcune azioni che la gente talvolta fa per protestare o per
influire sul governo. Per ciascuna di queste lei mi dovrebbe dire se la approva o la
disapprova.
86
Tab. 3.9 - Il ritratto dell'elettorato italiano (percentuali di voto per diverse
variabili indipendenti; elezioni politiche del 1996).
Polo Lega Ulivo Altri Totale Polo Lega Ulivo Altri Totale
Totale 40 10 46 4 100 (1962) Lettura quotidiani
Lettore quot. 39 9 48 4 100 (1045)
Dimensione del comune Non legge quot.42 11 43 4 100 (917)
< 10.000 ab 38 15 44 3 100 (654) Esposizione Tv
10-100.000 41 9 44 6 100 (808) Alta 43 11 42 4 100 (797)
100-250.000 39 6 50 5 100 (189) Moderata 38 9 48 5 100 (1148)
>250.000 ab 44 4 49 3 100 (313) Momento della decisione di voto
Genere Ultima settim. 34 16 44 6 100 (502)
Maschio 39 11 46 4 100 (1079) Tempo prima 43 7 46 4 100 (1459)
Femmina 41 8 46 5 100 (883)
Anno di nascita
Fino al 1945 42 7 48 3 100 (431)
1948-1965 38 9 48 5 100 (1016)
Dopo 1965 43 13 40 4 100 (516) Titolo di studio
Classe sociale Lic. elementare32 9 51 8 100 (187)
Borghesia 57 7 32 4 100 (195) Lic. media 39 15 42 4 100 (659)
Picc. borghesia41 12 39 8 100 (275) Diploma 44 7 45 4 100 (416)
Dirigenti-quadri44 6 45 5 100 (170) Laurea 38 6 52 4 100 (153)
Insegnanti 31 4 62 3 100 (188)
Imp. concetto 39 9 48 4 100 (392)
Impieg. esec. 45 9 45 1 100 (240)
Operai 34 14 47 5 100 (493)
87
10. Rappresentazioni grafiche
Fig. 13.1 Rappresentazioni grafiche di tavole di contingenza: diagramma a barre
a) insoddisfazione nei confronti dell'operato del governo per dimensione della citt di
residenza (dati di tab. 13.7b)
Insoddisf atti
39,9
42,5
47,3
48,1
51,3
0
10
20
30
40
50
60
<
1
0
.
0
0
0
1
0
-
5
0
.
0
0
0
5
0
-
1
0
0
.
0
0
0
1
0
0
-
2
5
0
.
0
0
0
>
2
5
0
.
0
0
0
b) frequenza con la quale vede gli amici per et (dati di tab. 13.8)
0
5
10
15
20
25
30
35
40
45
19-25 26-35 36-45 46-55 56-65 0ltre 65
Tutti i giorni
Non ha amici
88
Fig. 13.3 Rappresentazioni grafiche di tavole di contingenza: spezzata
a) soddisfazione nei confronti dell'operato del governo per dimensione della citt di
residenza
0
10
20
30
40
50
60
<10.000 10-
50.000
50-
100.000
100-
250.000
>250.000
Insodd.
Sodd.
b) frequenza con la quale vede gli amici per et
0
5
10
15
20
25
30
35
40
45
19-25 26-35 36-45 46-55 56-65 0ltre 65
Tutti i giorni
Non ha amici
89
LEZIONE 12
ANALISI BIVARIATA: DIAGRAMMA DI DISPERSIONE
ATTENZIONE: lo studente deve solo capire che cosa un diagramma di dispersione
e come da una tabella in cui sono riportate i valori per le variabili X e Y si passa alla
rappresentazione grafica. Non necessario che sappia calcolare i coefficienti a e b
della retta di regressione, n il coefficiente di correlazione r
Pagine di testo corrispondenti
- sul testo La ricerca sociale: metodologia e tecniche, Bologna, Il Mulino - Vol IV. L'analisi dei dati
Cap. III: par. 7.1 (solo questo sotto-paragrafo del par. 7)
- oppure sul testo Metodologia e tecniche della ricerca sociale, Bologna, Il Mulino - Cap. XIII: par.
7.1 (solo questo sotto-paragrafo del par. 7)
Tab. Voti in italiano (X) e in matematica (Y) dei 10 allievi di una classe
Caso n. X Y
1 9 7
2 4 4
3 6 5
4 5 5
5 5 6
6 7 8
7 8 6
8 4 3
9 7 5
10 7 6
Relazione fra i voti in italiano e in matematica degli alunni di una classe
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7 8 9 10
italiano
m
a
t
e
m
a
t
i
c
a
90
9; 7
4; 4
6; 5 5; 5
5; 6
7; 8
8; 6
4; 3
7; 5
7; 6
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7 8 9 10
italiano
m
a
t
e
m
a
t
i
c
a
Fig. 13.4 Diagrammi di dispersioni raffiguranti quattro tipi di relazioni fra due
variabili
a) lineare positiva (o diretta; r = 0,74)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
91
b) lineare negativa (o indiretta; r = -0,81)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
e) nessuna relazione (r = 0,03)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
d) curvilinea (r = 0,06)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
92
ESEMPIO 1
Interrogativo: nelle regioni italiane c una relazione fra la frequenza con la quale la
gente va al cinema e la ricchezza della regione (nelle regioni pi ricche si va al
cinema di pi?)
X: Ricchezza = prodotto interno lordo per abitante (in euro)
Y: Affluenza al cinema = Persone di 6 anni e pi che hanno fruito del cinema per
regione di appartenenza nellanno 2003 (valori percentuali)
Regioni X. Pil per
abitante ()
Y.
Affluenza(%)
Piemonte 25.796,60 48,1
Valle d'Aosta 29.952,80 40
Lombardia 28.869,90 48,5
Trentino Alto
Adige
30.430,60 38,7
Veneto 25.796,60 47,6
Friuli Venezia
Giulia
26.552,50 45,3
Liguria 25.511,50 46,5
Emilia Romagna 28.182,40 48,3
Toscana 25.137,60 50,3
Umbria 22.117,10 45,3
Marche 23.080,60 48,9
Lazio 27.126,90 52,8
Abruzzo 19.109,60 48,9
Molise 18.207,40 41,5
Campania 15.642,00 52,2
Puglia 15.494,00 47,2
Basilicata 16.077,70 42,3
Calabria 15.161,90 35,8
Sicilia 15.854,00 47,9
Sardegna 18.054,60 42,8
Italia 23.114,50 48,1
Fonte: Istat, Cultura, socialit e tempo libero. Indagine multiscopo sulle famiglie Aspetti della vita
quotidiana Anno 2003
93
Relazione fra affluenza al cinema e prodotto
interno lordo per abitante nelle regioni italiane
30
35
40
45
50
55
10.000,00 15.000,00 20.000,00 25.000,00 30.000,00 35.000,00
Pil
A
f
f
l
u
e
n
z
a
r=0,09.
94
ESEMPIO 2
Relazione fra Pil e tasso di utilizzo del pc a livello regionale. Italia 2003.
Regioni
PIL
1
Tasso di utilizzo
del pc
Piemonte 122,0 39,8
Valle d'Aosta 136,1 41,8
Lombardia 137,4 44,6
Trentino-Alto Adige 139,3 45,4
Veneto 121,5 42,7
Friuli-Venezia Giulia 125,1 40,5
Liguria 119,2 40,4
Emilia-Romagna 133,7 42,8
Toscana 118,0 41,5
Umbria 103,3 36,1
Marche 108,2 42,5
Lazio 124,3 40,8
Abruzzo 90,8 39,3
Molise 83,4 38,0
Campania 72,1 33,0
Puglia 71,6 33,7
Basilicata 74,9 37,2
Calabria 68,5 33,7
Sicilia 73,1 31,3
Sardegna 83,4 39,4
Italia 107,9 39,2
1
I valori dei PIL sono espressi in numeri indice, in cui la base fissa 100 la media dei PIL dei 25 paesi dellUnione
Europea nel 2003.
Fonte: ISTAT, Cultura, socialit e tempo libero, Roma, 2005.
Fonte per il PIL: http://www.regioni.it/mhonarc/readsqltop5.aspx
1
I valori dei PIL sono espressi in numeri indice, in cui la base fissa 100 la media dei PIL dei 25 paesi dellUnione
Europea nel 2003.
95
Relazione fra uso del pc e pil a livello regionale
30
32
34
36
38
40
42
44
46
48
60 80 100 120 140 160
Uso pc
P
i
l
r = 0,88
ESEMPIO 3
Tab. Tasso di suicidio e pratica religiosa per regione
X. % Praticanti (1) Y. Suicidi x
100.000 ab.
Piemonte 43,3 9,3
Valle dAosta 26,8 14,1
Lombardia 36,5 6,7
Trentino-Alto Adige 43,0 11,5
Veneto 44,7 8,1
Friuli-Venezia Giulia 28,3 11,7
Liguria 24,6 10,7
Emilia-Romagma 26,6 9,3
Toscana 26,2 7,2
Umbria 29,5 11,3
Marche 40,8 5,9
Lazio 28,6 6,6
Abruzzo 37,4 6,7
Molise 45,5 9,0
Campania 43,2 4,0
Puglia 45,1 4,2
Basilicata 35,5 5,2
Calabria 38,8 4,6
Sicilia 43,2 5,6
Sardegna 21,2 10,3
(1) % di persone che nella regione vanno a messa tutte le settimane
Fonte: per la pratica religiosa -Indagine multiscopo sulle famiglie "aspetti della vita quotidiana"
dicembre 2001- marzo 2002, http://www.istat.it/dati/catalogo/20030708_01/
Fonte: per il suicidio Annuario statistico 2004, http://www.istat.it/dati/catalogo/20040927_00/
96
Relazione fra pratica religiosa e suicidio per
regione
0
2
4
6
8
10
12
14
16
20 25 30 35 40 45 50
% praticanti
s
u
i
c
i
d
i
x
1
0
0
.
0
0
0
a
b
.
Relazione fra pratica religiosa e suicidio per
regione
R
2
= 0,2474
0
2
4
6
8
10
12
14
16
20 25 30 35 40 45 50
% praticanti
s
u
i
c
i
d
i
x
1
0
0
.
0
0
0
a
b
.
r = 0,50