Anda di halaman 1dari 100

Alcune definizioni della statistica

Un ramo della matematica applicata che si occupa della raccolta e dellinterpretazione dei dati quantitativi e delluso della teoria delle probabilit per la stima di parametri di una popolazione.
Lo studio scientifico dei dati numerici basato sui fenomeni naturali.

La procedura matematica per descrivere le probabilit e la distribuzione casuale o non-casuale della materia o del verificarsi degli eventi.
Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendo significativit ai risultati. Una raccolta di metodi per raccogliere, organizzare, riassumere, analizzare e interpretare i dati, e per trarre conclusioni basate su di essi. La scienza e larte di raccogliere, riassumere ed analizzare dati soggetti a variazione casuale (Biology Online)

Tipi di statistica
Statistica descrittiva: procedure per riassumere e presentare i dati e per descriverli attraverso strumenti matematici Statistica inferenziale: procedure per derivare dai dati gi noti, con laiuto di modelli matematici, affermazioni pi generali.

Statistica descrittiva: riassunto e presentazione dei dati


Riassume i dati per mezzo di tabelle e grafici:
Tabelle di frequenza (numero assoluto di casi per categoria) Tabelle percentuali (% di casi per categoria) Tabelle crociate (matrici 2 x 2, 2 x 3, ecc.) Grafici (a barre, lineari, a torta, ecc.)

Tipi di variabili
I dati della statistica riguardano variabili, cio grandezze che possono assumere valori differenti. Le variabili possono essere di tipo diverso: Quantitative (i valori sono numeri) continue: altezza, peso, ecc (i valori sono numeri reali). discrete: risultati del lancio di un dado (possono assumere solo certi valori) Qualitative o categoriche (i valori sono rappresentati dallappartenenza a categorie) nominali: maschio/femmina; remissione/recidiva/morte (le categorie non sono ordinate) NB: se le categorie sono solo due, mutuamente esclusive, si parla di variabili binarie o dicotomiche ordinali: <10 anni, fra 10 e 50 anni, > 50 anni (le categorie hanno un ordine)

Tipi di variabili
In una ricerca, si definisce variabile indipendente quella che viene manipolata direttamente dallo sperimentatore, o in alternativa selezionata attraverso il metodo di campionamento. Per esempio, il fatto che i pazienti siano trattati con un farmaco o con placebo un esempio di variabile indipendente manipolata direttamente dallo sperimentatore. In alternativa, se viene selezionato un campione di maschi da confrontare con un campione di femmine, il sesso una variabile indipendente controllata indirettamente attraverso il sistema di campionamento.
Al contrario, la variabile dipendente quella che misuriamo per verificare la sua correlazione con la variabile indipendente. Nei due esempi precedenti, la variabile dipendente potrebbe essere la risposta alla terapia nel primo caso, e lincidenza di una certa patologia nei due sessi nel secondo caso.

Statistica descrittiva: descrizione matematica dei dati


Fornisce una descrizione sintetica dei dati utilizzando (per i dati quantitativi) metodi numerici:
Valutazione del punto centrale dei dati Valutazione della distribuzione dei dati

Valutazione del punto centrale dei dati


Mediana: il punto centrale calcolato sulla base dellordinamento crescente dei dati, e rappresenta la posizione centrale in questo ordinamento. Dati: 2, 5, 6, 13, 14, 45, 47 Mediana = 13 Media aritmetica: il rapporto fra la somma dei valori e il numero dei valori

Dati: 2, 5, 6, 13, 14, 45, 47

Media = 132/7 = 18,85

Valutazione della distribuzione dei dati


Attorno alla mediana: utilizzando lo stesso principio
dellordinamento crescente dei dati e della loro posizione, possibile definire vari quantili (per esempio, dividendo in 4 intervalli si ottengono i quartili, e cos via). Se si divide in 100 intervalli, si ottengono i percentili. Per esempio, il 75 percentile il valore del dato che, nellordinamento crescente, ha un posizione tale che:
il 75% dei dati ha un valore inferiore (cio rimane a

sinistra nellordinamento) il 25% dei dati ha un valore superiore (cio rimane a destra nellordinamento) NB: la mediana il 50 percentile

Numero di dati = 121

Ordinamento crescente

Mediana: dato n 61: 60 dati (50%) a sinistra, 60 dati (50%) a destra

2, 5, 6, 9, .. 46, .. 157, 542, 3450, 6213, 6578, 12500

25 percentile: dato n 31: 30 dati (25%) a sinistra, 90 dati (75%) a destra

25 percentile = 46 Mediana (50 percentile) = 157 75 percentile = 542

La media invece la somma aritmetica dei 121 valori divisa per 121. Pu essere molto diversa dalla mediana. Per esempio, in questo caso potrebbe essere molto pi alta, perch influenzata dai valori molto alti allestremo destro dei dati.

Valutazione della distribuzione dei dati


Attorno alla media: la deviazione standard () la radice quadrata della varianza, un indicatore di dispersione che si ottiene sommando tutti i singoli scarti dalla media, elevando al quadrato e dividendo per il numero di dati.

2 = VAR

La distribuzione normale
Una distribuzione normale in una variabile X con media e varianza una distribuzione statistica con funzione di probabilit:

Sul dominio . Mentre statistici e matematici usano uniformemente il termine distribuzione normale, i fisici talvolta la chiamano distribuzione Gaussiana e gli studiosi di scienze sociali si riferiscono ad essa come curva a campana.

Lascissa rappresenta i valori. Lordinata rappresenta la densit di probabilit dei valori. Tutta larea sotto la curva rappresenta linsieme di tutti i casi possibili, cio la probabilit totale (1,0). Le probabilit non sono mai riferite a un punto, ma a un intervallo, e rappresentano il rapporto fra tutti i casi che rientrano in quellintervallo e il totale dei casi

In una distribuzione normale perfetta: 68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media 95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media 99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media

Z score
Lo z-score (chiamato anche standard score, o normal score) un modo di trasformare un singolo valore di una distribuzione normale nel suo equivalente standardizzato. In altre parole, lo z-score ci dice di quante DS il valore dista dalla media della popolazione.

Statistica descrittiva per variabili categoriche


I dati riguardanti variabili categoriche vengono spesso riportati in forma di tabella (2x2, 2x3, ecc.). La maniera pi semplice di descrivere matematicamente i dati di calcolare le proporzioni.

Remissione Popolazione % 28 56

Malattia 12 24 10 20

Morte 50

Totale

100

Statistica inferenziale
La statistica descrittiva, pur aiutandoci a capire le propriet dei dati in nostro possesso, non aggiunge nulla alle informazioni che gi abbiamo. Le sue affermazioni, essendo relative a dati certi, sono certe.

La statistica inferenziale, invece, si propone di fare nuove affermazioni a proposito di dati che non possediamo, per mezzo di una elaborazione matematica derivata dalla teoria delle probabilit. Le sue affermazioni, quindi, sono probabilistiche.

Statistica inferenziale
Il concetto di verit delle affermazioni della statistica inferenziale deve essere ben compreso. Le affermazioni della statistica inferenziale sono matematicamente vere e rigorose (nellambito della validit del modello matematico che si adotta, e purch, naturalmente, i calcoli vengano condotti correttamente), ma riguardano esclusivamente la probabilit della verit di altre affermazioni. In altre parole, la statistica inferenziale non ci fornisce certezze sullargomento della nostra ricerca, ma solo certezze sulla probabilit che le nostre asserzioni su tale argomento siano vere.
Affermazione vera (se il modello valido e i calcoli sono corretti)

Affermazione N 1 (calcolata dalla statistica inferenziale)


Affermazione N 2 (oggetto della ricerca)

Laffermazione N 2, sulla base dei dati noti, ha il 95% di probabilit di essere vera. Il gruppo A diverso dal gruppo B relativamente al parametro x

Affermazione probabile

Statistica inferenziale
I problemi che la statistica inferenziale cerca di risolvere sono essenzialmente di due tipi:
1) Problema della stima (per esempio stima di una media):
fornisce informazioni sulla media di una popolazione quando sono note media e deviazione standard di un campione della stessa.

2) Problema della verifica di ipotesi (per esempio confronto fra due o pi campioni):
calcola la probabilit che due campioni, di cui siano note media e deviazione standard, siano campioni derivati da una stessa popolazione oppure da due popolazioni diverse.

Campionamento statistico
Nellambito della statistica descrittiva abbiamo finora considerato strumenti per descrivere unintera popolazione quando siano noti tutti i dati ad essa relativi. Ma nella ricerca, in genere, non si conoscono i dati dellintera popolazione, ma solo quelli di un campione. Il campionamento si usa quando si vuole conoscere uno o pi parametri di una popolazione, senza doverli misurare in ogni suo elemento. Il campionamento consiste nel selezionare un numero pi piccolo di elementi fra tutti quelli che formano una popolazione. Pu essere fatto in vari modi, ma deve sempre essere di tipo probabilistico (cio garantire la casualit della selezione).

Parleremo allora di numerosit, media e deviazione standard del campione, e dobbiamo porci il problema di che rapporto esista fra questi valori e la numerosit, la media e la deviazione standard dellintera popolazione.

Media del campione e media della popolazione


Immaginiamo di avere una popolazione rappresentata da mille persone (per esempio la popolazione degli abitanti maschi di un paese), e di volere conoscere la loro statura. Se conoscessimo la statura di ciascuno dei mille abitanti, potremmo descrivere la popolazione con assoluta precisione in termini di media e deviazione standard.

Media del campione e media della popolazione


Se per non abbiamo le risorse per misurare la statura di mille abitanti, possiamo scegliere un campione casuale, per esempio di 30 abitanti. Avremo allora una media e una deviazione standard del campione, la cui numerosit naturalmente 30. Che rapporto c fra questi valori e quelli dellintera popolazione di mille abitanti?

Media del campione e media della popolazione


Immaginiamo di ripetere loperazione di campionamento 20 volte, ogni volta con un diverso campione casuale di 30 abitanti. Otterremo 20 medie diverse, e 20 DS diverse. Un concetto importante che linsieme di queste medie dei campioni tende ad assumere una distribuzione normale, anche se la popolazione di origine non distribuita normalmente. In altre parole, il processo di campionamento casuale di per s un fenomeno che si distribuisce normalmente.

Teorema del limite centrale


Il teorema del limite centrale afferma appunto che, data una certa popolazione con media e DS , da cui si estrae un numero infinito di campioni random e di numerosit N, man mano che N aumenta la distribuzione delle medie dei campioni tende a una distribuzione normale, con media (uguale a quella della popolazione di origine) e DS = /N. Laspetto sorprendente e non intuitivo di questo teorema che, qualunque sia la forma della distribuzione della popolazione originale, la distribuzione delle medie dei campioni tende alla distribuzione normale. Spesso la distribuzione normale viene raggiunta rapidamente, anche per valori non molto grandi di N. Ricordate che N la numerosit del singolo campione, e non il numero di campioni (questultimo si assume essere infinito).

Teorema del limite centrale


Qui sono mostrati i risultati di una simulazione al computer. Il computer ha eseguito un campionamento di numerosit N a partire da una popolazione con distribuzione uniforme (quindi assolutamente diversa da quella normale), e ha calcolato la media. Questa procedura stata ripetuta 500 volte per ciascuna di quattro numerosit del singolo campione: 1, 4, 7, e 10.

Campioni diversi di una popolazione. Le medie dei vari campioni

tendono a distribuirsi normalmente.


Distribution of Sample Means

Errore standard della media (SEM)


Lo Standard Error of the Mean (SEM) una valutazione della deviazione standard di un insieme di medie di campioni. Idealmente si dovrebbe calcolare dividendo la deviazione standard dellintera popolazione () per la radice quadrata della numerosit del campione: Poich in genere la DS dellintera popolazione non nota, si pu ottenere una stima del SEM utilizzando al posto di la deviazione standard del singolo campione (s)

SEM =

________

SEM = (stimato)

s ________

NOTA: il SEM sempre pi piccolo della DS della popolazione di origine, ed tanto pi piccolo quanto maggiore la numerosit del campione.

Limportanza di n
In termini pi semplici, quando valutiamo la media di un campione, la probabilit che questa media sia simile a quella della popolazione di origine dipende essenzialmente da due fattori:

n (la numerosit del campione) s (la deviazione standard del campione

Infatti, poich il SEM uguale a s / n , quanto pi grande n, e quanto pi piccolo s, tanto pi piccolo il SEM. Un SEM pi piccolo significa meno probabilit che la media del campione sia molto diversa da quella della popolazione.

Confidence interval: definizioni


Confidence interval = intervallo attorno alla media in cui si ha una certa probabilit che cada un valore Confidence limits = i due valori, superiore e inferiore, che delimitano il confidence interval Confidence level = la probabilit per cui si calcola il confidence interval (per esempio 95% o 99%) Z score = il numero di deviazioni standard (moltiplicatore) necessario per ottenere il confidence interval per un certo confidence level Deviazione standard Per esempio, per un confidence level del 95%
Tabella per i Confidence Intervals Confidence level Z score 0.8 1.28 0.9 1.645 0.95 1.96 0.99 2.58

CI = Media 1,96 x Z score

1.96 x
Z score

Un confidence interval del 95% un intervallo di valori, centrato sulla media, che contiene il 95% dei dati dellintera popolazione (ovvero, in cui c il 95% di probabilit che sia compreso un dato qualunque della popolazione). Corrisponde alla zona ombreggiata del diagramma. Viene in genere definito per mezzo dei due valori a sinistra e a destra della regione (confidence limits). Il valore del 95% il confidence level, e si ottiene utilizzando come moltiplicatore uno zscore di 1,96. Per ottenere livelli diversi, si usano z-scores appropriati (per esempio, per il 99% si deve moltiplicare per 2,58.

CI riferito alla media di un campione


Se ci riferiamo a un campione di una popolazione, si definisce il CI della media come lintervallo attorno alla media del campione entro cui c il 95% (o qualunque altro livello) di probabilit che cada la vera media della popolazione

Il CI della media si calcola a partire dallerrore standard della media (SEM) del campione

CI della media: come si calcola


Partendo da un campione, il CI della media si pu calcolare in due modi diversi:
Se nota la DS della popolazione generale: Z score appropriato Se non nota la DS della popolazione generale:

t appropriato (sostituisce z)

CI = Media z x SEM
Media del campione

CI = Media t x SEM stimato


Media del campione SEM calcolato usando la DS del campione (s)

SEM calcolato usando la DS della popolazione generale ()

Distribuzione z e distribuzione t
La z-distribution descrive la distribuzione dei dati in una popolazione normalmente distribuita.
Intervallo attorno alla media = Media z x
% di dati nellintervallo z 80% 1.28 90% 1.645 95% 1.96 99% 2.58

La t-distribution (t di Student) simile alla z, ma tiene conto dei gradi di libert (cio della numerosit N del campione - 1). Per N che tende allinfinito, t tende a z. E opportuno usare la t-distribution in problemi come quello di calcolare il CI per la valutazione della media di una popolazione dalla media di un campione, problemi cio in cui lincertezza del risultato dipende in modo critico dalla numerosit del campione.

t distribution
df Probability 50% 1 2 5 40 60 120 l.000 0.816 0.727 0.681 0.679 0.677 0.674 90% 6.314 2.920 2.015 l.684 1.671 1.658 1.645 95% 12.706 4.303 2.571 2.021 2.000 l.980 1.960 98% 3l.821 6.965 3.365 2.423 2.390 2.358 2.326 99% 63.657 9.925 4.032 2.704 2.660 2.617 2.576 99,9% 636.6l9 31.598 6.859 3.551 3.460 3.373 3.291

Problema della stima della media


Riassumendo, il problema della stima il primo dei due problemi oggetto della statistica inferenziale, e in genere si presenta in questa forma:

Popolazione generale
(di cui non si conosce n la media n la deviazione standard)

Campione
(di cui si conoscono N (numerosit), M (Media) e s (DS) Calcolo di un Confidence Inetrval attorno alla media del campione, per un certo Confidence Level, utilizzando N, s, e la tabella t

Conclusione:
Secondo i dati noti, c il X% (Confidence Level) di probabilit che la media della popolazione cada entro il CI calcolato

Esempio di stima di una media


Se la media del campione , per esempio, 25, e il CI calcolato per un CL del 95% va da 22 a 28 (media 3), allora si pu dire che: Secondo i dati a nostra disposizione, laffermazione che la media della popolazione di origine compresa fra 22 e 28 ha il 95% di probabilit di essere vera.
NB: E assolutamente sbagliato, invece, dire che, con il 95% di probabilit, la media della popolazione di origine uguale a 25

Stima della % da un campione


Per le variabili categoriche, in maniera assolutamente analoga, possibile stimare la percentuale di una variabile nella popolazione generale a partire da quella nel campione, calcolando un CI. Anche qui si calcola uno SE, di definisce un CL, e si calcola lintervallo.
Per esempio, ammettiamo che in uno studio su 165 neonati di peso < 1000 g, 124 (0,7515, cio 75,15%) abbiano avuto bisogno di ventilazione assistita. Se vogliamo stimare la proporzione nella popolazione generale dei neonati di quel peso che ha bisogno di ventilazione, calcoleremo lo SE (mettiamo che in questo caso sia 0,033). Fissato un CL, per esempio 95%, si sceglie un adatto moltiplicatore (1,96 se si usa la z distribution) e si calcola il CI:

95% CI = 0,7515 1,96 x 0,033 In altre parole, dal campione in esame si pu stimare che c il 95% di probabilit (CL) che la percentuale di neonati sotto il chilo di peso che ha bisogno di ventilazione assistita sia compresa fra 0,687 (cio il 68,7%) e 0,817 (cio l81,7%) (CI)

Significato del CI e del CL


Riassumendo, il CI una misura del grado di imprecisione della nostra stima. Pi ampio il CI, pi imprecisa la nostra stima. Al contrario, il CL una misura del livello di certezza che vogliamo raggiungere. Pi alto il CL, maggiore la probabilit che la nostra affermazione sia vera. Un CL alto fa aumentare la certezza, ma anche limprecisione Un CL basso fa diminuire la certezza, ma aumenta la precisione
Esempio: La media del mio campione e 15. Quale sar la vera media della popolazione? A: Sar compresa fra 14 e 16 La probabilit che questo sia vero dell80% (CI stretto e CL basso: alta precisione, minore certezza) B: Sar compresa fra 12 e 18 La probabilit che questo sia vero del 95% (CI ampio e CL alto: bassa precisione, maggiore certezza)

Verifica di ipotesi
La verifica di ipotesi il secondo tipo di problema affrontato dalla statistica inferenziale. Lipotesi da verificare in questo caso la cosiddetta ipotesi nulla (null hypothesis)

Ipotesi nulla
Lipotesi nulla (H0) unipotesi che il ricercatore fa riguardo a un parametro della popolazione oggetto della ricerca (in genere la media) e che viene confutata o non confutata dai dati sperimentali. Nel caso pi comune, del confronto fra due campioni, la forma dellipotesi nulla la seguente: H0: 1 = 2 Dove 1 e 2 sono le medie delle due popolazioni da cui sono stati tratti i due campioni. Per esempio, se i due campioni si riferiscono a neonati a termine oppure a neonati pretermine, e la variabile misurata il valore della glicemia a unora di vita, allora lipotesi nulla dice che: non c differenza fra la media dei valori glicemia a unora di vita nelle due popolazioni. Lipotesi alternativa, cio che la differenza esiste, prende il nome di H1

Ipotesi nulla
Molto spesso lipotesi nulla lopposto di ci che si vorrebbe dimostrare. Come vedremo, lipotesi nulla viene rigettata oppure no a secondo del suo livello di improbabilit. Se lipotesi nulla viene rigettata, questo un dato a favore dellipotesi alternativa. In senso stretto, per, il test statistico non dice nulla sullipotesi alternativa H1, ma solo sulla probabilit dellipotesi nulla. Riassumendo: Se H0 viene rigettata perch improbabile, questo un dato a favore di H1 Se H0 non viene rigettata, questo non vuol dire che H0 debba essere vera. Si pu solo dire che, sulla base dei dati raccolti, non la si pu considerare abbastanza improbabile.

Il p-value (probability value)


Ma che vuol dire abbastanza improbabile? Anche nel caso della verifica di ipotesi, necessario decidere un livello di improbabilit che autorizzi a rigettare lipotesi nulla. Questo valore si chiama p-value, o soltanto p, e si pu definire come la probabilit che il risultato ottenuto (per esempio la differenza fra le medie dei due campioni) sia dovuto al caso, se lipotesi nulla vera, cio se le medie delle popolazioni da cui i campioni sono tratti sono uguali. Il p si esprime come frazione dellunit. Valori di p spesso usati come livello sono: <0,05 (cio una probabilit < al 5%) <0,01 (cio una probabilit < all1%)

Il p-value
Glicemia a unora in un campione di neonati a termine Media = M1 M1 > M2 IPOTESI NULLA: La media dei valori di glicemia a unora nella popolazione di tutti i neonati a termine (1) e nella popolazione di tutti i neonati pretermine (2) uguale (1 = 2) Glicemia a unora in un campione di neonati pretermine Media = M2

SCELTA DEL LIVELLO: Sar considerato significativo un p < 0,01


A questo punto si dovr scegliere un modello di analisi statistica appropriato per il tipo di problema (per esempio, in questo caso, il t di Student). Il risultato del calcolo statistico, alla fine, dovr essere espresso sotto forma di p-value per lipotesi nulla. SE il p < a 0,01: lipotesi nulla viene rigettata, in favore di una possibile ipotesi alternativa. SE il p > a 0,01: lipotesi nulla non viene rigettata. Ci non dimostra che essa sia vera.

Errori di tipo I e II
SE il p < a 0,01: lipotesi nulla viene rigettata, in favore di una possibile ipotesi alternativa.
(studio che ha successo) Se per lipotesi nulla vera, si commette un errore di tipo I. La probabilit di commettere un errore di tipo I (detta ) uguale al p-value. Se comunque lipotesi nulla falsa, si commette un errore di tipo II. SE il p > a 0,01: lipotesi nulla non viene rigettata. Ci non dimostra che essa sia vera. (studio che non ha successo) La probabilit di commettere un errore di tipo II (detta ) spesso non calcolabile. La causa pi frequente di errore di tipo II la numerosit insufficiente dei campioni.

Errore tipo II e potenza


la probabilit di commettere un errore di tipo II, cio di non riuscire a rigettare unipotesi nulla che falsa (in altre parole, di non riuscire ad affermare la nostra ipotesi anche se vera 1- esprime la potenza di uno studio, cio la probabilit di non commettere un errore di tipo II Se 0,20, la potenza dello studio sar 0,80, in altre parole lo studio avr l80% di probabilit di riuscire a dimostrare la propria ipotesi, se questa vera

Da cosa dipende la potenza?


1. Dalla dimensione reale delleffetto che si vuole dimostrare. In altre parole, quanto pi il segnale da rivelare grande, tanto pi facile , per uno studio, rivelarlo. 2. Dal livello di significativit prefissato (soglia di p). In altre parole, quanto pi bassa si pone la soglia di p, tanto pi facile che non si arrivi a quella soglia anche se lipotesi vera. Uno studio che vuole essere pi affidabile, sar anche meno potente. 3. Dalla numerosit del campione. Pi grande N, pi potente lo studio. 4. Dalla varianza (o DS) della popolazione di origine. Pi grande la varianza, meno potente lo studio 5. Da altri fattori: normalit della popolazione, tipo di test statistico adoperato

Dimensionamento del campione


Un campione troppo piccolo porta pi facilmente ad errori di tipo II La numerosit del campione dipende per in modo critico dallentit della differenza esistente fra le due popolazioni relativamente al parametro oggetto dello studio In uno studio RCT, quindi, importante dimensionare in anticipo il campione, cio decidere prima quanti soggetti dovranno essere arruolati per rispondere al quesito Il dimensionamento va fatto tenendo conto della differenza pi piccola che si ha interesse a cogliere (grandezza del segnale minimo che si considera utile), e del livello di significativit statistica che si desidera raggiungere (cio, della soglia fissata per il p)

Scelta del test appropriato

A seconda della forma del problema, si sceglier un test diverso per la verifica delle ipotesi. E importante ricordare che, qualunque sia il test statistico impiegato, alla fine il risultato dovr essere espresso sotto la forma di un p-value perch lo si possa interpretare.

Di che test ho bisogno?


Variabili quantitative in gruppi categorici: confronto fra le medie di due campioni, anche di numerosit diversa (between-subject)
Variabili quantitative in un gruppo unico: confronto fra coppie di misurazioni nello stesso soggetto (within-subject) Variabili qualitative in gruppi categorici: confronto fra conteggi (numero dei casi che ricadono in differenti categorie) Rapporto fra due variabili quantitative continue misurate nello stesso gruppo di soggetti Variabili quantitative continue o in gruppi categorici: confronto fra le medie di tre o pi campioni, e di pi variabili indipendenti (analisi covariata)

t di Student, unpaired t di Student, paired Chi quadro Coefficiente di correlazione r e regressione

ANOVA, ANCOVA
MANOVA

Analisi contemporanea di pi variabili dipendenti

Test di Student unpaired (between-subject design)


Due gruppi categorici Due gruppi creati a partire da una variabile quantitativa secondo un valore arbitrario

Maschi

Femmine

In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS

O P P U R E

EG < 37 sett

EG >= 37 sett

In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS

Test di student paired (within-subject design)


Un solo gruppo

Neonati a termine Due misurazioni per ciascun soggetto

Bilirubina a 2 gg

Bilirubina a 4 gg

Ogni misurazione viene confrontata con quella corrispondente nello stesso soggetto

Variet di t-test
Nel t-test per campioni indipendenti (unpaired) i due campioni si riferiscono a due gruppi di soggetti diversi (per esempio pazienti trattati o non trattati): between-subject design.
Nel t-test per campioni appaiati (paired) i due campioni si riferiscono a due diverse misurazioni dello stesso parametro nello stesso gruppo di soggetti (per esempio glicemia prima e dopo un trattamento). In questo caso ci saranno due misurazioni per ogni soggetto, e quindi la numerosit dei due campioni necessariamente uguale: within-subject design.

Il test del t di Student


Student lo pseudonimo con cui William Gosset, pubblic nel 1908 un lavoro sulla distribuzione t nel caso in cui un campione piccolo venga utilizzato per stimare i parametri della popolazione di origine.

La distribuzione t si avvicina a quella normale (distribuzione z) man mano che la numerosit del campione cresce.

Il test del t di Student


Il test del t di Student applica il concetto di distribuzione t al confronto fra due campioni, in particolare alla distribuzione della differenza fra la media di due campioni derivati dalla stessa popolazione di origine (ipotesi nulla)

Distribuzione ideale delle medie di due campioni Tre scenari per la differenza fra due medie

La formula del t-test Il t-test come esempio di valutazione del rapporto segnale-rumore

Variet di t-test
Per campioni indipendenti, anche di numerosit diversa (unpaired): - campioni con varianza simile (omoschedastico) - campioni con varianza diversa Per campioni appaiati (paired) NB: In tutti i casi il test pu essere calcolato a una coda o a due code

Variet di t-test
nel test ad una coda, la zona di rifiuto solamente da una parte della distribuzione (a sinistra quando il segno negativo, a destra quando positivo)

nel test a due code, la zona di rifiuto distribuita dalle due parti

Il test a due code pi conservativo (vi si ricorre quando non si ha alcuna idea sui possibili risultati) mentre il test ad una coda pi potente

T-test
Il t-test un test molto robusto. Questo significa che, se applicato bene, d risultati affidabili anche quando le popolazioni di origine non hanno una distribuzione normale, soprattutto se le dimensioni dei campioni non sono estremamente ridotte. In tutti i casi in cui non si abbia una comprensione precisa di quale variet applicare, pi opportuno ricorrere, conservativamente, al test unpaired, a due code, per campioni con varianza differente

Chi quadro
Il chi quadro si applica quando la variabile dipendente espressa come conteggi in categorie. I risultati quindi sono espressi sotto forma di una tabella (2x2, 2x3, 3x3, ecc.) Per esempio, se vogliamo valutare il follow-up a 5 anni dei pazienti affetti da una certa patologia a seconda del sesso, ed esprimiamo il risultato come conteggio del numero di pazienti guariti, ancora malati o morti, avremo una tabella 2x3:

Guariti Maschi Femmine 20 15

Malati 12 9

Morti 4 6

Come si calcola il chi quadro


Il calcolo del chi quadro si basa sul confronto fra frequenze osservate e frequenze attese nelle singole sottocategorie. Le frequenze attese si calcolano a partire dalle frequenze osservate

Guariti Valori osservati M F 20 16 36

Malati 8 13 21 28 29 57

17.68 = 36*28 / 57

Guariti Valori attesi M F 17.68 18.32

Malati 10.32 10.68

chi (p) =

0.203

Come passare dal chi quadro al p


df P = 0.05
3.84 5.99 7.82 9.49

P = 0.01
6.64 9.21 11.35 13.28

P = 0.001
10.83 13.82 16.27 18.47

Il test del chi quadro calcola i valori attesi per ogni cella della tabella, e li confronta con quelli osservati. Il risultato ottenuto, detto appunto chi quadro, viene trasformato in p-value in maniera dipendente dai gradi di libert (il numero di gradi di libert di una tabella uguale al numero di righe meno 1 moltiplicato per il numero di colonne meno 1)

2 3 4

5
6 7 8

11.07
12.59 14.07 15.51

15.09
16.81 18.48 20.09

20.52
22.46 24.32 26.13

9
10 11 12

16.92
18.31 19.68 21.03

21.67
23.21 24.73 26.22

27.88
29.59 31.26 32.91

Risk e Odds
Un modo semiquantitativo di esprimere la significativit nel caso di variabili categoriche rappresentato dai concetti di risk, odds, risk ratio e odds ratio. Immaginiamo una tabella 2x2 che esprima lincidenza di handicap in funzione del peso alla nascita

Handicap Non handicap A. < 1000 g


B. 1000 1500g

Totale 52
96

10
8

42
88

Si definisce rischio (risk) il rapporto fra i soggetti con outcome e il totale, mentre si definisce probabilit (odds) il rapporto fra soggetti con outcome e soggetti senza. Per A: Risk = 10/52 = 0,19
Per B: Risk = 8/96 = 0,08

Odds = 10/42 = 0,24


Odds = 8/88 = 0,09

Risk Ratio e Odds Ratio


Se invece confrontiamo i due gruppi fra di loro, otterremo il Risk Ratio (RR, detto anche Relative Risk) e lOdds Ratio (OR).

Handicap Non handicap A. < 1000 g


B. 1000 1500g

Totale 52
96

10
8

42
88

Per A: Risk = 10/52 = 0,19


Per B: Risk = 8/96 = 0,08

Odds = 10/42 = 0,24


Odds = 8/88 = 0,09

Confronto di A con B:
RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6

Risk Ratio e Odds Ratio: significato


Confronto di A con B: RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6 Sia il RR che lOR possono essere riportati, in modo semiquantitativo, a un giudizio di significativit nel rigettare lipotesi nulla. Ecco due tabelle orientative:
Table 1. Semiquantitative grading of the relative risk, odds ratio, or rate ratio

Reported Relative Risk, Odds Ratio, or Rate Ratio <0.50 0.50-0.99 1.0 or not statistically significant 1.1-2.0 2.1-3.0 >3.0
1

Estimate -NS + ++ +++

Values <1 indicate decreased risk; values >1 indicate increased risk.

Risk Ratio e Odds Ratio: differenza


Confronto di A con B: RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6

Per outcome rari rispetto allintera popolazione, RR e OR sono quasi uguali. Quanto pi loutcome frequente, tanto pi il RR e lOR divergono, tenendo presente che lOR sempre pi grande, cio pi lontano dallunit, del RR.

ANOVA
Se si confrontano fra loro tre o pi gruppi, non pi corretto utilizzare il t-test ripetendolo per tutte le combinazioni. In questo modo la probabilit di avere risultati falsamente significativi cresce al crescere del numero di gruppi. In questi casi si deve usare una metodologia di calcolo pi complessa, chiamata ANOVA (ANalysis Of VAriance). Questo metodo tiene conto non solo della devianza totale dei valori, ma anche della devianza tra (between) i gruppi e della devianza entro (within) i gruppi. LANOVA un calcolo statistico complesso, e richiede in genere una buona comprensione dei concetti teorici di base.

Confronto fra due o pi variabili

I test considerati finora misurano una variabile in pi gruppi. Quando invece si vuole confrontare landamento di due o pi variabili quantitative nello stesso gruppo si ricorre ai test di correlazione e di regressione.

Coefficiente di correlazione
Il coefficiente di correlazione esprime la probabilit che due variabili siano correlate fra loro, anche se non sussiste necessariamente un rapporto diretto di causalit. La correlazione pu essere lineare o di altro tipo (quadratica, ecc.) Un coefficiente di correlazione va da -1 (correlazione negativa) a 1 (correlazione positiva). I valori intorni allo 0 esprimono lassenza di correlazione. Il pi semplice coefficiente di correlazione quello di Pearson, detto r, che misura la correlazione lineare fra due variabili in un campione. r = -1

r=0

r = +1

Altri esempi di r

Coefficiente di determinazione r2
E il quadrato della correlazione, ed esprime la percentuale della variazione dei valori di y che spiegata dal modello di regressione associato a x 0 r2 1. Quanto pi grande r2 , tanto pi forte la relazione lineare Quanto pi r2 vicino a 1, tanto pi sicure sono le nostre predizioni

Coefficiente di determinazione

Rapporto fra r e r2

Come passare da r a p

Una riflessione sul significato di p


In questo esempio, abbiamo due casi in cui il p di 0,05, ma il significato molto diverso
In questo campione di 5 casi (N = 5), r molto alto (0,80), e quindi la correlazione fra le due variabili elevata. A causa del piccolo numero di rilevazioni, per, la probabilit che questo risultato sia casuale elevata, e il valore del p si attesta a 0,05. In altre parole, sembra che fra le due variabili ci sia una correlazione molto alta, ma non lo si pu dire con molta certezza perch il numero di dati piccolo In questaltro caso, invece, il numero di dati molto grande (N = 1000), ma r piccolo (0,05). Anche qui, p si attesta a 0,05. In altre parole, fra le due variabili c probabilmente una correlazione, ma la correlazione di lieve entit

Significato generale di un test


In altre parole, possiamo considerare il risultato di un test statistico, come il t-test o r, come la misura di un rapporto segnale/rumore. Il segnale lentit della differenza fra due gruppi di dati nel confronto fra medie (t di Student), o lentit della correlazione fra due variabili (r). Il rumore la probabilit della generazione casuale di uno pseudosegnale, e dipende in modo critico dalla numerosit dei dati.

entit della differenza fra le medie, o della correlazione variabilit casuale

Segnale
Rumore

Regressione
Se esiste correlazione fra due variabili, possibile calcolare una funzione che descriva il rapporto fra le due variabili e che permetta di predire altri valori. Se tale funzione una linea, si parla di regressione lineare, altrimenti di regressione non lineare. Se le variabili sono pi di due, si parla di regressione multipla

Un esempio di regressione lineare

La formula generale di una linea di regressione : y = a + bx


dove a il punto di intersezione dellasse Y, e b la pendenza della linea (angolo con lasse X)
La linea di regressione viene calcolata in maniera da rendere minima la somma degli scarti quadratici dei singoli valori osservati

Predizione
Il calcolo di una linea di regressione pu permettere di fare predizioni riguardo a valori non osservati

Regressione lineare e non lineare

Regressione multipla
I test di regressione multipla valutano la maniera in cui molte variabili indipendenti influenzano una singola variabile dipendente: per esempio, come vari fattori prognostici influenzano la sopravvivenza in una patologia neoplastica.

Regressione multipla lineare e non lineare

Curve di Kaplan Meier


La curva di Kaplan Meier permette di rappresentare i dati di uno studio in termini di time to event, cio del tempo necessario perch i pazienti raggiungano un determinato endpoint (per esempio la morte: in questo caso la curva una curva di sopravvivenza). La curva rappresenra tutti i dati disponibili in termini di percentuale dellevento rispetto al tempo trascorso dallarruolamento, e questo permette di valutare insieme i dati di pazienti arruolati in tempi diversi. Vengono inclusi anche i pazienti che non hanno presentato ancora lendpoint al momento della chiusura dello studio, e quelli dei pazienti persi al follow-up. Tali dati vengono definiti censored e il tempo trascorso fra larruolamento e la conclusione dello studio, oppure fra larruolamento e luscita dallo studio per i persi al follow-up, rappresentato graficamente con un segno verticale (tick mark).

Un esempio di curva di Kaplan Meier

Example of a Censored Curve with Tick Marks This Group of Patients Has a Minimum Follow-Up of a Little Over a Year

Rappresentazione di due gruppi come curva di Kaplan Meier

Gap orizzontale: differenza nel tempo di presentazione delloutcome

Gap verticale: differenza nellesito finale

Valori derivati da una curva Kaplan Meier

Mediana = tempo a cui il 50% dei pazienti ha presentato levento Media = tempo medio di presentazione dellevento

Comparison of survival between two groups. Eyeballing the KM curves for the Placebo and 6MP groups, we see that 1. Median survival time is 22.5 m for 6-MP and 8 for placebo (14.5 month difference). 2. The Kaplan-Meier curve for 6-MP group lies above that for the Placebo group and there is a big gap between the two curves: the survival of 6-MP seems to be superior. 3. The gap seems to become bigger as time progresses.

Valutazione statistica delle curve di Kaplan Meier


Lanalisi statistica basata sui principi del chiquadro, che confronta le percentuali attese con quelle osservate. Test: Log rank test. H0: non c differenza fra le curve A e B H1: la differenza esiste Il risultato finale espresso come p.

Confronto fra curve di Kaplan Meier (Log Rank Test)

Figure 2: Survival of patients in the low risk group treated by liver resection alone or liver resection plus adjuvant chemotherapy. (n=113; Kaplan-Meier estimate, log-rank test).

Cox regression test


E un modello complesso di analisi di regressione multivariata, che permette sia il confronto fra curve di sopravvivenza di tipo Kaplan Meier che il calcolo del contributo di fattori prognostici indipendenti al rischio.

Un esempio di valutazione del contributo di fattori diversi al rischio cumulativo

Cox proportional hazards model e hazard ratio


Il modello di Cox permette di valutare due importanti aspetti nellambito di una rappresentazione time to event di tipo Kaplan Meier: 1. Calcolo dell hazard ratio, un numero che esprime il rischio relativo fra i due gruppi per unit di tempo 2. Calcolo del contributo indipendente al rischio di pi variabili (analisi covariata)

Hazard ratio e differenza fra gruppi


Non sempre lhazard ratio esprime in modo realistico la differenza clinica fra due gruppi. Come molte misure complesse, il suo significato pu essere fuorviante, perch dipende in maniera critica dalla forma delle curve. Se si vuole sapere essenzialmente la rilevanza del significato clinico finale, occorre sempre valutare anche la mediana e la media delle due curve.

Cox model
Il modello di Cox permette di calcolare il contributo delle singole variabili alloutcome, stratificando in maniera complessa per le differenti variabili (analisi covariata)