Un ramo della matematica applicata che si occupa della raccolta e dellinterpretazione dei dati quantitativi e delluso della teoria delle probabilit per la stima di parametri di una popolazione.
Lo studio scientifico dei dati numerici basato sui fenomeni naturali.
La procedura matematica per descrivere le probabilit e la distribuzione casuale o non-casuale della materia o del verificarsi degli eventi.
Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendo significativit ai risultati. Una raccolta di metodi per raccogliere, organizzare, riassumere, analizzare e interpretare i dati, e per trarre conclusioni basate su di essi. La scienza e larte di raccogliere, riassumere ed analizzare dati soggetti a variazione casuale (Biology Online)
Tipi di statistica
Statistica descrittiva: procedure per riassumere e presentare i dati e per descriverli attraverso strumenti matematici Statistica inferenziale: procedure per derivare dai dati gi noti, con laiuto di modelli matematici, affermazioni pi generali.
Tipi di variabili
I dati della statistica riguardano variabili, cio grandezze che possono assumere valori differenti. Le variabili possono essere di tipo diverso: Quantitative (i valori sono numeri) continue: altezza, peso, ecc (i valori sono numeri reali). discrete: risultati del lancio di un dado (possono assumere solo certi valori) Qualitative o categoriche (i valori sono rappresentati dallappartenenza a categorie) nominali: maschio/femmina; remissione/recidiva/morte (le categorie non sono ordinate) NB: se le categorie sono solo due, mutuamente esclusive, si parla di variabili binarie o dicotomiche ordinali: <10 anni, fra 10 e 50 anni, > 50 anni (le categorie hanno un ordine)
Tipi di variabili
In una ricerca, si definisce variabile indipendente quella che viene manipolata direttamente dallo sperimentatore, o in alternativa selezionata attraverso il metodo di campionamento. Per esempio, il fatto che i pazienti siano trattati con un farmaco o con placebo un esempio di variabile indipendente manipolata direttamente dallo sperimentatore. In alternativa, se viene selezionato un campione di maschi da confrontare con un campione di femmine, il sesso una variabile indipendente controllata indirettamente attraverso il sistema di campionamento.
Al contrario, la variabile dipendente quella che misuriamo per verificare la sua correlazione con la variabile indipendente. Nei due esempi precedenti, la variabile dipendente potrebbe essere la risposta alla terapia nel primo caso, e lincidenza di una certa patologia nei due sessi nel secondo caso.
sinistra nellordinamento) il 25% dei dati ha un valore superiore (cio rimane a destra nellordinamento) NB: la mediana il 50 percentile
Ordinamento crescente
La media invece la somma aritmetica dei 121 valori divisa per 121. Pu essere molto diversa dalla mediana. Per esempio, in questo caso potrebbe essere molto pi alta, perch influenzata dai valori molto alti allestremo destro dei dati.
2 = VAR
La distribuzione normale
Una distribuzione normale in una variabile X con media e varianza una distribuzione statistica con funzione di probabilit:
Sul dominio . Mentre statistici e matematici usano uniformemente il termine distribuzione normale, i fisici talvolta la chiamano distribuzione Gaussiana e gli studiosi di scienze sociali si riferiscono ad essa come curva a campana.
Lascissa rappresenta i valori. Lordinata rappresenta la densit di probabilit dei valori. Tutta larea sotto la curva rappresenta linsieme di tutti i casi possibili, cio la probabilit totale (1,0). Le probabilit non sono mai riferite a un punto, ma a un intervallo, e rappresentano il rapporto fra tutti i casi che rientrano in quellintervallo e il totale dei casi
In una distribuzione normale perfetta: 68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media 95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media 99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media
Z score
Lo z-score (chiamato anche standard score, o normal score) un modo di trasformare un singolo valore di una distribuzione normale nel suo equivalente standardizzato. In altre parole, lo z-score ci dice di quante DS il valore dista dalla media della popolazione.
Remissione Popolazione % 28 56
Malattia 12 24 10 20
Morte 50
Totale
100
Statistica inferenziale
La statistica descrittiva, pur aiutandoci a capire le propriet dei dati in nostro possesso, non aggiunge nulla alle informazioni che gi abbiamo. Le sue affermazioni, essendo relative a dati certi, sono certe.
La statistica inferenziale, invece, si propone di fare nuove affermazioni a proposito di dati che non possediamo, per mezzo di una elaborazione matematica derivata dalla teoria delle probabilit. Le sue affermazioni, quindi, sono probabilistiche.
Statistica inferenziale
Il concetto di verit delle affermazioni della statistica inferenziale deve essere ben compreso. Le affermazioni della statistica inferenziale sono matematicamente vere e rigorose (nellambito della validit del modello matematico che si adotta, e purch, naturalmente, i calcoli vengano condotti correttamente), ma riguardano esclusivamente la probabilit della verit di altre affermazioni. In altre parole, la statistica inferenziale non ci fornisce certezze sullargomento della nostra ricerca, ma solo certezze sulla probabilit che le nostre asserzioni su tale argomento siano vere.
Affermazione vera (se il modello valido e i calcoli sono corretti)
Laffermazione N 2, sulla base dei dati noti, ha il 95% di probabilit di essere vera. Il gruppo A diverso dal gruppo B relativamente al parametro x
Affermazione probabile
Statistica inferenziale
I problemi che la statistica inferenziale cerca di risolvere sono essenzialmente di due tipi:
1) Problema della stima (per esempio stima di una media):
fornisce informazioni sulla media di una popolazione quando sono note media e deviazione standard di un campione della stessa.
2) Problema della verifica di ipotesi (per esempio confronto fra due o pi campioni):
calcola la probabilit che due campioni, di cui siano note media e deviazione standard, siano campioni derivati da una stessa popolazione oppure da due popolazioni diverse.
Campionamento statistico
Nellambito della statistica descrittiva abbiamo finora considerato strumenti per descrivere unintera popolazione quando siano noti tutti i dati ad essa relativi. Ma nella ricerca, in genere, non si conoscono i dati dellintera popolazione, ma solo quelli di un campione. Il campionamento si usa quando si vuole conoscere uno o pi parametri di una popolazione, senza doverli misurare in ogni suo elemento. Il campionamento consiste nel selezionare un numero pi piccolo di elementi fra tutti quelli che formano una popolazione. Pu essere fatto in vari modi, ma deve sempre essere di tipo probabilistico (cio garantire la casualit della selezione).
Parleremo allora di numerosit, media e deviazione standard del campione, e dobbiamo porci il problema di che rapporto esista fra questi valori e la numerosit, la media e la deviazione standard dellintera popolazione.
SEM =
________
SEM = (stimato)
s ________
NOTA: il SEM sempre pi piccolo della DS della popolazione di origine, ed tanto pi piccolo quanto maggiore la numerosit del campione.
Limportanza di n
In termini pi semplici, quando valutiamo la media di un campione, la probabilit che questa media sia simile a quella della popolazione di origine dipende essenzialmente da due fattori:
Infatti, poich il SEM uguale a s / n , quanto pi grande n, e quanto pi piccolo s, tanto pi piccolo il SEM. Un SEM pi piccolo significa meno probabilit che la media del campione sia molto diversa da quella della popolazione.
1.96 x
Z score
Un confidence interval del 95% un intervallo di valori, centrato sulla media, che contiene il 95% dei dati dellintera popolazione (ovvero, in cui c il 95% di probabilit che sia compreso un dato qualunque della popolazione). Corrisponde alla zona ombreggiata del diagramma. Viene in genere definito per mezzo dei due valori a sinistra e a destra della regione (confidence limits). Il valore del 95% il confidence level, e si ottiene utilizzando come moltiplicatore uno zscore di 1,96. Per ottenere livelli diversi, si usano z-scores appropriati (per esempio, per il 99% si deve moltiplicare per 2,58.
Il CI della media si calcola a partire dallerrore standard della media (SEM) del campione
t appropriato (sostituisce z)
CI = Media z x SEM
Media del campione
Distribuzione z e distribuzione t
La z-distribution descrive la distribuzione dei dati in una popolazione normalmente distribuita.
Intervallo attorno alla media = Media z x
% di dati nellintervallo z 80% 1.28 90% 1.645 95% 1.96 99% 2.58
La t-distribution (t di Student) simile alla z, ma tiene conto dei gradi di libert (cio della numerosit N del campione - 1). Per N che tende allinfinito, t tende a z. E opportuno usare la t-distribution in problemi come quello di calcolare il CI per la valutazione della media di una popolazione dalla media di un campione, problemi cio in cui lincertezza del risultato dipende in modo critico dalla numerosit del campione.
t distribution
df Probability 50% 1 2 5 40 60 120 l.000 0.816 0.727 0.681 0.679 0.677 0.674 90% 6.314 2.920 2.015 l.684 1.671 1.658 1.645 95% 12.706 4.303 2.571 2.021 2.000 l.980 1.960 98% 3l.821 6.965 3.365 2.423 2.390 2.358 2.326 99% 63.657 9.925 4.032 2.704 2.660 2.617 2.576 99,9% 636.6l9 31.598 6.859 3.551 3.460 3.373 3.291
Popolazione generale
(di cui non si conosce n la media n la deviazione standard)
Campione
(di cui si conoscono N (numerosit), M (Media) e s (DS) Calcolo di un Confidence Inetrval attorno alla media del campione, per un certo Confidence Level, utilizzando N, s, e la tabella t
Conclusione:
Secondo i dati noti, c il X% (Confidence Level) di probabilit che la media della popolazione cada entro il CI calcolato
95% CI = 0,7515 1,96 x 0,033 In altre parole, dal campione in esame si pu stimare che c il 95% di probabilit (CL) che la percentuale di neonati sotto il chilo di peso che ha bisogno di ventilazione assistita sia compresa fra 0,687 (cio il 68,7%) e 0,817 (cio l81,7%) (CI)
Verifica di ipotesi
La verifica di ipotesi il secondo tipo di problema affrontato dalla statistica inferenziale. Lipotesi da verificare in questo caso la cosiddetta ipotesi nulla (null hypothesis)
Ipotesi nulla
Lipotesi nulla (H0) unipotesi che il ricercatore fa riguardo a un parametro della popolazione oggetto della ricerca (in genere la media) e che viene confutata o non confutata dai dati sperimentali. Nel caso pi comune, del confronto fra due campioni, la forma dellipotesi nulla la seguente: H0: 1 = 2 Dove 1 e 2 sono le medie delle due popolazioni da cui sono stati tratti i due campioni. Per esempio, se i due campioni si riferiscono a neonati a termine oppure a neonati pretermine, e la variabile misurata il valore della glicemia a unora di vita, allora lipotesi nulla dice che: non c differenza fra la media dei valori glicemia a unora di vita nelle due popolazioni. Lipotesi alternativa, cio che la differenza esiste, prende il nome di H1
Ipotesi nulla
Molto spesso lipotesi nulla lopposto di ci che si vorrebbe dimostrare. Come vedremo, lipotesi nulla viene rigettata oppure no a secondo del suo livello di improbabilit. Se lipotesi nulla viene rigettata, questo un dato a favore dellipotesi alternativa. In senso stretto, per, il test statistico non dice nulla sullipotesi alternativa H1, ma solo sulla probabilit dellipotesi nulla. Riassumendo: Se H0 viene rigettata perch improbabile, questo un dato a favore di H1 Se H0 non viene rigettata, questo non vuol dire che H0 debba essere vera. Si pu solo dire che, sulla base dei dati raccolti, non la si pu considerare abbastanza improbabile.
Il p-value
Glicemia a unora in un campione di neonati a termine Media = M1 M1 > M2 IPOTESI NULLA: La media dei valori di glicemia a unora nella popolazione di tutti i neonati a termine (1) e nella popolazione di tutti i neonati pretermine (2) uguale (1 = 2) Glicemia a unora in un campione di neonati pretermine Media = M2
Errori di tipo I e II
SE il p < a 0,01: lipotesi nulla viene rigettata, in favore di una possibile ipotesi alternativa.
(studio che ha successo) Se per lipotesi nulla vera, si commette un errore di tipo I. La probabilit di commettere un errore di tipo I (detta ) uguale al p-value. Se comunque lipotesi nulla falsa, si commette un errore di tipo II. SE il p > a 0,01: lipotesi nulla non viene rigettata. Ci non dimostra che essa sia vera. (studio che non ha successo) La probabilit di commettere un errore di tipo II (detta ) spesso non calcolabile. La causa pi frequente di errore di tipo II la numerosit insufficiente dei campioni.
A seconda della forma del problema, si sceglier un test diverso per la verifica delle ipotesi. E importante ricordare che, qualunque sia il test statistico impiegato, alla fine il risultato dovr essere espresso sotto la forma di un p-value perch lo si possa interpretare.
ANOVA, ANCOVA
MANOVA
Maschi
Femmine
In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS
O P P U R E
EG < 37 sett
EG >= 37 sett
In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS
Bilirubina a 2 gg
Bilirubina a 4 gg
Ogni misurazione viene confrontata con quella corrispondente nello stesso soggetto
Variet di t-test
Nel t-test per campioni indipendenti (unpaired) i due campioni si riferiscono a due gruppi di soggetti diversi (per esempio pazienti trattati o non trattati): between-subject design.
Nel t-test per campioni appaiati (paired) i due campioni si riferiscono a due diverse misurazioni dello stesso parametro nello stesso gruppo di soggetti (per esempio glicemia prima e dopo un trattamento). In questo caso ci saranno due misurazioni per ogni soggetto, e quindi la numerosit dei due campioni necessariamente uguale: within-subject design.
La distribuzione t si avvicina a quella normale (distribuzione z) man mano che la numerosit del campione cresce.
Distribuzione ideale delle medie di due campioni Tre scenari per la differenza fra due medie
La formula del t-test Il t-test come esempio di valutazione del rapporto segnale-rumore
Variet di t-test
Per campioni indipendenti, anche di numerosit diversa (unpaired): - campioni con varianza simile (omoschedastico) - campioni con varianza diversa Per campioni appaiati (paired) NB: In tutti i casi il test pu essere calcolato a una coda o a due code
Variet di t-test
nel test ad una coda, la zona di rifiuto solamente da una parte della distribuzione (a sinistra quando il segno negativo, a destra quando positivo)
nel test a due code, la zona di rifiuto distribuita dalle due parti
Il test a due code pi conservativo (vi si ricorre quando non si ha alcuna idea sui possibili risultati) mentre il test ad una coda pi potente
T-test
Il t-test un test molto robusto. Questo significa che, se applicato bene, d risultati affidabili anche quando le popolazioni di origine non hanno una distribuzione normale, soprattutto se le dimensioni dei campioni non sono estremamente ridotte. In tutti i casi in cui non si abbia una comprensione precisa di quale variet applicare, pi opportuno ricorrere, conservativamente, al test unpaired, a due code, per campioni con varianza differente
Chi quadro
Il chi quadro si applica quando la variabile dipendente espressa come conteggi in categorie. I risultati quindi sono espressi sotto forma di una tabella (2x2, 2x3, 3x3, ecc.) Per esempio, se vogliamo valutare il follow-up a 5 anni dei pazienti affetti da una certa patologia a seconda del sesso, ed esprimiamo il risultato come conteggio del numero di pazienti guariti, ancora malati o morti, avremo una tabella 2x3:
Malati 12 9
Morti 4 6
Malati 8 13 21 28 29 57
17.68 = 36*28 / 57
chi (p) =
0.203
P = 0.01
6.64 9.21 11.35 13.28
P = 0.001
10.83 13.82 16.27 18.47
Il test del chi quadro calcola i valori attesi per ogni cella della tabella, e li confronta con quelli osservati. Il risultato ottenuto, detto appunto chi quadro, viene trasformato in p-value in maniera dipendente dai gradi di libert (il numero di gradi di libert di una tabella uguale al numero di righe meno 1 moltiplicato per il numero di colonne meno 1)
2 3 4
5
6 7 8
11.07
12.59 14.07 15.51
15.09
16.81 18.48 20.09
20.52
22.46 24.32 26.13
9
10 11 12
16.92
18.31 19.68 21.03
21.67
23.21 24.73 26.22
27.88
29.59 31.26 32.91
Risk e Odds
Un modo semiquantitativo di esprimere la significativit nel caso di variabili categoriche rappresentato dai concetti di risk, odds, risk ratio e odds ratio. Immaginiamo una tabella 2x2 che esprima lincidenza di handicap in funzione del peso alla nascita
Totale 52
96
10
8
42
88
Si definisce rischio (risk) il rapporto fra i soggetti con outcome e il totale, mentre si definisce probabilit (odds) il rapporto fra soggetti con outcome e soggetti senza. Per A: Risk = 10/52 = 0,19
Per B: Risk = 8/96 = 0,08
Totale 52
96
10
8
42
88
Confronto di A con B:
RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6
Reported Relative Risk, Odds Ratio, or Rate Ratio <0.50 0.50-0.99 1.0 or not statistically significant 1.1-2.0 2.1-3.0 >3.0
1
Values <1 indicate decreased risk; values >1 indicate increased risk.
Per outcome rari rispetto allintera popolazione, RR e OR sono quasi uguali. Quanto pi loutcome frequente, tanto pi il RR e lOR divergono, tenendo presente che lOR sempre pi grande, cio pi lontano dallunit, del RR.
ANOVA
Se si confrontano fra loro tre o pi gruppi, non pi corretto utilizzare il t-test ripetendolo per tutte le combinazioni. In questo modo la probabilit di avere risultati falsamente significativi cresce al crescere del numero di gruppi. In questi casi si deve usare una metodologia di calcolo pi complessa, chiamata ANOVA (ANalysis Of VAriance). Questo metodo tiene conto non solo della devianza totale dei valori, ma anche della devianza tra (between) i gruppi e della devianza entro (within) i gruppi. LANOVA un calcolo statistico complesso, e richiede in genere una buona comprensione dei concetti teorici di base.
I test considerati finora misurano una variabile in pi gruppi. Quando invece si vuole confrontare landamento di due o pi variabili quantitative nello stesso gruppo si ricorre ai test di correlazione e di regressione.
Coefficiente di correlazione
Il coefficiente di correlazione esprime la probabilit che due variabili siano correlate fra loro, anche se non sussiste necessariamente un rapporto diretto di causalit. La correlazione pu essere lineare o di altro tipo (quadratica, ecc.) Un coefficiente di correlazione va da -1 (correlazione negativa) a 1 (correlazione positiva). I valori intorni allo 0 esprimono lassenza di correlazione. Il pi semplice coefficiente di correlazione quello di Pearson, detto r, che misura la correlazione lineare fra due variabili in un campione. r = -1
r=0
r = +1
Altri esempi di r
Coefficiente di determinazione r2
E il quadrato della correlazione, ed esprime la percentuale della variazione dei valori di y che spiegata dal modello di regressione associato a x 0 r2 1. Quanto pi grande r2 , tanto pi forte la relazione lineare Quanto pi r2 vicino a 1, tanto pi sicure sono le nostre predizioni
Coefficiente di determinazione
Rapporto fra r e r2
Come passare da r a p
Segnale
Rumore
Regressione
Se esiste correlazione fra due variabili, possibile calcolare una funzione che descriva il rapporto fra le due variabili e che permetta di predire altri valori. Se tale funzione una linea, si parla di regressione lineare, altrimenti di regressione non lineare. Se le variabili sono pi di due, si parla di regressione multipla
Predizione
Il calcolo di una linea di regressione pu permettere di fare predizioni riguardo a valori non osservati
Regressione multipla
I test di regressione multipla valutano la maniera in cui molte variabili indipendenti influenzano una singola variabile dipendente: per esempio, come vari fattori prognostici influenzano la sopravvivenza in una patologia neoplastica.
Example of a Censored Curve with Tick Marks This Group of Patients Has a Minimum Follow-Up of a Little Over a Year
Mediana = tempo a cui il 50% dei pazienti ha presentato levento Media = tempo medio di presentazione dellevento
Comparison of survival between two groups. Eyeballing the KM curves for the Placebo and 6MP groups, we see that 1. Median survival time is 22.5 m for 6-MP and 8 for placebo (14.5 month difference). 2. The Kaplan-Meier curve for 6-MP group lies above that for the Placebo group and there is a big gap between the two curves: the survival of 6-MP seems to be superior. 3. The gap seems to become bigger as time progresses.
Figure 2: Survival of patients in the low risk group treated by liver resection alone or liver resection plus adjuvant chemotherapy. (n=113; Kaplan-Meier estimate, log-rank test).
Cox model
Il modello di Cox permette di calcolare il contributo delle singole variabili alloutcome, stratificando in maniera complessa per le differenti variabili (analisi covariata)