Tips Statistica

SCALE
Una scala numerica continua è una scala in cui ci sono una serie di dati quantitativi
determinati dal rapporto fra l'entità del fenomeno e la sua unità di misura, si compone
infatti di vere e proprie misurazioni scientifiche che contengono anche cifre decimali.
La scala numerica discreta è anch'essa quantitativa ma è usata più per enumerazioni
(esempio media di figli per donna).
In una scala numerica continua esistono misure per identificare la dispersione dei dati,
ossia quanto, numericamente parlando, i dati rilevati sono diversi fra loro; queste misure
sono: deviazione standard, intervallo interquartile, il campo di variazione e coefficiente
di variazione.
In una scala nominale, la variabilità viene espressa con indicatori di eterogeneità.

Una scala in cui vi siano solo differenze e uguaglianze tra categorie diverse è detta
nominale; le informazioni in scala nominale si possono sintetizzare con frequenza in
percentuale e l'effettivo.
MISURE DI TENDENZA CENTRALI (media aritmetica, mediana, moda, midrange,

media pesata)
Un limite della media: il calcolo risente dei valori estremi
Limite della mediana: può essere un valore inesistente (quando pari)
Quando la media la moda e la mediana coincidono, il risultato è una distribuzione in

una popolazione normale che è detta distribuzione a campana. Se la media è
asimmetrica a sinistra ovvero quando la media si trova a sinistra della mediana, e la
mediana a sinistra della moda, la simmetria viene definita negativa; quando viceversa, la
media si trova a destra della mediana e la mediana si trova a destra della moda,
l'asimmetria viene definita positiva.
Outlier è un valore estremo che va indagato per capire se è un errore o un dato reale:
può avere un'influenza notevole sulla media, sulla deviazione standard e sulla scala con
cui è disegnato un istogramma.
Stimatori o variabili non distorte: media, varianza, proporzione

Stimatori o variabili distorte: mediana, range, deviazione standard
MISURE DI DISPERSIONE (deviazione standard, range interquartile, campo di

variazione, varianza (NON in scala nominale), coefficiente di variazione)
La media più o meno una deviazione standard comprende il 68% dei dati
La media più o meno 2 deviazione standard comprende il 95% dei dati
La media più o meno 3 deviazione standard comprende il 99,7% dei dati
Il coefficiente di variazione è una misura che indica la precisione della misurazione e se

supera il valore del 30% indica che la distribuzione delle misure non è normale, è pari al
rapporto percentuale tra deviazione standard e media.
L'errore standard di una misura è definito come la stima della deviazione standard dello
stimatore. È dunque una stima della variabilità dello stimatore cioè una misura della sua
imprecisione.
La deviazione standard è un indicatore della dispersione dell'insieme.
Per quantile si intende il valore che divide un insieme di misure in N parti uguali
Per verificare che un parametro di campione sia normale verifico che media + 1dev
stand = 84 esimo percentile e la media - 1 dev stand = 16° percentile; inoltre la media
deve coincidere con la mediana (50°percentile)
Coefficiente di variazione: è un indice di dispersione che permette di confrontare misure

di fenomeni riferite a unità di misura differenti
I gradi di libertà sono il numero di variazioni indipendenti di un insieme di misure.
DISTRIBUZIONI DI PROBABILITA’
Distribuzione di Poisson: probabilità che si verifichino n successi su x prove in un dato

intervallo di tempo o spazio
Distribuzione binomiale: probabilità di x successi in n prove
STRATEGIE DI CAMPIONAMENTO
Quando si effettua un campionamento il numero di soggetti da campionare è stabilito a

priori
Limiti di confidenza al 95% fornisco informazioni sulla precisione della stima

Campionaria
Tipi di campionamento
Campionamento casuale
Gli individui della popolazione vengono scelti in modo che ciascun singolo individuo
abbia la stessa probabilità di essere selezionato
Campionamento casuale semplice
È di taglia N in modo che ciascun campione di taglia N abbia la stessa probabilità di
essere selezionato ( invece che scegliere casualmente i singoli individui si scelgono
casualmente dei singoli gruppi).
Campionamento sistematico
Scegliamo a caso un punto iniziale e successivamente ogni K-esimo elemento (multiplo
di quel numero).
Campionamento di convenienza
Si tratta di un campionamento in cui si usano dati di facile raccolta, poco usato poiché
poco rappresentativo, dispone di bassa variabilità della popolazione.
Campionamento stratificato
Si usa quando sono presenti almeno due strati o due sottogruppi che condividono le
stesse caratteristiche.
Campionamento a grappoli
È un campionamento in cui si suddivide la popolazione in sezioni o grappoli e si
sorteggiano le sezioni.
STATISTICA INFERENZIALE – DISTRIBUZIONE T DI STUDENT
La distribuzione t di Student viene usata quando la deviazione standard non è nota e il

campione deve essere casuale semplice e >30 e la distribuzione della popolazione deve
essere normale. Oltre a ciò ogni campione deve essere indipendente dagli altri. Si usa
per verificare che non vi sia differenza significativa tra due campioni.
La distribuzione t di Student è legata gradi di libertà, che in questa distribuzione

corrispondono a n - 1, dove n è la taglia del campione, per cui possiamo dire che la
distribuzione t di Student è legata la taglia del campione. La distribuzione t di Student
viene utilizzata per definire degli intervalli di confidenza per la media di una
popolazione.
TEST PER CONFRONTI MULTIPLI
Per i confronti multipli si usano test divisi in due gruppi: quelli per confronti multipli fra
meno di 10 categorie e fra più di 10 categorie. Nel primo gruppo troviamo il test di
Bonferroni, considerato il migliore e si usa con il test di Student per dati appaiati; nel
secondo gruppo troviamo il test di Tukey, anche questo si usa con il test di Student per
dati appaiati
10 O MENO CATEGORIE
-Test di Bonferroni: più cautelativo e quindi più consigliato
-Test SNK: tende a sovrastimare
-Test di Holm: riduce la potenza di correzione
PIU’ DI 10 CATEGORIE
-Test di Tuckey: tende a sottostimare (è meglio, è più facile evitare errori, cosa facile
quando si trattano molte categorie)
-Test Dunnet: tende a sovrastimare
TEST DISTRIBUTION FREE, TEST NON PARAMETRICI
Quando un campione non è molto numeroso cioè meno di 30 soggetti, si dice che è
senza distribuzione cioè distribution free e si usano test non parametrici che sfruttano le
frequenze o al massimo le mediane
Il test del chi quadro di mcnemar serve solo per variabili in scala nominale e serve per la
verifica di omogeneità ( le frequenze con cui si presentano le categorie sono simili)
associazione ( le categorie sono associate) e indipendenza, per questo motivo può essere
usato per valutare il grado di accordo intra operatore, inter operatore o tra test clinici
diversi. Test chi quadro: scala nominale e ordinale.
Il test di Wilcoxon si usa per vedere se c'è una differenza significativa tra le mediane di
due gruppi appaiati cioè dipendenti l'uno dall'altro, se i 2 campioni invece non sono
appaiati, si usa il test U di Mann Whitney. Esiste un altro test chiamato di Kruskal-
Wallis, è un test non parametrico usato per confrontare le mediane di tre o più campioni
non appaiati.
Correzione di Yates nel test del chi quadro: tabella 2x2 (si usa quando sono presenti
solo 2 categorie e quindi un solo grado si libertà).
RELAZIONI TRA DUE VARIABILI NUMERICHE
Per verificare la relazione tra due variabili si usa la retta di regressione. Una variabile
deve essere indipendente e l'altra dipendente, chiamate rispettivamente variabile
predittore e variabile risposta; è necessario che il campione di dati accoppiati sia casuale
e di dati quantitativi, lo scatterplot deve confermare che i punti si dispongono
approssimativamente lungo una linea retta.
L’intervallo di confidenza della retta di regressione per essere valido: non deve
comprendere lo 0
La regressione lineare non si può ovviamente applicare se c'è stato un intervento sulle
variabili da parte del ricercatore
COEFFICIENTE DI CORRELAZIONE DI PEARSON (r)
Nella retta di regressione abbiamo un coefficiente di correlazione r che è sempre

compreso tra -1 e 1 ( rispettivamente correlazione inversa massima e correlazione
massima), affinché una retta di regressione sia significativa occorre che r^2 sia
compreso tra 0.5-1
Il coefficiente di correlazione di Pearson (R) misura la forza della Associazione lineare

tra coppie di dati quantitativi di un campione (NB non è in grado di misurare l'intensità
di associazioni NON lineari). É necessario che i campioni di coppia di dati siano presi a
caso e siano dati quantitativi, che lo scatter plot figuri come una retta e che ogni outlier
sia indagato come errore o meno. R sempre compreso tra -1 e 1, -1 correlazione inversa
massima, 1 correlazione massima. Il valore di R non cambia se tutti i valori di entrambe
le variabili sono convertiti in una scala differente, il valore di R non dipende dall'ordine
in cui vengono scelte le x e le y.
Coefficiente di determinazione r2: deve tendere a 1 per essere significativo
EPIDEMIOLOGIA-STUDI EPIDEMIOLOGICI
Negli studi trasversali è importante calcolare la prevalenza per monitorare momento per
momento la popolazione.
Uno studio trasversale è uno studio fotografia che lavora con le popolazioni dinamiche e
dà un'idea del momento preciso in cui viene fatto il test, è molto veloce poco costoso e
fornisce la possibilità di formulare ipotesi che però bisogna verificare con altri tipi di
studio.
Uno studio longitudinale serve per studiare più effetti contemporaneamente e a valutare
il trend spontaneo dei fattori di rischio. Gli studi longitudinali permettono alla
rappresentatività della casistica, confrontabilità della terapia pratica e
risultati/conclusioni basate sull'obiettivo primario.
Uno studio retrospettivo permette di studiare patologie rare e non di evidenziare

relazioni temporali causa effetto
EPIDEMIOLOGIA-STUDI CLINICI
In un trial clinico controllato, ma anche nei trials clinici crossover, il campione deve
avere taglia fissa e non può cambiare durante il trial stesso. (NB: per trials clinici
crossover si intendono quei casi in cui due gruppi vengono sottoposti secondo diversi
disegni di esperimenti a due trattamenti diversi.) in un trial clinico controllato è
fondamentale evidenziare le relazioni temporali causa-effetto, studiare più siti
contemporaneamente e calcolare la prevalenza. In un trials clinico controllato ogni
soggetto sottoposto a un solo trattamento; nella crossover invece ogni soggetto
sottoposto a tutti i trattamenti.
I risultati di un trial clinico controllato sono validi quando si è raggiunto l'obiettivo

primario.
Nelle coorti fisse i soggetti entro nello studio e ne escono quando sono diventati casi.
Le popolazioni dinamiche sono popolazioni in cui soggetti vengono visti per un periodo
più o meno lungo e poi non vengono più visti.
INDICATORI EPIDEMIOLOGIA-MISURE D’INSORGENZA

(incidenza/prevalenza)
La prevalenza misura la presenza di una data malattia in un preciso istante.

L’incidenza misura la presenza di una data malattia in un periodo di tempo più lungo.
Ricorda: prevalenza istante, incidenza periodo.
INDICATORI EPIDEMIOLOGIA-MISURE DI RISCHIO (OR/RR)
L'odds ratio si calcola negli studi di caso controllo retrospettivi, mentre il Risk Ratio si
calcola negli studi caso controllo prospettici.
L'odd generico è quello che riguarda la totalità della popolazione.
Il rischio generico riguarda una sottopopolazione.
USO DEL RISCHIO
Il rischio attribuibile ad un fattore ambientale è uguale a rischio assoluto della

popolazione esposta meno il rischio assoluto della popolazione non esposta / per il
rischio assoluto della popolazione esposta quel fattore ambientale
R att = (R ass esp – R ass nonesp)/ R ass esp
Differenza tra rischio e incidenza: denominatore
La riduzione del rischio assoluto a favore di un trattamento rispetto ad un altro è data

dalla differenza rischio assoluto della popolazione non trattata e il rischio assoluto della
popolazione trattata con farmaco. *
Da questo numero io riesco a trovare il number needed to treat (NNT) cioè il numero
minimo di soggetti da trattare per ridurre di un'unità gli effetti avversi. NNT** è dato
dall’inverso, cioè 1/ riduzione del rischio assoluto(*). La riduzione del rischio relativo
non è altro che 1 meno rischio relativo e la stessa cosa vale per l'Odds Ratio, uno meno
OR (***).
*Riduzione del rischio assoluto: R assoluto trattati - R assoluto non trattati
**NNT: inverso della riduzione del rischio assoluto
***Riduzione del rischio relativo o dell’ODD: 1-RR o 1-ODD
INTERVALLI DI CONFIDENZA RR e OR
Qualunque sia il risultato dell’OR e RR, se l’intervallo di confidenza contiene l’1, cioè
se un estremo è <1 e l’altro >1, il risultato è ininfluente perché l’intervallo di confidenza
ha il 95% delle probabilità di contenere il valore della popolazione. Se invece IC >1, il
FdR è sempre favorevole all’evento; in alternativa se IC<1, il FdR è sempre protettivo
nei confronti dell’evento.
MISURE STATISTICHE-TASSI
Il rapporto di letalità di una malattia è uguale al numero di decessi per quella malattia/ il
numero degli affetti da quella malattia.
Il tasso grezzo di mortalità annuale è dato dal numero totale di morti durante l'anno
fratto il numero di persone di quella popolazione al primo luglio di quell'anno; il tutto
per questioni burocratiche.
SENSIBILITA’ E SPECIFICITA’
In un test la sua sensibilità indica la capacità di individuare i malati cioè i veri positivi,
la specificità invece è la sua capacità di individuare i veri negativi, ossia i sani
La curva Roc è una curva che serve ad individuare qual è la soglia da fissare per poter
avere il massimo numero di veri negativi e veri positivi in un test. Nella curva Roc la
specificità è in ascissa e la sensibilità in ordinata, in termini di percentuale. Nella curva
Roc è importante l'area sottesa dalla curva stessa perché rappresenta il prodotto tra la
specificità e la sensibilità il particolare corrisponde a base per altezza e quindi area
sottesa alla curva: là dove l'aria è più alta ho più forza. L'area sottesa dalla curva Roc ha
come valori auspicabili maggiore di 0,5 e tendente al 1 ma mai maggiore di 1. Ricorda
che l'accuratezza globale del test è tanto più elevata quanto la curva Roc si avvicina al
punto di coordinate 0 1. La curva Roc consente di evidenziare l'effetto che si ha
modificando la soglia del cut-off utilizzando un test invece di un altro. Area sottesa dalla
curva ROC: >0,5 e <1
Un test molto sensibile: individua i veri malati ma può dare falsi positivi (errore alfa)
Un test molto specifico: individua i veri sani ma può dare falsi negativi (errore beta)
ERRORI NELLA VALUTAZIONE DELLE IPOTESI
Rifiutare un ipotesi quando è vera è un errore di primo tipo (errore alfa), non rifiutare un
ipotesi quando è falsa è un errore di secondo tipo (errore beta)
Esistono errori di primo tipo errore alfa ed errore di secondo tipo errore beta. Per ridurre
gli errori di primo tipo bisogna abbassare la soglia di significatività cioè ridurre Alfa,
per ridurre gli errori di secondo tipo bisogna aumentare la potenza del test.
ERRORI FATTI IN MEDICINA
Gli obiettivi della raccolta e analisi dei dati sono: promuovere la correttezza e la
precisione; ridurre gli errori differenziali non differenziali; ridurre la variabilità intra ad
extra osservazionale.
Esistono degli errori da valutare all'interno dei campioni che vengono analizzati negli
studi, ci possono essere degli errori di validità interna ossia errori dovuti al fatto che
vengono scelti campioni troppo diversi tra loro o che comprendono soggetti non
omogenei tra loro, ci possono anche essere errori di validità esterna cioè errori legati a
popolazioni troppo diverse. Errori inoltre si distinguono in differenziali cioè quelli
indotti da una misurazione distorto o non accurata e ed errori non differenziali cioè
casuali, quest'ultimi essendo per l'appunto casuali possono essere evitati con numerose
osservazioni, gli errori differenziali invece non sono assolutamente casuali.
CONFIDENZA E POTENZA
La confidenza o intervallo di confidenza, è complementare all'errore Alfa. (confidenza =

probabilità che si attribuisce alla correttezza, precisione e riproducibilità della stima)
La potenza di un test è la probabilità 1 - beta di rifiutare l'ipotesi nulla quando è falsa,

oppure la probabilità che si attribuisce al fatto che lo studio consenta una stima corretta
precisa e riproducibile
VALUTAZIONE DEI TEST-CONCORDANZA K DI COHEN
Quando si tratta di valutare la performance di un test talvolta può essere necessario

confrontare non con la realtà o con l'esito del Golden test, bensì con un altro test, magari
non eccellente ma di comune impiego nella pratica. In questo caso non si parla più di
validità ma di concordanza. La concordanza K di Cohen tiene conto anche della
concordanza dovuta al caso o a quella reale, le linee guida sono: k <0.2 concordanza
scarsa; k compresa tra 0.2 e 0.4 concordanza modesta; 0.41<k<0.61 concordanza
moderata; 0.61<k<0.81 concordanza buona; k>0.80 concordanza eccellente.

Tips Statistica

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tips Statistica

Diunggah oleh

Hak Cipta:

Format Tersedia

SCALE

In una scala nominale, la variabilità viene espressa con indicatori di eterogeneità.

MISURE DI TENDENZA CENTRALI (media aritmetica, mediana, moda, midrange,

Un limite della media: il calcolo risente dei valori estremi

Limite della mediana: può essere un valore inesistente (quando pari)

Quando la media la moda e la mediana coincidono, il risultato è una distribuzione in

Stimatori o variabili non distorte: media, varianza, proporzione

MISURE DI DISPERSIONE (deviazione standard, range interquartile, campo di

Il coefficiente di variazione è una misura che indica la precisione della misurazione e se

Coefficiente di variazione: è un indice di dispersione che permette di confrontare misure

I gradi di libertà sono il numero di variazioni indipendenti di un insieme di misure.

Distribuzione di Poisson: probabilità che si verifichino n successi su x prove in un dato

Distribuzione binomiale: probabilità di x successi in n prove

Quando si effettua un campionamento il numero di soggetti da campionare è stabilito a

Limiti di confidenza al 95% fornisco informazioni sulla precisione della stima

STATISTICA INFERENZIALE – DISTRIBUZIONE T DI STUDENT

La distribuzione t di Student viene usata quando la deviazione standard non è nota e il

La distribuzione t di Student è legata gradi di libertà, che in questa distribuzione

TEST PER CONFRONTI MULTIPLI

TEST DISTRIBUTION FREE, TEST NON PARAMETRICI

RELAZIONI TRA DUE VARIABILI NUMERICHE

COEFFICIENTE DI CORRELAZIONE DI PEARSON (r)

Nella retta di regressione abbiamo un coefficiente di correlazione r che è sempre

Il coefficiente di correlazione di Pearson (R) misura la forza della Associazione lineare

Coefficiente di determinazione r2: deve tendere a 1 per essere significativo

Uno studio retrospettivo permette di studiare patologie rare e non di evidenziare

I risultati di un trial clinico controllato sono validi quando si è raggiunto l'obiettivo

INDICATORI EPIDEMIOLOGIA-MISURE D’INSORGENZA

La prevalenza misura la presenza di una data malattia in un preciso istante.

INDICATORI EPIDEMIOLOGIA-MISURE DI RISCHIO (OR/RR)

L'odd generico è quello che riguarda la totalità della popolazione.

Il rischio generico riguarda una sottopopolazione.

USO DEL RISCHIO

Il rischio attribuibile ad un fattore ambientale è uguale a rischio assoluto della

Differenza tra rischio e incidenza: denominatore

La riduzione del rischio assoluto a favore di un trattamento rispetto ad un altro è data

*Riduzione del rischio assoluto: R assoluto trattati - R assoluto non trattati

**NNT: inverso della riduzione del rischio assoluto

***Riduzione del rischio relativo o dell’ODD: 1-RR o 1-ODD

ERRORI NELLA VALUTAZIONE DELLE IPOTESI

ERRORI FATTI IN MEDICINA

La confidenza o intervallo di confidenza, è complementare all'errore Alfa. (confidenza =

La potenza di un test è la probabilità 1 - beta di rifiutare l'ipotesi nulla quando è falsa,

VALUTAZIONE DEI TEST-CONCORDANZA K DI COHEN

Quando si tratta di valutare la performance di un test talvolta può essere necessario

Anda mungkin juga menyukai