Anda di halaman 1dari 60

ANALISIS EXPLORATORIO DE

DATOS
Juan MENA PARCO
Introduccin
El anlisis de los datos puede realizarse de dos maneras, de acuerdo al uso de la
estadstica ser:
a) Estadstico
b) No estadstico (cualitativo)
La estadstica cumple con algunas funciones como:
a) Producir datos
b) Interpretar datos:
1. Existentes
2. Producidos de acuerdo a un plan o diseo
Los datos contienen informacin acerca de las caractersticas de un conjunto de
individuos, expresadas como VARIABLES. Estos datos provienen de diversas fuentes
como:
a) Registros continuos
b) Muestreo (encuestas)
c) Experimentos (diseos controlados)
d) Censos, etc.
QUE ES EL ANALISIS EXPLORATORIO
Es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un
entendimiento bsico de los datos y de las relaciones existentes entre
las variables analizadas.
Para conseguir este objetivo, usa mtodos sistemticos sencillos:
1. Para organizar y prepara los datos.
2. Detectar fallos en el diseo y recogida de los mismos
3. Tratamiento y evaluacin de datos ausentes (missing)
4. Identificacin de casos atpicos (outliers)
5. Comprobacin de los supuestos subyacentes en la mayor parte de las
tcnicas multivariantes (normalidad, linealidad, homocedasticidad)
ETAPAS DEL ANALISIS EXPLORATORIO DE
DATOS
1. Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.
2. Realizar un examen grfico de la naturaleza de las variables individuales a
analizar y un anlisis descriptivo numrico que permita cuantificar algunos
aspectos grficos de los datos.
3. Realizar un examen grfico de las relaciones entre las variables analizadas y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin
existente entre ellas.
4. Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas
tcnicas estadstica como, por ejemplo, la normalidad, linealidad y
homocedasticidad.
5. Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial
que puedan ejercer en anlisis estadsticos posteriores.
6. Evaluar, si fuera necesario, el impacto potencial que puede n tener los datos
ausentes (missing) sobre la representatividad de los datos analizados
PREPARACION DE LOS DATOS
El primer paso es hacer accesible los datos a cualquier tcnica
estadstica. Ello conlleva la seleccin del mtodo de entrada (por
teclado o importados de un archivo)y codificacin de los datos as
como la de un paquete estadstico adecuado para procesarlos.
1. Combinar conjuntos de datos de dos archivos distintos.
2. Selecciona subconjuntos de los datos.
3. Dividir el archivo de los datos en varias partes.
4. Transformar variables.
5. Ordenar casos
6. Agregar nuevos datos y/o variables.
7. Eliminar datos y/o variables.
8. Guardar datos y/o resultados
DNDE REGISTRAR?
La pregunta, es donde se realiza el registro de los datos
En la actualidad, esto es fcil de decidir.
Escoger un paquete estadstico: se ingresa o se registra los datos en
esta base
Cmo hacer?
Debemos reconocer como sern medidos los objetivos, en
consideracin a esto debemos analizar los siguientes aspectos:
1. Tipo de medida: como recopilar los datos
2. Duracin de la medicin: cuanto nos demoramos en una recopilacin
3. Cantidad de mediciones: cuantas veces se repetir el mismo tipo de medida
4. Factibilidad de las mediciones
Estas son las que en la mayora de las ocasiones uno debe tomar en
cuenta para el posterior anlisis
De acuerdo a lo anterior, se encuentran las siguientes posibilidades en
las cuales uno debe encasillar el estudio Es cualitativo o
cuantitativo?
Qu hacer ahora?
En la etapa inicial, hemos reconocido, lo necesario para saber donde
estamos posicionados. Pero ahora Qu se hace?; veamos algunas
posibilidades-
1. Graficar
2. Hacer una agrupacin de los datos
3. Obtener algunas medidas
Graficar
Las tcnicas grficas
ayudan a descubrir los
patrones de
distribucin ocultos en
un conjunto de datos.
Tenemos: barras
simples, agrupadas,
compuesta,
histograma, circular,
rea, lneas o
tendencia, dispersin,
pictograma
AGRUPACION DE DATOS
Otra manera de tener una percepcin acerca de la distribucin de los
datos, es hacer una agrupacin de estos.
Variados diagramas dan una visin de lo que podra estar pasando
con los datos
1. Tablas de frecuencia: se agrupan los datos dependiendo de la cantidad de
veces que se repite dentro de los datos el mismo valor
2. Tablas de frecuencias agrupadas: se pierde informacin al trabajar con
agrupacin de datos
3. Tablas de contingencia (Doble entrada): muestra el comportamiento de los
datos con respecto a las distintas categoras de dos variables relacionadas
ESTADISTICA DESCRIPTIVA
Si el conjunto es una muestra aleatoria de una poblacin y el ultimo
objetivo es hacer inferencia estadstica, las siguiente estadsticas
descriptivas son usadas como base para hacer inferencias acerca de la
poblacin.
La estadstica descriptiva cuantitativa, se puede dividir en tres temas:
1. Medidas de tendencia central
2. Medidas de dispersin
3. Medidas de posicin relativa
ESTADISTICA DESCRIPTIVA
A menudo en el comportamiento de los datos se acumulan alrededor
de un valor central situado entre los dos valores extremos de la
variable en estudio (media, mediana, moda)
Como tambin los datos pueden tender a dispersarse y distribuirse
alrededor del valor en forma tal que esta tendencia puede ser
especificada cuantitativamente (intervalo o rango, varianza,
desviacin estndar).
MEDIDAS DE DISPERSION
INTERVALO O RANGO: se usa poco dado que el valor que arroja es
demasiado amplio. Se calcula a partir de la diferencia entre la
puntuacin mayor y la puntuacin menor; indica el nmero de
unidades en la escala de medida.
VARIANZA: medida muy usada. Representa la distancia de los valores
con respecto a la media, elevado al cuadrado. Se utiliza siempre con
variables de tipo continua.
DESVIACION ESTANDAR: el valor ms importante, es el ms
representativo para indicar la variabilidad con respecto a la media
MEDIDAS DE POSICION RELATIVA
Como hemos visto hasta el momento, encontramos medidas que
generalmente explican el comportamiento de variables de tipo
continua.
Estas medidas ayudan a encontrar una descripcin de la poblacin,
tanto de variables cualitativas como cuantitativas
1. Percentiles
2. Deciles
3. cuartiles
MEDIDAS DE FORMA
Si bien la obtencin de las medidas de tendencia central y las medidas de
variabilidad son claves para describir una muestra y efectuar inferencias
sobre la poblacin de origen, es tambin fundamental saber obtener una
caracterizacin adecuada de los datos.
En la estadstica, siempre se busca que la distribucin de la poblacin sea
NORMAL, o al menos tenga una distribucin conocida.
Por tanto, nos interesa ver cual es la forma que tiene la distribucin de la
poblacin.
Para esto contamos con la grafica y otras estadsticas:
1. Curtosis: es un indicador de la forma de distribucin de la poblacin (plana o
picuda)
2. Asimetra o Skewness: que tanto se aproximan los datos a la distribucin Normal
Simetra
Es fcil tener una idea de si la distribucin es simtrica o no tras ver la
representacin grfica (p.e. un histograma o un diagrama de caja)
Pero es importante cuantificar la posible asimetra de una distribucin.
Recordemos que cuando la distribucin de los datos es simtrica, la media, la
mediana y la moda coinciden. (Y la distribucin tiene la misma forma a la
izquierda y la derecha del centro)

Si la distribucin de frecuencias es unimodal,


entonces Mediana = Moda = Media
Simetra
La simetra determina que la poblacin es homognea en relacin a la
variable de estudio.

Para distribuciones bimodales y rectangulares slo la media y la


mediana son idnticas:

18
Asimetra

Se clasifica como asimtrica la distribucin donde los datos por


debajo de la medias son ms frecuentes que aquellos por encima de
la media, o viceversa. En este caso, establece que la poblacin es
heterognea para la variable en estudio.
1. Distribucin asimtrica a la derecha: los datos por encima de la
media son menos frecuentes
La media tiene el valor ms
grande de las tres medidas de
tendencia central en una
distribucin asimtrica positiva
Asimetra

2. Distribucin asimtrica a la izquierda: los datos por debajo de la


media son menos frecuentes.

La media tiene el valor ms


pequeo de las tres medidas
de tendencia central en una
distribucin asimtrica
negativa
Asimetra positiva Examen difcil
Salarios
Tiempos de Reaccin

Moda Media
Mediana

Examen fcil
Asimetra negativa

Media Moda
Mediana
ndices de asimetra
ndice de asimetra de Pearson
Muy sencillo de calcular. Est basado en la relacin entre la media y la
moda en distribuciones simtricas y asimtricas :
X Mo
As
sx
1. Si la distribucin es simtrica As ser 0
2. Si la distribucin es asimtrica positiva, As ser mayor que 0
3. Si la distribucin es asimtrica negativa, As ser menor que 0
ndices de asimetra
ndice de asimetra de Fisher
Est basado en la diferencia de los datos sobre la media, como la
varianza, si bien esta vez se elevan los coeficientes al cubo
n

i
( X X ) 3
n
As i 1

sx3
1. Si la distribucin es simtrica As ser 0
2. Si la distribucin es asimtrica positiva, As ser mayor que 0
3. Si la distribucin es asimtrica negativa, As ser menor que 0
Desventaja: Muy influida por puntuaciones atpicas.
Curtosis o apuntamiento
Hace referencia al apuntamiento de la distribucin en relacin a un estndar, que es la
distribucin normal.
El coeficiente de curtosis de Fisher de un grupo de datos, x1 ,, xn es una medida del
apuntamiento o agudeza de su polgono de frecuencias. Se define como:

1. Si la curtosis es igual a 0, la distribucin es mesocrtica. Las distribuciones normales son


mesocrticas.
2. Si la curtosis es mayor que 0, la distribucin es leptocrtica. Las leptocrticas son ms
apuntadas que las mesocrticas.
3. Si la curtosis es menor que 0, la curva es platicrtica. Las platicrticas son ms achatadas que
las mesocrticas.
Las distribuciones platicrticas presentan menor concentracin alrededor de la media,
mientras que las leptocrticas presentan mayor concentracin alrededor de la media.
TIPOS DE CURTOSIS
Curtosis o apuntamiento
IMPORTANTE: Curtosis es independiente de la variabilidad (en el sentido de
varianza).

Es decir, no es que una distribucin leptocrtica tenga menos varianza y por eso
es ms apuntada.

Una distribucin leptocrtica es muy apuntada en el centro (ms que la normal),


decae muy rpidamente en un primer momento, pero en los extremos es algo
ms alta que la distribucin normal.

Eso quiere decir que una distribucin leptocrtica es ms probable que ofrezca
ms valores extremos que la distribucin normal.
Ejemplo de curtosis
(Distribucin Mesocrtica)
1200

1000

800

600

400

200 Desv. tp. = 1.01


Media = -.00
0 N = 10000.00
-3 -3 -2 -2 -1 -1 -. -. . .
.7 .2 .7 .2 .7 .2 75 25 25 75 .25 .75 .25 .75 .25 .75 4.25
1 1 2 2 3 3
5 5 5 5 5 5

NORMAL
Ejemplo. Tiempo de atencin
La distribucin que aparece en la Tabla 2.7 corresponde a los tiempos,
en minutos, que utiliza el empleado de una ventanilla de un banco
para atender a 100 personas.
Ejemplo. Tiempo de atencin
El histograma y un cuadro resumen de las principales medidas aparecen a
continuacin.
El coeficiente de variacin (s/x) es igual a 9%, aproximadamente, e indica baja
dispersin.
El coeficiente de simetra de Fisher, cercano al cero, indica una distribucin
simtrica. La distribucin es platicrtica (curtosis = 0.591).
El Grfico de Caja (box plot)
Datos Discordantes
En los grficos de caja se representan la mediana, el primer y tercer
cuartil, lo que permite tener una idea de la distribucin de los datos.
Un grfico de caja es un rectngulo. El lado izquierdo indica el
percentil P25 (primer cuartil) y el lado derecho indica el percentil P75
(tercer cuartil). En el rectngulo se indica la ubicacin de la mediana
Me mediante un segmento.
En un grfico de caja se observa principalmente:
1. La centralizacin
2. La dispersin
3. La simetra de la distribucin
El Grfico de Caja (box plot)
Datos Discordantes
La longitud, d, del largo de la caja 1. Por ejemplo, en el conjunto 6, 66, 70, 68,
corresponde al rango intercuartil. 67 y 69, que corresponde a un grupo de
edades, obviamente, el dato 6 es
A partir de cada uno de los puntos que discordante.
representan a los percentiles 25 y 75 se 2. Para mejor conocimiento de la distribucin
determinan, respectivamente, el punto de los datos, en cada lado de la caja se
extremo izquierdo A = P25 1.5(d) y el grafica un segmento o bigote.
punto extremo derecho B = P75 + 1.5(d). 3. El bigote del extremo izquierdo va del lado
izquierdo de la caja al menor dato que est
Si un dato es menor que A o mayor que B, entre el punto A y el percentil 25. El bigote
se considera que es un dato discordante o del extremo derecho va del lado derecho
atpico (outlier, en el idioma ingls). de la caja al mayor dato que est entre el
percentil 75 y el punto B.
Un dato discordante es un dato que
parece no ir con el resto. Todo dato de
este tipo se representa en el grfico de
cajas con *.
La influencia de un dato discordante en la variabilidad de los datos
puede ser muy importante. En el anterior ejemplo, el rango del
conjunto es 64; sin embargo, si no se considera el dato discordante el
rango es 4.
Ejemplo. Las notas de los alumnos
La Figura 2.11 representa un grfico de caja correspondiente a 58 notas de los alumnos de
un curso de Historia. Observando el grfico de caja se puede indicar que el polgono de
frecuencias es asimtrico con cola a la derecha. Existe mayor variabilidad en el conjunto de
datos que estn por encima de la mediana.

Se observa que:
La mediana de los datos es 9.
El percentil 25 es 8.
El percentil 75 es 12.
El rango intercuartil es 4.
Las notas 19 y 20 son datos
discordantes
Aparicin de Datos Discordantes
En muchos de los anlisis a realizar ser necesario determinar si
cierto valor es realmente un dato discordante.
Un dato discordante generalmente aparece:
a) Por observacin incorrecta, por anotacin incorrecta o por introduccin
incorrecta del dato en el computador.
b) Cuando la observacin es de una poblacin diferente a la poblacin de la
cual viene el resto de las observaciones.
c) Cuando la medida es correcta pero el evento es raro. Por ejemplo, lo que
pag el seguro por la tragedia del 11 de septiembre.
Aparicin de Datos Discordantes
Establecida la existencia de un dato discordante, sigue el problema de qu
hacer con este valor.
Se recomiendan algunas acciones:
a) Removerlo,
b) Transformarlo,
c) Dejarlo tal como est o
d) Realizar el anlisis primero con el dato discordante y luego sin el dato discordante y
comparar los resultados.
Remover el dato discordante significa no considerar toda la informacin,
esconder el problema que podra existir.
Un dato discordante puede ser, por ejemplo, un salario muy alto. Borrar
este dato podra llevar a ignorar, tal vez, la existencia de un presunto
evasor de impuestos.
Aparicin de Datos Discordantes
La transformacin de los datos puede consistir, por ejemplo, en calcular la
raz cuadrada de cada dato. Esta accin jala a los valores y hace que el
dato discordante sea ms consistente con el resto de los datos. El problema
de este remedio es que los datos transformados pueden carecer de
significado.
Dejar el dato discordante tal como est implica reconocer que en el
conjunto de valores pueden aparecer estos datos por azar. Suponiendo que
el diseo para la coleccin de datos est bien hecho, las medidas
calculadas reflejarn lo que realmente sucede en la realidad.
Realizar el anlisis con y sin los datos discordantes para luego comparar los
resultados permite observar el efecto de estos valores y tener una mayor
informacin del problema para tomar decisiones
CORRELACION: Definicin
Se entiende por correlacin el grado de relacin existente entre dos
variables sin ser capaz de inferir relaciones causales.
Concepto:
1. Cuando entre dos variables existe una correlacin total, se cumple que a
cada valor de una, le corresponde un nico valor de la otra (funcin
matemtica).
2. Es frecuente que dos variables estn relacionadas de forma que a cada
valor de una de ellas le correspondan varios valores de la otra.
3. En este caso es interesante investigar el grado de correlacin existente
entre ambas.
DIAGRAMA DE DISPERSION
Definicin
Representacin grfica del grado de relacin entre dos variables cuantitativas.
Caractersticas principales
A continuacin se comentan una serie de caractersticas que ayudan a
comprender la naturaleza de la herramienta.
1. Impacto visual: Un Diagrama de Dispersin muestra la posibilidad de la
existencia de correlacin entre dos variables de un vistazo.
2. Comunicacin: Simplifica el anlisis de situaciones numricas complejas.
3. Gua en la investigacin: El anlisis de datos mediante esta herramienta
proporciona mayor informacin que el simple anlisis matemtico de
correlacin, sugiriendo posibilidades y alternativas de estudio, basadas en
la necesidad de conjugar datos y procesos en su utilizacin.
Diagrama de dispersin de puntos
Dos variables cuantitativas
Una variable es llamada independiente (X) y la otra dependiente (Y)
Los puntos no se unen
No es tabla de frecuencias

Y
* *
*
X
Peso 67 69 85 83 74 81 97 92 114 85
Ejemplo (kg)
TAS 120 125 140 160 130 180 150 140 200 130
SBP
TAS (mmHG)
(mm Hg) (mmHg)

220
200
180
160
140
120
100
80 wt (kg)(Kg)
Peso
60 70 80 90 100 110 120

Dispersin de puntos de peso y presin arterial sistlica


SBP (mm
TAS (mm Hg)
HG)
220

200

180

160

140

120

100

80 Peso
Wt(Kg)
(kg)
60 70 80 90 100 110 120

Diagrama de puntos dispersos de peso y tensin arterial sistlica


Dispersin de puntos
El modelo de los datos es indicativo del tipo de relacin entre las dos
variables:
1. Relacin positiva
2. Relacin negativa
3. No hay relacin

1 2
Sin relacin

Peso (libras)

Tasa de pulso (latidos/minuto)


Coeficiente de correlacin
Estadstico que muestra el grado de relacin entre las dos variables
Coeficiente de correlacin simple (r):
1. Tambin llamado correlacin de Pearson
2. Mide la naturaleza y fuerza entre dos variables cuantitativas.
3. Con respecto a (r):
o El signo de r denota la naturaleza de la asociacin.
o Mientras que el valor de r denota la fuerza de la asociacin.
4. Si el signo es positivo, significa que la relacin es directa (un incremento en una
variable est asociado con el incremento de la otra variable; una disminucin de
una variable est asociado con la disminucin de la otra variable).
5. Si el signo es negativo, significa una relacin inversa o indirecta (significando que
el incremento en una variable est asociado con una disminucin de la otra
variable).
Coeficiente de correlacin
El valor de r est entre ( -1) y ( +1)
El valor de r denota la fuerza de la asociacin como se ilustra en el
siguiente diagrama.
fuerte intermedio dbil dbil intermedio fuerte

-1 -0.75 -0.25 0 0.25 0.75 1


indirecta Directa
Correlacin correlacin
perfecta perfecta
sin relacin
Cmo calcular el coeficiente de correlacin
simple (r)?
Ejemplo:
Una muestra de 6 nios fue seleccionada, datos de su edad en aos y
peso en kilogramos fue registrada como se muestra en la siguiente
tabla. Se requiere encontrar la correlacin entre edad y peso.
N
serial
Edad
(aos)
Peso
(Kg)
xy x y
1 7 12 r n
2 6 8
x
2
( x) 2

. y
2
( y) 2


3 8 12 n n
4 5 10
5 6 11
6 9 13
Las dos variables son de tipo cuantitativo, una variable (edad) es llamada independiente y la otra (peso) es
llamada dependiente y con notacin de variable Y, para encontrar la relacin entre edad y peso, calcule el
coeficiente de correlacin simple, usando la siguiente frmula:

Edad Peso
xy n
x y
N
(aos) (Kg) xy X2 Y2 r
Serial ( x)
. y
2 2

(x) (y) x2



2
( y)


n n
1 7 12 84 49 144
2 6 8 48 36 64 41 66
461
3 8 12 96 64 144 r 6
(41) 2 (66) 2
4 5 10 50 25 100 291 .742
6 6
5 6 11 66 36 121
6 9 13 117 81 169 r = 0.759
Total x= y= xy= x2= y2= Fuerte correlacin directa
41 66 461 291 742
Anlisis de regresin
Regresin: tcnica enfocada a la prediccin de algunas variables
conociendo a otras.
El proceso de predecir la variable Y usando la variable X. Usa la variable (x)
para predecir el valor de la variable resultado (y)
Nos dice cuanto es el valor de cambio de y en funcin del cambio en los
valores de x.
Correlacin describe la fuerza de una relacin lineal entre dos variables
Lineal significa lnea recta
Regresin nos dice como trazar la lnea recta descrita en la correlacin.
Ecuacin de regresin
La ecuacin de regresin describe la SBP(mm
TAS (mmHg)
220
Hg)

lnea de regresin matemticamente 200

Interseccin 180

160

Pendiente 140

120

100
Peso
80
Wt(Kg)
(kg)
60 70 80 90 100 110 120
Horas estudiando y calificaciones
Regresin de calificaciones sobre horas de
estudio

Regresin lineal
Linear Regression

curso
Calificacin final en el curso= 59.95 + 3.17 * horas de estudio

90.00 Final grade in course = 59.95 + 3.17 * study
R2=0.88
R-Square = 0.88

en else
in cour


Final gradefinal

80.00
Calificacin

70.00

2.00 4.00 6.00 8.00 10.00

Number
Nmero of hours
de horas spent
empleadas studying
en estudio

Calificacin final predicha en clase = 59.95 + 3.17*(nmero de horas de estudio por semana)
Prediga la calificacin final de

Alguien quien estudia 12 horas


Calificacin final = 59.95 + (3.17*12)
Calificacin final = 97.99

Alguien quien estudia 1 hora:


Calificacin final = 59.95 + (3.17*1)
Calificacin final = 63.12
Ejemplo:
Una muestra de 6 personas fue seleccionada el valor de su edad
(variable x) y su peso, mostrados en la siguiente tabla. Encuentre la
ecuacin de regresin y que se predice del peso cuando la edad es
8.5 aos.
Respuesta: 41 66
x 6.83 y 11
Nmero Edad (x) Peso (y) xy X2 Y2 6 6
serial
41 66
1 7 12 84 49 144 461
2 6 8 48 36 64
b 6 0.92
3 8 12 96 64 144 (41) 2
4 5 10 50 25 100 291
5 6 11 66 36 121 6
6 9 13 117 81 169

Total 41 66 461 291 742


Ecuacin de regresin:
y (8.5) 4.675 0.92 * 8.5 12.50Kg
y (x) 11 0.9(x 6.83)
y (7.5) 4.675 0.92 * 7.5 11.58Kg
y (x) 4.675 0.92x
12.6

Kg)
12.4

Kg)
12.2

Peso (en(in
12

Weight
11.8
11.6
11.4
7 7.5 8 8.5 9
Age(en
Edad (inaos)
years)

Creamos una lnea de regresin trazando dos valores estimados para y contra
su componente de x, y luego extendiendo la lnea a la derecha y a la izquierda.
Edad PA Edad PA
(x) (y) (x) (y)
Ejercicio 20 120 46 128
Los siguientes son las edades en 43 128 53 136
aos y la presin arterial (PA) de 20 63 141 60 146
adultos aparentemente sanos.
26 126 20 124
Encuentre la correlacin entre edad
y presin arterial usando el 53 134 63 143
coeficiente de correlacin de 31 128 43 130
Spearman y comente. 58 136 26 124
Encuentre la ecuacin de regresin 46 132 19 121
Cual es la presin arterial 58 140 31 126
predecible para un hombre de 25 70 144 23 123
aos?
Serial x y xy x2 Serial x y xy x2
1 20 120 2400 400 11 46 128 5888 2116
2 43 128 5504 1849 12 53 136 7208 2809
3 63 141 8883 3969 13 60 146 8760 3600
4 26 126 3276 676 14 20 124 2480 400
5 53 134 7102 2809 15 63 143 9009 3969
6 31 128 3968 961 16 43 130 5590 1849
7 58 136 7888 3364 17 26 124 3224 676
8 46 132 6072 2116 18 19 121 2299 361
9 58 140 8120 3364 19 31 126 3906 961
10 70 144 10080 4900 20 23 123 2829 529
Total 852 2630 114486 41678
x y
xy
n 114486
852 2630
b1 = 20 0.4547
( x) 2
852 2

x n
2 41678
20

y =112.13 + 0.4547 x

para edad 25
Presin arterial = 112.13 + 0.4547 * 25=123.49 = 123.5 mm hg
Regresin mltiple

Anlisis de regresin mltiple es una extensin del anlisis simple de


regresin permitiendo ms de una variable independiente.
anlisis previo y exploratorio

Univariable Bivariado Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y


grficos de barras
a) Variable Cualitativa b) Una Variable Cuantitativa y otra Cualitativa: Explorar
b) Variable Cuantitativa c) Dos Variables Cuantitativa: correlaciones bivariadas,
grficos de dispersin

Anda mungkin juga menyukai