Anda di halaman 1dari 39

ESTADÍSTICA

CÁTEDRA I

 UNIDAD 3
UNIDAD 3
Resúmenes estadísticos

Contenidos:

 Medidas de tendencia central: media, mediana, moda.


 Desviación de una observación respecto de la media.
 Medidas de dispersión: entropía, varianza, desvío
estándar. Coeficiente de variación.
Medidas de Tendencia Central

Las medidas de tendencia central “representan” a la totalidad


de las observaciones.

Moda

Mediana

Media
Moda: es el valor de la variable con mayor frecuencia.
Condiciones de Aplicabilidad: desde el nivel nominal

Ejemplo:
Hallar la moda de la distribución de frecuencias del Estado civil de los individuos
de la Base Psicología y Humor recogidos 1c2012.

La moda representa X f
el valor de la variable
más probable para Soltero 246
una extracción hecha
Casado/Unido de hecho 196
al azar.
Separado/Divorciado 29
Viudo 9

n = 480
El valor de la variable de mayor frecuencia es la categoría ‘Soltero’.
Abreviadamente Mo=‘Soltero’

Nota. No confundir la moda con la mayor frecuencia que es 246. La mayor frecuencia es la
que corresponde a la moda que es ‘Soltero’.
Otros ejemplos para muestras con datos ficticios.

Muestra 1 Muestra 2

X f f

Soltero 200 120


Casado/Unido de hecho 200 120
Separado/Divorciado 60 120
Viudo 20 120

n = 480 n=480
Mo1=‘Soltero’
Mo2= ‘ Casado/Unido de hecho’
No hay moda
Una distribución de frecuencias puede ser:
 Amodal
 Unimodal
 Bimodal
 o con más modas.

Cuando la variable es cuantitativa y los valores con mayor frecuencia son adyacentes,
se toma como moda al promedio de tales valores.
Mediana: es quien ocupa una posición central determinando dos
subconjuntos de valores de la variable:

 el de los valores menores que ella (B, valores Bajos) y


 el de los valores que son mayores (A, valores Altos),
cada uno con una frecuencia que no supera a la mitad del tamaño
de muestra.

Condiciones de Aplicabilidad: Desde el nivel ordinal, donde puede no existir.

[Ver ficha de Mediana y Cuartiles en el Módulo Bibliográfico 3. La definición


de Mediana que figura en el Capítulo 4 de Glass y Stanley (1968)vale
únicamente para variables cuantitativas continuas]
Ejemplos:
1.- A continuación figura la distribución de frecuencias del Grado de
Acuerdo de un alumno ante la declaración de “UBA libre de humo” en la
Facultad A, en la Facultad B, en la Facultad C y en la Facultad D. Indicar,
en los casos que sea posible, la moda y la mediana de cada conjunto de
datos.
Facultad A Facultad B Facultad C Facultad D
x f% f% f% f%
Muy en Desacuerdo 2 5 15 20
Desacuerdo 3 10 15 20
Indiferente 40 30 20 20
Acuerdo 25 30 35 20
Muy de Acuerdo 30 25 15 20

Mo1=‘Indiferente’
Mo=‘Indiferente’
Mo2=‘Acuerdo’
Mo=‘Acuerdo’ No hay Moda

Mdn=‘Acuerdo’ Mdn=‘Acuerdo’ No hay Mediana Mdn=‘Indiferente’


2.- A continuación se presenta la distribución de frecuencias de la
Cantidad de materias que cursa un alumno de Estadística Cátedra I,
UBA, de la Teórica II (datos reales del 1er cuatrimestre de 2015), de la
Teórica III, de la Teórica IV y de la Teórica V. Indicar la moda y la
mediana en cada conjunto de datos.

Teórica II Teórica III* Teórica IV* Teórica V**


x f f f f
2
1 5 5 5
2 22 35 15 40
3 70 30 35 15
4 11 10 35 40
n=105 n=80 n=90 n=100
Mo1=2
Mo2=4
Mo=3 Mo=2 Mo=3,5

Mdn=3 Mdn=2,5 Mdn=3 Mdn=3


(*) datos ficticios
(**) teórica inexistente
Dadas las puntuaciones en Agotamiento Emocional de cinco enfermeros del
Hospital A, hallar la moda y la mediana:

X: 21, 24, 25, 29, 30

No hay moda

Mdn= 25
En conjuntos de datos más numerosos pueden encontrarse los cuartiles

 Los cuartiles dividen el recorrido de la variable en cuatro


subconjuntos (intercuartiles) tales que la frecuencia de cada uno no
supera a la cuarta parte del tamaño de muestra.
 Los cuartiles son tres: q1, q2 y q3.
 El segundo cuartil coincide con la mediana: q2 =Mdn
 Nota. En diapositiva 12 mostraremos ejemplo

Los cuartiles son medidas de posición.


En la práctica psicológica también es frecuente recurrir al uso de
 quintiles,
 deciles, y
 centiles.
Media Aritmética: es la suma de todas las observaciones dividida por
el total de ellas.

Condiciones de Aplicabilidad: para variables cuantitativas

o bien

En el ejemplo anterior del Agotamiento Emocional de cinco enfermeros,

X: 21, 24, 25, 29, 30  x  129 y n=5

129
Luego: X X  25,8
5
Veamos como obtener las medidas de tendencia central de una variable
cuantitativa a partir de la distribución de frecuencias con calculadora o
Excel

Ejemplo
Sea la distribución del Agotamiento Emocional de los 35 enfermeros de Terapia
Intensiva del Hospital A presentada en la clase anterior:

x f x*f
n=35 n/2=17,5 x f fa ga
20 1 20
20 1 1 35
21 1 21 21 1 2 34
22 1 22 22 1 3 33
Valores Bajos
23 3 69 23 3 6 32
24 4 96 24 4 10 29
25 4 100 25 4 14 25
26 7 182 Mdn= 26 7 21 21
27 4 108 27 4 25 14
28 2 56 28 2 27 10
29 4 116 Valores Altos 29 4 31 8
30 3 90 30 3 34 4
31 1 31 31 1 35 1
35 911
Valores Bajos: B = {20,21,22,23,24,25} con fB = 14 ≤ 17,5 = n/2
Media= 911/35
Valores Altos: A = {27,28,29,30,31} con fA= 14 ≤ 17,5 = n/2
Media= 26,029
Luego la mediana es: Mdn=26
Cálculo del primer cuartil (q1) y del tercer cuartil (q3)

n=35 n/4 = 8,75 y 3n/4 = 26,25

x f fa ga
x f fa ga
20 1 1 35
20 1 1 35
Primer intercuartil (Q1)l 21 1 2 34
21 1 2 34
22 1 3 33
22 1 3 33
23 3 6 32
23 3 6 32
24 4 10 29
q1= 24 4 10 29
25 4 14 25
25 4 14 25
26 7 21 21
26 7 21 21
27 4 25 14
27 4 25 14
q3= 28 2 27 10
28 2 27 10
29 4 31 8
29 4 31 8
Cuarto intercuartil(Q4) 30 3 34 4
30 3 34 4
31 1 35 1
31 1 35 1

Valores Bajos: B = {20,21,22,23} Valores Bajos: B = {20,21,22,23,24,25,26,27}

con fB = 6 ≤ 8,75 = n/4 con fB = 25 ≤ 26,25 = 3n/4

Valores Altos: A = {25,26,27,28,29,30,31} Valores Altos: A = {29,30,31}

con fA= 25 ≤ 26,25 = 3n/4 con fA= 8 ≤ 8,75 = n/4

Luego el primer cuartil es: q1=24 Luego el tercer cuartil es: q3=28
Obtención de las Medidas de Tendencia Central en Statistix
Dadas las observaciones de una variable,
además de la media (Mean) y la mediana (Median),
con Statistix también se pueden obtener:

 el tamaño de muestra (N),


 la suma de los valores de la variable (Sum),
 el valor mínimo y el máximo, y
 los cuartiles primero y tercero (Quartiles)
Recordar que la moda se visualiza en la correspondiente
distribución de frecuencias.
xA * nA  xB * nB
XCOMBINADA 
nA  nB
Ejemplo:
Sean dos comisiones, A y B, de la cátedra I de Estadística, la primera con
20 alumnos y la segunda con 30 alumnos. Se sabe que el promedio de las
notas del primer parcial en dichas comisiones fue 7 y 8, respectivamente.
¿Cuál es la media en el primer parcial de tales alumnos si hubiera que
juntar a las dos comisiones?

7 * 20  8 * 30 140  240 380


XCOMBINADA     7,60
20  30 50 50
Usos de la media

El conocimiento de la media de una muestra permite:

 Situar una observación dentro de la distribución, pudiendo indicar si está


por arriba o por debajo de la media.

 Comparar grupos en cuanto a una misma variable de interés, comparando


las respectivas medias.

 Analizar la importancia relativa de las fuentes sistemáticas de variación, a


través de la comparación de las medias correspondientes a las distintas
categorías de la variable que se considera como tal.

 Estimar la media de la población. La media de una muestra es una


estimación de la media poblacional.
Propiedades de la media:

1) La media es sensible a las puntuaciones. En su cálculo intervienen


todas las puntuaciones. La modificación de cualquier valor modifica la
media.

Dados los valores 2, 3, 5 y 70, la media es 20. Ésta no representa adecuadamente a tal conjunto.
La medida adecuada en este caso es la mediana, que es 4. Este valor representa adecuadamente
a tres de las cuatro puntuaciones.

Comentario: La mediana es sensible sólo a la modificación de la/s puntuación/es


central/es.

Consecuencia: la media no es recomendable cuando hay valores en uno de los


extremos que no están compensados. En esos casos se prefiere la mediana

2) La media es estable porque cambia poco de muestra en muestra. Por


esta razón tiene propiedades importantes en la estadística inferencial.
3) La suma de los desvíos entre cada valor y la media es cero.

En símbolos:  x  x   0 o bien  x  x * f  0
Ejemplo.

Dados los puntajes 5, 8, 8 la media es x=7


Efectivamente, (5-7) + (8-7) + (8-7) = (-2) + (1) + (1) = 0
Consecuencia: la media es como un “centro de gravedad” de la distribución. Si
representáramos a los valores de la variable sobre una barra rígida con un peso sobre
ellos igual a su frecuencia, la media resulta ubicada en el “centro de gravedad” de la
dicha barra.

-|------|------|-------|-
5 8

x 7
Comentario para datos agrupados en intervalos

 La media se calcula en base al punto medio del intervalo, al que se

llama marca de clase y se toma como representante del intervalo.

 El intervalo con mayor frecuencia es el intervalo modal, y

 El intervalo donde está la mediana, se encuentra de manera

análoga a la vista para datos sin agrupar.


MEDIDAS DE DISPERSIÓN
 Varianza
 Desvío Estándar Para variables cuantitativas
 Coeficiente de Variación
 Entropía Para variables cualitativas

Medidas de Dispersión
Una propiedad de los conjuntos de datos es el grado en que éstos
se parecen o se diferencian entre sí. Esta propiedad se denomina
variabilidad o dispersión.

Para las variables cuantitativas el concepto de dispersión está


asociado al alejamiento de los datos a la media.

Para las variables cualitativas el concepto de dispersión es el


contrario de concentración.
Consideremos el puntaje en Agotamiento Emocional de cinco
enfermeros del Hospital A y cinco enfermeros del Hospital B :

 En la muestra A las puntuaciones en Agotamiento Emocional están


menos dispersas que en la muestra B.
Definimos suma de cuadrados (SC) como la suma de los cuadrados de
los desvíos a la media.
En símbolos:

o bien:

Ejemplo
Cálculo de SC para los datos de Agotamiento Emocional de las muestras A
yB

Muestra A X 21 24 25 29 30
-4,8 -1,8 -0,8 3,2 4,2
23,04 3,24 0,64 10,24 17,64 SC=54,8

Muestra B X 1 24 25 29 50
-24,8 -1,8 -0,8 3,2 24,2
615,04 3,24 0,64 10,24 585,64 SC=1214,8
Cálculo de la Suma de Cuadrados para datos presentados en tabla de
frecuencias

Sea la distribución del Agotamiento Emocional de los 35 enfermeros de Terapia


Intensiva del Hospital A:

Definición o bien Fórmula Computatoria

x f x*f
x f x*f
20 1 20
36,3488 20 1 20 400
21 1 21
25,2908 21 1 21 441
22 1 22 16,2328 22 1 22 484
23 3 69 27,5245 23 3 69 1587
24 4 96 16,4674 24 4 96 2304
25 4 100 4,2354 25 4 100 2500
26 7 182 0,0059 26 7 182 4732
27 4 108 3,7714 27 4 108 2916
28 2 56 7,7697 28 2 56 1568
29 4 116 35,3074 29 4 116 3364
30 3 90 47,3065 30 3 90 2700
31 1 31 24,7108 31 1 31 961
35 911 244,9714 35 911 23957

26,029 SC=244,9714 SC=23957 – 9112/35 SC=244,9714


Comentarios sobre la suma de cuadrados:

1) Es una cantidad no negativa. Si vale cero significa que todos los


valores son iguales, o sea señala ausencia de variabilidad.

2) Indica la variabilidad de los valores respecto de la media, pero


depende del número de observaciones, por lo que no se considera
una medida de la dispersión. Esto es, la suma de cuadrados
puede ser grande porque hay muchas observaciones y no porque
haya gran variabilidad.
Varianza es la suma de cuadrados dividida por (n-1), donde n es el
tamaño de muestra.

La simbolizamos con s2 . Luego la varianza de una variable X es:

SC
s2 
n 1
Nota. Otros autores definen a ésta como cuasi-varianza y como varianza a
la suma de cuadrados dividida por n. Ambos estadísticos son estimadores
de la varianza poblacional. Pero preferimos la definición dada por las
propiedades que lo caracterizan como estimador.

Ejemplos para el Agotamiento Emocional


Comentarios sobre la varianza:

1) Es una cantidad no negativa, es decir s2 ≥ 0. Es nula cuando no existe


variabilidad.

2) Indica la dispersión de los valores respecto de la media pues incluye al


tamaño de muestra en su cálculo. Pero como está indicada en las unidades de
la variable al cuadrado no es posible realizar comparaciones con otros
resúmenes estadísticos, en particular con la media.

Nota. En la muestra B la mayor distancia de las puntuaciones a la media es


24,8 y la varianza es 303,7. Es decir la varianza no refleja al promedio de las
distancias a la media.

Por eso se define:


Desvío estándar es la raíz cuadrada de la varianza.

En símbolos: s = var ianza

Ejemplos para el Agotamiento Emocional:

Comentarios sobre el desvío estándar:

1) Es una cantidad no negativa, es decir s ≥ 0.

2) Indica la dispersión de los valores respecto de la media. Se expresa en las


unidades de la variable lo que permite posicionar a cada observación en
unidades de desvío estándar por arriba o por debajo de la media.

3) Da cuenta del promedio de las distancias a la media.


IMPORTANTE:

 El desvío estándar tiene uso limitado para comparar la variabilidad


de dos grupos.
Solo es admisible cuando las medias son iguales, caso de baja
ocurrencia en la práctica.

 La relación entre el desvío estándar y la media solo se conserva


en el nivel de cocientes o razones.
Cuando las variables son de distinta naturaleza, o bien las medias

son diferentes, puede concluirse sobre la variabilidad presente en

los datos según el coeficiente de variación, si tales variables

están medidas en una escala de cocientes o razón.

Condiciones de Aplicabilidad: para variables medidas con una escala


de cocientes o razones.
Descriptive Statistics

Variable Mean SD Variance C.V.

Serie1 19.750 3.9587 15.671 20.044

Serie2 40.950 7.5287 56.682 18.385


Comentarios sobre el coeficiente de variación

1) Es un valor abstracto, es decir, sin unidades.

2) Indica la dispersión relativa a la media del grupo. Cuando se

compara la variabilidad de dos o más grupos de observaciones,

puede afirmarse que el grupo con menor CV es quien presenta

observaciones más parecidas a su media y por tanto, el grupo es

más homogéneo en cuanto a la variable en cuestión.

3) Puede considerarse como una medida de representatividad de la

media. La media es más representativa cuando las observaciones

son más parecidas entre sí, esto es, cuando el CV es menor.


A continuación se presenta la distribución de frecuencias relativas para la Actividad
Profesional Futura mencionada por ingresantes de la Facultad de Psicología de la
Universidad A y de la Universidad B. Las respuestas fueron categorizadas en Práctica
Clínica, Otra Área y No sabe.

Actividad Frecuencia Relativa Frecuencia Relativa


Profesional para Ingresante para Ingresante
Futura a Fac. Psicología a Fac. Psicología
mencionada Universidad A Universidad B

Práctica Clínica 0,30 0,225

Otra Área 0,25 0,150

No sabe 0,45 0,625

Elegidos al azar un ingresante de la Fac. de Psicología en cada Universidad:

¿Qué Actividad Profesional Futura mencionada le asignaría a cada uno? Justifique su


respuesta.
¿En qué caso tiene menos incertidumbre para la asignación realizada? Justifique su
respuesta.
Concepto de Entropía

 Dadas dos distribuciones de frecuencias se admite que la


dispersión es mayor cuanto mayor es el número de clases, o bien
con mismo número de clases cuando las observaciones se
reparten por igual entre las clases en lugar de concentrarse en
alguna/s de ellas.

 Cuando hay mayor dispersión se dice que hay mayor entropía. En


este caso hay mayor incertidumbre sobre la clase a la que
pertenece una extracción hecha al azar.

 La entropía informa sobre la incertidumbre acerca de la clase a la


que pertenece una extracción hecha al azar y se calcula mediante
la siguiente expresión:

H=- fr*log10(fr)
Distribución con
máxima entropía
para variable con tres
categorías

Frecuencia Frecuencia Frecuencia


Actividad Profesional Relativa Relativa Relativa
Futura Ingresantes Ingresantes Distribución
Psico Psico Uniforme
Univ. A -fr*log10(fr) Univ. B -fr*log10(fr) -fr*log10(fr)

Práctica Clínica 0,30 0,1569 0,225 0,1458 0,33 0,1590

Otra Área 0,25 0,1505 0,150 0,1236 0,33 0,1590

No sabe 0,45 0,1561 0,625 0,1276 0,33 0,1590

H= 0,4634 H= 0,3969 H= 0,4771

La distribución de la Actividad Profesional Futura de


los ingresantes a la Facultad de Psicología presenta
mayor entropía en la Universidad A que en la
Universidad B.
Tareas:
Para Medidas de Tendencia Central:

 Leer Módulo Bibliográfico 3 (capítulo 4 de Glass y Stanley


(1968) y Ficha de Mediana y Cuartiles).

 Responder Ejercicios Teóricos de Práctica 3 (Ejs. 15, 16, 19 y


20).

Para Medidas de Variabilidad:

 Completar lectura de Módulo 3 y responder el resto de los


Ejercicios teóricos de Práctica 3.

 Próxima clase Repaso, y Consultas, de las Unidades 1, 2 y 3.

Anda mungkin juga menyukai