Anda di halaman 1dari 20

Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

1. INTRODUCCIÓN A LA ESTADÍSTICA DESCRPTIVA

Estas notas cubren los métodos básicos de la estadística descriptiva, inferencial y

el análisis Estadístico de decisión que regularmente son incluidos en cursos

introductorios e intermedios sobre estadística para ingenieros, economistas o

Administradores. El propósito de estas notas es el de presentar los conceptos y métodos

en forma clara y concisa sobre el análisis estadístico.

A lo largo del curso se presentará la teoría necesaria complementada con

ejercicios de aplicación para cada caso, se pensó inicialmente que el principal interés de

los aprendices es la aplicación de las técnicas estadísticas; las demostraciones

matemáticas han sido omitidas con el fin de facilitar y dar cumplimiento al extenso

programa que se debe cubrir durante el semestre. Estas notas son de gran apoyo para

signaturas de semestres posteriores y para la vida práctica como futuros profesionales.

1.1. DEFINICIONES DE ESTADÍSTICA

1.1.1 Definición uno. La Estadística es la “Ciencia” de los datos; implica la colección,

clasificación, síntesis, organización, análisis e interpretación de los datos. 1

1.1.2 Definición dos. La rama de la estadística que se dedica a la organización,

síntesis y descripción de conjuntos de datos es la Estadística Descriptiva. 2

1.1.3 Población. Es un conjunto de datos (medidos a personas, animales o cosas),

objeto de nuestro interés. Cuando se tiene en cuenta toda la población en el estudio, se

está censando.

1.1.4 Muestra. Es un subconjunto de datos seleccionados de la población. Podemos

inferir a partir de la muestra para toda la población, lo importante es que la

muestra elegida haya sido seleccionada apropiadamente (obedeciendo a las

técnicas de muestreo).

1
Mendenhall William, Sinchich Terry. Probabilida y Estadística para ingenierías y Ciencias.
Cuarta edición. Prentice Hall.
2
Ibídem pag. 2

1
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
1.2 ESTUDIO DE LAS VARIABLES

Para comprender mejor la clasificación y diferenciación de los diferentes tipos de


variables veamos el siguiente archivo de clase con el cual empezaremos a realizar el
análisis y clasificación, basándonos en un ejercicio sencillo.

Archivo # 1. Se entrevistaron 45 personas (n= 45)


Ind. Edad Sexo Ecivil Guscar Gusmu hermanos Peso En el archivo hay 7
1 1 1 1 2 1 2 45 variables:
2 2 2 2 1 2 3 46
3 4 1 1 4 3 4 47 Edad
4 3 2 4 2 2 1 48 categorizada:
5 2 1 2 3 1 2 49 1. Entre 17 y 20
6 1 1 3 4 2 3 50 años
7 2 2 2 2 3 1 51 2. Entre 21 y 25
8 1 2 1 3 3 4 52 años.
9 2 1 2 1 2 1 53 3. Entre 26 y 30
años
10 1 2 3 4 1 2 54
4. Entre 31 y 40
11 3 1 2 4 1 1 55
años
12 4 2 1 1 1 4 55
13 4 1 4 2 2 1 56 Sexo:
14 3 1 2 3 3 2 57 1. Masculino
15 2 2 3 2 2 0 58 2. Femenino
16 1 2 2 4 1 2 59
17 2 1 1 1 2 1 60 Ecivil: Estado
18 3 1 2 2 3 4 61 civil:
19 4 2 3 3 2 1 62 1. Soltero
20 2 1 2 2 1 2 63 2. Casado
21 1 2 1 4 2 3 64 3. Unión libre.
22 2 1 2 2 3 0 65 4. Otro
23 3 2 1 3 2 1 66
24 4 1 2 2 1 2 67 Guscar: Gustos
25 2 2 3 4 2 3 68 por una carne:
26 3 1 2 1 3 1 69 1. Lomo de res
27 1 2 3 2 2 0 70 2. Mojarra frita
28 4 1 2 3 2 1 71 3. Lomo de cerdo
4. Pollo con
29 2 2 1 1 3 2 72
champiñón.
30 3 1 2 4 3 3 73
31 2 2 4 2 1 2 74
Gusmu: Gustos
32 1 1 1 3 1 1 75 por 1 determinada
33 4 2 2 2 2 4 76 música:
34 3 1 3 1 3 1 77 1. Bailable.
35 2 2 2 2 1 2 78 2. Romántica.
36 1 1 4 3 2 3 79 3. Clásica.
37 2 2 2 4 3 2 80
38 3 1 2 1 1 1 81 Número de
39 1 1 1 2 2 4 82 hermanos
40 2 2 3 3 2 1 83
41 4 1 4 4 3 0 84 Peso en
42 2 2 2 1 2 0 85 Kilogramos de las
43 3 1 1 2 2 2 86 45 personas.
44 1 1 3 3 3 1 88
45 4 2 1 2 2 2 90

2
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Del anterior archivo nos pudimos dar cuenta que las primeras 5 variables son categóricas

(o nominales), cada una de ellas con diferente número de categorías. Estas categorías,

aunque pudieron escribirse en forma alfabética, lo ideal es numéricamente, porque la

mayoría de programas estadísticos sólo comprenden códigos numéricos. La primera

variable (la edad), aunque inicialmente era una variable numérica, se puede categorizar

tal como aparece en el archivo. La variable 6 es numérica discreta.

1.2.1 Las variables categóricas, nos permiten elegir una de las categorías

propuestas (estas encasillan la decisión y no permiten dar una opinión libre), por esta

razón son muy sencillas de analizar y básicamente lo que se hace con ellas es: Tablas

de frecuencias, diagramas de (barras, de torta y de anillo), cruce de variables y

conclusiones. (los cruces de variables se verán, cuando estemos en distribuciones

continuas, específicamente la Ji cuadrado de independencia.

Ejercicio de clase. Teniendo en cuenta la variable Sexo, realizar: Tabla de frecuencias,

diagrama de barras, diagrama de torta, diagrama de círculo y concluir. (En la clase debe

mostrarse el proceso a mano y no es necesario elaborar el diagrama de anillo).

Solución:

1) Tabla de frecuencias: Sexo

Categorías ni Ni hi Hi
1.Masculino 24 24 0.53 0.53
2. Femenino 21 45 0.47 1
Totales 45 1

2) Diagrama de barras: Sexo

Diagrama de Barras: Sexo

26
Frecuencia
absoluta

24
22 Serie1
20
18
1.Masculino 2. Femenino
Categorías

3) Diagrama de Torta: Sexo

3
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

Diagrama de Torta: Sexo

47% 1.Masculino
53% 2. Femenino

4) Diagrama de anillo: Sexo

Diagrama de anillo: Sexo

47% 1.Masculino
53%
2. Femenino

Conclusiones. Se entrevistaron 45 personas de las cuales 24 son hombres (la mayoría)


y representan el 53 % de los datos; hay 21 mujeres que representan el 47 %.

Tarea: Realizar tablas de frecuencias, diagramas de barras, diagramas de torta,

diagramas de anillo y conclusiones para las variables: Teniendo en cuenta las variables

categóricas (excepto sexo, en Excel). Puede realizar un tipo de gráfica para cada

variable (sólo una), la idea es ir variando los tipos de gráficas. Se tendrá en cuenta la

presentación, centrado de gráficas y tablas, aprovechamiento de las hojas al máximo

(ser ecológicos, es decir no gastar tantas hojas), utilización de efectos especiales (fondo

de colores, etc). Esta tarea debe ser presentada en la carpeta de trabajo.

1.2.2 Las variables numéricas. Se dividen en dos grupos.

1.2.2.1 Variables numéricas continuas. Entre estas se encuentran la edad y el peso.

Si los datos de la variable numérica presentan poca frecuencia de aparición, es decir los

datos casi no se repiten, tal como sucede con la variable peso del archivo 1 de clase.

Con este tipo de variable, en caso de querer representar los datos a través de un

4
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
diagrama de barras, no resultaría un grafico muy apropiado, porque no deja ver alguna

forma especial, además el número de barras se pasa de 22 y en Estadística solo se

permiten gráficas con mínimo 2 barras (por ejemplo, para la variable sexo que tiene dos

categorías) y máximo 22. Por esta razón se hace conveniente establecer grupos o clases

para que se genere una grafica que si permita ver la descripción de los datos a través de

un histograma de barras. Hay que recordar que en Estadística se pretende observar la

forma que describen un grupo de datos, para encontrarle alguna similitud con un tipo de

distribución en especial (la normal, la Ji cuadrada, una exponencial etc-temas que

veremos en detalle en lecciones posteriores).

Histograma de barras.

Un histograma es un gráfico de barras de una distribución de frecuencia. En el eje X


tenemos normalmente el intervalo de clases y en la Y el número de observaciones.

schuldt Jurgen E. Schuldt 1998 – Luxembourg. Sacado de Internet.

El histograma de frecuencias, consiste en un conjunto de rectángulos con:


a. Clases en el eje horizontal (Eje X), centros en las marcas de clase y longitudes iguales
a los tamaños de los intervalos de clase.

b. Áreas proporcionales a las frecuencias de clase.

Si los intervalos de clase tienen toda la misma anchura, las alturas de los rectángulos
son proporcionales a las frecuencias de clase (frecuencias absolutas), y entonces es
costumbre tomar las alturas iguales a las frecuencias de clase o frecuencias absolutas.

Procedimiento:

1. Se debe hallar en primera instancia el rango de la variable. Es decir, la diferencia


entre el valor máximo y el valor mínimo (Cuartil 4 menos cuartil 0).

2. Luego se escoge el número de clases, hay varias formas de hacerlo, pero se


prefiere que sea libremente, es decir a gusto del investigador.
Algunas otras formas de escoger el número de clases son:
 n . Hoy en día este procedimiento no es muy utilizado por que no es
conveniente cuando el tamaño de la muestra es muy grande.

Ejemplo: si n = 1.000 entonces 1.000 = 31.6. Entonces excede el número de barras


permitido.

5
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
 Regla de Surges: 1 + 3.3Log N.
3. Se realiza la tabla de frecuencias para el número de clases deseada. Si
escogimos 5 clases, entonces obtendremos un histograma con 5 barras.

La tabla tendría el siguiente encabezado:

Clases Marcas de Clase ni Ni hi Hi

4. Después de tener la tabla, se procede a realizar el histograma de barras.

5. Finalmente, las marcas de clase, se deben proyectar en la parte superior de


cada barra y deben realizarse dos marcas de clase más; una al comienzo
(restando el ancho de clase a la primera marca de clase) y otra al final (sumando
el anchote clase a la última marca de clase), estas dos últimas marcas de clase
se ubican en el eje X, para finalmente unir todos los puntos y lograr así el
polígono de frecuencias. Que describirá mejor el comportamiento teórico de los
datos.

Una aplicación importante de los histogramas de barras es en control de calidad temas

que profundizarán en semestres posteriores, pero les detallamos a continuación algunas

gráficas, que son considerados además de los histogramas. (Las 7 herramientas del

control de calidad, definidas por Deming).

El Diagrama de Causa y Efecto Los Histogramas

El Diagrama de Flujo El Diagrama de Dispersión

El Diagrama de Pareto Los Cuadros

Los Gráficos de Tendencias

6
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Tarea. Teniendo en cuenta la variable peso del archivo de clase (para 5 clases), realizar:

Tabla de frecuencias para datos agrupados, histograma de barras con su

correspondiente polígono de frecuencias (Elaborado en Excel). Presentar esta tarea en

la carpeta.

Nota. La entrega de tareas es individual. Debe entregarse en la fecha acordada en clase.

1.2.2.2 Variables numéricas discretas. Como el número de hermanos, el número de

televisores que tenemos en la casa, el número de libros de nuestra biblioteca etc.

Cuando las variables numéricas presentan poca frecuencia de aparición en sus datos, se

hace necesario establecer clases. Tal como sucede con la variable peso del archivo de

clase.

Tarea. Teniendo en cuenta la variable peso realizar las estadísticas básicas en Excel

(mostrar el pantallazo impreso).

Ejercicio modelo. La siguiente salida de ESM - Est muestra las estadísticas básicas de

la variable edad de 20 personas.

15 17 18 19 20 21 22 17 18 19 20 20 21 25 20 19 16 17 18 19

SALIDA CON EL PROGRAMA ESM- Est


VALORES DE ESTADISTICOS PARA LA VARIABLE: EDAD
1. Número de observaciones: ....... N = 20
2. Observaci¢n Máxima: ............ MAX = 25
3. Observaci¢n Mínima: ............ MIN = 15
4. MEDIA muestral: ................ m = 19.05
5. VARIANZA Muestral [MV (/n)]: ... sý = 4.8475
6. Desviación estándar muestral: s = 2.2017038856304
7. Coeficiente Asimetría: ......... A3 = .6111587118297624
8. Coeficiente Curtosis: .......... ç = 3.773587721003764
9. Coeficiente Variación: ......... CV = 11.85774553469059 %
10.Mediana de la muestra: ......... med = 19
11. Rango Muestral: ................ Rgo = 10
12. Moda(s): 19 20

Ejercicio: Con la variable peso del archivo de clase para 45 datos hallar el

histograma de frecuencias para 5 clases. Solución en la siguiente página.

7
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Peso Clases marca de clase ni NI
45 40,5- 0
46 45-54 49,5 9 9
47 54-63 58,5 10 19
48 63-72 67,5 9 28
49 72-81 76,5 9 37
50 81-90 85,5 8 45
51 94,5- 0
52 Total 45
53
54
55
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86

8
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
88 Nota: para realizar el histograma se hace primero el calculo de la anchura de cada barra
y después la tabla de frecuencias para datos agrupados
90
Es la que aparece arriba añadiendo los limites izq. y derecha con valores = 0 para lograr
hacer bien el polígono

Se selecciona la matriz clases y la matriz ni

resultara algo como esto

Ahora cuadraremos la anchura para esto seleccionamos una barra - Botón derecho - y en
formato de serie de datos
seleccionamos opciones y en ancho de rango colocamos 0 y quedara así

Para el polígono seleccionamos los mismos datos pero el diagrama será de tipo líneas con
marcador resultara así

9
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Excel selecciona automáticamente la mitad de la barra los extremos es necesario
ponerlos para cerrar el polígono

Es bueno recalcar que en Estadística lo que se pretende en primera instancia con


una variable numérica es hacer un análisis exploratorio de los datos para tratar de
ver la forma que describe la curva o lo que se conoce como el comportamiento
teórico de la curva (al representar los datos en un diagrama de barras).
Generalmente la distribución con la cual uno busca una similitud inicialmente
(cuando se es muy novato en estadística) , Es la distribución Normal o curva
Gaussiana.

Veamos algunas situaciones de la vida real que se comportan de manera normal y


por eso la distribución de la curva o comportamiento teórico genera esta curva
especial, simétrica ( a = 0 , coeficiente de asimetría) y una altura ideal (K = 3
(Coeficiente de curtosis) o valores entre 2.5 y 3.5 aproximadamente).

Ejemplo 1: El coeficiente intelectual de las personas: Debe oscilar entre 118 y


119 en personas normales, un genio tiene 122 de IQ. Esta es una medida inventada
por los psicólogos. La curva que describe es simétrica.

10
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

Ejemplo 2: El ingreso de las personas en Colombia.

Muchas personas ganan poco y pocas ganan mucho.

Teniendo en cuenta que el salario mínimo actual es de $409.000 tenemos el


siguiente comportamiento teórico del ingreso colombiano.

En general, además de poderse realizar histogramas de barras con las variables


numéricas, se pueden o calcular también Estadísticos básicos.

1.3 Estadísticos Básicos

Existen tres grandes grupos:

11
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
1.3.1 Según la ubicación: Existen tres estadísticos importantes a saber:

1.3.1.1 La media o promedio aritmético.

1.3.1.2 La mediana o cuartil dos.

1.3.1.3 La moda

1.3.2 Según la dispersión: Existen 4 estadísticos básicos:

1.3.2.1 El rango

1.3.2.2 El rango intercuartílico.

1.3.2.3 La desviación estándar o típica.

1.3.2.4 La varianza.

1.3.3 Según la forma: Existen dos coeficientes especiales: (esto lo digo yo no


es una regla, pero consideré importante este aspecto)

1.3.3.1 El coeficiente de asimetría (a).

1.3.3.2 El coeficiente de curtosis.

Veamos en detalle cada uno de estos:


A. Según la ubicación:

1. La media o promedio aritmético:


Se define como:

n
xi
En la muestra: x   (n = tamaño de la muestra)
i 1 n
n
Xi
En la población:    (N = tamaño de la población)
i 1 N
Ejercicio: Calcular la media para los siguientes datos: (Utilizando el modo
estadístico de su calculadora).
a) Interese cobrados por 5 corporaciones: 2.5 , 1.9 , 2.2 , 1.8 , 2.7.
b) Voltajes tomados en un laboratorio: 7 – 9 – 10 - 7.5 – 6.8 – 11 - 12 - 5

Tarea: Consultar sobre la media geométrica, media armónica y la media


ponderada. Dar ejemplos.
Ventajas de la media:

 Es fácil de calcular.
 Es de mucha utilidad en la vida práctica.
 Es Insesgada.

12
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

Desventajas de la media:

 No es robusta. Esto significa que se ve afectada por cualquier cambio en


uno de sus datos. En el caso del ejercicio propuesto sobre los interese
cobrados por las 5 corporaciones; si nos equivocamos y en último dato
escribimos 270 por 2.7, vemos que la media se altera completamente.

2. La mediana. Se define como el mismo cuartil dos e indica el 50 % de los


datos.

Ventajas de la mediana:

 Es robusta.

Por ejemplo si tenemos 5 datos, correspondiente a las edades de 5 niños: 7 , 5 ,


8 , 9, 12, entonces al organizarlos de menos a mayor se obtendrá: 5 , 7 , 8 , 9
, 12, en donde la mediana será el dato del centro, es decir 8 año; si nos
equivocamos y colocamos 120 en ves del 12, no pasa nada y la mediana sigue
igual, por esta razón se le llama robusta.

Desventajas de la mediana:

 No tiene tanta aplicabilidad como la media aritmética.

3. La moda. Es el dato de mayor frecuencia, o el que más se repite.

Ejemplo: Si en la clase hay 10 muchachos, de los cuales 7 usan Jean y los otros
visten de paño, entonces la moda es el Jean.

B. Según la dispersión:

1) El rango: Se define como el valor máximo menos el valor mínimo. Este


concepto fue necesario para construir los histogramas de barras. En los diagramas
de Box and Whiskers quedaría: Q4  Q0 .
2) El rango Intercuartílico: Es la diferencia entre el cuartil tres y el cuartil uno.
Q3  Q1
Este concepto será ampliado en clase (en la elaboración de los diagramas de Box
and Whiskers

3) La desviación estándar o Típica. Es una medida de dispersión e indica que


tan dispersos están los datos respecto de la media. Este estadístico tiene mucha
aplicabilidad en muchos campos; por ejemplo, en ingenierías, porque nos ayuda a
detectar si un equipo presenta mucha dispersión en la lectura de sus datos, lo que
indicaría no estaría funcionando adecuadamente y se recomendaría, mandar a
calibrarlo.

13
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
 xi  x  2
, en las calculadoras se expresa como :  n 1
s n 1 
n 1
4) La varianza: Se conoce por definición como la desviación estándar al
cuadrado.
 x  x 2
s n21  i
n 1

C. Según la forma. Se conocen dos coeficientes especiales:

1) El coeficiente de asimetría. Que indica cómo es la forma de la gráfica,


respecto a la tendencia de los datos.
n
 x  x3
a i 3
i 1 ns n 1
Desde este punto de vista se presentan tres casos:
a. Cuando a = 0. Recibe el nombre de curvas simétrica

b. Cuando a > 0. Recibe el nombre de curva asimétrica positiva o con cola a la


derecha.

c. Cuando a < 0. Recibe el nombre de curva asimétrica negativa o con cola a la


izquierda.

2) Coeficiente de curtosis. Este coeficiente indica que tan chata o apuntada (alta)
es una curva.
n
 xi  x  4
K 
i 1 ns n41

Se presentan tres casos.


i) Cuando K = 3 ( valores entre 2.5 y 3.5). La curva se llama mesocúrtica.
Tiene una altura apropiada. No muy alta no muy plana.

ii) Cuando K < 2.5. La curva se llama platicúrtica. Es una curva muy plana o
achatada.

iii) Cuando K > 3.5.La curva se llama leptocúrtiva. Es una curva muy alta.

14
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

Se mencionaron algunas ventajas y desventajas de los anteriores estadísticos


básicos porque estos estadísticos al ser estimadores poseen estas ventajas propias
de los estimadores.
Recordemos que trabajaremos casi siempre con muestras, por esta razón
estaremos haciendo estimaciones permanentemente para una población. (las
poblaciones son muy difíciles de manejar por lo grandes, por no tener acceso a
ellas, por encontrarse muy alejadas o en general por que el estudio detallado
complejo de estas resultaría muy complejo además de lo costoso, por eso nos
apoyamos en el muestreo. Si estudiamos toda la población estaríamos haciendo un
censo, lo cual no es necesario).

Los estimadores que más trabajaremos en clase son: La media, la varianza, la


desviación estándar, el coeficiente de correlación de Pearson entre otros.
En forma general podemos decir que los estimadores cumplen con las siguientes
propiedades:

1) Ser insesgado: E     . Es decir, lo que esperamos es que a partir de una


~

muestra podamos obtener el verdadero valor del parámetro poblacional.

Por ejemplo: Si Juanita obtuvo las siguientes notas: 2.5, 3.8, 1.7, 4.8, entonces en
promedio obtuvo: 3.2 como calificación (si todas las notas valían lo mismo). Si
Juanita estudiaba con otros 39 compañeritos, y por estadísticas se sabe que obtiene
un promedio de nota del curso de 3.2, con la muestra (notas de Juanita), como con
todas las notas (40 estudiantes – de un curso vacacional de sistemas), se obtuvo la
misma nota, podemos decir que se cumple la propiedad mencionada.

2) Ser eficiente. Es el que tiene menos varianza.


Por ejemplo, si se tienen los siguientes intereses cobrados por dos corporaciones:

CORPORACION A 2.5 1.8 1.9 2.5 2.4 3.2 3.5 3.7 3.5
CORPORACION B 0.9 0.8 1.2 1.3 1.4 1.5 1.2 1.5 1.6

Para la corporación A, la varianza es: s n21  0.5119


Para la comparación B, la varianza es: S n 1  0.075
2

La corporación de menos varianza es la corporación B, por tanto, es la más


eficiente y desde el punto de vista de los intereses cobrados, podríamos pensar que
es la más confiable, porque cobra intereses más constantes, que la primera
(corporación A), la cual presenta mucha fluctuación en el cobro de estos intereses.

3) Ser robusta. Es el que no se ve afectado por datos extremadamente grandes o


extremadamente pequeños como ocurre con la mediana.

15
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

4) Ser consistente. Significa que en la medida que aumentemos el tamaño de


muestra en un estudio que estemos realizando, obtendremos mejores resultados.
Entonces la consistencia se logra al aumentar el tamaño de la muestra.

¿Cómo obtener estadísticas Básicas en Excel?

Para obtener las estadísticas básicas en Excel(el pantallazo):


1. Ir a herramientas
2. Clic en Análisis de datos
3. Escoger estadística descriptiva
4. Ingresar los datos y habilitar la casilla "resumen de estadísticas"
5. Aceptar

Nota: si la opción "análisis de datos" no está, habrá que instalarla,


Ir a:
1. Herramientas
2. Complementarios
3. Habilitar la opción: herramientas para análisis. Pedirá el origen para
instalar, se puede mediante el CD de instalación o bajar por Internet.

1.4 Diagramas de Box and Whiskers

Son diagramas que como su nombre lo indican son de caja y bigotes.


 Se dibuja el eje horizontal desde Q0 hasta Q4 . (El rango)
 La caja va desde Q1 hasta Q3 (Rango intercuartílico)
 El primer bigote va desde Q0 hasta Q1 .
 El segundo bigote va desde Q3 hasta Q4 .
 La altura de la caja, la da la medida de la desviación estándar.
 La mediana ò Q2 , divide a la caja en dos partes (no necesariamente
iguales).
 La media se representa en la caja como una rayita pequeña.
 La moda (s) se representa(n) en la caja mediante un punto.
 Los límites inferior y superior nos permiten detectar si hay o no puntos
atípicos o outliers.

 L I = Límite inferior = Q1 - 1.5 ( Q3 - Q1 )


 L S = Límite superior = Q3 + 1.5 ( Q3 - Q1 )
 La forma más fácil y rápida de hallar los cuartiles es:
Q1 = ¼ (n+1); Q2 = ½ (n+1); Q3 =3/4(n+1)
Un ingeniero debe ser muy práctico, y esta es una forma muy sencilla de
calcular los cuartiles.

Ejercicio: Teniendo en cuenta la variable peso del archivo de clase (variable 6),.
Dibujar el diagrama de Box and Whiskers.
Solución:

16
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Para la variable peso del archivo, se encontró por medio de Excel, la
siguiente tabla de las estadísticas básicas para la variable peso:

Media 66,311
Error típico 1,9277
Mediana 66
Moda 55
Desviación estándar 12,931
Varianza de la muestra 167,22
Curtosis -1,159
Coeficiente de asimetría 0,0771
Rango 45
Mínimo 45
Máximo 90
Suma 2984
Cuenta 45

Sin embargo, como se quiere hacer el diagrama de Box and Whiskers, los datos
que proporciona Excel no son suficientes, toca encontrar otros, entonces para esto
se necesita la tabla de frecuencias:
Tabla de frecuencias:
Datos ni Ni hi Hi
45 1 1 0,0222 0,0222
46 1 2 0,0222 0,0444
47 1 3 0,0222 0,0667
48 1 4 0,0222 0,0889
49 1 5 0,0222 0,1111
50 1 6 0,0222 0,1333
51 1 7 0,0222 0,1556
52 1 8 0,0222 0,1778
53 1 9 0,0222 0,2
54 1 10 0,0222 0,2222
55 2 12 0,0444 0,2667 26%
56 1 13 0,0222 0,2889
57 1 14 0,0222 0,3111
58 1 15 0,0222 0,3333
59 1 16 0,0222 0,3556
60 1 17 0,0222 0,3778
61 1 18 0,0222 0,4
62 1 19 0,0222 0,4222
63 1 20 0,0222 0,4444

17
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
64 1 21 0,0222 0,4667
65 1 22 0,0222 0,4889
66 1 23 0,0222 0,5111 51%
67 1 24 0,0222 0,5333
68 1 25 0,0222 0,5556
69 1 26 0,0222 0,5778
70 1 27 0,0222 0,6
71 1 28 0,0222 0,6222
72 1 29 0,0222 0,6444
73 1 30 0,0222 0,6667
74 1 31 0,0222 0,6889
75 1 32 0,0222 0,7111
76 1 33 0,0222 0,7333
77 1 34 0,0222 0,7556 75%
78 1 35 0,0222 0,7778
79 1 36 0,0222 0,8
80 1 37 0,0222 0,8222
81 1 38 0,0222 0,8444
82 1 39 0,0222 0,8667
83 1 40 0,0222 0,8889
84 1 41 0,0222 0,9111
85 1 42 0,0222 0,9333
86 1 43 0,0222 0,9556
88 1 44 0,0222 0,9778
90 1 45 0,0222 1 100%

A partir de esto se pueden sacar los datos necesarios para el diagrama:

Qo = 45
Q1=55
Q2=66
Q3=77
Q4=90
La moda: 55
Rango intercuartílico: Q3 - Q1 =22
LI = Q1-1.5(Q3-Q1) = 22
LS = Q3+1.5(Q3-Q1) = 110
Entonces el diagrama de Box and Whiskers es el siguiente:

18
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.
Mediana
12

10
8
Qo Q1 Q2 Q3 Q4

6
9 18 27 36 45 54 63 72 81 90 99 108
4

LI Rango

A) Interpretar los resultados obtenidos del diagrama de Box and Whiskers.


B) ¿qué se puede decir de la Normalidad de los datos?

DEFINICIONES:

 Media Geométrica: La media geométrica es el resultado de multiplicar


todos los elementos y extraer la raíz n-ésima del producto:

G  n x1 * x 2 * ... * x n

 Media Armónica: La media armónica es el inverso


de la media aritmética de los inversos de los números que intervienen:

n
H 
1 1 1
  ... 
x1 x 2 xn

Ejemplo: Se tiene una lista de datos sobre el peso de 10 encuestados, que son: 40,
45, 50, 85, 75, 90, 55, 60, 70,65.

G  10 40 * 45 * 50 * 85 * 75 * 90 * 55 * 60 * 70 * 65  61.51
10
H   59.54
1 1 1 1 1 1 1 1 1 1
        
40 45 50 85 75 90 55 60 70 65

 Media ponderada: La media aritmética ponderada exige multiplicar cada valor


de la variable por un número que expresa la significación mayor o menor que
tiene dentro del conjunto de valores observados. Estos números se denominan
pesos o ponderaciones. Debe tenerse bien presente que tales números no son
frecuencias.

19
Material de apoyo elaborado por Susana Rondón T. Con fines didácticos.

Ejemplo: Se puede tomar 6 tipos de naranjas y cada tipo cuesta 6, 10, 20, 30, 15,
8 y hay una cantidad de 100, 120, 200, 250, 350, 500, respectivamente.

Media ponderada:

(6 x100)  (10 x120)  (20 x 200)  (30 x 250)  (15 x350)  (8 x500)
 14.83
100  120  200  250  350  500

Bibliografía:

 http://www.cyta.com.ar/elearn/inbiblio/teoricos/e
stadistica.htm
 http://www.eumed.net/cursecon/dic/oc/medarm.h
tm

20

Anda mungkin juga menyukai