Anda di halaman 1dari 117

PROBABILIDAD Y ESTADÍSTICA – 2018

Curso elemental de
Probabilidad y Estadı́stica
2018

Juan F. Olivares1
1Universidad de Atacama
Facultad de Ingenierı́a
Departamento de Matemática

Edición 1.0

1 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018

Índice de contenidos

1 INTRODUCCIÓN

2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

3 DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS

4 DESCRIPCIÓN DE DATOS BIVARIADOS

5 PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD

6 ALGUNAS DISTRIBUCIONES DISCRETAS ÚTILES

7 LA DISTRIBUCIÓN NORMAL DE PROBABILIDAD

2 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN

Contenidos de la unidad

1 INTRODUCCIÓN
MOTIVACIÓN
LA POBLACIÓN Y LA MUESTRA
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES
PASOS PARA LA ESTADÍSTICA INFERENCIAL
CONSIDERACIONES FINALES

3 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
MOTIVACIÓN

Motivación

¿Qué es estadı́stica? ¿Ha conocido usted alguna vez a un experto en estadı́stica? ¿Sabe usted qué
hace? O quizá la simple mención de la palabra estadı́stica le causa temor. Puede que piense que
no sabe usted nada de estadı́stica, pero es casi inevitable que encuentre estadı́sticas en una forma
u otra cada vez que tome un periódico.

La última encuesta Cadem arrojó un incremento en el respaldo ciudadano al candidato presidencial,


Sebastián Piñera. De acuerdo a la medición, el ex Mandatario aumentó en cuatro puntos su apoyo,
llegando al 44 %. En tanto sus contendores, Beatriz Sánchez y Alejandro Guiller, respectivamente,
bajaron en el sondeo. Mientras el senador alcanzó un 20 %, un punto menos respecto a la sema-
na pasada, la periodista enteró 16 %, cayendo tres unidades. De acuerdo al denominado “Votante
probable”, sistema de medición de Cadem que considera a los encuestados que efectivamente con-
currirán a votar en noviembre próximo, Carolina Goic y José Antonio Kast mantienen un 5 % de
las preferencias. Por su parte, Marco Enrı́quez-Ominami obtuvo un 2 %. (Emol.com)

Artı́culos semejantes a éste son comunes en nuestros diarios en el periodo inmediato anterior a la
elección presidencial. El lenguaje de este artı́culo es muy conocido, pero deja al lector cuidadoso
con algunas preguntas sin contestar. ¿Cómo fueron seleccionadas las personas en la encuesta?
¿Darán la misma respuesta el dı́a de la elección? ¿Votarán, incluso? ¿Son representativas de
todos quienes votarán el dı́a de la elección? Es trabajo de un estadı́stico hacer estas preguntas y
hallar respuesta para ellas en el lenguaje de la encuesta.

4 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
MOTIVACIÓN

Motivación
Veamos el siguiente caso:

Después de creer durante más de un siglo que 37o C era la temperatura corporal normal para seres
humanos, los investigadores ahora dicen que normal ya no es normal. Para algunas personas a
ciertas horas del dı́a 37,7 grados podrı́a estar bien. Y lecturas de sólo 35,6 resulta que son muy
“humanas”. La norma de 37 fue obtenida por un médico alemán en 1868. Algunos médicos siempre
habı́an sospechado de la investigación del doctor. Su duda: un millón de lecturas, en una época sin
computadoras. Entonces, Mackowiak & Co. tomaron lecturas de temperatura a 148 personas sanas
en un periodo de tres dı́as y encontraron que la temperatura media era de 36,7 grados. Sólo 8 % de
las lecturas fue de 37. (The Press-Enterprise)

¿Qué preguntas le vienen a la mente cuando lee este artı́culo? ¿En qué forma el investigador
seleccionó las 148 personas, y cómo podemos estar seguros que los resultados basados en estas
148 personas son precisos cuando se aplican a la población en general? ¿Cómo registró el médico
alemán un millón de temperaturas en 1868? Otra vez encontramos un problema estadı́stico con
aplicaciones en la vida diaria.
La estadı́stica en una rama de las matemáticas que tiene aplicaciones en cada faceta de
nuestra vida. Es un lenguaje nuevo y poco conocido para casi todas las personas. Queremos
que “entrene su cerebro” para entender este nuevo lenguaje paso a paso. Una vez aprendido y
entendido el lenguaje de la estadı́stica, veremos que es una poderosa herramienta para el análisis
de datos en numerosos campos de aplicación diferentes.
5 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
LA POBLACIÓN Y LA MUESTRA

La población y la muestra

En la estadı́stica, uno de los conceptos elementales es el muestreo. En casi todos los problemas
de estadı́stica, un número especificado de mediciones o datos, es decir, una muestra, se toma de
un conjunto de mediciones más grande llamado población.
Para el experimento de la temperatura corporal, la muestra es el conjunto de mediciones de
temperatura corporal para las 148 personas sanas escogidas por el experimentador. Esperamos
que la muestra sea representativa de un conjunto mucho mayor de mediciones, la población, ¡las
temperaturas corporales de todas las personas sanas del mundo!
¿Cuál es el interés principal, la muestra o la población? En la mayor parte de los casos, estamos
interesados principalmente en la población, pero ésta puede ser difı́cil o imposible enumerar.
Imagine tratar de registrar la temperatura corporal de todas las personas sanas del mundo o ¡de la
preferencia presidencial de todo votante registrado en Chile! En cambio, tratamos de describir
o pronosticar el comportamiento de la población con base en información obtenida de una
muestra representativa de esa población.
Cuando usamos el lenguaje de la estadı́stica, distinguiremos entre el conjunto de objetos en el
cual las mediciones se toman y las mediciones mismas. Para los experimentadores, los objetos
en los que las mediciones se toman se denominan unidades experimentales. El estadı́stico que
estudia las muestras las llama elementos de la muestra.

6 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES

Estadı́sticas descriptivas e inferenciales

Cuando primero se le presenta a usted un conjunto de mediciones, ya sea una muestra o una
población necesita encontrar una forma de organizarlo y resumirlo. La rama de la estadı́stica
que presenta técnicas para organizar y resumir conjuntos de mediciones se denomina estadı́stica
descriptiva.
El alumno ha visto estadı́sticas descriptivas en numerosas formas: gráficas de barras, gráficas de
pastel y gráficas de lı́neas presentadas por un candidato polı́tico; tablas numéricas en el periódi-
co; o el promedio de cantidad de lluvia informado por el pronosticador del clima en la televisión.
Las gráficas y resúmenes numéricos generados en computadoras son comunes en nuestra comu-
nicación de todos los dı́as.
Estadı́stica descriptiva
La estadı́stica descriptiva está formada por procedimientos empleados para resumir y describir
las caracterı́sticas importantes de un conjunto de mediciones.

7 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES

Estadı́sticas descriptivas e inferenciales

Si el conjunto de mediciones es la población, sólo es necesario sacar conclusiones basadas en la


estadı́stica descriptiva. No obstante, podrı́a ser demasiado costoso o llevarı́a demasiado tiempo
enumerar toda la población. Quizá enumerar la población la destruirá, como en el caso de la
prueba de “tiempo de falla”.
Por estás y otras razones, quizá sólo tenga una muestra de la población para contestar preguntas
acerca de la población en su conjunto. La rama de la estadı́stica que se ocupa de este problema
se llama estadı́stica inferencial.
Estadı́stica inferencial
La estadı́stica inferencial está formada por procedimientos empleados para hacer inferencias
acerca de caracterı́sticas poblacionales, a partir de información contenida en una muestra sacada
de esta población.

El objetivo de la estadı́stica inferencial es hacer inferencias (es decir, sacar conclusiones, ha-
cer predicciones, tomar decisiones) acerca de las caracterı́sticas de una población a partir de
información contenida en una muestra.

8 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
PASOS PARA LA ESTADÍSTICA INFERENCIAL

Pasos para la estadı́stica inferencial

¿Cómo puede hacer inferencias acerca de una población utilizando información contenida en una
muestra? La tarea se hace más sencilla si se entrena para organizar el problema en una serie de
pasos lógicos.

Especifique las preguntas a contestar e identifique la población de interés: En una encuesta


de elección presidencial, el objetivo es determinar quién obtendrá más votos
el dı́a de la elección. Por lo tanto, la población de interés es el conjunto de
todos los votos en la elección presidencial. Cuando se selecciona una mues-
tra, es importante que la muestra sea representativa de esta población, no la
población de preferencias de votantes en algún dı́a antes de la elección.
Decida cómo seleccionar la muestra: Esto describe el nombre de diseño del experimento o
procedimiento de muestro. ¿La muestra es representativa de la población de
interés? Por ejemplo, si una muestra de votantes registrados se selecciona de
la región de Atacama, ¿esta muestra será representativa de todos los votantes
de Chile? ¿Será lo mismo que una muestra de “probables votantes”, es decir,
aquellos que es probable que en realidad voten en la elección? ¿La muestra
es lo suficientemente grande para contestar las preguntas planteadas en el
paso 1 sin perder tiempo y dinero en información adicional? Un buen diseño
de muestreo contestará las preguntas planteadas, con mı́nimo costo para el
experimentador.

9 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
PASOS PARA LA ESTADÍSTICA INFERENCIAL

Pasos para la estadı́stica inferencial

Seleccione la muestra y analice la información muestral: Sin importar que información con-
tenga la muestra, se debe usar un método de análisis apropiado para extraerla.
Muchos de estos métodos, dependen del procedimiento de muestro del paso
2, se explican en este curso.
Use la información del paso 3 para hacer una inferencia acerca de la población: Es posible
usar muchos procedimientos diferentes para hacer esta inferencia y algunos
son mejores que otros. Por ejemplo, podrı́a 10 métodos diferentes para estimar
la respuesta humana a un medicamento experimental, pero un procedimiento
podrı́a ser más preciso que los otros. Usted debe usar el mejor procedimiento
disponible para hacer inferencias (muchos de estos se explican en este curso).
Determine la confiabilidad de la inferencia: Como se está usando sólo una parte de la pobla-
ción para sacar las conclusiones descritas en el paso 4, ¡podrı́a estar en un
error! ¿Cómo puede ser esto? Si una agencia realiza una encuesta estadı́stica
para usted y estima que el producto de su compañı́a ganará el 34 % del mer-
cado este año, ¿cuánta confianza puede usted poner en esta estimación? ¿Es
precisa a no más de 1,5 o a 20 puntos porcentuales? ¿Es confiable lo sufi-
ciente para establecer metas de producción? Toda inferencia estadı́stica debe
incluir una medida de confiabilidad que dice cuánta confianza tiene usted en
los resultados.

10 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
CONSIDERACIONES FINALES

Consideraciones finales
Ahora que ya ha aprendido algunos de los términos y conceptos básicos del lenguaje de la es-
tadı́stica, otra vez hacemos la pregunta del principio de este análisis: ¿Sabe usted qué hace un
estadı́stico? Es el trabajo del estadı́stico poner en práctica todos los pasos procedentes. Esto
puede comprender preguntas al experimentador para asegurarse que la población de interés esté
claramente definida, desarrollar un plan apropiado de muestreo o diseño experimental para dar
máxima información al mı́nimo costo, analizar correctamente y sacar conclusiones usando la
información muestral y, por último, medir la confiabilidad de las conclusiones con base en los
resultados experimentales.
A medida que se avance en este curso, aprenderá cada vez más palabras, frases y conceptos de
este nuevo lenguaje de estadı́stica. Los procedimientos estadı́sticos, en su mayor parte, están
formados de pasos de sentido común que, con tiempo suficiente, es muy probable que haya
descubierto por sı́ mismo. Como la estadı́stica es una rama aplicada de las matemáticas, muchos
de los conceptos básicos son matemáticos, desarrollados y basados en resultados de cálculo o de
matemáticas más elevadas. No obstante, no tiene que derivar resultados para aplicarlos en una
forma lógica. En este curso usamos ejemplos numéricos y argumentos intuitivos para explicar
conceptos estadı́sticos, en lugar de argumentos matemáticos más complicados.
Cada unidad aumentará su conocimiento del lenguaje de estadı́stica y debe, en alguna forma,
ayudarlo a dar uno de los pasos aquı́ descritos. Cada uno de estos pasos es esencial para alcanzar
el objetivo general de la estadı́stica inferencial: hacer inferencias acerca de una población
usando información contenida en una muestra tomada de esa población.

11 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Contenidos de la unidad

2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS


OBJETIVOS
VARIABLES Y DATOS
TIPOS DE VARIABLES
GRÁFICAS PARA DATOS CATEGÓRICOS
GRÁFICAS PARA DATOS CUANTITATIVOS
HISTOGRAMA DE FRECUENCIA RELATIVA

12 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
OBJETIVOS

Objetivos

Objetivos
Numerosos conjuntos de mediciones son muestras seleccionadas de poblaciones más grandes;
otros constituyen toda la población, como es el caso de un censo nacional. En esta unidad apren-
deremos qué es una variable, cómo clasificar variables en varios tipos y cómo se generan medi-
ciones o datos. Aprenderá entonces a usar gráficas para describir conjuntos de datos.

13 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS

Variables y datos

A continuación presentaremos algunas técnicas básicas de estadı́stica descriptiva. Una vez que
haya recolectado un conjunto de mediciones, ¿cómo puede mostrar este conjunto en una forma
clara, entendible y fácil de leer? Primero, debe tener aptitud para definir lo que se entiende por
medición o “datos” y clasificar los tipos de datos que probablemente se encuentre en la vida real.
Empezamos por introducir algunas definiciones, términos nuevos en el lenguaje de la estadı́stica
que es necesario saber.

Variable
Una variable es una caracterı́stica que cambia o varı́a con el tiempo y/o para diferentes personas
u objetos bajo consideración.

Por ejemplo, la temperatura corporal es una variable que cambia con el tiempo en una sola
persona; también varı́a de una persona a otra. La afiliación religiosa, el origen étnico, el ingreso,
la estatura, edad y número de hijos son todas ellas variables, es decir, caracterı́sticas que varı́an
según la persona seleccionada.

14 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS

Variables y datos

En la Introducción definimos una unidad experimental como el objeto en el que se toma una
medición. Del mismo modo, podrı́amos definir una unidad experimental como el objeto en el
que se mide una variable. Cuando una variable se mide en realidad en un conjunto de unidades
experimentales, resulta un conjunto de mediciones o de datos.

Unidad experimental
Una unidad experimental es el individuo u objeto en el que se mide una variable. Resulta una
sola medición o datos cuando una variable se mide en realidad en una unidad experimental.

Si se genera una medición para toda unidad experimental en toda la colección, el conjunto resul-
tante constituye la población de interés. Cualquier conjunto más pequeño de mediciones es una
muestra.
Población
Una población es el conjunto de mediciones de interés para el investigador.

Muestra
Una muestra es un subconjunto de mediciones seleccionado de la población de interés.

15 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS

Variables y datos

Ejemplo
De entre todos los estudiantes de la universidad se selecciona un conjunto de cinco estudiantes y
las mediciones se introducen en una hoja de cálculo, como se muestra a continuación.

Estudiante Promedio Género Ingreso Especialidad Créditos


1 5,0 F 2016 Minas 16
2 5,3 F 2015 Computación 15
3 5,9 M 2013 Geologı́a 17
4 5,7 M 2013 Geologı́a 15
5 5,6 F 2015 Comercial 14

Hay diversas variables en este ejemplo. La unidad experimental es la que se miden las variables
es un estudiante del plantel, identificado en la primera columna. Se miden cinco variables para
cada estudiante: promedio de calificaciones, género, año de ingreso a la universidad, especialidad
y número actual de créditos tomados. Cada una de estas caracterı́sticas varı́a de estudiante a otro.

16 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS

Variables y datos

Se puede ver que hay una diferencia entre una sola variable medida en una sola unidad experi-
mental y múltiples variables medidas en una unidad experimental como en el ejemplo anterior.

Datos univariados
Resultan datos univariados cuando se mide una sola variable en una sola unidad experimental.

Datos bivariados y multivariados


Resultan datos bivariados cuando se miden dos variables en una sola unidad experimental.
Resultan datos multivariados cuando se miden más de dos variables.

Si se miden las temperaturas corporales de 148 personas, los datos resultantes son univariados.
En el ejemplo anterior, cinco variables se midieron en cada estudiante, lo que resultó en datos
multivariados.

17 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
TIPOS DE VARIABLES

Tipos de variables
Variables cualitativas y cuantitativas
Las variables cualitativas miden una cualidad o caracterı́stica en cada unidad experimental. Las
variables cuantitativas miden una cantidad numérica en cada unidad experimental.

Las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o di-
ferencias en clases, con frecuencia se denominan datos categóricos. Las variables como género,
año y especialidad en el ejemplo anterior son variables cualitativas que producen datos categóri-
cos. He aquı́ algunos otros ejemplos:

Afiliación polı́tica: izquierda, derecha, independiente


Clasificación de gusto: excelente, bueno, regular, malo
Nivel educacional: básica, medio, superior

Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéri-
cos, por ejemplo estos:

x = tasa preferencial de interés


x = número de pasajeros en un vuelo de Copiapó a Santiago
x = peso de un paquete listo para ser enviado
x = volumen de jugo de naranja en un vaso
18 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
TIPOS DE VARIABLES

Tipos de variables
Observe que hay diferencia en los tipos de valores numéricos que pueden tomar estas variables
cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x = 0, 1, 2, . . .,
mientras que el peso de un paquete puede tomar cualquier valor mayor a cero, o sea 0 < x <
∞. Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y
continuas.
Variables discretas y continuas
Una variable discreta puede tomar sólo un número finito o contable de valores. Una variable
continua puede tomar infinitamente muchos valores correspondientes a los puntos en un inter-
valo de recta.

El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable
puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos
nuevos y el número de neumáticos defectuosos devueltos para cambio son todos ellos ejemplos
de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y
volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo
de recta. Para cualesquiera dos valores que se escojan, un tercer valor siempre puede hallarse
entre ellos.
¿Por qué debe preocuparse por diferentes clases de variables y los datos que generan? La razón
es que los métodos empleados para describir conjuntos de datos dependen del tipo de datos que
haya recolectado. Para cada uno de los conjuntos de datos recolectados, la clave será determinar
qué tipo de datos tiene y ¡cómo puede presentarlos en forma más clara y entendible!
19 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
TIPOS DE VARIABLES

Tipos de variables

Ejemplo
Consideremos las siguientes variables:
1 El uso frecuente de su horno microondas (recalentar, descongelar, calentar, otros)
2 El número de consumidores que se niegan a contestar una encuesta por teléfono
3 La puerta escogida por un ratón en un experimento de laberinto (A o B)
4 El tiempo ganador para un caballo que corre en el Derby de Santiago
5 El número de niños de quinto básico que leen al nivel de ese curso o mejor
Las variables 1 y 3 son cualitativas porque sólo una cualidad o caracterı́stica se mide para cada
individuo. Las otras dos variables son cuantitativas. La variable 2, el número de consumidores,
es una variable discreta que puede tomar cualquiera de los valores x = 0, 1, 2, . . ., con un valor
máximo que depende del número de consumidores llamados. La variable 4, el tiempo ganador
para un caballo en el Derby de Santiago, es la única variable continua. El tiempo ganador,
si pudiera medirse con suficiente precisión, podrı́a ser 121 segundos, 121,5 segundos, 121,25
segundos o cualesquiera valores entre dos tiempos cualesquiera que hemos puesto en lista.

20 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos


Una vez recolectados los datos, éstos pueden resumirse para responder preguntas como ¿Qué
valores de la variable han sido medidos? ¿Con qué frecuencia se presenta cada uno de los valores?
Para este fin, se puede construir una tabla estadı́stica que se puede usar para mostrar los datos
gráficamente como una distribución de datos. El tipo de gráfica que se escoja depende del tipo
de variables que se haya medido.
Cuando la variable de interés es cualitativa, la tabla estadı́stica es una lista de las categorı́as
siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor. Se
puede medir “la frecuencia” en tres formas diferentes:

La frecuencia o número de mediciones en cada categorı́a


La frecuencia relativa o proporción de mediciones en cada categorı́a
El porcentaje de mediciones en cada categorı́a

Por ejemplo, si con n representamos el número total de mediciones en el conjunto, se puede


hallar la frecuencia relativa y porcentaje usando estas relaciones:

Frecuencia
Frecuencia relativa = Porcentaje = 100 × Frecuencia relativa
n
Se encontrará que la suma de las frecuencias es siempre n, la suma de las frecuencias relativas
es 1 y la suma de porcentajes es 100 %.
21 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos

Las categorı́as para una variable cualitativa deben escogerse de modo que:

una medición pertenecerá a una categorı́a y sólo una


cada medición tiene una categorı́a a la que se puede asignar

Por ejemplo, si se pueden clasificar a los estudiantes de la universidad de acuerdo con el tipo
de colegio de procedencia, se pueden usar estas categorı́as: municipal, subvencionado, privado,
otro. La categorı́a “otro” está incluida para tomar en cuenta la posibilidad de que una medición
no se pueda asignar a una de las categorı́as anteriores.
Una vez que a las mediciones se les haya dado categorı́as y resumidas en una tabla estadı́stica,
se puede usar ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución
de los datos. Una gráfica de pastel es la conocida gráfica circular que muestra la forma en que
están distribuidas las medidas entre las categorı́as. Una gráfica de barras muestra la misma
distribución de medidas en categorı́as, con la altura de la barra midiendo la frecuencia con la que
se observa una categorı́a en particular.

22 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos


Ejemplo
En una encuesta respecto a la educación pública, a 400 directores de escuelas se les pidió que
calificaran la calidad de la educación (muy buena, buena, regular, mala). Donde los resultados
se pueden ver en la siguiente tabla. Para construir una gráfica de pastel, asignamos un sector de
cı́rculo a cada categorı́a. El ángulo de cada sector debe ser proporcional a la frecuencia relativa
en esa categorı́a. Se puede usar esta ecuación para hallar el ángulo:

Ángulo = Frecuencia relativa × 360o

La siguiente tabla muestra las calificaciones junto con las frecuencias, frecuencias relativas, por-
centajes y ángulos de sector necesarios para construir la gráfica de pastel.

Calificación Frecuencia Frecuencia Porcentaje Ángulo


relativa
Muy buena 35 0,09 9% 0,09 × 360 = 32,4o
Buena 260 0,65 65 % 234,0o
Regular 93 0,23 23 % 82,8o
Mala 12 0,03 3% 10,8o
Total 400 1,00 100 % 360o

23 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos

Regular

Mala

Muy buena

Buena

Figura: Gráficas de pastel para los datos de la calidad de la educación pública.

24 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos

260
Frecuencia

93

35
12
0
Muy buena Buena Regular Mala

Figura: Gráficas de barras para los datos de la calidad de la educación pública.

25 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos

Mientras que las gráficas de pastel usan porcentaje para determinar los tamaños relativos de
las “rebanadas de pastel”, las gráficas de barras por lo general grafican frecuencias contra las
categorı́as.
El impacto visual de estas dos gráficas es un poco diferente. La gráfica de pastel se usa para
mostrar las relaciones de las partes con respecto al todo; la gráfica de barras se usa para destacar
la cantidad real o frecuencia para cada categorı́a. Como las categorı́as en el ejemplo anterior son
“calificaciones” ordenadas, no desearı́amos reacomodar las barras de la gráfica para cambiar su
forma. En una gráfica de pastel, el orden de presentación es irrelevante.

26 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos


Ejemplo
Una bolsa de tamaño pequeño de dulces M&M contiene 21 dulces con colores: Café, Verde,
Café, Azul, Rojo, Rojo, Verde, Café, Amarillo, Anaranjado, Verde, Azul, Café, Azul, Azul, Café,
Anaranjado, Azul, Café, Anaranjado y Amarillo. La variable “color” es cualitativa, por lo que la
siguiente tabla pone en lista las seis categorı́as junto al número de dulces de cada color. Como las
categorı́as no tienen un orden particular, se pueden construir gráficas de barras con muchas for-
mas diferentes con sólo reordenar las barras. Para enfatizar que el café es el color más frecuente,
ordenamos las barras de mayor a menor.

Categorı́a Total Frecuencia Frecuencia relativa Porcentaje


Café |||||| 6 6/21 28 %
Verde ||| 3 3/21 14
Anaranjado ||| 3 3/21 14
Amarillo || 2 2/21 10
Rojo || 2 2/21 10
Azul ||||| 5 5/21 24
Total 21 1 100 %

Una gráfica de barras en la que las barras están ordenadas de mayor a menor se denomina gráfica
de Pareto.
27 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Gráficas para datos categóricos

5
Frecuencia

0
Café Azul Verde Anaranjado Amarillo Rojo

Figura: Gráfico de barras para la clasificación de los colores de dulces M&M.

28 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Ejercicios

1. Identifique las unidades experimentales en los e) Número de accidentes en botes en un tra-


que se miden las variables siguientes: mo de 50 km en un rio
a) Género de un alumno f) Tiempo para completar un cuestionario
b) Número de errores en un examen g) Costo de una lechuga
c) Color de un auto que entra a un estacio-
namiento h) Número de hermanos y hermanas que
tenga el alumno
2. Identifique cada una de las variables como
cuantitativa o cualitativa: 4. Se seleccionan cinco vehı́culos, de entre los que
a) Número de estudiantes en un salón de tienen permiso para estacionarse, y se registran
clases de primer año los datos siguientes:
b) Calificación de un polı́tico recién electo i Tipo Marca Años
(excelente, bueno, regular, malo)
c) Región en que vive una persona 1 Auto Honda 6
3. Identifique las siguientes variables cuantitativas 2 Auto Toyota 3
como discretas o continuas: 3 Camión Toyota 4
a) Población en una región del paı́s 4 Van Dodge 2
b) Peso de periódicos recuperados para re- 5 Auto Chevrolet 9
ciclar en un sólo dı́a
a) ¿Cuáles son las unidades experimenta-
c) Tiempo para completar un examen de es-
les?
tadı́stica
d) Número de consumidores en una encues- b) ¿Cuáles son las variables que se miden?
ta de 1000 que consideran importante ¿Qué tipos de variables son?
aplicar leyenda nutricional en productos c) ¿Estos datos son univariados, bivariados
alimenticios o multivariados?

29 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Ejercicios

5. Usted es candidato a diputado de su circuns- d) Describa la forma en que el investigador


cripción y desea hacer una encuesta de las ac- podrı́a seleccionar una muestra de entre
titudes del electorado, respecto a las probabi- la población.
lidades que tenga usted para ganar. Identifique e) ¿Qué problemas podrı́an surgir al mues-
la población que es de interés para usted y de trear desde esta población?
la que le gustarı́a seleccionar una muestra. ¿En
qué forma esta población depende del tiempo? 7. Un investigador educacional desea evaluar la
6. Un investigador médico desea estimar el tiem- efectividad de un nuevo método de enseñanza
po de supervivencia de un paciente, después del de lectura a estudiantes sordos. El logro al final
inicio de un tipo particular de cáncer, y después de un periodo de enseñanza es medido por la
de un régimen particular de radioterapia. calificación de un estudiante en un examen de
a) ¿Cuál es la variable de interés para el in- lectura.
vestigador médico? a) ¿Cuál es la variable a medir? ¿Qué tipo
b) La variable del inciso a) es cualitativa, de variable es?
cuantitativa discreta o cuantitativa conti-
nua? b) ¿Cuál es la unidad experimental?
c) Identifique la población de interés para el c) Identifique la población de interés para el
investigador médico. experimentador.

30 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Ejercicios

8. Cincuenta personas se agrupan en cuatro cate- de jeans se selecciona al azar de entre la base
gorı́as, A, B, C y D, y el número de personas de datos computarizada, registrándose la ciu-
que caen en cada categorı́a se muestra en la ta- dad en el que se produce:
bla: CO IQ IQ AN CO
Categorı́a Frecuencia CO CO AN AN AN
IQ IQ CO IQ AN
A 11 CO IQ AN AN AN
B 14 CO IQ IQ CO CO
C 20
D 5 a) ¿Cuál es la unidad experimental?
b) ¿Cuál es la variable que se mide? ¿ Es
a) ¿Cuál es la unidad experimental? cualitativa o cuantitativa?
b) ¿Cuál es la variable que se mide? ¿Es c) Construya una gráfica de pastel para des-
cualitativa o cuantitativa? cribir los datos.
c) Construya una gráfica de pastel y de ba- d) Construya una gráfica de barras para des-
rras para describir los datos. cribir los datos.
d) ¿La forma de la gráfica de barras del in- e) ¿Qué proporción de los jeans se hace en
ciso c) cambia, dependiendo del orden Antofagasta?
de presentación de las cuatro categorı́as? f) Si se desea averiguar si las tres plantas
¿Es importante el orden de presentación? produjeron iguales números de jeans, o
e) ¿Qué porcentaje de las personas no está si una produjo más jeans que las otras,
en la categorı́a B? ¿cómo se pueden usar las gráficas de las
9. Un fabricante de jeans tiene plantas en Iquique, partes c) y d) para ayudar? ¿Qué conclu-
Antofagasta y Copiapó. Un grupo de 25 pares siones puede sacar de estos datos?

31 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS

Ejercicios

10. ¿Le gustarı́a ser presidente de Chile? Aun cuan- a) ¿Están consideradas todas las razones en
do muchos adolescentes piensan que podrı́a lle- esta tabla?
gar a ser presidente, muchos no desean el tra-
bajo. En una encuesta de opinión, casi 80 % b) ¿Usarı́a usted una gráfica de pastel o una
de los adolescentes no estaban interesados en de barras para describir gráficamente los
el trabajo. Cuando se les preguntaba: “¿Cuál es datos? ¿Por qué?
la principal razón por la que no querrı́a ser pre-
sidente?” dieron estas respuestas: c) Trace la gráfica escogida en el inciso b).
Otros planes de carrera 40 %
Demasiada presión 20 %
d) Si usted fuera a conducir la encuesta de
Demasiado trabajo 15 %
opiniones, ¿qué otros tipos de preguntas
No serı́a bueno para ello 14 %
desearı́a investigar?
Demasiadas discusiones 5%

32 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de pastel y gráficas de barras

Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable
puede tomar sólo un número finito o contable de valores, es una variable discreta. Una variable
que puede tomar un número infinito de valores correspondientes a puntos en un intervalo de recta
se llama continua.
A veces la información se recolecta para una variable cuantitativa medida en segmentos diferen-
tes de la población, o para diferentes categorı́as de clasificación. Por ejemplo, se podrı́a medir el
promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes, o que viven
en zonas geográficas diferentes del paı́s.
En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos,
usando la cantidad medida en cada categorı́a en lugar de la frecuencia con que se presenta cada
una de las categorı́as. La gráficas de pastel muestra la forma en que está distribuida la cantidad
total entre las categorı́as y la gráfica de barras usa la altura de la barra para mostrar la cantidad
de una categorı́a en particular.

33 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de pastel y gráficas de barras

Ejemplo
Entre enero y octubre de 2016 el valor de las exportaciones (Sı́ntesis Económica Región de Ata-
cama, Corproa) de la Región de Atacama fue de $3133 (millones de dólares), en las categorı́as:
Minerı́a ($2863 millones de dólares), Silvoagropecuario ($146 millones de dólares), Industria
($96 millones de dólares) y Pesca ($28 millones de dólares). Dos variables están siendo medidas:
la categorı́a del rubro de exportación (cualitativa) y la cantidad exportada (cuantitativa).
La gráfica de barras muestra las categorı́as en el eje horizontal y las cantidades en el eje vertical.
Para la gráfica de pastel, cada “rebanada del pastel” representa la proporción de la exportación
($3133 millones de dólares) correspondientes a su categorı́a en particular. Por ejemplo, para el
rubro silvoagropecuario, el ángulo del sector es
146
× 360 = 16,8o
3133
Ambas gráficas muestran que el mayor valor por exportación para la Región de Atacama en el
periodo de enero a octubre de 2016 fue debido a la minerı́a. Como no hay un orden inherente
a las categorı́as, hay libertad para reacomodar las barras o sectores de las gráficas en cualquier
forma deseada. La forma de la gráfica de barras no tiene nada que ver con su interpretación.

34 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de pastel y gráficas de barras

3000
Exportaciones (millones de US$)

150
0
Mineria Silvoagropecuario Industria Pesca

Figura: Gráficas de barras para la clasificación de las exportaciones de la Región de Atacama.

35 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de pastel y gráficas de barras

Silvoagropecuario

Industria
Pesca
Mineria

Figura: Gráficas de pastel para la clasificación de las exportaciones de la Región de Atacama.

36 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de lı́neas

Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por
ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de
tiempo.
Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de lı́neas
con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea
probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para
el futuro inmediato.

37 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de lı́neas

Ejemplo
En el año 2025, una persona nacida en 1946 tendrá 79 años, y una nacida en 1965 tendrá 60
años. ¿Habrá suficientes fondos para las personas nacidas en 1946 para pensiones de jubilación?
El INE (Instituto Nacional de Estadı́stica) da proyecciones para la parte de la población chilena
que tendrá 80 años y más para los próximos años, como se muestra en la siguiente tabla.

Año 2020 2025 2030 2035 2040 2045 2050


80 años y más (miles) 457 561 679 827 1030 1248 1388

La variable cualitativa “80 y más” se mide en 7 intervalos, creando ası́ una serie de tiempo que
se puede graficar con una gráfica de lı́nea. Los intervalos están marcados en el eje horizontal y
las proyecciones en el eje vertical. Los puntos de datos se enlazan luego por medio de segmentos
de lı́nea para formar las gráficas de lı́nea. Observe la marcada diferencia en las escalas verticales
de las dos gráficas. Contraer la escala en el eje vertical hace que grandes cambios aparezcan
pequeños y viceversa. Para evitar conclusiones erróneas, se deben ver con cuidado las escalas de
los ejes vertical y horizontal.

38 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficas de lı́neas

1388 ● 20000

1248 ●
80 años y más (miles)

80 años y más (miles)


1030 ●

827 ●

679 ●

561 ●
1388 ● ● ● ●
● ●
457 ● 457 ●

2020 2030 2040 2050 2020 2030 2040 2050

Año Año

Figura: Gráficas de lı́nea para la proyección del crecimiento de la población de 80 años o más.

39 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficos de puntos

Muchos conjuntos de datos cuantitativos están formados de números que no se pueden separar
fácilmente en categorı́as o intervalos. Entonces se hace necesaria una forma diferente de graficar
este tipo de datos.
La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un conjunto pe-
queño de mediciones, por ejemplo el conjunto

2 6 9 3 7 6

se pude simplemente graficar las mediciones como puntos en un eje horizontal. Ésta gráfica se
muestra en la siguiente figura (panel superior). Para un conjunto de datos, como el de la siguiente
figura (panel inferior), la gráfica de puntos puede ser nada informativa.

40 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Gráficos de puntos


● ● ● ● ●

2 3 4 5 6 7 8 9

Conjunto pequeño



● ● ● ●
●●● ● ● ● ● ●
● ● ● ●●●●●● ● ●● ●● ●● ● ●●● ●● ● ● ●●

1.0 1.1 1.2 1.3 1.4

Conjunto grande

Figura: Gráficas de puntos para conjuntos pequeños y grandes de datos.

41 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico

Una vez creada una gráfica o gráficas, para un conjunto de datos, ¿qué se debe buscar al tratar de
describir los datos?

Primero, verificar las escalas horizontales y verticales, de manera que haya claridad respec-
to a lo que se mide.
Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución del eje
horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar?
Examinar la forma de la distribución. ¿La distribución tiene un “máximo”, un punto que
es más alto de cualquier otro? Si es ası́, ésta es la medición o categorı́a que se presenta
con más frecuencia. ¿Hay más de un máximo? ¿Hay un número aproximadamente igual de
mediciones a la izquierda y derecha del máximo?
Buscar cualesquiera mediciones poco comunes o resultados atı́picos. Esto es, ¿hay medi-
ciones mucho mayores o menores que todas las otras? Estos resultados atı́picos pueden no
ser representativos de los otros valores del conjunto.

42 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico

Es frecuente que las distribuciones se describan según sus formas.

Distribuciones simétricas y sesgadas


Una distribución es simétrica si los lados izquierdo y derecho de la distribución, cuando se
divide en el valor medio, forman imágenes espejo. Una distribución está sesgada a la derecha si
una proporción más grande de las mediciones se encuentra a la derecha del valor máximo. Una
distribución está sesgada a la izquierda si una proporción mayor de las mediciones están a la
izquierda del valor máximo.

Distribución unimodal y bimodal


Una distribución unimodal si tiene un máximo; una distribución bimodal tiene dos máximos.
Las distribuciones bimodales representan a veces una combinación de dos poblaciones diferentes
del conjunto de datos.

43 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico

Ejemplo
Examinemos las gráficas de la siguiente figura. Notemos que, la primera gráfica de puntos (panel
superior) muestra una distribución relativamente simétrica con solo un máximo situado en x =
5. La segunda gráfica (panel central), no obstante, está lejos de ser simétrica. Tiene una larga
“cola derecha”, lo cual significa que hay unas pocas observaciones extraordinariamente grandes.
Esta distribución está sesgada a la derecha. Del mismo modo, la tercera gráfica de puntos (panel
inferior) con una larga “cola a la izquierda” está sesgada a la izquierda.

44 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico



● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●

1 2 3 4 5 6 7 8 9



● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●

1 2 3 4 5 6 7 8 9



● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●

1 2 3 4 5 6 7 8 9

Figura: Formas de distribución de datos.

45 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico

Ejemplo
Un asistente administrativo del departamento de educación fı́sica de la universidad está observan-
do los promedios de calificaciones de ocho miembros del equipo femenil de voleibol. El asistente
introduce los promedios en la base de datos pero por accidente coloca mal el punto decimal de
la última entrada.
4,8 5,0 5,0 5,3 4,4 5,4 5,0 0,41
La gráfica de puntos de este pequeño conjunto de datos se muestra en la siguiente figura (panel
superior). Claramente se puede ver el resultado atı́pico u observación poco común causada por
el error del asistente al introducir los datos. Una vez corregido el error, como en la misma figura
(panel inferior), se puede ver la distribución correcta del conjunto de datos. Como éste es un
conjunto muy pequeño, es difı́cil describir la forma de la distribución aun cuando parece tener
un valor máximo alrededor de 5,0 y parece ser relativamente simétrica.

46 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico



● ● ● ● ●●

1 2 3 4 5

Promedio



● ● ● ● ● ●

4.2 4.4 4.6 4.8 5.0 5.2 5.4

Promedio

Figura: Distribución de promedios de calificaciones.

47 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS

Interpretación de gráficas con ojo crı́tico

Cuando se comparan gráficas de dos conjuntos de datos, se deben comparar sus escalas de medi-
ción, ubicaciones y formas, y buscar mediciones poco comunes o resultados atı́picos. Recuerde
que estos últimos no siempre son causados por errores o introducción errónea de datos. A ve-
ces dan información muy valiosa que no debe ser soslayada. Es posible que sea necesaria más
información para determinar si un resultado atı́pico es una medición válida que sólo sea anor-
malmente grande o pequeña, o si ha habido algún tipo de error en la recolección de datos. Si las
escalas difieren en mucho, debe tenerse cuidado al hacer comparaciones, o ¡sacar conclusiones
que pudieran ser imprecisas!

48 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa


Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para
graficar cantidades en lugar de datos cualitativos. Para obtener un histograma, primero dividimos
el intervalo de las mediciones más pequeñas a la más grande en subintervalos o clases de igual
longitud. Si se ponen en columna los puntos de cada subintervalo y se traza una barra sobre cada
una de las columnas, se habrá creado un histograma de frecuencia relativa, dependiendo de la
escala del eje vertical.

Histograma de frecuencia relativa


Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica
de barras en la que la altura de la barra muestra “con qué frecuencia” (proporción o frecuencia
relativa) las mediciones caen en una clase o subintervalo particular. Las clases o subintervalos se
grafican a lo largo del eje horizontal.

Observación
Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más
clases se requieren. Es posible emplear la siguiente tabla como guı́a para seleccionar un número
apropiado de clases. Esto es sólo una guı́a; puede usar más o menos clases de las recomendadas.
Tamaño de muestra 25 50 100 200 500
Número de clases 6 7 8 9 10

49 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa

Las clases deben ser escogidas para que cada una de las mediciones caiga en una clase y sólo en
una. Consideremos la situación donde interesa calibrar una máquina de llenado de bolsas de 7,5
kilos, y para ello se toman primero las siguientes mediciones que corresponden al peso registrado
de 30 bolsas:

7,2 7,8 6,8 6,2 8,2 8,0 8,2 5,6 8,6 7,1
8,2 7,7 7,5 7,2 7,7 5,8 6,8 6,8 8,5 7,5
6,1 7,9 9,4 9,0 7,8 8,5 9,0 7,7 6,7 7,7

Entonces decidimos usar intervalos de peso de igual longitud. Como el intervalo de pesos de las
bolsas es
9,4 − 5,6 = 3,8
el ancho mı́nimo de clase necesario para cubrir el margen de los datos es 3,8/8 = 0,475. Para
más comodidad, redondearemos este ancho aproximado a 0,5. Empezando el primer intervalo
al valor más bajo, 5,6, formamos subintervalos de 5,6 hasta pero no incluyendo 6,1, y ası́ su-
cesivamente. Usando el método de inclusión izquierda e incluyendo el punto frontera de clase
izquierda pero no el punto frontera derecha en la clase, eliminamos cualquier confusión acerca
de dónde poner una medición que resulte caer en un punto de frontera de clase.

50 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa


La siguiente tabla muestra las ocho clases, numeradas de 1 a 8 para identificación. Las fronteras
para las ocho clases, junto con un total de número de mediciones que caen en cada una de ellas,
también se muestran en la tabla. Al igual que con las gráficas previamente estudiadas, podemos
ahora medir con qué frecuencia se presenta cada clase usando frecuencia o frecuencia relativa.

Clase Fronteras Total Frecuencia Frecuencia


de clase relativa
1 5,6 a < 6,1 || 2 2/30
2 6,1 a < 6,6 || 2 2/30
3 6,6 a < 7,1 |||| 4 4/30
4 7,1 a < 7,6 ||||| 5 5/30
5 7,6 a < 8,1 |||||||| 8 8/30
6 8,1 a < 8,6 ||||| 5 5/30
7 8,6 a < 9,1 ||| 3 3/30
8 9,1 a < 9,6 | 1 1/30

Para construir el histograma de frecuencia relativa, grafique las fronteras de clase a lo largo del
eje horizontal. Trace una barra sobre cada intervalo de clase, con altura igual a la frecuencia
relativa para esa clase. El histograma de frecuencia relativa para los datos de peso de bolsas de
cemento, muestra de un vistazo la forma en que están distribuidos los pesos en el intervalo de
5,6 a 9,4.
51 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa

0.5

0.4
Frecuencia relativa

0.3

0.2

0.1

5.6 6.1 6.6 7.1 7.6 8.1 8.6 9.1 9.6

Peso de bolsas de cemento

Figura: Histograma de frecuencia relativa para los pesos de las bolsas de cemento.

52 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa


Ejemplo
Veinticinco clientes de un Starbucks son entrevistados en una encuesta de mercadeo y se les
pregunta, “¿con qué frecuencia visita usted Starbucks en una semana tı́pica?”. Los resultados
son: 6, 7, 1, 5, 6, 4, 6, 4, 6, 8, 6, 5, 6, 3, 4, 5, 5, 5, 7, 6, 3, 5, 7, 5 y 5. La variable que se mide es
el “número de visitas a Starbucks”, que es una variable discreta que toma sólo valores enteros. En
este caso, lo más sencillo es escoger la clase o subintervalos como los valores enteros en el rango
de valores observados. La siguiente tabla muestra las clases y sus frecuencias correspondientes
y frecuencias relativas.

Número de visitas Frecuencia Frecuencia


a Starbucks relativa
1 1 0,04
2 − −
3 2 0,08
4 3 0,12
5 8 0,32
6 7 0,28
7 3 0,12
8 1 0,04

53 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa

Como resumen, para construir un histograma de frecuencia relativa, podemos seguir los siguien-
tes pasos:

1 Escoja un número de clases, por lo general entre 5 y 12. Cuantos más datos se tengan, más
clases deben usarse.
2 Calcule el ancho aproximado de clase al dividir la diferencia entre los valores máximo y
mı́nimo entre el número de clases.
3 Redondee el ancho aproximado de clase hasta un número cómodo.
4 Si los datos son discretos, se puede asignar una clase para cada valor entero tomado de los
datos. Para un número grande de valores enteros, puede que sea necesario agruparlos en
clase.
5 Localice las fronteras de clase. La clase más baja puede incluir la medición más pequeña.
A continuación sume las clases restantes usando el método de inclusión izquierda.
6 Construya una tabla estadı́stica que contenga las clases, sus frecuencias y sus frecuencias
relativas.
7 Construya un histograma como una gráfica de barras, graficando intervalos de clase en el
eje horizontal y frecuencias relativas como las alturas de las barras.

54 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa

Se puede usar un histograma de frecuencia relativa para describir la distribución de un conjunto


de datos en términos de su ubicación y forma, y ver si hay resultados atı́picos como lo hizo con
otras gráficas. Por ejemplo, los datos de peso de bolsas de cemento son relativamente simétricos,
sin mediciones poco comunes, en tanto que los datos de Starbucks estuvieron sesgados a la
izquierda. Como la barra construida arriba de cada clase representa la frecuencia relativa de las
mediciones en esa clase, estas alturas se pueden usar para darnos información adicional:

La proporción de las medidas que caen en una clase o grupo particular de clases
La probabilidad de que una medida tomada al azar del conjunto caerá en una clase particular
o grupo de clases

Considere el histograma de frecuencia relativa para los datos del peso de bolsas de cemento.
¿Qué proporción de las bolsas tienen pesos de 7,6 o mayores? Esto abarca todas las clases de
más de 7,6 en la respectiva tabla. Como hay 17 bolsas en esas clases, la proporción de bolsas
con un peso de 7,6 o más es 17/30 = 0,57.

55 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Histograma de frecuencia relativa


Aun cuando estamos interesados en describir un conjunto de n mediciones, también podrı́amos
estar interesados en la población de donde se sacó la muestra. Un histograma de una muestra
da valiosa información acerca del histograma de población, es decir, la gráfica que describe la
distribución de toda la población.
Recuerde, sin embargo, que diferentes muestras de la misma población producirán histogramas
diferentes, aun cuando se usen fronteras de la misma clase. No obstante, puede esperarse que los
histogramas de la muestra y población sean similares. Al agregar más y más datos a la muestra,
los dos histogramas se hacen cada vez más semejantes. ¡Si se agranda la muestra para incluir
toda la población, ambos histogramas son idénticos!
Conforme siga trabajando los ejercicios de esta unidad, adquirirá más experiencia para reconocer
diferentes tipos de datos y determinar el método gráfico más apropiado a usar. Recuerde que el
tipo de gráfica que use no es tan importante como la interpretación que acompaña a la
imagen. Busque estas importantes caracterı́sticas:

Ubicación del centro de los datos


Forma de la distribución de datos
Observaciones poco comunes del conjunto de datos

Al utilizar estas caracterı́sticas como guı́a, podrá interpretar y comparar conjuntos de datos usan-
do métodos gráficos, que son sólo la primera de numerosas herramientas estadı́sticas que pronto
tendrá a su disposición.
56 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Ejercicios

1. Construya un histograma de frecuencia relativa c) ¿Qué fracción de las mediciones es me-


para estas 50 mediciones: nor a 5,1?
3,1 4,9 2,8 3,6 2,5 d) ¿Qué fracción de las mediciones es ma-
4,5 3,5 3,7 4,1 4,9 yor a 3,6?
2,9 2,1 3,5 4,0 3,7
2,7 4,0 4,4 3,7 4,2 2. Investigue que es una gráfica de tallo y hoja.
3,8 6,2 2,5 2,9 2,8 4,5 3,2 3,5 3,9 3,5
5,1 1,8 5,6 2,2 3,4 3,9 4,3 4,8 3,6 3,3
2,5 3,6 5,1 4,8 1,6 4,3 4,2 3,9 3,7 4,3
3,6 6,1 4,7 3,9 3,9 4,4 3,4 4,2 4,4 4,0
4,3 5,7 3,7 4,6 4,0 3,6 3,5 3,9 4,0
5,6 4,9 4,2 3,1 3,9 Considere el conjunto de datos adjunto:
a) ¿Aproximadamente cuántos intervalos de
clase debe usar? a) Construya una gráfica de tallo y hoja
b) Supongamos que usted decide usar cla- usando el dı́gito inicial como tallo.
ses que empiezan en 1,6 con ancho de b) Construya una gráfica de tallo y hoja
clase de 0,5 (es decir, 1,6 a < 2,1, usando dos veces cada uno de los dı́gitos
2,1 a < 2,6). Construya el histograma iniciales, ¿Esta técnica mejora la presen-
de frecuencia relativa para los datos. tación de los datos? Explique.

57 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Ejercicios
3. Una variable discreta puede tomar sólo los va- con éxito por un laberinto en cada uno de cin-
lores 0, 1 ó 2. Un conjunto de 20 mediciones co dı́as. Los resultados se muestran en la ta-
en esta variable se muestra: bla siguiente. Genere una gráfica de lı́neas para
1 2 1 0 2 describir los datos. ¿Piensa usted que hay algún
2 1 1 0 0 aprendizaje?
2 2 1 1 0 Dı́a 1 2 3 4 5
0 1 2 1 1
T 45 43 46 32 25
a) Construya un histograma de frecuencia
6. El valor de una variable cuantitativa se mide
relativa para los datos.
una vez al año durante un periodo de 10 años.
b) ¿Qué proporción de las mediciones es He aquı́ los datos:
mayor a 1?
c) ¿Qué proporción de las mediciones es Año Medición Año Medición
menor a 2?
1 61,5 6 58,2
d) Si una medición se selecciona al azar de 2 62,3 7 57,5
entre las 20 mediciones mostradas, ¿cuál 3 60,7 8 57,5
es la probabilidad de que sea un 2? 4 59,8 9 56,1
e) Describa la forma de la distribución. ¿Ve 5 58,0 10 56,0
algunos resultados atı́picos?
a) Genere una gráfica de lı́neas para des-
4. Considere el ejercicio anterior. Trace una gráfi- cribir la variable cuando cambie con el
ca de puntos para describir los datos. tiempo.
5. Un psicólogo experimental midió el tiempo (T ) b) Describa las mediciones usando la gráfi-
en segundos, que tardó una rata para navegar ca construida en el inciso a).

58 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA

Ejercicios

7. Las calificaciones en un examen de 100 puntos a) Construya un histograma de frecuencia


se registraron para 20 estudiantes: relativa. Describa la forma de la distribu-
61 93 91 86 55 63 ción. ¿Ve algunos resultados atı́picos?
86 82 76 57 94 89 b) Suponiendo que los resultados atı́picos
67 62 72 87 68 65 de este conjunto de datos sean observa-
75 84 ciones válidas, ¿cómo los explicarı́a a la
Use una gráfica apropiada para describir los da- administración de la cadena de supermer-
tos, y describa la forma y ubicación de las cali- cados?
ficaciones. ¿Es poco común la forma de la dis- 9. La cantidad de glóbulos rojos de una persona
tribución? sana se midió en cada uno de 15 dı́as. El núme-
6
8. Para determinar el número de cajas de pago que ro registrado se midió en 10 células por mi-
en el futuro es necesario construir, una cadena crolitro (µL).
de supermercados desea obtener información 5,4 5,2 5,0 5,2 5,5
del tiempo (en minutos) necesario para dar ser- 5,3 5,4 5,2 5,1 5,3
vicio a clientes. Para hallar la distribución de 5,3 4,9 5,4 5,2 5,2
tiempos de tal servicio, se registró una muestra
Use una gráfica apropiada para describir los da-
de 1000 tiempos. Treinta de éstos se muestran
tos, y describa la forma y ubicación de las can-
a continuación:
tidades de glóbulos rojos.
3,6 1,9 2,1 0,3 0,8
0,2 1,0 1,4 1,8 1,6
1,1 1,8 0,3 1,1 0,5
1,2 0,6 1,1 0,8 1,7
1,4 0,2 1,3 3,1 0,4
2,3 1,8 4,5 0,9 0,7

59 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS

Contenidos de la unidad

3 DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS


OBJETIVOS
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
MEDIDAS DE VARIABILIDAD
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
MEDICIONES DE POSICIÓN RELATIVA
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

60 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
OBJETIVOS

Objetivos

Objetivo
Las gráficas son sumamente útiles para la descripción visual de un conjunto de datos, pero no
siempre son la mejor herramienta cuando se desea hacer inferencias acerca de una población a
partir de la información contenida en una muestra. Para este propósito, es mejor usar medidas
numéricas para construir una imagen mental de los datos.

61 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS

Descripción de datos con medidas numéricas

Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Sabemos
que “una imagen vale por mil palabras” pero hay limitaciones para usar gráficas.
Una limitación es que las gráficas son un tanto imprecisas para usar en inferencia estadı́stica.
Por ejemplo, supongamos que desea usar un histograma muestral para hacer inferencias acerca
de un histograma poblacional. ¿Cómo puede medir las similitudes y diferencias entre los dos
histogramas en alguna forma concreta? Si son idénticas, podrı́a usted decir que son las mismas,
pero, si son diferentes, es difı́cil describir el grado de diferencia.
Una forma de superar estos problemas es usar medidas numéricas, que se pueden calcular para
una muestra o una población de mediciones. Se pueden usar los datos para calcular un conjunto
de números que llevarán una buena imagen mental de la distribución de frecuencia. Estas medi-
ciones se llaman parámetros cuando se asocian con la población y se denominan estadı́sticas
cuando se calculan a partir de mediciones muestrales.

Parámetros y estadı́sticas
Las mediciones descriptivas numéricas asociadas con una población de mediciones se llaman
parámetros; las calculadas a partir de mediciones muestrales reciben el nombre de estadı́sticas.

62 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

En la capı́tulo anterior introdujimos gráficas de puntos e histogramas para describir la distribu-


ción de un conjunto de mediciones en una variable cuantitativa x, donde el eje horizontal presenta
los valores de x, y los datos están “distribuidos” a lo largo de esta recta horizontal. Una de las
primeras mediciones numéricas importantes es una medida de centro, es decir, una medida a lo
largo del eje horizontal que localiza el centro de la distribución.
El promedio aritmético de un conjunto de mediciones es una medida de centro muy común y
útil. Es frecuente que esta medida se conozca como media aritmética o simplemente media,
de un conjunto de mediciones. Para distinguir entre la media para la muestra y la media para la
población, usamos el sı́mbolo x̄ (x barra) para una media muestral y el sı́mbolo µ para la media
de una población.

Media
La media aritmética o promedio de un conjunto de n mediciones es igual a la suma de las
mediciones dividida entre n.

63 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

Suponga que hay n mediciones en la variable x y que las llamamos x1 , x2 , . . . , xn . Para sumar
las n mediciones, usamos esta notación abreviada:
n
X
xi que significa x1 + x2 + · · · + xn
i=1

Como las sumas tı́picas en cálculos estadı́sticos se hacen


Pcasi siempre sobre el conjunto total de
n mediciones, se puede usar una notación más sencilla: xi que significa “la suma de todas las
mediciones de x”.
Usando esta notación, escribimos la fórmula para la media muestral:
P
xi
Media muestral:x̄ =
n
Media poblacional:µ

64 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

Ejemplo
Consideremos una pequeña muestra de n = 5 mediciones, dadas por 2, 9, 11, 5, 6. Para hallar
la media muestral, calculamos
P
xi 2 + 9 + 11 + 5 + 6
x̄ = = = 6,6
n 5
La siguiente Figura, muestra el gráfico de puntos para estos datos y la ubicación de la media
muestral.

65 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

x = 6.6
● ● ● ● ●

2 4 6 8 10

Mediciones

Figura: Gráfica de puntos y la ubicación de la media.

66 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

Recuerde que las muestras son mediciones tomadas de una población más grande que en general
es desconocida. Un uso importante de la media muestral x̄, es que es un estimador de la media
poblacional desconocida µ. Recordemos los datos de los pesos de las bolsas de cemento, estos
datos son una muestra de una población más grande y la distribución se muestra se muestra en el
respectivo histograma de frecuencias relativas. La media de los 30 pesos de las bolsas es:
P
xi 227,2
x̄ = = = 7,57
30 30
La media de toda la población de bolsas llenadas por la máquina es desconocida, pero si us-
ted tuviera que calcular su valor, su mejor estimación serı́a 7,57. Aun cuando cambia la media
muestral x̄ de una muestra a otra, la media poblacional µ sigue igual.
Una segunda medida de tendencia central es la mediana, que es el valor de la posición media en
el conjunto de mediciones ordenadas de menor a mayor.

Mediana
La mediana m de un conjunto de n mediciones es el valor de x que cae en la posición media
cuando las mediciones son ordenadas de menor a mayor.

67 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

Ejemplo
Para hallar la mediana del siguiente conjunto de datos 2, 9, 11, 5 y 6. Primero debemos ordenar
las n = 5 mediciones de menor a mayor:

2 5 6 9 11

La observación central, es el centro del conjunto, o sea m = 6.


Supongamos ahora, que tenemos una nueva observación, x = 27, entonces ordenamos las me-
diciones de menor a mayor:
2 5 6 9 11 27
Ahora hay dos observaciones centrales. Para hallar la mediana, escogemos el valor a la mitad
entre las dos observaciones centrales:
6+9
m= = 7,5
2

68 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

El valor (n + 1)/2 indica la posición de la mediana del conjunto ordenado de datos. Si la


posición de la mediana es un número que termina en el valor ,5, necesita promediar los dos
valores adyacentes.

Ejemplo
Para las n = 5 mediciones ordenadas (2, 5, 6, 9, 11), la posición de la mediana es (n + 1)/2 =
6/2 = 3 y la mediana es la tercera observación ordenada, o m = 6. Para las n = 6 medi-
ciones ordenadas (2, 5, 6, 9, 11, 27), la posición de la mediana es (n + 1)/2 = 7/2 = 3,5 y la
mediana es el promedio de las 3o y 4o observaciones ordenadas, o m = 7,5.

69 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

Aunque tanto la media como la mediana son buenas medidas del centro de una distribución, la
mediana es menos sensible a valores o resultados atı́picos. Por ejemplo, el valor x = 27 en los
ejemplos anteriores es mucho mayor que las otras mediciones. La mediana, m = 7,5, no se ve
afectada por el resultado atı́pico, en tanto que el promedio muestral,
P
xi 60
x̄ = = = 10
n 6
sı́ es afectado; su valor no es representativo de las cinco observaciones restantes.
Cuando un conjunto de datos tiene valores extremadamente pequeños u observaciones muy gran-
des, la media muestral se traza hacia la dirección de las mediciones extremas (véase la siguiente
Figura).

70 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro

media = mediana media > mediana


0.25

0.25

0.19
Frecuencia relativa

Frecuencia relativa
0.19

0.12
0.12

0.06
0.06

0 0

Figura: Distribuciones de frecuencia relativa mostrando el efecto de valores extremos en la media y mediana.

71 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Medidas de centro
Si una distribución está sesgada a la derecha, la media se corre a la derecha; si una distribución
está sesgada a la izquierda se corre a la izquierda. La mediana no es afectada por estos valores
extremos porque los valores numéricos de las mediciones no se usan en este cálculo. Cuando una
distribución es simétrica, la media y la mediana son iguales. Si una distribución está fuertemente
sesgada por uno o más valores extremos, se debe emplear la mediana en lugar de la media como
medida de centro. Otra forma de localizar el centro de una distribución es buscar el valor de x
que se presenta con la frecuencia más alta. Esta medida del centro se denomina moda.

Moda
La moda es la categorı́a que se presenta con más frecuencia o el valor de x que se presenta
con más frecuencia. Cuando las mediciones es una variable continua se han agrupado como
histograma de frecuencia o de frecuencia relativa, la clase con el valor máximo o frecuencia se
llama clase modal, y el punto medio de esa clase se toma como la moda.

La moda por lo general se usa para describir conjuntos grandes de datos, mientras que la media
y la mediana se usan para conjuntos de datos grandes y pequeños.
Es posible que una distribución de mediciones tenga más de una moda. Estas modas aparecerı́an
como “máximos locales” en la distribución de frecuencia relativa. A veces las distribuciones
bimodales de tamaños o pesos reflejan una mezcla de mediciones, por ejemplo, tomadas de
machos y hembras. En cualquier caso, un conjunto o distribución de mediciones puede tener más
de una moda.
72 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Ejercicios

1. Nos dan n = 5 mediciones: 0, 5, 1, 1, 3. 4. El costo de asegurar un auto se ha convertido


en un tema de disgusto en Chile porque las ta-
a) Trace una gráfica de puntos para los datos
sas de seguro dependen de variables tan distin-
(si dos mediciones son iguales, ponga un
tas; por ejemplo, la ciudad en la que el usuario
punto arriba del otro). Calcule el “centro”
vive, el número de autos que tenga y la com-
aproximado.
pañı́a que está asegurando. El Sernac informa
b) Encuentre la media, mediana y moda. que la prima anual para 2017-2018 para una
c) Localice las tres mediciones de centro mujer soltera, con licencia de manejo duran-
en la gráfica de puntos en el inciso a). te 4-8 años, que conduce un Honda Accord de
Con base en las posiciones relativas de 20 300 a 24 200 kilómetros al año y ha tenido
la media y mediana, ¿las mediciones son infracciones ni accidentes.
simétricas o son sesgadas?
Ciudad Liberty Security
2. Nos dan n = 8 mediciones: 3, 2, 5, 6, 4, 4, 3,
5. Iquique 131 236 111 370
Caldera 115 584 104 748
a) Encuentre x̄. Copiapó 114 380 103 544
b) Encuentre m. Santiago 112 574 94 514
c) Con base en los resultados de los inci-
sos a) y b), ¿las medidas son simétricas o a) ¿Cuál es el promedio de las primas de Se-
sesgadas? Trace la gráfica de puntos para guros Liberty y Seguros Security?
confirmar su respuesta. b) Si usted fuera consumidor, ¿estarı́a in-
3. Nos dan n = 10 mediciones: 3, 5, 4, 6, 10, 5, teresado en el costo promedio de las pri-
6, 9, 2, 8. Encuentre x̄, m y la moda. mas? Si no es ası́, ¿qué le interesarı́a?

73 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Ejercicios

5. Un teléfono celular es un aparato común en casi media, mediana y moda a lo largo del eje
todas las personas en Chile. De hecho, casi to- horizontal. ¿Las respuestas a los incisos
das las personas tienen uno y otras tienen más a) y b) son correctas?
de uno. Una muestra de 25 personas produjo
las siguientes mediciones en x, el número de
teléfonos celulares que posee una persona: 6. ¿El orden de nacimiento tiene algún efecto en
la personalidad de una persona? Un informe so-
1 2 2 1 1 1 1 2 bre un estudio, hecho por un investigador del
1 2 1 1 2 3 2 1 MIT, indica que es probable que los hijos naci-
1 1 2 1 3 1 0 1 dos después del primogénito pongan a prueba
1 lo establecido, son más abiertos a nuevas ideas
a) La distribución de x, el número de teléfo- y aceptan más un cambio. De hecho, el núme-
nos celulares que posee una persona, ¿es ro de esta clase de hijos es creciente. Durante
simétrica o sesgada? Explique. los años de la Depresión en el decenio de 1930,
b) Calcule el valor de la moda, el valor de x las familias promediaban 2,5 hijos (59 % des-
que se presenta con más frecuencia. pués del primogénito), mientras que los padres
c) Calcule la media, la mediana y la moda de familia en la explosión demográfica prome-
para estas mediciones. diaban de tres a cuatro hijos (68 % después del
d) Trace un histograma de frecuencia relati- primogénito). ¿Qué quiere decir el autor con un
va para el conjunto de datos. Localice la promedio de 2,5 hijos?

74 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Ejercicios

7. Un artı́culo en Consumer Report da el precio, c) Con base en lo que encuentre en los inci-
un promedio estimado de una lata de 180 gra- sos a) y b), ¿piensa usted que la distribu-
mos o un paquete 210 gramos, para 14 marcas ción de precios está sesgada? Explique.
diferentes de atún empacado en agua, basado
en precios pagados a nivel nacional en super- 8. A medida que los equipos de fútbol profesiona-
mercados: les hacen negocios cada vez más lucrativos, los
613 1189 762 527 402 salarios pagados a los jugadores también han
328 874 694 390 415 aumentado. De hecho, a las superestrellas de-
428 372 372 408 portivas se les pagan salarios astronómicos por
su talento. Si una compañı́a de administración
a) Encuentre el precio promedio para las 14 deportiva le pode a usted que describa la distri-
marcas diferentes de atún. bución de los salarios de los jugadores, en va-
b) Encuentre el precio mediano para las 14 rias categorı́as diferentes, ¿qué medida de cen-
marcas diferentes de atún. tro escogerı́a? ¿Por qué?

75 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO

Ejercicios

9. En un experimento psicológico, fue registrado a continuación.


el tiempo que una persona realiza una tarea en 16 7 2 6 4
particular para 10 personas bajo una limitación 1 7 1 1 1
de 5 minutos. Estas mediciones son en segun- 3 2 11 1 5
dos: 1 4 12
175 190 250 230 240
200 185 190 225 265
a) Encuentre la media, la mediana y la mo-
a) Encuentre el tiempo promedio en realizar da.
la tarea.
b) Encuentre la mediana del tiempo en rea- b) Compare la mediana y la media. ¿Qué
lizar la tarea. puede usted decir acerca de la forma de
c) Si usted está escribiendo un informe pa- la distribución?
ra describir estos datos, ¿qué medida de c) Trace una gráfica de puntos para los da-
tendencia central usarı́a? Explique. tos. ¿Esto confirma la conclusión de us-
10. El número de cafeterı́as Starbucks en 18 co- ted acerca de la forma de la distribución
munas de la región metropolitana, se muestra para el inciso b)?

76 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

Los conjuntos de datos pueden tener el mismo centro pero con aspecto diferente por la forma
en que los números se dispersan desde el centro. Considere las dos distribuciones que se mues-
tran en la siguiente figura. Ambas distribuciones están centradas en x = 4, pero hay una gran
diferencia en la forma en que las mediciones se dispersan o varı́an. Las mediciones de la figura
(panel izquierdo) varı́an de 3 a 5; en la figura (panel derecho) las mediciones varı́an de 0 a 8.

77 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8

Figura: Variabilidad o dispersión de datos.

78 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

La variabilidad o dispersión es una muy importante caracterı́stica de los datos. Por ejemplo, si
fabrica tornillos, la variación extrema en los diámetros de los tornillos causarı́a un alto porcentaje
de productos defectuosos. Por el contrario, si estuviera tratando de discriminar entre trabajado-
res buenos y malos, tendrı́a problemas si el examen siempre produjera calificaciones con poca
variación, lo cual hace muy difı́cil la discriminación.
Las medidas de variabilidad pueden ayudar a crear una imagen mental de la dispersión de los
datos. La medida más sencilla de variación es el rango.

Rango
El rango, R, de un conjunto de n mediciones se define como la diferencia entre la medición más
grande y la más pequeña.

Para los datos de los pesos de las bolsas de cemento, las mediciones varı́an de 5,6 a 9,4. Por tanto,
el rango es 9,4 − 5,6 = 3,8. El rango es fácil de calcular, fácil de interpretar y es una medida
adecuada de variación para conjuntos pequeños de datos. Pero, para conjuntos grandes, el rango
no es una medida adecuada de variabilidad. Por ejemplo, las dos distribuciones de frecuencia
relativa de la siguiente figura tienen el mismo rango pero muy diferentes formas y por lo tanto,
diferente variabilidad.

79 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8

Figura: Distribuciones con igual rango y desigual variabilidad.

80 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

¿Hay una medida de variabilidad que sea más sensible que el rango? Considere, como ejemplo,
las mediciones muestrales 5, 7, 1, 2 y 4, mostradas como una gráfica de puntos en la siguiente
figura. La media de estas cinco mediciones es
P
xi 19
x̄ = = = 3,8
n 5

81 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

x = 3.8
xi − x
● ● ● ● ●

0 1 2 3 4 5 6 7 8

Figura: Gráfica de puntos que muestran las desviaciones de puntos desde la media.

82 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad
Como se indica en figura anterior, las distancias horizontales entre cada punto (medición) y
la media x̄ ayudarán a medir la variabilidad. Si las distancias son grandes, los datos son más
dispersos o variables que si las distancias son pequeñas. Si xi es una medición en particular,
entonces la desviación de esa medición desde la media es (xi − x̄). Los valores de x y las
desviaciones para nuestro ejemplo si detallan en las columnas primera y segunda de la siguiente
tabla.

x (xi − x̄) (xi − x̄)2


5 1,2 1,44
7 3,2 10,24
1 −2,8 7,84
2 −1,8 3,24
4 0,2 0,04
19 0,0 22,80

Como las desviaciones en la segunda columna de la tabla contienen información sobre variabi-
lidad, una forma de combinar las cinco desviaciones en una medida numérica es promediarlas.
Desafortunadamente, el promedio no funcionará por que algunas de las desviaciones son posi-
tivas, algunas son negativas y la suma es siempre cero. Para superar esta dificultad, se trabajará
con la suma de cuadrados. De la suma de desviaciones cuadradas, se calcula una sola medida
llamada varianza.
83 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad
Para distinguir entre la varianza de una muestra y la varianza de una población, usamos el
sı́mbolo s2 para una varianza muestral y σ 2 para una varianza poblacional.

Varianza poblacional
La varianza de una población de N mediciones es el promedio de los cuadrados de las desvia-
ciones de las mediciones alrededor de su media µ. La varianza poblacional se denota con σ 2 y
está dada por la fórmula
(xi − µ)2
P
σ2 =
N

La mayor parte de las veces, no tendremos todas las mediciones de la población disponible,
entonces necesitaremos calcular la varianza de una muestra de n mediciones.
Varianza muestral
La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las
mediciones alrededor de la media x̄ dividida entre (n − 1). La varianza muestral se denota con
s2 y está dada por la fórmula
(xi − x̄)2
P
s2 =
n−1

84 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad
Para el conjunto de n = 5 mediciones muestrales presentadas anteriormente, el cuadrado de la
desviación de cada medición se registra en la tercera columna. Sumando, tendremos
X
(xi − x̄)2 = 22,80

y la varianza muestral es

(xi − x̄)2
P
22,80
s2 = = = 5,70
n−1 4

La varianza se mide en términos del cuadrado de las unidades originales de medición. Tomando
la raı́z cuadrada de la varianza, obtenemos la desviación estándar, que regresa la medida de
variabilidad a las unidades originales de medición.

Desviación estándar
La desviación estándar de un conjunto de mediciones es igual a la raı́z cuadrada positiva de la
varianza.

Para el conjunto de n = 5 mediciones muestrales presentadas,√la varianza muestral es s2 =



5,70, de modo que la desviación estándar de la muestra es s = s2 = 5,70 = 2,39. Cuanto
más variable sea el conjunto de datos, mayor es el valor de s.
85 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Medidas de variabilidad

Para el pequeño conjunto de datos que empleamos, el cálculo de la varianza no es demasiado


difı́cil. No obstante, para un conjunto más grande, los cálculos pueden hacerse tediosos. Si se
necesita calcular manualmente s2 y s, es mucho más fácil usar la fórmula alternativa de cálculo
dada en la siguiente definición. Esta forma computacional se denomina a veces método breve
para calcular s2 .

Formula computacional

( xi )2
X P
x2i −
s2 = n
n−1

Se puede preguntar por qué es necesario dividir entre (n − 1) en lugar de n cuando se calcula
la varianza poblacional. Ası́ como empleamos la media muestral x̄ para estimar la media pobla-
cional µ, se puede usar la varianza muestral s2 para estimar la varianza poblacional σ 2 . Resulta
que la varianza muestral s2 con (n − 1) en el denominador da estimaciones mejores de σ 2 de lo
que darı́a un estimador calculado con n en el denominador. Por esta razón, siempre dividimos
entre (n − 1) al calcular la varianza muestral s2 y la desviación estándar de la muestra s.

86 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Ejercicios

1. Nos dan n = 5 mediciones: 2, 1, 1, 3, 5. c) Calcule la varianza muestral y desviación


a) Calcule la media muestral, x̄. estándar.
2
b) Calcule la varianza muestral, s , usando d) Compare el rango y la desviación es-
la fórmula da(da por la definición. tándar. ¿El rango es aproximadamente
c) Encuentre la desviación estándar de la cuántas desviaciones estándar?
muestra s. 4. Un artı́culo en Archaeometry contenı́a un análi-
2
d) Encuentre s y s usando la fórmula sis de 26 muestras de cerámica romano-británi-
computacional. Compare los resultados cas hallada en cuatro hornos diferentes en el
con los hallados en los incisos b) y c). Reino Unido. Las muestras fueron analizadas
2. Nos dan n = 8 mediciones: 4, 1, 3, 1, 3, 1, 2, para determinar su composición quı́mica. El
2. porcentaje de óxido de hierro en cada una de las
cinco muestras recolectadas en el sitio de Island
a) Encuentre el rango. Thorns fue: 1,28, 2,39, 1,50, 1,88, 1,51.
b) Calcule x̄.
2 a) Calcule en rango.
c) Calcule s y s usando la fórmula compu-
tacional. b) Calcule la varianza muestral y la desvia-
ción estándar usando la fórmula compu-
3. Nos dan n = 8 mediciones: 3, 1, 5, 6, 4, 4, 3, tacional.
5. c) Compare el rango y la desviación es-
a) Calcule el rango. tándar. ¿El rango es aproximadamente
b) Calcule la media muestral. cuántas desviaciones estándar?

87 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD

Ejercicios

5. Los estados de cuenta mensuales por consumo para el año 2016.


eléctrico (en pesos) para una familia de Co- b) Calcule el promedio mensual de pago de
piapó, se registraron durante 12 meses conse- electricidad en 2016.
cutivos empezando en enero de 2016. c) Calcule la desviación estándar para el pa-
a) Calcule el rango del pago de electricidad go de electricidad para el mismo año.

Mes Cantidad Mes Cantidad


Ene 17 596 Jul 19 081
Feb 10 171 Ago 20 882
Mar 14 657 Sep 21 381
Abr 10 123 Oct 14 117
May 11 649 Nov 13 008
Jun 17 990 Dic 14 345

88 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

A continuación introducimos un útil teorema ideado por el matemático ruso Tchebychev. La


demostración del teorema no es difı́cil, pero estamos más interesados en su aplicación.

Teorema de Tchebychev
Dado un número k mayor o igual a 1 y un conjunto de n mediciones, al menos 1 − (1/k2 ) de
las mediciones estarán dentro de k desviaciones estándar de su media.

El teorema de Tchebychev aplica a cualquier conjunto de mediciones y se puede usar para


describir ya sea una muestra o una población. Usaremos la notación apropiada para poblaciones,
pero usted debe ver que con la misma facilidad podrı́amos usar la media y la desviación estándar
para la muestra.
La idea comprendida en el teorema de Tchebychev está ilustrada en la siguiente figura. Se cons-
truye un intervalo al medir una distancia kσ a cualquier lado de la media µ. El número k puede
ser cualquier número mientras sea mayor o igual a 1. Entonces el teorema de Tchebychev expresa
que al menos 1 − (1/k2 ) del número total n de mediciones está en el intervalo construido.

89 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

1
Al menos 1 −
k2

kσ kσ

µ − kσ µ µ + kσ

Figura: Ilustración del teorema de Tchebychev.

90 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

En la siguiente tabla escogimos unos cuantos valores numéricos para k y calculamos 1−(1/k2 ).

k 1 − (1/k2 )
1 1−1=0
2 1 − 1/4 = 3/4
3 1 − 1/9 = 8/9

De los cálculos de la tabla, el teorema establece que:

Al menos ninguna de las mediciones está en el intervalo µ − σ a µ + σ.


Al menos 3/4 de las mediciones está en el intervalo µ − 2σ a µ + 2σ.
Al menos 8/9 de las mediciones está en el intervalo µ − 3σ a µ + 3σ.

Aun cuando el primer enunciado no es útil en absoluto, los otros dos valores de k dan valiosa
información acerca de la proporción de mediciones que caen en ciertos intervalos. Los valores
k = 2 y k = 3 no son los únicos valores de k que se pueden usar; por ejemplo, la proporción
de mediciones que caen dentro de k = 2,5 desviaciones estándar de la media es al menos
1 − (1/2,52 ) = 0,84.

91 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

Ejemplo

√ de n = 25 mediciones son 75 y 100, respectivamente.


La media y varianza de una muestra
La desviación estándar es s = 100 = 10. La distribución de las mediciones está centrada
alrededor de x̄ = 75, y el teorema de Tchebychev establece que:
Al menos 3/4 de las 25 mediciones están en el intervalo x̄ ± 2s = 75 ± 2(10), esto es,
55 a 95.
Al menos 8/9 de las mediciones están en el intervalo x̄ ± 3s = 75 ± 3(10), esto es, 45 a
105.

92 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

Como el teorema de Tchebychev se aplica a cualquier distribución, es muy conservador. Ésta es


la razón por la que hacemos hincapié en “al menos 1 − (1/k2 )” en este teorema.
Otra regla para describir la variabilidad de un conjunto de datos no funciona para todos los
conjuntos de datos, pero funciona muy bien para datos que “se apilan” en la conocida forma
de campana (o campana de Gauss, una distribución simétrica y unimodal). Cuanto más cerca se
encuentre la distribución a la forma de campana, más precisa será la regla. Como la distribución
de datos de forma de campana se presenta con frecuencia en la naturaleza, la regla se puede usar
en numerosas ocasiones en aplicaciones prácticas. Por esta razón, se denomina Regla empı́rica.

Regla empı́rica
Dada una distribución de mediciones que tiene forma aproximada de campana:
El intervalo (µ ± σ) contiene aproximadamente 68 % de las mediciones.
El intervalo (µ ± 2σ) contiene aproximadamente 95 % de las mediciones.
El intervalo (µ ± 3σ) contiene aproximadamente 99,7 % de las mediciones.

La distribución en forma de campana se conoce comúnmente como distribución normal y se


estudiará en detalle en las unidades posteriores.

93 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

Ejemplo
En un estudio de tiempo efectuado en una planta manufacturera, el tiempo para completar una
operación especı́fica se mide para cada uno de los n = 40 trabajadores. Se encuentra que la
media y la desviación estándar son 12,8 y 1,7, respectivamente. Para describir estos datos mues-
trales usando la Regla empı́rica, primero calculamos los siguientes intervalos:

(x̄ ± s) = 12,8 ± 1,7 o 11,1 a 14,5


(x̄ ± 2s) = 12,8 ± 2(1,7) o 9,4 a 16,2
(x̄ ± 3s) = 12,8 ± 3(1,7) o 7,7 a 17,9

De acuerdo con la Regla empı́rica, se espera que aproximadamente 68 % de las mediciones


caigan en el intervalo de 11,1 a 14,5, aproximadamente 95 % caiga en el intervalo de 9,4 a
16,2, y aproximadamente 99,7 % caigan en el intervalo de 7,7 a 17,9.
Si hay duda de que la distribución de mediciones tenga forma de campana o si se desea ser
conservador por alguna razón, se puede aplicar el teorema de Tchebychev y estar absolutamente
seguro de sus afirmaciones. El teorema de Tchebychev dice que al menos 3/4 de las mediciones
caen en el intervalo de 9,4 a 16,2 y al menos 8/9 en el intervalo de 7,7 a 17,9.

94 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Sobre la significancia de la desviación estándar

El teorema de Tchebychev se puede demostrar matemáticamente. Se aplica a cualquier conjunto


de mediciones, muestra o población, grande o pequeño, en forma de campana o sesgado.
El teorema de Tchebychev da un lı́mite inferior a la fracción de mediciones a encontrar en un
intervalo construido como x̄ ± ks. ¡Al menos 1 − (1/k2 ) de las mediciones caerán en este
intervalo, y probablemente más!
La Regla empı́rica es una “regla práctica” que se puede usar como herramienta descriptiva cuando
los datos tienden a ser de forma más o menos de campana.
Cuando se usen estas dos herramientas para describir un conjunto de mediciones, el teorema de
Tchebychev siempre se satisface pero en una estimación muy conservadora de la fracción de
mediciones que caen en un intervalo particular. Si es apropiado usar la Regla empı́rica, esta regla
dará una estimación más precisa de la fracción de mediciones que caen en el intervalo.

95 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Ejercicios

1. Un conjunto de n = 10 mediciones consta de representar la distribución de frecuencia


los valores 5, 2, 3, 6, 1, 2, 4, 5, 1, 3. relativa?
a) Trace una gráfica de puntos de este con- b) Si no tiene usted información previa res-
junto de datos. ¿Los datos tiene forma de pecto a la forma de la distribución de fre-
campana? cuencia relativa, ¿qué puede decir acer-
b) ¿Puede usar el teorema de Tchebychev ca del histograma de frecuencia relativa?
para describir este conjunto de datos? (Sugerencia: Construya intervalos x̄±ks
¿Por qué sı́ o por qué no? para varias opciones de k.)
c) ¿Puede usar la Regla empı́rica para des- 3. Una distribución de mediciones tiene relativa-
cribir este conjunto de datos? ¿Por qué si mente la forma de campana con media de 50 y
o por qué no? desviación estándar de 10.
2. Supongamos que usted desea crear una ima- a) ¿Qué proporción de las mediciones caerá
gen mental del histograma de frecuencia rela- entre 40 y 60?
tiva para un conjunto de datos grande formado b) ¿Qué proporción de las mediciones caerá
por mil observaciones y que sabe que la media entre 30 y 70?
y desviación estándar del conjunto de datos son c) ¿Qué proporción de las mediciones caerá
36 y 3, respectivamente. entre 30 y 60?
a) Se está más o menos seguro que la distri- d) Si se escoge una medición al azar de esta
bución de frecuencia relativa de los datos distribución, ¿cuál es la probabilidad de
tiene forma de campana, ¿cómo podrı́a que sea mayor a 60?

96 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Ejercicios

4. Un conjunto de datos tiene una media 75 y una 1,08 0,99 0,97 1,18
desviación estándar de 5. Usted no sabe nada 1,41 1,28 0,83 1,06
más acerca del tamaño del conjunto de datos o 1,14 1,38 0,75 0,96
de la forma de la distribución de datos. 1,08 0,87 0,89 0,89
0,96 1,12 1,12 0,93
a) ¿Qué puede decir acerca de la proporción 1,24 0,89 0,98 1,14
de mediciones que caen entre 60 y 90? 0,92 1,18 1,17
b) ¿Qué puede decir acerca de la proporción
de mediciones que caen entre 65 y 85? a) Construya un histograma de frecuencia
c) ¿Qué puede decir acerca de la proporción relativa para mostrar la distribución de
de mediciones que sean menores de 65? los pesos. ¿La distribución es relativa-
5. El tiempo requerido para que el conductor de mente de forma de campana?
un automóvil responda a una situación parti- b) Encuentre la media y desviación estándar
cular de emergencia se registró para n = 10 del conjunto de datos.
conductores. Los tiempos (en segundos) fueron c) Encuentre el porcentaje de mediciones en
0,5; 0,8; 1, 1; 0,7; 0,6; 0,9; 0,7; 0,8; 0,7; el intervalo x̄ ± s, x̄ ± 2s y x̄ ± 3s.
8,0. Calcule la media y desviación estándar, d) Los porcentajes obtenidos en el inciso c),
utilice estos resultados para construir los inter- ¿cómo se comparan con los datos por la
valos de la Regla empı́rica e interprételos. Regla empı́rica? Explique.
6. Los datos que aparecen enseguida son los pa- e) ¿Cuántos de los paquetes pesan exacta-
sos (en libras) de 27 paquetes de carne molida, mente 1 libra? ¿Puede usted considerar
vistos en un supermercado: alguna explicación para esto?

97 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Ejercicios

7. ¿Es normal el ritmo respiratorio de usted? En dividió en dos grupos. Ella midió el contenido
realidad, no hay un ritmo estándar de respira- de titanio (Ti) de las muestras usando dos méto-
ción para seres humanos. Puede variar desde dos diferentes.
sólo cuatro respiraciones por minuto hasta 70 Método 1 Método 2
o 75 para una persona que realice un ejercicio
agotador. Suponga que los ritmos respiratorios 0,011 0,013 0,011 0,016
en reposo para estudiantes universitarios tiene 0,013 0,015 0,013 0,012
una distribución en forma de campana, con una 0,014 0,013 0,015 0,012
media igual a 12 y una desviación estándar de 0,010 0,013 0,017 0,013
2,3 respiraciones por minuto. ¿Qué fracción de 0,011 0,012 0,014 0,015
todos los estudiantes tendrı́a ritmos respirato- a) Construya gráficas de tallo y hoja para
rios en los siguientes intervalos? los dos conjuntos de datos. Visualmente
a) 9,7 a 14,3 respiraciones por minuto. compare sus centros y sus rangos.
b) 7,4 a 16,6 respiraciones por minuto. b) Calcule las medias muestrales y desvia-
c) Más de 18,9 o menos de 5,1 respiracio- ciones estándar para los dos conjuntos.
nes por minuto. ¿Los valores calculados confirman las
8. Una geóloga recolectó 20 muestras diferentes conclusiones visuales de usted del inciso
de mineral, todas del mismo peso, y al azar las a)?

98 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR

Ejercicios

9. Para calcular la cantidad de madera en un te- b) Calcule la media muestral x̄ como esti-
rreno maderero, un propietario determinó con- mación de µ, el número medio de árbo-
tar el número de árboles con diámetros mayores les para todos los cuadrados de 50 × 50
a 12 pulgadas en cuadrados de 50×50 pies se- pies del terreno.
leccionados al azar. Se escogieron 70 de estos
cuadrados y se contaron los árboles selecciona- 10. Los datos siguientes son 30 tiempos de espe-
dos de cada extensión. Los datos aparecen en ra entre erupciones del géiser Old Faithful del
seguida: parque nacional de Yellowstone.
7 8 7 10 4 8 56 89 51 79 58 82
6 8 9 10 9 6 52 88 52 78 69 75
4 9 10 9 8 8 77 72 71 55 87 53
7 9 3 9 5 9 85 61 93 54 76 80
9 8 7 5 8 8 81 59 86 78 71 77
10 2 7 4 8 5 a) Calcule el rango.
10 7 7 7 9 6 b) Calcule la desviación estándar de la
8 8 8 7 8 9 muestra s.
6 8 6 11 9 11 c) ¿Qué proporción de las mediciones se
7 7 11 7 9 13 encuentra a no más de dos desviacio-
10 8 8 5 9 9 nes estándar de la media? ¿Y a no más
8 5 9 8 de tres desviaciones estándar de la me-
dia? ¿Estas proporciones concuerdan con
a) Construya un histograma de frecuencia las proporciones dads por el teorema de
relativa para describir los datos. Tchebychev?

99 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

La media y desviación estándar se pueden usar para calcular un puntaje z, que mide la posición
relativa de una medición en un conjunto de datos.

Puntaje z
El puntaje z muestral es una medida de posición relativa definida por
x − x̄
puntaje z =
s

Un puntaje z mide la distancia entre una observación y la media, medidas en unidades


de la desviación estándar. Por ejemplo, suponga que la media y la desviación estándar de los
puntajes de un examen son 25 y 4, respectivamente. El puntaje z para su calificación de 30 se
calcula como sigue:
x − x̄ 30 − 25
puntaje z = = = 1,25
s 4
Su puntaje de 30 está a 1,25 desviaciones estándar arriba de la media (30 = x̄ + 1,25s).
El puntaje z es una valiosa herramienta para determinar si es probable que una observación
particular se presente con frecuencia, o si es improbable y puede ser considerada como resultado
atı́pico.

100 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

De acuerdo al teorema de Tchebychev y la Regla empı́rica,

al menos 75 % y más probablemente 95 % de las observaciones están a no más de dos


desviaciones estándar de su media: sus puntajes z están entre −2 y +2. Las observaciones
con puntaje z mayores a 2 en valor absoluto se presentan menos del 5 % del tiempo y
son consideradas un tanto improbables.
al menos 89 % y más probablemente 99,7 % de las observaciones están o no más de tres
desviaciones estándar de su media: sus puntajes z están entre −3 y +3. Las observaciones
con puntajes z mayores a 3 en valor absoluto se presentan menos del 1 % del tiempo
y son consideradas muy poco probables.

Debe apreciar con cuidado cualquier observación que tenga un puntaje z mayor a 3 en valor
absoluto. Quizá la medición fue registrada incorrectamente o no pertenece a la población que se
muestrea. Quizá es sólo una observación muy poco probable, pero válida, con todo.

101 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Ejemplo
Consideremos las siguientes n mediciones:

1 1 0 15 2 3 4 0 1 3

La medición x = 15 parece ser extraordinariamente grande. La media y desviación estándar


para las n = 10 mediciones, son x̄ = 3,0 y s = 4,42. Entonces el puntaje z para el resultado
atı́pico sospechoso, x = 15, es
x − x̄ 15 − 3
puntaje z = = = 2,71
s 4,42

En consecuencia, la medición x = 15 está a 2,71 desviaciones estándar arriba de la media


muestral x̄ = 3,0. Aun cuando el puntaje z no excede de 3, está cercano lo suficiente para que
usted pueda sospechar que x = 15 es un resultado atı́pico. Usted debe examinar el procedimiento
de muestreo para ver si x = 15 es una observación defectuosa.

102 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Un percentil es otra medida de posición relativa y se usa con más frecuencia para conjuntos
grandes de datos. Los percentiles no son muy útiles para conjuntos pequeños de datos.

Percentil
Un conjunto de n mediciones de la variable x se ha reacomodado en orden de magnitud. El p-
ésimo percentil es el valor de x que es mayor a p % de las mediciones y es menor que el restante
(100 − p) %.

Ejemplo
Supongamos que un estudiante ha sido notificado que su calificación de 610, en la Prueba de
Selección Universitaria en lenguaje, lo ha colocado en el 60avo percentil en la distribución de
calificaciones. ¿Dónde está su calificación de 610 en relación a las calificaciones de los otros
que tomaron la prueba? Entonces calificar en el 60avo percentil significa que 60 % de todas las
calificaciones de examen fueron más bajas que la calificación de usted y 40 % fueron más altas.

En general, el 60avo percentil para la variable x es un punto en el eje horizontal de la distribu-


ción de datos que es mayor a 60 % de las mediciones y menor que las otras. Esto es, 60 % de las
mediciones son menores que el 60avo percentil y 40 % son mayores (véase la siguiente figura).

103 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

60% 40%

60avo percentil x

Figura: El 60avo percentil mostrado en el histograma de frecuencia relativa para un conjunto de datos.

104 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Como el área total bajo la distribución es 100 %, 60 % del área está a la izquierda y 40 % del área
está a la derecha del 60avo percentil. Recuerde que la mediana, m, de un conjunto de datos es
la medición central; esto es, 50 % de las mediciones son más pequeñas y 50 % son más grandes
que la mediana. Entonces, ¡la mediana es igual que el 50avo percentil!
Los percentiles 25avo y 75avo, llamados cuartiles inferior, Q1 , y superior, Q3 , junto con la
mediana (el 50avo percentil), localizan puntos que dividen los datos en cuatro conjuntos, cada
uno conteniendo un número igual de mediciones. Veinticinco por ciento de las mediciones serán
menores que el cuartil inferior (primero), 50 % serán menores que la mediana (el segundo cuartil,
Q2 ) y 75 serán menores que el cuartil superior (tercero).
De este modo, la mediana y los cuartiles inferior y superior están ubicados en puntos en el eje
x de modo que el área bajo el histograma de frecuencia relativa para los datos está dividida en
cuatro áreas iguales, como el muestra en la siguiente Figura.

105 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

25% 25% 25% 25%

Q1 m Q3

Figura: Ubicación de los cuartiles.

106 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Cuartiles
Un conjunto de n mediciones en la variable x se ha acomodado en orden de magnitud. El cuartil
inferior (primer cuartil), Q1 , es el valor de x que es mayor a un cuarto de las mediciones y
es menor que los restantes tres cuartos. El segundo cuartil es la mediana. El cuartil superior
(tercer cuartil), Q3 , es el valor de x que es mayor a tres cuartos de las mediciones y es menor
que el restante un cuarto.

Para conjuntos de datos pequeños, con frecuencia es imposible dividir el conjunto en cuatro gru-
pos, cada uno de los cuales contiene exactamente 25 % de las mediciones. Por ejemplo, cuando
n = 10, usted necesita tener 2, 5 mediciones en cada grupo. Aun cuando usted efectúe esta tarea
(por ejemplo, n = 12), hay muchos números que satisfarı́an la definición precedente y, por lo
tanto, podrı́an ser considerados “cuartiles”. Para evitar ambigüedad, usamos la siguiente regla
para localizar cuartiles muestrales.

Cuando las mediciones están dispuestas en orden de magnitud, el cuartil inferior, Q1 , es


el valor de x en la posición (n + 1)/4, y el cuartil superior, Q3 , es el valor de x en la
posición 3(n + 1)/4.
Cuando (n + 1)/4 y 3(n + 1)/4 no son enteros, los cuartiles se encuentran por interpola-
ción, usando los valores de las dos posiciones adyacentes.

107 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Ejemplo
Consideremos el conjunto de n = 10 mediciones: 16, 25, 4, 18, 11, 13, 20, 8, 11 y 9. Entonces,
ordenando las mediciones de menor a mayor:

4 8 9 11 11 13 16 18 20 25

Calculamos la

Posición de Q1 = 0,25(n + 1) = 0,25(10 + 1) = 2,75


Posición de Q3 = 0,75(n + 1) = 0,75(10 + 1) = 8,25

Como estas posiciones no son enteros, el cuartil inferior se toma como el valor 3/4 de la distancia
entre la segunda y tercera mediciones ordenadas, y el cuartil superior se toma como el valor 1/4
de la distancia entre la octava y novena mediciones ordenadas. Por tanto,

Q1 = 8 + 0,75(9 − 8) = 8 + 0,75 = 8,75

y
Q3 = 18 + 0,25(20 − 18) = 18 + 0,5 = 18,5

108 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA

Mediciones de posición relativa

Como la mediana y los cuartiles dividen la distribución de datos en cuatro partes, cada una de
ellas conteniendo alrededor de 25 % de las mediciones, Q1 y Q3 son las fronteras superior e
inferior para el 50 % central de la distribución. Podemos medir el rango de este “50 % central”
de la distribución usando una medida numérica llamada rango intercuartil.

Rango intercuartil
El rango intercuartil (RIC) para un conjunto de mediciones es la diferencia entre los cuartiles
superior e inferior; esto es, RIC = Q3 − Q1 .

109 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

El resumen de cinco números y la gráfica de caja

La mediana y los cuartiles superior e inferior dividen los datos en cuatro conjuntos, cada uno
de los cuales contiene igual número de número de mediciones. Si agregamos el número más
grande (máx) y el número más pequeño (mı́n) del conjunto de datos a este grupo, tendremos un
conjunto de número que da un rápido y aproximado resumen de la distribución de datos.
El resumen de cinco números consta del número más pequeño, el cuartil inferior, la mediana,
el cuartil superior, y el número más grande, presentados en orden de menor a mayor:

mı́n ←→ Q1 ←→ m ←→ Q3 ←→ máx

Por definición, un cuarto de las mediciones del conjunto de datos se encuentre entre cada uno de
los cuatro pares adyacentes de números.
El resumen de cinco números se puede usar para crear una gráfica sencilla llamada gráfica de
cajas a fin de describir visualmente la distribución de datos. De la gráfica de caja, rápidamente
se puede detectar cualquier sesgo en la forma de la distribución y ver si hay algunos resultados
atı́picos en el conjunto de datos.

110 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

El resumen de cinco números y la gráfica de caja

Un resultado atı́pico podrı́a aparecer al trasponer dı́gitos cuando se registra una medición, al leer
incorrectamente la carátula de un instrumento, por el mal funcionamiento de una pieza de equipo
o por otros problemas. Aun cuando no haya errores de registro o de observación, un conjunto de
datos puede contener una o más mediciones válidas que, por una u otra razón, difieren marcada-
mente de las otras del conjunto. Estos resultados atı́picos pueden causar una notable distorsión
en medidas numéricas de uso común tales como x̄ y s.
De hecho, los valores atı́picos pueden contener información importante no compartida con las
otras mediciones del conjunto. Por tanto, los resultados atı́picos aislados, si están presentes, son
un paso importante en cualquier análisis preliminar de un conjunto de datos. La gráfica de caja
está diseñada expresamente para este fin. Para construir una gráfica de caja:

1 Calcule le mediana, los cuartiles superior e inferior y el RIC para el conjunto de datos.
2 Trace una recta horizontal que represente la escala de medición. Forme una caja un poco
arriba de la recta horizontal con los extremos derecho e izquierdo en Q1 y Q3 . Trace una
recta vertical que pase por la caja en la ubicación de la mediana.

111 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

El resumen de cinco números y la gráfica de caja

Anteriormente, el puntaje z dio fronteras para hallar mediciones extraordinariamente grandes o


pequeñas. Buscamos puntajes z mayores a 2 o 3 en valor absoluto. La gráfica de cada usa el RIC
para crear “lı́mites” imaginarios para separar resultados atı́picos del resto del conjunto de datos:

Lı́mite inferior: Q1 − 1,5(RIC)


Lı́mite inferior: Q3 + 1,5(RIC)

Los lı́mites superior e inferior se muestran con lı́neas interrumpidas, pero no suelen ser trazadas
en la gráfica de caja. Cualquier medición a mayor distancia del lı́mite superior o inferior es
un resultado atı́pico; el resto de las mediciones, dentro de los lı́mites, no son inusuales. Por
último, la gráfica de caja marca el rango del conjunto de datos usando “bigotes” para conectar
las mediciones más pequeñas y más grandes (excluyendo resultados atı́picos) a la caja. Para
terminar la gráfica de caja:

Marque cualesquiera resultado atı́pico en la gráfica.


Prolongue rectas horizontales llamadas “bigotes” desde los extremos de la caja a las obser-
vaciones más pequeñas y más grandes que no sean resultados atı́picos.

112 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

El resumen de cinco números y la gráfica de caja


Ejemplo
Los datos siguientes son las cantidades de sodio por rebanada (en miligramos) para cada una de
ocho marcas de queso regular: 340, 300, 520, 340, 320, 290, 260 y 330. Entonces, las n = 8
mediciones se ordenan primero de menor a mayor:

260 290 300 320 330 340 340 520

Las posición de la mediana es 0,5(n + 1) = 0,5(9) = 4,5, y para Q1 y Q3 son

0,25(n + 1) = 0,25(9) = 2,25 0,75(n + 1) = 0,75(9) = 6,75

de modo que m = (320 + 330)/2 = 325, Q1 = 290 + 0,25(10) = 292,5 y Q3 = 340. El


RIC es
RIC = Q3 − Q1 = 340 − 292,5 = 47,5
Los lı́mites superior (LS) e inferior (LI):

LI: 292,5 − 1,5(47,5) = 221,25 LS: 340 + 1,5(47,5) = 411,25

El valor x = 520, es el único resultado atı́pico que se encuentra fuera del lı́mite superior.
El resultado atı́pico se destaca fuera del lı́mite superior. Una vez excluido el resultado atı́pico,
encontramos las mediciones más pequeñas y más grande que forman los bigotes.

113 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

El resumen de cinco números y la gráfica de caja

200 250 300 350 400 450 500 550

Sodio

Figura: Gráfica de caja para la cantidad de sodio.

114 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

Ejercicios

1. Dado el siguiente conjunto de datos: 8, 7, 1, 4, los hı́gados de 28 delfines de franjas machos


6, 6, 4, 5, 7, 6, 3, 0. Calcule el puntaje z para fueron como sigue:
las observaciones más pequeñas y más grandes. 1,7 183 221 286
¿Alguna de estas observaciones es muy grande 1,72 168 406 315
o muy pequeña? 8,8 218 252 241
2. Encuentre el resumen de cinco números y el 5,9 180 329 397
RIC para estos datos: 19, 12, 16, 0, 14, 9, 6, 101 264 316 209
1, 12, 13, 10, 19, 7, 5, 8. 85,4 481 445 314
3. Construya una gráfica de caja para estos datos e 118 485 278 318
identifique los resultados atı́picos: 25, 22, 26,
23, 27, 26, 28, 18, 25, 24, 12. a) Calcule el resumen de cinco números pa-
4. Construya una gráfica de caja para estos datos e ra los datos.
identifique los resultados atı́picos: 3, 9, 10, 2, b) Construya una gráfica de caja para los da-
6, 7, 5, 8, 6, 6, 4, 9, 22. tos.
5. Los cientı́ficos del medio ambiente están ca-
c) ¿Hay algún resultado atı́pico?
da vez más preocupados por la acumulación
de elementos tóxicos en mamı́feros marinos, d) Si usted supiera que los primeros cua-
ası́ como en el paso de esos elementos a los tro delfines tenı́an menos de tres años de
descendientes de esos animales. El delfı́n de edad, en tanto que los otros tenı́an más
franjas (Stenella coeruleoalba), considerado el de ocho años de edad, ¿esta información
principal depredador en la cadena alimenticia ayudarı́a a explicar la diferencia en la
marina, fue objeto de este estudio. Las concen- magnitud de esas cuatro observaciones?
traciones de mercurio (microgramos/gramo) en Explique.

115 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

Ejercicios

7. Los datos que aparecen enseguida son los pe- ta 2017.


sos (en libras) de 27 paquetes de carne molida, Cristiano Messi
vistos en un supermercado:
12, 23, 42, 26 8, 17, 16, 38
1,08 0,99 0,97 1,18 33, 54, 60, 55 47, 53, 73, 59
1,41 1,28 0,83 1,06 51, 61, 51, 42 41, 58, 41, 54
1,14 1,38 0,75 0,96 16
1,08 0,87 0,89 0,89
0,96 1,12 1,12 0,93 a) Calcule los resúmenes de cinco números
1,24 0,89 0,98 1,14 para el número de goles de Cristiano Ro-
0,92 1,18 1,17 naldo y Lionel Messi?
Construya una gráfica de caja para los pesos de b) Construya gráficas de caja para los
paquetes. ¿Qué nos dice la longitud de los bi- dos conjuntos de datos. ¿Hay resultados
gotes acerca de la forma de la distribución? atı́picos? ¿Qué nos dicen las gráficas de
8. ¿Cómo se compara Cristiano Ronaldo y Lionel caja acerca de las formas de las dos dis-
Messi? La tabla siguiente muestra el número de tribuciones?
goles en sus respectivos clubes desde 2005 has- c) ¿Quién ha tenido un mejor rendimiento?

116 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA

Ejercicios

9. Estudios cientı́ficos informan de tiempos de su- c) Trace una gráfica de caja para describir
pervivencia para pacientes con hepatitis activa, los datos. Explique por qué la gráfica de
la mitad tratados con prednisona y la otra mitad caja confirma lo concluido por usted en
no reciben tratamiento. Los tiempos de supervi- el inciso b).
vencia (en meses) están adaptados de sus datos
para los tratados con prednisona. 10. Los estados de cuenta mensuales por consumo
eléctrico (en pesos) para una familia de Co-
8 127
piapó, se registraron durante 12 meses conse-
11 133
cutivos empezando en enero de 2016.
52 139
57 142 Mes Cantidad Mes Cantidad
65 144
87 147 Ene 17 596 Jul 19 081
93 148 Feb 10 171 Ago 20 882
97 157 Mar 14 657 Sep 21 381
109 162 Abr 10 123 Oct 14 117
120 165 May 11 649 Nov 13 008
Jun 17 990 Dic 14 345
a) ¿Al ver estos datos, se puede decir si es
más o menos simétrica? ¿O bien, es ses- a) Construya una gráfica de caja para los
gada? costos.
b) Calcule la media y mediana. Use estas b) ¿Qué nos dice la gráfica de caja acerca
medidas para determinar si los datos son de la distribución de costos por consumo
o no son simétricos o sesgados. eléctrico para esta familia?

117 / 327

Anda mungkin juga menyukai