Curso Elemental de Probabilidad y Estadística - 2018.PDF M Odificada

PROBABILIDAD Y ESTADÍSTICA – 2018
Curso elemental de
Probabilidad y Estadı́stica
2018
Juan F. Olivares1
1Universidad de Atacama
Facultad de Ingenierı́a
Departamento de Matemática
Edición 1.0
1 / 327
Índice de contenidos
1 INTRODUCCIÓN
2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
3 DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
4 DESCRIPCIÓN DE DATOS BIVARIADOS
5 PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD
6 ALGUNAS DISTRIBUCIONES DISCRETAS ÚTILES
7 LA DISTRIBUCIÓN NORMAL DE PROBABILIDAD
2 / 327
INTRODUCCIÓN
Contenidos de la unidad
1 INTRODUCCIÓN
MOTIVACIÓN
LA POBLACIÓN Y LA MUESTRA
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES
PASOS PARA LA ESTADÍSTICA INFERENCIAL
CONSIDERACIONES FINALES
3 / 327
INTRODUCCIÓN
MOTIVACIÓN
Motivación
¿Qué es estadı́stica? ¿Ha conocido usted alguna vez a un experto en estadı́stica? ¿Sabe usted qué
hace? O quizá la simple mención de la palabra estadı́stica le causa temor. Puede que piense que
no sabe usted nada de estadı́stica, pero es casi inevitable que encuentre estadı́sticas en una forma
u otra cada vez que tome un periódico.
La última encuesta Cadem arrojó un incremento en el respaldo ciudadano al candidato presidencial,

Sebastián Piñera. De acuerdo a la medición, el ex Mandatario aumentó en cuatro puntos su apoyo,
llegando al 44 %. En tanto sus contendores, Beatriz Sánchez y Alejandro Guiller, respectivamente,
bajaron en el sondeo. Mientras el senador alcanzó un 20 %, un punto menos respecto a la sema-
na pasada, la periodista enteró 16 %, cayendo tres unidades. De acuerdo al denominado “Votante
probable”, sistema de medición de Cadem que considera a los encuestados que efectivamente con-
currirán a votar en noviembre próximo, Carolina Goic y José Antonio Kast mantienen un 5 % de
las preferencias. Por su parte, Marco Enrı́quez-Ominami obtuvo un 2 %. (Emol.com)
Artı́culos semejantes a éste son comunes en nuestros diarios en el periodo inmediato anterior a la
elección presidencial. El lenguaje de este artı́culo es muy conocido, pero deja al lector cuidadoso
con algunas preguntas sin contestar. ¿Cómo fueron seleccionadas las personas en la encuesta?
¿Darán la misma respuesta el dı́a de la elección? ¿Votarán, incluso? ¿Son representativas de
todos quienes votarán el dı́a de la elección? Es trabajo de un estadı́stico hacer estas preguntas y
hallar respuesta para ellas en el lenguaje de la encuesta.
4 / 327
INTRODUCCIÓN
MOTIVACIÓN
Motivación
Veamos el siguiente caso:
Después de creer durante más de un siglo que 37o C era la temperatura corporal normal para seres
humanos, los investigadores ahora dicen que normal ya no es normal. Para algunas personas a
ciertas horas del dı́a 37,7 grados podrı́a estar bien. Y lecturas de sólo 35,6 resulta que son muy
“humanas”. La norma de 37 fue obtenida por un médico alemán en 1868. Algunos médicos siempre
habı́an sospechado de la investigación del doctor. Su duda: un millón de lecturas, en una época sin
computadoras. Entonces, Mackowiak & Co. tomaron lecturas de temperatura a 148 personas sanas
en un periodo de tres dı́as y encontraron que la temperatura media era de 36,7 grados. Sólo 8 % de
las lecturas fue de 37. (The Press-Enterprise)
¿Qué preguntas le vienen a la mente cuando lee este artı́culo? ¿En qué forma el investigador
seleccionó las 148 personas, y cómo podemos estar seguros que los resultados basados en estas
148 personas son precisos cuando se aplican a la población en general? ¿Cómo registró el médico
alemán un millón de temperaturas en 1868? Otra vez encontramos un problema estadı́stico con
aplicaciones en la vida diaria.
La estadı́stica en una rama de las matemáticas que tiene aplicaciones en cada faceta de
nuestra vida. Es un lenguaje nuevo y poco conocido para casi todas las personas. Queremos
que “entrene su cerebro” para entender este nuevo lenguaje paso a paso. Una vez aprendido y
entendido el lenguaje de la estadı́stica, veremos que es una poderosa herramienta para el análisis
de datos en numerosos campos de aplicación diferentes.
5 / 327
INTRODUCCIÓN
LA POBLACIÓN Y LA MUESTRA
La población y la muestra
En la estadı́stica, uno de los conceptos elementales es el muestreo. En casi todos los problemas
de estadı́stica, un número especificado de mediciones o datos, es decir, una muestra, se toma de
un conjunto de mediciones más grande llamado población.
Para el experimento de la temperatura corporal, la muestra es el conjunto de mediciones de
temperatura corporal para las 148 personas sanas escogidas por el experimentador. Esperamos
que la muestra sea representativa de un conjunto mucho mayor de mediciones, la población, ¡las
temperaturas corporales de todas las personas sanas del mundo!
¿Cuál es el interés principal, la muestra o la población? En la mayor parte de los casos, estamos
interesados principalmente en la población, pero ésta puede ser difı́cil o imposible enumerar.
Imagine tratar de registrar la temperatura corporal de todas las personas sanas del mundo o ¡de la
preferencia presidencial de todo votante registrado en Chile! En cambio, tratamos de describir
o pronosticar el comportamiento de la población con base en información obtenida de una
muestra representativa de esa población.
Cuando usamos el lenguaje de la estadı́stica, distinguiremos entre el conjunto de objetos en el
cual las mediciones se toman y las mediciones mismas. Para los experimentadores, los objetos
en los que las mediciones se toman se denominan unidades experimentales. El estadı́stico que
estudia las muestras las llama elementos de la muestra.
6 / 327
INTRODUCCIÓN
Estadı́sticas descriptivas e inferenciales
Cuando primero se le presenta a usted un conjunto de mediciones, ya sea una muestra o una
población necesita encontrar una forma de organizarlo y resumirlo. La rama de la estadı́stica
que presenta técnicas para organizar y resumir conjuntos de mediciones se denomina estadı́stica
descriptiva.
El alumno ha visto estadı́sticas descriptivas en numerosas formas: gráficas de barras, gráficas de
pastel y gráficas de lı́neas presentadas por un candidato polı́tico; tablas numéricas en el periódi-
co; o el promedio de cantidad de lluvia informado por el pronosticador del clima en la televisión.
Las gráficas y resúmenes numéricos generados en computadoras son comunes en nuestra comu-
nicación de todos los dı́as.
Estadı́stica descriptiva
La estadı́stica descriptiva está formada por procedimientos empleados para resumir y describir
las caracterı́sticas importantes de un conjunto de mediciones.
7 / 327
INTRODUCCIÓN
Estadı́sticas descriptivas e inferenciales
Si el conjunto de mediciones es la población, sólo es necesario sacar conclusiones basadas en la

estadı́stica descriptiva. No obstante, podrı́a ser demasiado costoso o llevarı́a demasiado tiempo
enumerar toda la población. Quizá enumerar la población la destruirá, como en el caso de la
prueba de “tiempo de falla”.
Por estás y otras razones, quizá sólo tenga una muestra de la población para contestar preguntas
acerca de la población en su conjunto. La rama de la estadı́stica que se ocupa de este problema
se llama estadı́stica inferencial.
Estadı́stica inferencial
La estadı́stica inferencial está formada por procedimientos empleados para hacer inferencias
acerca de caracterı́sticas poblacionales, a partir de información contenida en una muestra sacada
de esta población.
El objetivo de la estadı́stica inferencial es hacer inferencias (es decir, sacar conclusiones, ha-
cer predicciones, tomar decisiones) acerca de las caracterı́sticas de una población a partir de
información contenida en una muestra.
8 / 327
INTRODUCCIÓN
Pasos para la estadı́stica inferencial
¿Cómo puede hacer inferencias acerca de una población utilizando información contenida en una
muestra? La tarea se hace más sencilla si se entrena para organizar el problema en una serie de
pasos lógicos.
Especifique las preguntas a contestar e identifique la población de interés: En una encuesta

de elección presidencial, el objetivo es determinar quién obtendrá más votos
el dı́a de la elección. Por lo tanto, la población de interés es el conjunto de
todos los votos en la elección presidencial. Cuando se selecciona una mues-
tra, es importante que la muestra sea representativa de esta población, no la
población de preferencias de votantes en algún dı́a antes de la elección.
Decida cómo seleccionar la muestra: Esto describe el nombre de diseño del experimento o
procedimiento de muestro. ¿La muestra es representativa de la población de
interés? Por ejemplo, si una muestra de votantes registrados se selecciona de
la región de Atacama, ¿esta muestra será representativa de todos los votantes
de Chile? ¿Será lo mismo que una muestra de “probables votantes”, es decir,
aquellos que es probable que en realidad voten en la elección? ¿La muestra
es lo suficientemente grande para contestar las preguntas planteadas en el
paso 1 sin perder tiempo y dinero en información adicional? Un buen diseño
de muestreo contestará las preguntas planteadas, con mı́nimo costo para el
experimentador.
9 / 327
INTRODUCCIÓN
Pasos para la estadı́stica inferencial
Seleccione la muestra y analice la información muestral: Sin importar que información con-
tenga la muestra, se debe usar un método de análisis apropiado para extraerla.
Muchos de estos métodos, dependen del procedimiento de muestro del paso
2, se explican en este curso.
Use la información del paso 3 para hacer una inferencia acerca de la población: Es posible
usar muchos procedimientos diferentes para hacer esta inferencia y algunos
son mejores que otros. Por ejemplo, podrı́a 10 métodos diferentes para estimar
la respuesta humana a un medicamento experimental, pero un procedimiento
podrı́a ser más preciso que los otros. Usted debe usar el mejor procedimiento
disponible para hacer inferencias (muchos de estos se explican en este curso).
Determine la confiabilidad de la inferencia: Como se está usando sólo una parte de la pobla-
ción para sacar las conclusiones descritas en el paso 4, ¡podrı́a estar en un
error! ¿Cómo puede ser esto? Si una agencia realiza una encuesta estadı́stica
para usted y estima que el producto de su compañı́a ganará el 34 % del mer-
cado este año, ¿cuánta confianza puede usted poner en esta estimación? ¿Es
precisa a no más de 1,5 o a 20 puntos porcentuales? ¿Es confiable lo sufi-
ciente para establecer metas de producción? Toda inferencia estadı́stica debe
incluir una medida de confiabilidad que dice cuánta confianza tiene usted en
los resultados.
10 / 327
INTRODUCCIÓN
CONSIDERACIONES FINALES
Consideraciones finales
Ahora que ya ha aprendido algunos de los términos y conceptos básicos del lenguaje de la es-
tadı́stica, otra vez hacemos la pregunta del principio de este análisis: ¿Sabe usted qué hace un
estadı́stico? Es el trabajo del estadı́stico poner en práctica todos los pasos procedentes. Esto
puede comprender preguntas al experimentador para asegurarse que la población de interés esté
claramente definida, desarrollar un plan apropiado de muestreo o diseño experimental para dar
máxima información al mı́nimo costo, analizar correctamente y sacar conclusiones usando la
información muestral y, por último, medir la confiabilidad de las conclusiones con base en los
resultados experimentales.
A medida que se avance en este curso, aprenderá cada vez más palabras, frases y conceptos de
este nuevo lenguaje de estadı́stica. Los procedimientos estadı́sticos, en su mayor parte, están
formados de pasos de sentido común que, con tiempo suficiente, es muy probable que haya
descubierto por sı́ mismo. Como la estadı́stica es una rama aplicada de las matemáticas, muchos
de los conceptos básicos son matemáticos, desarrollados y basados en resultados de cálculo o de
matemáticas más elevadas. No obstante, no tiene que derivar resultados para aplicarlos en una
forma lógica. En este curso usamos ejemplos numéricos y argumentos intuitivos para explicar
conceptos estadı́sticos, en lugar de argumentos matemáticos más complicados.
Cada unidad aumentará su conocimiento del lenguaje de estadı́stica y debe, en alguna forma,
ayudarlo a dar uno de los pasos aquı́ descritos. Cada uno de estos pasos es esencial para alcanzar
el objetivo general de la estadı́stica inferencial: hacer inferencias acerca de una población
usando información contenida en una muestra tomada de esa población.
11 / 327
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

OBJETIVOS
VARIABLES Y DATOS
TIPOS DE VARIABLES
GRÁFICAS PARA DATOS CATEGÓRICOS
GRÁFICAS PARA DATOS CUANTITATIVOS
HISTOGRAMA DE FRECUENCIA RELATIVA
12 / 327
OBJETIVOS
Objetivos
Objetivos
Numerosos conjuntos de mediciones son muestras seleccionadas de poblaciones más grandes;
otros constituyen toda la población, como es el caso de un censo nacional. En esta unidad apren-
deremos qué es una variable, cómo clasificar variables en varios tipos y cómo se generan medi-
ciones o datos. Aprenderá entonces a usar gráficas para describir conjuntos de datos.
13 / 327
VARIABLES Y DATOS
Variables y datos
A continuación presentaremos algunas técnicas básicas de estadı́stica descriptiva. Una vez que
haya recolectado un conjunto de mediciones, ¿cómo puede mostrar este conjunto en una forma
clara, entendible y fácil de leer? Primero, debe tener aptitud para definir lo que se entiende por
medición o “datos” y clasificar los tipos de datos que probablemente se encuentre en la vida real.
Empezamos por introducir algunas definiciones, términos nuevos en el lenguaje de la estadı́stica
que es necesario saber.
Variable
Una variable es una caracterı́stica que cambia o varı́a con el tiempo y/o para diferentes personas
u objetos bajo consideración.
Por ejemplo, la temperatura corporal es una variable que cambia con el tiempo en una sola
persona; también varı́a de una persona a otra. La afiliación religiosa, el origen étnico, el ingreso,
la estatura, edad y número de hijos son todas ellas variables, es decir, caracterı́sticas que varı́an
según la persona seleccionada.
14 / 327
VARIABLES Y DATOS
Variables y datos
En la Introducción definimos una unidad experimental como el objeto en el que se toma una
medición. Del mismo modo, podrı́amos definir una unidad experimental como el objeto en el
que se mide una variable. Cuando una variable se mide en realidad en un conjunto de unidades
experimentales, resulta un conjunto de mediciones o de datos.
Unidad experimental
Una unidad experimental es el individuo u objeto en el que se mide una variable. Resulta una
sola medición o datos cuando una variable se mide en realidad en una unidad experimental.
Si se genera una medición para toda unidad experimental en toda la colección, el conjunto resul-
tante constituye la población de interés. Cualquier conjunto más pequeño de mediciones es una
muestra.
Población
Una población es el conjunto de mediciones de interés para el investigador.
Muestra
Una muestra es un subconjunto de mediciones seleccionado de la población de interés.
15 / 327
VARIABLES Y DATOS
Variables y datos
Ejemplo
De entre todos los estudiantes de la universidad se selecciona un conjunto de cinco estudiantes y
las mediciones se introducen en una hoja de cálculo, como se muestra a continuación.
Estudiante Promedio Género Ingreso Especialidad Créditos

1 5,0 F 2016 Minas 16
2 5,3 F 2015 Computación 15
3 5,9 M 2013 Geologı́a 17
4 5,7 M 2013 Geologı́a 15
5 5,6 F 2015 Comercial 14
Hay diversas variables en este ejemplo. La unidad experimental es la que se miden las variables
es un estudiante del plantel, identificado en la primera columna. Se miden cinco variables para
cada estudiante: promedio de calificaciones, género, año de ingreso a la universidad, especialidad
y número actual de créditos tomados. Cada una de estas caracterı́sticas varı́a de estudiante a otro.
16 / 327
VARIABLES Y DATOS
Variables y datos
Se puede ver que hay una diferencia entre una sola variable medida en una sola unidad experi-
mental y múltiples variables medidas en una unidad experimental como en el ejemplo anterior.
Datos univariados
Resultan datos univariados cuando se mide una sola variable en una sola unidad experimental.
Datos bivariados y multivariados

Resultan datos bivariados cuando se miden dos variables en una sola unidad experimental.
Resultan datos multivariados cuando se miden más de dos variables.
Si se miden las temperaturas corporales de 148 personas, los datos resultantes son univariados.
En el ejemplo anterior, cinco variables se midieron en cada estudiante, lo que resultó en datos
multivariados.
17 / 327
TIPOS DE VARIABLES
Tipos de variables
Variables cualitativas y cuantitativas
Las variables cualitativas miden una cualidad o caracterı́stica en cada unidad experimental. Las
variables cuantitativas miden una cantidad numérica en cada unidad experimental.
Las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o di-
ferencias en clases, con frecuencia se denominan datos categóricos. Las variables como género,
año y especialidad en el ejemplo anterior son variables cualitativas que producen datos categóri-
cos. He aquı́ algunos otros ejemplos:
Afiliación polı́tica: izquierda, derecha, independiente

Clasificación de gusto: excelente, bueno, regular, malo
Nivel educacional: básica, medio, superior
Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéri-
cos, por ejemplo estos:
x = tasa preferencial de interés

x = número de pasajeros en un vuelo de Copiapó a Santiago
x = peso de un paquete listo para ser enviado
x = volumen de jugo de naranja en un vaso
18 / 327
TIPOS DE VARIABLES
Tipos de variables
Observe que hay diferencia en los tipos de valores numéricos que pueden tomar estas variables
cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x = 0, 1, 2, . . .,
mientras que el peso de un paquete puede tomar cualquier valor mayor a cero, o sea 0 < x <
∞. Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y
continuas.
Variables discretas y continuas
Una variable discreta puede tomar sólo un número finito o contable de valores. Una variable
continua puede tomar infinitamente muchos valores correspondientes a los puntos en un inter-
valo de recta.
El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable
puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos
nuevos y el número de neumáticos defectuosos devueltos para cambio son todos ellos ejemplos
de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y
volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo
de recta. Para cualesquiera dos valores que se escojan, un tercer valor siempre puede hallarse
entre ellos.
¿Por qué debe preocuparse por diferentes clases de variables y los datos que generan? La razón
es que los métodos empleados para describir conjuntos de datos dependen del tipo de datos que
haya recolectado. Para cada uno de los conjuntos de datos recolectados, la clave será determinar
qué tipo de datos tiene y ¡cómo puede presentarlos en forma más clara y entendible!
19 / 327
TIPOS DE VARIABLES
Tipos de variables
Ejemplo
Consideremos las siguientes variables:
1 El uso frecuente de su horno microondas (recalentar, descongelar, calentar, otros)
2 El número de consumidores que se niegan a contestar una encuesta por teléfono
3 La puerta escogida por un ratón en un experimento de laberinto (A o B)
4 El tiempo ganador para un caballo que corre en el Derby de Santiago
5 El número de niños de quinto básico que leen al nivel de ese curso o mejor
Las variables 1 y 3 son cualitativas porque sólo una cualidad o caracterı́stica se mide para cada
individuo. Las otras dos variables son cuantitativas. La variable 2, el número de consumidores,
es una variable discreta que puede tomar cualquiera de los valores x = 0, 1, 2, . . ., con un valor
máximo que depende del número de consumidores llamados. La variable 4, el tiempo ganador
para un caballo en el Derby de Santiago, es la única variable continua. El tiempo ganador,
si pudiera medirse con suficiente precisión, podrı́a ser 121 segundos, 121,5 segundos, 121,25
segundos o cualesquiera valores entre dos tiempos cualesquiera que hemos puesto en lista.
20 / 327
Gráficas para datos categóricos

Una vez recolectados los datos, éstos pueden resumirse para responder preguntas como ¿Qué
valores de la variable han sido medidos? ¿Con qué frecuencia se presenta cada uno de los valores?
Para este fin, se puede construir una tabla estadı́stica que se puede usar para mostrar los datos
gráficamente como una distribución de datos. El tipo de gráfica que se escoja depende del tipo
de variables que se haya medido.
Cuando la variable de interés es cualitativa, la tabla estadı́stica es una lista de las categorı́as
siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor. Se
puede medir “la frecuencia” en tres formas diferentes:
La frecuencia o número de mediciones en cada categorı́a

La frecuencia relativa o proporción de mediciones en cada categorı́a
El porcentaje de mediciones en cada categorı́a
Por ejemplo, si con n representamos el número total de mediciones en el conjunto, se puede

hallar la frecuencia relativa y porcentaje usando estas relaciones:
Frecuencia
Frecuencia relativa = Porcentaje = 100 × Frecuencia relativa
n
Se encontrará que la suma de las frecuencias es siempre n, la suma de las frecuencias relativas
es 1 y la suma de porcentajes es 100 %.
21 / 327
Las categorı́as para una variable cualitativa deben escogerse de modo que:
una medición pertenecerá a una categorı́a y sólo una

cada medición tiene una categorı́a a la que se puede asignar
Por ejemplo, si se pueden clasificar a los estudiantes de la universidad de acuerdo con el tipo
de colegio de procedencia, se pueden usar estas categorı́as: municipal, subvencionado, privado,
otro. La categorı́a “otro” está incluida para tomar en cuenta la posibilidad de que una medición
no se pueda asignar a una de las categorı́as anteriores.
Una vez que a las mediciones se les haya dado categorı́as y resumidas en una tabla estadı́stica,
se puede usar ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución
de los datos. Una gráfica de pastel es la conocida gráfica circular que muestra la forma en que
están distribuidas las medidas entre las categorı́as. Una gráfica de barras muestra la misma
distribución de medidas en categorı́as, con la altura de la barra midiendo la frecuencia con la que
se observa una categorı́a en particular.
22 / 327

Ejemplo
En una encuesta respecto a la educación pública, a 400 directores de escuelas se les pidió que
calificaran la calidad de la educación (muy buena, buena, regular, mala). Donde los resultados
se pueden ver en la siguiente tabla. Para construir una gráfica de pastel, asignamos un sector de
cı́rculo a cada categorı́a. El ángulo de cada sector debe ser proporcional a la frecuencia relativa
en esa categorı́a. Se puede usar esta ecuación para hallar el ángulo:
Ángulo = Frecuencia relativa × 360o
La siguiente tabla muestra las calificaciones junto con las frecuencias, frecuencias relativas, por-
centajes y ángulos de sector necesarios para construir la gráfica de pastel.
Calificación Frecuencia Frecuencia Porcentaje Ángulo

relativa
Muy buena 35 0,09 9% 0,09 × 360 = 32,4o
Buena 260 0,65 65 % 234,0o
Regular 93 0,23 23 % 82,8o
Mala 12 0,03 3% 10,8o
Total 400 1,00 100 % 360o
23 / 327
Regular
Mala
Muy buena
Buena
Figura: Gráficas de pastel para los datos de la calidad de la educación pública.
24 / 327
260
Frecuencia
93
35
12
0
Muy buena Buena Regular Mala
Figura: Gráficas de barras para los datos de la calidad de la educación pública.
25 / 327
Mientras que las gráficas de pastel usan porcentaje para determinar los tamaños relativos de
las “rebanadas de pastel”, las gráficas de barras por lo general grafican frecuencias contra las
categorı́as.
El impacto visual de estas dos gráficas es un poco diferente. La gráfica de pastel se usa para
mostrar las relaciones de las partes con respecto al todo; la gráfica de barras se usa para destacar
la cantidad real o frecuencia para cada categorı́a. Como las categorı́as en el ejemplo anterior son
“calificaciones” ordenadas, no desearı́amos reacomodar las barras de la gráfica para cambiar su
forma. En una gráfica de pastel, el orden de presentación es irrelevante.
26 / 327

Ejemplo
Una bolsa de tamaño pequeño de dulces M&M contiene 21 dulces con colores: Café, Verde,
Café, Azul, Rojo, Rojo, Verde, Café, Amarillo, Anaranjado, Verde, Azul, Café, Azul, Azul, Café,
Anaranjado, Azul, Café, Anaranjado y Amarillo. La variable “color” es cualitativa, por lo que la
siguiente tabla pone en lista las seis categorı́as junto al número de dulces de cada color. Como las
categorı́as no tienen un orden particular, se pueden construir gráficas de barras con muchas for-
mas diferentes con sólo reordenar las barras. Para enfatizar que el café es el color más frecuente,
ordenamos las barras de mayor a menor.
Categorı́a Total Frecuencia Frecuencia relativa Porcentaje

Café |||||| 6 6/21 28 %
Verde ||| 3 3/21 14
Anaranjado ||| 3 3/21 14
Amarillo || 2 2/21 10
Rojo || 2 2/21 10
Azul ||||| 5 5/21 24
Total 21 1 100 %
Una gráfica de barras en la que las barras están ordenadas de mayor a menor se denomina gráfica
de Pareto.
27 / 327
5
Frecuencia
0
Café Azul Verde Anaranjado Amarillo Rojo
Figura: Gráfico de barras para la clasificación de los colores de dulces M&M.
28 / 327
Ejercicios
1. Identifique las unidades experimentales en los e) Número de accidentes en botes en un tra-

que se miden las variables siguientes: mo de 50 km en un rio
a) Género de un alumno f) Tiempo para completar un cuestionario
b) Número de errores en un examen g) Costo de una lechuga
c) Color de un auto que entra a un estacio-
namiento h) Número de hermanos y hermanas que
tenga el alumno
2. Identifique cada una de las variables como
cuantitativa o cualitativa: 4. Se seleccionan cinco vehı́culos, de entre los que
a) Número de estudiantes en un salón de tienen permiso para estacionarse, y se registran
clases de primer año los datos siguientes:
b) Calificación de un polı́tico recién electo i Tipo Marca Años
(excelente, bueno, regular, malo)
c) Región en que vive una persona 1 Auto Honda 6
3. Identifique las siguientes variables cuantitativas 2 Auto Toyota 3
como discretas o continuas: 3 Camión Toyota 4
a) Población en una región del paı́s 4 Van Dodge 2
b) Peso de periódicos recuperados para re- 5 Auto Chevrolet 9
ciclar en un sólo dı́a
a) ¿Cuáles son las unidades experimenta-
c) Tiempo para completar un examen de es-
les?
tadı́stica
d) Número de consumidores en una encues- b) ¿Cuáles son las variables que se miden?
ta de 1000 que consideran importante ¿Qué tipos de variables son?
aplicar leyenda nutricional en productos c) ¿Estos datos son univariados, bivariados
alimenticios o multivariados?
29 / 327
Ejercicios
5. Usted es candidato a diputado de su circuns- d) Describa la forma en que el investigador

cripción y desea hacer una encuesta de las ac- podrı́a seleccionar una muestra de entre
titudes del electorado, respecto a las probabi- la población.
lidades que tenga usted para ganar. Identifique e) ¿Qué problemas podrı́an surgir al mues-
la población que es de interés para usted y de trear desde esta población?
la que le gustarı́a seleccionar una muestra. ¿En
qué forma esta población depende del tiempo? 7. Un investigador educacional desea evaluar la
6. Un investigador médico desea estimar el tiem- efectividad de un nuevo método de enseñanza
po de supervivencia de un paciente, después del de lectura a estudiantes sordos. El logro al final
inicio de un tipo particular de cáncer, y después de un periodo de enseñanza es medido por la
de un régimen particular de radioterapia. calificación de un estudiante en un examen de
a) ¿Cuál es la variable de interés para el in- lectura.
vestigador médico? a) ¿Cuál es la variable a medir? ¿Qué tipo
b) La variable del inciso a) es cualitativa, de variable es?
cuantitativa discreta o cuantitativa conti-
nua? b) ¿Cuál es la unidad experimental?
c) Identifique la población de interés para el c) Identifique la población de interés para el
investigador médico. experimentador.
30 / 327
Ejercicios
8. Cincuenta personas se agrupan en cuatro cate- de jeans se selecciona al azar de entre la base
gorı́as, A, B, C y D, y el número de personas de datos computarizada, registrándose la ciu-
que caen en cada categorı́a se muestra en la ta- dad en el que se produce:
bla: CO IQ IQ AN CO
Categorı́a Frecuencia CO CO AN AN AN
IQ IQ CO IQ AN
A 11 CO IQ AN AN AN
B 14 CO IQ IQ CO CO
C 20
D 5 a) ¿Cuál es la unidad experimental?
b) ¿Cuál es la variable que se mide? ¿ Es
a) ¿Cuál es la unidad experimental? cualitativa o cuantitativa?
b) ¿Cuál es la variable que se mide? ¿Es c) Construya una gráfica de pastel para des-
cualitativa o cuantitativa? cribir los datos.
c) Construya una gráfica de pastel y de ba- d) Construya una gráfica de barras para des-
rras para describir los datos. cribir los datos.
d) ¿La forma de la gráfica de barras del in- e) ¿Qué proporción de los jeans se hace en
ciso c) cambia, dependiendo del orden Antofagasta?
de presentación de las cuatro categorı́as? f) Si se desea averiguar si las tres plantas
¿Es importante el orden de presentación? produjeron iguales números de jeans, o
e) ¿Qué porcentaje de las personas no está si una produjo más jeans que las otras,
en la categorı́a B? ¿cómo se pueden usar las gráficas de las
9. Un fabricante de jeans tiene plantas en Iquique, partes c) y d) para ayudar? ¿Qué conclu-
Antofagasta y Copiapó. Un grupo de 25 pares siones puede sacar de estos datos?
31 / 327
Ejercicios
10. ¿Le gustarı́a ser presidente de Chile? Aun cuan- a) ¿Están consideradas todas las razones en
do muchos adolescentes piensan que podrı́a lle- esta tabla?
gar a ser presidente, muchos no desean el tra-
bajo. En una encuesta de opinión, casi 80 % b) ¿Usarı́a usted una gráfica de pastel o una
de los adolescentes no estaban interesados en de barras para describir gráficamente los
el trabajo. Cuando se les preguntaba: “¿Cuál es datos? ¿Por qué?
la principal razón por la que no querrı́a ser pre-
sidente?” dieron estas respuestas: c) Trace la gráfica escogida en el inciso b).
Otros planes de carrera 40 %
Demasiada presión 20 %
d) Si usted fuera a conducir la encuesta de
Demasiado trabajo 15 %
opiniones, ¿qué otros tipos de preguntas
No serı́a bueno para ello 14 %
desearı́a investigar?
Demasiadas discusiones 5%
32 / 327
Gráficas de pastel y gráficas de barras
Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable
puede tomar sólo un número finito o contable de valores, es una variable discreta. Una variable
que puede tomar un número infinito de valores correspondientes a puntos en un intervalo de recta
se llama continua.
A veces la información se recolecta para una variable cuantitativa medida en segmentos diferen-
tes de la población, o para diferentes categorı́as de clasificación. Por ejemplo, se podrı́a medir el
promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes, o que viven
en zonas geográficas diferentes del paı́s.
En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos,
usando la cantidad medida en cada categorı́a en lugar de la frecuencia con que se presenta cada
una de las categorı́as. La gráficas de pastel muestra la forma en que está distribuida la cantidad
total entre las categorı́as y la gráfica de barras usa la altura de la barra para mostrar la cantidad
de una categorı́a en particular.
33 / 327
Ejemplo
Entre enero y octubre de 2016 el valor de las exportaciones (Sı́ntesis Económica Región de Ata-
cama, Corproa) de la Región de Atacama fue de $3133 (millones de dólares), en las categorı́as:
Minerı́a ($2863 millones de dólares), Silvoagropecuario ($146 millones de dólares), Industria
($96 millones de dólares) y Pesca ($28 millones de dólares). Dos variables están siendo medidas:
la categorı́a del rubro de exportación (cualitativa) y la cantidad exportada (cuantitativa).
La gráfica de barras muestra las categorı́as en el eje horizontal y las cantidades en el eje vertical.
Para la gráfica de pastel, cada “rebanada del pastel” representa la proporción de la exportación
($3133 millones de dólares) correspondientes a su categorı́a en particular. Por ejemplo, para el
rubro silvoagropecuario, el ángulo del sector es
146
× 360 = 16,8o
3133
Ambas gráficas muestran que el mayor valor por exportación para la Región de Atacama en el
periodo de enero a octubre de 2016 fue debido a la minerı́a. Como no hay un orden inherente
a las categorı́as, hay libertad para reacomodar las barras o sectores de las gráficas en cualquier
forma deseada. La forma de la gráfica de barras no tiene nada que ver con su interpretación.
34 / 327
3000
Exportaciones (millones de US$)
150
0
Mineria Silvoagropecuario Industria Pesca
Figura: Gráficas de barras para la clasificación de las exportaciones de la Región de Atacama.
35 / 327
Silvoagropecuario
Industria
Pesca
Mineria
Figura: Gráficas de pastel para la clasificación de las exportaciones de la Región de Atacama.
36 / 327
Gráficas de lı́neas
Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por
ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de
tiempo.
Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de lı́neas
con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea
probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para
el futuro inmediato.
37 / 327
Ejemplo
En el año 2025, una persona nacida en 1946 tendrá 79 años, y una nacida en 1965 tendrá 60
años. ¿Habrá suficientes fondos para las personas nacidas en 1946 para pensiones de jubilación?
El INE (Instituto Nacional de Estadı́stica) da proyecciones para la parte de la población chilena
que tendrá 80 años y más para los próximos años, como se muestra en la siguiente tabla.
Año 2020 2025 2030 2035 2040 2045 2050

80 años y más (miles) 457 561 679 827 1030 1248 1388
La variable cualitativa “80 y más” se mide en 7 intervalos, creando ası́ una serie de tiempo que
se puede graficar con una gráfica de lı́nea. Los intervalos están marcados en el eje horizontal y
las proyecciones en el eje vertical. Los puntos de datos se enlazan luego por medio de segmentos
de lı́nea para formar las gráficas de lı́nea. Observe la marcada diferencia en las escalas verticales
de las dos gráficas. Contraer la escala en el eje vertical hace que grandes cambios aparezcan
pequeños y viceversa. Para evitar conclusiones erróneas, se deben ver con cuidado las escalas de
los ejes vertical y horizontal.
38 / 327
1388 ● 20000
1248 ●
80 años y más (miles)
80 años y más (miles)

1030 ●
827 ●
679 ●
561 ●
1388 ● ● ● ●
● ●
457 ● 457 ●
2020 2030 2040 2050 2020 2030 2040 2050
Año Año
Figura: Gráficas de lı́nea para la proyección del crecimiento de la población de 80 años o más.
39 / 327
Gráficos de puntos
Muchos conjuntos de datos cuantitativos están formados de números que no se pueden separar
fácilmente en categorı́as o intervalos. Entonces se hace necesaria una forma diferente de graficar
este tipo de datos.
La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un conjunto pe-
queño de mediciones, por ejemplo el conjunto
2 6 9 3 7 6
se pude simplemente graficar las mediciones como puntos en un eje horizontal. Ésta gráfica se
muestra en la siguiente figura (panel superior). Para un conjunto de datos, como el de la siguiente
figura (panel inferior), la gráfica de puntos puede ser nada informativa.
40 / 327
Gráficos de puntos
●
● ● ● ● ●
2 3 4 5 6 7 8 9
Conjunto pequeño
●
●
● ● ● ●
●●● ● ● ● ● ●
● ● ● ●●●●●● ● ●● ●● ●● ● ●●● ●● ● ● ●●
1.0 1.1 1.2 1.3 1.4
Conjunto grande
Figura: Gráficas de puntos para conjuntos pequeños y grandes de datos.
41 / 327
Interpretación de gráficas con ojo crı́tico
Una vez creada una gráfica o gráficas, para un conjunto de datos, ¿qué se debe buscar al tratar de
describir los datos?
Primero, verificar las escalas horizontales y verticales, de manera que haya claridad respec-
to a lo que se mide.
Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución del eje
horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar?
Examinar la forma de la distribución. ¿La distribución tiene un “máximo”, un punto que
es más alto de cualquier otro? Si es ası́, ésta es la medición o categorı́a que se presenta
con más frecuencia. ¿Hay más de un máximo? ¿Hay un número aproximadamente igual de
mediciones a la izquierda y derecha del máximo?
Buscar cualesquiera mediciones poco comunes o resultados atı́picos. Esto es, ¿hay medi-
ciones mucho mayores o menores que todas las otras? Estos resultados atı́picos pueden no
ser representativos de los otros valores del conjunto.
42 / 327
Es frecuente que las distribuciones se describan según sus formas.
Distribuciones simétricas y sesgadas

Una distribución es simétrica si los lados izquierdo y derecho de la distribución, cuando se
divide en el valor medio, forman imágenes espejo. Una distribución está sesgada a la derecha si
una proporción más grande de las mediciones se encuentra a la derecha del valor máximo. Una
distribución está sesgada a la izquierda si una proporción mayor de las mediciones están a la
izquierda del valor máximo.
Distribución unimodal y bimodal

Una distribución unimodal si tiene un máximo; una distribución bimodal tiene dos máximos.
Las distribuciones bimodales representan a veces una combinación de dos poblaciones diferentes
del conjunto de datos.
43 / 327
Ejemplo
Examinemos las gráficas de la siguiente figura. Notemos que, la primera gráfica de puntos (panel
superior) muestra una distribución relativamente simétrica con solo un máximo situado en x =
5. La segunda gráfica (panel central), no obstante, está lejos de ser simétrica. Tiene una larga
“cola derecha”, lo cual significa que hay unas pocas observaciones extraordinariamente grandes.
Esta distribución está sesgada a la derecha. Del mismo modo, la tercera gráfica de puntos (panel
inferior) con una larga “cola a la izquierda” está sesgada a la izquierda.
44 / 327
●
●
● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
●
●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
●
●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
Figura: Formas de distribución de datos.
45 / 327
Ejemplo
Un asistente administrativo del departamento de educación fı́sica de la universidad está observan-
do los promedios de calificaciones de ocho miembros del equipo femenil de voleibol. El asistente
introduce los promedios en la base de datos pero por accidente coloca mal el punto decimal de
la última entrada.
4,8 5,0 5,0 5,3 4,4 5,4 5,0 0,41
La gráfica de puntos de este pequeño conjunto de datos se muestra en la siguiente figura (panel
superior). Claramente se puede ver el resultado atı́pico u observación poco común causada por
el error del asistente al introducir los datos. Una vez corregido el error, como en la misma figura
(panel inferior), se puede ver la distribución correcta del conjunto de datos. Como éste es un
conjunto muy pequeño, es difı́cil describir la forma de la distribución aun cuando parece tener
un valor máximo alrededor de 5,0 y parece ser relativamente simétrica.
46 / 327
●
●
● ● ● ● ●●
1 2 3 4 5
Promedio
●
●
● ● ● ● ● ●
4.2 4.4 4.6 4.8 5.0 5.2 5.4
Promedio
Figura: Distribución de promedios de calificaciones.
47 / 327
Cuando se comparan gráficas de dos conjuntos de datos, se deben comparar sus escalas de medi-
ción, ubicaciones y formas, y buscar mediciones poco comunes o resultados atı́picos. Recuerde
que estos últimos no siempre son causados por errores o introducción errónea de datos. A ve-
ces dan información muy valiosa que no debe ser soslayada. Es posible que sea necesaria más
información para determinar si un resultado atı́pico es una medición válida que sólo sea anor-
malmente grande o pequeña, o si ha habido algún tipo de error en la recolección de datos. Si las
escalas difieren en mucho, debe tenerse cuidado al hacer comparaciones, o ¡sacar conclusiones
que pudieran ser imprecisas!
48 / 327
Histograma de frecuencia relativa

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para
graficar cantidades en lugar de datos cualitativos. Para obtener un histograma, primero dividimos
el intervalo de las mediciones más pequeñas a la más grande en subintervalos o clases de igual
longitud. Si se ponen en columna los puntos de cada subintervalo y se traza una barra sobre cada
una de las columnas, se habrá creado un histograma de frecuencia relativa, dependiendo de la
escala del eje vertical.

Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica
de barras en la que la altura de la barra muestra “con qué frecuencia” (proporción o frecuencia
relativa) las mediciones caen en una clase o subintervalo particular. Las clases o subintervalos se
grafican a lo largo del eje horizontal.
Observación
Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más
clases se requieren. Es posible emplear la siguiente tabla como guı́a para seleccionar un número
apropiado de clases. Esto es sólo una guı́a; puede usar más o menos clases de las recomendadas.
Tamaño de muestra 25 50 100 200 500
Número de clases 6 7 8 9 10
49 / 327
Las clases deben ser escogidas para que cada una de las mediciones caiga en una clase y sólo en
una. Consideremos la situación donde interesa calibrar una máquina de llenado de bolsas de 7,5
kilos, y para ello se toman primero las siguientes mediciones que corresponden al peso registrado
de 30 bolsas:
7,2 7,8 6,8 6,2 8,2 8,0 8,2 5,6 8,6 7,1
8,2 7,7 7,5 7,2 7,7 5,8 6,8 6,8 8,5 7,5
6,1 7,9 9,4 9,0 7,8 8,5 9,0 7,7 6,7 7,7
Entonces decidimos usar intervalos de peso de igual longitud. Como el intervalo de pesos de las
bolsas es
9,4 − 5,6 = 3,8
el ancho mı́nimo de clase necesario para cubrir el margen de los datos es 3,8/8 = 0,475. Para
más comodidad, redondearemos este ancho aproximado a 0,5. Empezando el primer intervalo
al valor más bajo, 5,6, formamos subintervalos de 5,6 hasta pero no incluyendo 6,1, y ası́ su-
cesivamente. Usando el método de inclusión izquierda e incluyendo el punto frontera de clase
izquierda pero no el punto frontera derecha en la clase, eliminamos cualquier confusión acerca
de dónde poner una medición que resulte caer en un punto de frontera de clase.
50 / 327

La siguiente tabla muestra las ocho clases, numeradas de 1 a 8 para identificación. Las fronteras
para las ocho clases, junto con un total de número de mediciones que caen en cada una de ellas,
también se muestran en la tabla. Al igual que con las gráficas previamente estudiadas, podemos
ahora medir con qué frecuencia se presenta cada clase usando frecuencia o frecuencia relativa.
Clase Fronteras Total Frecuencia Frecuencia

de clase relativa
1 5,6 a < 6,1 || 2 2/30
2 6,1 a < 6,6 || 2 2/30
3 6,6 a < 7,1 |||| 4 4/30
4 7,1 a < 7,6 ||||| 5 5/30
5 7,6 a < 8,1 |||||||| 8 8/30
6 8,1 a < 8,6 ||||| 5 5/30
7 8,6 a < 9,1 ||| 3 3/30
8 9,1 a < 9,6 | 1 1/30
Para construir el histograma de frecuencia relativa, grafique las fronteras de clase a lo largo del
eje horizontal. Trace una barra sobre cada intervalo de clase, con altura igual a la frecuencia
relativa para esa clase. El histograma de frecuencia relativa para los datos de peso de bolsas de
cemento, muestra de un vistazo la forma en que están distribuidos los pesos en el intervalo de
5,6 a 9,4.
51 / 327
0.5
0.4
Frecuencia relativa
0.3
0.2
0.1
5.6 6.1 6.6 7.1 7.6 8.1 8.6 9.1 9.6
Peso de bolsas de cemento
Figura: Histograma de frecuencia relativa para los pesos de las bolsas de cemento.
52 / 327

Ejemplo
Veinticinco clientes de un Starbucks son entrevistados en una encuesta de mercadeo y se les
pregunta, “¿con qué frecuencia visita usted Starbucks en una semana tı́pica?”. Los resultados
son: 6, 7, 1, 5, 6, 4, 6, 4, 6, 8, 6, 5, 6, 3, 4, 5, 5, 5, 7, 6, 3, 5, 7, 5 y 5. La variable que se mide es
el “número de visitas a Starbucks”, que es una variable discreta que toma sólo valores enteros. En
este caso, lo más sencillo es escoger la clase o subintervalos como los valores enteros en el rango
de valores observados. La siguiente tabla muestra las clases y sus frecuencias correspondientes
y frecuencias relativas.
Número de visitas Frecuencia Frecuencia

a Starbucks relativa
1 1 0,04
2 − −
3 2 0,08
4 3 0,12
5 8 0,32
6 7 0,28
7 3 0,12
8 1 0,04
53 / 327
Como resumen, para construir un histograma de frecuencia relativa, podemos seguir los siguien-
tes pasos:
1 Escoja un número de clases, por lo general entre 5 y 12. Cuantos más datos se tengan, más
clases deben usarse.
2 Calcule el ancho aproximado de clase al dividir la diferencia entre los valores máximo y
mı́nimo entre el número de clases.
3 Redondee el ancho aproximado de clase hasta un número cómodo.
4 Si los datos son discretos, se puede asignar una clase para cada valor entero tomado de los
datos. Para un número grande de valores enteros, puede que sea necesario agruparlos en
clase.
5 Localice las fronteras de clase. La clase más baja puede incluir la medición más pequeña.
A continuación sume las clases restantes usando el método de inclusión izquierda.
6 Construya una tabla estadı́stica que contenga las clases, sus frecuencias y sus frecuencias
relativas.
7 Construya un histograma como una gráfica de barras, graficando intervalos de clase en el
eje horizontal y frecuencias relativas como las alturas de las barras.
54 / 327
Se puede usar un histograma de frecuencia relativa para describir la distribución de un conjunto

de datos en términos de su ubicación y forma, y ver si hay resultados atı́picos como lo hizo con
otras gráficas. Por ejemplo, los datos de peso de bolsas de cemento son relativamente simétricos,
sin mediciones poco comunes, en tanto que los datos de Starbucks estuvieron sesgados a la
izquierda. Como la barra construida arriba de cada clase representa la frecuencia relativa de las
mediciones en esa clase, estas alturas se pueden usar para darnos información adicional:
La proporción de las medidas que caen en una clase o grupo particular de clases
La probabilidad de que una medida tomada al azar del conjunto caerá en una clase particular
o grupo de clases
Considere el histograma de frecuencia relativa para los datos del peso de bolsas de cemento.
¿Qué proporción de las bolsas tienen pesos de 7,6 o mayores? Esto abarca todas las clases de
más de 7,6 en la respectiva tabla. Como hay 17 bolsas en esas clases, la proporción de bolsas
con un peso de 7,6 o más es 17/30 = 0,57.
55 / 327

Aun cuando estamos interesados en describir un conjunto de n mediciones, también podrı́amos
estar interesados en la población de donde se sacó la muestra. Un histograma de una muestra
da valiosa información acerca del histograma de población, es decir, la gráfica que describe la
distribución de toda la población.
Recuerde, sin embargo, que diferentes muestras de la misma población producirán histogramas
diferentes, aun cuando se usen fronteras de la misma clase. No obstante, puede esperarse que los
histogramas de la muestra y población sean similares. Al agregar más y más datos a la muestra,
los dos histogramas se hacen cada vez más semejantes. ¡Si se agranda la muestra para incluir
toda la población, ambos histogramas son idénticos!
Conforme siga trabajando los ejercicios de esta unidad, adquirirá más experiencia para reconocer
diferentes tipos de datos y determinar el método gráfico más apropiado a usar. Recuerde que el
tipo de gráfica que use no es tan importante como la interpretación que acompaña a la
imagen. Busque estas importantes caracterı́sticas:
Ubicación del centro de los datos

Forma de la distribución de datos
Observaciones poco comunes del conjunto de datos
Al utilizar estas caracterı́sticas como guı́a, podrá interpretar y comparar conjuntos de datos usan-
do métodos gráficos, que son sólo la primera de numerosas herramientas estadı́sticas que pronto
tendrá a su disposición.
56 / 327
Ejercicios
1. Construya un histograma de frecuencia relativa c) ¿Qué fracción de las mediciones es me-

para estas 50 mediciones: nor a 5,1?
3,1 4,9 2,8 3,6 2,5 d) ¿Qué fracción de las mediciones es ma-
4,5 3,5 3,7 4,1 4,9 yor a 3,6?
2,9 2,1 3,5 4,0 3,7
2,7 4,0 4,4 3,7 4,2 2. Investigue que es una gráfica de tallo y hoja.
3,8 6,2 2,5 2,9 2,8 4,5 3,2 3,5 3,9 3,5
5,1 1,8 5,6 2,2 3,4 3,9 4,3 4,8 3,6 3,3
2,5 3,6 5,1 4,8 1,6 4,3 4,2 3,9 3,7 4,3
3,6 6,1 4,7 3,9 3,9 4,4 3,4 4,2 4,4 4,0
4,3 5,7 3,7 4,6 4,0 3,6 3,5 3,9 4,0
5,6 4,9 4,2 3,1 3,9 Considere el conjunto de datos adjunto:
a) ¿Aproximadamente cuántos intervalos de
clase debe usar? a) Construya una gráfica de tallo y hoja
b) Supongamos que usted decide usar cla- usando el dı́gito inicial como tallo.
ses que empiezan en 1,6 con ancho de b) Construya una gráfica de tallo y hoja
clase de 0,5 (es decir, 1,6 a < 2,1, usando dos veces cada uno de los dı́gitos
2,1 a < 2,6). Construya el histograma iniciales, ¿Esta técnica mejora la presen-
de frecuencia relativa para los datos. tación de los datos? Explique.
57 / 327
Ejercicios
3. Una variable discreta puede tomar sólo los va- con éxito por un laberinto en cada uno de cin-
lores 0, 1 ó 2. Un conjunto de 20 mediciones co dı́as. Los resultados se muestran en la ta-
en esta variable se muestra: bla siguiente. Genere una gráfica de lı́neas para
1 2 1 0 2 describir los datos. ¿Piensa usted que hay algún
2 1 1 0 0 aprendizaje?
2 2 1 1 0 Dı́a 1 2 3 4 5
0 1 2 1 1
T 45 43 46 32 25
a) Construya un histograma de frecuencia
6. El valor de una variable cuantitativa se mide
relativa para los datos.
una vez al año durante un periodo de 10 años.
b) ¿Qué proporción de las mediciones es He aquı́ los datos:
mayor a 1?
c) ¿Qué proporción de las mediciones es Año Medición Año Medición
menor a 2?
1 61,5 6 58,2
d) Si una medición se selecciona al azar de 2 62,3 7 57,5
entre las 20 mediciones mostradas, ¿cuál 3 60,7 8 57,5
es la probabilidad de que sea un 2? 4 59,8 9 56,1
e) Describa la forma de la distribución. ¿Ve 5 58,0 10 56,0
algunos resultados atı́picos?
a) Genere una gráfica de lı́neas para des-
4. Considere el ejercicio anterior. Trace una gráfi- cribir la variable cuando cambie con el
ca de puntos para describir los datos. tiempo.
5. Un psicólogo experimental midió el tiempo (T ) b) Describa las mediciones usando la gráfi-
en segundos, que tardó una rata para navegar ca construida en el inciso a).
58 / 327
Ejercicios
7. Las calificaciones en un examen de 100 puntos a) Construya un histograma de frecuencia

se registraron para 20 estudiantes: relativa. Describa la forma de la distribu-
61 93 91 86 55 63 ción. ¿Ve algunos resultados atı́picos?
86 82 76 57 94 89 b) Suponiendo que los resultados atı́picos
67 62 72 87 68 65 de este conjunto de datos sean observa-
75 84 ciones válidas, ¿cómo los explicarı́a a la
Use una gráfica apropiada para describir los da- administración de la cadena de supermer-
tos, y describa la forma y ubicación de las cali- cados?
ficaciones. ¿Es poco común la forma de la dis- 9. La cantidad de glóbulos rojos de una persona
tribución? sana se midió en cada uno de 15 dı́as. El núme-
6
8. Para determinar el número de cajas de pago que ro registrado se midió en 10 células por mi-
en el futuro es necesario construir, una cadena crolitro (µL).
de supermercados desea obtener información 5,4 5,2 5,0 5,2 5,5
del tiempo (en minutos) necesario para dar ser- 5,3 5,4 5,2 5,1 5,3
vicio a clientes. Para hallar la distribución de 5,3 4,9 5,4 5,2 5,2
tiempos de tal servicio, se registró una muestra
Use una gráfica apropiada para describir los da-
de 1000 tiempos. Treinta de éstos se muestran
tos, y describa la forma y ubicación de las can-
a continuación:
tidades de glóbulos rojos.
3,6 1,9 2,1 0,3 0,8
0,2 1,0 1,4 1,8 1,6
1,1 1,8 0,3 1,1 0,5
1,2 0,6 1,1 0,8 1,7
1,4 0,2 1,3 3,1 0,4
2,3 1,8 4,5 0,9 0,7
59 / 327
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
3 DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS

OBJETIVOS
MEDIDAS DE CENTRO
MEDIDAS DE VARIABILIDAD
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
MEDICIONES DE POSICIÓN RELATIVA
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
60 / 327
OBJETIVOS
Objetivos
Objetivo
Las gráficas son sumamente útiles para la descripción visual de un conjunto de datos, pero no
siempre son la mejor herramienta cuando se desea hacer inferencias acerca de una población a
partir de la información contenida en una muestra. Para este propósito, es mejor usar medidas
numéricas para construir una imagen mental de los datos.
61 / 327
Descripción de datos con medidas numéricas
Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Sabemos
que “una imagen vale por mil palabras” pero hay limitaciones para usar gráficas.
Una limitación es que las gráficas son un tanto imprecisas para usar en inferencia estadı́stica.
Por ejemplo, supongamos que desea usar un histograma muestral para hacer inferencias acerca
de un histograma poblacional. ¿Cómo puede medir las similitudes y diferencias entre los dos
histogramas en alguna forma concreta? Si son idénticas, podrı́a usted decir que son las mismas,
pero, si son diferentes, es difı́cil describir el grado de diferencia.
Una forma de superar estos problemas es usar medidas numéricas, que se pueden calcular para
una muestra o una población de mediciones. Se pueden usar los datos para calcular un conjunto
de números que llevarán una buena imagen mental de la distribución de frecuencia. Estas medi-
ciones se llaman parámetros cuando se asocian con la población y se denominan estadı́sticas
cuando se calculan a partir de mediciones muestrales.
Parámetros y estadı́sticas
Las mediciones descriptivas numéricas asociadas con una población de mediciones se llaman
parámetros; las calculadas a partir de mediciones muestrales reciben el nombre de estadı́sticas.
62 / 327
MEDIDAS DE CENTRO
Medidas de centro
En la capı́tulo anterior introdujimos gráficas de puntos e histogramas para describir la distribu-

ción de un conjunto de mediciones en una variable cuantitativa x, donde el eje horizontal presenta
los valores de x, y los datos están “distribuidos” a lo largo de esta recta horizontal. Una de las
primeras mediciones numéricas importantes es una medida de centro, es decir, una medida a lo
largo del eje horizontal que localiza el centro de la distribución.
El promedio aritmético de un conjunto de mediciones es una medida de centro muy común y
útil. Es frecuente que esta medida se conozca como media aritmética o simplemente media,
de un conjunto de mediciones. Para distinguir entre la media para la muestra y la media para la
población, usamos el sı́mbolo x̄ (x barra) para una media muestral y el sı́mbolo µ para la media
de una población.
Media
La media aritmética o promedio de un conjunto de n mediciones es igual a la suma de las
mediciones dividida entre n.
63 / 327
MEDIDAS DE CENTRO
Medidas de centro
Suponga que hay n mediciones en la variable x y que las llamamos x1 , x2 , . . . , xn . Para sumar
las n mediciones, usamos esta notación abreviada:
n
X
xi que significa x1 + x2 + · · · + xn
i=1
Como las sumas tı́picas en cálculos estadı́sticos se hacen

Pcasi siempre sobre el conjunto total de
n mediciones, se puede usar una notación más sencilla: xi que significa “la suma de todas las
mediciones de x”.
Usando esta notación, escribimos la fórmula para la media muestral:
P
xi
Media muestral:x̄ =
n
Media poblacional:µ
64 / 327
MEDIDAS DE CENTRO
Medidas de centro
Ejemplo
Consideremos una pequeña muestra de n = 5 mediciones, dadas por 2, 9, 11, 5, 6. Para hallar
la media muestral, calculamos
P
xi 2 + 9 + 11 + 5 + 6
x̄ = = = 6,6
n 5
La siguiente Figura, muestra el gráfico de puntos para estos datos y la ubicación de la media
muestral.
65 / 327
MEDIDAS DE CENTRO
Medidas de centro
x = 6.6
● ● ● ● ●
2 4 6 8 10
Mediciones
Figura: Gráfica de puntos y la ubicación de la media.
66 / 327
MEDIDAS DE CENTRO
Medidas de centro
Recuerde que las muestras son mediciones tomadas de una población más grande que en general
es desconocida. Un uso importante de la media muestral x̄, es que es un estimador de la media
poblacional desconocida µ. Recordemos los datos de los pesos de las bolsas de cemento, estos
datos son una muestra de una población más grande y la distribución se muestra se muestra en el
respectivo histograma de frecuencias relativas. La media de los 30 pesos de las bolsas es:
P
xi 227,2
x̄ = = = 7,57
30 30
La media de toda la población de bolsas llenadas por la máquina es desconocida, pero si us-
ted tuviera que calcular su valor, su mejor estimación serı́a 7,57. Aun cuando cambia la media
muestral x̄ de una muestra a otra, la media poblacional µ sigue igual.
Una segunda medida de tendencia central es la mediana, que es el valor de la posición media en
el conjunto de mediciones ordenadas de menor a mayor.
Mediana
La mediana m de un conjunto de n mediciones es el valor de x que cae en la posición media
cuando las mediciones son ordenadas de menor a mayor.
67 / 327
MEDIDAS DE CENTRO
Medidas de centro
Ejemplo
Para hallar la mediana del siguiente conjunto de datos 2, 9, 11, 5 y 6. Primero debemos ordenar
las n = 5 mediciones de menor a mayor:
2 5 6 9 11
La observación central, es el centro del conjunto, o sea m = 6.

Supongamos ahora, que tenemos una nueva observación, x = 27, entonces ordenamos las me-
diciones de menor a mayor:
2 5 6 9 11 27
Ahora hay dos observaciones centrales. Para hallar la mediana, escogemos el valor a la mitad
entre las dos observaciones centrales:
6+9
m= = 7,5
2
68 / 327
MEDIDAS DE CENTRO
Medidas de centro
El valor (n + 1)/2 indica la posición de la mediana del conjunto ordenado de datos. Si la

posición de la mediana es un número que termina en el valor ,5, necesita promediar los dos
valores adyacentes.
Ejemplo
Para las n = 5 mediciones ordenadas (2, 5, 6, 9, 11), la posición de la mediana es (n + 1)/2 =
6/2 = 3 y la mediana es la tercera observación ordenada, o m = 6. Para las n = 6 medi-
ciones ordenadas (2, 5, 6, 9, 11, 27), la posición de la mediana es (n + 1)/2 = 7/2 = 3,5 y la
mediana es el promedio de las 3o y 4o observaciones ordenadas, o m = 7,5.
69 / 327
MEDIDAS DE CENTRO
Medidas de centro
Aunque tanto la media como la mediana son buenas medidas del centro de una distribución, la
mediana es menos sensible a valores o resultados atı́picos. Por ejemplo, el valor x = 27 en los
ejemplos anteriores es mucho mayor que las otras mediciones. La mediana, m = 7,5, no se ve
afectada por el resultado atı́pico, en tanto que el promedio muestral,
P
xi 60
x̄ = = = 10
n 6
sı́ es afectado; su valor no es representativo de las cinco observaciones restantes.
Cuando un conjunto de datos tiene valores extremadamente pequeños u observaciones muy gran-
des, la media muestral se traza hacia la dirección de las mediciones extremas (véase la siguiente
Figura).
70 / 327
MEDIDAS DE CENTRO
Medidas de centro
media = mediana media > mediana

0.25
0.25
0.19
Frecuencia relativa
Frecuencia relativa
0.19
0.12
0.12
0.06
0.06
0 0
Figura: Distribuciones de frecuencia relativa mostrando el efecto de valores extremos en la media y mediana.
71 / 327
MEDIDAS DE CENTRO
Medidas de centro
Si una distribución está sesgada a la derecha, la media se corre a la derecha; si una distribución
está sesgada a la izquierda se corre a la izquierda. La mediana no es afectada por estos valores
extremos porque los valores numéricos de las mediciones no se usan en este cálculo. Cuando una
distribución es simétrica, la media y la mediana son iguales. Si una distribución está fuertemente
sesgada por uno o más valores extremos, se debe emplear la mediana en lugar de la media como
medida de centro. Otra forma de localizar el centro de una distribución es buscar el valor de x
que se presenta con la frecuencia más alta. Esta medida del centro se denomina moda.
Moda
La moda es la categorı́a que se presenta con más frecuencia o el valor de x que se presenta
con más frecuencia. Cuando las mediciones es una variable continua se han agrupado como
histograma de frecuencia o de frecuencia relativa, la clase con el valor máximo o frecuencia se
llama clase modal, y el punto medio de esa clase se toma como la moda.
La moda por lo general se usa para describir conjuntos grandes de datos, mientras que la media
y la mediana se usan para conjuntos de datos grandes y pequeños.
Es posible que una distribución de mediciones tenga más de una moda. Estas modas aparecerı́an
como “máximos locales” en la distribución de frecuencia relativa. A veces las distribuciones
bimodales de tamaños o pesos reflejan una mezcla de mediciones, por ejemplo, tomadas de
machos y hembras. En cualquier caso, un conjunto o distribución de mediciones puede tener más
de una moda.
72 / 327
MEDIDAS DE CENTRO
Ejercicios
1. Nos dan n = 5 mediciones: 0, 5, 1, 1, 3. 4. El costo de asegurar un auto se ha convertido

en un tema de disgusto en Chile porque las ta-
a) Trace una gráfica de puntos para los datos
sas de seguro dependen de variables tan distin-
(si dos mediciones son iguales, ponga un
tas; por ejemplo, la ciudad en la que el usuario
punto arriba del otro). Calcule el “centro”
vive, el número de autos que tenga y la com-
aproximado.
pañı́a que está asegurando. El Sernac informa
b) Encuentre la media, mediana y moda. que la prima anual para 2017-2018 para una
c) Localice las tres mediciones de centro mujer soltera, con licencia de manejo duran-
en la gráfica de puntos en el inciso a). te 4-8 años, que conduce un Honda Accord de
Con base en las posiciones relativas de 20 300 a 24 200 kilómetros al año y ha tenido
la media y mediana, ¿las mediciones son infracciones ni accidentes.
simétricas o son sesgadas?
Ciudad Liberty Security
2. Nos dan n = 8 mediciones: 3, 2, 5, 6, 4, 4, 3,
5. Iquique 131 236 111 370
Caldera 115 584 104 748
a) Encuentre x̄. Copiapó 114 380 103 544
b) Encuentre m. Santiago 112 574 94 514
c) Con base en los resultados de los inci-
sos a) y b), ¿las medidas son simétricas o a) ¿Cuál es el promedio de las primas de Se-
sesgadas? Trace la gráfica de puntos para guros Liberty y Seguros Security?
confirmar su respuesta. b) Si usted fuera consumidor, ¿estarı́a in-
3. Nos dan n = 10 mediciones: 3, 5, 4, 6, 10, 5, teresado en el costo promedio de las pri-
6, 9, 2, 8. Encuentre x̄, m y la moda. mas? Si no es ası́, ¿qué le interesarı́a?
73 / 327
MEDIDAS DE CENTRO
Ejercicios
5. Un teléfono celular es un aparato común en casi media, mediana y moda a lo largo del eje
todas las personas en Chile. De hecho, casi to- horizontal. ¿Las respuestas a los incisos
das las personas tienen uno y otras tienen más a) y b) son correctas?
de uno. Una muestra de 25 personas produjo
las siguientes mediciones en x, el número de
teléfonos celulares que posee una persona: 6. ¿El orden de nacimiento tiene algún efecto en
la personalidad de una persona? Un informe so-
1 2 2 1 1 1 1 2 bre un estudio, hecho por un investigador del
1 2 1 1 2 3 2 1 MIT, indica que es probable que los hijos naci-
1 1 2 1 3 1 0 1 dos después del primogénito pongan a prueba
1 lo establecido, son más abiertos a nuevas ideas
a) La distribución de x, el número de teléfo- y aceptan más un cambio. De hecho, el núme-
nos celulares que posee una persona, ¿es ro de esta clase de hijos es creciente. Durante
simétrica o sesgada? Explique. los años de la Depresión en el decenio de 1930,
b) Calcule el valor de la moda, el valor de x las familias promediaban 2,5 hijos (59 % des-
que se presenta con más frecuencia. pués del primogénito), mientras que los padres
c) Calcule la media, la mediana y la moda de familia en la explosión demográfica prome-
para estas mediciones. diaban de tres a cuatro hijos (68 % después del
d) Trace un histograma de frecuencia relati- primogénito). ¿Qué quiere decir el autor con un
va para el conjunto de datos. Localice la promedio de 2,5 hijos?
74 / 327
MEDIDAS DE CENTRO
Ejercicios
7. Un artı́culo en Consumer Report da el precio, c) Con base en lo que encuentre en los inci-
un promedio estimado de una lata de 180 gra- sos a) y b), ¿piensa usted que la distribu-
mos o un paquete 210 gramos, para 14 marcas ción de precios está sesgada? Explique.
diferentes de atún empacado en agua, basado
en precios pagados a nivel nacional en super- 8. A medida que los equipos de fútbol profesiona-
mercados: les hacen negocios cada vez más lucrativos, los
613 1189 762 527 402 salarios pagados a los jugadores también han
328 874 694 390 415 aumentado. De hecho, a las superestrellas de-
428 372 372 408 portivas se les pagan salarios astronómicos por
su talento. Si una compañı́a de administración
a) Encuentre el precio promedio para las 14 deportiva le pode a usted que describa la distri-
marcas diferentes de atún. bución de los salarios de los jugadores, en va-
b) Encuentre el precio mediano para las 14 rias categorı́as diferentes, ¿qué medida de cen-
marcas diferentes de atún. tro escogerı́a? ¿Por qué?
75 / 327
MEDIDAS DE CENTRO
Ejercicios
9. En un experimento psicológico, fue registrado a continuación.

el tiempo que una persona realiza una tarea en 16 7 2 6 4
particular para 10 personas bajo una limitación 1 7 1 1 1
de 5 minutos. Estas mediciones son en segun- 3 2 11 1 5
dos: 1 4 12
175 190 250 230 240
200 185 190 225 265
a) Encuentre la media, la mediana y la mo-
a) Encuentre el tiempo promedio en realizar da.
la tarea.
b) Encuentre la mediana del tiempo en rea- b) Compare la mediana y la media. ¿Qué
lizar la tarea. puede usted decir acerca de la forma de
c) Si usted está escribiendo un informe pa- la distribución?
ra describir estos datos, ¿qué medida de c) Trace una gráfica de puntos para los da-
tendencia central usarı́a? Explique. tos. ¿Esto confirma la conclusión de us-
10. El número de cafeterı́as Starbucks en 18 co- ted acerca de la forma de la distribución
munas de la región metropolitana, se muestra para el inciso b)?
76 / 327
Medidas de variabilidad
Los conjuntos de datos pueden tener el mismo centro pero con aspecto diferente por la forma
en que los números se dispersan desde el centro. Considere las dos distribuciones que se mues-
tran en la siguiente figura. Ambas distribuciones están centradas en x = 4, pero hay una gran
diferencia en la forma en que las mediciones se dispersan o varı́an. Las mediciones de la figura
(panel izquierdo) varı́an de 3 a 5; en la figura (panel derecho) las mediciones varı́an de 0 a 8.
77 / 327
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Figura: Variabilidad o dispersión de datos.
78 / 327
La variabilidad o dispersión es una muy importante caracterı́stica de los datos. Por ejemplo, si
fabrica tornillos, la variación extrema en los diámetros de los tornillos causarı́a un alto porcentaje
de productos defectuosos. Por el contrario, si estuviera tratando de discriminar entre trabajado-
res buenos y malos, tendrı́a problemas si el examen siempre produjera calificaciones con poca
variación, lo cual hace muy difı́cil la discriminación.
Las medidas de variabilidad pueden ayudar a crear una imagen mental de la dispersión de los
datos. La medida más sencilla de variación es el rango.
Rango
El rango, R, de un conjunto de n mediciones se define como la diferencia entre la medición más
grande y la más pequeña.
Para los datos de los pesos de las bolsas de cemento, las mediciones varı́an de 5,6 a 9,4. Por tanto,
el rango es 9,4 − 5,6 = 3,8. El rango es fácil de calcular, fácil de interpretar y es una medida
adecuada de variación para conjuntos pequeños de datos. Pero, para conjuntos grandes, el rango
no es una medida adecuada de variabilidad. Por ejemplo, las dos distribuciones de frecuencia
relativa de la siguiente figura tienen el mismo rango pero muy diferentes formas y por lo tanto,
diferente variabilidad.
79 / 327
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Figura: Distribuciones con igual rango y desigual variabilidad.
80 / 327
¿Hay una medida de variabilidad que sea más sensible que el rango? Considere, como ejemplo,
las mediciones muestrales 5, 7, 1, 2 y 4, mostradas como una gráfica de puntos en la siguiente
figura. La media de estas cinco mediciones es
P
xi 19
x̄ = = = 3,8
n 5
81 / 327
x = 3.8
xi − x
● ● ● ● ●
0 1 2 3 4 5 6 7 8
Figura: Gráfica de puntos que muestran las desviaciones de puntos desde la media.
82 / 327
Como se indica en figura anterior, las distancias horizontales entre cada punto (medición) y
la media x̄ ayudarán a medir la variabilidad. Si las distancias son grandes, los datos son más
dispersos o variables que si las distancias son pequeñas. Si xi es una medición en particular,
entonces la desviación de esa medición desde la media es (xi − x̄). Los valores de x y las
desviaciones para nuestro ejemplo si detallan en las columnas primera y segunda de la siguiente
tabla.
x (xi − x̄) (xi − x̄)2

5 1,2 1,44
7 3,2 10,24
1 −2,8 7,84
2 −1,8 3,24
4 0,2 0,04
19 0,0 22,80
Como las desviaciones en la segunda columna de la tabla contienen información sobre variabi-
lidad, una forma de combinar las cinco desviaciones en una medida numérica es promediarlas.
Desafortunadamente, el promedio no funcionará por que algunas de las desviaciones son posi-
tivas, algunas son negativas y la suma es siempre cero. Para superar esta dificultad, se trabajará
con la suma de cuadrados. De la suma de desviaciones cuadradas, se calcula una sola medida
llamada varianza.
83 / 327
Para distinguir entre la varianza de una muestra y la varianza de una población, usamos el
sı́mbolo s2 para una varianza muestral y σ 2 para una varianza poblacional.
Varianza poblacional
La varianza de una población de N mediciones es el promedio de los cuadrados de las desvia-
ciones de las mediciones alrededor de su media µ. La varianza poblacional se denota con σ 2 y
está dada por la fórmula
(xi − µ)2
P
σ2 =
N
La mayor parte de las veces, no tendremos todas las mediciones de la población disponible,
entonces necesitaremos calcular la varianza de una muestra de n mediciones.
Varianza muestral
La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las
mediciones alrededor de la media x̄ dividida entre (n − 1). La varianza muestral se denota con
s2 y está dada por la fórmula
(xi − x̄)2
P
s2 =
n−1
84 / 327
Para el conjunto de n = 5 mediciones muestrales presentadas anteriormente, el cuadrado de la
desviación de cada medición se registra en la tercera columna. Sumando, tendremos
X
(xi − x̄)2 = 22,80
y la varianza muestral es
(xi − x̄)2
P
22,80
s2 = = = 5,70
n−1 4
La varianza se mide en términos del cuadrado de las unidades originales de medición. Tomando
la raı́z cuadrada de la varianza, obtenemos la desviación estándar, que regresa la medida de
variabilidad a las unidades originales de medición.
Desviación estándar
La desviación estándar de un conjunto de mediciones es igual a la raı́z cuadrada positiva de la
varianza.
Para el conjunto de n = 5 mediciones muestrales presentadas,√la varianza muestral es s2 =

√
5,70, de modo que la desviación estándar de la muestra es s = s2 = 5,70 = 2,39. Cuanto
más variable sea el conjunto de datos, mayor es el valor de s.
85 / 327
Para el pequeño conjunto de datos que empleamos, el cálculo de la varianza no es demasiado

difı́cil. No obstante, para un conjunto más grande, los cálculos pueden hacerse tediosos. Si se
necesita calcular manualmente s2 y s, es mucho más fácil usar la fórmula alternativa de cálculo
dada en la siguiente definición. Esta forma computacional se denomina a veces método breve
para calcular s2 .
Formula computacional
( xi )2
X P
x2i −
s2 = n
n−1
Se puede preguntar por qué es necesario dividir entre (n − 1) en lugar de n cuando se calcula
la varianza poblacional. Ası́ como empleamos la media muestral x̄ para estimar la media pobla-
cional µ, se puede usar la varianza muestral s2 para estimar la varianza poblacional σ 2 . Resulta
que la varianza muestral s2 con (n − 1) en el denominador da estimaciones mejores de σ 2 de lo
que darı́a un estimador calculado con n en el denominador. Por esta razón, siempre dividimos
entre (n − 1) al calcular la varianza muestral s2 y la desviación estándar de la muestra s.
86 / 327
Ejercicios
1. Nos dan n = 5 mediciones: 2, 1, 1, 3, 5. c) Calcule la varianza muestral y desviación

a) Calcule la media muestral, x̄. estándar.
2
b) Calcule la varianza muestral, s , usando d) Compare el rango y la desviación es-
la fórmula da(da por la definición. tándar. ¿El rango es aproximadamente
c) Encuentre la desviación estándar de la cuántas desviaciones estándar?
muestra s. 4. Un artı́culo en Archaeometry contenı́a un análi-
2
d) Encuentre s y s usando la fórmula sis de 26 muestras de cerámica romano-británi-
computacional. Compare los resultados cas hallada en cuatro hornos diferentes en el
con los hallados en los incisos b) y c). Reino Unido. Las muestras fueron analizadas
2. Nos dan n = 8 mediciones: 4, 1, 3, 1, 3, 1, 2, para determinar su composición quı́mica. El
2. porcentaje de óxido de hierro en cada una de las
cinco muestras recolectadas en el sitio de Island
a) Encuentre el rango. Thorns fue: 1,28, 2,39, 1,50, 1,88, 1,51.
b) Calcule x̄.
2 a) Calcule en rango.
c) Calcule s y s usando la fórmula compu-
tacional. b) Calcule la varianza muestral y la desvia-
ción estándar usando la fórmula compu-
3. Nos dan n = 8 mediciones: 3, 1, 5, 6, 4, 4, 3, tacional.
5. c) Compare el rango y la desviación es-
a) Calcule el rango. tándar. ¿El rango es aproximadamente
b) Calcule la media muestral. cuántas desviaciones estándar?
87 / 327
Ejercicios
5. Los estados de cuenta mensuales por consumo para el año 2016.

eléctrico (en pesos) para una familia de Co- b) Calcule el promedio mensual de pago de
piapó, se registraron durante 12 meses conse- electricidad en 2016.
cutivos empezando en enero de 2016. c) Calcule la desviación estándar para el pa-
a) Calcule el rango del pago de electricidad go de electricidad para el mismo año.
Mes Cantidad Mes Cantidad

Ene 17 596 Jul 19 081
Feb 10 171 Ago 20 882
Mar 14 657 Sep 21 381
Abr 10 123 Oct 14 117
May 11 649 Nov 13 008
Jun 17 990 Dic 14 345
88 / 327
Sobre la significancia de la desviación estándar
A continuación introducimos un útil teorema ideado por el matemático ruso Tchebychev. La

demostración del teorema no es difı́cil, pero estamos más interesados en su aplicación.
Teorema de Tchebychev
Dado un número k mayor o igual a 1 y un conjunto de n mediciones, al menos 1 − (1/k2 ) de
las mediciones estarán dentro de k desviaciones estándar de su media.
El teorema de Tchebychev aplica a cualquier conjunto de mediciones y se puede usar para

describir ya sea una muestra o una población. Usaremos la notación apropiada para poblaciones,
pero usted debe ver que con la misma facilidad podrı́amos usar la media y la desviación estándar
para la muestra.
La idea comprendida en el teorema de Tchebychev está ilustrada en la siguiente figura. Se cons-
truye un intervalo al medir una distancia kσ a cualquier lado de la media µ. El número k puede
ser cualquier número mientras sea mayor o igual a 1. Entonces el teorema de Tchebychev expresa
que al menos 1 − (1/k2 ) del número total n de mediciones está en el intervalo construido.
89 / 327
1
Al menos 1 −
k2
kσ kσ
µ − kσ µ µ + kσ
Figura: Ilustración del teorema de Tchebychev.
90 / 327
En la siguiente tabla escogimos unos cuantos valores numéricos para k y calculamos 1−(1/k2 ).
k 1 − (1/k2 )
1 1−1=0
2 1 − 1/4 = 3/4
3 1 − 1/9 = 8/9
De los cálculos de la tabla, el teorema establece que:
Al menos ninguna de las mediciones está en el intervalo µ − σ a µ + σ.

Al menos 3/4 de las mediciones está en el intervalo µ − 2σ a µ + 2σ.
Al menos 8/9 de las mediciones está en el intervalo µ − 3σ a µ + 3σ.
Aun cuando el primer enunciado no es útil en absoluto, los otros dos valores de k dan valiosa
información acerca de la proporción de mediciones que caen en ciertos intervalos. Los valores
k = 2 y k = 3 no son los únicos valores de k que se pueden usar; por ejemplo, la proporción
de mediciones que caen dentro de k = 2,5 desviaciones estándar de la media es al menos
1 − (1/2,52 ) = 0,84.
91 / 327
Ejemplo
√ de n = 25 mediciones son 75 y 100, respectivamente.

La media y varianza de una muestra
La desviación estándar es s = 100 = 10. La distribución de las mediciones está centrada
alrededor de x̄ = 75, y el teorema de Tchebychev establece que:
Al menos 3/4 de las 25 mediciones están en el intervalo x̄ ± 2s = 75 ± 2(10), esto es,
55 a 95.
Al menos 8/9 de las mediciones están en el intervalo x̄ ± 3s = 75 ± 3(10), esto es, 45 a
105.
92 / 327
Como el teorema de Tchebychev se aplica a cualquier distribución, es muy conservador. Ésta es

la razón por la que hacemos hincapié en “al menos 1 − (1/k2 )” en este teorema.
Otra regla para describir la variabilidad de un conjunto de datos no funciona para todos los
conjuntos de datos, pero funciona muy bien para datos que “se apilan” en la conocida forma
de campana (o campana de Gauss, una distribución simétrica y unimodal). Cuanto más cerca se
encuentre la distribución a la forma de campana, más precisa será la regla. Como la distribución
de datos de forma de campana se presenta con frecuencia en la naturaleza, la regla se puede usar
en numerosas ocasiones en aplicaciones prácticas. Por esta razón, se denomina Regla empı́rica.
Regla empı́rica
Dada una distribución de mediciones que tiene forma aproximada de campana:
El intervalo (µ ± σ) contiene aproximadamente 68 % de las mediciones.
El intervalo (µ ± 2σ) contiene aproximadamente 95 % de las mediciones.
El intervalo (µ ± 3σ) contiene aproximadamente 99,7 % de las mediciones.
La distribución en forma de campana se conoce comúnmente como distribución normal y se

estudiará en detalle en las unidades posteriores.
93 / 327
Ejemplo
En un estudio de tiempo efectuado en una planta manufacturera, el tiempo para completar una
operación especı́fica se mide para cada uno de los n = 40 trabajadores. Se encuentra que la
media y la desviación estándar son 12,8 y 1,7, respectivamente. Para describir estos datos mues-
trales usando la Regla empı́rica, primero calculamos los siguientes intervalos:
(x̄ ± s) = 12,8 ± 1,7 o 11,1 a 14,5

(x̄ ± 2s) = 12,8 ± 2(1,7) o 9,4 a 16,2
(x̄ ± 3s) = 12,8 ± 3(1,7) o 7,7 a 17,9
De acuerdo con la Regla empı́rica, se espera que aproximadamente 68 % de las mediciones

caigan en el intervalo de 11,1 a 14,5, aproximadamente 95 % caiga en el intervalo de 9,4 a
16,2, y aproximadamente 99,7 % caigan en el intervalo de 7,7 a 17,9.
Si hay duda de que la distribución de mediciones tenga forma de campana o si se desea ser
conservador por alguna razón, se puede aplicar el teorema de Tchebychev y estar absolutamente
seguro de sus afirmaciones. El teorema de Tchebychev dice que al menos 3/4 de las mediciones
caen en el intervalo de 9,4 a 16,2 y al menos 8/9 en el intervalo de 7,7 a 17,9.
94 / 327
El teorema de Tchebychev se puede demostrar matemáticamente. Se aplica a cualquier conjunto

de mediciones, muestra o población, grande o pequeño, en forma de campana o sesgado.
El teorema de Tchebychev da un lı́mite inferior a la fracción de mediciones a encontrar en un
intervalo construido como x̄ ± ks. ¡Al menos 1 − (1/k2 ) de las mediciones caerán en este
intervalo, y probablemente más!
La Regla empı́rica es una “regla práctica” que se puede usar como herramienta descriptiva cuando
los datos tienden a ser de forma más o menos de campana.
Cuando se usen estas dos herramientas para describir un conjunto de mediciones, el teorema de
Tchebychev siempre se satisface pero en una estimación muy conservadora de la fracción de
mediciones que caen en un intervalo particular. Si es apropiado usar la Regla empı́rica, esta regla
dará una estimación más precisa de la fracción de mediciones que caen en el intervalo.
95 / 327
Ejercicios
1. Un conjunto de n = 10 mediciones consta de representar la distribución de frecuencia

los valores 5, 2, 3, 6, 1, 2, 4, 5, 1, 3. relativa?
a) Trace una gráfica de puntos de este con- b) Si no tiene usted información previa res-
junto de datos. ¿Los datos tiene forma de pecto a la forma de la distribución de fre-
campana? cuencia relativa, ¿qué puede decir acer-
b) ¿Puede usar el teorema de Tchebychev ca del histograma de frecuencia relativa?
para describir este conjunto de datos? (Sugerencia: Construya intervalos x̄±ks
¿Por qué sı́ o por qué no? para varias opciones de k.)
c) ¿Puede usar la Regla empı́rica para des- 3. Una distribución de mediciones tiene relativa-
cribir este conjunto de datos? ¿Por qué si mente la forma de campana con media de 50 y
o por qué no? desviación estándar de 10.
2. Supongamos que usted desea crear una ima- a) ¿Qué proporción de las mediciones caerá
gen mental del histograma de frecuencia rela- entre 40 y 60?
tiva para un conjunto de datos grande formado b) ¿Qué proporción de las mediciones caerá
por mil observaciones y que sabe que la media entre 30 y 70?
y desviación estándar del conjunto de datos son c) ¿Qué proporción de las mediciones caerá
36 y 3, respectivamente. entre 30 y 60?
a) Se está más o menos seguro que la distri- d) Si se escoge una medición al azar de esta
bución de frecuencia relativa de los datos distribución, ¿cuál es la probabilidad de
tiene forma de campana, ¿cómo podrı́a que sea mayor a 60?
96 / 327
Ejercicios
4. Un conjunto de datos tiene una media 75 y una 1,08 0,99 0,97 1,18
desviación estándar de 5. Usted no sabe nada 1,41 1,28 0,83 1,06
más acerca del tamaño del conjunto de datos o 1,14 1,38 0,75 0,96
de la forma de la distribución de datos. 1,08 0,87 0,89 0,89
0,96 1,12 1,12 0,93
a) ¿Qué puede decir acerca de la proporción 1,24 0,89 0,98 1,14
de mediciones que caen entre 60 y 90? 0,92 1,18 1,17
b) ¿Qué puede decir acerca de la proporción
de mediciones que caen entre 65 y 85? a) Construya un histograma de frecuencia
c) ¿Qué puede decir acerca de la proporción relativa para mostrar la distribución de
de mediciones que sean menores de 65? los pesos. ¿La distribución es relativa-
5. El tiempo requerido para que el conductor de mente de forma de campana?
un automóvil responda a una situación parti- b) Encuentre la media y desviación estándar
cular de emergencia se registró para n = 10 del conjunto de datos.
conductores. Los tiempos (en segundos) fueron c) Encuentre el porcentaje de mediciones en
0,5; 0,8; 1, 1; 0,7; 0,6; 0,9; 0,7; 0,8; 0,7; el intervalo x̄ ± s, x̄ ± 2s y x̄ ± 3s.
8,0. Calcule la media y desviación estándar, d) Los porcentajes obtenidos en el inciso c),
utilice estos resultados para construir los inter- ¿cómo se comparan con los datos por la
valos de la Regla empı́rica e interprételos. Regla empı́rica? Explique.
6. Los datos que aparecen enseguida son los pa- e) ¿Cuántos de los paquetes pesan exacta-
sos (en libras) de 27 paquetes de carne molida, mente 1 libra? ¿Puede usted considerar
vistos en un supermercado: alguna explicación para esto?
97 / 327
Ejercicios
7. ¿Es normal el ritmo respiratorio de usted? En dividió en dos grupos. Ella midió el contenido
realidad, no hay un ritmo estándar de respira- de titanio (Ti) de las muestras usando dos méto-
ción para seres humanos. Puede variar desde dos diferentes.
sólo cuatro respiraciones por minuto hasta 70 Método 1 Método 2
o 75 para una persona que realice un ejercicio
agotador. Suponga que los ritmos respiratorios 0,011 0,013 0,011 0,016
en reposo para estudiantes universitarios tiene 0,013 0,015 0,013 0,012
una distribución en forma de campana, con una 0,014 0,013 0,015 0,012
media igual a 12 y una desviación estándar de 0,010 0,013 0,017 0,013
2,3 respiraciones por minuto. ¿Qué fracción de 0,011 0,012 0,014 0,015
todos los estudiantes tendrı́a ritmos respirato- a) Construya gráficas de tallo y hoja para
rios en los siguientes intervalos? los dos conjuntos de datos. Visualmente
a) 9,7 a 14,3 respiraciones por minuto. compare sus centros y sus rangos.
b) 7,4 a 16,6 respiraciones por minuto. b) Calcule las medias muestrales y desvia-
c) Más de 18,9 o menos de 5,1 respiracio- ciones estándar para los dos conjuntos.
nes por minuto. ¿Los valores calculados confirman las
8. Una geóloga recolectó 20 muestras diferentes conclusiones visuales de usted del inciso
de mineral, todas del mismo peso, y al azar las a)?
98 / 327
Ejercicios
9. Para calcular la cantidad de madera en un te- b) Calcule la media muestral x̄ como esti-
rreno maderero, un propietario determinó con- mación de µ, el número medio de árbo-
tar el número de árboles con diámetros mayores les para todos los cuadrados de 50 × 50
a 12 pulgadas en cuadrados de 50×50 pies se- pies del terreno.
leccionados al azar. Se escogieron 70 de estos
cuadrados y se contaron los árboles selecciona- 10. Los datos siguientes son 30 tiempos de espe-
dos de cada extensión. Los datos aparecen en ra entre erupciones del géiser Old Faithful del
seguida: parque nacional de Yellowstone.
7 8 7 10 4 8 56 89 51 79 58 82
6 8 9 10 9 6 52 88 52 78 69 75
4 9 10 9 8 8 77 72 71 55 87 53
7 9 3 9 5 9 85 61 93 54 76 80
9 8 7 5 8 8 81 59 86 78 71 77
10 2 7 4 8 5 a) Calcule el rango.
10 7 7 7 9 6 b) Calcule la desviación estándar de la
8 8 8 7 8 9 muestra s.
6 8 6 11 9 11 c) ¿Qué proporción de las mediciones se
7 7 11 7 9 13 encuentra a no más de dos desviacio-
10 8 8 5 9 9 nes estándar de la media? ¿Y a no más
8 5 9 8 de tres desviaciones estándar de la me-
dia? ¿Estas proporciones concuerdan con
a) Construya un histograma de frecuencia las proporciones dads por el teorema de
relativa para describir los datos. Tchebychev?
99 / 327
Mediciones de posición relativa
La media y desviación estándar se pueden usar para calcular un puntaje z, que mide la posición
relativa de una medición en un conjunto de datos.
Puntaje z
El puntaje z muestral es una medida de posición relativa definida por
x − x̄
puntaje z =
s
Un puntaje z mide la distancia entre una observación y la media, medidas en unidades

de la desviación estándar. Por ejemplo, suponga que la media y la desviación estándar de los
puntajes de un examen son 25 y 4, respectivamente. El puntaje z para su calificación de 30 se
calcula como sigue:
x − x̄ 30 − 25
puntaje z = = = 1,25
s 4
Su puntaje de 30 está a 1,25 desviaciones estándar arriba de la media (30 = x̄ + 1,25s).
El puntaje z es una valiosa herramienta para determinar si es probable que una observación
particular se presente con frecuencia, o si es improbable y puede ser considerada como resultado
atı́pico.
100 / 327
De acuerdo al teorema de Tchebychev y la Regla empı́rica,
al menos 75 % y más probablemente 95 % de las observaciones están a no más de dos

desviaciones estándar de su media: sus puntajes z están entre −2 y +2. Las observaciones
con puntaje z mayores a 2 en valor absoluto se presentan menos del 5 % del tiempo y
son consideradas un tanto improbables.
al menos 89 % y más probablemente 99,7 % de las observaciones están o no más de tres
desviaciones estándar de su media: sus puntajes z están entre −3 y +3. Las observaciones
con puntajes z mayores a 3 en valor absoluto se presentan menos del 1 % del tiempo
y son consideradas muy poco probables.
Debe apreciar con cuidado cualquier observación que tenga un puntaje z mayor a 3 en valor
absoluto. Quizá la medición fue registrada incorrectamente o no pertenece a la población que se
muestrea. Quizá es sólo una observación muy poco probable, pero válida, con todo.
101 / 327
Ejemplo
Consideremos las siguientes n mediciones:
1 1 0 15 2 3 4 0 1 3
La medición x = 15 parece ser extraordinariamente grande. La media y desviación estándar

para las n = 10 mediciones, son x̄ = 3,0 y s = 4,42. Entonces el puntaje z para el resultado
atı́pico sospechoso, x = 15, es
x − x̄ 15 − 3
puntaje z = = = 2,71
s 4,42
En consecuencia, la medición x = 15 está a 2,71 desviaciones estándar arriba de la media

muestral x̄ = 3,0. Aun cuando el puntaje z no excede de 3, está cercano lo suficiente para que
usted pueda sospechar que x = 15 es un resultado atı́pico. Usted debe examinar el procedimiento
de muestreo para ver si x = 15 es una observación defectuosa.
102 / 327
Un percentil es otra medida de posición relativa y se usa con más frecuencia para conjuntos
grandes de datos. Los percentiles no son muy útiles para conjuntos pequeños de datos.
Percentil
Un conjunto de n mediciones de la variable x se ha reacomodado en orden de magnitud. El p-
ésimo percentil es el valor de x que es mayor a p % de las mediciones y es menor que el restante
(100 − p) %.
Ejemplo
Supongamos que un estudiante ha sido notificado que su calificación de 610, en la Prueba de
Selección Universitaria en lenguaje, lo ha colocado en el 60avo percentil en la distribución de
calificaciones. ¿Dónde está su calificación de 610 en relación a las calificaciones de los otros
que tomaron la prueba? Entonces calificar en el 60avo percentil significa que 60 % de todas las
calificaciones de examen fueron más bajas que la calificación de usted y 40 % fueron más altas.
En general, el 60avo percentil para la variable x es un punto en el eje horizontal de la distribu-

ción de datos que es mayor a 60 % de las mediciones y menor que las otras. Esto es, 60 % de las
mediciones son menores que el 60avo percentil y 40 % son mayores (véase la siguiente figura).
103 / 327
60% 40%
60avo percentil x
Figura: El 60avo percentil mostrado en el histograma de frecuencia relativa para un conjunto de datos.
104 / 327
Como el área total bajo la distribución es 100 %, 60 % del área está a la izquierda y 40 % del área
está a la derecha del 60avo percentil. Recuerde que la mediana, m, de un conjunto de datos es
la medición central; esto es, 50 % de las mediciones son más pequeñas y 50 % son más grandes
que la mediana. Entonces, ¡la mediana es igual que el 50avo percentil!
Los percentiles 25avo y 75avo, llamados cuartiles inferior, Q1 , y superior, Q3 , junto con la
mediana (el 50avo percentil), localizan puntos que dividen los datos en cuatro conjuntos, cada
uno conteniendo un número igual de mediciones. Veinticinco por ciento de las mediciones serán
menores que el cuartil inferior (primero), 50 % serán menores que la mediana (el segundo cuartil,
Q2 ) y 75 serán menores que el cuartil superior (tercero).
De este modo, la mediana y los cuartiles inferior y superior están ubicados en puntos en el eje
x de modo que el área bajo el histograma de frecuencia relativa para los datos está dividida en
cuatro áreas iguales, como el muestra en la siguiente Figura.
105 / 327
25% 25% 25% 25%
Q1 m Q3
Figura: Ubicación de los cuartiles.
106 / 327
Cuartiles
Un conjunto de n mediciones en la variable x se ha acomodado en orden de magnitud. El cuartil
inferior (primer cuartil), Q1 , es el valor de x que es mayor a un cuarto de las mediciones y
es menor que los restantes tres cuartos. El segundo cuartil es la mediana. El cuartil superior
(tercer cuartil), Q3 , es el valor de x que es mayor a tres cuartos de las mediciones y es menor
que el restante un cuarto.
Para conjuntos de datos pequeños, con frecuencia es imposible dividir el conjunto en cuatro gru-
pos, cada uno de los cuales contiene exactamente 25 % de las mediciones. Por ejemplo, cuando
n = 10, usted necesita tener 2, 5 mediciones en cada grupo. Aun cuando usted efectúe esta tarea
(por ejemplo, n = 12), hay muchos números que satisfarı́an la definición precedente y, por lo
tanto, podrı́an ser considerados “cuartiles”. Para evitar ambigüedad, usamos la siguiente regla
para localizar cuartiles muestrales.
Cuando las mediciones están dispuestas en orden de magnitud, el cuartil inferior, Q1 , es

el valor de x en la posición (n + 1)/4, y el cuartil superior, Q3 , es el valor de x en la
posición 3(n + 1)/4.
Cuando (n + 1)/4 y 3(n + 1)/4 no son enteros, los cuartiles se encuentran por interpola-
ción, usando los valores de las dos posiciones adyacentes.
107 / 327
Ejemplo
Consideremos el conjunto de n = 10 mediciones: 16, 25, 4, 18, 11, 13, 20, 8, 11 y 9. Entonces,
ordenando las mediciones de menor a mayor:
4 8 9 11 11 13 16 18 20 25
Calculamos la
Posición de Q1 = 0,25(n + 1) = 0,25(10 + 1) = 2,75

Posición de Q3 = 0,75(n + 1) = 0,75(10 + 1) = 8,25
Como estas posiciones no son enteros, el cuartil inferior se toma como el valor 3/4 de la distancia
entre la segunda y tercera mediciones ordenadas, y el cuartil superior se toma como el valor 1/4
de la distancia entre la octava y novena mediciones ordenadas. Por tanto,
Q1 = 8 + 0,75(9 − 8) = 8 + 0,75 = 8,75
y
Q3 = 18 + 0,25(20 − 18) = 18 + 0,5 = 18,5
108 / 327
Como la mediana y los cuartiles dividen la distribución de datos en cuatro partes, cada una de
ellas conteniendo alrededor de 25 % de las mediciones, Q1 y Q3 son las fronteras superior e
inferior para el 50 % central de la distribución. Podemos medir el rango de este “50 % central”
de la distribución usando una medida numérica llamada rango intercuartil.
Rango intercuartil
El rango intercuartil (RIC) para un conjunto de mediciones es la diferencia entre los cuartiles
superior e inferior; esto es, RIC = Q3 − Q1 .
109 / 327
El resumen de cinco números y la gráfica de caja
La mediana y los cuartiles superior e inferior dividen los datos en cuatro conjuntos, cada uno
de los cuales contiene igual número de número de mediciones. Si agregamos el número más
grande (máx) y el número más pequeño (mı́n) del conjunto de datos a este grupo, tendremos un
conjunto de número que da un rápido y aproximado resumen de la distribución de datos.
El resumen de cinco números consta del número más pequeño, el cuartil inferior, la mediana,
el cuartil superior, y el número más grande, presentados en orden de menor a mayor:
mı́n ←→ Q1 ←→ m ←→ Q3 ←→ máx
Por definición, un cuarto de las mediciones del conjunto de datos se encuentre entre cada uno de
los cuatro pares adyacentes de números.
El resumen de cinco números se puede usar para crear una gráfica sencilla llamada gráfica de
cajas a fin de describir visualmente la distribución de datos. De la gráfica de caja, rápidamente
se puede detectar cualquier sesgo en la forma de la distribución y ver si hay algunos resultados
atı́picos en el conjunto de datos.
110 / 327
Un resultado atı́pico podrı́a aparecer al trasponer dı́gitos cuando se registra una medición, al leer
incorrectamente la carátula de un instrumento, por el mal funcionamiento de una pieza de equipo
o por otros problemas. Aun cuando no haya errores de registro o de observación, un conjunto de
datos puede contener una o más mediciones válidas que, por una u otra razón, difieren marcada-
mente de las otras del conjunto. Estos resultados atı́picos pueden causar una notable distorsión
en medidas numéricas de uso común tales como x̄ y s.
De hecho, los valores atı́picos pueden contener información importante no compartida con las
otras mediciones del conjunto. Por tanto, los resultados atı́picos aislados, si están presentes, son
un paso importante en cualquier análisis preliminar de un conjunto de datos. La gráfica de caja
está diseñada expresamente para este fin. Para construir una gráfica de caja:
1 Calcule le mediana, los cuartiles superior e inferior y el RIC para el conjunto de datos.
2 Trace una recta horizontal que represente la escala de medición. Forme una caja un poco
arriba de la recta horizontal con los extremos derecho e izquierdo en Q1 y Q3 . Trace una
recta vertical que pase por la caja en la ubicación de la mediana.
111 / 327
Anteriormente, el puntaje z dio fronteras para hallar mediciones extraordinariamente grandes o

pequeñas. Buscamos puntajes z mayores a 2 o 3 en valor absoluto. La gráfica de cada usa el RIC
para crear “lı́mites” imaginarios para separar resultados atı́picos del resto del conjunto de datos:
Lı́mite inferior: Q1 − 1,5(RIC)

Lı́mite inferior: Q3 + 1,5(RIC)
Los lı́mites superior e inferior se muestran con lı́neas interrumpidas, pero no suelen ser trazadas
en la gráfica de caja. Cualquier medición a mayor distancia del lı́mite superior o inferior es
un resultado atı́pico; el resto de las mediciones, dentro de los lı́mites, no son inusuales. Por
último, la gráfica de caja marca el rango del conjunto de datos usando “bigotes” para conectar
las mediciones más pequeñas y más grandes (excluyendo resultados atı́picos) a la caja. Para
terminar la gráfica de caja:
Marque cualesquiera resultado atı́pico en la gráfica.

Prolongue rectas horizontales llamadas “bigotes” desde los extremos de la caja a las obser-
vaciones más pequeñas y más grandes que no sean resultados atı́picos.
112 / 327

Ejemplo
Los datos siguientes son las cantidades de sodio por rebanada (en miligramos) para cada una de
ocho marcas de queso regular: 340, 300, 520, 340, 320, 290, 260 y 330. Entonces, las n = 8
mediciones se ordenan primero de menor a mayor:
260 290 300 320 330 340 340 520
Las posición de la mediana es 0,5(n + 1) = 0,5(9) = 4,5, y para Q1 y Q3 son
0,25(n + 1) = 0,25(9) = 2,25 0,75(n + 1) = 0,75(9) = 6,75
de modo que m = (320 + 330)/2 = 325, Q1 = 290 + 0,25(10) = 292,5 y Q3 = 340. El

RIC es
RIC = Q3 − Q1 = 340 − 292,5 = 47,5
Los lı́mites superior (LS) e inferior (LI):
LI: 292,5 − 1,5(47,5) = 221,25 LS: 340 + 1,5(47,5) = 411,25
El valor x = 520, es el único resultado atı́pico que se encuentra fuera del lı́mite superior.
El resultado atı́pico se destaca fuera del lı́mite superior. Una vez excluido el resultado atı́pico,
encontramos las mediciones más pequeñas y más grande que forman los bigotes.
113 / 327
200 250 300 350 400 450 500 550
Sodio
Figura: Gráfica de caja para la cantidad de sodio.
114 / 327
Ejercicios
1. Dado el siguiente conjunto de datos: 8, 7, 1, 4, los hı́gados de 28 delfines de franjas machos

6, 6, 4, 5, 7, 6, 3, 0. Calcule el puntaje z para fueron como sigue:
las observaciones más pequeñas y más grandes. 1,7 183 221 286
¿Alguna de estas observaciones es muy grande 1,72 168 406 315
o muy pequeña? 8,8 218 252 241
2. Encuentre el resumen de cinco números y el 5,9 180 329 397
RIC para estos datos: 19, 12, 16, 0, 14, 9, 6, 101 264 316 209
1, 12, 13, 10, 19, 7, 5, 8. 85,4 481 445 314
3. Construya una gráfica de caja para estos datos e 118 485 278 318
identifique los resultados atı́picos: 25, 22, 26,
23, 27, 26, 28, 18, 25, 24, 12. a) Calcule el resumen de cinco números pa-
4. Construya una gráfica de caja para estos datos e ra los datos.
identifique los resultados atı́picos: 3, 9, 10, 2, b) Construya una gráfica de caja para los da-
6, 7, 5, 8, 6, 6, 4, 9, 22. tos.
5. Los cientı́ficos del medio ambiente están ca-
c) ¿Hay algún resultado atı́pico?
da vez más preocupados por la acumulación
de elementos tóxicos en mamı́feros marinos, d) Si usted supiera que los primeros cua-
ası́ como en el paso de esos elementos a los tro delfines tenı́an menos de tres años de
descendientes de esos animales. El delfı́n de edad, en tanto que los otros tenı́an más
franjas (Stenella coeruleoalba), considerado el de ocho años de edad, ¿esta información
principal depredador en la cadena alimenticia ayudarı́a a explicar la diferencia en la
marina, fue objeto de este estudio. Las concen- magnitud de esas cuatro observaciones?
traciones de mercurio (microgramos/gramo) en Explique.
115 / 327
Ejercicios
7. Los datos que aparecen enseguida son los pe- ta 2017.

sos (en libras) de 27 paquetes de carne molida, Cristiano Messi
vistos en un supermercado:
12, 23, 42, 26 8, 17, 16, 38
1,08 0,99 0,97 1,18 33, 54, 60, 55 47, 53, 73, 59
1,41 1,28 0,83 1,06 51, 61, 51, 42 41, 58, 41, 54
1,14 1,38 0,75 0,96 16
1,08 0,87 0,89 0,89
0,96 1,12 1,12 0,93 a) Calcule los resúmenes de cinco números
1,24 0,89 0,98 1,14 para el número de goles de Cristiano Ro-
0,92 1,18 1,17 naldo y Lionel Messi?
Construya una gráfica de caja para los pesos de b) Construya gráficas de caja para los
paquetes. ¿Qué nos dice la longitud de los bi- dos conjuntos de datos. ¿Hay resultados
gotes acerca de la forma de la distribución? atı́picos? ¿Qué nos dicen las gráficas de
8. ¿Cómo se compara Cristiano Ronaldo y Lionel caja acerca de las formas de las dos dis-
Messi? La tabla siguiente muestra el número de tribuciones?
goles en sus respectivos clubes desde 2005 has- c) ¿Quién ha tenido un mejor rendimiento?
116 / 327
Ejercicios
9. Estudios cientı́ficos informan de tiempos de su- c) Trace una gráfica de caja para describir
pervivencia para pacientes con hepatitis activa, los datos. Explique por qué la gráfica de
la mitad tratados con prednisona y la otra mitad caja confirma lo concluido por usted en
no reciben tratamiento. Los tiempos de supervi- el inciso b).
vencia (en meses) están adaptados de sus datos
para los tratados con prednisona. 10. Los estados de cuenta mensuales por consumo
eléctrico (en pesos) para una familia de Co-
8 127
piapó, se registraron durante 12 meses conse-
11 133
cutivos empezando en enero de 2016.
52 139
57 142 Mes Cantidad Mes Cantidad
65 144
87 147 Ene 17 596 Jul 19 081
93 148 Feb 10 171 Ago 20 882
97 157 Mar 14 657 Sep 21 381
109 162 Abr 10 123 Oct 14 117
120 165 May 11 649 Nov 13 008
Jun 17 990 Dic 14 345
a) ¿Al ver estos datos, se puede decir si es
más o menos simétrica? ¿O bien, es ses- a) Construya una gráfica de caja para los
gada? costos.
b) Calcule la media y mediana. Use estas b) ¿Qué nos dice la gráfica de caja acerca
medidas para determinar si los datos son de la distribución de costos por consumo
o no son simétricos o sesgados. eléctrico para esta familia?
117 / 327

Curso Elemental de Probabilidad y Estadística - 2018.PDF M Odificada

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Curso Elemental de Probabilidad y Estadística - 2018.PDF M Odificada

Diunggah oleh

Hak Cipta:

Format Tersedia

PROBABILIDAD Y ESTADÍSTICA – 2018

2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

3 DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS

4 DESCRIPCIÓN DE DATOS BIVARIADOS

5 PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD

6 ALGUNAS DISTRIBUCIONES DISCRETAS ÚTILES

7 LA DISTRIBUCIÓN NORMAL DE PROBABILIDAD

La última encuesta Cadem arrojó un incremento en el respaldo ciudadano al candidato presidencial,

Estadı́sticas descriptivas e inferenciales

Estadı́sticas descriptivas e inferenciales

Si el conjunto de mediciones es la población, sólo es necesario sacar conclusiones basadas en la

Pasos para la estadı́stica inferencial

Especifique las preguntas a contestar e identifique la población de interés: En una encuesta

Pasos para la estadı́stica inferencial

2 DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Estudiante Promedio Género Ingreso Especialidad Créditos

Datos bivariados y multivariados

Afiliación polı́tica: izquierda, derecha, independiente

x = tasa preferencial de interés

Gráficas para datos categóricos

La frecuencia o número de mediciones en cada categorı́a

Por ejemplo, si con n representamos el número total de mediciones en el conjunto, se puede

Gráficas para datos categóricos

una medición pertenecerá a una categorı́a y sólo una

Gráficas para datos categóricos

Ángulo = Frecuencia relativa × 360o

Calificación Frecuencia Frecuencia Porcentaje Ángulo

Gráficas para datos categóricos

Figura: Gráficas de pastel para los datos de la calidad de la educación pública.

Gráficas para datos categóricos

Figura: Gráficas de barras para los datos de la calidad de la educación pública.

Gráficas para datos categóricos

Gráficas para datos categóricos

Categorı́a Total Frecuencia Frecuencia relativa Porcentaje

Gráficas para datos categóricos

Figura: Gráfico de barras para la clasificación de los colores de dulces M&M.

1. Identifique las unidades experimentales en los e) Número de accidentes en botes en un tra-

5. Usted es candidato a diputado de su circuns- d) Describa la forma en que el investigador

Gráficas de pastel y gráficas de barras

Gráficas de pastel y gráficas de barras

Gráficas de pastel y gráficas de barras

Figura: Gráficas de barras para la clasificación de las exportaciones de la Región de Atacama.

Gráficas de pastel y gráficas de barras

Figura: Gráficas de pastel para la clasificación de las exportaciones de la Región de Atacama.

Año 2020 2025 2030 2035 2040 2045 2050

80 años y más (miles)

2020 2030 2040 2050 2020 2030 2040 2050

1.0 1.1 1.2 1.3 1.4

Figura: Gráficas de puntos para conjuntos pequeños y grandes de datos.

Interpretación de gráficas con ojo crı́tico

Interpretación de gráficas con ojo crı́tico

Es frecuente que las distribuciones se describan según sus formas.

Distribuciones simétricas y sesgadas

Distribución unimodal y bimodal

Interpretación de gráficas con ojo crı́tico

Interpretación de gráficas con ojo crı́tico

Figura: Formas de distribución de datos.

Interpretación de gráficas con ojo crı́tico

Interpretación de gráficas con ojo crı́tico

4.2 4.4 4.6 4.8 5.0 5.2 5.4

Figura: Distribución de promedios de calificaciones.

Interpretación de gráficas con ojo crı́tico

Histograma de frecuencia relativa