Curso elemental de
Probabilidad y Estadı́stica
2018
Juan F. Olivares1
1Universidad de Atacama
Facultad de Ingenierı́a
Departamento de Matemática
Edición 1.0
1 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
Índice de contenidos
1 INTRODUCCIÓN
2 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
Contenidos de la unidad
1 INTRODUCCIÓN
MOTIVACIÓN
LA POBLACIÓN Y LA MUESTRA
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES
PASOS PARA LA ESTADÍSTICA INFERENCIAL
CONSIDERACIONES FINALES
3 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
MOTIVACIÓN
Motivación
¿Qué es estadı́stica? ¿Ha conocido usted alguna vez a un experto en estadı́stica? ¿Sabe usted qué
hace? O quizá la simple mención de la palabra estadı́stica le causa temor. Puede que piense que
no sabe usted nada de estadı́stica, pero es casi inevitable que encuentre estadı́sticas en una forma
u otra cada vez que tome un periódico.
Artı́culos semejantes a éste son comunes en nuestros diarios en el periodo inmediato anterior a la
elección presidencial. El lenguaje de este artı́culo es muy conocido, pero deja al lector cuidadoso
con algunas preguntas sin contestar. ¿Cómo fueron seleccionadas las personas en la encuesta?
¿Darán la misma respuesta el dı́a de la elección? ¿Votarán, incluso? ¿Son representativas de
todos quienes votarán el dı́a de la elección? Es trabajo de un estadı́stico hacer estas preguntas y
hallar respuesta para ellas en el lenguaje de la encuesta.
4 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
MOTIVACIÓN
Motivación
Veamos el siguiente caso:
Después de creer durante más de un siglo que 37o C era la temperatura corporal normal para seres
humanos, los investigadores ahora dicen que normal ya no es normal. Para algunas personas a
ciertas horas del dı́a 37,7 grados podrı́a estar bien. Y lecturas de sólo 35,6 resulta que son muy
“humanas”. La norma de 37 fue obtenida por un médico alemán en 1868. Algunos médicos siempre
habı́an sospechado de la investigación del doctor. Su duda: un millón de lecturas, en una época sin
computadoras. Entonces, Mackowiak & Co. tomaron lecturas de temperatura a 148 personas sanas
en un periodo de tres dı́as y encontraron que la temperatura media era de 36,7 grados. Sólo 8 % de
las lecturas fue de 37. (The Press-Enterprise)
¿Qué preguntas le vienen a la mente cuando lee este artı́culo? ¿En qué forma el investigador
seleccionó las 148 personas, y cómo podemos estar seguros que los resultados basados en estas
148 personas son precisos cuando se aplican a la población en general? ¿Cómo registró el médico
alemán un millón de temperaturas en 1868? Otra vez encontramos un problema estadı́stico con
aplicaciones en la vida diaria.
La estadı́stica en una rama de las matemáticas que tiene aplicaciones en cada faceta de
nuestra vida. Es un lenguaje nuevo y poco conocido para casi todas las personas. Queremos
que “entrene su cerebro” para entender este nuevo lenguaje paso a paso. Una vez aprendido y
entendido el lenguaje de la estadı́stica, veremos que es una poderosa herramienta para el análisis
de datos en numerosos campos de aplicación diferentes.
5 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
LA POBLACIÓN Y LA MUESTRA
La población y la muestra
En la estadı́stica, uno de los conceptos elementales es el muestreo. En casi todos los problemas
de estadı́stica, un número especificado de mediciones o datos, es decir, una muestra, se toma de
un conjunto de mediciones más grande llamado población.
Para el experimento de la temperatura corporal, la muestra es el conjunto de mediciones de
temperatura corporal para las 148 personas sanas escogidas por el experimentador. Esperamos
que la muestra sea representativa de un conjunto mucho mayor de mediciones, la población, ¡las
temperaturas corporales de todas las personas sanas del mundo!
¿Cuál es el interés principal, la muestra o la población? En la mayor parte de los casos, estamos
interesados principalmente en la población, pero ésta puede ser difı́cil o imposible enumerar.
Imagine tratar de registrar la temperatura corporal de todas las personas sanas del mundo o ¡de la
preferencia presidencial de todo votante registrado en Chile! En cambio, tratamos de describir
o pronosticar el comportamiento de la población con base en información obtenida de una
muestra representativa de esa población.
Cuando usamos el lenguaje de la estadı́stica, distinguiremos entre el conjunto de objetos en el
cual las mediciones se toman y las mediciones mismas. Para los experimentadores, los objetos
en los que las mediciones se toman se denominan unidades experimentales. El estadı́stico que
estudia las muestras las llama elementos de la muestra.
6 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES
Cuando primero se le presenta a usted un conjunto de mediciones, ya sea una muestra o una
población necesita encontrar una forma de organizarlo y resumirlo. La rama de la estadı́stica
que presenta técnicas para organizar y resumir conjuntos de mediciones se denomina estadı́stica
descriptiva.
El alumno ha visto estadı́sticas descriptivas en numerosas formas: gráficas de barras, gráficas de
pastel y gráficas de lı́neas presentadas por un candidato polı́tico; tablas numéricas en el periódi-
co; o el promedio de cantidad de lluvia informado por el pronosticador del clima en la televisión.
Las gráficas y resúmenes numéricos generados en computadoras son comunes en nuestra comu-
nicación de todos los dı́as.
Estadı́stica descriptiva
La estadı́stica descriptiva está formada por procedimientos empleados para resumir y describir
las caracterı́sticas importantes de un conjunto de mediciones.
7 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
ESTADÍSTICAS DESCRIPTIVAS E INFERENCIALES
El objetivo de la estadı́stica inferencial es hacer inferencias (es decir, sacar conclusiones, ha-
cer predicciones, tomar decisiones) acerca de las caracterı́sticas de una población a partir de
información contenida en una muestra.
8 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
PASOS PARA LA ESTADÍSTICA INFERENCIAL
¿Cómo puede hacer inferencias acerca de una población utilizando información contenida en una
muestra? La tarea se hace más sencilla si se entrena para organizar el problema en una serie de
pasos lógicos.
9 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
PASOS PARA LA ESTADÍSTICA INFERENCIAL
Seleccione la muestra y analice la información muestral: Sin importar que información con-
tenga la muestra, se debe usar un método de análisis apropiado para extraerla.
Muchos de estos métodos, dependen del procedimiento de muestro del paso
2, se explican en este curso.
Use la información del paso 3 para hacer una inferencia acerca de la población: Es posible
usar muchos procedimientos diferentes para hacer esta inferencia y algunos
son mejores que otros. Por ejemplo, podrı́a 10 métodos diferentes para estimar
la respuesta humana a un medicamento experimental, pero un procedimiento
podrı́a ser más preciso que los otros. Usted debe usar el mejor procedimiento
disponible para hacer inferencias (muchos de estos se explican en este curso).
Determine la confiabilidad de la inferencia: Como se está usando sólo una parte de la pobla-
ción para sacar las conclusiones descritas en el paso 4, ¡podrı́a estar en un
error! ¿Cómo puede ser esto? Si una agencia realiza una encuesta estadı́stica
para usted y estima que el producto de su compañı́a ganará el 34 % del mer-
cado este año, ¿cuánta confianza puede usted poner en esta estimación? ¿Es
precisa a no más de 1,5 o a 20 puntos porcentuales? ¿Es confiable lo sufi-
ciente para establecer metas de producción? Toda inferencia estadı́stica debe
incluir una medida de confiabilidad que dice cuánta confianza tiene usted en
los resultados.
10 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
INTRODUCCIÓN
CONSIDERACIONES FINALES
Consideraciones finales
Ahora que ya ha aprendido algunos de los términos y conceptos básicos del lenguaje de la es-
tadı́stica, otra vez hacemos la pregunta del principio de este análisis: ¿Sabe usted qué hace un
estadı́stico? Es el trabajo del estadı́stico poner en práctica todos los pasos procedentes. Esto
puede comprender preguntas al experimentador para asegurarse que la población de interés esté
claramente definida, desarrollar un plan apropiado de muestreo o diseño experimental para dar
máxima información al mı́nimo costo, analizar correctamente y sacar conclusiones usando la
información muestral y, por último, medir la confiabilidad de las conclusiones con base en los
resultados experimentales.
A medida que se avance en este curso, aprenderá cada vez más palabras, frases y conceptos de
este nuevo lenguaje de estadı́stica. Los procedimientos estadı́sticos, en su mayor parte, están
formados de pasos de sentido común que, con tiempo suficiente, es muy probable que haya
descubierto por sı́ mismo. Como la estadı́stica es una rama aplicada de las matemáticas, muchos
de los conceptos básicos son matemáticos, desarrollados y basados en resultados de cálculo o de
matemáticas más elevadas. No obstante, no tiene que derivar resultados para aplicarlos en una
forma lógica. En este curso usamos ejemplos numéricos y argumentos intuitivos para explicar
conceptos estadı́sticos, en lugar de argumentos matemáticos más complicados.
Cada unidad aumentará su conocimiento del lenguaje de estadı́stica y debe, en alguna forma,
ayudarlo a dar uno de los pasos aquı́ descritos. Cada uno de estos pasos es esencial para alcanzar
el objetivo general de la estadı́stica inferencial: hacer inferencias acerca de una población
usando información contenida en una muestra tomada de esa población.
11 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
Contenidos de la unidad
12 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
OBJETIVOS
Objetivos
Objetivos
Numerosos conjuntos de mediciones son muestras seleccionadas de poblaciones más grandes;
otros constituyen toda la población, como es el caso de un censo nacional. En esta unidad apren-
deremos qué es una variable, cómo clasificar variables en varios tipos y cómo se generan medi-
ciones o datos. Aprenderá entonces a usar gráficas para describir conjuntos de datos.
13 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS
Variables y datos
A continuación presentaremos algunas técnicas básicas de estadı́stica descriptiva. Una vez que
haya recolectado un conjunto de mediciones, ¿cómo puede mostrar este conjunto en una forma
clara, entendible y fácil de leer? Primero, debe tener aptitud para definir lo que se entiende por
medición o “datos” y clasificar los tipos de datos que probablemente se encuentre en la vida real.
Empezamos por introducir algunas definiciones, términos nuevos en el lenguaje de la estadı́stica
que es necesario saber.
Variable
Una variable es una caracterı́stica que cambia o varı́a con el tiempo y/o para diferentes personas
u objetos bajo consideración.
Por ejemplo, la temperatura corporal es una variable que cambia con el tiempo en una sola
persona; también varı́a de una persona a otra. La afiliación religiosa, el origen étnico, el ingreso,
la estatura, edad y número de hijos son todas ellas variables, es decir, caracterı́sticas que varı́an
según la persona seleccionada.
14 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS
Variables y datos
En la Introducción definimos una unidad experimental como el objeto en el que se toma una
medición. Del mismo modo, podrı́amos definir una unidad experimental como el objeto en el
que se mide una variable. Cuando una variable se mide en realidad en un conjunto de unidades
experimentales, resulta un conjunto de mediciones o de datos.
Unidad experimental
Una unidad experimental es el individuo u objeto en el que se mide una variable. Resulta una
sola medición o datos cuando una variable se mide en realidad en una unidad experimental.
Si se genera una medición para toda unidad experimental en toda la colección, el conjunto resul-
tante constituye la población de interés. Cualquier conjunto más pequeño de mediciones es una
muestra.
Población
Una población es el conjunto de mediciones de interés para el investigador.
Muestra
Una muestra es un subconjunto de mediciones seleccionado de la población de interés.
15 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS
Variables y datos
Ejemplo
De entre todos los estudiantes de la universidad se selecciona un conjunto de cinco estudiantes y
las mediciones se introducen en una hoja de cálculo, como se muestra a continuación.
Hay diversas variables en este ejemplo. La unidad experimental es la que se miden las variables
es un estudiante del plantel, identificado en la primera columna. Se miden cinco variables para
cada estudiante: promedio de calificaciones, género, año de ingreso a la universidad, especialidad
y número actual de créditos tomados. Cada una de estas caracterı́sticas varı́a de estudiante a otro.
16 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
VARIABLES Y DATOS
Variables y datos
Se puede ver que hay una diferencia entre una sola variable medida en una sola unidad experi-
mental y múltiples variables medidas en una unidad experimental como en el ejemplo anterior.
Datos univariados
Resultan datos univariados cuando se mide una sola variable en una sola unidad experimental.
Si se miden las temperaturas corporales de 148 personas, los datos resultantes son univariados.
En el ejemplo anterior, cinco variables se midieron en cada estudiante, lo que resultó en datos
multivariados.
17 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
TIPOS DE VARIABLES
Tipos de variables
Variables cualitativas y cuantitativas
Las variables cualitativas miden una cualidad o caracterı́stica en cada unidad experimental. Las
variables cuantitativas miden una cantidad numérica en cada unidad experimental.
Las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o di-
ferencias en clases, con frecuencia se denominan datos categóricos. Las variables como género,
año y especialidad en el ejemplo anterior son variables cualitativas que producen datos categóri-
cos. He aquı́ algunos otros ejemplos:
Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéri-
cos, por ejemplo estos:
Tipos de variables
Observe que hay diferencia en los tipos de valores numéricos que pueden tomar estas variables
cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x = 0, 1, 2, . . .,
mientras que el peso de un paquete puede tomar cualquier valor mayor a cero, o sea 0 < x <
∞. Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y
continuas.
Variables discretas y continuas
Una variable discreta puede tomar sólo un número finito o contable de valores. Una variable
continua puede tomar infinitamente muchos valores correspondientes a los puntos en un inter-
valo de recta.
El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable
puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos
nuevos y el número de neumáticos defectuosos devueltos para cambio son todos ellos ejemplos
de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y
volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo
de recta. Para cualesquiera dos valores que se escojan, un tercer valor siempre puede hallarse
entre ellos.
¿Por qué debe preocuparse por diferentes clases de variables y los datos que generan? La razón
es que los métodos empleados para describir conjuntos de datos dependen del tipo de datos que
haya recolectado. Para cada uno de los conjuntos de datos recolectados, la clave será determinar
qué tipo de datos tiene y ¡cómo puede presentarlos en forma más clara y entendible!
19 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
TIPOS DE VARIABLES
Tipos de variables
Ejemplo
Consideremos las siguientes variables:
1 El uso frecuente de su horno microondas (recalentar, descongelar, calentar, otros)
2 El número de consumidores que se niegan a contestar una encuesta por teléfono
3 La puerta escogida por un ratón en un experimento de laberinto (A o B)
4 El tiempo ganador para un caballo que corre en el Derby de Santiago
5 El número de niños de quinto básico que leen al nivel de ese curso o mejor
Las variables 1 y 3 son cualitativas porque sólo una cualidad o caracterı́stica se mide para cada
individuo. Las otras dos variables son cuantitativas. La variable 2, el número de consumidores,
es una variable discreta que puede tomar cualquiera de los valores x = 0, 1, 2, . . ., con un valor
máximo que depende del número de consumidores llamados. La variable 4, el tiempo ganador
para un caballo en el Derby de Santiago, es la única variable continua. El tiempo ganador,
si pudiera medirse con suficiente precisión, podrı́a ser 121 segundos, 121,5 segundos, 121,25
segundos o cualesquiera valores entre dos tiempos cualesquiera que hemos puesto en lista.
20 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Frecuencia
Frecuencia relativa = Porcentaje = 100 × Frecuencia relativa
n
Se encontrará que la suma de las frecuencias es siempre n, la suma de las frecuencias relativas
es 1 y la suma de porcentajes es 100 %.
21 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Las categorı́as para una variable cualitativa deben escogerse de modo que:
Por ejemplo, si se pueden clasificar a los estudiantes de la universidad de acuerdo con el tipo
de colegio de procedencia, se pueden usar estas categorı́as: municipal, subvencionado, privado,
otro. La categorı́a “otro” está incluida para tomar en cuenta la posibilidad de que una medición
no se pueda asignar a una de las categorı́as anteriores.
Una vez que a las mediciones se les haya dado categorı́as y resumidas en una tabla estadı́stica,
se puede usar ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución
de los datos. Una gráfica de pastel es la conocida gráfica circular que muestra la forma en que
están distribuidas las medidas entre las categorı́as. Una gráfica de barras muestra la misma
distribución de medidas en categorı́as, con la altura de la barra midiendo la frecuencia con la que
se observa una categorı́a en particular.
22 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
La siguiente tabla muestra las calificaciones junto con las frecuencias, frecuencias relativas, por-
centajes y ángulos de sector necesarios para construir la gráfica de pastel.
23 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Regular
Mala
Muy buena
Buena
24 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
260
Frecuencia
93
35
12
0
Muy buena Buena Regular Mala
25 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Mientras que las gráficas de pastel usan porcentaje para determinar los tamaños relativos de
las “rebanadas de pastel”, las gráficas de barras por lo general grafican frecuencias contra las
categorı́as.
El impacto visual de estas dos gráficas es un poco diferente. La gráfica de pastel se usa para
mostrar las relaciones de las partes con respecto al todo; la gráfica de barras se usa para destacar
la cantidad real o frecuencia para cada categorı́a. Como las categorı́as en el ejemplo anterior son
“calificaciones” ordenadas, no desearı́amos reacomodar las barras de la gráfica para cambiar su
forma. En una gráfica de pastel, el orden de presentación es irrelevante.
26 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Una gráfica de barras en la que las barras están ordenadas de mayor a menor se denomina gráfica
de Pareto.
27 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
5
Frecuencia
0
Café Azul Verde Anaranjado Amarillo Rojo
28 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Ejercicios
29 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Ejercicios
30 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Ejercicios
8. Cincuenta personas se agrupan en cuatro cate- de jeans se selecciona al azar de entre la base
gorı́as, A, B, C y D, y el número de personas de datos computarizada, registrándose la ciu-
que caen en cada categorı́a se muestra en la ta- dad en el que se produce:
bla: CO IQ IQ AN CO
Categorı́a Frecuencia CO CO AN AN AN
IQ IQ CO IQ AN
A 11 CO IQ AN AN AN
B 14 CO IQ IQ CO CO
C 20
D 5 a) ¿Cuál es la unidad experimental?
b) ¿Cuál es la variable que se mide? ¿ Es
a) ¿Cuál es la unidad experimental? cualitativa o cuantitativa?
b) ¿Cuál es la variable que se mide? ¿Es c) Construya una gráfica de pastel para des-
cualitativa o cuantitativa? cribir los datos.
c) Construya una gráfica de pastel y de ba- d) Construya una gráfica de barras para des-
rras para describir los datos. cribir los datos.
d) ¿La forma de la gráfica de barras del in- e) ¿Qué proporción de los jeans se hace en
ciso c) cambia, dependiendo del orden Antofagasta?
de presentación de las cuatro categorı́as? f) Si se desea averiguar si las tres plantas
¿Es importante el orden de presentación? produjeron iguales números de jeans, o
e) ¿Qué porcentaje de las personas no está si una produjo más jeans que las otras,
en la categorı́a B? ¿cómo se pueden usar las gráficas de las
9. Un fabricante de jeans tiene plantas en Iquique, partes c) y d) para ayudar? ¿Qué conclu-
Antofagasta y Copiapó. Un grupo de 25 pares siones puede sacar de estos datos?
31 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CATEGÓRICOS
Ejercicios
10. ¿Le gustarı́a ser presidente de Chile? Aun cuan- a) ¿Están consideradas todas las razones en
do muchos adolescentes piensan que podrı́a lle- esta tabla?
gar a ser presidente, muchos no desean el tra-
bajo. En una encuesta de opinión, casi 80 % b) ¿Usarı́a usted una gráfica de pastel o una
de los adolescentes no estaban interesados en de barras para describir gráficamente los
el trabajo. Cuando se les preguntaba: “¿Cuál es datos? ¿Por qué?
la principal razón por la que no querrı́a ser pre-
sidente?” dieron estas respuestas: c) Trace la gráfica escogida en el inciso b).
Otros planes de carrera 40 %
Demasiada presión 20 %
d) Si usted fuera a conducir la encuesta de
Demasiado trabajo 15 %
opiniones, ¿qué otros tipos de preguntas
No serı́a bueno para ello 14 %
desearı́a investigar?
Demasiadas discusiones 5%
32 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable
puede tomar sólo un número finito o contable de valores, es una variable discreta. Una variable
que puede tomar un número infinito de valores correspondientes a puntos en un intervalo de recta
se llama continua.
A veces la información se recolecta para una variable cuantitativa medida en segmentos diferen-
tes de la población, o para diferentes categorı́as de clasificación. Por ejemplo, se podrı́a medir el
promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes, o que viven
en zonas geográficas diferentes del paı́s.
En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos,
usando la cantidad medida en cada categorı́a en lugar de la frecuencia con que se presenta cada
una de las categorı́as. La gráficas de pastel muestra la forma en que está distribuida la cantidad
total entre las categorı́as y la gráfica de barras usa la altura de la barra para mostrar la cantidad
de una categorı́a en particular.
33 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Ejemplo
Entre enero y octubre de 2016 el valor de las exportaciones (Sı́ntesis Económica Región de Ata-
cama, Corproa) de la Región de Atacama fue de $3133 (millones de dólares), en las categorı́as:
Minerı́a ($2863 millones de dólares), Silvoagropecuario ($146 millones de dólares), Industria
($96 millones de dólares) y Pesca ($28 millones de dólares). Dos variables están siendo medidas:
la categorı́a del rubro de exportación (cualitativa) y la cantidad exportada (cuantitativa).
La gráfica de barras muestra las categorı́as en el eje horizontal y las cantidades en el eje vertical.
Para la gráfica de pastel, cada “rebanada del pastel” representa la proporción de la exportación
($3133 millones de dólares) correspondientes a su categorı́a en particular. Por ejemplo, para el
rubro silvoagropecuario, el ángulo del sector es
146
× 360 = 16,8o
3133
Ambas gráficas muestran que el mayor valor por exportación para la Región de Atacama en el
periodo de enero a octubre de 2016 fue debido a la minerı́a. Como no hay un orden inherente
a las categorı́as, hay libertad para reacomodar las barras o sectores de las gráficas en cualquier
forma deseada. La forma de la gráfica de barras no tiene nada que ver con su interpretación.
34 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
3000
Exportaciones (millones de US$)
150
0
Mineria Silvoagropecuario Industria Pesca
35 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Silvoagropecuario
Industria
Pesca
Mineria
36 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Gráficas de lı́neas
Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por
ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de
tiempo.
Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de lı́neas
con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea
probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para
el futuro inmediato.
37 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Gráficas de lı́neas
Ejemplo
En el año 2025, una persona nacida en 1946 tendrá 79 años, y una nacida en 1965 tendrá 60
años. ¿Habrá suficientes fondos para las personas nacidas en 1946 para pensiones de jubilación?
El INE (Instituto Nacional de Estadı́stica) da proyecciones para la parte de la población chilena
que tendrá 80 años y más para los próximos años, como se muestra en la siguiente tabla.
La variable cualitativa “80 y más” se mide en 7 intervalos, creando ası́ una serie de tiempo que
se puede graficar con una gráfica de lı́nea. Los intervalos están marcados en el eje horizontal y
las proyecciones en el eje vertical. Los puntos de datos se enlazan luego por medio de segmentos
de lı́nea para formar las gráficas de lı́nea. Observe la marcada diferencia en las escalas verticales
de las dos gráficas. Contraer la escala en el eje vertical hace que grandes cambios aparezcan
pequeños y viceversa. Para evitar conclusiones erróneas, se deben ver con cuidado las escalas de
los ejes vertical y horizontal.
38 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Gráficas de lı́neas
1388 ● 20000
1248 ●
80 años y más (miles)
827 ●
679 ●
561 ●
1388 ● ● ● ●
● ●
457 ● 457 ●
Año Año
Figura: Gráficas de lı́nea para la proyección del crecimiento de la población de 80 años o más.
39 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Gráficos de puntos
Muchos conjuntos de datos cuantitativos están formados de números que no se pueden separar
fácilmente en categorı́as o intervalos. Entonces se hace necesaria una forma diferente de graficar
este tipo de datos.
La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un conjunto pe-
queño de mediciones, por ejemplo el conjunto
2 6 9 3 7 6
se pude simplemente graficar las mediciones como puntos en un eje horizontal. Ésta gráfica se
muestra en la siguiente figura (panel superior). Para un conjunto de datos, como el de la siguiente
figura (panel inferior), la gráfica de puntos puede ser nada informativa.
40 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Gráficos de puntos
●
● ● ● ● ●
2 3 4 5 6 7 8 9
Conjunto pequeño
●
●
● ● ● ●
●●● ● ● ● ● ●
● ● ● ●●●●●● ● ●● ●● ●● ● ●●● ●● ● ● ●●
Conjunto grande
41 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Una vez creada una gráfica o gráficas, para un conjunto de datos, ¿qué se debe buscar al tratar de
describir los datos?
Primero, verificar las escalas horizontales y verticales, de manera que haya claridad respec-
to a lo que se mide.
Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución del eje
horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar?
Examinar la forma de la distribución. ¿La distribución tiene un “máximo”, un punto que
es más alto de cualquier otro? Si es ası́, ésta es la medición o categorı́a que se presenta
con más frecuencia. ¿Hay más de un máximo? ¿Hay un número aproximadamente igual de
mediciones a la izquierda y derecha del máximo?
Buscar cualesquiera mediciones poco comunes o resultados atı́picos. Esto es, ¿hay medi-
ciones mucho mayores o menores que todas las otras? Estos resultados atı́picos pueden no
ser representativos de los otros valores del conjunto.
42 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
43 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Ejemplo
Examinemos las gráficas de la siguiente figura. Notemos que, la primera gráfica de puntos (panel
superior) muestra una distribución relativamente simétrica con solo un máximo situado en x =
5. La segunda gráfica (panel central), no obstante, está lejos de ser simétrica. Tiene una larga
“cola derecha”, lo cual significa que hay unas pocas observaciones extraordinariamente grandes.
Esta distribución está sesgada a la derecha. Del mismo modo, la tercera gráfica de puntos (panel
inferior) con una larga “cola a la izquierda” está sesgada a la izquierda.
44 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
●
●
● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
●
●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
●
●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9
45 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Ejemplo
Un asistente administrativo del departamento de educación fı́sica de la universidad está observan-
do los promedios de calificaciones de ocho miembros del equipo femenil de voleibol. El asistente
introduce los promedios en la base de datos pero por accidente coloca mal el punto decimal de
la última entrada.
4,8 5,0 5,0 5,3 4,4 5,4 5,0 0,41
La gráfica de puntos de este pequeño conjunto de datos se muestra en la siguiente figura (panel
superior). Claramente se puede ver el resultado atı́pico u observación poco común causada por
el error del asistente al introducir los datos. Una vez corregido el error, como en la misma figura
(panel inferior), se puede ver la distribución correcta del conjunto de datos. Como éste es un
conjunto muy pequeño, es difı́cil describir la forma de la distribución aun cuando parece tener
un valor máximo alrededor de 5,0 y parece ser relativamente simétrica.
46 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
●
●
● ● ● ● ●●
1 2 3 4 5
Promedio
●
●
● ● ● ● ● ●
Promedio
47 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
GRÁFICAS PARA DATOS CUANTITATIVOS
Cuando se comparan gráficas de dos conjuntos de datos, se deben comparar sus escalas de medi-
ción, ubicaciones y formas, y buscar mediciones poco comunes o resultados atı́picos. Recuerde
que estos últimos no siempre son causados por errores o introducción errónea de datos. A ve-
ces dan información muy valiosa que no debe ser soslayada. Es posible que sea necesaria más
información para determinar si un resultado atı́pico es una medición válida que sólo sea anor-
malmente grande o pequeña, o si ha habido algún tipo de error en la recolección de datos. Si las
escalas difieren en mucho, debe tenerse cuidado al hacer comparaciones, o ¡sacar conclusiones
que pudieran ser imprecisas!
48 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Observación
Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más
clases se requieren. Es posible emplear la siguiente tabla como guı́a para seleccionar un número
apropiado de clases. Esto es sólo una guı́a; puede usar más o menos clases de las recomendadas.
Tamaño de muestra 25 50 100 200 500
Número de clases 6 7 8 9 10
49 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Las clases deben ser escogidas para que cada una de las mediciones caiga en una clase y sólo en
una. Consideremos la situación donde interesa calibrar una máquina de llenado de bolsas de 7,5
kilos, y para ello se toman primero las siguientes mediciones que corresponden al peso registrado
de 30 bolsas:
7,2 7,8 6,8 6,2 8,2 8,0 8,2 5,6 8,6 7,1
8,2 7,7 7,5 7,2 7,7 5,8 6,8 6,8 8,5 7,5
6,1 7,9 9,4 9,0 7,8 8,5 9,0 7,7 6,7 7,7
Entonces decidimos usar intervalos de peso de igual longitud. Como el intervalo de pesos de las
bolsas es
9,4 − 5,6 = 3,8
el ancho mı́nimo de clase necesario para cubrir el margen de los datos es 3,8/8 = 0,475. Para
más comodidad, redondearemos este ancho aproximado a 0,5. Empezando el primer intervalo
al valor más bajo, 5,6, formamos subintervalos de 5,6 hasta pero no incluyendo 6,1, y ası́ su-
cesivamente. Usando el método de inclusión izquierda e incluyendo el punto frontera de clase
izquierda pero no el punto frontera derecha en la clase, eliminamos cualquier confusión acerca
de dónde poner una medición que resulte caer en un punto de frontera de clase.
50 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Para construir el histograma de frecuencia relativa, grafique las fronteras de clase a lo largo del
eje horizontal. Trace una barra sobre cada intervalo de clase, con altura igual a la frecuencia
relativa para esa clase. El histograma de frecuencia relativa para los datos de peso de bolsas de
cemento, muestra de un vistazo la forma en que están distribuidos los pesos en el intervalo de
5,6 a 9,4.
51 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
0.5
0.4
Frecuencia relativa
0.3
0.2
0.1
Figura: Histograma de frecuencia relativa para los pesos de las bolsas de cemento.
52 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
53 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Como resumen, para construir un histograma de frecuencia relativa, podemos seguir los siguien-
tes pasos:
1 Escoja un número de clases, por lo general entre 5 y 12. Cuantos más datos se tengan, más
clases deben usarse.
2 Calcule el ancho aproximado de clase al dividir la diferencia entre los valores máximo y
mı́nimo entre el número de clases.
3 Redondee el ancho aproximado de clase hasta un número cómodo.
4 Si los datos son discretos, se puede asignar una clase para cada valor entero tomado de los
datos. Para un número grande de valores enteros, puede que sea necesario agruparlos en
clase.
5 Localice las fronteras de clase. La clase más baja puede incluir la medición más pequeña.
A continuación sume las clases restantes usando el método de inclusión izquierda.
6 Construya una tabla estadı́stica que contenga las clases, sus frecuencias y sus frecuencias
relativas.
7 Construya un histograma como una gráfica de barras, graficando intervalos de clase en el
eje horizontal y frecuencias relativas como las alturas de las barras.
54 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
La proporción de las medidas que caen en una clase o grupo particular de clases
La probabilidad de que una medida tomada al azar del conjunto caerá en una clase particular
o grupo de clases
Considere el histograma de frecuencia relativa para los datos del peso de bolsas de cemento.
¿Qué proporción de las bolsas tienen pesos de 7,6 o mayores? Esto abarca todas las clases de
más de 7,6 en la respectiva tabla. Como hay 17 bolsas en esas clases, la proporción de bolsas
con un peso de 7,6 o más es 17/30 = 0,57.
55 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Al utilizar estas caracterı́sticas como guı́a, podrá interpretar y comparar conjuntos de datos usan-
do métodos gráficos, que son sólo la primera de numerosas herramientas estadı́sticas que pronto
tendrá a su disposición.
56 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Ejercicios
57 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Ejercicios
3. Una variable discreta puede tomar sólo los va- con éxito por un laberinto en cada uno de cin-
lores 0, 1 ó 2. Un conjunto de 20 mediciones co dı́as. Los resultados se muestran en la ta-
en esta variable se muestra: bla siguiente. Genere una gráfica de lı́neas para
1 2 1 0 2 describir los datos. ¿Piensa usted que hay algún
2 1 1 0 0 aprendizaje?
2 2 1 1 0 Dı́a 1 2 3 4 5
0 1 2 1 1
T 45 43 46 32 25
a) Construya un histograma de frecuencia
6. El valor de una variable cuantitativa se mide
relativa para los datos.
una vez al año durante un periodo de 10 años.
b) ¿Qué proporción de las mediciones es He aquı́ los datos:
mayor a 1?
c) ¿Qué proporción de las mediciones es Año Medición Año Medición
menor a 2?
1 61,5 6 58,2
d) Si una medición se selecciona al azar de 2 62,3 7 57,5
entre las 20 mediciones mostradas, ¿cuál 3 60,7 8 57,5
es la probabilidad de que sea un 2? 4 59,8 9 56,1
e) Describa la forma de la distribución. ¿Ve 5 58,0 10 56,0
algunos resultados atı́picos?
a) Genere una gráfica de lı́neas para des-
4. Considere el ejercicio anterior. Trace una gráfi- cribir la variable cuando cambie con el
ca de puntos para describir los datos. tiempo.
5. Un psicólogo experimental midió el tiempo (T ) b) Describa las mediciones usando la gráfi-
en segundos, que tardó una rata para navegar ca construida en el inciso a).
58 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS
HISTOGRAMA DE FRECUENCIA RELATIVA
Ejercicios
59 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
Contenidos de la unidad
60 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
OBJETIVOS
Objetivos
Objetivo
Las gráficas son sumamente útiles para la descripción visual de un conjunto de datos, pero no
siempre son la mejor herramienta cuando se desea hacer inferencias acerca de una población a
partir de la información contenida en una muestra. Para este propósito, es mejor usar medidas
numéricas para construir una imagen mental de los datos.
61 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Sabemos
que “una imagen vale por mil palabras” pero hay limitaciones para usar gráficas.
Una limitación es que las gráficas son un tanto imprecisas para usar en inferencia estadı́stica.
Por ejemplo, supongamos que desea usar un histograma muestral para hacer inferencias acerca
de un histograma poblacional. ¿Cómo puede medir las similitudes y diferencias entre los dos
histogramas en alguna forma concreta? Si son idénticas, podrı́a usted decir que son las mismas,
pero, si son diferentes, es difı́cil describir el grado de diferencia.
Una forma de superar estos problemas es usar medidas numéricas, que se pueden calcular para
una muestra o una población de mediciones. Se pueden usar los datos para calcular un conjunto
de números que llevarán una buena imagen mental de la distribución de frecuencia. Estas medi-
ciones se llaman parámetros cuando se asocian con la población y se denominan estadı́sticas
cuando se calculan a partir de mediciones muestrales.
Parámetros y estadı́sticas
Las mediciones descriptivas numéricas asociadas con una población de mediciones se llaman
parámetros; las calculadas a partir de mediciones muestrales reciben el nombre de estadı́sticas.
62 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Media
La media aritmética o promedio de un conjunto de n mediciones es igual a la suma de las
mediciones dividida entre n.
63 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Suponga que hay n mediciones en la variable x y que las llamamos x1 , x2 , . . . , xn . Para sumar
las n mediciones, usamos esta notación abreviada:
n
X
xi que significa x1 + x2 + · · · + xn
i=1
64 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Ejemplo
Consideremos una pequeña muestra de n = 5 mediciones, dadas por 2, 9, 11, 5, 6. Para hallar
la media muestral, calculamos
P
xi 2 + 9 + 11 + 5 + 6
x̄ = = = 6,6
n 5
La siguiente Figura, muestra el gráfico de puntos para estos datos y la ubicación de la media
muestral.
65 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
x = 6.6
● ● ● ● ●
2 4 6 8 10
Mediciones
66 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Recuerde que las muestras son mediciones tomadas de una población más grande que en general
es desconocida. Un uso importante de la media muestral x̄, es que es un estimador de la media
poblacional desconocida µ. Recordemos los datos de los pesos de las bolsas de cemento, estos
datos son una muestra de una población más grande y la distribución se muestra se muestra en el
respectivo histograma de frecuencias relativas. La media de los 30 pesos de las bolsas es:
P
xi 227,2
x̄ = = = 7,57
30 30
La media de toda la población de bolsas llenadas por la máquina es desconocida, pero si us-
ted tuviera que calcular su valor, su mejor estimación serı́a 7,57. Aun cuando cambia la media
muestral x̄ de una muestra a otra, la media poblacional µ sigue igual.
Una segunda medida de tendencia central es la mediana, que es el valor de la posición media en
el conjunto de mediciones ordenadas de menor a mayor.
Mediana
La mediana m de un conjunto de n mediciones es el valor de x que cae en la posición media
cuando las mediciones son ordenadas de menor a mayor.
67 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Ejemplo
Para hallar la mediana del siguiente conjunto de datos 2, 9, 11, 5 y 6. Primero debemos ordenar
las n = 5 mediciones de menor a mayor:
2 5 6 9 11
68 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Ejemplo
Para las n = 5 mediciones ordenadas (2, 5, 6, 9, 11), la posición de la mediana es (n + 1)/2 =
6/2 = 3 y la mediana es la tercera observación ordenada, o m = 6. Para las n = 6 medi-
ciones ordenadas (2, 5, 6, 9, 11, 27), la posición de la mediana es (n + 1)/2 = 7/2 = 3,5 y la
mediana es el promedio de las 3o y 4o observaciones ordenadas, o m = 7,5.
69 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Aunque tanto la media como la mediana son buenas medidas del centro de una distribución, la
mediana es menos sensible a valores o resultados atı́picos. Por ejemplo, el valor x = 27 en los
ejemplos anteriores es mucho mayor que las otras mediciones. La mediana, m = 7,5, no se ve
afectada por el resultado atı́pico, en tanto que el promedio muestral,
P
xi 60
x̄ = = = 10
n 6
sı́ es afectado; su valor no es representativo de las cinco observaciones restantes.
Cuando un conjunto de datos tiene valores extremadamente pequeños u observaciones muy gran-
des, la media muestral se traza hacia la dirección de las mediciones extremas (véase la siguiente
Figura).
70 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
0.25
0.19
Frecuencia relativa
Frecuencia relativa
0.19
0.12
0.12
0.06
0.06
0 0
Figura: Distribuciones de frecuencia relativa mostrando el efecto de valores extremos en la media y mediana.
71 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Medidas de centro
Si una distribución está sesgada a la derecha, la media se corre a la derecha; si una distribución
está sesgada a la izquierda se corre a la izquierda. La mediana no es afectada por estos valores
extremos porque los valores numéricos de las mediciones no se usan en este cálculo. Cuando una
distribución es simétrica, la media y la mediana son iguales. Si una distribución está fuertemente
sesgada por uno o más valores extremos, se debe emplear la mediana en lugar de la media como
medida de centro. Otra forma de localizar el centro de una distribución es buscar el valor de x
que se presenta con la frecuencia más alta. Esta medida del centro se denomina moda.
Moda
La moda es la categorı́a que se presenta con más frecuencia o el valor de x que se presenta
con más frecuencia. Cuando las mediciones es una variable continua se han agrupado como
histograma de frecuencia o de frecuencia relativa, la clase con el valor máximo o frecuencia se
llama clase modal, y el punto medio de esa clase se toma como la moda.
La moda por lo general se usa para describir conjuntos grandes de datos, mientras que la media
y la mediana se usan para conjuntos de datos grandes y pequeños.
Es posible que una distribución de mediciones tenga más de una moda. Estas modas aparecerı́an
como “máximos locales” en la distribución de frecuencia relativa. A veces las distribuciones
bimodales de tamaños o pesos reflejan una mezcla de mediciones, por ejemplo, tomadas de
machos y hembras. En cualquier caso, un conjunto o distribución de mediciones puede tener más
de una moda.
72 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Ejercicios
73 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Ejercicios
5. Un teléfono celular es un aparato común en casi media, mediana y moda a lo largo del eje
todas las personas en Chile. De hecho, casi to- horizontal. ¿Las respuestas a los incisos
das las personas tienen uno y otras tienen más a) y b) son correctas?
de uno. Una muestra de 25 personas produjo
las siguientes mediciones en x, el número de
teléfonos celulares que posee una persona: 6. ¿El orden de nacimiento tiene algún efecto en
la personalidad de una persona? Un informe so-
1 2 2 1 1 1 1 2 bre un estudio, hecho por un investigador del
1 2 1 1 2 3 2 1 MIT, indica que es probable que los hijos naci-
1 1 2 1 3 1 0 1 dos después del primogénito pongan a prueba
1 lo establecido, son más abiertos a nuevas ideas
a) La distribución de x, el número de teléfo- y aceptan más un cambio. De hecho, el núme-
nos celulares que posee una persona, ¿es ro de esta clase de hijos es creciente. Durante
simétrica o sesgada? Explique. los años de la Depresión en el decenio de 1930,
b) Calcule el valor de la moda, el valor de x las familias promediaban 2,5 hijos (59 % des-
que se presenta con más frecuencia. pués del primogénito), mientras que los padres
c) Calcule la media, la mediana y la moda de familia en la explosión demográfica prome-
para estas mediciones. diaban de tres a cuatro hijos (68 % después del
d) Trace un histograma de frecuencia relati- primogénito). ¿Qué quiere decir el autor con un
va para el conjunto de datos. Localice la promedio de 2,5 hijos?
74 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Ejercicios
7. Un artı́culo en Consumer Report da el precio, c) Con base en lo que encuentre en los inci-
un promedio estimado de una lata de 180 gra- sos a) y b), ¿piensa usted que la distribu-
mos o un paquete 210 gramos, para 14 marcas ción de precios está sesgada? Explique.
diferentes de atún empacado en agua, basado
en precios pagados a nivel nacional en super- 8. A medida que los equipos de fútbol profesiona-
mercados: les hacen negocios cada vez más lucrativos, los
613 1189 762 527 402 salarios pagados a los jugadores también han
328 874 694 390 415 aumentado. De hecho, a las superestrellas de-
428 372 372 408 portivas se les pagan salarios astronómicos por
su talento. Si una compañı́a de administración
a) Encuentre el precio promedio para las 14 deportiva le pode a usted que describa la distri-
marcas diferentes de atún. bución de los salarios de los jugadores, en va-
b) Encuentre el precio mediano para las 14 rias categorı́as diferentes, ¿qué medida de cen-
marcas diferentes de atún. tro escogerı́a? ¿Por qué?
75 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE CENTRO
Ejercicios
76 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
Los conjuntos de datos pueden tener el mismo centro pero con aspecto diferente por la forma
en que los números se dispersan desde el centro. Considere las dos distribuciones que se mues-
tran en la siguiente figura. Ambas distribuciones están centradas en x = 4, pero hay una gran
diferencia en la forma en que las mediciones se dispersan o varı́an. Las mediciones de la figura
(panel izquierdo) varı́an de 3 a 5; en la figura (panel derecho) las mediciones varı́an de 0 a 8.
77 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
78 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
La variabilidad o dispersión es una muy importante caracterı́stica de los datos. Por ejemplo, si
fabrica tornillos, la variación extrema en los diámetros de los tornillos causarı́a un alto porcentaje
de productos defectuosos. Por el contrario, si estuviera tratando de discriminar entre trabajado-
res buenos y malos, tendrı́a problemas si el examen siempre produjera calificaciones con poca
variación, lo cual hace muy difı́cil la discriminación.
Las medidas de variabilidad pueden ayudar a crear una imagen mental de la dispersión de los
datos. La medida más sencilla de variación es el rango.
Rango
El rango, R, de un conjunto de n mediciones se define como la diferencia entre la medición más
grande y la más pequeña.
Para los datos de los pesos de las bolsas de cemento, las mediciones varı́an de 5,6 a 9,4. Por tanto,
el rango es 9,4 − 5,6 = 3,8. El rango es fácil de calcular, fácil de interpretar y es una medida
adecuada de variación para conjuntos pequeños de datos. Pero, para conjuntos grandes, el rango
no es una medida adecuada de variabilidad. Por ejemplo, las dos distribuciones de frecuencia
relativa de la siguiente figura tienen el mismo rango pero muy diferentes formas y por lo tanto,
diferente variabilidad.
79 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
80 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
¿Hay una medida de variabilidad que sea más sensible que el rango? Considere, como ejemplo,
las mediciones muestrales 5, 7, 1, 2 y 4, mostradas como una gráfica de puntos en la siguiente
figura. La media de estas cinco mediciones es
P
xi 19
x̄ = = = 3,8
n 5
81 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
x = 3.8
xi − x
● ● ● ● ●
0 1 2 3 4 5 6 7 8
Figura: Gráfica de puntos que muestran las desviaciones de puntos desde la media.
82 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
Como se indica en figura anterior, las distancias horizontales entre cada punto (medición) y
la media x̄ ayudarán a medir la variabilidad. Si las distancias son grandes, los datos son más
dispersos o variables que si las distancias son pequeñas. Si xi es una medición en particular,
entonces la desviación de esa medición desde la media es (xi − x̄). Los valores de x y las
desviaciones para nuestro ejemplo si detallan en las columnas primera y segunda de la siguiente
tabla.
Como las desviaciones en la segunda columna de la tabla contienen información sobre variabi-
lidad, una forma de combinar las cinco desviaciones en una medida numérica es promediarlas.
Desafortunadamente, el promedio no funcionará por que algunas de las desviaciones son posi-
tivas, algunas son negativas y la suma es siempre cero. Para superar esta dificultad, se trabajará
con la suma de cuadrados. De la suma de desviaciones cuadradas, se calcula una sola medida
llamada varianza.
83 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
Para distinguir entre la varianza de una muestra y la varianza de una población, usamos el
sı́mbolo s2 para una varianza muestral y σ 2 para una varianza poblacional.
Varianza poblacional
La varianza de una población de N mediciones es el promedio de los cuadrados de las desvia-
ciones de las mediciones alrededor de su media µ. La varianza poblacional se denota con σ 2 y
está dada por la fórmula
(xi − µ)2
P
σ2 =
N
La mayor parte de las veces, no tendremos todas las mediciones de la población disponible,
entonces necesitaremos calcular la varianza de una muestra de n mediciones.
Varianza muestral
La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las
mediciones alrededor de la media x̄ dividida entre (n − 1). La varianza muestral se denota con
s2 y está dada por la fórmula
(xi − x̄)2
P
s2 =
n−1
84 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Medidas de variabilidad
Para el conjunto de n = 5 mediciones muestrales presentadas anteriormente, el cuadrado de la
desviación de cada medición se registra en la tercera columna. Sumando, tendremos
X
(xi − x̄)2 = 22,80
y la varianza muestral es
(xi − x̄)2
P
22,80
s2 = = = 5,70
n−1 4
La varianza se mide en términos del cuadrado de las unidades originales de medición. Tomando
la raı́z cuadrada de la varianza, obtenemos la desviación estándar, que regresa la medida de
variabilidad a las unidades originales de medición.
Desviación estándar
La desviación estándar de un conjunto de mediciones es igual a la raı́z cuadrada positiva de la
varianza.
Medidas de variabilidad
Formula computacional
( xi )2
X P
x2i −
s2 = n
n−1
Se puede preguntar por qué es necesario dividir entre (n − 1) en lugar de n cuando se calcula
la varianza poblacional. Ası́ como empleamos la media muestral x̄ para estimar la media pobla-
cional µ, se puede usar la varianza muestral s2 para estimar la varianza poblacional σ 2 . Resulta
que la varianza muestral s2 con (n − 1) en el denominador da estimaciones mejores de σ 2 de lo
que darı́a un estimador calculado con n en el denominador. Por esta razón, siempre dividimos
entre (n − 1) al calcular la varianza muestral s2 y la desviación estándar de la muestra s.
86 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Ejercicios
87 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDIDAS DE VARIABILIDAD
Ejercicios
88 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Teorema de Tchebychev
Dado un número k mayor o igual a 1 y un conjunto de n mediciones, al menos 1 − (1/k2 ) de
las mediciones estarán dentro de k desviaciones estándar de su media.
89 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
1
Al menos 1 −
k2
kσ kσ
µ − kσ µ µ + kσ
90 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
En la siguiente tabla escogimos unos cuantos valores numéricos para k y calculamos 1−(1/k2 ).
k 1 − (1/k2 )
1 1−1=0
2 1 − 1/4 = 3/4
3 1 − 1/9 = 8/9
Aun cuando el primer enunciado no es útil en absoluto, los otros dos valores de k dan valiosa
información acerca de la proporción de mediciones que caen en ciertos intervalos. Los valores
k = 2 y k = 3 no son los únicos valores de k que se pueden usar; por ejemplo, la proporción
de mediciones que caen dentro de k = 2,5 desviaciones estándar de la media es al menos
1 − (1/2,52 ) = 0,84.
91 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejemplo
92 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Regla empı́rica
Dada una distribución de mediciones que tiene forma aproximada de campana:
El intervalo (µ ± σ) contiene aproximadamente 68 % de las mediciones.
El intervalo (µ ± 2σ) contiene aproximadamente 95 % de las mediciones.
El intervalo (µ ± 3σ) contiene aproximadamente 99,7 % de las mediciones.
93 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejemplo
En un estudio de tiempo efectuado en una planta manufacturera, el tiempo para completar una
operación especı́fica se mide para cada uno de los n = 40 trabajadores. Se encuentra que la
media y la desviación estándar son 12,8 y 1,7, respectivamente. Para describir estos datos mues-
trales usando la Regla empı́rica, primero calculamos los siguientes intervalos:
94 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
95 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejercicios
96 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejercicios
4. Un conjunto de datos tiene una media 75 y una 1,08 0,99 0,97 1,18
desviación estándar de 5. Usted no sabe nada 1,41 1,28 0,83 1,06
más acerca del tamaño del conjunto de datos o 1,14 1,38 0,75 0,96
de la forma de la distribución de datos. 1,08 0,87 0,89 0,89
0,96 1,12 1,12 0,93
a) ¿Qué puede decir acerca de la proporción 1,24 0,89 0,98 1,14
de mediciones que caen entre 60 y 90? 0,92 1,18 1,17
b) ¿Qué puede decir acerca de la proporción
de mediciones que caen entre 65 y 85? a) Construya un histograma de frecuencia
c) ¿Qué puede decir acerca de la proporción relativa para mostrar la distribución de
de mediciones que sean menores de 65? los pesos. ¿La distribución es relativa-
5. El tiempo requerido para que el conductor de mente de forma de campana?
un automóvil responda a una situación parti- b) Encuentre la media y desviación estándar
cular de emergencia se registró para n = 10 del conjunto de datos.
conductores. Los tiempos (en segundos) fueron c) Encuentre el porcentaje de mediciones en
0,5; 0,8; 1, 1; 0,7; 0,6; 0,9; 0,7; 0,8; 0,7; el intervalo x̄ ± s, x̄ ± 2s y x̄ ± 3s.
8,0. Calcule la media y desviación estándar, d) Los porcentajes obtenidos en el inciso c),
utilice estos resultados para construir los inter- ¿cómo se comparan con los datos por la
valos de la Regla empı́rica e interprételos. Regla empı́rica? Explique.
6. Los datos que aparecen enseguida son los pa- e) ¿Cuántos de los paquetes pesan exacta-
sos (en libras) de 27 paquetes de carne molida, mente 1 libra? ¿Puede usted considerar
vistos en un supermercado: alguna explicación para esto?
97 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejercicios
7. ¿Es normal el ritmo respiratorio de usted? En dividió en dos grupos. Ella midió el contenido
realidad, no hay un ritmo estándar de respira- de titanio (Ti) de las muestras usando dos méto-
ción para seres humanos. Puede variar desde dos diferentes.
sólo cuatro respiraciones por minuto hasta 70 Método 1 Método 2
o 75 para una persona que realice un ejercicio
agotador. Suponga que los ritmos respiratorios 0,011 0,013 0,011 0,016
en reposo para estudiantes universitarios tiene 0,013 0,015 0,013 0,012
una distribución en forma de campana, con una 0,014 0,013 0,015 0,012
media igual a 12 y una desviación estándar de 0,010 0,013 0,017 0,013
2,3 respiraciones por minuto. ¿Qué fracción de 0,011 0,012 0,014 0,015
todos los estudiantes tendrı́a ritmos respirato- a) Construya gráficas de tallo y hoja para
rios en los siguientes intervalos? los dos conjuntos de datos. Visualmente
a) 9,7 a 14,3 respiraciones por minuto. compare sus centros y sus rangos.
b) 7,4 a 16,6 respiraciones por minuto. b) Calcule las medias muestrales y desvia-
c) Más de 18,9 o menos de 5,1 respiracio- ciones estándar para los dos conjuntos.
nes por minuto. ¿Los valores calculados confirman las
8. Una geóloga recolectó 20 muestras diferentes conclusiones visuales de usted del inciso
de mineral, todas del mismo peso, y al azar las a)?
98 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
SOBRE LA SIGNIFICANCIA DE LA DESVIACIÓN ESTÁNDAR
Ejercicios
9. Para calcular la cantidad de madera en un te- b) Calcule la media muestral x̄ como esti-
rreno maderero, un propietario determinó con- mación de µ, el número medio de árbo-
tar el número de árboles con diámetros mayores les para todos los cuadrados de 50 × 50
a 12 pulgadas en cuadrados de 50×50 pies se- pies del terreno.
leccionados al azar. Se escogieron 70 de estos
cuadrados y se contaron los árboles selecciona- 10. Los datos siguientes son 30 tiempos de espe-
dos de cada extensión. Los datos aparecen en ra entre erupciones del géiser Old Faithful del
seguida: parque nacional de Yellowstone.
7 8 7 10 4 8 56 89 51 79 58 82
6 8 9 10 9 6 52 88 52 78 69 75
4 9 10 9 8 8 77 72 71 55 87 53
7 9 3 9 5 9 85 61 93 54 76 80
9 8 7 5 8 8 81 59 86 78 71 77
10 2 7 4 8 5 a) Calcule el rango.
10 7 7 7 9 6 b) Calcule la desviación estándar de la
8 8 8 7 8 9 muestra s.
6 8 6 11 9 11 c) ¿Qué proporción de las mediciones se
7 7 11 7 9 13 encuentra a no más de dos desviacio-
10 8 8 5 9 9 nes estándar de la media? ¿Y a no más
8 5 9 8 de tres desviaciones estándar de la me-
dia? ¿Estas proporciones concuerdan con
a) Construya un histograma de frecuencia las proporciones dads por el teorema de
relativa para describir los datos. Tchebychev?
99 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
La media y desviación estándar se pueden usar para calcular un puntaje z, que mide la posición
relativa de una medición en un conjunto de datos.
Puntaje z
El puntaje z muestral es una medida de posición relativa definida por
x − x̄
puntaje z =
s
100 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Debe apreciar con cuidado cualquier observación que tenga un puntaje z mayor a 3 en valor
absoluto. Quizá la medición fue registrada incorrectamente o no pertenece a la población que se
muestrea. Quizá es sólo una observación muy poco probable, pero válida, con todo.
101 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Ejemplo
Consideremos las siguientes n mediciones:
1 1 0 15 2 3 4 0 1 3
102 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Un percentil es otra medida de posición relativa y se usa con más frecuencia para conjuntos
grandes de datos. Los percentiles no son muy útiles para conjuntos pequeños de datos.
Percentil
Un conjunto de n mediciones de la variable x se ha reacomodado en orden de magnitud. El p-
ésimo percentil es el valor de x que es mayor a p % de las mediciones y es menor que el restante
(100 − p) %.
Ejemplo
Supongamos que un estudiante ha sido notificado que su calificación de 610, en la Prueba de
Selección Universitaria en lenguaje, lo ha colocado en el 60avo percentil en la distribución de
calificaciones. ¿Dónde está su calificación de 610 en relación a las calificaciones de los otros
que tomaron la prueba? Entonces calificar en el 60avo percentil significa que 60 % de todas las
calificaciones de examen fueron más bajas que la calificación de usted y 40 % fueron más altas.
103 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
60% 40%
60avo percentil x
Figura: El 60avo percentil mostrado en el histograma de frecuencia relativa para un conjunto de datos.
104 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Como el área total bajo la distribución es 100 %, 60 % del área está a la izquierda y 40 % del área
está a la derecha del 60avo percentil. Recuerde que la mediana, m, de un conjunto de datos es
la medición central; esto es, 50 % de las mediciones son más pequeñas y 50 % son más grandes
que la mediana. Entonces, ¡la mediana es igual que el 50avo percentil!
Los percentiles 25avo y 75avo, llamados cuartiles inferior, Q1 , y superior, Q3 , junto con la
mediana (el 50avo percentil), localizan puntos que dividen los datos en cuatro conjuntos, cada
uno conteniendo un número igual de mediciones. Veinticinco por ciento de las mediciones serán
menores que el cuartil inferior (primero), 50 % serán menores que la mediana (el segundo cuartil,
Q2 ) y 75 serán menores que el cuartil superior (tercero).
De este modo, la mediana y los cuartiles inferior y superior están ubicados en puntos en el eje
x de modo que el área bajo el histograma de frecuencia relativa para los datos está dividida en
cuatro áreas iguales, como el muestra en la siguiente Figura.
105 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Q1 m Q3
106 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Cuartiles
Un conjunto de n mediciones en la variable x se ha acomodado en orden de magnitud. El cuartil
inferior (primer cuartil), Q1 , es el valor de x que es mayor a un cuarto de las mediciones y
es menor que los restantes tres cuartos. El segundo cuartil es la mediana. El cuartil superior
(tercer cuartil), Q3 , es el valor de x que es mayor a tres cuartos de las mediciones y es menor
que el restante un cuarto.
Para conjuntos de datos pequeños, con frecuencia es imposible dividir el conjunto en cuatro gru-
pos, cada uno de los cuales contiene exactamente 25 % de las mediciones. Por ejemplo, cuando
n = 10, usted necesita tener 2, 5 mediciones en cada grupo. Aun cuando usted efectúe esta tarea
(por ejemplo, n = 12), hay muchos números que satisfarı́an la definición precedente y, por lo
tanto, podrı́an ser considerados “cuartiles”. Para evitar ambigüedad, usamos la siguiente regla
para localizar cuartiles muestrales.
107 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Ejemplo
Consideremos el conjunto de n = 10 mediciones: 16, 25, 4, 18, 11, 13, 20, 8, 11 y 9. Entonces,
ordenando las mediciones de menor a mayor:
4 8 9 11 11 13 16 18 20 25
Calculamos la
Como estas posiciones no son enteros, el cuartil inferior se toma como el valor 3/4 de la distancia
entre la segunda y tercera mediciones ordenadas, y el cuartil superior se toma como el valor 1/4
de la distancia entre la octava y novena mediciones ordenadas. Por tanto,
y
Q3 = 18 + 0,25(20 − 18) = 18 + 0,5 = 18,5
108 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
MEDICIONES DE POSICIÓN RELATIVA
Como la mediana y los cuartiles dividen la distribución de datos en cuatro partes, cada una de
ellas conteniendo alrededor de 25 % de las mediciones, Q1 y Q3 son las fronteras superior e
inferior para el 50 % central de la distribución. Podemos medir el rango de este “50 % central”
de la distribución usando una medida numérica llamada rango intercuartil.
Rango intercuartil
El rango intercuartil (RIC) para un conjunto de mediciones es la diferencia entre los cuartiles
superior e inferior; esto es, RIC = Q3 − Q1 .
109 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
La mediana y los cuartiles superior e inferior dividen los datos en cuatro conjuntos, cada uno
de los cuales contiene igual número de número de mediciones. Si agregamos el número más
grande (máx) y el número más pequeño (mı́n) del conjunto de datos a este grupo, tendremos un
conjunto de número que da un rápido y aproximado resumen de la distribución de datos.
El resumen de cinco números consta del número más pequeño, el cuartil inferior, la mediana,
el cuartil superior, y el número más grande, presentados en orden de menor a mayor:
mı́n ←→ Q1 ←→ m ←→ Q3 ←→ máx
Por definición, un cuarto de las mediciones del conjunto de datos se encuentre entre cada uno de
los cuatro pares adyacentes de números.
El resumen de cinco números se puede usar para crear una gráfica sencilla llamada gráfica de
cajas a fin de describir visualmente la distribución de datos. De la gráfica de caja, rápidamente
se puede detectar cualquier sesgo en la forma de la distribución y ver si hay algunos resultados
atı́picos en el conjunto de datos.
110 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Un resultado atı́pico podrı́a aparecer al trasponer dı́gitos cuando se registra una medición, al leer
incorrectamente la carátula de un instrumento, por el mal funcionamiento de una pieza de equipo
o por otros problemas. Aun cuando no haya errores de registro o de observación, un conjunto de
datos puede contener una o más mediciones válidas que, por una u otra razón, difieren marcada-
mente de las otras del conjunto. Estos resultados atı́picos pueden causar una notable distorsión
en medidas numéricas de uso común tales como x̄ y s.
De hecho, los valores atı́picos pueden contener información importante no compartida con las
otras mediciones del conjunto. Por tanto, los resultados atı́picos aislados, si están presentes, son
un paso importante en cualquier análisis preliminar de un conjunto de datos. La gráfica de caja
está diseñada expresamente para este fin. Para construir una gráfica de caja:
1 Calcule le mediana, los cuartiles superior e inferior y el RIC para el conjunto de datos.
2 Trace una recta horizontal que represente la escala de medición. Forme una caja un poco
arriba de la recta horizontal con los extremos derecho e izquierdo en Q1 y Q3 . Trace una
recta vertical que pase por la caja en la ubicación de la mediana.
111 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Los lı́mites superior e inferior se muestran con lı́neas interrumpidas, pero no suelen ser trazadas
en la gráfica de caja. Cualquier medición a mayor distancia del lı́mite superior o inferior es
un resultado atı́pico; el resto de las mediciones, dentro de los lı́mites, no son inusuales. Por
último, la gráfica de caja marca el rango del conjunto de datos usando “bigotes” para conectar
las mediciones más pequeñas y más grandes (excluyendo resultados atı́picos) a la caja. Para
terminar la gráfica de caja:
112 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
El valor x = 520, es el único resultado atı́pico que se encuentra fuera del lı́mite superior.
El resultado atı́pico se destaca fuera del lı́mite superior. Una vez excluido el resultado atı́pico,
encontramos las mediciones más pequeñas y más grande que forman los bigotes.
113 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Sodio
114 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Ejercicios
115 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Ejercicios
116 / 327
PROBABILIDAD Y ESTADÍSTICA – 2018
DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS
EL RESUMEN DE CINCO NÚMEROS Y LA GRÁFICA DE CAJA
Ejercicios
9. Estudios cientı́ficos informan de tiempos de su- c) Trace una gráfica de caja para describir
pervivencia para pacientes con hepatitis activa, los datos. Explique por qué la gráfica de
la mitad tratados con prednisona y la otra mitad caja confirma lo concluido por usted en
no reciben tratamiento. Los tiempos de supervi- el inciso b).
vencia (en meses) están adaptados de sus datos
para los tratados con prednisona. 10. Los estados de cuenta mensuales por consumo
eléctrico (en pesos) para una familia de Co-
8 127
piapó, se registraron durante 12 meses conse-
11 133
cutivos empezando en enero de 2016.
52 139
57 142 Mes Cantidad Mes Cantidad
65 144
87 147 Ene 17 596 Jul 19 081
93 148 Feb 10 171 Ago 20 882
97 157 Mar 14 657 Sep 21 381
109 162 Abr 10 123 Oct 14 117
120 165 May 11 649 Nov 13 008
Jun 17 990 Dic 14 345
a) ¿Al ver estos datos, se puede decir si es
más o menos simétrica? ¿O bien, es ses- a) Construya una gráfica de caja para los
gada? costos.
b) Calcule la media y mediana. Use estas b) ¿Qué nos dice la gráfica de caja acerca
medidas para determinar si los datos son de la distribución de costos por consumo
o no son simétricos o sesgados. eléctrico para esta familia?
117 / 327