Docente
Jorge Mario Martı́nez Conde
Universidad de Córdoba
Facultad de Ciencias Básicas
Departamento de Matemática y Estadı́stica
Programa de Estadı́stica
Monterı́a 2015
Bioestadı́stica Jorge Mario Martı́nez
Contenido
1. Introducción a la Estadı́stica 3
1.1. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. División de la Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Tipos de Variables Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variable Cualitativa: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2. Variable Cuantitativa: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3. Escalas de Medición: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Formas de Presentación y Organización de la Información . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Datos no Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. Datos Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Presentación Mediante Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1. Gráfico de Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2. Gráfico de Circular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4. Polı́gono de Frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.5. Ojiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.6. Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2. Estadı́stica Descriptiva 11
2.1. Medidas de tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Media Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3. Desviación Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.4. Coeficiente de Variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Medidas de Posición no Centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1. Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1. Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Probabilidad 17
3.1. Conceptos de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1. Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2. Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.3. Intersección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.4. Unión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.5. Complemento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.6. Diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2. Conteo de puntos de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1. Principio multiplicativo o Regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.3. Técnicas de Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.5. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Definición de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4. Probabilidad Marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6. Eventos Estadisticamente Independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.7. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1
Bioestadı́stica Jorge Mario Martı́nez
4. Analisis Regresión 26
4.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2. Coeficiente de Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3. Coeficiente de Determinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Regresion Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5. Inferencia Estadı́stica 29
5.1. Una Sola Muestra: Estimación de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1. Intervalo de Confianza de µ con σ 2 Conocida ó n grande (n ≥ 30) . . . . . . . . . . . . . . . . 29
2
Bioestadı́stica Jorge Mario Martı́nez
1. Introducción a la Estadı́stica
La estadı́stica se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar
los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrı́nseca de los mismos; ası́ como de realizar
inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
Las aplicaciones más importantes en el campo de la estadı́stica se relacionan con:
Recolección de datos.
Registro y presentación de la información.
Formulación de modelos.
Pruebas de hipótesis.
Diseños de experimentos.
Cuando los datos que se analizan proceden de las ciencias biológicas o médicas, se utiliza el termino Bioestadı́stica
para diferenciar esta aplicación particular de las herramientas y conceptos de la estadı́stica general.
Población: Una población es el conjunto de todos los elementos a los que se somete a un estudio estadı́stico
Individuo: Un individuo o unidad estadı́stica es cada uno de los elementos que componen la población.
Muestra: Una muestra es un conjunto representativo de la población de referencia, el número de individuos de
una muestra es menor que el de la población.
Muestreo: El muestreo es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y
representativa de la población.
Dato: Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadı́stico. Si lanzamos una
moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.
Variable Estadı́stica: Una variable estadı́stica es cada una de las caracterı́sticas o cualidades que poseen los
individuos de una población.
La estadı́stica se divide en dos grandes ramas de estudio: Estadı́stica descriptiva y Estadı́stica inferencial.
Estadı́stica descriptiva: La estadı́stica descriptiva se encarga de la recolección, clasificación y descripción de
datos muestrales o poblacionales, para su interpretación y análisis, que resumen y presentan la información
contenida en ellos.
Estadı́stica inferencial: La inferencia estadı́stica es el conjunto de métodos y técnicas que permiten inducir, a
partir de la información empı́rica proporcionada por una muestra, cual es el comportamiento de una determinada
población con un riesgo de error medible en términos de probabilidad.
Son aquellas que describen cualidades de los elementos, pueden ser Nominal u Ordinal.
Nominal: Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de
orden. Ej: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo, el tipo
de sangre, cuyas modalidades o categorı́as son: O, A, B, AB; estado civil, tipo de religión, raza.
Ordinal: Son las que, aunque sus modalidades son de tipo no numérica, es posible establecer un orden entre
ellas. Ej: La nota en un examen: Insuficiente, aprobado, notable, sobresaliente.
3
Bioestadı́stica Jorge Mario Martı́nez
Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro
de este tipo de variables podemos distinguir dos grupos:Las discretas o continuas.
Discreta: Resultan de conteos y el resultado es un número entero, es decir no admite valores intermedios entre
dos valores especı́ficos. Ej: El número de hijos posibles 0, 1, 2, 3, . . .
Continua: Una variable continua es aquella que puede tomar valores comprendidos entre dos números. Ej:
podemos obtener la altura de 4 mujeres medidas en cm: 1,50, 1,51, 1,52, 1,53, . . ..
Existen dos formas básicas para la representación de la información recolectada, a través de tablas o cuadros estadı́sti-
cos y a través de un gráfico. Una tabla o cuadro estadı́stico es una representación en forma ordenada de la variación
de un fenómeno, clasificado bajo uno o más variables. Puede ser simple (clasificación bajo una variable) o compuesto
(clasificación bajo dos o más variables).
Ejemplo 1. Una encuesta realizada a 12 fumadores para determinar el número de cigarrillos que encienden (fuman)
en un dı́a corriente arrojó los siguientes resultados:
3 7 5 10
5 8 10 8
5 3 10 5
Sea X : el número de cigarrillos que encienden un fumador, Tipo de variable: Cuantitativa discreta.
Ejemplo 2. Los siguientes datos corresponden a un muestreo de ruido ambiental del nivel de presión sonora, medida
en decibeles en diferentes estaciones de la ciudad de Monterı́a durante el dı́a
Sea X : el ruido ambiental del nivel de presión sonora,Tipo de variable: Cuantitativa continua.
Ejemplo 3. Distribución de frecuencias para el número de vehı́culos que llegan a un taller automotor en un dı́a dado
4
Bioestadı́stica Jorge Mario Martı́nez
Consideremos una población estadı́stica de n individuos, descrita según un carácter o variable c cuyas modalidades
han sido agrupadas en un número k de clases, que denotamos mediante c1 , c2 , . . . , cn . Para cada una de las clases
ci , i = 1, . . . , k, introducimos las siguientes magnitudes:
Frecuencia Absoluta: La Frecuencia absoluta de la clase ci , Corresponde a la cantidad de veces que se repite un
dato. Denotamos este valor por fi
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por n.
f1 + f2 + · · · + fn = n
fi
hi =
n
La suma de las frecuencias relativas es igual a 1.
Frecuencia Absoluta Acumulada : Es la suma de las frecuencias absolutas de todos los valores inferiores o iguales
al valor considerado. Se representa por Fi
j
X
Fi = f 1 + f 2 + . . . + f i = fj
i=1
Frecuencia Relativa Acumulada: La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de
un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Se representa por Hi
j
X
Hi = h1 + h2 + . . . + hi = hj
i=1
Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de
ellas. Una tabla estadı́stica sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general
es la siguiente:
.. .. .. .. ..
. . . . .
fj
cj fj hj = n
F j = f 1 + . . . + f j H j = h1 + . . . + hj
.. .. .. .. ..
. . . . .
fn
cn fn hn = n
Fn = f1 + . . . + fn Hn = h1 + . . . + hn
Total n 1 - -
5
Bioestadı́stica Jorge Mario Martı́nez
Ejemplo 5. Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
ci fi hi Fi Hi
27 1 0.03 1 0.03
28 2 0.07 3 0.10
29 6 0.19 9 0.29
30 7 0.23 16 0.52
31 8 0.26 24 0.77
32 3 0.10 27 0.87
33 3 0.10 30 0.97
34 1 0.03 31 1
Total 31 1 - -
Cuando el tamaño de la muestra es considerable o grande y los datos numéricos son muy diversos, conviene agrupar
los datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores observados.
K = 1 + 3,3 Log n
Donde: K = Número de intervalos el cual siempre debe ser un número entero y n = Número de datos
2. Calcular el rango de los datos
Se obtiene de la diferencia entre el dato mayor y el dato menor. Se representa con la letra R.
R = Xmax − Xmin
R
A=
K
4. Construcción de los intervalos
Las dos caracteres mencionadas anteriormente se logran construyendo intervalos cerrados por la izquierda y
abiertos por la derecha; esto se simboliza a través del uso de corchetes y paréntesis respectivamente. Por razones
naturales, el último intervalo será cerrado por ambos extremos. El primer intervalo se construye de la siguiente
manera: Habrá de iniciar con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se
obtiene de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo intervalo, del cual
el segundo extremo se encuentra sumando al valor anterior la amplitud y este proceso se repite sistemáticamente
hasta completar el total de intervalos indicado por la regla elegida, por ejemplo la de Sturges.
Intervalos de Clase Son los intervalos en los que se agrupan y ordenan los valores observados. Cada uno de estos
intervalos está delimitado (acotado) por dos valores extremos que les llamamos lı́mites.
6
Bioestadı́stica Jorge Mario Martı́nez
Los valores extremos o lı́mites de intervalo Los intervalos de clase deben estar definidos por lı́mites que
permitan identificar plenamente si un dato pertenece a uno u otro intervalo. Estos lı́mites son los valores extremos de
cada intervalo.
Lı́mite Inferior: Es el valor menor de cada intervalo, se denota por Li
Lı́mite Superior: Es el número mayor de cada intervalo, se denota por Ls
También será muy útil conocer y calcular la Marca de Clase (Mc ) de cada intervalo: Se refiere al Punto Medio del
intervalo y a través de él representaremos a todo el intervalo y una de las maneras de calcularla es promediando los
valores lı́mite de cada intervalo, su fórmula es:
Li + Ls
Mc =
2
Ejemplo 6. Un grupo de investigadores pertenecientes a la secretarı́a de seguridad pública, tomó una muestra aleatoria
de las velocidades (km/h) registradas por 30 vehı́culos en el trayecto a Cerete, con el fin de establecer nuevos lı́mites
máximos de velocidad para una carretera. La muestra arrojo los datos siguientes:
90, 99, 104, 99, 119, 98, 95, 112, 95, 120, 100, 90, 116, 96, 114, 108, 98, 118, 100, 106, 114, 100, 112, 106, 100,
115, 111, 105, 114, 97
Ahora llevamos a la práctica los pasos descritos anteriormente para la construcción de los intervalos.
1. obtendremos el número de intervalos que vamos a utilizar, para lo cual empleamos la Regla de Sturges
4. Los corchetes expresan que el valor extremo se incluye en el intervalo y los paréntesis dan a entender que el valor
extremo del intervalo no se incluye en el.
Li − Ls fi hi Fi Hi Mc (Xi )
[90 − 95) 2 0.07 2 0.07 92.5
[95 − 100) 8 0.27 10 0.34 97.5
[100 − 105) 5 0.17 15 0.51 102.5
[105 − 110) 4 0.13 19 0.64 107.5
[110 − 115) 6 0.20 25 0.84 112.5
[115 − 120] 5 0.16 30 1.00 117.5
Total 30 1.00
Los gráficos son muy útiles como apoyos e incluso sustitutos de las tablas o distribuciones y como una herramienta
para el análisis de los datos, lo que los convierte en el medio más efectivo para la presentación, descripción, resumen
y análisis de la información.
7
Bioestadı́stica Jorge Mario Martı́nez
Es un método gráfico que consta de dos ejes: Uno horizontal, en el que se representan los valores (Eje de los datos)
utilizando barras verticales en forma rectangular y de la misma amplitud, y un eje vertical, en el cual la frecuencia
representa la altitud que tendrá la barra rectangular (Eje de las frecuencias)
Temperaturas Maximas
8
6
Frecuencias
4
2
0
27 28 29 30 31 32 33 34
Temperaturas
Este gráfico se utiliza fundamentalmente, para representar distribuciones de frecuencias relativas (es decir, porcentajes
o proporciones)
Temperaturas Maximas
19%
23%
6%
3%
3%
10%
26%
10%
1.4.3. Histograma
Es una gráfica en forma de barras que consta de dos ejes, uno horizontal, llamado eje de la variable en observación,
en donde situamos la base de una serie de rectángulos o barras contiguas; es decir, que no van separadas, y que se
rotula con los lı́mites inferiores de cada clase o intervalo excepto el último que deberá llevar también el lı́mite superior,
centradas en la marca de clase. Y un eje vertical llamado eje de las frecuencias, en donde se miden las alturas que
vienen dadas por la frecuencia del intervalo que representa. Todos los intervalos deben tener la misma longitud.
8
Bioestadı́stica Jorge Mario Martı́nez
Velocidades Registradas
8 10
Frecuencias
6
4
2
0
90 95 100 105 110 115 120
Km/h
Es una gráfica del tipo de las gráficas de lı́neas trazadas sobre las marcas de clase, (de ahı́ el nombre de polı́gono), y
se traza uniendo con segmentos de recta, de izquierda a derecha, las parejas ordenadas que se forman, al considerar
como abscisa la marca de clase (eje horizontal) y como ordenada la frecuencia del intervalo representado (eje vertical);
la primera y última parejas ordenadas se unen mediante un segmento de recta al eje horizontal, con las que serı́an la
marca de clase anterior y posterior respectivamente si estas existieran. Este tipo de gráfico adquiere mayor importancia
cuando se quiere mostrar en un mismo gráfico más de una distribución o una clasificación cruzada de una variable
continua con una discreta, situación que no se puede observar en uno de los gráficos presentados anteriormente por la
forma de construcción del mismo gráfico.
8
Frecuencias
Frecuencias
6
6
4
4
2
2
0
1.4.5. Ojiva
Es un gráfico que igual al histograma y polı́gono de frecuencias se utiliza para el análisis y representación de variables
continuas, sólo que en vez de utilizar las frecuencias absolutas, por sus caracterı́sticas se construye uniendo con
segmentos de recta, de izquierda a derecha, las parejas ordenadas que se forman, al considerar como abscisa los lı́mites
superiores de cada intervalo (eje horizontal) y como ordenada las frecuencias relativas acumuladas hasta cada intervalo
representado (eje vertical). Existen dos tipos de ojivas, las llamadas de mayor que, iniciando en la frecuencia más alta
1 hacia la más baja 0 y las llamadas de menor que, iniciando en la frecuencia más baja 0 hacia la más alta 1.
El gráfico ojiva representa mayor importancia cuando se trata de comparar las observaciones de una misma carac-
terı́stica en dos experimentos distintos, ya que no se puede ejecutar comparaciones sobre frecuencias absolutas, es
necesario una comparación sobre frecuencias relativa; además permite ver cuántas observaciones se hallan por arriba
o debajo de ciertos valores establecidos.
9
Bioestadı́stica Jorge Mario Martı́nez
Velocidades Registradas
1.0
Frecuencias Relativas Acumuladas
0.8
0.6
0.4
0.2
0.0
1 2 3 4 5 6
Km/h
1.4.6. Boxplot
Una forma útil de representar la variabilidad de los datos es de manera gráfica, utilizando el diagrama de cajas o
boxplot, el cual se construye a partir de los cuartiles.
Este tipo de gráfico también llamado box and whisker plot, o simplemente boxplot, facilita la lectura sobre localización,
variabilidad, simetrı́a y presencia de datos atı́picos (outliers según la literatura estadı́stica inglesa). El boxplot consiste
en una caja y guiones con una linea a través de la caja que representa la mediana (segundo cuartil Q2 ). El extremo
inferior de la caja es el primer cuartil Q1 y el superior es el tercer cuartil Q3 . El bigote superior se extiende desde
el tercer cuartil hasta la observación más grande que es menor o igual que Q3 + 1,5x(Q3 − Q1 ). El bigote inferior se
extiende hasta la observación más pequeña que es mayor o igual que Q1 − 1,5x(Q3 − Q1 ).
Las observaciones que están por fuera de estos lı́mites se clasifican como datos atı́picos y se ubican en el diagrama.
10
Bioestadı́stica Jorge Mario Martı́nez
140
95
90
2. Estadı́stica Descriptiva 90
Son valores que caracterizan las observaciones de un conjunto de datos. Estas medidas de resumen pueden ser de
centralidad, dispersion o variabilidad, posición y forma
Las medida de tendencia central de un conjunto de datos es la disposición de estos para agruparse al rededor del centro
o de ciertos valores numéricos.
Matemáticamente, la media aritmética se define como la suma de los valores observados dividida entre el número de
observaciones.
Datos no Agrupados Sean x1 , x2 . . . , xn los valo- Datos Agrupados Cuando la variable está agru-
res de una variable X, de una muestra de tamaño n. pada en una distribución de frecuencias, la media
La media aritmética x se define como: aritmética se calcula por la fórmula:
n n
x1 + x2 + . . . + xn 1X X1 f1 + X2 f2 + . . . + Xn fn 1X
x= = xi x= = Xi fi
n n i=1 n n i=1
Ejemplo 7.
31
31
32 + 31 + · · · + 29 944
X 92,5 × 2 + · · · + 117,5 × 5 3170
x=
X
= = = 30, 45 x= = = = 102,26
31 31 i=1
31 31
i=1
El promedio de las temperaturas registradas en el mes de El promedio de las velocidades registradas en el trayecto
julio fue de 30.45 ◦ C a Cerete es de 102,26Km/h
2.1.2. Mediana
La mediana es el elemento central del conjunto de datos, es una medida de posición y hay el mismo número de
observaciones a la derecha y a la izquierda del valor de la mediana.
11
Bioestadı́stica Jorge Mario Martı́nez
2.1.3. Moda
Representa el valor o valores que tienen la mayor frecuencia dentro del conjunto de datos. La moda puede o no existir;
en el evento en que exista, puede no ser única, ya que una distribución puede eventualmente tener una o varias modas.
Datos no Agrupados: La moda Mo es el valor que Li Extremo inferior del intervalo modal
más se repite en una distribución de datos. f i Frecuencia absoluta del intervalo modal.
fi−1 Frecuencia absoluta del intervalo anterior al
modal.
fi+1 Frecuencia absoluta del intervalo posterior al
Datos Agrupados: Si los datos están agrupados en
modal.
intervalos iguales, entonces la Moda se calculan con:
fi − fi−1
Mo = Linf + A
(fi − fi−1 ) + (fi − fi+1 )
(8 − 2)
Mo = 95 + ∗ 5 = 95 + 3,33 = 98,33
(8 − 2) + (8 − 5)
Permiten generar criterios sobre el grado de homogeneidad o heterogeneidad del conjunto de datos que se está anali-
zando, en relación con una medida de centralidad, o con respecto a datos entre sı́.
12
Bioestadı́stica Jorge Mario Martı́nez
2.2.1. Rango
Diferencia entre al valor máximo y el valor mı́nimo del conjunto de datos y mide la longitud en la cual se encuentran
los datos, en general a mayor longitud mayor dispersión de los datos.
R = X(n) − X(1)
2.2.2. Varianza
La varianza de las observaciones x1 , x2 . . . , xn es, en esencia, el promedio del cuadrado de las diferencias entre cada
observación y la media del conjunto de observaciones. la varianza se denota por:
n n
1 X 1 X
S2 = (xi − x)2 S2 = fi (Xi − x)2
n − 1 i=1 n − 1 i=1
2 1 2 2 79,68 2 1 2 2 2290,23
S = {(27 − 30,45) + · · · + (34 − 30,45) } = = 2,66 S = {(92,5−102,26) +· · ·+(117,5−102,26) } = = 99,58
31 − 1 30 30 − 1 29
La desviación tı́pica es una medida del grado de dispersión de los datos con respecto al valor promedio. Dicho de otra
manera, la desviación estándar es simplemente el promedio o variación esperada con respecto a la media aritmética.
v v
u n u n
u 1 X u 1 X
S=t (xi − x)2 S=t fi (Xi − x)2
n−1 i=1
n − 1 i=1
p
S= 2,66 = 1,63
Permite estimar la relación porcentual entre el valor de la media y la desviación estándar. A medida que se presenta
mayor heterogeneidad en el conjunto de datos, el valor del coeficiente de variación es mayor
S
CV = × 100 %
x
13
Bioestadı́stica Jorge Mario Martı́nez
Las medidas de posición no centrales son valores que particionan la población o muestra en varios puntos, dando una
descripción más fina, puesto que dan más información del comportamiento de los datos que las medidas de tendencia
central.
Estas medidas indican que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones
(mitad, 3 partes, 5 partes, diez partes, etc) y facilitan la información sobre la serie de datos que estamos analizando.
Entre las medidas de posición más utilizadas encontramos los cuartiles, deciles y percentiles.
2.3.1. Cuartiles
Datos no Agrupados
Los cuartiles son tres valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25 % de las observaciones. Estos valores son denotados por
Q1 , Q2 , Q3 y se procede de la siguiente forma:
k×n
Qk = , k = 1, 2, 3
4
Datos Agrupados
k×n
Primero buscamos la clase donde se encuentra Qk = 4 , k = 1, 2, 3, en la tabla de frecuencias acumuladas
k×n
4 − Fi−1
Qk = Linf + A k = 1, 2, 3
fi
2.3.2. Deciles
Datos no Agrupados
Los deciles son nueve valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente en diez
tramos iguales, en los que cada uno de ellos concentra el 10 % de las observaciones. Estos valores son denotados por
D1 , D2 , . . . Q9 y se procede de la siguiente forma:
k×n
Dk = , k = 1, 2, . . . 9
10
Datos Agrupados
k×n
Primero buscamos la clase donde se encuentra Dk = 4 , k = 1, 2, . . . 9, en la tabla de frecuencias acumuladas
k×n
10 − Fi−1
Dk = Linf + A, k = 1, 2, . . . 9
fi
2.3.3. Percentiles
Datos no Agrupados
Los percentiles son noventa y nueve valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente
en cien tramos iguales, en los que cada uno de ellos concentra el 1 % de las observaciones. Estos valores son denotados
por P1 , P2 , . . . P99 y se procede de la siguiente forma:
14
Bioestadı́stica Jorge Mario Martı́nez
k×n
Dk = , k = 1, 2, . . . 99
100
Datos Agrupados
k×n
Primero buscamos la clase donde se encuentra Pk = 100 , k = 1, 2, . . . 99, en la tabla de frecuencias acumuladas
k×n
100 − Fi−1
Pk = Linf + A, k = 1, 2, . . . 99
fi
De forma general se tiene que, el 100k-ésimo percentil 0 < k < 1, denotado por pk , es un valor tal que al menos el
100k % de las observaciones son menores o iguales que él y al menos el 100(1 − k) % son mayores o iguales que él.
1. Para datos no agrupados
2. Ordene los datos en forma creciente, es decir, de menor a mayor.
k×n
3. Calcule 4,10,100 , donde n es el número de datos
a) Si Qk , Dk , Pk no es entero aproxı́melo al entero siguiente y esa es la posición del percentil 100k %.
b) Si Qk , Dk , Pk es entero, el percentil 100k % se obtiene promediando las observaciones que ocupan los lugares
k×n k×n
4,10,100 y 4,10,100 + 1
Datos no Agrupados
Ejemplo 12. Ordenamos los datos de forma ascendente
27 28 28 29 29 29 29 29 29 30 30 30 30 30 30 30 31 31 31 31 31 31 31 31 32 32 32 33 33 33 34
Para los datos anteriores, se procede a calcular las medidas de posición no centrales.
Para obtener el primer Cuartil Q1 determinamos el valor de la observación que se encuentra en la posición
1×31
4 = 7, 75 ≈ 8 por tanto Q1 = 29
Para obtener el tercer Cuartil Q3 determinamos el valor de la observación que se encuentra en la posición
3×31
4 = 23,25 ≈ 23 por tanto Q3 = 31
Para obtener el valor del Percentil D4 determinamos el valor de la observación que se encuentra en la posición
4×31
10 = 12,4 ≈ 12 por tanto D4 = 30
17×31
Para obtener el Percentil P17 determinamos el valor de la observación que se encuentra en la posición 100 =
5,27 ≈ 5 por tanto P17 = 29
93×31
Para obtener el Percentil P93 determinamos el valor de la observación que se encuentra en la posición 100 =
28,83 ≈ 29 por tanto P93 = 33
Para concluir tenemos que: El Q1 = 25 % de las temperaturas medidas en un dı́a cualquiera presentan valores menores
o iguales a 29◦ c
Datos Agrupados
Ejemplo 13. Calcular par los datos agrupados los Q3 D7 P88
Li − Ls fi hi Fi Hi Mc (Xi )
[90 − 95) 2 0.07 2 0.07 92.5
[95 − 100) 8 0.27 10 0.34 97.5
[100 − 105) 5 0.17 15 0.51 102.5
[105 − 110) 4 0.13 19 0.64 107.5
[110 − 115) 6 0.20 25 0.84 112.5
[115 − 120] 5 0.16 30 1.00 117.5
Total 30 1.00
15
Bioestadı́stica Jorge Mario Martı́nez
k×n 3×30
Cuartil - Primero buscamos la clase donde se encuentra Qk = 4 = Q3 = 4 = 22,5 ≈ 23, está clase se
encuentra acumulada en el intervalo [110 − 115)
3×n 3×30
4 − Fi−1 4 − 19 3,5
Q3 = Linf + A = Q3 = 110 + 5 = 110 + 5 = 110 + 2,917 = 112,917 ≈ 113
fi 6 6
k×n 7×30
Decil - Primero buscamos la clase donde se encuentra Dk = 10 = Q7 = 10 = 21, está clase se encuentra
acumulada en el intervalo [110 − 115)
7×n 7×30
10 − Fi−1 10 − 19 2
D7 = Linf + A = Q3 = 110 + 5 = 110 + 5 = 110 + 1,667 = 111,667 ≈ 112
fi 6 6
k×n 88×30
Percentil - Primero buscamos la clase donde se encuentra Pk = 100 = Q88 = 100 = 26,4 ≈ 26 , está clase se
encuentra acumulada en el intervalo [110 − 115)
88×n 88×30
100 − Fi−1 100 − 19 7,4
P88 = Linf + A = P88 = 110 + 5 = 110 + 5 = 110 + 6,1667 = 116,25 ≈ 116
fi 6 6
Las medidas de forma comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de
de barras de la distribución, con una situación ideal en la que los datos se reparten en igual medida a la derecha y a
la izquierda de la media.
2.4.1. Asimetrı́a
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media
aritmética). Se dice que la asimetrı́a es a la derecha cuando la mayorı́a de los datos se encuentran por encima del valor
de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en
ambos lados de la media y se conoce como asimetrı́a a la izquierda cuando la mayor cantidad de datos se aglomeran
en los valores menores que la media.
El coeficiente de asimetrı́a más preciso es el de Fisher, que se define por:
(xi −x̄)3 ni
P
n
g1 =
s3
Si g1 > 0 la distribución será asimétrica positiva o a derecha
Si g1 = 0 la distribución es simétrica;
Si g1 < 0 la distribución será asimétrica negativa o a izquierda
0.6
0.6
0.3
Density
Density
Density
0.4
0.4
0.2
0.2
0.2
0.1
0.0
0.0
0.0
−2 0 2 4 0 1 2 3 4 5 6 −5 −4 −3 −2 −1 0
x y z
16
Bioestadı́stica Jorge Mario Martı́nez
2.4.2. Curtosis
Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribución; para determinarlo,
emplearemos el coeficiente de curtosis de Fisher.
Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por
medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
Cuando la distribución de los datos cuenta con un coeficiente de asimetrı́a (g1 = ±0,5) y un coeficiente de Curtosis
de (g2 = ±0,5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayorı́a de los
procedimientos de la estadı́stica de inferencia se requiere que los datos se distribuyan normalmente.
(xi −x̄)4 ni
P
n
g2 =
s4
Si g2 > 0 la distribución será leptocúrtica o apuntada
Si g2 = 0 la distribución será mesocúrtica o normal
Si g2 < 0 la distribución será platicúrtica o menos apuntada que lo normal.
3. Probabilidad
La Probabilidad es la mayor o menor posibilidad de que ocurra un determinado suceso. En otras palabras, su noción
viene de la necesidad de medir o determinar cuantitativamente la certeza o duda de que un suceso dado ocurra o no.
La teorı́a de la probabilidad surge para poder estudiar los, llamados, experimentos aleatorios. Se dice que un experi-
mento es aleatorio si puede dar lugar a varios resultados sin que se pueda predecir con certeza el resultado concreto.
Es decir, al repetir el experimento bajo condiciones similares se obtendrán resultados que, en general, serán diferentes.
Un ejemplo de un experimento aleatorio puede ser la tirada de un dado, ya que no se puede predecir el número que
aparecerán en su cara superior.
Al conjunto de todos los resultados posibles de un experimento aleatorio se le llama espacio muestral, que representa-
remos por el sı́mbolo S.
Por ejemplo, en el lanzamiento del dado, el espacio muestral serı́a el conjunto
S1 = (1, 2, 3, 4, 5, 6)
No siempre es posible describir el espacio muestral enumerando sus diferentes elementos. A veces se define por medio
de una condición, o regla, que han de cumplir sus elementos.
Si nos interesamos sólo en si el número es par o impar. el espacio muestral es simplemente
S2 = (par, impar)
Dependiendo del número de resultados posibles del experimento aleatorio, el espacio muestral podrá ser: finito (ej.
resultados de la tirada de un dado), infinito numerable (cuando a cada elemento del espacio se le puede hacer co-
rresponder un número entero sin lı́mite, ej. vida en años de un componente electrónico), e infinito no numerable (ej.
números reales en el intervalo 0 - 1).
Ejemplo 14. Suponga que se seleccionan tres peces de un estanque en forma aleatoria. Cada pez se clasifica como
grande (G) o pequeño (P), Describa el espacio muestral S.
17
Bioestadı́stica Jorge Mario Martı́nez
3.1.2. Evento
Un evento E es un subconjunto del espacio muestral, cuyos miembros tienen un caracterı́stica en común .
Ejemplo 15. En el experimento aleatorio de lanzar un dado, al Evento compuesto E de obtener un número par le
corresponde el siguiente conjunto de puntos del espacio muestral
E = (2, 4, 6).
3.1.3. Intersección
La intersección de dos eventos E1 y E2 , denotada mediante el sı́mbolo E1 ∩ E2 , es el evento que contiene a todos los
elementos que son comunes a E1 y E2 .
Ejemplo 16. Supongan que se tienen los siguientes eventos E1 = {a, b, c} y E2 = {r, s, t}
E1 ∩ E2 = φ
Es decir no tienen elemento en común por lo tanto no pueden ocurrir ambos en forma simultanea.
3.1.4. Unión
La union de dos eventos E1 y E2 , denotada mediante el sı́mbolo E1 ∪E2 , es el evento que contiene a todos los elementos
que pertenecen a E1 A E2 o ambos.
Ejemplo 17. Supongan que se tienen los siguientes eventos E1 = {a, b, c} y E2 = {r, s, t}
E1 ∪ E2 = (a, b, c, r, s, t)
3.1.5. Complemento
El complemento de un evento E con respecto a S es el subconjunto de todos los elementos de S que no están en E.
0
Denotaremos el complemento de E mediante E .
Ejemplo 18. Considere el evento E de que al lazar un dado de como resultado un 5, entonces tenemos que E = (5),
como su espacio muestral es S = (1, 2, 3, 4, 5, 6) su complemento sera:
0
E = (1, 2, 3, 4, 6).
3.1.6. Diferencia
La diferencia entre dos eventos E1 y E2 , se define como elementos que están en el evento E1 y no están en E2
Ejemplo 19. por ejemplo, si E1 = {a, b, c, d, e} y E2 = {a, e, i, o}, entonces la diferencia de dichos conjuntos es-
tará formada por todos los elementos que estén solamente en A, esto es:
E1 − E2 = (b, c, d)
Teorema 1. Propiedades
1. E ∩ φ = φ
18
Bioestadı́stica Jorge Mario Martı́nez
2. E ∪ φ = E
0
3. E ∩ E = φ
0
4. E ∪ E = S
0
5. S = φ
0
6. φ = S
0 0
7. (E ) = E
0 0 0
8. (E1 ∩ E2 ) = E1 ∪ E2
0 0 0
9. (E1 ∪ E2 ) = E1 ∩ E2
y los eventos
A = {cobre, sodio, cinc}, B = {sodio, nitrogeno, potasio} y C = {oxigeno}
Liste los elementos de los conjuntos que corresponden a los eventos siguientes:
0
A A∪C
0
(A ∩ B 0 ) ∪ C B ∩C
0 0 0
A∩B∩C (A ∪ B ) ∩ (A ∪ C)
Ejemplo 20. Se seleccionan al azar cuatro estudiantes de una clase y se clasifican en masculino y femenino,Liste los
elementos del espacio muestral S1 ; Defina el segundo espacio muestral S2 donde los elementos representan el número
de mujeres seleccionadas
S1 = {F F F F, F F F M, F F M F, F M F F, M F F F, F F M M,
F M F M, F M M F, M M M M, M M M F, M M F M,
M F M M, F M M M, M M F F, M F M F, M F F M }
S2 = {0, 1, 2, 3, 4}
La Combinatoria es la parte de las Matemáticas que estudia las diversas formas de realizar agrupaciones con los
elementos de un conjunto, formándolas y calculando su número. Existen distintas formas de realizar estas agrupaciones,
según se repitan los elementos o no, según se puedan tomar todos los elementos de que disponemos o no y si influye o
no el orden de colocación de los elementos.
Si una operación puede suceder de n1 formas y si para cada una de estas se puede llevar a cabo una segunda operación
en n2 formas, y para cada una de las primeras dos se puede realizar una tercera operación n3 y ası́ sucesivamente,
entonces la serie de k operaciones se puede realizar en n1 × n2 ×, . . . ×, nk formas.
Ejemplo 21. Cuantos Puntos muestrales hay en el espacio muestral cuando se lanza una vez un par de dados ?:
A: (dado 1) puede caer de 6 maneras.
B: (dado 2) puede caer de 6 maneras
A y B (dado 1 y dado 2 ) sucede de 6 × 6 = 36 formas posibles
19
Bioestadı́stica Jorge Mario Martı́nez
Ejemplo 22. ¿Cuantos almuerzos que consisten en una sopa, emparedado, postre y una bebida son posibles si podemos
seleccionar 4 sopas, 3 tipos de emparedados, 5 postres y 4 bebidas ? como n1 = 4, n2 = 3, n3 = 5, n4 = 4
n1 × n2 × n3 × n4 = 4 × 3 × 5 × 4 = 240
Ejemplo 23. ¿ Cuantos almuerzos que consisten en una sopa, emparedado, postre y una bebida son posibles si podemos
seleccionar 4 sopas, 3 tipos de emparedados, 5 postres y 4 bebidas ? como n1 = 4, n2 = 3, n3 = 5, n4 = 4
n1 × n2 × n3 × n4 = 4 × 3 × 5 × 4 = 240
3.2.2. Variaciones
Sea un conjunto formado por m elementos distintos. Recibe el nombre de variación de orden n de esos m elementos
(n ≤ m), a todo grupo ordenado formado por n elementos tomados de los m, de tal manera que dos grupos se con-
siderarán distintos si difieren en alguno de sus elementos o bien, si teniendo los mismos, difieren en el orden en que
están colocados. El total de esos grupos ordenados se indica por Vm,n .
Definicion 3.3. Cuando hablamos de repetición y no repetición entendamos lo siguiente si tenemos las letras A y B
y en las cuales importa el orden cuantas letras podemos formas.
con repetición (AA, AB, BA, BB), sin repetición (AB, BA) z
Definicion 3.4. El total de variaciones de orden n que pueden formarse con los m elementos de un conjunto dado
sin repetición, es:
Ejemplo 24. ¿ Cuántos números de tres cifras diferentes se pueden formar con los dı́gitos que componen el número
24756?
Es importante destacar el hecho de la no repetición de los elementos en las muestras y la importancia del orden.
V5,3 = 5(4)(3) = 60
Consideremos ahora que hay repetición y que importa el orden en que estén situados los objetos dentro del grupo
Definicion 3.5. En el caso de las variaciones si los elementos se pueden repetir hasta r veces se les denomina
variaciones con repetición y se obtienen por:
Vrn = nr
Ejemplo 25. Se lanza una moneda diez veces y en todos los lanzamientos el resultado es cara, ¿Cual es la probabilidad
de este evento ? ¿ Cual es la probabilidad de que em el decimoprimero lanzamiento el resultado sea cruz ?
10
1
2
20
Bioestadı́stica Jorge Mario Martı́nez
Ejemplo 26. ¿ Cuantos números de tres cifras se pueden formar con las nueve cifras significativas del sistema decimal?
Al tratarse de números el orden importa y además no dice nada sobre cifras distintas, luego si pueden repetirse.
Por tanto, se pueden formar 729 números:
V39 = 93 = 729
¿ Cuantas palabras distintas de 10 letras (con o sin sentido) se pueden escribir utilizando sólo las dos primeras letras
del alfabeto?
Al tratarse de palabras el orden importa y además como son palabras de 10 letras y sólo tenemos dos para formarlas,
deben repetirse. Por tanto, se pueden formar 1024 palabras.
2
V10 = 210 = 1024
Para calcular las probabilidades de varios eventos es necesario contar el número de resultados posibles de un experi-
mento, o contar el número de resultados que son favorables a un evento dado. el proceso de conteo puede simplificarse
mediante el empleo de dos técnicas de conteos denominadas permutaciones y combinaciones.
3.2.4. Permutaciones
Una permutación es un arreglo en un orden particular, de los objetos que forman el conjunto. Por ejemplo, considere
las diferentes formas en que pueden situarse las letras a, b y c. Para la primera posición puede elegirse a cualquiera
de las tres letras; para la segunda se puede escoger a cualquiera de las dos restantes y para la tercera debe seleccionar
la letra que no utilizó. Ası́ que existen 3 × 2 × 1 = 6 maneras en las que pueden arreglarse tres letras. Importa el
Orden AB 6= BA
donde 0! = 1
Ejemplo 27. Cuantas palabras diferentes se pueden formas con las letras n, l, o, e; ası́ no tenga sentido
4! = 4(3)(2) = 24
nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon, elno, enlo, enol, eoln, eonl, olne, olen, oeln,
oenl, onle, onel.
Definicion 3.7. El número de permutaciones de n objetos distintos tomando r a la vez es, Sin repetición e importa
el orden
n!
Prn =
(n − r)!
Ejemplo 28. Cuantos números de tres cifras se pueden construir con los dı́gitos 1,2,3,4,5,6,7,8,9,0 si ninguno se
puede repetir
10! 10 × 9 × 8 × 7!
P310 = = = 720
(10 − 3)! 7!
números diferentes
21
Bioestadı́stica Jorge Mario Martı́nez
Ejemplo 29. De cuantas formas puede una organización local de la sociedad Americana de Quı́mica programar a tres
conferencista para tres reuniones diferentes si todos están disponibles en cualquiera de cinco fechas posibles ?
5! 5 × 4 × 3 × 2!
P35 = = = 60
(5 − 3)! 2!
números diferentes
Definicion 3.8. El número de permutaciones distintas de n cosas de las de las que n1 son de una una clase, n2 de
una segunda clase, . . . , nk de una k− ésima clase es con repetición y se calcula con:
n!
Pnn1 ,n2 ,...,nk =
(n1 ! × n2 !×, . . . , nk !)
donde n = n1 + n2 + . . . + nr
Ejemplo 30. ¿Cuantas palabras diferentes, aun sin significado, se pueden formar con las letras de la palabra amorosos?
8 8! (8)(7)(6)(5)(4)(3!)
P1,1,3,1,2 = = = 3360
(1)(1)(3!)(1)(2!) (3!)(2!)
palabras diferentes
Ejemplo 31. ¿De cuantas formas diferentes se pueden arreglar 3 focos rojos, 4 amarillos y 2 azules en una serie de
luces navideña con 9 portalámparas ?
9 9!
P3,4,2 = = 1260
(3!)(4!)(2!)
palabras diferentes
3.2.5. Combinaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos (r ≤ n), cuya diferenciación mutua
se deba a los elementos sin importar el orden de colocación de ellos, se le denomina combinación. El número total de
combinaciones se representa por:(no importa el orden, es decir ab es igual a ba, no importa la forma es que se van a
seleccionar ):
En las combinaciones no influye el orden de colocación, dos combinaciones son la misma si contienen los mismos
elementos colocados en distinto orden.
Definicion 3.9. El número de Combinaciones de n objetos distintos tomando r a la vez sin repetición es,
n!
Crn =
(n − r)!r!
Ejemplo 32. ¿De cuantas maneras se puede escoger un comité de 4 hombres de un grupo de 8?
8! 8(7)(6)(5)(4!) 1680
C48 = = = = 70
(8 − 4)!4! (4!)(4!) 24
Ejemplo 33. ¿De cuatro quı́micos y tres fı́sicos encuentre el número de comites que se pueden formar que consistan
en dos quı́micos y un fı́sico ?
22
Bioestadı́stica Jorge Mario Martı́nez
n1 n2 = (6)(3) = 18
comites con dos quı́micos y un fı́sico.
Ejercicios Propuestos
1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de modo que no estén en el
mismo dedo?
2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?
3. Con los números 1,2,3,4,5 y 6:
a) ¿Cuántos números distintos de siete cifras
podrı́amos formar?
b) ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos números?
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el número de casos posibles?
5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos y por dos números tres?
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar. Engarzando las 25 bolitas en un
hilo, ¿cuántos collares distintos podrá realizar?
7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la palabra educación? ¿y con
la palabra vacaciones?
8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una fiesta, acuerdan que dos de ellos
se encargarán de comprar la comida y las bebidas ¿De cuántas formas posibles puede estar compuesta la pareja
encargada de dicha misión?
9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata, fresa y cola) y quiere hacer
helados de dos sabores ¿Cuántos tipos de helado podrán fabricar?
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se han dado en total 21 besos,
¿cuántas personas habı́a?
11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras pueden adjudicarse las medallas
de oro, plata, bronce?
12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente, secretario y tesorero de un club
deportivo sabiendo que hay 14 candidatos?
Para encontrar la probabilidad de un evento E, sumamos todas las probabilidades que se asignan a los puntos mues-
trales en E. Esta suma se denomina probabilidad de E y se denota con P (E)
Definicion 3.10. Sea S cualquier espacio muestral y E cualquier evento de este. se llamara función de probabilidad
sobre el espacio muestral S a P (E) si satisface los siguientes axiomas.
P (E) ≥ 0
P (S) = 1
Si, para todos los eventos E1 , E2 ,E3 . . . , E1 ∩ E2 = φ para toda i 6= j entonces P (E1 ∪ E2 ∪ · · · ), = P (E1 ) +
P (E2 ) + · · ·
P (φ) = 0
23
Bioestadı́stica Jorge Mario Martı́nez
0 ≤ P (E) ≤ 1
0
P (E) = 1 − P (E)
Ejemplo 34. Se lanza dos veces una moneda ¿ Cual es la probabilidad de que ocurra al menos una cara ?
El espacio muestral
S3 = (CC, CS, SC, SS)
, entonces tenemos que el evento sea A la probabilidad de obtener al menos una cara A = (CC, CS, SC, SS), por lo
tanto
1 1 1 3
P (A) = ( + + ) =
4 4 4 4
Ejemplo 35. Se carga un dado de forma que sea dos veces más probable que salga un numero par que uno impar, si
E es el evento de que ocurra un número menor que 4 en un solo lanzamiento del dado, encuentre P (E)
El espacio muestral S3 = (1, 2, 3, 4, 5, 6), ahora asignamos una probabilidad de w a cada número impar y una proba-
bilidad de 2w para cada numero par, como la suma de las probabilidades debe ser igual a 1, tenemos que 9w = 1, o
w = 19 , por ello se asignan probabilidades de 19 y 29 a cada número par e impar , respectivamente
E = {1, 2, 3}
por lo tanto
1 2 1
P (E) = + +
9 9 9
Definicion 3.11. Si un evento puede ocurrir de N maneras, equiprobables y mutuamente excluyentes, de las cuales
n maneras son favorables al evento E; se define probabilidad del evento E como:
n
p(E) =
N
Ejemplo 36. Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del número 2 en 16 veces, cual
es la probabilidad de que salga 2?
16
P (A) =
100
Ejemplo 37. Si la probabilidad de que Paula apruebe matemáticas es 2/3, y la probabilidad de que apruebe inglés es
4/9, si la probabilidad de aprobar ambos cursos es 1/4, ¿ cual es la probabilidad de que paula apruebe al menos uno
de estos cursos ?
Sea M es evento de aprobar matemáticas, E el evento de aprobar inglés, entonces tenemos que
2 4 1 31
P (M ∪ E) = + − =
3 9 4 36
24
Bioestadı́stica Jorge Mario Martı́nez
Ejemplo 38. ¿Cual es la probabilidad de obtener un total de siete u once cuando se lanza un par de dados?
1 1 2
P (M ∪ E) = + =
6 18 9
P (E1 ∪ E2 ∪ E3 , ∪ . . . , ∪En ) =
P (E1 ) + P (E2 ) + · · · + P (En ) = P (S) = 1
0
Teorema 8. Si A y A son dos eventos complementarios, entonces
0
P (A) + P (A ) = 1
La probabilida marginal de un evento Ai , es igual a la suma de las probabilidades conjuntas de Ai y Bi , donde la suma
se efectúa sobre todos los eventos de Bj , para determinarla se ignoran una o más caracteristicas del espacio muestral,
de lo antrior se sigue
n
X nij
P (Ai ) =
j=1
n
Supongamos la siguiente tabla, Sea el espacio muestral la población de adultos de la ciudad, que se dividen en
los siguientes eventos disjuntos: Fumador (A1 ) y no fumador (A2 ), Hombre (B1 ) y mujer (B2 ), los eventos pueden
representarse como se muestra a continuación.
n12 + n22
P (A2 ) =
n
25
Bioestadı́stica Jorge Mario Martı́nez
Luego si deseamos la calcular la probabilidad conjunta de los eventos A1 y B2 la cual esta dada por
nij
P (Ai ∩ Bj ) =
n
se procede a reemplazar los puntos correspondientes a la probbailidad solicitad
n21
P (A1 ∩ B2 ) =
n
Finalmente, supóngase que el interes recae en determinar la probabilidad de un evento Ai , dado que se ha ocurrido el
evento Bj , por ejemplo regresemos a la tabla, supóngase que se ha elegido aleatoriamente una mujer adulta (B2 ) ahora
bien, ¿Cual es la probabilidad de que fume? Una vez más, el argumento descasa sobre la interpretación de frecuencia
relativa. Sin embrago, una vez que el evento ”Mujer”ha ocurrido, éste reemplaza a S como el espacio muestral de
interes. Por lo tanto, la probabilidad de tener un fumador (A1 ) es el número de mujeres que fuman (n1 2) entre el
número total de estas (n1 2 + n2 2), por lo tanto
n12 + n22
P (A1 /B2 ) =
n
Esta recibe el nombre de probabilidad condicional de A1 , dada la ocurrencia de B2
Sean A y B dos eventos cualesqueira que se encuentran en un espacio muestral S de manera que P (B) ≥ 0. La
probabilidad condicional de A al ocurrir el evento B, es el cociente de la probabilidad conjunta de A y B con respecto
a la probabilidad marginal de B; dada esta manera se tiene
P (A ∩ B)
P (A/B) =
P (B)
La relacion puede escribirse como un producto, lo que da como resultado la regla de multiplicación de probabi-
lidades, dada por:
P (A ∩ B) = P (B)P (A/B)
De manera general si existen n alternativas disjuntas B1 ,B2 , · · · ,Bn , la Probabilidad total de un resultado final,
por ejemplo A, esta dado por:
n
X
P (A) = P (Bi )P (A/Bi )
i=1
4. Analisis Regresión
4.1. Covarianza
La covarianza mide la fuerza de la relación lineal entre dos variables, Es el dato básico para determinar si existe una
dependencia entre ambas variables
La covarianza Sxy es una manera de generalizar la varianza y se define como:
26
Bioestadı́stica Jorge Mario Martı́nez
n n
1X X
Sxy = (xi − x)(yi − y) = xi yi − nx̄ȳ
n i=1 i=1
Interpretación de la covarianza
Si Sxy > 0 Hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de
y.
Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables
estudiadas.
Si Sxy < 0 Hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores
de y.
Si X e Y son independientes, entonces su covarianza es cero, Lo opuesto, sin embargo, generalmente no es cierto:
algunos pares de variables aleatorias tienen covarianza cero pese a que no son independientes
Es una medida estadı́stica ampliamente utilizada que mide el grado de relación lineal entre dos variables aleatorias.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre
ambas variables: mientras más alto sea el alumno, mayor será su peso.
El coeficiente de Correlación rxy se define como:
P
Sxy xi yi − nx̄ȳ
rxy = =qP
Sx Sy ( x2i − nx2 )( yi2 − ny 2 )
P
Solucion
X Y X2 Y2 XY
18 13 324 169 234
17 15 289 225 255
15 14 225 196 210
16 13 256 169 208
14 9 196 81 126
12 10 144 100 120
9 8 81 64 72
15 13 225 169 195
16 12 256 144 192
14 13 196 169 182
16 10 256 100 160
18 8 324 64 144
P P P 2 P 2 P
x = 180 y = 138 x = 2772 y = 1650 xy = 2098
x̄ = 15 ȳ = 11, 5
Existe una posible dependencia positiva entre las variables sobre temperaturas en dos dias diferentes
27
Bioestadı́stica Jorge Mario Martı́nez
28 28
rxy = p = p = 0, 416 (1)
(2772 − (12)(15)2 )(1650 − (12)(11, 5)2 ) (72)(63)
El coeficiente de determinación es una medida estadı́stica que indica cuál es la proporción de la variación total en la
variable dependiente (Y ), que es explicada por el modelo de regresión estimado, es decir, mide la capacidad explicativa
del modelo estimado.
R2 = 0, 17 %
Es el estudio de la relación entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de
predicción y una variable Y , llamada dependiente o variable respuesta, y Consiste en encontrar la función lineal que
sirva para modelar la relación entre ellas. presenta la siguiente notación:
Y = α + βo X + e
P P P
n Xi Yi − ( xi )( yi )
βo =
n Xi2 − ( x)2
P P
α = Y − βo X
α = 15 − (5,67)(11,5) = −50,205
Y = −50,205 + 5,67X
El valor de b = 5,67 indica el incremento de la variable (Y ), en promedio, por cada centı́metro de aumento en la
variable (X).
28
Bioestadı́stica Jorge Mario Martı́nez
5. Inferencia Estadı́stica
Si x̄ es la media de una muestra aleatoria de tamaño n de una población con varianza σ 2 , Conocida, un intervalo
de confianza de (1 − α)100 % para µ esta dado por:
σ σ
x̄ − Z1− α2 √ < µ < x̄ + Z1− α2 √ (2)
n n
para muestras n ≥ 30 sin importar la forma de la mayorı́a de las poblaciones, la teorı́a de muestro garantiza buenos
resultados
Ejemplo 1 Se encuentra que la concentración promedio de Zinc que se saca del agua a partir de una muestra de
mediciones de zinc en 36 sitios diferentes es 2,6 gr\ml, Encuentre un intervalo de confianza de 95 % y 99 % para la
concentración media de Zinc en le rio. Suponga que la desviación estándar de la población es de 0,3
Solución
29