DISTRIBUCION DE PROBABILIDADES
VARIABLE. Se denomina variable a la entidad que puede tomar un valor cualesquiera durante
la duración de un proceso dado. Si la variable toma un solo valor durante el proceso se llama
constante.
VARIABLE ALEATORIA: Es una función que asocia un número real a cada elemento del
espacio muestral. Es decir son aquellas que pueden diferir de una respuesta a otra.
Variable aleatoria discreta. Una variable discreta proporciona datos que son llamados datos
cuantitativos discretos y son respuestas numéricas que resultan de un proceso de conteo.
DISTRIBUCIONES
Las probabilidades que se asocian a cada uno de los valores que toma la variable aleatoria x
constituyen lo que se conoce como DISTRIBUCIÓN DE PROBABILIDAD. La diferencia
consiste en que la función matemática se transforma en una función probabilística.
x1 x2 xn x
Distribuciones
P(x)
Continua
s
x1 xn x
Distribuciones discretas. Son aquellas donde las variables asumen un número limitado de
valores, por ejemplo el número de años de estudio.
Binomial
Discretas Hipergeométric
a
Multinomial
Poisson
Distribuciones continuas. Son aquellas donde las variables en estudio pueden asumir
cualquier valor dentro de determinados límites; por ejemplo, la estatura de un estudiante.
Uniforme
Continuas Exponencial
Normal
Las distribuciones de probabilidad pueden ser representadas mediante una modelo matemático,
una gráfica o una tabla de valores
S E0 E1 ... En
X x0 X1 ... xn
P(X) p(x0) p(x1) ... p(xn)
Dados los eventos E1, E2, ..., En S, se dice que x es una variable aleatoria, si a cada valor de xi
que asume cada Ei, se le asocia su probabilidad de ocurrencia y cumple con las siguientes
condiciones:
a) La probabilidad para todo valor que asuma la variable aleatoria xi, será mayor o igual a
cero pero menor que uno.
0 P(xi) 1 xi
b) La suma de todas las probabilidades asociadas a todos los valores que toma la variable x,
es igual a la unidad.
P ( x i )dx 1
c) La probabilidad de seleccionar una variable aleatoria para a < x < b esta dada por:
b
P (a X b) f ( x )dx
a
a b x
Las distribuciones de probabilidad de una variable aleatoria están caracterizadas por magnitudes
llamadas momentos de la distribución, las mas usuales son:
La media aritmética o esperanza matemática
E(X) x p( x ) dx
La desviación estándar
2
var( X ) (x ) 2 p( x ) dx
DISTRIBUCIÓN NORMAL
2
La función de densidad de la variable aleatoria normal X, con media y varianza , es:
2
1 x
1 2
n ( x; , ) e
2
x
DISTRIBUCIÓN t
2
DISTRIBUCIÓN
v
Es un caso especial de la gamma, se obtiene haciendo y 2
2
La variable continua aleatoria X tiene una distribución 2 , con v grados de libertad, si su
función de densidad es:
v x
1 1
v
x2 e
, x 0 2
f (x) 2
v
2
2
0 en cualquier otro caso
v 0, entero
DISTRIBUCIÓN F
P(x
)
1.- Se sabe que las mediciones que se obtienen en muchos procesos aleatorios tienen esta
clase de distribución.
2.- Con frecuencia puede utilizarse en probabilidades normales para aproximar otras
distribuciones de probabilidad tales como la distribución Binomial y Poisson.
3.- Las distribuciones estadísticas como la media muestral y la proporción muestral tienen
distribución normal cuando el tamaño de la muestra es grande, sin importar la forma de la
distribución de la población de origen.
1.- Es unimodal ya que sólo tiene un valor máximo en el que coincide la media, la mediana y
la moda.
2.- Presenta una forma de campana y es simétrica.
3.- La media de una población distribuida normalmente se encuentra en el centro de su curva
normal.
4.- Los dos extremos de una distribución normal de probabilidad se extienden de manera
indefinida y nunca tocan el eje horizontal.
5.- Está determinada por medio de dos parámetros: la media y la desviación estándar.
6.- El área total bajo la curva se considera igual a la unidad y se usa como masa
probabilística.
7.- El área comprendida bajo la curva entre dos valores x1 y x2 es igual a la probabilidad de
que dicha variable suma cualquier valor dentro de ellos.
SOLUCIÓN:
a) P(500 < x < 650)
x- 650 500
z = 1.50
100
de las tablas estandarizadas obtenemos
A = 0.4332 = 43.32%
500 500
z= 0.00
100
de la gráfica observamos que:
A = 0.5000 = 50%
610 500
z1 = 1.10
100
de las tablas estandarizadas obtenemos
A1 = 0.3665
A = 0.5 + A1 = 0.5 + 0.3665 = 0.8665 = 86.65%
Antes de pasar describir algunos de los métodos de muestreo más habituales introduzcamos
algunos conceptos importantes en este contexto:
Población: Es todo conjunto de elementos, finito o infinito, definido por una o más
características, de las que gozan todos los elementos que lo componen, y sólo ellos.
En muestreo se entiende por población a la totalidad del universo que interesa considerar , y
que es necesario que esté bien definido para que se sepa en todo momento que elementos lo
componen.
Censo: En ocasiones resulta posible estudiar cada uno de los elementos que componen la
población, realizándose lo que se denomina un censo, es decir, el estudio de todos los
elementos que componen la población.
Muestra: En todas las ocasiones en que no es posible o conveniente realizar un censo, lo que
hacemos es trabajar con una muestra, entendiendo por tal una parte representativa de la
población. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las
similitudes y diferencias encontradas en la población, ejemplificar las características de la
misma. Cuando decimos que una muestra es representativa indicamos que reúne
aproximadamente las características de la población que son importantes para la investigación.
Ejemplo:
a.- ¿A quién deseo generalizar los resultados? : Todos los estudiantes del nivel de primaria.
(Población teórica).
b.- ¿A quién puedo acceder en el estudio? : Todos los niños estudiando en zonas urbanas
(población estudiada).
c.- ¿Cómo puedo acceder a ellos? : Numerando los sujetos accesibles (espacio o marco
muestral).
d.- ¿Quién forma parte del estudio? : Eligiendo un grupo de los sujetos enumerados (muestra).
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
población entre el tamaño de la muestra: k=N/n. El número i que empleamos como punto de
partida será un número al azar entre 1 y k.
El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos
seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones
y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los
dos sexos.
3.2.1.3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los
anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño
dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que
poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo,
según la profesión, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende
con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán
representados adecuadamente en la muestra. Cada estrato funciona independientemente,
pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir
los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la población.
(tamaño geográfico, sexos, edades,...).
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que
se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele
conocer la desviación.
Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en este
caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en
el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de los
estratos respecto de la población para poder reflejarlo en la muestra.
Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa
proporción por el tamaño muestral.
3.2.1.4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están
pensados para seleccionar directamente los elementos de la población, es decir, que las
unidades muestrales son los elementos de la población. En el muestreo por conglomerados la
unidad muestral es un grupo de elementos de la población que forman una unidad, a la que
llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una
caja de determinado producto, etc, son conglomerados naturales. En otras ocasiones se pueden
utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son área geográficas suele hablarse de "muestreo por áreas".
Para finalizar con esta exposición de los métodos de muestreo probabilísticos es necesario
comentar que ante lo compleja que puede llegar a ser la situación real de muestreo con la que
nos enfrentemos es muy común emplear lo que se denomina muestreo polietápico. Este tipo
de muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el
método de muestreo probabilístico más adecuado.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que
reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo
femenino y residentes en Mateares . Una vez determinada la cuota se eligen los primeros que
se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas
de opinión.
Por ejemplo, El MINSA, desea estudiar la incidencia de las drogas en la adolescencia en las
escuelas. Lo que deberíamos hacer sería: conocer por los informes del Ministerio de
Educacion, Policia Nacional y ONG que trabajan en este problema, fijar un número de sujetos
a entrevistar proporcional a cada uno de los estratos (cuotas) y finalmente dejar en manos de
los responsables del trabajo de campo a que sujetos concretos se deberá entrevistar.
3.2.2.4.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos
a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente
cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados
tipos de enfermos, etc.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el
muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el
nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error máximo que
estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:
1.- Obtener el tamaño muestral imaginando que :
donde:
: varianza poblacional
e: error máximo
si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos
muestrear.
Ejemplo :
El Ministerio del Trabajo, planea un estudio con el interés de conocer el promedio de horas
semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una
población de 10000 mujeres que figuran en los registros del Seguro Social y de las cuales se
conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de
confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el
tamaño muestral que empleemos?.
Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de
1.-
3.-
donde
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar
la proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se
dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
DISTRIBUCIONES MUESTRALES.
La distribución de todos los valores posibles que pueden ser tomados por alguna estadística,
calculados a partir de muestras del mismo tamaño extraídas aleatoriamente de la misma
población, se llama distribución muestral de esa estadística.
1.- De una población finita, discreta de tamaño N, se extraen aleatoriamente todas las muestras
posibles de tamaño n.
2.- Se calcula la estadística de interés para cada muestra.
3.- Se enumeran en una columna los diferentes valores observados de la estadística y, en otra
columna, la frecuencia correspondiente de la ocurrencia de cada uno de esos valores.
EJEMPLO:
Suponga se que de una población de tamaño N = 5 edades de niños, dadas como {6, 8, 10, 12,
14}, la media poblacional μ = 10 y la varianza poblacional σ2 = 8 y la varianza muestral es s2 =
10. Si extraemos todas las muestras posibles de tamaño n = 2, si consideramos un muestreo con
remplazo y calculamos la media tendremos Nn muestras posibles es decir 52 = 25 posibles
muestras de tamaño 2.
TEOREMA:Si X1, X2,..., Xn constituyen una muestra aleatoria de una población finita que tiene
la media μ y la varianza σ2, entonces:
E(x) = μ = μx
x
n
Población infinita
N-n
x =
n N -1
Población finita
n
A la fracción se le llama fracción de muestreo. Cuando la fracción de muestreo es menor que
N
0.05, no es necesario usar el multiplicador de población finita.
Si X1, X2,..., Xn constituye un muestra aleatoria de población infinita que tiene la media μ, la
desviación estándar σ, entonces la distribución limitante es de:
x
z=
DISTRIBUCIÓN t
x
t=
s
n
DIFERENCIA DE MEDIAS
Se tiene que
(X1 X2 ) ( 1 2 )
Z
2 2
1 2
n1 n2
DISTRIBUCIÓN DE PROPORCIONES
~
p p
z
p(1 p)
n
(~
p1 ~
p 2 ) (p 1 p 2 )
z
p 1 (1 p 1 ) p 2 (1 p 2 )
n1 n2
DISTRIBUCIÓN MUESTRAL DE
Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que
tiene varianza 2, entonces los valores de la variable aleatoria X2 se calculan con:
2 (n 1)s 2
2
1
DISTRIBUCIÓN MUESTRAL DE
2
Si S1 y S2 son las varianzas de variables aleatorias independientes de tamaños n1 y n2 , que se
sacan de poblaciones normales con varianzas 1 y 2, respectivamente, entonces,
S12
2 2
1 2 S12
F 2 2
S 2 1 S 22
2
2
tiene una distribución F con v1 = n1 – 1 y v2 = n2 – 1 grados de libertad
1
f 1 (v1 , v 2 )
f (v 2 , v1 )
4.1.- INTRODUCCION.
Toda medida de tendencia central o de dispersión obtenida de una población, se conoce como
parámetro de la población; aquellas que son obtenidas de una muestra se denominan
estimadores, ya que con ellas se realizará la estimación de esos parámetros.
Muestreo. Es la operación para tomar una muestra del universo. El objetivo es contar con
datos necesarios para estimar parámetros en la población, hacer inferencia estadística con la
mayor confiabilidad posible.
Parámetros Estimadores
Media poblacional: Media muestral
N n
Xi xi
x
i 1 N i 1 n
Varianza poblacional: Varianza muestral
N n
(X i )2 (x i x) 2
2 i 1
s2 i 1
N n 1
Desviación estándar poblacional: Desviación estándar
N n
(X i )2 (x i x) 2
i 1
s2 i 1
N n 1
Donde X es el valor de cada Donde x es el valor de cada
medición desde i = 1 hasta N medición desde i = 1 hasta n
N es el número de elemento que n es el número de elemento que
constituyen la población bajo constituyen la muestra estudiada
estudio
Proporción poblacional de Proporción poblacional de
elementos con atributo: elementos con atributo:
Xi xi
Px px
N n
N es el número de elementos de n es el número de elementos de
la población la muestra
ESTIMACIÓN
Es el procedimiento que consiste en emplear los estadísticos obtenidos de una muestra para
inferir o estimar los parámetros de una población.
Es el rango dentro del cual se espera que se encuentre el valor del parámetro en cuestión, la
ventaja de la estimación por intervalos es que muestra la exactitud con que estima el
parámetro a menor longitud del intervalo mayor exactitud en la estimación. la probabilidad
de que un intervalo contenga el parámetro que se estima se denomina coeficiente de
confianza. Un valor cercano a la unidad indica un intervalo más reducido.
l- Nivel de confianza
x z /2 x
x z /2 x
x z /2 x
x t /2 sx x t /2 sx
x t /2 sx
Intervalo de confianza para diferencia de medias 1 y 2 conocidas
2 2
1 2
(x 1 x2) z /2
n1 n2
1 1
(x 1 x2) t /2 p s
n1 n2
(n 1 1)s 12 (n 2 1)s 22
sp
n1 + n 2 2
= n1 + n2 –2
s 12 s 22
(x 1 x2) t /2
n1 n2
2
s 12 s 22
n1 n2
= 2 2
s 12 s 22
n1 n2
n1 1 n2 1
2
Intervalo de confianza para
(n 1)s 2 2 (n 1)s 2
2 2
/2 1 /2
= n - 1 grados de libertad
2
1
Intervalo de confianza para 2
2
s 12 1 2
s 12
1
f /2( 1 ,v2 )
con 1 = n1 – 1, 2 = n2 - 1
s 22 f /2( 1, 2 )
2
2 s 22
Hipótesis estadística.
Es una proposición o suposición que se hace sobre los parámetros de una distribución
de probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo
que se puede aceptar o rechazar.
Ejemplos:
Ho = 1.68 H1 1.68
H1 < 1.68
H1 > 1.68
Errores tipo I y tipo II : en el proceso de emplear una muestra para formar una decisión
poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al rechazar una
hipótesis verdadera o al aceptar una hipótesis falsa; las equivocaciones se conocen como
errores Tipo I y II.
a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser verdadera debería ser
aceptada.
b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa debería ser
rechazada.
Buen estudiante Mal estudiante
Aprobarlo Decisión correcta Error tipo II
Repobarlo Error tipo I Decisión correcta
H0 verdadera H1 falsa
Se acepta Ho Decisión correcta (1 – ) Error tipo II ( )
Se rechaza Ho Error tipo I ( ) Decisión correcta (1 – )
2.- Se especifica la probabilidad del error tipo I ( ) como nivel de significancia y 1 – como
nivel de confianza.
4.- Se determinan los valores críticos que limita la región de aceptación de la región de
rechazo (que dependerá del valor de y de la hipótesis alternativa).
5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos H o,
debido a que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta
o verdadera, es tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a
deducir que Ho es falsa.
6.- Dar conclusión acerca del problema y/o formar una decisión.
Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de
un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan
unilaterales o de una cola; en el segundo caso se conoce como bilaterales o de dos colas.
BILATERAL
Zona de aceptación
/2 /2
UNILATERAL >
UNILATERAL <
H0 Estadístico de prueba
Distribución normal x
= 0 z=
n
Distribución t x
= 0 t= ;v = n – 1
s
n
Distribución normal (x 1 x2 ) d0
1 – 2 = d0 z
2 2
1 2
1 y 2 conocidas
n1 n2
Distribución t (x 1 x 2 ) d 0 (n 1 1)s 12 (n 2 1)s 22
1 – 2 = d0 t ; s 2p
1 1 n1 n 2 2
1 = 2 desconocidas sp
n1 n2
Distribución t s 12 s 22
2
1 – 2 = d0
(x 1 x2 ) d0 n1 n2
1 2 desconocidas t ;v 2 2
s 12 s 22 s 12 s 22
n1 n2 n1 n2
n1 1 n2 1
Distribución normal x np 0
p = p0 z
np 0 (1 p 0 )
Distribución normal (p̂ 1 p̂ 2 ) x1 x 2
p1= p2 z ; p̂
1 1 n1 n 2
p̂q̂
n1 n2
2
Distribución 2 (n 1)s 2
= 0 2
Distribución F s 12
f
1= 2 s 22
SEGUNDA PARTE
Y X1 X2 X3
Desv. Típica 32.23 22.19 9.26 13329.54
D:TMuestra 32.99 22.71 9.48 13643.22
Y = m*XI + b