ANLISIS DE
DATOS DE ENTRADA
Simulacin Industrial
Agenda
Conceptos estadsticos fundamentales (repaso)
Distribuciones de Probabilidad
Distribucin Normal
Pruebas de Hiptesis e Inferencia estadstica
La gran conclusin
Distribuciones de Probabilidad
Un repaso
Histograma
Representacin grfica de
una variable en forma de
barras, donde la superficie
de cada barra es
proporcional a la frecuencia
de los valores
representados, ya sea en
forma diferencial o
acumulada. Sirven para
obtener una "primera vista"
general, o panorama, de la
distribucin de la poblacin,
o la muestra, respecto a una
caracterstica, cuantitativa y
continua, de la misma y que
es de inters para el
observador
Helien Parra Riveros
Numero de Clases
1. Orden arbitrario
2. Frmula de Sturges: c= 1+3,3 log (n)
3. Geomtrico = log()
4. Webster: 2
Donde n es el numero de datos.
Frecuencia
1
0
1
4
6
16
23
28
35
39
39
22
17
13
5
7
4
% acumulado
0,38%
0,38%
0,77%
2,31%
4,62%
10,77%
19,62%
30,38%
43,85%
58,85%
73,85%
82,31%
88,85%
93,85%
95,77%
98,46%
100,00%
Histograma
45
120,00%
39 39
40
35
100,00%
35
28
30
23
25
20
16
22
60,00%
17
13
15
10
5
80,00%
4
1
40,00%
5
7
4
20,00%
0,00%
Fuente: Webster
Medidas de Dispersin
Definicion
Las medidas de dispersin, tambin llamadas
medidas de variabilidad, muestran la variabilidad de
una distribucin, indicando por medio de un
nmero, si las diferentes puntuaciones de una
variable estn muy alejadas de la media. Cunto
mayor sea ese valor, mayor ser la variabilidad,
cuanto menor sea, ms homognea ser a la media.
Medidas de dispersin
Rango Estadstico y Rango Medio
Varianza
Desviacin Tpica
Coeficiente de Variacin
Rangos
Rango Estadstico = ( Max Min )i
Rango Medio =
( )
(
)
2
Varianza
La varianza es una medida de dispersin entre cada
dato contra la media estadstica
Es una medida de distancia tpica y se expresa en
trminos cuadrticos pues se basa en la distancia
promedio positivas y negativas entre cada dato y la
media
Desviacin estndar
La medida de la varianza al ser
cuadrtica expresa una unidad
de medida distinta a la del
fenmeno medido y observado
por lo que debe corregirse
Al aplicar el radical de orden 2 se
obtiene la unidad de medida
original pero la varianza como tal
no es un valor exacto por ello se
denomina desviacin tpica o
estndar
Es la variacin promedio ente los
datos y la media
Helien Parra Riveros
Coeficiente de Variacin
Es una expresin porcentual de cuanto vara la
media en relacin con su desviacin estndar y
sirve para comparar en un solo sistema dos
desviaciones de dos poblaciones distintas
=
X100
Medidas de Asimetra
Asimetra
Grado de desplazamiento de la mayora de datos
en relacin con la media
Apuntamiento
4
= 4
Donde
4 =
=1(
)4
Ap>3
Ap<3
Ap=3
Podemos verlo..
45
120,00%
39
40
39
100,00%
35
35
28
30
23
25
20
80,00%
22
16
13
15
10
5
60,00%
17
4
1
40,00%
5
7
4
20,00%
0,00%
Definicin
La distribucin de probabilidad de una variable
aleatoria es una funcin que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad
de que dicho suceso ocurra.
La distribucin de probabilidad est completamente
especificada por la funcin de distribucin, cuyo
valor en cada real x es la probabilidad de que la
variable aleatoria sea menor o igual que x.
Podemos decir que la probabilidad es un rea bajo
la curva.
Helien Parra Riveros
Ejemplos
45
120,00%
39 39
40
35
100,00%
TFrecuencia
35
28
30
23
25
20
22
60,00%
17
16
13
15
10
5
80,00%
4
1
40,00%
5
7
4
20,00%
0,00%
Toneladas
Evento Continuo
Un evento continuo es
aquel que se da de forma
permanente toma cualquier
valor en un intervalo.
No es biunvoco ni
excluyente
Se denomina distribucin de
variable discreta a aquella cuya
funcin de probabilidad slo
toma valores positivos en un
conjunto de valores de finito o
infinito numerable.
Ejemplos de stas distribuciones
son:
Uniforme
Binomial
Bernoulli
Poisson
Hipergeomtrica
Normal
t Student (Grossman)
Exponencial
Gamma
Uniforme
F
Weibull
.
Ensayo de Bernoulli
Un ensayo de Bernoulli es un
experimento aleatorio en el que slo
se pueden obtener dos resultados
(habitualmente etiquetados como
xito y fracaso).
Estos ensayos estn modelados por
una variable aleatoria que puede
tomar slo dos valores, 0 y 1.
Un ensayo de Bernoulli se caracteriza
por ser dicotmico, esto es, slo son
posibles dos resultados. A uno de
estos se denomina xito y tiene una
probabilidad de ocurrencia p y por
otro lado B, denomnado fracaso, con
una probabilidad q = 1 - p.
Los procesos de Bernoulli son los que
resultan de la repeticin en el tiempo
de ensayos de Bernoulli
independientes pero idnticos.
Jakob Bernoulli.
Helien Parra Riveros
Ensayo de Bernoulli
Despus de la
distribucin uniforme, la
distribucin de Bernoulli
de parmetro p es el
modelo ms simple de
probabilidad.
Se aplica a situaciones
en las que un cierto
atributo aparece con
probabilidad p (xito) y la
ausencia de este mismo
atributo con probabilidad
q=1-p (fracaso), es decir
slo admite dos
resultados posibles
Helien Parra Riveros
2. Distribucin de Bernoulli
2. Distribucin de Bernoulli
Ejemplo
Experimento : Lanzar un dado y que salga 5
X = # de veces que sale un 5.
S=(1,2,3,4,5,6)
Se considera xito sacar un 5 entonces la probabilidad es de P=1/6
Se considera fracaso a no sacar un 5 entonces q= 1-P = 1-(1/6) = 5/6
La probabilidad de que salga un 5 viene definida en que x =1 (xito)
Coeficiente binomial
Los coeficientes
binomiales, nmeros
combinatorios o
combinaciones son
nmeros estudiados en
combinatoria que
corresponden al
nmero de formas en
que se pueden extraer
subconjuntos a partir
de un conjunto dado.
Coeficiente binomial
El coeficiente binomial
Es el nmero de subconjuntos de k elementos
escogidos de un conjunto con n elementos.
El coeficiente binomial est dado por la frmula:
3. Distribucin Binomial
Es una distribucin de
probabilidad discreta
que mide el nmero de
xitos en una secuencia
de n ensayos de
Bernoulli
independientes entre s,
con una probabilidad
fija p de ocurrencia del
xito entre los ensayos.
Helien Parra Riveros
Cuando n es pequeo
Cuando n tiende a
Funcin de distribucin:
n es el nmero de pruebas.
k es el nmero de xitos.
p es la probabilidad de xito.
q es la probabilidad de fracaso.
n k nk
F ( x) p q
k 0 k
x
n!
P( X x )
Pk Qnk
k! (n k )!
PQ 1
Ejemplo
Cul es la probabilidad de obtener 6 caras al
lanzar una moneda 10 veces?
p= (1/2)= 0.5. q= (1-p) = (1-0.5)= 0.5
k es el nmero de aciertos (k=6)
n : Numero de pruebas (10)
10!
P( X 6)
0.5 6 0.5106 0.205
6! (10 6)!
xls=(FACT(10)/(FACT(6)*FACT(4)))*((0,5^6)*(0,5^4))
Helien Parra Riveros
Proceso de Poisson
Proceso estocstico de
tiempo continuo que
consiste en "contar" eventos
raros que ocurren a lo largo
del tiempo.
El tiempo entre cada par de
eventos consecutivos tiene
una distribucin exponencial
con el parmetro , y cada
uno de estos tiempos entre
llegadas se supone que es
independiente de otros
tiempos entre llegadas.
Caractersticas
Estacionario
Simple
Independiente
Se puede representar por
- Longitud
- Intervalo
Aplicaciones
Se pueden modelar
muchos fenmenos como
un proceso de Poisson. El
nmero de sucesos en un
intervalo de tiempo dado
es una variable aleatoria
de distribucin de Poisson
donde es la media de
nmeros de sucesos en
este intervalo. El tiempo
hasta que ocurre el
suceso nmero k en un
proceso de Poisson de
intensidad es una
variable aleatoria
Helien Parra Riveros
Ejemplos
Llegadas y arribos
Solicitudes
Cantidades que se
presentan en periodos
de tiempo
Procesos evolutivos
4. Distribucin de Poisson
En la teora de la probabilidad y en la estadstica, la
distribucin de Poisson es una distribucin de
probabilidad discreta. Ella expresa, por ejemplo, la
probabilidad de que un correcto nmero de eventos
ocurran en un periodo de tiempo, si estos ocurran
con una tasa media conocida y si cada evento es
independiente del tiempo transcurrido desde el
ltimo evento.
Distribucin de Poisson
Es una distribucin de
probabilidad discreta que expresa, a partir
de una frecuencia de ocurrencia media, la
probabilidad que ocurra un determinado
nmero de eventos durante cierto periodo
de tiempo o evento determinado
Donde:
P(X=K) es la probabilidad de ocurrencia cuando la variable discreta X
toma un valor finito k.
= es la ocurrencia promedio por unidad (tiempo, volumen, rea, etc.).
Puede darse directamente como una tasa estimarse al multiplicar la
probabilidad de xito (p) por el segmento dado (muestra) (n), es decir np.
La constante e tiene un valor aproximado de 2.711828
K es el nmero de xitos por unidad de tiempo o evento
Usos Prcticos
La distribucin de Poisson se utiliza en situaciones donde los
sucesos son impredecibles o de ocurrencia aleatoria. En otras
palabras no se sabe el total de posibles resultados.
Permite determinar la probabilidad de ocurrencia de un suceso
con resultado discreto.
Es muy til cuando la muestra o segmento n es grande y la
probabilidad de xitos p es pequea.
Se utiliza cuando la probabilidad del evento que nos interesa se
distribuye dentro de un segmento n dado como por ejemplo
distancia, rea, volumen o tiempo definido.
Es en muchos sentidos la versin de tiempo continuo del proceso
de Bernoulli.
Helien Parra Riveros
Ejemplo
El numero de clientes que
llega a la oficina los das
sbados es de 40 por hora.
Se requiere definir el
numero de vendedores a
contratar para el sbado
para lo que se emite una
directiva que establece que
si la probabilidad de tener al
menos 5 clientes cada 15
minutos es superior al 60%
se contratan dos (2)
vendedores. En caso
contrario se contratar un
solo vendedor
P(x)=6,71%
Dado que es muy baja, no se
contrata otro vendedor.
P( X x )
n!
Pk Qnk
k! (n k )!
PQ 1
Teorema de De Moivre-Laplace
Distribucin Normal
Distribucin Normal
Disttribucion tpica de
poblaciones y es
considerada normal
porque es la tendencia de
la mayora de fenmenos
2
2
2
N: Numero de datos
: desviacin estndar
( )
: media = np
Helien Parra Riveros
Propiedades Basicas
Es simtrica respecto de su media
La moda y la mediana son ambas iguales a la media
Los puntos de inflexin de la curva se dan para x =
y x = + .
Podemos dividir el rea bajo la curva en tres intervalos
en el intervalo [ - , + ] se encuentra comprendida,
aproximadamente, el 68,26% de la distribucin;
en el intervalo [ - 2, + 2] se encuentra,
aproximadamente, el 95,44% de la distribucin;
por su parte, en el intervalo [ -3, + 3] se encuentra
comprendida, aproximadamente, el 99,74% de la
distribucin.
Helien Parra Riveros
Distribucin Normal
: desviacin estndar (
Distribucin Normal
: desviacin estndar ( )
: media = np
Distribucin Normal
: desviacin estndar (
Distribucin Normal
: desviacin estndar
( )
: media = np
0,5
0,5
P(x)= 0,5+Z(fx)
P(x)= 0,5-Z(fx)
P(x)= 0,5-Z(fx)
P(x)= z1-z2
z2
z1
Distribucin Normal
1 = 1 = 0,3413
2 = 2 = 0,4773
3 = 1 = 0,4987
: desviacin estndar (
CASOS TIPO
CASOS TIPO
P(x) Xi ???
=
CASOS TIPO
P(x) Xi ???
=
Xi
CASOS TIPO
P(x) Xi ???
=
Xi
, ,
= , . = ,
CASOS TIPO
Xi
P(x) Xi ; Xj ???
=
Xj
,,
=
= , . = , ; =
= , . = , 80;
Pruebas de Hiptesis
Concepto de Normalidad
Contraste de hiptesis
Contrastacin
Es la base de la prueba de hiptesis.
Se basa en dos hiptesis en competencia son la
hiptesis alternativa Ha, generalmente la hiptesis
que el investigador desea apoyar y la hiptesis nula
H0, una contradiccin de la hiptesis alternativa.
Aceptacin y Rechazo
Ejemplo 1
Un estudio de mercados dice que el promedio diario de
clientes mujeres que visita un almacn es de 670. La
administracin del punto de venta afirma que el promedio de
hombres que visita el mismo punto, es mayor que el de las
mujeres. El departamento de mercadeo tom datos de
cuantos hombres acuden a dicho punto por 40 das de forma
aleatoria y se concluy que la media de los datos fue de una
media =725 con una desviacin = 102. Con un nivel del
confianza del 1% es vlido afirmar que asisten mas hombres
que mujeres a este punto de venta?
Esto es importante para cambiar la estrategia comercial
Como lo podemos probar?
Helien Parra Riveros
Ejemplo 1
Pasos 1 y 2: H0 : =670 contra Ha : 670
Paso 3: Estadstico de prueba: =
725670
102
= 3.41
40
= 670
Z= 0
=x
Z1= 2,33
= 725
Z2= 3,41
Ejemplo 2
Una fbrica de productos de aseo vende en promedio
diariamente 880 toneladas de su producto estrella. La
gerente comercial desea expandir el negocio para lo
cual los inversionistas le piden verificar si esta
informacin es verdica o no. Toma al azar 50 das de la
base de datos y calcula el promedio y desviacin
estndar de estos das encontrando una media =871
toneladas con una desviacin = 21 toneladas. El
inversionista desea estabilidad en la produccin ms
que cantidad por lo que plantea que quiere verificar si
este promedio ha cambiado con el tiempo con un nivel
de confianza del 5%
Helien Parra Riveros
Ejemplo 2
Pasos 1 y 2: H0 : =880 contra Ha : 880
Paso 3: Estadstico de prueba: =
871880
21
= -3.03
50
= 871
Z2= -3,03
=x
Z1= -1,96
= 880
Z= 0
=x
Z1= 1,96
Muestras pequeas
En el caso de muestras pequeas se aplica el mismo
procedimiento pero utilizando la tabla de la
distribucin t con (n-1) grados de libertad
Ejemplo 3
Un nuevo proceso para producir diamantes
sintticos puede ser operado a un nivel rentable
slo si el peso promedio de stos es mayor a .5
quilates. Para evaluar la rentabilidad del proceso, se
generan seis diamantes que registran pesos de .46,
.61, .52, .48, .57 y .54 quilates. Estas seis
mediciones presentan suficiente evidencia para
indicar que el peso promedio de los diamantes
producidos por el proceso es ms de .5 quilates
Helien Parra Riveros
Ejemplo 3
Pasos 1 y 2: H0 : =0,5 contra Ha : > 0,5
0,530,5
= 1.32
= 0,5
Z= 0
= 0,53
t1= 1,32
=x
t= 2,571
Limite de Confianza
En muchos casos ms que formular hiptesis, lo que
interesa es el calcular el intervalo en el que con un
nivel de confianza esperado la poblacin tendr un
comportamiento basado en la muestra selecionada.
Este intervalo es conocido como lmite de confianza
Definicion
Si: =
Si: t =
entonces =
entonces =
para n>30
para n30
1,96
2,571
21
50
= 876,82 y 865,18
0,0559
61
= 0,5942 y 0,4657
Taller de Aplicacin
Ventas (cantidades)
Ventas (precios)
Ventas (zonas)
Ventas (tiendas)
94