Anda di halaman 1dari 59

PROBABILIDAD Y

ESTADSTICA

OBJETIVO GENERAL:
Proporcionar al alumno elementos formativos en la teora
de la probabilidad y estadstica que le permitan analizar y
asignar valores reales a fenmenos aleatorios relacionados
con la ingeniera.

ING. JORGE ZAVALA


1
PEA

UNIDAD I. ESTADSTICA DESCRIPTIVA


En la actividad diaria, permanentemente se toma conocimiento de
informaciones de carcter cuantitativo o cualitativo, sobre diversos
fenmenos, acontecimientos, manifestaciones o simplemente hechos
ocurridos en nuestro mbito. Algunas de estas informaciones son de
carcter estadstico y otras no lo son.
Por ejemplo, al concluir los partidos de ftbol programados para una
particular fecha, los periodistas deportivos informan sobre los
resultados obtenidos por los equipos de ftbol y la tabla de posicin,
del primero al ltimo puesto. Esta informacin, que es expresada en
forma cuantitativa y cualitativa (nmero de goles y nmero de orden
que ocupa cada equipo), a nadie se le ocurrira llamarla informacin
estadstica. Su propsito es difundir resultados sobre
acontecimientos que se suponen de inters para muchas personas.
Sin embargo, esta misma informacin ofrecida como antecedentes
histricos para pronosticar resultados de futuros partidos de
ftbol es comnmente llamada estadsticas del ftbol.
2

Cul es la diferencia?
La diferencia consiste en el propsito para el cual se produce u ofrece la
informacin. En el primer caso slo da a conocer resultados; en el
segundo caso estos mismos resultados son ofrecidos con el fin de que los
interesados puedan sacar conclusiones (realizar inferencias) y
eventualmente tomar decisiones.
Estadstica
La Estadstica trata del recuento, ordenacin y clasificacin de los datos
obtenidos por las observaciones, para poder hacer comparaciones y sacar
conclusiones.
La Estadstica Descriptiva es la rama de las Matemticas que recolecta,
presenta y caracteriza un conjunto de datos (por ejemplo, edad de una
poblacin, altura de los estudiantes de una escuela, temperatura en los
meses de verano, etc.) con el fin de describir apropiadamente las
diversas caractersticas de ese conjunto. Registra los datos en tablas y
los representa en grficos. Calcula los parmetros estadsticos (medidas
de centralizacin y de dispersin), que describen el conjunto estudiado.
3

En la actualidad el conjunto de mtodos que la estadstica


brinda para atender todos los problemas hace que se la divida
en 2 grandes campos, Estadstica Descriptiva e Inferencial.

Los 4 elementos de un problema de estadstica


descriptiva

1.
2.
3.
4.

La poblacin o muestra de inters


Una o ms variables (caractersticas de
inters) a ser investigadas
Tablas, grficos o herramientas sumarias
similares
Conclusiones sobre lo observado

El fin ltimo de cualquier estudio es aprender sobre las poblaciones.


Pero es usualmente necesario, y ms prctico, estudiar solo una
muestra de cada una de las poblaciones.
Definimos:
POBLACIN total de sujetos o unidades de anlisis de inters en
el estudio.
MUESTRA cualquier subconjunto de los sujetos o unidades de
anlisis de la poblacin, en el cual se recolectarn los datos.
Usamos una muestra para conocer o estimar caractersticas de la
poblacin,
denominamos:
PARMETRO una medida resumen calculada sobre la poblacin.
ESTADSTICO una medida resumen calculada sobre la muestra.

VARIABLES
ESTADSTICAS

Variable cualitativa
Las variables cualitativas se refieren
a caractersticas o cualidades que no
pueden ser medidas con nmeros.
Podemos distinguir dos tipos:
1.Variable cualitativa nominal
Una variable cualitativa nominal
presenta modalidades no numricas
que no admiten un criterio de orden.
Por ejemplo: mujer, hombre.
2.Variable cualitativa ordinal o
variable cuasicuantitativa
Una variable cualitativa ordinal
presenta modalidades no numricas,
en las que existe un orden. Por
ejemplo: pequeo, mediano y grande. 7

Variable cuantitativa
Una variable cuantitativa es la que
se expresa mediante un nmero, por
tanto
se
pueden
realizar
operaciones aritmticas con ella.
Podemos distinguir dos tipos:
1.Variable discreta
Una variable discreta es aquella que
toma valores aislados, es decir no
admite valores intermedios entre
dos valores especficos.
2.Variable continua
Una variable continua es aquella que
puede tomar valores comprendidos
entre dos nmeros.

V a r ia b le s
C u a l it a t i v a o A t r i b u t o
E s c a la d e m e d ic i n

C u a n t i t a t iv a o N m e r i c a

E s c a la d e m e d ic i n

T ip o

N o m in a l

I n t e r v a lo

D is c r e t a

O r d in a l

R azn

C o n t in u a

TIPOS DE VARIABLES
Variable: corresponde a la caracterstica de la Unidad de Anlisis
Variables Cualitativas

Variables Cuantitativas
CONTINUA

DISCRETA

NOMINAL

ORDINAL

Intervalo

Toma valores enteros


Ejemplos: Nmero de Hijos, Nmero de
empleados de una empresa, Nmero de
asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos: Peso; Estatura; Temperatura, etc.

Caracterstica o cualidad
cuyas categoras no tienen
un orden preestablecido.
Ejemplos: Sexo, Deporte
Favorito, etc.
Caracterstica o cualidad cuyas
categoras
tienen
un
orden
preestablecido.
Ejemplos: Calificacin (S, N, A);
Grado de Inters por un tema, etc.

Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para


Temperatura
9

DISTRIBUCIN DE
FRECUENCIAS
La distribucin de frecuencias o tabla de frecuencias es una
ordenacin en forma de tabla de los datos estadsticos, asignando a
cada dato su frecuencia correspondiente.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias
absolutas de todos los valores inferiores o iguales al valor
considerado.
Se representa por Fi.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el nmero total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
La suma de las frecuencias relativas es igual a 1.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la
frecuencia acumulada de un determinado valor y el nmero
total de datos. Se puede expresar
en tantos por ciento.
10

TIPOS DE GRFICOS
Un grfico estadstico es una representacin visual de una serie
de datos estadsticos. Es una herramienta muy eficaz, ya que un
buen grfico:
Capta la atencin del lector.
Presenta la informacin de forma sencilla, clara y precisa.
No induce a error.
Facilita la comparacin de datos y destaca las tendencias y las
diferencias.
Ilustra el mensaje, tema o trama del texto al que acompaa.

11

GRFICO CIRCULAR O DE
SECTORES
Un grfico de sectores es una representacin circular de las
frecuencias relativas de una variable cualitativa o discreta
que permite, de una manera sencilla y rpida, su comparacin.
Ideal para variables nominales
Se
hace
un
crculo
que
representa al 100% de los casos.
Se divide el crculo en sectores:
cada sector representa un valor
de la variable.
El tamao de cada sector
depende del porcentaje de
ocurrencia de cada valor.
Slo grafica un grupo por vez
No permite usar muchas categora
(por congestin visual).

ECONOMIA
18%
PSICOLOGIA
30%

INGENIERIA
10%

DERECHO
4%
ARQUITECTURA
10%

12

MEDICINA
28%

GRFICO DE
BARRAS
Un grfico de barras es una representacin grfica en un eje
cartesiano de las frecuencias de una variable cualitativa o
discreta.
Se manejan dos ejes.
El eje horizontal indica las
distintas categoras o valores
de la variable.
El eje vertical representa al
ndice estadstico o frecuencia
de cada categora.
Permite la comparacin de varios
grupos.
Las barras pueden juntarse o
separarse
para
denotar
la
continuidad de los valores de la
variable.

13

La orientacin
del grfico puede
ser:

Vertical: las distintas categoras estn


situadas en el eje horizontal y las barras
de frecuencias crecen verticalmente.
Horizontal: las categoras se sitan en
el eje vertical y las barras crecen
horizontalmente. Suelen usarse cuando
hay muchas categoras o sus nombres
son demasiado largos.

Las
categoras
pueden
ordenarse
alfabticamente
facilitando su bsqueda o por sus frecuencias facilitando la
comparacin de los datos.

14

HISTOGRAMA
Se usa para representar las frecuencias de una variable
cuantitativa continua.
En uno de los ejes se posicionan las clases de la variable
continua (los intervalos o las marcas de clase que son los
puntos medios de cada intervalo) y en el otro eje las
frecuencias. No existe separacin entre las barras.

15

POLGONO DE
FRECUENCIAS
Otra forma de representacin de uso menos comn, y muy
parecida a las grficas de lneas, es el polgono de frecuencias.
La diferencia fundamental entre ambas es que en el polgono
de frecuencias se aaden dos clases con frecuencias cero: una
antes de la primera clase con datos y otra despus de la
ltima. El resultado es que se "sujeta" la lnea por ambos
extremos al eje horizontal y lo que podra ser una lnea
separada del eje se convierte, junto con ste, en un polgono.

16

OJIVAS > Y <


QUE
Una grfica similar al polgono de frecuencias es la ojiva, pero
sta se obtiene de aplicar parcialmente la misma tcnica a una
distribucin acumulativa y de igual manera que stas, existen
las ojivas mayor que y las ojivas menor que.
La diferencia fundamental entre las ojivas y los polgonos de
frecuencias es que en el eje horizontal (x) en lugar de colocar
las marcas de clase se colocan las fronteras de clase. Para el
caso de la ojiva mayor que es la frontera menor y para la ojiva
menor que, la mayor. Los dos casos posibles son:

17

DIAGRAMA DE TALLO Y
HOJAS

18

GRFICO DE
DISPERSIN
Un grfico de dispersin muestra en un eje cartesiano la
relacin que existe entre dos variables.
Este grfico nos informa del grado de correlacin entre las dos
variables.
Dentro de la correlacin lineal, en algunos grficos se dibuja la
recta de regresin obtenida gracias a un mtodo matemtico:
el ajuste lineal. Esta recta nos muestra ms clara y rpidamente
la tendencia de los puntos y, por tanto, la relacin.

19

ARREGLO DE
DATOS
Propuesta estadstica para el arreglo de datos

Datos

Agrupar en
clases
Distribucion
es de
frecuencias

Conjunto de
clases
estadsticas

Grficos

20

NMERO DE
CLASES
Clculo del nmero de
clases
Norma emprica
Frmula exponencial
Frmula logartmica

Norma emprica

Frmula
exponencial
Frmula logartmica

21

Parmetros Estadsticos

Medidas de tendencia
central

Mediana
Moda
Media
Media

Medidas de variabilidad y
dispersin

Medidas de
Posicin

Cuartiles
Deciles
Percentiles
22

Aritmtica
Media
Geomtrica
Media Armnica
Rango
Desviacin media
Varianza
Desviacin Estndar
Coeficiente de
variacin

Para datos no
agrupados
La media aritmtica es el valor obtenido al
sumar todos los datos y dividir el resultado
entre el nmero total de datos.
es el smbolo de la media aritmtica y
se calcula con la siguiente expresin.

Media
Aritmtica
Para datos
agrupados
Si los datos vienen agrupados en una tabla
de frecuencias, la expresin de la media es:

Media
Geomtrica

La media geomtrica de un conjunto de n


observaciones es la raz ensima de su producto.
El clculo de la media geomtrica exige que
todas las observaciones sean positivas:
Se calcula con la siguiente expresin:

Las caractersticas de la media geomtrica son:


1. Se toman en cuenta todos los valores de la variable.
2. Es afectada por valores extremos aunque en menor medida
que la media aritmtica.
3. Si un dato es cero, su resultado ser cero.
4. No puede ser calculada en distribuciones con clase abiertas.
5. Es mayormente usada para promediar tasas de intereses
anuales,

inflacin

razones

valores

que

muestren

una

24
progresin geomtrica (efecto multiplicativo
sobre el de los aos

La media armnica se define como el


recproco de la media aritmtica. Esto es:
Media Armnica

Las caractersticas de la media armnica son:


1. No se influye por la existencia de determinados valores
mucho ms grandes que el resto.
2. Presenta cambio sensible a valores mucho ms pequeos que
el conjunto.
3. No est definida en el caso de la existencia de valores nulos.

25

Mediana

Para datos no
Es agrupados
el valor que ocupa el lugar central de
todos los datos cuando stos estn
ordenados de menor a mayor.
1 Si la serie tiene un nmero impar de
medidas la mediana es la puntuacin
central de la misma.
2 Si la serie tiene un nmero par de
puntuaciones la mediana es la media entre
las dos puntuaciones centrales.
Para datos agrupados
La mediana se encuentra en el intervalo
donde la frecuencia acumulada llega hasta
la mitad de la suma de las frecuencias
absolutas.

26

Para datos no
La agrupados
moda es el valor que tiene mayor
frecuencia absoluta.
Se representa por Mo.
Moda

Para datos agrupados

27

Medidas de Tendencia Central y Distribuciones


Simtricas

No hay moda

Promedio
Promedio
Mediana
Mediana
Moda
Moda

moda

moda

moda

moda

Promedio
Mediana

28

Promedio
Promedio
Promedio
mediana
mediana
mediana

Frecuencia

Frecuencia

Medidas de tendencia Central y Distribuciones


Asimtricas

moda

promedio

promedio

mediana

moda

mediana

Si es + indicar muchos casos en los


valores ms bajos y pocos en los ms
altos positivamente asimtrica .

Si es - indicar muchos casos en los valores


ms altos y pocos en los ms bajos
negativamente asimtrica.

Media > Mediana: Positivos o con


sesgamiento a la derecha

Media < Mediana: Negativos


sesgamiento a la izquierda.

29

con

Medidas de variabilidad y
dispersin

Rango
Desviacin media
Varianza
Desviacin Estndar
Coeficiente de
variacin

Los datos tambin se deben caracterizar en trminos de su


dispersin o variabilidad.
Las medidas de variabilidad cuantifican la extensin de la
dispersin.

Miden el grado de cercana o lejana de las puntuaciones


respecto a la media.
Permiten
describir
el
grado
de
homogeneidad
heterogeneidad de la distribucin de una variable.

30

La desviacin media es la media aritmtica de


los valores absolutos de las desviaciones
respecto a la media.
Se representa por .
Para datos no
agrupados
Desviacin
Media
Para datos agrupados

31

La varianza es la media aritmtica del cuadrado de las


desviaciones respecto a la media de una distribucin
estadstica.
Se representa por .
Para datos no
agrupados

Varianz
a

Para datos agrupados

Donde:
xi : Marca de clase
fi: Frecuencia absoluta
k: Numero de clase
32

Propiedades de la varianza
1 La varianza ser siempre un valor positivo o
cero, en el caso de que las puntuaciones sean
iguales.
2 Si a todos los valores de la variable se les suma
Varianz
a

un nmero la varianza no vara.


3 Si todos los valores de la variable se multiplican
por un nmero la varianza queda multiplicada por
el cuadrado de dicho nmero.
4 Si tenemos varias distribuciones con la misma
media y conocemos sus respectivas varianzas se
puede calcular la varianza total.
33

La desviacin tpica es la raz cuadrada de la


varianza.
Es decir, la raz cuadrada de la media de los
cuadrados de las puntuaciones de desviacin.
Se representa por .
Para datos no
agrupados

Desviaci
n
Estndar

Para datos agrupados

Donde:
xi : Marca de clase
fi: Frecuencia absoluta
k: Numero de clase
34

Propiedades de la desviacin tpica


1 La desviacin tpica ser siempre un valor
positivo o cero, en el caso de que las puntuaciones
sean iguales.
2 Si a todos los valores de la variable se les suma
Desviaci
n
Estndar

un nmero la desviacin tpica no vara.


3 Si todos los valores de la variable se multiplican
por

un

nmero

la

desviacin

tpica

queda

multiplicada por dicho nmero.


4 Si tenemos varias distribuciones con la misma
media y conocemos sus respectivas desviaciones
tpicas se puede calcular la desviacin tpica total.
35

36

Los cuartiles son los tres valores de la variable que


dividen a un conjunto de datos ordenados en cuatro
partes iguales.
Para datos no
agrupados:los datos de menor a mayor.
1 Ordenamos
2 Buscamos el lugar que ocupa cada cuartil
mediante la expresin:

Cuartiles
Si A es entero, entonces el Cuartil corresponde al
Qk
valor medio de las observaciones ubicadas en las
posiciones A y A+1.
Si A no es un entero, el Cuartil Q corresponde a
la observacin ubicada en la posicin entera
siguiente, es decir, A+1.
Para datos agrupados:

Los Deciles son los nueve valores de la variable que


dividen a un conjunto de datos ordenados en diez
partes iguales.
Para datos no
agrupados:los datos de menor a mayor.
1 Ordenamos
2 Buscamos el lugar que ocupa cada decil mediante
la expresin:

Deciles
Dk

Si A es entero, entonces el Decil Dk corresponde


al valor medio de las observaciones ubicadas en
las posiciones A y A+1.
Si A no es un entero, el Decil Dk corresponde a la
observacin ubicada en la posicin entera
siguiente, es decir, A+1.
Para datos agrupados:

Los Percentiles son los 99 valores de la variable que


dividen a un conjunto de datos ordenados en cien
partes iguales.
Para datos no
agrupados:los datos de menor a mayor.
1 Ordenamos
2 Buscamos el lugar que ocupa cada percentil
mediante la expresin:

Percentil
es
Pk

Si A es entero, entonces el Percentil corresponde


al valor medio de las observaciones ubicadas en
las posiciones A y A+1.
Si A no es un entero, el Percentil Pk corresponde
a la observacin ubicada en la posicin entera
siguiente, es decir, A+1.
Para datos agrupados:

Forma de la Distribucin

Utilizando los cuartiles podemos analizar la forma de la distribucin

Simetra

(Q3 - Q2) = ( Q2 - Q1)

Asimetra Positiva

(Q3 - Q2 ) > ( Q2 - Q1)

Asimetra Negativa

(Q3 - Q2 ) <

40

( Q2 - Q1)

El Coeficiente de
Variacin
Es otra medida de variabilidad que tiene la ventaja de ser
sin unidades.
Para una muestra de datos con media
y desviacin
estndar s, se define el coeficiente de variacin como

Si cambiamos la escala de medir en la variable, el


coeficiente de variacin no cambia. No obstante, si la
media es igual a cero, el coeficiente de variacin no existe.
Si el Cv 5%
----> datos muy homogneos, Media
aritmtica muy representativa.

Si el 5% Cv 20%
----> datos con homogeneidad
aceptable. La media aritmtica es representativa.

Si el Cv 20% ----> datos heterogneos, la media aritmtica


41
es poco representativa.

Determinacin de valores extremos o


anmalos (outliers)
Son observaciones que se alejan del conjunto de datos.
Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 - 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de
las siguientes causas:
La observacin se registra incorrectamente.
La observacin proviene de una poblacin distinta.
La observacin es correcta pero representa un suceso poco
comn (fortuito).

42

-Asimetra

Otras medidas o
Coeficientes

-Kurtosis o Apuntamiento

Adems de la posicin y la dispersin de los datos, otra


medida de inters en una distribucin de frecuencias es la
Simetra y el apuntamiento o Kurtosis.
n

Coeficiente de AsimetraCA

(x
i 1

x)3

n s3

Coeficiente de Kurtosis K CAp

Si CA=0 si la distribucin es simtrica


alrededor de la media.
Si CA<0 si la distribucin es asimtrica a la
izquierda.
Si CA>0 si la distribucin es asimtrica a la
derecha.

(x x)
i 1

n s4

Si CAp=0 la distribucin se dice normal


(similar a la distribucin normal de Gauss) y
recibe el nombre de mesocrtica.

Si CAp>0, la distribucin es ms puntiaguda


que la anterior y se llama leptocrtica,
(mayor concentracin de los datos en torno a
la media).
Si CAp<0 la distribucin es ms plana y se
llama platicrtica.

43

Los 4 elementos de un problema de Estadstica


Descriptiva
1.
2.
3.
4.

La poblacin o muestra de inters.


Una o ms variables (caractersticas de inters) a
ser investigadas.
Tablas, grficos o herramientas sumarias similares.
Conclusiones sobre lo observado.

48

Los 5 elementos de un
problema de estadstica
La poblacin
de inters
inferencial

1.
2. Una o ms variables (caractersticas de
inters) a ser investigadas
3. La muestra estadsticamente
significativa
4. La inferencia que se hace sobre la
poblacin basados en la muestra
5. La medida de confianza de la inferencia
49

50

51

52

Medidas de forma

Coeficiente de curtosis
En algunos caso unos datos pueden estyar concentrados alrededor de la media, de manera que la distribucin tiene un
pico grande . En otro casos, la distribucin puede ser relativamente plana. Las medidas que determinan que tan
empinada se encuentra una distribucin se denominan coeficientes de curtosis, o simplemente curtosis. Una medida
que se usa con frecuencia est dada por

Cuando el valor de

se dice que los datos se distribuyen forma normal, o de campana o mesocrtica.

Si
entonces la distribucin es ms empinada que la curva normal y se dice que es leptocrtica. Si
entonces la distribucin es ms aplanada que la curva normal y se llama platicrtica.
Observaciones:
Cuando se desea calcular el coeficiente de segso o de curtosis en una muestra slo se necesita reemplazar en la
expresin anterior el valor de la media poblacional por la media muestral y el tamao de poblacin por el tamao de la
muestra.
Si los datos estn agrupados o ponderados por
se multiplicara la expresin del parntesis en el numerador y el
denominador por

53

54

55

56

Media, Desviacin tpica, Coeficientes de Asimetra y


Apuntamiento para datos Agrupados (tabla de frecuencias)

2) La Desviacin tpica
agrupados esta dada por:

Tabla de frecuencia (para variable cuantitativa)


Intervalo

Centro
de clase Amplitud

f1
f2

I1

c1

a1

I2
.
.

c2

a2

n1
n2

Ik

ck

ak

nk

fk

Total

FAA fra

sc

(c
j 1

para

datos

xc ) 2 f j

3) El Coeficiente de Asimetra para datos


agrupados esta dado por:

Sea cj la marca de clase (o centro de clase) y fj la


frecuencia relativa de la clase j, donde j=1, 2,, k.

1) La Media para datos agrupados es igual a la


suma de los productos de las marcas de clase
por sus frecuencias relativas, de la forma:

CAc

(c
j 1

xc ) 3 f j

s c3

4) El Coeficiente de apuntamiento para


datos agrupados esta dada por:
k

Media c x c c j f j

CApc

j 1

57

(c
j 1

xc ) 4 f j
s c4

58

59