Anda di halaman 1dari 51

1

Ingeniera en Tecnologas de la Informacin o


z

y x

puntes de Estadstica Aplicada


z

Editor: Randolfo Alberto Santos Quirz o

Indice general
1. Introduccin o 2. Estad stica 2.1. 5 7 7 7 8 8 11 11 11 11 15 16 16 17 18 21 23 24 25 27 27 28 28 33 33 36 37 38 38 38 38 39 43 44 48 48 49 u es la estad e stica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Prctica uno: Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . a a 2.1.2. Prctica dos: Clasicacin de la estad a o stica. . . . . . . . . . . . . . . . . . . . . . .

2.2.

Introduccin a los terminos bsicos o a

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Estad stica descriptiva 3.1. Para datos agrupados en clases . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Variables aleatorias discretas y continuas . . . . . . . . . . . . . . . . 3.1.2. Clases y sus caracter sticas . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Resumen de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Medidas de tendencia central y medidas de dispersin . . . . . . . . . . . . . o 3.3.1. Media y desviacin media para datos agrupados . . . . . . . . . . . . o 3.4. Mediana y cuantiles para datos agrupados . . . . . . . . . . . . . . . . . . . . 3.5. La moda para datos agrupados y su interpretacin geomtrica . . . . . . . . . o e 3.6. Desviacin estndar para datos agrupados . . . . . . . . . . . . . . . . . . . . o a 3.7. Ejercicios de evaluacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.8. Glosario de Trminos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 3.9. Frmulas de tendencia central y de distribucin . . . . . . . . . . . . . . . . o o 3.10. Prcticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 3.10.1. Prctica tres: Clasicacin de datos. . . . . . . . . . . . . . . . . . . . a o 3.10.2. Prctica cuatro: Estad a stica descriptiva. . . . . . . . . . . . . . . . . . 3.10.3. Prctica cinco: Medidas de tendencia central y medidas de dispersin. a o 4. Probabilidad 4.1. 4.2. 4.3.

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Probabilidad bsica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Anlisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . . . Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funciones de densidad y de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . o Esperanza, varianza, momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1. 4.3.2. 4.3.3. 4.3.4. Ordenaciones con Factoriales . . . Permutaciones . Combinaciones . repeticin o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4. 4.5. 4.6. 4.7.

4.7.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

INDICE GENERAL

1 Introduccin o
Text

CAP ITULO 1. INTRODUCCION

2 Estad stica
2.1.

Qu es la estad e stica?

La estad stica implica informacin, n meros y grcas para resumir esta informacin, y su interpretao u a o cin. El trmino estad o e stica posee varios signicados para personas para diferentes entornos e intereses. El terreno de la estad stica puede dividirse a grandes rasgos en dos areas: estad stica descriptiva y estad stica inferencial. La estad stica descriptiva es lo que piensa la mayor de las personas al escuchar a la palabra estadstica . La estad stica descriptiva incluye la recoleccin, presentacin y descricin de dao o o tos muestrales. El trmino estad e stica inferencial se reere a la tcnica de interpretacin de los valores e o resultantes de las tcnicas descriptivas y a la toma de decisiones y obtencin de conclusiones sobre la e o poblacin. o La estad stica es ms que slo n meros: son los datos, lo que hace con los datos, lo que se aprende de a o u los datos y las conclusiones resultantes. Se utilizar la siguiente denicin: a o Denicin 2.1 o Estadstica: Ciencia de recolectar, describir e interpretar datos.

Los usos de la estad stica son ilimitados. Es mucho ms dicil mencionar un campo en que nose utilice a la estad stica que uno en el sta sea parte integral. A continuacin se presentan algunos ejemplos de cmo e o o y dnde se utiliza la esta o stica: En educacin se utiliza a menudo estad o stica descriptiva para mostrar el comportamiento de los resultados de los exmenes aplicados a los alumnos. a En la ciencia es necesario recolectar y analizar los datos que se obtienen de los experimentos. En informtica la estad a stica busca como acumular y optimizar la informacin extra de los datos, o da como recolectar los datos para maximizar la informacin y como hacer inferencias de los mismos o para extender nuestro conocimiento. Por otro lado, la Ciencia de Computacin, nos dice cmo o o calcular y procesar de manera ptima los datos, cmo medir el costo asociado al procesamiento de o o la informacin, cmo la informacin y el conocimiento pueden ser utilmente representados y como o o o comprender los l mites de lo que puede ser calculado.

Ejercicios . . .
2.1.1. Prctica uno: Conceptos bsicos a a
OBJETIVO: El estudiante explicar lo que es la estad a stica y su utilidad en los sistemas de informacin. o 1. ACTIVIDAD: Los alumnos presentarn ejemplos mediante recortes o art a culos de situaciones reales del uso de la estad stica en las tecnolog de informacin, por ejemplo encuestas que realizan: as o peridicos, revistas, empresas, programas de televisin. o o 2. ACTIVIDAD: Mediante el anlisis de sus presentaciones contestar preguntas acerca de: a Qu se pretende por ejemplo al presentar al medio tiempo las estad e sticas de ftbol? u Cmo se obtuvieron eso datos? o Es posible cuanticar los datos? Meta: Induccin a la importancia de los datos, que existe una forma de recopilarlos, que es o necesario ordenarlos para su mayor comprensin. o 7

CAP ITULO 2. ESTAD ISTICA

2.1.2. Prctica dos: Clasicacin de la estad a o stica.


OBJETIVO: Que el alumno explique la clasicacin de la estad o stica en forma grca. a 1. ACTIVIDAD: Crear un mapa conceptual entre todo el grupo mediante una lluvia de ideas para comprender de forma esquemtica la clasicacin de la estad a o stica.

2.2.

Introduccin a los trminos bsicos o e a

Para comenzar a estudiar estad stica primero es necesario denir algunos trminos bsicos. e a Poblacin: Es la coleccin, o conjunto, de individuos, objetos o eventos cuyas propiedades sern analizadas. o o a Hay dos tipos de de poblaciones: nitas e innitas. Cuado es (o puede ser) posible enumerar sicamente los elementos que pertenecen a una poblacin, se dice que la poblacin es nita. Cuando los elementos de o o una poblacin son ilimitados, latpoblacin es innita. Es dif estudiar grandes poblaciones por tanto se o o cil acostumbra seleccionar una muestra y estudiar los datos de sta. e Muestra: Es un subconjunto de la poblacin. o Una muestra consta de los individuos, objetos o medidas seleccionados de la poblacin por el recolector o de la muestra. Variable (o variable respuesta): Caracter stica de inters sobre cada elemento individual de una poblacin e o o muestra. La edad de un estudiante que ingresa a la universidad, el color de su cabello, su estatura y su peso son cuatro variables. Dato: Valor de la variable asociada a un elemento de una poblacin o muestra. Este valor puede ser un o nmero, una palabra o un s u mbolo Por ejemplo Juan Prez ingres a la universidad a la edad de 23 a os, su cabello es caf, mide e o n e 1.80 y pesa 83 kg. Estas cuatro piezas de datos son los valores de las cuatro variables aplicadas a Juan Prez. e Datos: Conjunto de valores recolectados para la variable de cada uno de los elementos que pertenecen a la muestra. El conjunto de 25 estudiantes es un ejemplo de un conjunto de datos. Experimento: Actividad planeada cuyos resultados producen un conjunto de datos. El experimento incluye las actividades para seleccionar los elementos y obtener los valores de los datos. Parmetro: Valor numrico que resume todos los datos de una poblacin. a e o Para todo parmetro estiste una estadstica muestral correspondiente. La estad a stica describe a la muestra de la misma manera en que el parmetro describe a la poblacin. a o Estad stico: Valor numrico que resume todos los datos de la muestra. e

2.2.

INTRODUCCION A LOS TERMINOS BASICOS

Ejemplo 1 Un estudiante de TIC est interesado en determinar algo sobre el valor de promedio en pesos de las a Lap Top que pertenecen al cuerpo docente de nuestra universidad cada uno de los trminos recientemente e descritos puede identicarse en esta situacin. o 1. La poblacin es la coleccin de todas las computadoras que pertenecen a todos los profesores que o o pertenecen a la UTXJ. 2. Una muestra es cualquier subconjunto de esa poblacin. Por ejemplo, una muestra ser las Laps o an que pertenecen a los maestros del area de mantenimiento industrial. 3. La variable es el valor en pesos de cada computadora individual. 4. Un dato podr ser el valor en pesos de una computadora en particular. La computadora del maestro a Richi, por ejemplo, est valuada en $25,000.00. a 5. Los datos ser el conjunto de valores que corresponden a la muestra obtenida (9400, 8700, 15950...) an 6. El experimento ser los mtodos aplicados para seleccionar las computadoras que integren la an e muestra y determinar el valor de cada computadora de la muestra. Podr efectuarse preguntando a a cada miembro de la carrera de mantenimiento industrial, o de otras formas. 7. El parmetro sobre el que se est buscando informacin es el valor promedio de todas las Laps de a a o la poblacin. o 8. El estadstico que se encontrar es el valor promedio de todas las computadoras de la muestra. a NOTA: Si se toma una segunda muestra, quiz el conjunto de personas seleccionadas diferente, por a ejemplo la carrera de Mecatrnica, y entonces para el estad o stico promedio se anticipar un valor diferente. a Sin embargo, el valor promedio de todas las computadoras de los maestros de toda la universidad no cambiar a. El valor de los parmetros es jo, mientras que el de los estad a sticos var a. Bsicamente hay dos tipos de variables: 1) variables que obtienen informacin cualtitativa y 2) variables a o que obtienen informacin cuantitativa. o Variable cualitativa, de atributos o categrica: Variable que clasica o describe un elemento de una poo blacin. o Una muestra de cuatro clientes de una empresa distribuidora de telfonos porttiles fue cuestionada e a en cuanto a la marca, el color y nivel de satisfaccin respecto a la atencin en la distribuidora. Las o o tres variables son ejemplos de variables cu alitativas. Variable cuantitativa o numrica : Variable que cuantica un elemento de una poblacin. e o El costo total de los componentes de una computadora de escritorio, la cantidad de cable que se necesita para la creacin de una red de computadoras; son algunos ejemplos de variables cuantitativas. o Cada uno de estos tipos de variables (cualitativas y cuantitativas) Figura 2.1 pueden subdividirse a n u ms. a Cuando alguna persona hispanohablante aprende el idioma ingls, siempre llega un momento en que e le ensean que el trmino ingls para la expresin cuntos? ( cuntas?) depende de que se trate de n e e o a o a cosas que se pueden contar o de cosas que no se pueden contar sino medir. En estad stica se hace la misma distincin cuando se hace referencia a magnitudes variables: si se trata de magnitudes que se pueden o contar (aunque pudieran quizs ser innitas), se llaman variables discretas. En cambio, si las magnitudes a no se pueden contar, sino que se miden en algn tipo de unidades (cent u metros, litros, gramos, unidades de

10

CAP ITULO 2. ESTAD ISTICA

Nominal
Cualitativa o de atributos

Ordinal

Variable
Discreta
Cuantitativa o numrica

Continua

Figura 2.1: Tipos de variables

dinero, unidades de tiempo, etc.), entonces se llaman variables continuas. Ejemplos de variables aleatorias discretas sern: el n mero de huevos que pone cierta gallina cada semana, el n mero de veces que una a u u moneda cae en guila al lanzarse quince veces al aire, el nmero de reos que se escapan cada mes de las a u prisiones de Mxico, el nmero de votantes que manifestarn preferencia por cierto partido pol e u a tico en una casilla electoral, el n mero de hijos que tiene una seora cualquiera que lleve 20 a os de casada, etc. u n n Por otra parte, ejemplos de variables aleatorias continuas son: el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad exacta de sangre que bombea el corazn de un adulto en un latido, la estatura exacta de un soldado elegido al azar, o la cantidad exacta de dinero que re ne cada ao el gobierno de un pa (de impuestos y otros ingresos) u n s para ejercer su presupuesto, entre otras.

3 Estad stica descriptiva


Conceptos bsicos a

3.1. Para datos agrupados en clases


3.1.1. Variables aleatorias discretas y continuas
Cuando alguna persona hispanohablante aprende el idioma ingls, siempre llega un momento en que le e ensean que el trmino ingls para la expresin cuntos...? (o cuntas...?) depende de que se trate de n e e o a a cosas que se pueden contar o de cosas que no se pueden contar sino medir. En estad stica se hace la misma distincin cuando se hace referencia a magnitudes variables: si se trata de magnitudes que se pueden o contar (aunque pudieran quizs ser innitas), se llaman variables discretas. En cambio, si las magnitudes a no se pueden contar, sino que se miden en algn tipo de unidades (cent u metros, litros, gramos, unidades de dinero, unidades de tiempo, etc.), entonces se llaman variables continuas. Ejemplos de variables aleatorias discretas ser an: el n mero de huevos que pone cierta gallina cada semana, el n mero de veces que una u u moneda cae en guila al lanzarse quince veces al aire, el nmero de reos que se escapan cada mes de las a u prisiones de Mxico, el nmero de votantes que manifestarn preferencia por cierto partido pol e u a tico en una casilla electoral, el n mero de hijos que tiene una seora cualquiera que lleve 20 a os de casada, etc. u n n Por otra parte, ejemplos de variables aleatorias continuas son: el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad exacta de sangre que bombea el corazn de un adulto en un latido, la estatura exacta de un soldado elegido al azar, la cantidad o exacta de dinero que re ne cada ao el gobierno de un pa (de impuestos y otros ingresos) para ejercer u n s su presupuesto, etc. Las variables aleatorias (sean discretas o continuas) tienen siempre una distribucin de frecuencia o relativa (o distribucin de probabilidad) asociada; adems, tal distribucin puede ser terica o emp o a o o rica. Por ejemplo, si usted lanza un dado muy bien hecho (dado honrado) un gran n mero de veces, en teor u a deber obtener cualquiera de las caras hacia arriba con una frecuencia relativa de 1 ; igualmente, si lanza a 6 una moneda al aire muchas veces, en teor la frecuencia relativa de cualquiera de los dos lados (guila a a o o sol) es de 1 (es decir, 50 %). Podra darse el caso de que en un experimento particular con slo diez 2 lanzamientos de la moneda usted obtuviera, por ejemplo, nueve soles y slo una vez aguila (es improbable, o pero factible). No obstante, ser absolutamente inveros a mil que en 100 lanzamientos usted obtuviera 90 veces sol y unicamente 10 aguilas. A medida que el nmero de ensayos aumenta, las distribuciones emp u ricas tienden rpidamente a la distribucin terica preestablecida (ley de los grandes n meros). Sin embargo, a o o u en situaciones prcticas cotidianas las cosas suelen ser mucho ms complejas que slo lanzar dados o a a o monedas al aire, por lo que a menudo resulta muy dif o imposible establecer la distribucin terica cil o o y hay que conformarse con algunos experimentos prcticos que ayuden a estimar de manera emp a rica la distribucin deseada o, por lo menos, algunos de sus parmetros importantes. o a Las variables aleatorias continuas, por sus caracter sticas requieren de un tratamiento especial, el cual consiste en estimar sus respectivas frecuencias relativas (o probabilidades) por intervalos o clases. A veces tambin se usa la clasicacin en intervalos (o clases) para variables discretas en muestras muy numerosas. e o Es cierto que el manejo de la estad stica descriptiva para datos agrupados en clases es relativamente cmodo o y fcil, sobre todo si se hace en hojas de clculo de Excel; empero, hay que partir de unos supuestos que a a siempre implicarn una peque a prdida de precisin en los resultados de las estimaciones. a n e o

3.1.2. Clases y sus caracter sticas


Una clase es un intervalo de variacion para una variable continua o de variacion teorica (cticia) para una variable discreta. Por ejemplo, si la variable x representa el tiempo en minutos que requiere cierta persona para cambiar un neumatico de su automovil, una clase podria ser el intervalo [1, 5), es decir, el conjunto de valores de x tales que 1 x < 5 (en minutos). Como veremos despues, casi siempre conviene usar intervalos que son cerrados por la izquierda y abiertos por la derecha, como en este ejemplo. Si x es una 11

12

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

variable discreta (por ejemplo, el numero de veces que sale aguila en diez lanzamientos de una moneda), se puede usar una variacion continua cticia para X y tomar, por ejemplo el intervalo de variacion continua [1.5, 3.5) como aproximacion del conjunto 2 x 3, esto es, que salgan dos o tres aguilas, o bien tomar el intervalo continuo [1.5, 2.5) como sustituto del valor x = 2. Este tipo de aproximacion (que se llama correccion por continuidad) puede parecer extrano por el momento, pero mas adelante veremos que tiene muchas ventajas, ya que permite que algunas variables discretas se manejen con distribuciones continuas a las que se aproximan. L mites reales de clase. Casi siempre ocurre que las clases se establecen de tal manera que quedan algunos huecos (o vac os) entre dos intervalos adyacentes. En tales casos, los intervalos se alargan articialmente para abarcar tambin la mitad de los huecos que quedan a sendos lados y producir una variacin e o continua de principio a n. Los extremos de las clases alargadas articialmente de esta manera se llaman l mites reales de clase y el intervalo de variacin terica entre los l o o mites reales de clase se llama intervalo ampliado. Por convencin, los intervalos ampliados se toman cerrados por la izquierda y abiertos por la o derecha. El l mite real izquierdo se acostumbra llamar lmite real inferior, mientras que el derecho se llama mites reales inferior y lmite real superior. Usualmente se emplea la notacin xL y xU para denotar los l o superior, respectivamente. Marcas de clase. Se llaman as a los puntos medios de cada uno de los intervalos. No importa si se consideran los intervalos originales o los intervalos ampliados, la localizacin de cada marca de clase o ser la misma. La razn de establecer marcas de clase estriba en que no se pueden efectuar operaciones a o aritmticas con intervalos, por lo que cada marca de clase se toma como representativa de su intervalo, y es e precisamente ese supuesto el que se traducir en una peque a inexactitud de las estimaciones resultantes. a n La notacin para la marca de clase de la i-sima clase es xi . o e Amplitud o anchura de una clase. Se llama as a la distancia entre los l mites reales de clase. La forma ms sencilla de calcular la amplitud de una clase consiste en restar el l a mite real superior (derecho) menos el l mite real inferior (izquierdo). En la mayor de los ejemplos prcticos, los datos se organizan de tal modo que todos los intervalos, a a excepto quizs el ultimo, tienen la misma amplitud. Sin embargo, eso no es esencial. Puede haber casos a en los que las amplitudes de los diferentes intervalos var en. En los ejemplos que expondremos en esta leccin usaremos hojas de clculo de Excel para realizar las o a operaciones con rapidez. Es cierto que existen algunos programas comerciales ms efectivos que el Excel a para el manejo estad stico de datos, sin embargo la obtencin de tales programas generalmente implica o un desembolso adicional por parte del estudiante, amn de que hay que invertir tiempo para aprender a e usarlos. El software ms popular y usual para el manejo de datos estad a sticos es el programa conocido como MINITAB. Al parecer existe una versin gratuita de 30 d que se puede bajar del Internet, pero o as despus de ese tiempo hay que comprarlo. Otro programa muy apreciado para el manejo de datos es el e SPSS (Statistical Package for the Social Sciences). Si el estudiante ya tiene algunos de esos programas instalados y adems sabe usarlos, ser fabuloso; no obstante, estas lecciones estn enfocadas en principio a a a para estudiantes que slo se ayudan con el Excel, que es el programa ms conocido y que forma parte del o a Oce instalado en cualquier computadora.

3.1. PARA DATOS AGRUPADOS EN CLASES

13

Ejemplo Supngase que se ha agrupado en clases el n mero de horas semanales que los ni os ven la o u n televisin (incluyendo video casetes y DVD), para una muestra aleatoria de 300 ni os, con los siguientes o n resultados:

Horas semanales de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48

frecuencia 44 96 74 48 21 12 5

Para trabajar con estos datos, primero hay que determinar las amplitudes de las clases, las marcas de clase y anotar toda esta informacin en una hoja de clculo de Excel, junto con las frecuencias respectivas: o a

horas semanales que un nio ve n TV de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48

l mites reales de clase

amplitud de clase

marca de clase

frecuencia

[-0.5, 6.5) [6.5, 13.5) [13.5, 20.5) [20.5, 27.5) [27.5, 34.5) [34.5, 41.5) [41.5, 48.5)

7 7 7 7 7 7 7

3 10 17 24 31 38 45

44 96 74 48 21 12 5

Antes de proseguir con el anlisis estad a stico de estos datos conviene tener una representacin grca o a de los mismos, con objeto de visualizar de qu forma es la distribucin de frecuencias. Existen muchos e o tipos de representaciones grcas para datos estad a sticos aislados o agrupados, pero el ms util y comn a u es el llamado histograma, el cual denimos a continuacin. o

Histograma. Es una representacin grca de una distribucin de frecuencias relativas para datos o a o aislados o agrupados, en forma de barras rectangulares, cuyas alturas correspondientes son las respectivas frecuencias (o frecuencias relativas) y cuyas bases son iguales a las clases ampliadas. Para distribuciones de frecuencias relativas a observaciones aisladas o para distribuciones de probabilidad de variables aleatorias discretas, conviene tomar bases unitarias en cada rectngulo, a efecto de que el a a rea de cada rectngulo (base por altura) sea exactamente igual a la frecuencia relativa o a la probabilidad a correspondiente. De esta forma, vemos que el concepto de rea viene siendo un sinnimo de probabilidad a o acumulada en un intervalo. Este mismo concepto se mantiene para variables aleatorias continuas, de tal suerte que la probabilidad de un intervalo de variacin de la variable queda representada por un tramo o de area bajo la curva de densidad de probabilidad.

Pol gono de frecuencias. Es un grco de trozos de la frecuencia de clase con relacin a la marca a o de clase, Puede obtenerse conectando los puntos medios de las partes superiores de los rectngulos del a histograma ver gura 3.1

14

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

Figura 3.1: Histograma y pol gono de frecuencias

El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales se pierden en el proceso de agrupamiento. Es relativamente fcil dibujar un histograma a mano, con papel, a lpiz, colores y regla, pero tambin se puede dibujar con casi cualquier software de estad a e stica, incluyendo al programa Excel que no es propiamente un software de estad stica. En el men herramientas del Excel u viene la opcin de histograma, aunque a veces los dibujos deben ser retocados para darle las preferencias o del usuario. No es necesario que los rectngulos de un histograma queden unidos o adyacentes, pero s es a deseable, porque as tienen mejor aspecto. El pol gono de frecuencias para datos agrupados en clases, o para datos aislados, se dibuja como sigue: Se marcan en un papel varios puntos de la forma (xi , ni ), esto es, (marca de clase, frecuencia) y se unen con segmentos adyacentes usando una regla. Veamos cmo se o representar en forma de histograma las frecuencias de la muestra de 300 ni os, en donde se trataba de an n ver el n mero de horas semanales que miraban la televisin ver gura: 3.3 u o

Figura 3.2: Histograma (horas semanales que los ni os miran televisin) n o

Se puede apreciar que esta distribucin de frecuencias tiene sesgo positivo. o En la siguiente grca vemos el pol a gono de frecuencias superpuesto al histograma:

3.2. RESUMEN DE CONCEPTOS

15

Figura 3.3: Pol gono de frecuencias(horas semanales que los ni os miran televisin) n o

3.2. Resumen de conceptos


Arreglo de datos Organizacin de los datos sin proo cesar por observacin, tomados en orden descendeno te o ascendente. Clase de extremo abierto Clase que permite que el extremo superior o inferior de un esquema de clasicacin cuantitativo no tenga l o mite. Conjunto de datos Una coleccinde datos. o Curva de frecuencias Pol gono de frecuencias alisado mediante el aumento de clases y puntos de dato a un conjunto de datos. Datos Coleccin de cualquier n mero de observacioo u nes relacionadas sobre una o ms variables. a Datos continuos Datos que pueden pasar de una clase a la siguiente sin interrumpirse y que pueden expresarse mediante n meros enteros o fraccionarios. u Datos discretos Datos que no pueden pasar de una clase a la siguiente sin que haya una interrupcin; o estos es, en donde las clases representan categor o as cuentas distintas que pueden representarse mediante n meros enteros. u Datos sin procesar Informacin antes de ser organio zada o analizada por mtodos estad e sticos. Distribucin de frecuencias Despliegue organizado o de datos que muestran el n mero de observaciones u del conjunto de datos que entran en cada una de las clases de u conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Distribucin de frecuencias acumuladas Despliegue o de datos en forma de tabla que muestra cuntos daa tos estn por encima o por debajo de ciertos valores. a Distribucin de frecuencias acumuladas Despliegue o de un conjunto de datos en el que se muestra la fraccin o porcentaje del total del conjunto de datos que o entra en cada elemento de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Histograma Grca de un conjunto de datos coma puesta de una serie de rectngulos, cada uno con un a ancho proporcional al alcance de los valores y altura proporcionl al n mero de elementos que entran u en la clase, o altura proporcional a la fraccin de o elementos de la clase. Muestra Coleccin de algunos elementos, pero no de o todos, de la poblacin bajo estudio, utilizada para o describir poblaciones. Muestra representativa Muestra que contiene las caracter sticas importantes de la poblacin en las o mismas proporciones en que estn contenidas en la a poblacin. o Ojiva Grca de una distribucin de frecuencias acua o muladas. o Poblacin Coleccin de todos los elementos que se o estn estudiando y sobre los cuales intentamos llegar a a conclusiones. Pol gono de frecuencias L nea que une los puntos medios de cada clase de un conjunto de datos, trazado a la altura correspondiente a la frecuencia de los datos. Punto de dato Una sola observacin de un conjunto o de datos.

16

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA Ecuacin o

Ancho de intervalos de clase = Donde:

x1 x2 i

(3.1)

x1 = valor unitario siguiente despus del valor ms grande de los datos. e a a n x2 = valor ms peque o de los datos. i = n mero total de intervalos. u Para organizar datos sin procesar, escoje el nmero de clases entre las cuales vas a dividir los datos (por u lo general, entre seis y quince clases) y despus utiliza la ecuacin (5.1) para determinar el ancho de los e o intervalos de clase de igual tama o. Esta frmula utiliza el valor ms alto siguiente de las mismas unidades n o a debido a que mide el intervalo entre el primer valor de una clase y el primer valor de la siguiente.

3.3. Medidas de tendencia central y medidas de dispersin o


3.3.1. Media y desviacin media para datos agrupados o
Si f i denota la frecuencia de la i-sima clase y el nmero total de datos u observaciones es n, entonces e u la media se calcula como sigue:
n

xi f i n La desviacin media (o desviacin promedio de la media) se puede calcular en la misma tabla as o o : dm = xi x f i x=


k=0

n Hacemos las operaciones en las siguientes tablas. Recuerde que para usar el valor absoluto en Excel, la sintaxis es ABS( ), y para el producto se usa el asterisco *. clases de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48 l mites reales xi [-0.5, 6.5) 3 [6.5, 13.5) 10 [13.5, 20.5) 17 [20.5, 27.5) 24 [27.5, 34.5) 31 [34.5, 41.5) 38 [41.5, 48.5) 48 TOTAL fi 44 96 74 48 21 12 5 n=300 xi f i 132 960 1258 1152 651 456 225 xi f i = 4834

x=

xi f i 4834 = = 16.113 horas semanales n 300

3.4. MEDIANA Y CUANTILES PARA DATOS AGRUPADOS clase: i 1a 2a 3a 4a 5a 6a 7a marca: xi 3 10 17 24 31 38 45 TOTALES xi x f i n frec: f i 44 96 74 48 21 12 5 n=300 xi x 13.1133333 6.11333333 0.88666667 7.88666667 14.8866667 21.8866667 28.8866667 93.66 xi x f i 576.98667 586.88000 65.61333 378.56000 312.62000 262.64000 144.43333 2327.73333

17

dm = d1 =

2327.73 = 7.7591 horas semanales 300

3.4. Mediana y cuantiles para datos agrupados


Todos los cuantiles (mediana, cuartiles, terciles o percentiles de cualquier tipo) se calculan mediante un procedimiento de interpolacin sencillo. Lo primero que hay que hacer es ubicar la clase en la que se o encuentra el cuantil correspondiente; luego se anota su l mite real inferior y se le suma una cierta fraccin o de la anchura de dicha clase. Veamos por ejemplo, cmo calculamos el primer cuartil Q1 : El 25 % del o total de datos es 300 = 75. Ahora vamos a sumar frecuencias de clases, de manera acumulada, hasta que 4 la suma que llevemos se pase de 75, y en la clase donde eso ocurra nos detenemos, ubicndola como la a clase buscada. Obviamente 44 + 96 = 140 > 75. Por consiguiente, el primer cuartil queda localizado en la segunda clase, cuyo l mite real inferior es 6.5. Ahora bien, observamos que la frecuencia de la segunda clase es 96 y su amplitud es 7. Luego entonces: ? 7 60 Lo que debemos anotar en lugar del signo de interrogacin es una cantidad tal, que sumada a las o frecuencias acumuladas de las clases anteriores a la clase donde est el primer cuartil, es decir, sumada a a 44, nos d el 25 % del total de datos, o sea 75. Qu debemos sumar a 44 para que d 75? Obviamente e e e 75-44 = 31. Por tanto, ? = 31. Entonces tenemos: Primer cuartil = Q1 = 6.5 + 31 7 = 8.76 horas semanales 96 Esto signica que el 25 % de la muestra de ni os ven la televisin desde 0 hasta 8.76 horas a la semana. n o Usemos ahora el mismo procedimiento para calcular el segundo cuartil, que coincide con la mediana. El trabajo es ms sencillo si tenemos una tabla de frecuencias acumuladas: a Q1 = 6.5 + clase 1a 2a 3a 4a 5a 6a 7a l mites reales [-0.5, 6.5) [6.5, 13.5) [13.5, 20.5) [20.5, 27.5) [27.5, 34.5) [34.5, 41.5) [41.5, 48.5) frecuencia 44 96 74 48 21 12 5 frecuencia acumulada 44 140 214 262 283 295 300

Como el 50 % de las observaciones es igual a 150, la mediana debe ubicarse en la tercera clase, cuyo l mite real inferior es 13.5. Luego: me = 13.5 + ? 7 74
10 74

donde, evidentemente, ? = 150 - 140 = 10. Por tanto:me = 13.5 +

7 = 14.446.

18

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

Esto se interpreta diciendo que el 50 % de los ni os de la muestra ven la televisin de 0 hasta 14.446 n o horas a la semana. Usemos ahora el mismo procedimiento para hallar el tercer cuartil Q3 : Como el 75 % del total de datos es 225, viendo la tabla de frecuencias acumuladas se aprecia que el tercer cuartil queda ubicado en la cuarta clase, cuyo l mite real inferior es 20.35. Luego:

Q3 = 20.25 +

225 214 7 = 21.854 horas semanales 48

. Interpretamos esto diciendo que el 75 % de los ni os de la muestra ven la televisin desde cero hasta n o 21.854 horas a la semana. (tambin se puede decir que 25 % de los ni os de la muestra ven la televisin e n o 21.854 horas a la semana o ms). a Calculemos ahora el noveno decil, es decir, D9 : Claramente, el 90 % de los datos es 270, por lo que el noveno decil se halla en la quinta clase, cuyo l mite real inferior es 27.5. Entonces:

D9 = 27.5 +

270 262 7030.167 horas semanales 21

. Lo que quiere decir que slo el 10 % del total de ni os de la muestra ven televisin ms de 30.16 6 o n o a horas a la semana. Calculemos ahora el percentil P96 . El 96 % de 300 es 288, por tanto el noveno decil est en la sexta a clase, cuyo l mite real inferior es 34.5. Entonces tenemos:

P96 = 34.5 +

288 283 7 = 37.416 horas a la semana 12

Lo que implica que 4 % de los ni os de la muestra ven televisin ese nmero de horas a la semana o n o u ms. a

3.5. La moda para datos agrupados y su interpretacin geomtrica o e


A diferencia de lo que se expuso antes para datos aislados, la moda para datos agrupados en clases es algo ms complicada de denir y de calcular. La moda es algn punto intermedio de la clase modal, la a u cual es la clase (o clases) que tiene(n) el rectngulo ms alto de todos. a a Por otra parte, la clase menos frecuente se llama antimoda. En la gura 3.4 siguiente se ilustra la clase antimodal y la clase modal de un histograma:

3.5. LA MODA PARA DATOS AGRUPADOS Y SU INTERPRETACION GEOMETRICA

19

Figura 3.4:

La moda es alg n punto de la clase modal, no necesariamente la marca de clase. Abajo veremos cmo u o denirla y calcularla.

Recurdese que la media de una muestra es un estad e stico muy sensible a la presencia de puntajes extremos, llamados puntajes aberrantes, mientras que la mediana no lo es, y tampoco lo es la moda. En estos casos, ninguna de estas medidas es totalmente satisfactoria como medida de tendencia central. Para datos aislados, una alternativa es una media ajustada (trimmed mean), la cual se afecta menos por los puntajes aberrantes que la media, y a n no tiene la insensibilidad de la mediana. Para datos aislados, una u media ajustada se encuentra ordenando las observaciones de menor a mayor, borrando un cierto n mero u de medidas en ambos extremos y promediando las medidas restantes; al porcentaje de valores borrados en cada extremo de la lista se le llama porcentaje de ajuste. En las competencias ol mpicas de clavados o gimnasia, siempre se toma una media ajustada de las calicaciones de los jueces, borrando la ms alta y a la ms baja. a

Para datos agrupados en clases no existe tal cosa como media ajustada, sin embargo, la moda es de mucho mayor utilidad prctica que para el caso de datos aislados. a

La interpretacin geomtrica de la moda para datos agrupados se aprecia en la siguiente gura: 3.5 o e

En la gura se han dibujado la clase modal y las dos clases adyacentes a ella. Los segmentos RT y QS unen, respectivamente, los vrtices ms altos del rectngulo correspondiente a la clase modal (la ms e a a a alta) con los vrtices ms cercanos de los dos rectngulos adyacentes. La proyeccin del punto P en el eje e a a o x es mo y es ese punto precisamente el que se dene como la moda.

20

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

Figura 3.5: En principio, obsrvese que los tringulos PQR y PST son semejantes, ya que tienen sus ngulos e a a respectivamente iguales. De la semejanza de dichos tringulos se sigue la proporcionalidad de sus lados, a es decir: PF EP = RQ ST Por otra parte, L1 y U1 son, respectivamente, los l mites reales inferior y superior de la clase modal, cuya anchura es c. Si mo es la abscisa que corresponde a la proyeccin del punto P, entonces o mo L1 U1 mo = 1 2 donde 1 y 2 simbolizan los excesos de frecuencia de la clase modal respecto a las clases anterior y posterior, respectivamente. Si despejamos mo de la relacin anterior, se obtiene: o mo = 1 U1 + 2 L1 1 + 2

Si ahora sustituimos U1 = L1 1 + c en la ultima frmula, se obtiene: o mo = (1 + 2 )L1 + 1 c 1 = L1 + c 1 + 2 1 + 2

Esta ultima frmula se adopta para el clculo de la moda: o a mo = L1 + 1 c 1 + 2

Apliquemos esta frmula en el ejemplo que se expuso antes, para una muestra de 300 ni os: o n

3.6. DESVIACION ESTANDAR PARA DATOS AGRUPADOS horas semanales que un nio ve n TV de 0 a 6 de 7 a 13 de 14 a 20 de 21 a 27 de 28 a 34 de 35 a 41 de 42 a 48 l mites reales de clase [-0.5, 6.5) [6.5, 13.5) [13.5, 20.5) [20.5, 27.5) [27.5, 34.5) [34.5, 41.5) [41.5, 48.5) frecuencia

21

44 96 74 48 21 12 5

La clase modal es, evidentemente, la segunda. Tenemos 1 = 96 44 = 52; 2 = 96 74 = 22; ademas, 1 + 2 = 74 (fue solo una casualidad que coincidiera con la frecuencia de la tercera clase). Por tanto, la moda es mo = 6.5 + 52 7 = 11.419. 74

3.6. Desviacin estndar para datos agrupados o a


La desviacin estndar es algo engorrosa de calcular usando slo papel, lpiz y calculadora, a menos o a o a de que se trate de slo unas cuantas clases. Por suerte, contamos con las hojas de clculo de Excel, que o a permiten hacer el trabajo operativo de modo rpido y preciso. a La desviacin estndar se calcula mediante la frmula siguiente: o a o (xi x)2 f i n donde xi son las marcas de clase y f i las respectivas frecuencias. Vamos a ver cmo se calcula la desviacin estndar para este mismo ejemplo: Abrimos una hoja de o o a clculo de Excel y efectuamos las operaciones de manera expedita como se presenta en el siguiente cuadro. a s= xi 3 10 17 24 31 38 45 (xi x)2 fi 171.959511 44 37.3728444 96 0.78617778 74 62.1995111 48 221.612844 21 479.026178 12 834.439511 5 Total: dividido entre n: ra cuadrada: z (xi x)2 f i 7566.21849 3587.79307 58.1771556 2985.57653 4653.86973 5748.31413 4172.19756 28772.1467 95.9071556 9.793219877

Por tanto, la desviacin estndar, aproximada a tres d o a gitos decimales es s = 9.793. Existe otra frmula alternativa y equivalente para el clculo de la desviacin estndar: o a o a s= xi2 f i n xi f i n
2

xi2 f i x2 n

Es muy fcil comprobar que esta frmula proviene de la conocida igualdad para la varianza poblacional a o de una distribucin de frecuencias relativas cualquiera: o varianza poblacional: 2 = (xi x)2 pi = xi2 pi x2
f

donde pi es la probabilidad (o frecuencia relativa) de xi . Para datos agrupados, pi = ni . Esta igualdad se demuestra fcilmente si se desarrolla (xi x)2 en la suma del miembro izquierdo. a

22

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

Ntese tambin que para datos aislados existe una varianza muestral y otra poblacional, que se difeo e rencian porque en el denominador de la primera aparece n 1, mientras que en el de la segunda es n. Para datos agrupados no existe tal diferencia. Observacin importante: La imprecisin que se introduce en el manejo estad o o stico de datos agrupados en clases al tomar una marca de clase como representativa del intervalo, hace que algunas de las leyes fundamentales de la estad stica no sean aplicables a datos agrupados. Por ejemplo, para variables aisladas ya sea discretas o continuas, se puede demostrar con todo rigor que la mediana es el parmetro que a minimiza el error absoluto medio. Para datos agrupados en clases, la validez de esa ley deja de ser aplicable. Ilustraremos este detalle con nuestro mismo ejemplo del n mero de horas semanales que los ni os miran u n la televisin. Abrimos una hoja de clculo de Excel y planteamos las operaciones que se indican: o a xi 3 10 17 24 31 38 45 TOTALES fi 44 96 74 48 21 12 5 N = 300
i pi = 300 0.1466667 0.3200000 0.2466667 0.1600000 0.0700000 0.0400000 0.0166667 1.0000000

xi x p i 1.92328889 1.95626667 0.21871111 1.26186667 1.04206667 0.87546667 0.48144444 7.7591111

xi m e p i 1.6787387 1.4227027 0.6300000 1.5286486 1.1587838 0.9421622 0.5092342 7.8702703

xi m o p i 1.23477477 0.45405405 1.37666667 2.01297297 1.37067568 1.06324324 0.55968468 8.07207207

Las sumas inferiores de las tres ultimas columnas son, respectivamente, la desviacin promedio de la o media (desviacin media), la desviacin promedio de la mediana y la desviacin promedio de la moda. o o o Como podemos apreciar, la desviacin promedio de la media result menor que la desviacin promedio o o o de la mediana, lo cual ser imposible para valores aislados de una variable aleatoria discreta o continua, a ya que en tales casos se demuestra que la mediana es el parmetro que minimiza el error absoluto medio. a Existen otras medidas de dispersin menos usuales, adems de la varianza, la desviacin estndar y las o a o a tres desviaciones promedio. Por ejemplo, el rango semiintercuartil Q es la distancia media entre el primer cuartil y el tercero, esto es: Q3 Q1 2 El rango semiintercuartil se usa como una estimacin rpida y aproximada de los valores l o a mites de la variable que abarcan a menudo entre un 50 % y hasta un 70 % de las frecuencias relativas de toda la muestra (dependiendo de que la distribucin sea simtrica o sesgada). Para el ejemplo que se examin o e o en esta seccin, el siguiente cuadro es un comparativo de las cinco medidas de dispersin ms usuales o o a (en orden de importancia). Se excluye la varianza porque sta no se expresa en las mismas unidades. Se e indican asimismo los s mbolos empleados : Q= desviacin estndar (o desviacin t o a o pica) desviacin media (desviacin promedio de la media) o o desviacin promedio de la mediana o desviacin promedio de la moda o Rango semiintercuartil s d1 d2 d3 Q 9.79322 7.75911 7.87027 8.07207 6.54687

3.7. EJERCICIOS DE EVALUACION

23

3.7. Ejercicios de evaluacin o


Te invito a poner a prueba tu aprovechamiento en el estudio de la leccin, tomando papel y lpiz (y o a tambin tu computadora) para tratar de resolver los siguientes cinco ejercicios en menos de una hora y e tres cuartos. La pregunta 2 vale cuatro puntos, y en las dems preguntas se da un punto por cada magnitud acertada a de lo que se pregunta. El mximo n mero de aciertos posibles es, por tanto, 20. a u Si obtiene menos de 13 aciertos, entonces tal vez debers repasar de nuevo esta leccin y la anterior a o antes de seguir adelante. De 13 a 14 aciertos es regular, de 15 a 17 bueno, 18 o 19 es muy bueno, y 20 aciertos est fantstico y te hace acreedor a una calurosa felicitacin!!! a a o 1. En una hoja de clculo de Excel haga un comparativo de los errores cuadrticos medios de la a a media, mediana y moda, para el mismo ejemplo que se manej a lo largo de esta leccin (las horas o o semanales que lo ni os ven televisin). Se supone que el error cuadrtico medio de la media (es decir, n o a la varianza) debe ser el m nimo. Compruebe si en efecto ocurre as (tres puntos) . 2. Para el mismo ejemplo de la pregunta 1, compruebe si en efecto ocurre que al trazar una l nea a vertical en el histograma, justo en el punto me = 13.5 + 10 7 , el rea que queda en el histograma a 74 mano izquierda es el 50 % del area total del histograma. [Sugerencia: podr ser ms cmodo para a a o usted emplear fracciones y no aproximaciones decimales]. (cuatro puntos por el valor exacto de las a reas y slo tres por una aproximacin decimal razonable) o o 3. El siguiente cuadro resume el n mero de d de estancia post operatoria en el Hospital General u as Manuel Gea Gonzlez al sur de la ciudad de Mxico, para una muestra aleatoria de 400 pacientes a e que fueron intervenidos quir rgicamente en ese hospital: u d as de estancia post operatoria 1a3 4a6 7a9 10 a 12 n mero de pacientes u d as de estancia post operatoria 13 a 15 16 a 18 19 a 21 22 a 24 n mero de pacientes u

48 166 104 44

22 10 4 2

En una sola hoja de clculo de Excel calcule la media, la desviacin media, la varianza, y la desviacin a o o estndar. [Sugerencia: En la primera columna anote las marcas de clase, en la segunda las frecuencias, a en la tercera las frecuencias relativas, etc.]. (cuatro puntos) 4. Para los datos del ejercicio 3, calcule a) la mediana, b) el cuartil Q1 , c) el cuartil Q3 , d) el rango semiintercuartil Q, e) el percentil P87 y f) d una interpretacin del percentil P87 . (seis puntos) e o 5. Para los mismos datos del ejercicio 3, calcule a) la moda, b) la desviacin media de la mediana y c) o la desviacin media de la moda. (tres puntos) o

24

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

3.8. Glosario de Trminos e


Alcance Distancia entre los valores ms bajo y ms a a alto de un conjunto de datos. Alcance intercuartil Diferencia entre los valores del primer y tercer cuartil; esta diferencia representa el alcance de la mitad central del conjunto de datos. Alcance interfractil Medida de la dispersin entre o dos fractiles de una distribucin; es decir, la difeo rencia entre los valores de dos fractiles. Anlisis exploratorio dedatos (EDA) Mtodos para a e analizar datos que requieren de muy pocas suposiciones principales. Clase mediana Clase de una distribucin de frecueno cias que contiene el valor mediano de un conjunto de datos. Codicacin Mtodo para calcular la media de los o e datos agrupados mediante la recodicacin de los o valores de los puntos medios de las clases a valores ms sencillos. a Coeciente de variacin Medida relativa de la diso persin, comparable por medio de distribuciones dio ferentes, que expresa la desviacin estndar como o a porcentaje de la media. Cuartiles Fractiles que dividen los datos en cuatro partes iguales. Curtosis El grado de agudeza de una distribucin o de puntos. Deciles Fractiles que dividen los datos en diez partes iguales. Desviacin estndar Ra cuadrada positiva de la o a z varianza; medida de dispersin con las mismas unio dades que os datos originales, ms bien que en las a unidades al cuadrado en que esta la varianza. Dispersin La extensin o variabilidad de un cono o junto de datos. Distribucin bimodal Distribucin de puntos de dao o tos en la que dos valores se presentan con ms frea cuencia que los dems elementos del conjunto de a datos. Estad stica Medidas numricas que describen las e cracter sticas de una muestra. Representadas por cracteres latinos. Estad stica sumaria N meros solos que describen u ciertas caracter sticas de un conjuntode datos. Fractil En una distribucin de frecuencias, es la poo sicin de un valor en, o por encima de, una fraccin o o dada de los datos. Media Medida de tendencia central que representa elpromedio aritmtico de un conjuntode observacioe nes. e Media geomtrica Medida de tendencia central utilizada para medir la tasa promedio de cambio o de crecimiento de alguna cantidad, se calcula tomando la n-sima ra del producto de n valores que repree z sentan el cambio. Media pesada Promedio que se calcula con el n de tomar en cuenta la importancia de cada valor con respecto al total, esto es, un promedio en el que cada valor de observacin es pesado por algn o u ndice de su importancia. Mediana Punto situado a la mitad del conjunto de datos, medida de localizacin que divide al conjunto o de datos en dos partes iguales. Medida de dispersin Medida que describe cmo se o o dispersan o distribuyen las observaciones de un conjunto de datos. Medidad de distancia Medida de dispersin en tro e minos de la diferencia entre dos valores del conjunto de datos. Medida de tendencia central Medida que indica el valor esperado de un punto de datos t pico o situado en el medio. Moda El valor que ms a menudo se repite e n un a conjunto de datos. Esta representado por el punto ms alto de la curva de distribucin de un conjunto a o de datos. Parmetros Valores numricos que describen las caa e racter sticas de una poblacin completa, se les reo presenta generalmente con letras griegas. Percentiles Fractiles que dividen los datos en 100 partes iguales. Resultado estndar Expresin de una observacin a o o en trminos de unidades de desviacin estndar por e o a encima o por debajo de la media; es decir, la transformacin de una observacin al restarle la media y o o dividirla entre la desviacin estndar. o a Sesgo Grado de una distribucin de puntos est cono a centrada en un extremo o en el otro; falta de simetr a. Simtrica Caracter e stica de una distribucin en la o que la mitad es la imagen especular de la otra. Teorema de Chebyshev No importa qu forma tene ga la distribucin, al menos 75 % de los valores de o a la poblacin caern dentro de dos desviaciones eso tndar a partir de la media, y al menos 89 % caer a a dentro de tres desviaciones estndar. a Varianza Medida de la distancia cuadrada promedio entre la media y cada observacin de la poblacin. o o

3.9. FORMULAS DE TENDENCIA CENTRAL Y DE DISTRIBUCION

25

3.9. Frmulas de tendencia central y de distribucin o o


Ecuaciones introducidas en el cap tulo

X (3.2) N La media aritmtica de la poblacin es igual a la suma de los valores de todos los elementos de la poblacin e o o (X) dividida entre el n mero total de elementos que componene la poblacin (N ). u o = x (3.3) n Para calcular la media aritmtica de la muestra, sume los valores de todos los elementos de la muestra e (x) y divida el resultado entre el n mero total de elementos contenidos en la muestra (n) u x= x= (f x) n (3.4)

Para encontrar la , calcule los puntos medios (n) de cada clase de la muestra. Luego multiplique cada punto medio por la frecuencia (f ) de observaciones de cada clase, sume () todos estos productos y divida la suma entre el n mero total de observaciones de la muestra (n). u (u f ) (3.5) n Esta frmula nos permite calcular la media aritmtica de la muestra para datos agrupados mediante el o e uso de de cdigos, esto con el n de evitarnos trabajar con puntos medios muy grandes o inconvenientes. o Asigne estos cdigos (u) de la manera siguiente: asigne el valor de cero al punto medio (denotado con x0 ), o enteros positivos consecutivos a los puntos medios mayores a x0 y enteros consecutivos negativos a los puntos medios menores. Luego multiplique el cdigo asignado a cada clase (u) por la frecuencia (f ) de las o observaciones de cada clase y sume () todos los productos. Divida el resultado entre el nmero total de u observaciones de la muestra (n), multiplique por el ancho numrico del intervalo de clase (w) y sume el e valor del punto medio correspondiente al cdigo cero (x0 ). o x = x0 + w (w x) (3.6) w e La media pesada, xw , es un promedio que toma en cuenta qu tan importante es cada valor con respecto al total. Podemos calcular este promedio multiplicando el peso, o proporcin, de cada elemento (w) por el o momento correspondiente (x), sumando el resultado de todos esos productos () y dividiendo esta cantidad entre la suma de todos los pesos (w). xw = M.G. =
n

producto de todos valores x

(3.7)

La media geomtrica o M.G. es adecuada siempre que necesitemos medir la tasa promedio de cambio (tasa e de crecimiento) en un cierto periodo. En esta ecuacin, n es igual al nmero de valores x que aparecen en o u el problema. Mediana = n+1 esimo t ermino del arreglo de datos 2 (3.8)

en donde n= nmero de elementos del ordenamiento de datos u La mediana es un solo valor que mide el elemento central del conjunto de datos. La mitad de las observaciones quedan por arriba de la mediana y la otra mitad por debajo. Si el conjunto de datos contiene un n mero impar de observaciones, el elemento de enmedio es la mediana. Para un n mero par de elementos, u u

26

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

la mediana es el promedio de las dos observaciones de un medio. Utilice esta ecuacin cuando los datos o no etn agrupados. a (n+1) 2 (F + 1 w + L m= m fm (3.9)

Esta frmula nos permite encontrar la mediana de la muestra de datos agrupados. En ella, n es igual al o n mero total de observaciones de la distribucin; F es la suma de todas las frecuencias de clase hasta la u o clase mediana, sin incluir esta ultima; f m es la frecuencia de las observaciones de la clase mediana; w es el ancho de intervalos de clase, y Lm es el l mite inferior del intervalo de la clase mediana. Mo = LMo + d1 w d1 + d2 (3.10)

La moda es el valor que con ms frecuencia se repite en el conjunto de datos. Para hallar la moda de datos a agrupados (denotada con Mo), utilice esta frmula y tome a LMo igual al l o mite inferior de la clase modal; a d1 como la frecuencia de la clase modal menos la frecuencia de la clase que est inmediatamente debajo de ella; d2 igual a la frecuencia de la clase modal menos la frecuencia de la clase que est inmediatamente a por encima de ella; y w como el ancho del intervalo de la clase modal. Alcance = xmax xmin (3.11)

El alcance es la diferencia entre el valor ms alto xmax y ms bajo xmin de una distribucin de frecuencias. a a o Alcance intercuartil = Q3 Q1 (3.12)

El alcance intercuartil mide aproximadamente qu tan lejos de la mediana debemos desplazarnos a ambos e lados antes de que podamos incluir una mitad de los valores delconjunto de datos. Para calcular este alcance, divida los datos en cuatro partes iguales. Los cuartiles (Q) son los valores ms altos de cada una a de esas cuatro partes. El alcance intercuartil es la diferencia entre los valores del primer y el tercer cuartil (Q1 y Q3 ). 2 = (X )2 X 2 = 2 N N
(X)2 N

(3.13)

Esta frmula nos permite calcular la varianza de la poblacin, una medida de la distancia cuadrada o o promedio entre la media y cada observacin de la poblacin. La expresin de en medio, o o o 2.
X 2 N

es la

La ultima expresin, o es matemticamente equivalente a la denicin, pero, a a o denicin de o menudo, es mucho ms conveniente de usar, debido a que nos libera del clculo de las desviciones de la a a media. = 2 = (X )2 = N X 2 2 N (3.14)

La desviacin estndar de la poblacin, , es la ra cuadrada de la varianza de la poblacin. Es un o a o z o parmetro ms util que la varianza, debido a que se expresa en las mismas unidades que los datos (mientras a a que las unidades de la varianza son el cuadrado de las unidades de los datos). La desviacin estndar es o a siempre la ra cuadrada positiva de la varianza. z Resultado est andar de la poblaci on = x (3.15)

El resultado estndar de una observacin es eln mero de desviaciones estndar que la observacin est a o u a o a separada hacia abajo o hacia arriba de la media de la distribucin. El resultado estndar nos permite o a hacer comparaciones entre los elementos de la distribucin que dieren por ordenes de magnitud o en las o unidades empleadas. Utilice la ecuacin 3-14 para encontrar el resultado estndar de una observacin de o a o una poblacin. o

3.10. PRACTICAS

27

f (X )2 f X 2 = 2 (3.16) N N Esta frmula, en cualquiera de sus formas, nos permite calcular la varianza de los datos ya agrupados o en una distribucin de frecuencias. En sta, f representa la frecuencia de la clase y X es el punto medio. o e 2 = f (X )2 f X 2 = 2 (3.17) N N Tome la ra cuadrada de la varianza y obtendr la desviacin estndar utilizando datos agrupados. z a o a x2 nx 2 (x x)2 = (3.18) n1 n1 n1 Para calcular la varianza de la muestra, utilice la misma frmula de la ecuacin 3-12, sustituyendo con o o x y N con n 1. s2 = nx 2 (x x)2 x2 = (3.19) n1 n1 n1 La desviacin estndar es la ra cuadrada de la varianza de la muestra. Es parecida a la ecuacin 3-13, o a z o slo que est sustituida por la media de la muestra x y N se cambia por n 1. o a xx s Utilice esta ecuacin para encontrar el resultado estndar de una observacin en una muestra o a o Resultado est andar de la ecuaci on = Coef iciente de variaci on de la poblaci on = (100) (3.20) s = s2 = = 2 =

(3.21)

El coeciente de variacin es una medida relativa de la dispersin que nos permite comparar dos distrio o buciones. Relaciona la desviacin estndar como porcentaje de la media. o a

3.10. Prcticas a
3.10.1. Prctica tres: Clasicacin de datos. a o
OBJETIVO: Que el alumno sea capaz de aplicar los conceptos bsicos de la clasicacin de datos. a o ACTIVIDAD: Resolver los ejercicios siguientes: 1. Establecer cules de estos datos son discretos y cules continuos: a a a. Temperaturas medidas en un laboratorio cada media hora. b. Ingresos anuales de los profesores de educacin media. o c. Longitudes de 100 tornillos producidos en una empresa. d. N mero de estudiantes en un aula de la UTXJ. u Soluciones: continuo, continuo, continuo, discreto. 2. Clasicar cada una de las siguientes variables: a. Distancia diaria recorrida por cada estudiante para ir de su casa a la universidad. b. Tiempo que requiere un estudiante para responder a un examen. c. Llamadas que llegan a la central telefnica de la UTXJ en un d o a. d. Preferencia por cierta marca de refresco.

28

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA e. Color del cabello de las estudiantes que toman el curso de estad stica en el cuatrimestre. f. N mero de acciones vendidas en un d en la Bolsa Mexicana de Valores. u a g. Vida media de los tubos de televisin producidos por una fbrica. o a Soluciones: cuantitativa-continua, cuantitativa-continua, cuantitativa-discreta, cualitativa-discreta, cualitativa-discreta, cuantitativa-discreta, cuantitativa-continua. 3. Se ha hecho un estudio para determinar la preferencia de una marca especial de detergente por parte de las amas de casa. Entre las 50 amas de casa entrevistadas, 30 dijeron que prefer esta marca. an a. Qu constituye la muestra?. e a. Qu constituye la poblacin? e o c. Cul es la proporcin, dentro de la muestra, de las amas de casa que preeren la marca del a o detergente? Soluciones: el conjunto de respuestas que dieron las 50 amas de casa., el conjunto formado por las posibles respuestas de las amas de casa., 0.6. 4. En una esta, el 50 % de los invitados son hombres. De todos los hombres de la esta, el 40 % son calvos y de ellos el 50 % habla ingls. Si 4 calvos hablan ingls. Cuntas mujeres hay en la esta? e e a Solucin: 20 mujeres. o

3.10.2. Prctica cuatro: Estad a stica descriptiva.


OBJETIVO: Que el alumno sea capaz de aplicar los conceptos bsicos de la estad a stica descriptiva a situaciones reales. ACTIVIDAD: Recopilar informacin de 100 alumnos de la UTXJ acerca de cunto gastan diariamente o a en la escuela? Con los datos obtenidos realizar: Organizacin de los datos. o Elaboracin de una distribucin. o o Tabla de frecuencias. Representacin de la distribucin de frecuencias en un histograma, pol o o gono de frecuencias y un pol gono de frecuencias acumuladas. Interpretacin de los datos. o

3.10.3. Prctica cinco: Medidas de tendencia central y medidas de dispersin. a o


OBJETIVO: Que el alumno conozca, calcule e interprete las medidas de tendencia central y las medidas de dispersin. o ACTIVIDAD: Realiza los ejercicios siguientes: 1. Hallar la media aritmtica, la mediana y la moda de los n meros: 3, 5, 2, 5, 9, 5, 2, 8, 6. e u Solucin: = 5, Med = 5, Mo = 5 o

3.10. PRACTICAS

29

2. Los datos adjuntos representan el promedio de millas por galn diario por 5 d para los carros A o as y B, en condiciones similares: A 20 25 30 15 35 B 15 27 25 23 35 a) Encuentre la media y el rango de millas por galn para cada carro. o b) Cul carro parece haber logrado un rendimiento ms consistente, si la consistencia se determina a a examinando las varianzas?

Solucin: a) Ambos carros tienen el mismo rango (R = 20).Ambos carros tiene la misma media o ,(x = 25 millas por galn). b)El carro B es ms consistente. o a 3. Con los datos obtenidos en la prctica n mero cinco aplicar las frmulas de media mediana y moda a u o por el mtodo de datos agrupados. Adems, calcular e interpretar la amplitud total, desviacin e a o media, varianza y desviacin estndar. o a ACTIVIDAD: Para jar el conocimiento de una manera ms eciente se propone la realizacin de a o los ejercicios siguientes utilizando Excel:

4. La tabla muestra una distribucin de frecuencias de la duracin de 400 tubos de radio comprobados o o en la Ferretera Villa Jurez. a Duracin (horas) o [300-400) [400-500) [500-600) [600-700) [700-800) [800-900) [900-1000) [1000-1100) [1100-1200) N mero de tubos u 14 46 58 76 68 62 48 22 6

Completar la tabla para luego determinar: a) L mite superior de la quinta clase. b) L mite inferior de la octava clase. c) Marca de clase de la sptima clase. e d) Tama o del intervalo de clase. n e) Frecuencia de la cuarta clase. f) Frecuencia relativa de la sexta clase. g) Porcentaje de tubos cuya duracin es menor a las 600 horas. o h) Porcentaje de tubos cuya duracin es mayor o igual a 900 horas. o i) Porcentaje de tubos cuya duracin es al menos de 500 horas pero menor de 1000 horas. o j) Construir un histograma y un pol gono de frecuencias. k) Construir un histograma y un pol gono de frecuencias relativas. l) Construir una ojiva porcentual.

30

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA m) Estimar el porcentaje de tubos con duraciones de menos de 560 horas. Estimar el porcentaje de tubos con duraciones de 970 o ms horas. a o) Estimar el porcentaje de tubos con duraciones entre 620 y 890 horas. 5. En la ocina de la revista de divulagcin universitaria de la UTXJ, el tiempo que se tardan en o imprimir la primera plana fue registrado durante 50 d A continuacin se transcriben los datos, as. o aproximados a dcimas de minuto: e 20.8 25.3 23.7 21.3 19.7 22.8 20.7 20.3 21.5 24.2 21.9 22.5 23.6 23.1 23.8 22.0 21.2 19.0 19.9 20.7 20.7 23.8 25.1 24.2 23.8 20.9 23.3 25.0 24.1 24.3 25.0 20.9 19.5 19.8 21.1 22.2 22.9 24.1 23.9 20.9 22.8 23.5 24.2 22.8 21.6 20.1 19.5 21.8 23.9 22.7

a) Construya con los datos una tabla de distribucin de frecuencia, usando intervalos de 0.8 o minutos. b) Construya un pol gono de frecuencias. c) Construya una ojiva. d) Por medio de la ojiva estime que porcentaje de las veces la primera plana del peridico puede o imprimirse en menos de 24 minutos. Solucin: aproximadamente un 75.5 %. o 6. En Beverage Digest se informa que, con base en las ventas de 1998, las 5 marcas de refrescos que ms se vendieron fueron Coke Classic, Diet Coke, Dr. Pepper, Pepsi Cola y Sprite. La lista siguiente a proviene de una muestra de 50 compras de esas marcas: Coke Classic Diet Coke Pepsi Cola Pepsi Cola Coke Classic Dr.Pepper Pepsi Cola Dr.Pepper Coke Classic Coke Classic Dr.Pepper Coke Classic Diet Coke Coke Classic Coke Classic Sprite Pepsi Cola Pepsi Cola Coke Classic Diet Coke Sprite Diet Coke Coke Classic Diet Coke Coke Classic Sprite Coke Classic Diet Coke Pepsi Cola Pepsi Cola Coke Classic Coke Classic Coke Classic Coke Classic Pepsi Cola Coke Classic Dr.Pepper Dr.Pepper Pepsi Cola Sprite Pepsi Cola Pepsi Cola Diet Coke Coke Classic Coke Classic Sprite Coke Classic Pepsi Cola Diet Coke Pepsi Cola

a) Construir la tabla de distribucin de frecuencias. o b) Construir una grca de barras y un diagrama de pastel. a c) Qu porcentaje de las ventas tienen Pepsi Cola y Coke Classic?. e Solucin: 26 % y 38 %. o 7. La siguiente tabla representa la edad de los empleados que trabajan en la empresa de Crnicos a Ta-Kin: Edad [22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50) N de Empleados 12 29 27 19 16 10 7

3.10. PRACTICAS Calcular: a) Edad ms frecuente. a b) La edad que se encuentra justo en el 50 % de la distribucin. o c) La edad m nima del 40 % entre los mayores. d) Porcentaje entre 28 y 40 a os. n e) Porcentaje entre x s. f) Calcule la curtosis e interprete. g) Calcule el coeciente de asimetr e interprete. a Solucin: a) 29.58 b) 32.81 c) 34.84 d) 57.09 e) 64.18 % g) 0.47. o

31

32

CAP ITULO 3. ESTAD ISTICA DESCRIPTIVA

4 Probabilidad
4.1.

Introduccin o

La teora de la probabilidad es la parte de las matemticas que se encarga del estudio de los fenmenos a o o experimentos aleatorios. Un experimento aleatorio es aquel experimento que cuando se le repite bajo las mismas condiciones iniciales, el resultado que se obtiene no es siempre el mismo. El ejemplo ms sencillo a y cotidiano de un experimento aleatorio es el lanzar una moneda o un dado. En principio no sabemos cul ser el resultado del experimento aleatorio, as que cuando menos conviene agrupar en un conjunto a a a todos los resultados posibles. El el espacio muestral de un experimento aleatorio es el conjunto de todos los posibles resultados del experimento, se le denota por la letra griega (omega). Un evento es cualquier subconjunto del espacio muestral. Denotaremos a los eventos por las letras A, B, C,...,Z Por ejemplo, si el experimento aleatorio consiste en lanzar un dado y observar el nmero que aparece u en la cara superior entonces claramente = {1, 2, 3, 4, 5, 6} . Y como ejemplo de evento podemos escribir A = {2, 4, 6} que corresponde al evento de obtener un n meu ro par como resultado. Cualquier subconjunto de es entonces un evento. Dado que estaremos trabajando con conjuntos, recordaremos a continuacin algunas operaciones entre conjuntos y algunas propiedades o que nos sern de utilidad en el estudio de la probabilidad y la estad a stica. Suponemos entonces que es nuestro conjunto universal y cualquier elemento de de lo denotaremos por (omega min scula). El u conjunto vac lo denotaremos por . Otros s o mbolos usuales son los de pertenencia () o no pertenencia ( ) de un conjunto en otro. Si A es un conjunto, denotamos la cardinalidad o n mero de elementos del u conjunto A como #A. a o Sean A y B dos subconjuntos cualesquiera de . Recordemos las operaciones bsicas de unin, interseccin, diferencia y complemento respectivamente y mediante diagramas de Venn se ilustran grcamente, o a A B = { : A B}, o A B

Figura 4.1: A B:Unin de dos conjuntos A B o o

33

34

CAP ITULO 4. PROBABILIDAD

A B = { : A y B}, A B

Figura 4.2: A B:Interseccin de dos conjuntos A y B o A B = { : A y

B},

Figura 4.3: A B:Diferencia de dos conjuntos A menos B Ac = { :

A},

Figura 4.4: Ac :Conjunto complemento de A, coleccin de elementos fuera del conjunto A o Cuando los conjuntos se expresan en palabras, la operacin unin se lee A o B y la interseccin, AB, o o o se lee A y B. El complemento, Ac , se interpreta como la coleccin de aquellos elementos que estn fuera o a de A.

4.1.

INTRODUCCION

35

Recordemos tambin que la operacin diferencia simtrica entre dos conjuntos A y B, es denotada por e o e AB y denida como sigue AB = (A B) (B A) En la gura 4.5 ilustramos grcamente la diferencia simtrica entre los conjuntos A y B. a e A B

Figura 4.5: AB:Diferencia simtrica de A y B e Decimos que dos conjuntos A y B son ajenos (o disjuntos) si y solo si A B = . Anlogamente decimos a que n conjuntos A1 , A2 , . . . , An son ajenos (o mutuamente ajenos) si Ai Aj = para cualquiera valores de los ndices i, j = 1, 2, . . . , n, con i distinto de j. Es fcil demostrar que el conjunto vac y que el conjunto universal satisfacen las siguientes a o propiedades elementales A = A, A = , A = , Las operaciones unin e interseccin son asociativas, esto es, o o A (B C) = (A B) C A (B C) = (A B) C y tambin distributivas, e A (B C) = (A B) (A C), A (B C) = (A B) (A C), Recordemos adems las leyes de Morgan, a (A B)c = Ac Bc , (A B)c = Ac Bc , Estas igualdades pueden extenderse a colecciones nitas e innitas e incluso arbitrarias de conjuntos. El conjunto potencia de , denotado por 2 , es aquel conjunto cuyos elementos son todos los subconjuntos posibles de . Por ejemplo, si = {a, b, c} entonces el conjunto 2 consta de 8 elementos, A = A, A Ac = , A Ac = ,

36

CAP ITULO 4. PROBABILIDAD

2 = {, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, } No es dif ver que #(2 ) = 2# . Parael ejemplo anterior. #(2 ) = 2# = 23 = 8. De este hecho proviene cil la notacin usada para el conjunto potencia, 2 . o Finalmente recordemos que el producto Cartesiano de dos conjuntos A y B, denotado por A B, se dene como la coleccin de todas las parejas ordenadas (a, b) en donde a es cualquier elemento de A y b o es cualquier elemento de B. En s mbolos, A B = {(a, b) : a A, b B}. En general los conjuntos A B y B A son diferentes pues (a, b) (b, a), sin embargo ambos tienen la misma cardinalidad, esto es, #(A B) = #(B A). Ms a n, si #A = n y #B = m entonces #(A B) = n m. a u Y ms generalmente a #(A1 A2 An ) = #A1 #A2 . . . #An Estamos interesados en calcular probabilidades en los diferentes eventos, i.e. subconjuntos de , que resultan al estudiar experimentos aleatorios. En la siguiente seccin estudiaremos algunas formas de denir o matemticamente la probabilidad de un evento cualquiera. a .

4.2.

Probabilidad bsica a

La probabilidad de un evento A es un n mero real que denotaremos por P(A), y representa una medida u de la frecuencia con la que se observa la ocurrencia del evento A cuando se efect a el experimento aleatorio u en cuestin. Tenemos al menos cuatro deniciones de probabilidad que explicamos a continuacin o o a Denicin 4.1 Probabilidad clsica: Sea A un subconjunto de un espacio muestral de cardinalidad nita. o Denimos P(A) como sigue. #A # Claramente la denicin anterior es slo vlida para espacios muestrales nitos pues necesitamos o o a # < . Adems el espacio debe ser equiprobable pues para calcular P(A) unicamente necesitamos a contar cuantos elementos tiene A respecto del total , sin importar exactamente qu elementos sean. e Por lo tanto, esta denicin de probabilidad presupone que todos los elementos de son igualmente o probables. Este ser el caso de un dado equilibrado. a P(A) = Denicin 4.2 Probabilidad frecuentista: Supongamos que realizamos n veces el experimento aleatorio en o cuestin. Denotemos por nA el nmero de ocurrencias del evento A en las n realizaciones del experimento. o u Denimos entonces P(A) como sigue n P(A) = lm A n n En este caso, debemos hacer notar que no es humanamente posible llevar a cabo una innidad de veces el experimento aleatorio para encontrar P(A). Esta limitacin hace que esta denicin de probabilidad no o o sea enteramente formal. Denicin 4.3 Probabilidad subjetiva: En este caso la probabilidad de un evento depende del observador, o es decir, segn lo que el observador conozca del objeto. u a o a o Denicin 4.4 Probabilidad axiomtica: En la denicin axiomtica de la probabilidad no se establece cmo o se calculan las probabilidades sino unicamente se proponen las reglas que la probabilidad debe satisfacer.

4.3.

ANALISIS COMBINATORIO

37

Los siguientes son tres postulados o axiomas establecidos por A. N. Kolmogorov en 1933. AXIOMAS DE LA PROBABILIDAD 1. P(A) 0. 2. P() = 1 3. P(A B) = P(A) + P(B) cuando A B =

No es dif vericar que nuestra deniciones anteriores de probabilidad satisfacen estos tres axiomas. cil De hecho, stos axiomas que le pedimos a la probabilidad han sido tomadas directamente de las deniciones e anteriores. Como consecuencia de estos postulados es posible demostrar que la probabilidad cumple, entre otras, con las siguientes propiedades.

ALGUNAS PROPIEDADES DE LA PROBABILIDAD: a) P(Ac ) = 1 P(A). b) P() = 0. c) Si A B entonces P(A) P(B). d) 0 P(A) 1. e) P(A B) = P(A) + P(B) P(A B). f) P(ABC) = P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)

4.3.

Anlisis combinatorio a

Es muy frecuente que en un experimento aleatorio el espacio muestral sea un conjunto nito y cada elemento de tenga la misma probabilidad de ocurrir, es decir, el espacio es equiprobable. En estos #A casos hemos denido la probabilidad clsica de un evento A como sigue: P(A) = # . a Para poder aplicar esta denicin necesitamos saber contar cuantos elementos tiene un conjunto A. o Cuando podemos poner en una lista todos los elementos de A entonces es fcil conocer la cardinalidad de a A. Sin embargo, es com n enfrentar situaciones en donde es tedioso y tardado escribir cada elemento de u A cuando unicamente nos interesa conocer #A. En esta seccin estudiaremos algunas tcnicas de conteo o e que nos ayudarna a calcular #A en ciertos casos. a El principio de multiplicacin que enunciamos a continuacin es la base de muchos clculos en tcnicas o o a e de conteo. o Denicin 4.5 Principio de multiplicacin: Si un procedimiento puede efectuar de n formas distintas y o un segundo procedimiento puede realizarse de m formas diferentes, entonces el total de formas que puede efectuarse el primer procedimento seguido del segundo es nm. Por ejemplo, un experimento aleatorio consiste en seleccionar un dado y despus selecionar al azar una e letra del alfabeto. Cul es la cardinalidad del correspondiente espacio muestral? Solucin. El experimento a o de lanzar un dado tiene 6 resultados posibles y consideremos que tenemos un alfabeto de 26 letras. El correspondiente espacio muestral tiene entonces cardinalidad 6 26 = 156. Vamos a considerar a continuacin diferentes esquemas y contextos en donde es posible encontrar una o frmula matatemtica para ciertos problemas de conteo. o a

38

CAP ITULO 4. PROBABILIDAD

4.3.1. Ordenaciones con repeticin o


Supongamos que tenemos una urna con n objetos distintos. Deseamos realizar k extracciones al azar de un objeto a la vez. Al efectuar una extraccin, registramos el objeto escogido y lo regesamos a la urna. o De esta forma el mismo objeto puede ser extra varias veces. El total de arreglos que se pueden obtener do o de esta urna al hacer k extracciones es nk , pues en cada extracin tenemos n objetos posibles para escoger y efectuamos k extracciones. Esta frmula es consecuencia del principio de multiplicacin enunciado antes. o o A este nmero se le llama ordenaciones con repeticin. u o

4.3.2. Factoriales
La pregunta bsica acerca del total de formas en que podemos poner orden lineal (uno detrs de otro) a a n objetos distintos tiene como respuesta el factorial de n, denotado por n! y denido como sigue n! = n(n 1)(n 2) . . . (3)(2)(1) . Tambin se le conoce como las permutaciones de n objetos y se usa la notacin P(n) = n!. Por ejemplo, si e o deseamos conocer el total de formas distintas en que podemos colocar una enciclopedia de 5 vol menes en u un librero, la respuesta es claramente 5! = 54321 = 120. El razonamiento es el siguiente: Cualquiera de los 5 libros puede ser colocado al principio, quedan cuatro libros por colocar en la segunda posicin, o restan entonces tres posibles para la tercera posicin, y as sucesivamente. Por el pricipio multiplicativo o la respuesta es entonces el producto de estos n meros. Denimos 0! = 1. u

4.3.3. Permutaciones
A veces no queremos ordenar todos los n objetos de un conjunto sino unicamente k de ellos (k n). La respuesta al total de arreglos lineales que podemos obtener de este modo es el n mero: (n)(n 1)(n u 2) (n k + 1). Primeramente debemos observar que hay k factores en la expresin anterior. El primer o factor es debido a que tenemos cualesquiera de los n objetos para ser colocado en primera posicin, para o la segunda posicin tenemos ahora n 1 objetos, para la tercera n 2 objetos, etc. Este razonamiento o termina al escoger el k-simo objeto para cual tenemos unicamente nk +1 posibilidades. Nuevamente por e el principio multiplicativo, la respuesta es el producto indicado. La respuesta encontrada puede escribirse como sigue: P(n, k) = y se lee permutaciones de n en k. n! (n k)!

4.3.4. Combinaciones
Supongamos ahora que nos interesa el orden en que se escogen k objetos de un conjuntode n objetos (k n), entonces en la expresin encontrada antes n!/(n k)!, cada arreglo esta siendo contado k! veces o siendo que es el mismo pues el orden no importa. Para obtener arreglos en donde el orden no importa debemos entonces dividir por k!. La respuesta a la que llegamos se llama combinaciones de n en k que se denota y dene como sigue n n! = k!(n k)! k Tambin se le conoce como coeciente binomial de n en k. e Si ahora tenemos n objetos no necesariamente distintos, por ejemplo, supongamos que tenemos k1 objetos de un primer tipo, k2 objetos de un segundo tipo, y asi sucesivamente, hasta km objetos del tipo m, en donde k1 + k2 + . . . + km = n, entonces estos n objetos pueden todos ordenanarse uno detrs de otro a de tantas formas distintas como se indica el asi llamado coeciente multinomial,

4.4.

PROBABILIDAD CONDICIONAL E INDEPENDENCIA


n k1 k2 . . . km1 km = n! k1 ! k2 ! . . . km1 ! km !

39

4.4.

Probabilidad condicional e independencia


P(A B) P(B)

Sean A y B dos eventos en donde P(B) > 0. Denimos la probabilidad condicional del evento A dado el evento B como sigue P(A|B) =

El evento B representa informacin adiconal acerca del experimento aleatorio. En general, cuando o encontramos la expresin P(A|B) estaremos suponiendo impl o citamente que P(B) > 0. Por ejemplo, consideremos el experimento de lanzar un dado equilibrado. Claramente el espacio muestral = {1, 2, 3, 4, 5, 6} es equiprobable. Sean los eventos A = {2} y {2, 4, 6} = Cae par. Entonces P(A) = 1/6 mientras que P(A|B) = 1/3. Obervamos entonces que conocer la informacin de la ocurrencia de vento B, o ha afectado la probabilidad del evento A. Decimos tambin que dos eventos A y B son independientes si sucede que e P(A B) = P(A)P(B) . Ms generalmente, los eventos A1 , A2 , . . . , An son independientes si se satisfacen todas las condiciones, a siguientes,

P(Ai Aj ) P(Ai Aj Ak ) P(A1 A2 An )

= = =

P(Ai )P(Aj ) i,j distintos P(Ai )P(Aj )P(Ak ) i,j, k distintos P(A1 )P(A2 ) . . . P(n).

Antes de enunciar el siguiente resultado recordemos el concepto de particin de un conjunto. Una o particin nita de un conjunto es una coleccin B1 , B2 , . . . , Bn de subconjuntos de tal que cada o o o, o ndices i y j distintos, conjunto Bi es distinto del vac la coleccin es disjunta dos a dos, esto es, para Bi Bj 0, y adems la unin de toda la coleccin produce el total , es decir, B1 B2 Bn = . en a o o la gura 4.6 mostramos una posible particin de . o

Bi

Bj

Figura 4.6: Particin de un conjunto o

Ahora podemos enunciar y destrar el muy util teorema de probabilidad total.

40

CAP ITULO 4. PROBABILIDAD

Denicin 4.6 o

Tipo de probabilidad Total:


n

Sea B1 , B2 , . . . , Bn una particin y sea A o

cualquier evento, entonces. P(A) =

P(A|Bi )P(Bi )
i=1

Demostracin. Tenemos que o


n n

A = A = A
i=1

Bi =
i=1

A Bi ,

en donde las uniones son uniones de eventos disjuntos. De modo que


n n n

P(A) = P(
i=1

A Bi ) =
i=1

P(A Bi ) =
i=1

P(A|Bi )P(Bi ),

o Observemos que cuando tenemos la particin = B Bc , entonces la frmula del teorema de probabio lidad total se reduce a la expresin sencilla: o P(A) = P(A|B)P(B) + P(A|Bc )P(Bc ) . Consideremos el siguiente ejemplo de aplicacin del terorema de probabilidad total: o Ejemplo 2 Supongamos que tenemos dos cajas: una con tres bolas de color rojo y 7 de color negro, la otra con 6 rojas y 6 negras. Si se eleige una caja al azar y despus se saca una bola, cul es la probabilidad de que e a sea de color rojo? Solucin. El experimento aleatorio consiste entonces en escoger una caja al azar y despus escoger una o e bola de la caja escogida. Es claro entonces que el espacio muestral puede escribirse como sigue = {(C1 , R), (C1 , N ), (C2 , R), (C2 , N ), } en donde C1 y C2 denotan los eventos en donde las cajas uno y dos fueron escogidas, respectivamente, R y N denotan los eventos en doinde una bola roja y negra fueren escogidas respectivamente. Nos piden calcular la probabilidad de R. Es fcil calcular la probabilidad de R cuando sabemos cul caja fue escogida. a a Podemos entonces condicionar sobre el resultado de escoger alguna de las dos cajas, y entonces por el teorema de probabilidad total tenemos que P(R) = = = P(R|C1 )P(C1 ) + P(R|C2 )P(C2 ) 6 1 3 1 + 10 2 12 2 2 . 5

Observe que la particin de consta de dos elementos: {(C1 , R), (C1 , N )} y {(C2 , R), (C2 , N )}. o

4.4.

PROBABILIDAD CONDICIONAL E INDEPENDENCIA

41

Como un segundo ejemplo del uso del teorema de probabilidad total, supongamos que en una poblacin o humana de 50 % hombres y 50 % mujeres, el 4 % de hombres son daltnicos y el 1 % de la mujeres son o daltnicas. Una persona es elegida al azar, Cul es la probabilidad de que sea daltnica? Solucin. o a o o Sean los eventos = La persona escogida es mujer. = La persona escogida es hombre. = La persona escogida es daltnica. o

M H D

Deseamos calcular P(D). Por el teorema de probabilidad total, P(D) = = = P(D|M)P(M) + P(D|H)P(H) 1 4 1 1 + 100 2 100 2 1 . 40

Otro resultado interesante acerca de la probabilidad condicinal es el famoso teorema de Bayes. Este resultado fu publicado por primera vez en 1763, dos a os despus de la muerte de su creador, el matemtico e n e a y telogo ingls Thomas Bayes. o e

Denicin 4.7 o

Teorema de Bayes:

Sea B1 , B2 , . . . , Bn una particin tal que P(Bi ) > 0, o

y sea A un evento tal que P(A) > 0. Entonces para cada j = 1, 2, . . . , n P(Bj |A) = P(A|Bj )P(Bj ) n i=1 P(A|Bi )P(Bi )

Demostracin. Por la denicin de probabilidad condicional y el teorema de probabilidad total tenemos o o que P(Bj |A) = P(A Bj ) P(A) = P(A|Bj )P(Bj ) P(A) = P(A|Bj )P(Bj ) . n i=1 P(A|Bi )P(Bi )

Nuevamente observamos que en el caso en el que la particin de consta de slo dos elementos: B y o o Bc , entonces el teorema de Bayes, para el evento B, adquiere la forma simple P(B|A) = P(A|B)P(B) P(A|B)P(B) + P(A|Bc )P(Bc )

Ilustraremos el uso de esta frmula mediante un, o Ejemplo 3 En una fbrica hay dos mquinas, que denotaremos por A y B. La mquina A realiza el 60 % de a a a la producin total y la mquina B el 40 %. De su produccin, la mquina A produce 3 % de material o a o a defectuoso, la B el 5 %. Se ha encontrado un material defectuoso, cul es la probabilidad de que este a material defectuoso provenga de la mquina B? a Solucin Sean los eventos o

42

CAP ITULO 4. PROBABILIDAD

A B D

= La mquina A produjo el material. a = La mquina B produjo el material. a = El material es defectuoso.

Nos preguntan P(B|D) y observamos que la informacin que tenemos es P(D|B). Por el teorema de o Bayes tenemos entonces que P(B|D) = = = P(D|B)P(B) P(D|A)P(A) + P(D|B)P(B)
3 100

5 40 100 100 60 5 100 + 100

40 100

10 . 19

Consideremos otro ejemplo, Ejemplo 4 En un laboratorio se descubri una prueba para detectar SIDA. o Denamos los eventos S N = El paciente tiene SIDA. = La prueba resulta negativa.

Se conoce que P(N c |S) = 0.95, P(N |S c ) = 0.96 y P(S) = 0.01. Nos preguntamos si efectivamente la prueba es tan buena como parece. Calcularemos P(S|N y P(S|N c ) usando el teorema de Bayes. Solucin o P(S|N ) = = P(N |S)P(S) P(N |S)P(S) + P(N |S c )P(S c ) 0.05 0.01 0.05 0.01 + 0.96 0.99

= 0.000526 Esta probabilidad es demasiado peque a. Por otro lado, n P(S|N c ) = = = P(N c |S)P(S) P(N c |S)P(S) + P(N c |S c )P(S c ) 0.95 0.01 0.95 0.01 + 0.04 0.99 0.193

VARIABLES ALEATORIAS 4.5. Variables aleatorias


4.5.

43

Dado un experimento aleatorio con espacio muestral una variable aleatoria es una transformacin o X del espacio de resultados al conjunto de n mero reales, esto es X : R. Escribiremos simplemente u v.a. para variable aleatoria. Supongamos entonces que efectuamos el experimento aleatorio una vez y obtenemos un resultado en . Al transformar este resultado con la v.a. X obtenemos un n mero u real X() = x. Y podemos entonces suponer que los posibles resultados del experimento aleatorio son los diferentes nmeros reales x que la funcin v.a. en X puede tomar. Ilustramos de manera grca el concepto u o a de variable aleatoria en la gura 4.7.

.
X(w)

Figura 4.7: Una variable aleatoria es una funcin de en R. o Debemos hacer aqu varias observaciones. Primeramente seguiremos la notacin convencional de usar o la letra may scula X para una v.a. Es importante notar que X denota una v.a., es decir, una funcin de u o en R, y x denota un n mero real. Veamos unos ejemplos sencillos. u Ejemplo 5 Supongamos que un experimento aleatorio consiste en lanzar al aire una moneda y observar la cara superior una vez que la moneda cae. Denotemos por Sol y Aguila los dos lados de la moneda. Entonces = {Sol, Aguila} Y podemos denir la variable aleatoria X : R como sigue XCara = XCruz = 0 1

De modo podemos suponer entonces qu el experimento aleatorio tiene dos valores numricos posibles: e 0 y 1. Observe que los n meros 0 y 1 son en realidad arbitrarios bien pudimos haber escogido otro par u de n meros reales. Podemos tambin denir otra variable aleatoria Y : R de la siguiente forma u e Y (Cara) = Y (Cruz) = 2 En este caso la v.a. Y toma un valor, el n mero 2. Cualquier resultado del experimento aleatorio u produce, a travs de la funcin Y , El n mero 2. Decimos entonces es la v.a. constante 2. Veamos otro e o u ejemplo. Ejemplo 6 Consideremos el experimeto aleatorio de lanzar un dardo en un tablero circular de radio uno.

44

CAP ITULO 4. PROBABILIDAD El espacio muestral o conjunto de posibles resultados del experimento se puede escribir como sigue = {(x, y) : x2 + y 2 Podemos denir varias variables aleatorias = = = = 1}

X(x, y) Y (x, y) V (x, y) W (x, y)

x, (proyeccin sobre el eje horizontal). o y, (proyeccin sobre el eje vertical). o x2 + y 2 , (distancia la centro del circulo). |x| + |y| . xy.

Z(x, y) =

Observe cmo cada uno de estos ejemplos es una funcin de en R. o o Ahora, si nos jamos en el conjunto de valores que una v.a. pude tomar podemos clasicar las variables en dos tipos: discretas y continuas. Decimos que una v.a. es discreta cuando el conjuto de valores que sta v.a. toma es un conjunto discreto, i.e. un conjunto nito o numerable. Por ejemplo, el conjunto e {0, 1, 2, . . . , n} es un conjunto discreto porque es nito, lo mismo N pues aunque es innito, es numerable y por lo tanto discreto. Por otra parte, decimos que una v.a. es continua cuando X toma por lo menos todos los valores dentro un intervalo (a, b) de R. Esta clasicacin de variables aleatorias no es completa pues o existen v.a.s que no son de ninguno de los dos tipos mencionados. En este curso unicamente estudiaremos variables discretas o continuas. Usaremos tambin la siguiente notacin: Si A es un subconjunto de R entonces e o (X A) = { : X() A}. Por ejemplo, si consideramos nuevamente el ejemplo anterior de la moneda, tenemos que (X [1, )) (X [0, 1)) (X [2, 4)) = = = {Cruz}. {Cruz}. . {Cruz}. . .

(X = 1) = 1 (X ) = 2 (X 0) =

Ahora vamos a asociar a cada variable aleatoria dos funciones que son equivalentes en cierto sentido una con otra y que nos dan informacin de las caracter o sticas de la v.a.

4.6.

Funciones de densidad y de distribucin o

Sea X una v.a. discreta que toms los valores x1 , x2 , . . . con probabilidades respectivas P(X = x1 ), P(X = x2 ), . . . . Denimos la funcion de densidad de la v.a. X, que denotemos por f X (x) : R P, como sigue P(X = x) si x1 , x2 , . . . f X (x) = 0 otro caso Por ejemplo,

4.6.

FUNCIONES DE DENSIDAD Y DE DISTRIBUCION

45

Ejemplo 7 Consideremos la variable aleatoria discreta X que toma ciertos valores x1 , x2 y x3 , con probabilidades 0.3, 0.5 y 0.2 respectivamente. Entonces la funcin de densidad de X est dada por o a 0.3 si x = x1 0.5 si x = x 2 f X (x) = 0.2 si x = x3 0 otro caso La grca de f X (x) aparece en la gura 4.8. a

fX (x) 0.5

0.3 0.2

x1

x2

x3

Figura 4.8: Grca de la funcin de densidad de una v.a. discreta. a o Tambin denimos la funcin de distribucin de X, que denotaremos por FX (x) : R [0, 1], como sigue e o o FX (x) = P(X x). A esta funcin se le conoce como funcin de acumulacin de probabilidad. Para nuestro ejemplo anterior o o o tenemos que la funcin de distribucin de X es o o 0 si x < x1 , 0.3 si x < x x , 2 2 f X (x) = 0.8 si x2 < x x3 , 1 si x x . 3 La grca de FX (x) aparece en la gura 4.9. a Sea X una v.a. continua. Decimos que f X (x) : R R es la funcin de densidad de X si para cualquier o intervalo (a, b) R, P(X (a, b)) =
a b

f X (x)dx.

Por ejemplo la funcin f X (x) dada por o

f X (x) =

1 ba

si x [a, b] otro caso

fX (x) 46 1.0 0.8 CAP ITULO 4. PROBABILIDAD

0.3

x1

x2

x3

Figura 4.9: Grca de la funcin de distribucin de una v.a. discreta. a o o es una funcin de densidad de una v.a. continua cuya grca aparece en la gura 4.10. Y denimos la o a funcin de distribucin de X, que denotaremos por FX (x) : R [0, 1], exactamente como antes, es decir, o o para todo x R, FX (x) = P(X x)

fX (x)

1 ba

Figura 4.10: Grca de la funcin de densidad de una v.a. continua. a o Para nuestro ejemplo anterior tenemos que la funcin de distribucin de la v.a. continua X es o o 0 si x < a FX (x) = xa si x [a, b] ba 1 otro caso cuya grca aparece en la gura 4.11 a En el caso continuo tenemos que para toda x en R, FX (x) = P(X x)
x

f X (u)du,

de modo que por el teorema fundamental del clculo, a

4.6.

FUNCIONES DE DENSIDAD Y DE DISTRIBUCION

47

FX (x) 1

Figura 4.11: Grca de la funcin de distribucin de una v.a. continua. a o o

d F (x). dx X Es claro que toda funcin de densidad f X de una v.a.continua X satisface las siguientes dos propiedades. o fX =

PROPIEDADES DE LA FUNCION DE DENSIDAD CONTINUA fX (x): 1. f X (x) 0 para toda x R. 2.


f dx X

= 1.

Ms an, toda funcin f (x) : R R que satisfaga las dos propiedades anteriores se llamar funcin de a u o a o densidad. Es fcil de escribir las dos propiedades equivalentes para v.a. discretas o funciones de densidad a que toman un conjunto discreto de valores. Como un ejemplo, resolvamos el siguiente ejercicio. Ejemplo 8 Determina el valor de la constante c que hace que la siguiente funcin sea de densidad. o (a) cx si x = 0, 1, 2, 3. f X (x) = 0 otro caso (b) c|x| si x [1, 1], f X (x) = 0 otro caso

SOLUCION. Para el inciso (a) tenemos que X es una v.a. discreta que toma los valores 0, 1, 2y 3, con probabilidades 0, c, 2c, y 3c respectivamente. Como la suma de estas probabilidades debe ser uno, obtenemos entonces la ecuacin c + 2c + 3c = 1. De aqu obtenemos c = 1 . Este es el valor de c que hace o 6 que f X (x) sea no negativa y sume uno, es decir, una funcin de densidad. o En el inciso (b) tenemos un ejemplo de una v.a. continua que toma valores en el intervalo [1, 1].

48

CAP ITULO 4. PROBABILIDAD


1 1 1 0

1= .

c|x|dx = 2

cxdx = c

Por lo tanto, cuando tomamos c = 1 la funcin del inciso (b) resulta ser una funcin de densidad pues o o ahora cumple con ser no negativa e integrar uno. Por otro lado, es posible demostrar que toda funcin de distribicin FX (x) satisface las siguientes o o propiedades.

PROPIEDADES DE LA FUNCION DE DISTRIBUCION FX (x): 1. 0 FX (x) 1. 2. Si x1 x2 entonces FX (x1 ) FX (x2 ). 3. Si x1 x2 entonces P(X (x1 ]) = FX (x2 ) FX (x1 ). 4. lm FX (x) = 1.
x

5. lm FX (x) = 0.
x

6. FX (x) es continua por la derecha.

4.7.

Esperanza, varianza, momentos

Estudiaremos a continuacin algunas caracter o sticas nemricas asociadas a las variables aleatorias. e

4.7.1. Esperanza
Primeramente denimos la esperanza de X, denotada por E(X), como sigue E(X) =
x xf X (x) xf (x)d(x) X

si X es discreta. si X es continua.

La esperanza de una v.a. es entonces un n mero que indica el promedio ponderado de los diferentes u valores que puede tomar v.a.. A la esperanza se le conoce tambin con los nombres de: media, valor e esperado, valor promedio: y en general se usa la letra griega (mu) para denotar a la esperanza. La integral o suma arriba mencionados pueden no existir y en ese caso decimos que la v.a. no tiene esperanza nita. Ejemplo 9 Supongamos que se nos pide calcular la esperanza de la v.a. discreta X con densidad x -1 0 1 2 1 4 1 2 f X (x) 8 8 8 8 Solucin. Esto es demasiado fcil pues siguiendo nuestra denicin de esperanza para v.a. discretas . o a o tenemos que E(X) =
x

4 1 2 1 1 xf X (x) = (1)( ) + (0)( ) + (1)( ) + (2)( ) = . 8 8 8 8 2

Ahora consideremos un ejemplo de clculo de esperanza para una v.a. continua. a

4.7.

ESPERANZA, VARIANZA, MOMENTOS

49

Ejemplo 10 Suponemos que deseamos calcular E(X) cuando X es una v.a. continua con densidad 2x si x [0, 1] f X (x) = 0 otro caso. Solucin. Esto tambin es fcil pues siguiendo nuestra denicin de esperanza tenemos que o e a o E(X) =

xf X (x)dx =

1 0

x(2x)dx =

2 3 2 x = 3 3
0

Mencionamos a continuacin algunas propiedades de la esperanza. o

PROPIEDADES DE LA ESPERANZA: (a) E(c) = c, (c =constante). (b) E(cX) = cE(X). (c) E(X + Y ) = E(X) + E(Y ). El siguiente resultado es muy importante: Sea X una v.a. continua y g : R R una funcin tal que o g(X) es una v.a. con esperanza nita, entonces E[g(X)] =

g(x)f X (x)dx.

Ejemplo 11 2 Calcule E(Y ) con Y = e x y X la v.a. continua del ejemplo anterior Solucin. Como X es una v.a. continua tenemos que o E(Y ) = E(e x ) =
2

e x f X (x) =

1 0

e x (2x)d(x) = e 1

4.7.2. Varianza
Vamos ahora a denir otra caracter stica numrica asociada a las variables aleatorias llamada varianza. e Denimos la varianza de X, denotada por V ar(X), como sigue V ar(X) = E[(X E(X)2 )] [x E(X)]2 f X (x) [x E(X)]2 f X (x)dx si X es discreta.

si X es continua.

La varianza es una medida del grado de dispersin de los diferentes valores tomados por la v.a. Se le o denota regularmente por la letra 2 (sigma cuadrada). Nuevamente la correspondiente suma o integral puede no existir y en ese caso decimos que la v.a. no tiene varianza nita. Observemos que para calcular V ar(X) necesitamos conocer primero E(X). Veamos algunos ejemplos sencillos.

50 Ejemplo 12 Calcule la varianza de la de la v.a. discreta X con densidad x f X (x) -1


1 8

CAP ITULO 4. PROBABILIDAD

0
4 8

1
1 8

2
2 8

Solucin. Recordemos primeramente que E(X) = 1 . Aplicando nuestra denicin de varianza tenemos o o 2 entonces que V ar(X) =
x

E[(X E(X)2 )]f X (x) 1 1. 1 2


2

= =

1 1 + 0 8 2

4 1 + 1 8 2

1 1 + 2 8 2

2 8

Bibliograf a
[1] test reference

51