MAPA CONCEPTUAL
________________________
VARIABLES ALEATORIAS
INTRODUCCIN
___________________
La estadstica se encuentra frecuentemente en nuestro lenguaje cotidiano. Por ejemplo, cuando hacemos referencia a la media del salario de los empleados de una determinada empresa o las variaciones de las cifras del Dow Jones en la ltima semana. As, podramos definir la Estadstica como la ciencia encargada de reunir, organizar, presentar, analizar e interpretar datos con el fin de obtener unas determinadas conclusiones y tomar unas determinadas decisiones[1]. En general, la estadstica se divide en dos categoras: Estadstica descriptiva, que es la parte de la estadstica encargada de extraer y organizar los datos procedentes de un determinado conjunto de observaciones. Estadstica inferencial, que pretende predecir una informacin acerca de un conjunto de datos, a partir de los resultados extrados de un subconjunto de ellos.
Los pasos a seguir para realizar una investigacin estadstica seran los siguientes:
Problema Recogida y Organizacin de datos Anlisis e interpretacin Conclusiones y decisiones
En este apartado nos encargaremos nicamente de definir los parmetros correspondientes a la estadstica descriptiva para organizar, describir y analizar una coleccin de datos, as como las posibles representaciones grficas de stos.
OBJETIVOS
________________________
Clculo e interpretacin de los parmetros de centralizacin: media aritmtica, mediana y moda. Clculo e interpretacin de los parmetros de dispersin: rango, varianza y desviacin estndar. Clculo e interpretacin de los cuartiles, rango intercuartlico y coeficiente de variacin. Representacin grfica de los datos.
CONOCIMIENTOS PREVIOS
___________________________________
Poblacin: Conjunto de objetos, individuos o sucesos cuyas propiedades queremos analizar. Muestra: Subconjunto de la poblacin objeto de estudio. El conjunto de los datos recogidos para llevar a cabo un estudio estadstico, recibirn el nombre de variable aleatoria que normalmente se denotar X. Los datos correspondientes pueden ser, bsicamente, de dos tipos: Variable cualitativa: los datos que forman la variable no son numricos. Por ejemplo, religin a la que se pertenece, tipo de automvil, color de los ojos,... Variable cuantitativa: los datos que forman la variable s son numricos. Por ejemplo, saldo de una cuenta corriente, velocidad de los coches,... Dentro de este grupo de variables podemos distinguir otras dos categoras. Por una parte, tendramos las variables discretas que seran aquellas que slo pueden asumir ciertos valores (por ejemplo, nmero de automviles/h. en una autopista, nmero de estudiantes en la asignatura de estadstica,...) y por otra parte, las variables continuas que pueden tomar cualquier valor dentro de un rango especfico (por ejemplo, alturas de los alumnos de una clase, tiempo transcurrido en el vuelo de Barcelona a Madrid,...)
Por ltimo, una vez tenemos recogidos los datos, agrupamos stos de forma excluyente dando a cada uno de ellos el nmero de observaciones, es decir, el nmero de veces que se repite cada valor, este nmero tomar el nombre de frecuencia.
CONCEPTOS FUNDAMENTALES
______________________________
Las tcnicas utilizadas para la descripcin de datos se dividen, bsicamente, en dos bloques: Parmetros de centralizacin: Son aquellos cuyo objetivo es explicar mediante un valor numrico, cual es la tendencia mayoritaria de las observaciones de la coleccin de datos que se analizan. Dichos parmetros sern, entre otros, la media, la mediana y la moda. Parmetros de dispersin: Corresponden a aquellos parmetros cuyo objetivo es detectar el grado de proximidad de los datos respecto a los valores centrales. Dichos parmetros sern, entre otros, el rango, los cuartiles, la varianza y la desviacin estndar.
Medidas de centralizacin
Las medidas de centralizacin nos sirven para representar el valor medio de los datos, es decir, el valor que refleja el tamao del dato ms esperado. Ello nos indica la posicin en la que se encuentra en el centro de los datos. [2]
Estadstica Descriptiva con Minitab Las medidas de centralizacin ms utilizadas son: Media : Es la suma de un conjunto de observaciones dividido por el nmero total de observaciones realizadas. Si calculamos la media poblacional, la expresin ser la siguiente: = 1 N
x
= i1
En cambio, si lo que estamos calculando es la media muestral, la notacin ser la que sigue: X= 1 xi n i1 =
Ejemplo: La biblioteca virtual de la UOC quiere conocer el tiempo medio que tardan los usuarios en devolver los prstamos. Se ha tomado una muestra de 15 usuarios, obteniendo los siguientes tiempos, en das, de devolucin: U1 U2 U3 U4 U5 U6 U7 U8 U9 U10 U11 U12 U13 U14 U15 10 20 12 14 16 18 22 10 16 13 21 15 12 20 18 Para calcular la media aritmtica de esta distribucin,lo haremos de dos formas: Manualmente: X= 1 15
15
Con Minitab: Introducimos los valores en el espacio de trabajo y seleccionamos, Calc > Column Statistics y activamos la opcin Mean:
Column Mean
Mean of C1 = 15.800
Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o decreciente, cumple la condicin de ser mayor que una mitad y menor que la otra. Es decir, divide a la distribucin en dos partes iguales. Si el nmero de observaciones es impar la mediana es el valor central. En caso de que el nmero de observaciones sea par la mediana ser la media de los dos valores centrales. Ejemplo: Siguiendo con el ejemplo anterior, ordenamos los datos en orden creciente: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Para calcular la mediana lo haremos tambin de dos formas: Manualmente: Como el nmero de observaciones es impar, la mediana ser el valor que ocupa el lugar central, en este caso, la posicin octava. Por tanto, la mediana ser 16. Con Minitab: Seleccionamos, Calc > Column Statistics y activamos la opcin Median:
Column Median Median of C1 = 16.000
Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la distribucin estn agrupados en intervalos, la moda es el punto medio del intervalo que contiene el mayor nmero de frecuencias. Una distribucin de observaciones puede no tener moda, es decir, puede que no haya ningn valor de la distribucin que aparezca con ms frecuencia. Ejemplo: Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia: 10 -> 2 12 -> 2 13 -> 1 14 -> 1 15 -> 1 16 -> 3 18 -> 1 20 -> 2 21 -> 1 22 -> 1 Por tanto, observamos que la moda ser el 16 que es valor que ms veces se repite.
Relacin entre el valor de la media y la mediana de una distribucin Tanto la media aritmtica como la mediana miden el centro de la distribucin, pero lo hacen de formas diferentes. En el caso en que la distribucin sea simtrica ambas medidas son iguales. Si la distribucin es asimtrica, la media aritmtica se desplaza hacia la cola de la distribucin. Observar que para calcular la media aritmtica, utilizamos todos los datos, sin embargo, no ocurre as con la mediana. As, si hay valores extremos, la media se ver mucho ms afectada que la mediana.
Medidas de dispersin
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, necesitamos conocer tambin la dispersin que presentan los datos en su distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad a la hora de describirlos e interpretarlos. Recorrido o amplitud: Es la diferencia entre el valor mximo de la distribucin y el valor mnimo. Ejemplo: Del ejemplo anterior, observamos que el valor mximo es 22 y el valor mnimo es 10, por tanto el recorrido de la distribucin ser 12. Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de una distribucin son los valores que dividen la distribucin en cuartos. El primer cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres cuartos de las observaciones por debajo y un cuarto por encima. Ejemplo: Utilizamos los datos ordenados del ejemplo para calcular los cuartiles: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Manualmente: Partimos en dos la distribucin, la mitad superior: 10 10 12 12 13 14 15 Y la mitad inferior: 16 16 18 20 20 21 22 Q3=20 Q1=12
Para calcular los cuartiles calculamos las medianas de ambas mitades, la de la primera mitad corresponder al primer cuartil y la de la segunda corresponder al tercer cuartil.
Estadstica Descriptiva con Minitab Diagramas de caja El diagrama de caja es un grfico simple donde vienen representados los anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo cuartil), tercer cuartil y mximo) Ejemplo: Seleccionamos Graph > Boxplot:
Max=22 Q3=20
M=16
Q1=12 Min=10
Varianza: Se define como la media aritmtica de las desviaciones de la media elevadas al cuadrado. En el caso de la varianza, la expresin de la varianza poblacional y la muestral difieren ligeramente.
Varianza poblacional 2 =
n
( X )
i = i1
N
2
Varianza muestral s2 =
( X X)
i = i1
n 1
Estadstica Descriptiva con Minitab Ejemplo: En este caso, tras haber definido los parmetros estadsticos ms importantes, veamos cmo, haciendo uso del Minitab, obtenemos un resumen prctico y sencillo de todos estos valores. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics: Descriptive Statistics
Variable C1 Variable C1 N 15 Minimum 10.00 Mean 15.80 Maximum 22.00 Median 16.00 Q1 12.00 TrMean 15.77 Q3 20.00 StDev 3.95 SE Mean 1.02
x
n
extremos, por lo que tambin es interesante fijarse en la TrMean. Median es la mediana o cuartil segundo Q2 (aquel valor que deja a su izquierda el mismo nmero de observaciones que a su derecha). Este parmetro no se ve gravemente afectado por los valores extremos. TrMean es la media recortada: las observaciones se ordenan de menor a mayor y se descartan los valores extremos (un 5% por cada lado). De los valores restantes se calcula la media.
(x
x)
n 1
Minimum y Maximum son los valores mnimo y mximo de los datos. Q1 es el cuartil primero: aquel que deja a su izquierda un 25% de los datos. Q3 es el cuartil tercero: aquel que deja a su izquierda un 75% de los datos.
CV =
s 100 X
El coeficiente de variacin es muy til cuando queremos comparar dos o ms medidas de dispersin y stas estn en unidades diferentes o bien estn en las mismas unidades pero sus medias son muy distintas. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Estadstica Descriptiva con Minitab Ejemplo: Pretendemos comparar la variacin entre dos pruebas (una de aptitudes mecnicas y otra de destreza mental) realizadas a un grupo de aprendices pertenecientes al cuerpo de bomberos. La media aritmtica de las puntuaciones obtenidas en la prueba de aptitudes mecnicas fue 200, con una desviacin estndar de 10. En la segunda prueba los resultados fueron de media 30 y desviacin estndar 6. Para realizar dicha comparacin calculamos el coeficiente de variacin de ambas pruebas: CV= 10/200*(100) = 5 CV= 6/30*(100) = 20 Por tanto, de los datos anteriores, deducimos que existe mayor dispersin en la prueba de destreza mental.
Representacin grfica
Dos de las tcnicas estadsticas ms importantes para representar un conjunto de datos son las siguientes: Diagrama de tallo y hojas: Cada valor numrico se divide en dos partes. Los dgitos principales forman el tallo y los dgitos secundarios las hojas. Los tallos estn colocados a lo largo del eje vertical, y las hojas de cada observacin a lo largo del eje horizontal. Ejemplo: A continuacin, se muestran los salarios anuales (en ) de los 11 trabajadores del departamento de marketing de una empresa de material informtico: Sueldos H 38985 29548 41889 31528 38791 32782 Sueldos M 28938 32920 24749 39828 28985
Estadstica Descriptiva con Minitab Para ello, tras introducir los datos en el espacio de trabajo del Minitab, seleccionamos Graph > Stem-and-Leaf y rellenamos los campos de la siguiente manera:
Histograma: Describe una distribucin de frecuencias usando una serie de rectngulos adyacentes, en los que la altura de cada rectngulo es proporciona la frecuencia que representa el valor de la variable.
10
Estadstica Descriptiva con Minitab Ejemplo: Siguiendo el ejemplo anterior, construiremos dos histogramas grficamente la diferencia entre los sueldos de ambos sexos. para comparar
Para ello, seleccionamos Graph > Histogram, completando los campos como sigue:
Frecuencia
Sueldos M
Frecuencia
Sueldos H
De ambos histogramas deducimos que, en este departamento, los sueldos de los hombres, son ligeramente ms altos que los de las mujeres.
11
a) Haciendo uso del Minitab, calcular todos los parmetros estadsticos correspondientes a la ocupacin hotelera de Espaoles a lo largo del ao 2000. Una vez introducidos todos los datos correspondientes en el worksheet:
12
Descriptive Statistics
Variable Espaole Variable Espaole N 12 Minimum 1738456 Mean 2677749 Maximum 3805934 Median 2727407 Q1 2202983 TrMean 2658860 Q3 3125765 StDev 572734 SE Mean 165334
Del anterior resultado, podemos observar cules son los parmetros estadsticos ms importantes, por ejemplo, la media de espaoles que residieron en algn hotel fue de 2677749, el valor central (mediana) es 2727407, as como 2202983 y 3125765 los valores de los cuartiles primero y tercero, respectivamente. b) Construir un histograma del Grado de ocupacin hotelera. Para realizar un histograma de una coleccin de datos, seleccionamos la opcin Graph > Histogram:
13
Nota.- Para introducir colores, texto, etc. en el grfico seleccionaremos la opcin de Edit Attributes, o bien, una vez realizado el grfico clicando dos veces sobre la parte del grfico que queremos modificar. Del anterior grfico podemos deducir, bsicamente, que la ocupacin hotelera se encuentra siempre por encima del 40% y ni siquiera en los meses de verano supera aproximadamente el 80%. Cabe destacar que son datos generales de todo el pas, evidentemente, la ocupacin hotelera en los meses de verano y vacaciones, los hoteles de la costa alcanzarn mayor cota de ocupacin.
c)
Dibujar los diagramas de cajas (Boxplot) correspondientes a la ocupacin hotelera de Espaoles y de Extranjeros, comentando las diferencias bsicas entre ellos.
14
Del anterior grfico cabe destacar que el valor de la mediana de turistas espaoles es ligeramente superior a la de extranjeros, as como el resto de valores. Observamos que, por ejemplo, el valor del tercer cuartil de Extranjeros se acerca al valor del tercer cuartil de Espaoles. Observemos tambin que en ninguna de las dos observaciones aparecen valores extremos (outliers), si fuera as, apareceran con un asterisco en la posicin adecuada.
15
Estadstica Descriptiva con Minitab d) Calcular nicamente la media y la mediana correspondientes a la Estancia media en dias de la columna Espaoles. Cuando queremos calcular algun parmetro estadstico concreto, tenemos la opcin de hacerlo seleccionando Calc > Column Statitstics, activando la opcin elegida:
Nota.- Observar que, tras seleccionar la columna de la cual queremos calcular el parmetro estadstico, podemos guardar los resultados en una determinada columna o bien, dejar el espacio en blanco, obteniendo el resultado en la pantalla de Session.
Column Mean Mean of E.M. Esp = 2.5408
Por tanto, deducimos que el nmero medio de estancia en das anual de turistas espaoles es de aproximadamente 2.54, valor que difiere ligeramente de la mediana cuyo valor es 2.41.
16
2. Un tema de interesante anlisis es la investigacin en el rea de educacin en nuestro pas, veamos cul fue la cantidad de dinero invertida en el ao 1999 en Espaa y, comparativamente, en una determinada Comunidad Autnoma, por ejemplo, la de Valencia. Para ello, vamos a la pgina web del Instituto Valenciano de Estadstica: http://ive.infocentre.gva.es/ . En el margen izquierdo de la pgina encontraremos un men, del cual seleccionaremos la opcin Informacin Estadstica y Temas. Ahora escogemos la opcin Educacin e investigacin y seleccionamos Investigacin. Por ltimo, elegimos Indicadores econmicos de la actividad de investigacin y desarrollo. El resultado que obtendris, para el ao 1999, ser el siguiente:
a) Calcula los estadsticos descriptivos correspondientes a la variable Investigadores en cada uno de los mbitos, tanto en la Comunidad Valenciana como en Espaa, y comenta los resultados. El primer paso ser introducir los datos correspondientes en el espacio de trabajo de Minitab:
17
Estadstica Descriptiva con Minitab Seleccionamos Stat > Basic Statistics > Display Descriptive Statistics:
Descriptive Statistics Variable Inv_vale Inv_Esp Variable Inv_vale Inv_Esp N 4 4 Minimum 105 616 Mean 1018 15392 Maximum 2638 33840 Median 664 13556 Q1 218 3445 TrMean 1018 15392 Q3 2171 29174 StDev 1115 13792 SE Mean 558 6896
En rojo, observamos los valores obtenidos ms importante como son la media, la mediana, los cuartiles y los mximos y mnimos. Cabe destacar la mnima inversin tanto en la Comunidad Valenciana como en Espaa, se produce en Instituciones privadas sin lucro, correspondiendo la mxima inversin a las Enseanzas superiores.
b) Como sabemos, el sesgo de una distribucin depende de la simetra de sta. Razona, si la distribucin correspondiente a Tcnicos en I+D, tanto en la Comunidad Valenciana como en Espaa, es positivamente sesgada o negativamente sesgada. Recuerda que, para ello, tendrs que calcular la media y la mediana de ambas distribuciones. Nuevamente, introducimos los valores correspondientes en el espacio de trabajo de Minitab:
Seleccionamos Calc > Column Statistics y rellenamos de la siguiente manera, para calcular la media de los Tcnicos I+D de Valencia:
18
Por tanto, como la media aritmtica es superior a la mediana, podramos afirmar que en la distribucin correspondiente a la variable Tcnicos en I+D de la Comunidad Valenciana es positivamente sesgada. Anlogamente, resolvemos para la variable Tcnicos en I+D de Espaa, obteniendo los siguientes resultados:
Column Mean Mean of I+D_Esp = 5898,4
Por tanto, en Espaa, la distribucin correspondiente a la variable Tcnicos en I+D tambin es positivamente sesgada.
19
Estadstica Descriptiva con Minitab Desde la misma pgina web que estamos trabajando, y siguiendo los pasos anteriores hasta la opcin Educacin e investigacin, seleccionamos esta vez la opcin Enseanzas universitarias pblicas y Profesores universitarios, obteniendo el siguiente resultado:
c) Representa en un diagrama de cajas, el nmero de profesores universitarios en cada una de las distintas universidades, correspondientes a los aos 1997/98 y 2000/01. Introducimos los datos en el espacio de trabajo de Minitab:
20
En los anteriores diagramas, podemos observar que la mediana del ao 2000-01 es bastante superior a la del 1997-98, as como el mximo de ambas distribuciones. Adems, cabe destacar que ambas distribuciones estarn claramente sesgadas hacia la derecha ya que la lnea superior es bastante ms larga que la inferior. En la segunda variable, prcticamente coinciden el primer cuartil y el valor mnimo. Finalmente, comentar que los valores mnimos tanto en una variable como otra se dan en la Universitad Miguel Hernndez y los mximos en la Universidad de Valencia.
d) Calcula el coeficiente de variacin para los Profesores de la universidad Jaume I. Nuevamente, introducimos los datos en el espacio de trabajo de Minitab y calculamos la media y la desviacin estndar:
Column Mean Mean of C7 = 764,40
X aproximadamente el 9%.
21
BIBLIOGRAFA
[1] [2] [3]
___________________________________
D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. F. Moya Anegn, J. Lpez Gijn, C. Garca Caro (1996): Tcnicas cuantitativas aplicadas a la biblioteconoma y documentacin. Ed. Sntesis. R. Johnson (1996): Elementary Statistics. Ed. Duxbury
ENLACES
___________________________________
http://www.mste.uiuc.edu/hill/dstat/dstat.html: Introduction to Descriptive Statistics www.ine.es: Instituto Nacional de Estadstica www.fisterra.com/material/investiga/10descriptiva/10descriptiva.htm: Estadstica descriptiva
22