Anda di halaman 1dari 76

@ Abanto Canto

Estadstica Descriptiva
Rodolfo Abanto C.
Universidad Adolfo Ibez

@ Abanto Canto

I. Introduccin, Tablas y Grficos


1. Introduccin.
No podemos concebir la idea de un ingeniero trabajando sin datos. En finanzas, en la
industria, en economa y en muchos otros campos de la realidad la presencia de
conjuntos de datos es frecuente, de all la necesidad de conocer los fundamentos
probabilsticos y mtodos estadsticos que permitan el adecuado anlisis de datos y que
estos en consecuencia permitan deducir conclusiones para resolver problemas o generar
oportunidades.
La ciencia estadstica dispone de herramientas de recoleccin, de presentacin y
organizacin de datos y de anlisis. Problemas y oportunidades como mencionamos
antes estn presentes en el quehacer diario de un ingeniero civil, predecir o explicar las
ventas de un negocio, predecir la temperatura de un da en particular, comparar el
tratamiento de dos qumicos, segmentar clientes, modelar el mercado financiero son por
nombrar algunos ejemplos de problemas muy frecuentes.

2. Estadstica Descriptiva.
Los datos pueden ser generados automticamente por registros contables, industriales,
reportes, revistas, diarios, etc. Pero tambin se pueden generar mediante encuestas
diseadas especialmente en cada estudio en particular. Los estudios estadsticos pueden
referirse a toda la poblacin y en este caso estaremos en presencia de un censo. Por otro
lado, son muy frecuentes los estudios mustrales, en agronoma, finanzas, marketing e
industrias en general. Trabajar con una muestra de datos y no con toda la poblacin
hace la investigacin ms rentable en trminos econmicos y de tiempo; pero tambin
es razonable considerar que las muestras deben ser representativas, si no los resultados
seran incongruentes con la realidad respecto a las decisiones y en vez de solucionar un
problema, podra ocasionar problemas ms grandes. La ciencia estadstica recomienda
seleccionar aleatoriamente para obtener muestras representativas.
Por ltimo, recolectados los datos, el siguiente paso es resumir y describirlos, esto se
puede hacer usando las metodologas disponibles en la Estadstica descriptiva. Estos
procedimientos tienen los mismos objetivos en esencia, pero es importante considerar
la metodologa si estamos en frente de una poblacin o de una muestra.
Por ejemplo en un estudio poblacional la media se calcula:

Y en una muestra

@ Abanto Canto

) son dos
Muchos diran que es lo mismo, pues no, hay una diferencia de tamao (
elementos muy diferentes en la ciencia estadstica, tambin y son dos medidas muy
diferentes, primero es una medida de la poblacin cuyo valor es nico (parmetro) a
diferencia de que es una medida de la muestra y cuyo valor (estimacin) depende de
la muestra que se tome (estimador).
Y as hay muchas otras diferencias respecto a la metodologa, propia si es que se est en
presencia de una poblacin o de una muestra de datos.

3. Poblacin y Muestra
El desarrollo de los procedimientos estadsticos en una poblacin es diferente al
desarrollo metodolgico en una muestra. Planteado un problema de investigacin es
importante definir claramente la poblacin de estudio en trminos de los objetivos, pues
las conclusiones que se obtengan sern de inters slo para la poblacin definida, por
otro lado, las poblaciones deben quedar claramente definidas es espacio y tiempo. Los
comportamientos poblacionales no son estables, ms an, si el estudio es de corte
trasversal, se debe definir claramente el momento en que fueron recolectados los datos.
La poblacin se define como la totalidad de elementos en estudio. Una muestra, es un
conjunto representativo y adecuado de la poblacin. Las tcnicas de muestreo buscan o
se desarrollan en base a estos dos criterios.
4. Variables
Son caractersticas asociadas a los elementos de una poblacin de estudio. Esta
caracterstica debe ser medida de acuerdo a los objetivos del estudio.
Es una caracterstica asociada a un elemento que compone la poblacin, esta no es cualquier
caracterstica como por ejemplo el nmero de Rut, que implica no ms que una identidad a
cierta persona, no servira de nada por ejemplo obtener el promedio de nmeros de Rut o
quizs graficar.
Por lo tanto, las variables son caractersticas asociadas directamente a individuos, objetos, o
empresas de las que se puede deducir conclusiones estadsticamente tiles en la toma de
decisiones.
Las variables se pueden clasificar de la siguiente forma:
A.

Variables Cuantitativas: Son aquellas caractersticas cuya naturaleza de su resultado o


respuesta se puede expresar por una cantidad o nmero. Dentro de estas variables se pueden
deducir dos:

@ Abanto Canto

A.1

Variables Cuantitativas Continuas: Su resultado se expresa con un nmero real, ejemplo:


utilidad, tasas de inters, ingresos, nivel de compra, etc.

A.2

Variables Cuantitativas Discretas: Su resultado se expresa por un nmero entero,


ejemplo: numero de integrantes de una familia, nmero de empleos en los dos ltimos aos
de una empresa, nmero de acciones transadas en un da, etc.

B.

Variables Cualitativas: Son aquellas Caractersticas cuya naturaleza de su resultado se


expresan por un atributo o cualidad, como ejemplo: sexo, calidad de un producto, tipo de
empresa, tipo de cliente, nivel de instruccin, etc.

EJEMPLO:
El gerente de la Empresa ORA s.a, preocupado por el rendimiento de sus empleados (120
empleados conforman la empresa), decide investigar algunas variables socio - econmicas,
para lo cual, solicita informacin al jefe del Departamento de Personal. Entregando este,
los siguientes datos:

Ingreso

Estado
Civil

N de hijos Edad

300

Casado

28

200

Casado

22

150

Soltero

33

230

Casado

36

250

Casado

45

450

Soltero

45

230

Soltero

46

560

Soltero

48

238

Soltero

48

10

240

Soltero

56

11

270

Soltero

25

12

450

Casado

45

13

360

Casado

46

14

440

Soltero

26

@ Abanto Canto

15

330

Casado

47

16

330

Casado

39

17

223

Soltero

26

18

236

Casado

30

19

200

Soltero

32

20

269

Casado

45

Comentario:

Como se observa en la tabla, el jefe del departamento de personal slo entreg la


informacin correspondiente a 20 funcionarios, de los 120 que constituye la empresa. Por lo
que esta base de datos correspondera a una muestra; Ya que es un subconjunto de la
poblacin (totalidad de funcionarios de la empresa). No esta preciso si la muestra es
representativa y adecuada.

Esta claro que el tamao de la poblacin es N = 120 y el tamao de la muestra es n = 20.


Por otro lado, se estn reportando 4 variables de las cuales, dos son de tipo continua (edad e
ingreso), una cualitativa (estado civil), y una discreta (nmero de hijos). Cabe destacar, que
es cierto que la variable edad e ingreso estn anotadas en forma discreta (representadas por
un nmero entero); pero la naturaleza es continua, es decir, una persona puede decir que
tiene ingreso de 340,24 mil pesos (existe); sin embargo nadie puede asegurar que tiene 1,4
hijos; sino que tiene 1 2 hijos, que es la naturaleza de una variable discreta.

@ Abanto Canto

2.

PRESENTACION DE DATOS: DISTRIBUCIONES DE FRECUENCIA


Como veremos en esta unidad, los datos se pueden presentar en tablas que llamaremos
distribuciones de frecuencia y/o en grficos. La forma de la distribucin de frecuencia y
el tipo de grfico, depender del tipo de variable a la que se este enfrentado.

2.1

DISTRIBUCIONES DE FRECUENCIA: Son tablas estadsticas especialmente diseadas


para la presentacin de datos (valores de la variable) y sus respectivas frecuencias de
ocurrencia, de tipo absoluto y relativo (%). En las distribuciones de frecuencia para variable
continua, cada clase estar determinada por intervalos continuos, en las variables discretas
la clase estar determinada por el resultado de la variable, es decir, por un nmero entero, y
en las distribuciones de frecuencia para variable cualitativa las clases quedarn
determinadas por el atributo o cualidad del resultado de la variable.

Las tres tablas que se presentan, son distribuciones de frecuencia de una variable continua
discreta y cualitativa:

Tabla N 1 : Distribucin de frecuencia de las Utilidades mensuales, en millones de


pesos, de PYME de la regin metropolitana, Diciembre-2001
Utilidades
ni
(millones pesos)

mi

20-30

10

0,125 10

0,125 25

30-40

20

0,250 30

0,375 35

40-50

22

0,275 52

0,650 45

50-60

15

0,188 67

0,838 55

60-70

0,100 75

0,938 65

70-80

0,062 80

1,000 75

Total

80

1.000

Ni

Mi

Xi

Fuente: Asociacin de PYME.

Tabla N 2 : Distribucin de frecuencia del nmero de variedad de produccin, de


PYME de la regin metropolitana, Diciembre de-2001.

@ Abanto Canto

Variedad de ni
Produccin

mi

Ni

Mi

1
2
3
4
5
Total

0,250
0,375
0,125
0,125
0,125

20
50
60
70
80

0,250
0,625
0,750
0,875
1,000

20
30
10
10
10
80

Fuente: Asociacin de PYME

Tabla N 3 : Distribucin de frecuencia del rubro, de PYME de la regin metropolitana,


Diciembre de-2001
Rubro

ni

mi

Agricultura
Manufactura
Servicios
Otros
total

30
10
20
20
80

0,375
0,125
0,250
0,250
1,000

Fuente: Asociacin de PYME

La tabla nmero 1, corresponde al diseo de una distribucin de frecuencia para una


variable de tipo continua. La primera columna muestra los valores de la variable (utilidad
en millones de pesos) a travs de intervalos continuos, los que se denominan intervalos de
clase o simplemente clases, estos intervalos son cerrados por la izquierda (lmite inferior) y
abiertos por la derecha (lmite superior).
La segunda, tercera, cuarta y quinta columna muestran las frecuencias. Estas se definen de
la forma:
1. Frecuencia absoluta simple ( ni ) : Define el nmero de datos con valores en la clase
correspondiente.
2. Frecuencia relativa simple ( mi ): Define la proporcin de datos, correspondiente a la
frecuencia absoluta simple ( ni ) respecto al tamao de la muestra ( n ), y esta se calcula
por:

ni
n
La interpretacin de esta frecuencia se hace en porcentaje.
3. Frecuencia absoluta acumulada ( N i ) : Acumula la frecuencia absoluta simple
respecto a los valores de la variable (de menor a mayor).

@ Abanto Canto

4. Frecuencia relativa acumulada ( M i ) : Acumula la frecuencia relativa simple,


respecto a los valores de la variable (de menor a mayor).
Y la ltima columna de esta distribucin de frecuencia, define la marca de clase ( X i ), que
es el punto medio del intervalo de clase y que nos servir en los siguientes captulos para
calcular algunas medidas estadsticas descriptivas, se calcula por:

Xi

lim sup lim inf


2

donde:

lim sup , es lmite superior de la clase y lim inf , es el lmite inferior de la clase.
Para interpretar una distribucin de frecuencia se debe tener en cuenta las frecuencias ms
relevantes, como son las frecuencias ms grande y pequea o alguna que sea importante
para el estudio, ejemplo:
En la tabla nmero 1, en referencia a la distribucin de frecuencia para una variable de tipo
continua, la frecuencia absoluta ms grande es la que corresponde a la tercera clase, en
relacin tambin a la frecuencia relativa simple, n3 = 22 y m3 =0,275, siendo su
interpretacin : La clase con mayor nmero (22) de PYME es la de 40 a 50 millones de
pesos y corresponden al 27,5% de las empresas en estudio.
Las frecuencias acumuladas, por ejemplo de la cuarta clase: N 4 = 67 y M 4 = 0,838, se
interpretan de la forma: 55 PYME tienen utilidades entre 20 y 60 millones de pesos y es
equivalente al 83,8% de las empresas en estudio.

En la tabla nmero 2, se muestra el diseo de una distribucin de frecuencia para una


variable discreta. Las clases aqu como se ve en la primera columna quedan definidas por el
resultado de la variable. Las frecuencias se definen, calculan e interpretan de igual forma
que para la distribucin de frecuencia de una variable de tipo continua, por ejemplo:
La frecuencia absoluta y relativa simple de la segunda clase son: n2 30 y m2 0,375 ,
que se interpreta: 30 PYME tienen 2 variedades en su produccin y equivalen al 37,5% de
las empresas en estudio, adems corresponde a la clase con mayor nmero de empresas. La
frecuencia absoluta y relativa acumulada de la tercera clase son: N 3 = 60 y M 3 = 0,75, que
se interpretan: 60 PYME tienen en su produccin 1, 2 3 variedades (o se puede expresar
tambin entre 1 y 3) y que equivalen al 75% de las empresas en estudio.

En la tabla nmero 3, se muestra el diseo de una distribucin de frecuencia para una


variable cualitativa. Como se observa, las clases para este tipo de variable quedan definidas
tambin por el resultado de la variable. Las frecuencias se definen, calculan e interpretan de
la misma forma que en los casos de variable continua y discreta. Adems es importante
decir, que las frecuencias acumuladas para este tipo de variable no siempre se calculan

@ Abanto Canto

puesto que las interpretaciones no tendran sentido hacerlas, si las clases no estuvieran
ordenadas, como es en este caso.

Finalmente, si se observa la presentacin de las tres tablas, cada presentacin tiene tres
partes: un encabezamiento, la tabla propiamente dicha y una fuente. Estas partes siempre
es importante que aparezcan en toda presentacin de una tabla de distribucin de frecuencia
o de un grfico debido a su formalidad. El encabezamiento debe construirse de acuerdo a la
variable que se este estudiando y ubicarla en espacio y tiempo (utilidad, PYME y diciembre
del 2001) y la fuente indica de donde fueron tomados los datos.

2.2

CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA UNA


VARIABLE CONTINUA.
Para construir una distribucin de frecuencia para una variable continua, se debe empezar
calculando los intervalos de clase siguiendo los siguientes pasos:
1. Obtener el valor mximo y mnimo de los datos de la muestra en estudio.
2. Obtener el rango ( R valmax valmin ), que es la diferencia entre el valor mximo y
mnimo, segn se observa en la frmula.
3. Obtener la amplitud ( c ), que es el cuociente entre el rango y el nmero de intervalos:

R
,
#

donde # es el nmero de intervalos.

El nmero de intervalos a usar en la distribucin de frecuencia, depender de la cantidad de


datos, se recomienda usar como mnimo 5 intervalos y cuando el nmero de datos es
alrededor de 50, 6 alrededor de 60 datos, 7 alrededor de 70 datos y as sucesivamente, y de
la dispersin o variacin de la informacin. En general, el nmero de intervalos depender
mucho de la experiencia del investigador. Hay frmulas que ayudan a un principiante
definir el nmero de intervalos, como por ejemplo la siguiente:

# 1 1,33 log n
donde: #, es nmero de intervalos a encontrar y n es el tamao de la muestra o nmero de
datos disponibles.
Por ltimo, la amplitud quedar aproximada al nmero de decimales que tengan los
datos
4. Encontrar el rango nuevo ( R c# ), que es el producto la amplitud encontrada en el
paso 3 y el nmero de intervalos.
5. Encontrar la cantidad del rango sobrante ( s R R ), que es la diferencia entre el
rango nuevo y el rango antiguo.
6. Repartir la cantidad sobrante del paso 5 en dos partes, una para restar al valor mnimo y
la otra para sumar al valor mximo. Esto se hace con el fin de distribuir la cantidad
sobrante en dos partes iguales (ampliar el rango por el lado izquierdo y derecho en la
misma cantidad); pero no siempre pasa eso, cuando por ejemplo la cantidad a repartir es

@ Abanto Canto

un nmero impar, entonces lo que se hace es distribuir aproximadamente igual, por


ejemplo:
Reparticin igual:

0,4

0,2
0,2

Reparticin aproximadamente igual.

2
1

0,05

0.03
0.02

En el caso de que la reparticin sea aproximadamente igual, la cantidad que se resta al


valor mnimo es la mayor y la que se suma al valor mximo es la menor.
7. Obtenida la diferencia entre valor mnimo y la cantidad sobrante repartida, este cantidad
ser el valor mnimo en la distribucin de frecuencia, especficamente el lmite inferior
de la primera clase. Luego para encontrar el lmite superior de esta primera clase, se
suma al lmite inferior la amplitud encontrada en el paso 3, este limite sera tambin el
lmite inferior de la siguiente clase, entonces lo que hacemos es lo mismo, sumamos la
amplitud para encontrar el otro lmite y as sucesivamente hasta llegar al valor mximo
encontrado en el paso anterior (valor mximo ms la cantidad repartida sobrante
menor).
Calculados los intervalos de clase, lo que hacemos a continuacin es contar el nmero de
datos que cae en cada clase. Este conteo producir la frecuencia absoluta simple, siguiente
paso ser calcular la frecuencia relativa simple, que como se haba definido, es el cuociente
entre la respectiva frecuencia absoluta simple y el tamao de la muestra, por ltimo se
calcula las frecuencias acumuladas y las marcas de clases tambin definidas.
Ejemplo sobre la construccin de una distribucin de frecuencia para datos de variable
continua:
Los siguiente son depsitos, en miles de pesos, de una muestra aleatoria de clientes que
llegaron a depositar en sus cuentas de ahorro el da 24 de junio del 2002, Banco X.

32,2
33,5
78,3
45,2
38,3
45,5

56,2
65,4
29,4
28,4
48,4
38,7

45,5
36,8
29,7
52,5
29,5
63,5

39,8 47,7
58,5, 50,8
39,5 58,4
53,4 49,5
32,5 78,8
68,4 60,8

69,8
64,8
45,8
39,5
70,7
58,8

85,5
59,5
55,8
26,7
72,5
48,2

El tamao de muestra es de 42 clientes, donde cada dato corresponde al valor del depsito
del cliente es estudio.
Primer paso :

valor mximo = 85,5 valor mnimo = 26,7

Segundo paso :

R 85,5 26,7 58,8

@ Abanto Canto

Tercer paso:

58,8
11,76 11,8
5

Aqu aproximamos a 11,8 (a dcimas) porque los datos aparecen con dcimas (es decir un
dgito despus de la coma decimal).
Cuarto paso :

R 11,8 5 59

Quinto paso:

s 59 58,8 0,2

Sexto paso:

reparto:

0,2

0,1
0,1

Entonces:

Valmin 0,1 26,6

Valmax 0,1 85,6


Sptimo paso: construimos los intervalos, siendo el lmite inferior de la primera clase
26,6 y despus se suma la amplitud para encontrar los siguientes limites hasta llegar al
ltimo valor que es 85,6.
26,6 + c = 26,6 +11,8 = 38,4
38,4 +11,8 = 50,2
50,2 +11,8 = 62,0
62,0 +11,8 = 73,8
73,8 +11,8 = 85,6
Produciendo los siguientes intervalos y procediendo hacer el conteo:
Depsitos
(miles pesos)
[26,6-38,4)
[38,4-50,2)
[50,2-62,0)
[62,0-73,8)
[73,8-85,6]
Total

Conteo
||||||||||
||||||||||||
||||||||||
||||||||
|||
42

Del conteo se produce las frecuencias absolutas simples y se calculan las dems
frecuencias; As como sus respectivas marcas de clase. Es importante en esta parte recordar
que los intervalos considerados son abiertos por la derecha y cerrados por la izquierda, esto
quiere decir, por ejemplo que en la clase tres el dato con valor 62 no lo toma pues en el
lmite superior (62) es abierto y lo toma en la siguiente clase, es decir, le corresponde a la
cuarta clase:

@ Abanto Canto

Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,


del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

mi

Ni

Mi

Xi

10
12
10
7
3
42

0,24
0,28
0,24
0,17
0,07
1,00

10
22
32
39
42

0.21
0,52
0,76
0,93
1,00

32,5
44,3
56,1
67,9
79,7

Fuente: Departamento de asuntos comerciales del Banco X


Como se puede ver, la construccin de una distribucin de frecuencia para variable
continua, como la que acabamos de desarrollar, puede ser implementada en excel, usando
las diferentes herramientas que dispone esta.

1.3

CONSTRUCCION DE
VARIABLE DISCRETA.

UNA

DISTRIBUCION

DE

FRECUENCIA

PARA

La construccin de una distribucin de frecuencia para variable discreta, es mucho ms


sencilla que para una variable continua, aqu las clases quedarn definidas por los posibles
resultados de la variable, procediendo despus al conteo y a los clculos de las respectivas
frecuencias simples y acumuladas.
Ejemplo de la construccin de una distribucin de frecuencia para una variable discreta:
Los datos siguientes, muestra el nmero de empleos de los clientes, en los dos ltimos aos,
recogidos segn el ejemplo anterior, el 24 de junio del 2002, Banco X.
1 2 3 1 1 1 1 2 2 4 2 2 1 2 3 1 4 2 1 2 1
2 2 2 1 1 1 2 0 1 0 0 2 0 1 0 1 1 3 1 2 3
Como se ve los posibles resultados son 0, 1, 2, 3, 4 empleos que tuvieron los clientes en los
dos ltimos aos. Visto esto, entonces procedemos a realizar el conteo:

Posibles
Conteo
resultados de
la variable
0
|||||
1
|||||||||||||||||
2
| | | | | | | | | | | | | |
3
||||
4
||
Total
42
Listo el conteo, calculamos ahora las respectivas frecuencias:

@ Abanto Canto

Tabla N 5: Distribucin de frecuencia, del nmero de empleos en los dos ltimos


de un grupo de clientes del Banco X, 24 de junio del 2002
N de empleos, ni
2 ltimos aos

mi

Ni

Mi

0,12
0,40
0,33
0,10
0,05
1,00

5
22
36
40
42

0,12
0,52
0,85
0,95
1,00

Xi
0
1
2
3
4
Total

5
17
14
4
2
42

Fuente: Departamento de asuntos comerciales, Banco X

La primera columna muestra los grupos o clases, definidas por los posibles resultados del
variable en estudio. Las siguientes columnas corresponden a las frecuencias. Cabe resaltar
que la columna correspondiente a los grupos, es decir los posibles resultados sern tratados
en los siguientes captulos como las marcas de clases son para la variables continuas.

1.4 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA VARIABLE


CUALITATIVA.
Igual como en la construccin de una distribucin de frecuencia para variable discreta, la
construccin de una distribucin de frecuencia para variable cualitativa es muy sencilla.
Primero, entonces observamos los posibles resultados de la variables, produciendo esto las
frecuencias absolutas simple y luego calcular las frecuencias relativa y acumuladas. Los
posibles resultados conformaran las clases o grupos, como son los intervalos de clase para
la distribucin de frecuencia de una variable continua
Ejemplo de construccin de una distribucin de frecuencia para variable discreta:
Sobre los mismos clientes, tratados en los ejemplos de construccin de una distribucin de
frecuencia, para variable continua y discreta, tambin se observ la variable: Nivel de
instruccin (Bsico = B, Medio = M, Superior = S).
BBMBBBBBMMMMBMSSSSSMM
BBBMMSMBMSMBMSSMMMSSS
Observamos que los posibles resultados de la variable son: B, M y S y sern los que
conformaran los grupos o clases, para realizar el conteo, as:

@ Abanto Canto

Nivel
de Conteo
Instruccin
Bsico
Medio
Superior
Total

|||||||||||||
|||||||||||||||||
||||||||||||
42

El conteo, como ya lo hicimos en casos anteriores producir la frecuencia absoluta simple,


calculndose despus las frecuencia relativa.
Observando en las indicaciones dadas para la presentacin de una distribucin de
frecuencia de una variable cualitativa, las frecuencias acumuladas no se determinan.
Las frecuencias acumuladas no tienen valor calcularlas puesto que no tendran sentido sus
interpretaciones. Pasa esto en variables cualitativas; pero las variables cualitativas pueden
clasificarse tambin en ordinales y nominales, siendo las variables cualitativas ordinales
aquellas en la que los atributos estn ordenas en algn sentido y las nominales no estn
ordenadas. El nivel de instruccin es una variable ordinal, desde que un nivel de instruccin
bsico tiene menor grado que uno de nivel medio y estos adems menor grado que uno de
nivel superior. Desde este punto de vista entonces, en la distribucin de frecuencia para la
variable nivel de instruccin se podran calcular las frecuencias acumuladas, puesto que sus
interpretaciones respectivas se podran interpretar tambin.
Quedando, la presentacin de la siguiente forma:
Tabla N 6: Distribucin de frecuencia del nivel de instruccin de un grupo
de clientes del Banco X, junio del 2002.
Nivel de
Instruccin
Bsico
Medio
Superior

ni

mi

Ni

Mi

13
17
12

0,31
0,40
0,29

13
30
42

0,31
0,71
1,00

Total

42

1,00

Fuente: Departamento de Asuntos comerciales, Banco X

2.

PRESENTACION DE DATOS: REPRESENTACION GRAFICA.

3.1 GRAFICOS PARA VARIABLE CONTINUA.


1. Polgono de Frecuencias: Este grfico se construye dentro de dos ejes, uno el eje
horizontal y en el que se anota los valores de la variable, representados por los
intervalos de clase y en el otro eje, vertical, se anota la escala respecto de los resultados
obtenidos en las frecuencias.
Para mostrar el ejemplo, usaremos los resultados obtenidos en la tabla N 4:

@ Abanto Canto

Grfico N 1: Polgono de frecuencias de los depsitos de los clientes del


banco X, 24 de junio del 2002.
Poligono de Frecuencias

ni

14
12
10
8
6
4
2
0
14,8

26,6

38,4

50,2

62

73,8

85,6

depsitos

Fuente: Departamento de Asuntos Comerciales, Banco X


El polgono, si observamos esta construido respecto a la frecuencia absoluta simple ( ni
). Tambin recordamos la presentacin que tiene las siguientes partes: Encabezamiento,
tabla propiamente dicha y la fuente.
2. Histograma de Frecuencia: Como en el polgono de frecuencias, el histograma est
construido en dos ejes, el eje horizontal representando las clases de los valores de la
variable y el eje vertical representa los valores de la frecuencia respectiva, a graficar. El
histograma usa rectngulos continuos para representar la distribucin de los datos a
diferencia del polgono que usa lneas.
Usaremos los mismos datos usados para la construccin del polgono:
Tabla N 2: Histograma de Frecuencia de lo Depsito de un grupo de clientes
del Banco X, 24 de junio del 2002.

Histograma de Frecuencias
14
12

ni

10
8
6
4
2
0

26,6-38,4

38,4-50,2

50,2-62

62-73,8

Fuente: Departamento de Asuntos Comerciales, Banco X.

73,8-85,6

@ Abanto Canto

Cuando se hace la presentacin de los datos a travs de un grfico, el resultado de


este puede variar, de acuerdo a su asimetra como se muestra en las siguientes
figuras. Esta entonces pueden ser: Asimtrica positiva, asimtrica negativa o una
distribucin simtrica.
Segn el resultado de la asimetra, se podra interpretar la informacin que entrega
los datos. Por lo tanto, el resultado de la forma de la asimetra, proporciona una
pauta para interpretar los datos.
Nos fijamos en el eje horizontal, que representa los valores de la variable, los
valores ms bajos estaran cerca al origen y los ms altos lejos del origen o hacia el
lado derecho del eje. Por otro lado, la altura del polgono o del histograma indica la
cantidad de datos distribuidos en ese intervalo, es decir ms altura indicara que hay
mayor cantidad de datos, que en una parte del grfico donde la altura es menor.
Juntando estas dos indicaciones se interpretar un grfico, ya sea un polgono o un
histograma de frecuencia.
A continuacin daremos un alcance de la interpretacin de un histograma segn
su asimetra, considerando como resultados los grficos correspondientes y no
otro. Hago este alcance pues puede haber otras variaciones.

frecuencia

Asimetria Positiva

La mayor altura en esta distribucin asimtrica (positiva), se encuentra en valores


cercanos al origen, lo que muestra, en forma general, que gran parte de los datos
tienen valores bajos. Si por ejemplo, se estuviera analizando los ingresos de las
familias de cierta comuna, esta distribucin podra corresponder o ser el resultado
de una comuna de bajos recursos.

@ Abanto Canto

fi

Asimetria negativa

En este tipo de asimetra (negativa), la mayor cantidad de datos como se observa,


tienen valores altos; puesto que la mayor altura, est a la derecha de la menor altura
del grfico. Si suponemos como en el caso anterior, un anlisis de los ingresos de
las familias de cierta comuna, esta distribucin sera el resultado de una comuna
con altos recursos.

Por ltimo, esta forma de distribucin corresponde a la de una distribucin


simtrica. La caracterstica principal, es que esta distribucin tiene como centro el
promedio, equivalente a la moda y mediana, y que si se parte por la mitad quedar
el 50% de los datos al lado izquierdo de la media y el otro 50% a lado derecho.

3.2

GRAFICOS PARA VARIABLES CUALITATIVAS.


1. Diagrama de Barras: Se dibujan dos ejes, el eje horizontal, que representa a los
resultados de la variable y el eje vertical que representa a los valores de la frecuencia
respectiva, a graficar; dependiendo la escala de este eje, del valor mnimo y mximo de
las frecuencias. Dentro de los ejes se dibujan rectngulos o barras proporcionales a las
frecuencias ubicada en el eje vertical, con respecto a los resultados de la variable (eje
horizontal).
Cabe denotar aqu que los rectngulos, se parecen a los de un histograma, la diferencia
est, en que estos son separados y los de histogramas son rectngulos continuos.

@ Abanto Canto

Como ejemplo, usaremos los resultados obtenidos en la tabla N 6.

Grfico N 3 Diagrama de Barras del Nivel de Instruccin de un grupo de


clientes del Banco X, 24 de junio del 2002.

ni

Diagrama de Barras

18
16
14
12
10
8
6
4
2
0

17
13

Bsico

12

Medio

Superior

N. Instr.

Fuente: Departamento de asunto comerciales, Banco X

2. Diagrama de sectores circulares: Aqu, se dibuja una circunferencia (360) y esta se


divide proporcionalmente a las frecuencias de cada atributo (resultado de la variable) en
estudio.
Como ejemplo usaremos los datos tambin de la tabla N 6:

Grfico N 4: Diagrama de sectores circulares del nivel de instruccin de


un grupo de clientes del banco X, 24 de junio del 2002
Sectores circulares

Superior
29%

Bsico
31%

Medio
40%

Fuente: Departamento de asuntos comerciales, Banco X.

@ Abanto Canto

GRAFICOS PARA VARIABLE DISCRETA.

Diagrama de Bastones: En este tipo de grfico, tambin se dibujan dos ejes uno horizontal
donde se anotan los resultados de la variable y en el eje vertical se anotan las frecuencias
respectivas. Como la variable es de tipo discreta lo que se hace es que en cada resultado de
la variable (eje horizontal) se dibuja una lnea hasta la altura de la frecuencia respectiva y se
dibuja un punto en la parte superior (la lnea y el punto forman el bastn).

Como ejemplo usaremos los resultados obtenidos en la tabla N 5:

Grfico N 5: Diagrama de Bastones del nmero de empleos en los dos ltimos


aos de un grupo de clientes del Banco X, 24 de junio, 2002.

Diagrama de Bastones

20
15
ni

2.3.1

10
5
0
-1

2
3
# de empleos

Fuente: departamento de asuntos comerciales, Banco X.

Como ltima observacin, para esta parte de la presentacin grfica, como dijimos en la
parte anterior correspondiente a la construccin de distribuciones de frecuencia, estos
mtodos de presentacin de informacin estadstica, pueden ser implementados en Excel;
de hecho todos los grficos y tablas presentados en este documento estn desarrollados en
este software. Destacando tambin la presencia en el medio de muchos paquetes
estadsticos, los que tambin pueden ser usados. Adems estos disponen, de muchos otros
mtodos sofisticados para la presentacin grfica, de la informacin.
Para finalizar esta ltima observacin, quiero resaltar el uso de los colores en la
presentacin grfica, para indicar algunas clases o intervalos de clase de importancia, en
cualquier sentido.

@ Abanto Canto

GUIA 1 de ejercicios
1. Almacenes FRANCIA, dispone de una base de datos de variables relacionadas a sus
clientes (antecedentes histricos y personales). Con el objetivo de hacer una descripcin
estadstica de estas variables en forma rpida y econmica, se tom una muestra
aleatoria:
EDAD
(AOS)

DEUDA N
ESTAD
VIGENT INTEGR O CIVIL
E (U.M) ANTES
FAMIL.

25
45
25
46
28
48
56
23
45
29
28
55
45
36
39
33
30
31
45
58
56
50
49
47
29
30
42
35
36
36
25
14
58
39
45
50

200,8
255,4
369,5
456,7
108,6
125,3
200,6
190,3
236,5
333,9
258,5
147,5
299,4
368,5
449,8
405,2
426,8
436,3
325,8
346,7
486,5
256,9
200,6
563,6
405,7
499,5
456,5
555,6
521,3
169,2
369,2
358,5
248,8
391,6
488,8
256,3

2
3
6
5
4
2
2
3
5
4
6
2
3
2
5
5
5
3
4
4
3
5
5
3
2
3
5
6
2
3
1
2
2
4
4
3

S
C
C
C
C
S
S
C
C
C
C
C
C
S
C
C
C
C
C
C
S
S
C
C
S
C
C
C
S
C
S
S
S
C
C
C

N
DE
CREDITO
S
SOLICIT
ADOS
1
3
2
2
5
4
4
3
4
5
5
5
5
2
6
7
4
4
2
3
5
7
6
6
5
4
7
7
7
2
1
3
5
4
4
5

@ Abanto Canto

a.
b.
c.
d.
e.

Clasifique cada una de las variables en estudio.


Construya una distribucin de frecuencia, para cada una de las variables en estudio
Construya un grfico adecuado para cada una de las variables en estudio.
Interprete los resultados obtenidos en las preguntas b y c.
Segn los resultados obtenidos en la distribucin de frecuencia para la edad y la deuda
vigente:
Qu porcentaje de la muestra de clientes, tienen edad inferiores a 31 aos
Que cantidad de la poblacin de clientes, tienen edad superior a 45 aos, si esta es de
tamao N= 2.500.000.
Qu cantidad de la poblacin tienen edades entre 23 y 39 aos, considerando el tamao
de poblacin anterior.
Qu porcentaje, de la muestra de clientes en estudio, tienen deuda vigente inferior a
301,5 u.m
Que porcentaje, de la muestra de clientes en estudio, tienen deuda vigente entre 198 y
367 u.m.

2. En cierto Banco, se ha lanzado al mercado un producto de crdito de consumo, los


ingresos (miles de pesos) de los clientes que solicitan este producto son dados a
continuacin:
350,34
135,45
200,12
333,78

359,35
157,84
310,32
233,23

268,67
158,83
312,45
239,78

198,54
187,45
300,78
289,56

168,89
146,87
324,78
156,56

279,98
167,89
345,78
128,73

156,34
200,52
289,45
344,54

278,56
210,67
345,34
234,45

135,78
234,74
234,89
156,45

169,96
145,74
275,67
125,34

128,93
234,74
145,73
157,77

Construya una distribucin de frecuencia y su respectivo grfico, para esta


informacin. Interprete sus resultados, discuta y concluya.

Los directivos del Banco, quieren llegar con este producto, a personas con ingresos ms
altos. Es por esta razn, que se desarrolla una campaa de publicidad, para atraer a
estos clientes. Los ingresos de los clientes, despus de aplicada la publicidad son dados
a continuacin:
256,54
139,12
200,23
300,45

300,78
129,12
231,21
300,12

360,54
124,25
260,23
289,12

320,25
256,25
165,15
238,54

329,56
289,23
136,25
288,88

239,54
178,25
189,18
210,15

199,56
342,52
195,12
321,25

210,45
259,36
219,56
249,23

140,45
230,26
239,45
248,52

152,23
158,56
289,56
369,45

310,12
213,21
278,45
289.99

Construya una distribucin de frecuencia y su respectivo grfico. Interprete los


resultados, discuta y concluya. La publicidad tuvo efecto segn los resultados.
Segn un estudio realizado en otra institucin bancaria, se lleg a la conclusin de
que clientes que solicitan crdito con ingresos inferiores 189,34 mil pesos, son
clientes con riesgo de no pagar el crdito. Usando la distribucin de frecuencia
estime el porcentaje de clientes con riesgo de no pagar el crdito, antes y despus
de aplicada la publicidad.

@ Abanto Canto

Si la poblacin de clientes esta conformada por 1.500.000 personas, usando la


estimacin de la pregunta anterior, que cantidad de clientes de la poblacin se
estima con riesgo de no pagar el crdito.
Otra institucin de la competencia tambin realiz un estudio y determin que el
porcentaje de clientes con riesgo segn su ingreso era del 20%. Cul es el valor del
ingreso superior de los clientes con riesgo de no pagar?

3. Antes de comenzar un estudio se decidi que sera de gran ayuda para la realizacin del mismo
hacer una encuesta, con el objeto de tener informacin muy reciente del mercado.
Para evaluar el concepto de producto que reciben los potenciales consumidores, y si se
adecua a sus necesidades, hemos realizado el siguiente test, sobre una muestra de 100 personas
pertenecientes a todas las zonas del mercado donde lanzamos el producto.

@ Abanto Canto

II. Medidas Descriptivas


1. MEDIDAS DE TENDENCIA CENTRAL.
Son medidas estadsticas de descripcin y de resumen que tienen la caracterstica de ser centros
de gravedad respecto de los datos. La media, mediana y moda son las medidas de tendencia
central que estudiaremos en esta unidad, cada una tiene su definicin y por lo tanto el
procedimiento de clculo ser diferente en cada caso, as como tambin su respectiva
interpretacin. Para mejor entendimiento sobre los clculos de estas medidas, dividimos en dos
partes los procedimientos, segn los datos enfrentados:

1.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS

1. Media o Promedio: Es el valor esperado de la variable, al seleccionar aleatoriamente


un dato y se calcula usando la siguiente frmula:

x
i 1

donde:

x : es el promedio o media.

xi : valor del dato i-simo.

n : tamao de la muestra.

Ejemplo: Se tiene el ingreso mensual de un grupo de clientes de la financiera Z


200, 300, 250, 300, 280, 300. (datos en miles de pesos)

@ Abanto Canto

Segn la frmula la media ser:

200 300 250 300 280 300


271,67
6

Lo que quiere decir que: Si se selecciona al azar un cliente se espera que este cliente tenga
un ingreso mensual de 271,67 mil pesos.

2. Mediana: Es el valor de la variable que divide a los datos de la muestra ordenada en


dos partes iguales, es decir que cada parte dividida equivale al 50% de la muestra. La
frmula que calcula la mediana es:

me X ( n 2 )( 12 )

donde:

me : es la mediana.

n : es el tamao de la muestra.

En el Ejemplo usaremos los datos anteriores: 200, 300, 250, 300, 280, 300.

El primer paso es ordenar los datos, esta ordenacin puede ser de menor a mayor o de
mayor a menor. A continuacin ordenamos de menor a mayor:

200, 250, 280, 300, 300, 300,

El siguiente paso es calcular el orden que ocupa la mediana en esta ordenacin de la


mediana:

me X ( n 2 )( 12 ) X ( 6 2 )( 12 ) X 3,5

@ Abanto Canto

El subndice del ltimo resultado indica el orden que ocupa la mediana, queriendo decir
entonces que la mediana esta entre el dato 3 y 4 (puesto que el subndice es 3,5).
Siendo el dato tres igual a 280 y el dato cuatro igual a 300. Por lo que la mediana sera el
promedio de ambos nmeros, es decir:

me

280 300
290m. p
2

interpretndose que: El 50% de los clientes del Banco Z tienen ingresos de 290 mil pesos o
menos, en consecuencia la otra mitad tienen ingresos superiores a 290 mil pesos.

Cabe indicar aqu que la mediana fue el resultado del promedio de dos nmeros en razn
de que el tamao de la muestra es un nmero par (n = 6), esto no debe pasar con el
tamao de muestra impar en este caso la mediana sera directamente un solo nmero.

3. Moda. Es el valor de la variable con mayor frecuencia entre los datos de la muestra.
Por lo tanto si existe moda, la moda puede ser una, dos, tres, o muchas modas; pero
tambin no puede existir. En otra palabras, las muestras pueden ser amodales si no
tienen moda, unimodales si tienen una moda, bimodales si tienen dos modas,
trimodales si tienen tres modas y as sucesivamente.
Aqu por lo tanto, no se puede disponer de una frmula, calculando la moda con
simple observacin:
En los datos del ejemplo anterior se observa que el dato con mayor frecuencia es 300,
es decir, la moda es 300.
Que se interpreta: es muy frecuente en los clientes del Banco z encontrar un ingreso
de 300 mil pesos.

@ Abanto Canto

1.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS

En la parte anterior, sobre medidas de tendencia central para datos no agrupados,


definimos estas medidas, es decir, la media, mediana y moda. Ahora para datos agrupados
nos centraremos en los procedimiento de clculo puesto que las definiciones sern las
mismas.

Empezamos entonces con el promedio o medi

1. PROMEDIO O MEDIA: La frmula es la siguiente:

x
i 1

ni

donde:

x : es el promedio

xi : es la marca de clase i-sima

ni : frecuencia absoluta simple.

n : tamao de muestra.
a : nmero de clases o intervalos.

Ejemplo: Usemos los datos de la tabla N 4 en la unidad I:

@ Abanto Canto

Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,


del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

mi

Ni

Mi

Xi

10
12
10
7
3
42

0,24
0,28
0,24
0,17
0,07
1,00

10
22
32
39
42

0.21
0,52
0,76
0,93
1,00

32,5
44,3
56,1
67,9
79,7

Fuente: Departamento de asuntos comerciales del Banco X

Para calcular el promedio de los depsitos tomamos las frecuencias absolutas simples y las
marcas de clase, desarrollando otra columna correspondiente al producto de ambas y
obtenemos la suma, que es la equivalencia a la parte del numerador en la frmula del
promedio::

Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

xi

10
12
10
7
3
42

32,5
44,3
56,1
67,9
79,7

Por lo que el promedio sera: x

x
i 1

ni
=

xi ni
325,0
531,6
561,0
475,3
239,1
2132

2132
50.76 m.p
42

La interpretacin es: Si se toma aleatoriamente un cliente, se espera que este deposite 50,76
mil pesos.

@ Abanto Canto

2. MEDIANA. La frmula para calcular la mediana es:

me Linf

N k 1

ck 2
nk

donde:

me : es la mediana

Linf : lmite inferior de la clase mediana


c k : amplitud de la clase mediana.
n : tamao de la muestra.
N k 1 : frecuencia absoluta acumulada, anterior a la clase mediana
n k : frecuencia absoluta simple de la clase mediana
Para el ejemplo usaremos los datos correspondiente a la tabla N 4 de la unidad I:

Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,


del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

mi

Ni

Mi

Xi

10
12
10
7
3
42

0,24
0,28
0,24
0,17
0,07
1,00

10
22
32
39
42

0.21
0,52
0,76
0,93
1,00

32,5
44,3
56,1
67,9
79,7

Fuente: Departamento de asuntos comerciales del Banco X

Para calcular la mediana de los depsitos necesitamos las columnas correspondiente a la


frecuencia absoluta simple y acumulada. Por tal razn, copiamos lo que necesitamos en
otra tabla, quedando de la forma:

@ Abanto Canto

Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni
10
12
10
7
3
42

Ni
10
22*
32
39
42

Segn estos datos entonces procedemos a hacer el primer clculo que es:

n 42

21 ,
2 2

este ltimo valor calculado se observa en que clase cae en la columna correspondiente a
las frecuencias absolutas acumuladas. Observando la tabla este valor 21 cae en la segunda
clase (en la tabla esta marcado con asterisco) lo que indica que el valor de la mediana est
en esta clase. Procediendo a continuacin a identificar los otros elementos de la frmula,
es decir:

Linf 38,4 ; ck 11,8 ; N k 1 10 y nk 12 .

Sustituyendo estos valores en la frmula quedar:

me Linf

42

10
N k 1

= 38,4 11,8 2
49,22 m.p.
ck 2
nk

12

Se interpreta: Que la mitad de los clientes del banco Z, depositan 49,22 mil pesos o
cantidades inferiores, y en consecuencia la otra mitad depositan cantidades superiores a
49,22 mil pesos.

@ Abanto Canto

3. MODA. La frmula para calcular la moda es la siguiente:

mo Linf ck

2
1
donde:

mo : es la moda

Linf : lmite inferior de la clase modal


c k : amplitud de la clase modal
1 nk nk 1
2 nk nk 1

n k : frecuencia absoluta simple ms grande


nk 1 : frecuencia absoluta simple anterior a la ms grande.
nk 1 : frecuencia absoluta simple siguiente a la ms grande.

Para el ejemplo del clculo de la moda usaremos otra vez los resultados de la tabla N 4 de
la unidad I:

Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,


del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

mi

Ni

Mi

Xi

10
12
10
7
3
42

0,24
0,28
0,24
0,17
0,07
1,00

10
22
32
39
42

0.21
0,52
0,76
0,93
1,00

32,5
44,3
56,1
67,9
79,7

Fuente: Departamento de asuntos comerciales del Banco X

@ Abanto Canto

Calcularemos entonces la moda. de los depsitos de los clientes del Banco Z. Para esto
absorbemos las columnas necesarias:

Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni
10
12
10
7
3
42

Y procedemos como primer paso a identificar la mayor frecuencia absoluta simple, siendo
esta frecuencia la correspondiente a la clase dos es decir: n2 12 . Por lo tanto la moda es
un valor que esta en la segunda clase, en consecuencia deducimos los otros elementos de
la frmula:

Linf 38,4 ; ck 11,8 ; 1 nk nk 1 = 12 10 = 2;

2 nk nk 1 = 12 10 = 2

Sustituyendo en la frmula, quedar:

1
2
38,4 11,8
mo Linf ck
44,3 m.p
2 2
1 2

Interpretndose: que es muy frecuente que un cliente deposite 44.3 m.p

@ Abanto Canto

1.3 MEDIDAS DE POSICION

Son medidas estadsticas descriptivas que indican la posicin del valor de la variable segn
la cantidad de datos acumulados porcentualmente. A continuacin daremos las
correspondientes definiciones para despus desarrollar los procedimientos de clculo:

1. Cuantiles o Cuartiles: Son los valores de la variable que dividen a la muestra en cuatro
partes iguales, esto quiere decir que entre cuantil y cuantil hay 25% de los datos.

2. Quintiles: Son los valores de la variable que dividen a la muestra en cinco partes
iguales, lo que indica que entre quintil y quintil hay 25% de los datos.

3. Deciles: Son los valores de la variable que dividen a la muestra en diez partes iguales,
en consecuencia entre decil y decil hay 10% de los datos.

4. Percentiles: Son los valores de la variable que dividen a la muestra en cien partes
iguales, esto quiere decir que entre percentil y percentil hay 1% de los datos.

1.3.1

Calculo de Medidas de Posicin para datos Agrupados.

Como expresamos anteriormente para datos no agrupados el clculo de cuantiles,


quintiles, deciles y percentiles se asemejan a la mediana, para datos agrupados
tambin sucede lo mismo; puesto que las definiciones persisten. Las frmulas
entonces sern muy parecidas a la frmula de la mediana con una leve
modificacin dependiendo del caso.

@ Abanto Canto

1. Cuantiles:

Qi Linf

in

N k 1

ck 4
nk

donde:

Qi : es el cuantil i-simo ( i 1,2,3)

Linf : Lmite inferior de la clase cuantlica


c k : Amplitud de la clase cuantlica.
n : Tamao de la muestra.
N k 1 : Frecuencia absoluta acumulada, anterior a la clase cuantlica
n k : Frecuencia absoluta simple de la clase cuantlica.
2. Quintiles:

i Linf

in

N k 1

ck 5
nk

Donde:

i : es el quintil i-simo ( i 1, 2, 3, 4)

Linf : Lmite inferior de la clase quintlica


c k : Amplitud de la clase quintlica.
n : Tamao de la muestra.
N k 1 : Frecuencia absoluta acumulada, anterior a la clase quintlica
n k : Frecuencia absoluta simple de la clase quintlica.
3. Deciles:

Di Linf

in

N k 1

c k 10
nk

Donde:

Di : es el decil i-simo ( i 1 ,2, 3...9)

Linf : Lmite inferior de la clase declica

@ Abanto Canto

c k : Amplitud de la clase declica.


n : Tamao de la muestra.
N k 1 : Frecuencia absoluta acumulada, anterior a la clase declica
n k : Frecuencia absoluta simple de la clase declica.
4. Percentiles:

Pi Linf

in

N k 1

c k 100
nk

Donde:

Pi : es el percentil i-simo ( i 1, 2, 3...99)

Linf : Lmite inferior de la clase percentlica


c k : Amplitud de la clase percentlica.
n : Tamao de la muestra.
N k 1 : Frecuencia absoluta acumulada, anterior a la clase percentlica
n k : Frecuencia absoluta simple de la clase percentlica.
A continuacin mostraremos ejemplos sobre el clculo de medidas de posicin
para datos agrupados:

Recordemos la distribucin de frecuencia sobre la que se desarroll los ejemplos


de clculo de medidas de tendencia central:

Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,


del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

mi

Ni

Mi

Xi

10
12
10
7
3
42

0,24
0,28
0,24
0,17
0,07
1,00

10
22
32
39
42

0.21
0,52
0,76
0,93
1,00

32,5
44,3
56,1
67,9
79,7

Fuente: Departamento de asuntos comerciales del Banco X

@ Abanto Canto

De esta tabla tomemos las columnas que sirven para el clculo de medidas de
posicin:
Depsitos
(miles pesos)
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
Total

ni

Ni

10
12
10
7
3
42

10
22
32
39
42

Primero veremos como ejemplo el clculo de cuantiles, en particular el cuantil 1:


Como primer paso como en la mediana, determinamos de la frmula para los
cuantiles:

Qi Linf

in

N k 1

Q1 Linf c k
ck 4
nk

1 n

N k 1

4
nk

i n 1 42

10,5 , este resultado le ubicamos a la altura de la frecuencia absoluta


4
4
acumulada donde le alcanza o pasa, siendo esta la frecuencia absoluta simple de la
segunda clase, es decir: N 2 22 (entonces k=2). Esto nos indica que la clase
donde se encuentra el cuantil 1 es la segunda clase y a partir de este conocimiento
fijamos los valores de la frmula, por ejemplo: la frecuencia absoluta acumulada
anterior a la clase cuantlica es: N k 1 N1 10 , la frecuencia absoluta simple de
la clase cuantlica es: nk n2 12 , la amplitud de la clase cuantlica es:

ck c2 11,8 y por ltimo el lmite inferior de la clase cuantlica es: Linf 38,4 .
Reemplazamos estos valores en la frmula y tenemos:

Q1 Linf

1 n

N k 1

38,4 11,8 10,5 10 38,89m. p


ck 4
nk

12

Esto quiere decir que el 25% de los clientes del banco X depositan 38,89m.p o
cantidades inferiores, obviamente el complemento equivalente al 75% depositan
cantidades superiores a 38,89m.p.

Ahora veamos el caso del clculo de quintiles, calculemos entonces el quintil 4:

@ Abanto Canto

La frmula para calcular quintiles es la siguiente y nos interesa calcular el quintil 4


reemplazamos en la i el nmero 4, como sigue:

i Linf

in

N k 1

4 Linf c k
ck 5
nk

4n

N k 1

5
nk

Enseguida calculamos de la frmula la parte correspondiente a:

4 n 4 42

33,6 , este resultado le ubicamos a la altura de la frecuencia


5
5

absoluta acumulada donde le alcanza o pasa respectivamente, siendo esta la


frecuencia absoluta simple de la segunda clase, es decir: N 4 39 (entonces k=4).
Esto nos indica que la clase donde se encuentra el quintil 4 es la cuarta clase y a
partir de este conocimiento fijamos los valores de la frmula, por ejemplo: la
frecuencia absoluta acumulada anterior a la clase quintlica es: N k 1 N 3 32 , la
frecuencia absoluta simple de la clase quintlica es: nk n4 7 , la amplitud de la
clase quintlica es: ck c2 11,8 y por ltimo el lmite inferior de la clase
quintlica es: Linf 62,0 . Reemplazamos estos valores en la frmula y tenemos:

4 Linf

4n

N k 1

62 11,8 33,6 32 64,70m. p


ck 5
7
nk

Esto quiere decir que el 80% de los clientes del banco X depositan 64,70m.p o
cantidades inferiores, obviamente el complemento equivalente al 20% depositan
cantidades superiores a 64,70m.p.

@ Abanto Canto

Gua 2 de ejercicios
1. Los siguientes datos corresponden al rendimiento, medido porcentualmente, de una
muestra aleatoria de vendedores de seguros.

Rendimien
to (%)

ni

0-20

20-40

15

40-60

50

60-80

60

80-100

40

total

170

a. Determine e interprete:
(a.1) media o promedio.
(a.4) cuartil 1

(a.2) mediana
(a.5) decil 3 y 9

(a.3) moda
(a.7) percentil 23 y 77

b. El jefe del departamento de ventas necesita categorizar a los vendedores segn su


rendimiento, pero l nunca tuvo una asignatura de estadstica y le pide a usted que le
ayude en esta tarea. La categorizacin se har de la siguiente forma:
- El 20% de los vendedores con rendimiento ms bajo, en categora D.
- El siguiente 30% en rendimiento, en categora C.
- El siguiente 25% en rendimiento, en categora B.
- Y el resto en categora A.
c. Si se contratara a dos vendedores y despus de cierto perodo se establece que sus
rendimientos son de 38% y 77%, en qu categoras quedarn clasificados?.

@ Abanto Canto

d. Estos datos (rendimientos de los vendedores) corresponden al primer trimestre del


ao 2002; Pero se sabe, por antecedentes que el rendimiento de cada uno de los
vendedores aumenta en 5 unidades porcentuales ms, en el segundo trimestre. Cul
sera el promedio en el segundo trimestre?
2. Un contratista de venta e instalacin de sistemas de calefaccin y aire acondicionado
debe resolver para el 2 de noviembre la compra de unidades centrales de aire
acondicionado para su reventa e instalacin durante el verano siguiente. Con base en
la demanda anterior, las condiciones econmicas corrientes y los factores
competitivos del mercado, estima que existe una probabilidad de 0,10 de vender 5
unidades, una probabilidad de 0,30 de vender 10 unidades, una probabilidad de 0,40
de vender 15 unidades y una probabilidad de 0,20 de vender 20 unidades. Las
unidades de aire acondicionado slo pueden pedirse en grupos de cinco siendo su
costo por unidad de 1.000 dlares y su precio de reventa de 1.300. Las unidades no
vendidas al trmino de la temporada le son devueltas al fabricante con un crdito neto
de 800 dlares. Tras la deduccin del costo de embarque.
a. Construya una tabla de pagos del nmero de unidades de aire acondicionado por
ordenar (pedir).
b. Tome la decisin de cuantas unidades ordenar, con base en las probabilidades como
en las consecuencias econmicas.
3. En la siguiente tabla se presentan los rendimientos de cinco tipos alternativos de
decisiones de inversin para un perodo de un ao y las probabilidades asociadas con
la recesin, la estabilidad econmica y la expansin que son 0,30, 0,50, y 0,20,
respectivamente. Determine la mejor accin segn el pago esperado.
Estado
Probab
economa

Decisin de Inversin
Cuent
Ahorro

Bonos
Corp

Acc. Alta
calid

Acc. Espec

Otras

Recesin

0,30

600

500

-2.500

-5000

-10.000

Estable

0,50

600

900

800

400

-5.000

Expansin

0,20

600

900

4.000

10.000

20.000

@ Abanto Canto

4. Con base en un nuevo mtodo tecnolgico, un fabricante ha desarrollado un televisor


a color con cinescopio de 45 pulgadas. El dueo de una pequea tienda estima que los
valores de probabilidad asociados con la venta de 2, 3, 4 o 5 televisores durante los
tres meses de inters son 0.30, 0.40, 0,20 y 0.20, respectivamente. Adems se sabe
que el margen de ganancia de cada televisor vendido es de 200.000 pesos. Si en el
curso de los tres meses no se vendiera algunos televisores, la prdida total por aparato
para el comerciante sera de 300.000 pesos. Con base en estas consecuencias
econmicas y las probabilidades identificadas determine la mejor accin segn el pago
esperado.
5. En la siguiente distribucin de frecuencia se tiene el nmero de autos vendidos de
vendedores de una distribuidora de automviles en un mes en particular:

Nmeros de
Nmero de
autos vendidos vendedores (
ni )
2

10

10

12

10

14

15

Determine e interprete: (a) media

(b) mediana

(c) mediana

6. En las siguiente tablas se tiene las D.F de las remuneraciones de los funcionarios en
dos empresas diferentes:

@ Abanto Canto

Empresa A
Remunera
.

ni

Empresa B
Remunera.

ni

(u.m)

(u.m)
110-210

30

115-215

30

210-310

40

215-315

45

310-410

70

315-415

75

410-510

40

415-515

50

510-610

20

515-615

25

610-710

10

615-715

15

6.1 Determine e interprete para cada una de las D.F: (a) media (b) mediana (c) moda
(d) percentil 60.
6.2 Si supuestamente las dos empresas le ofrecen trabajo, usando los resultados
anteriores, a cul de las empresas aceptara? Fundamente su respuesta.
6.3 Si se necesitara categorizar a los funcionarios de estas empresas, segn sus
remuneraciones, de tal forma que el 25% ms bajo en remuneraciones sea la
categora C, el siguiente 50% en remuneraciones en categora B y el resto en
categora A. Cules seran los lmites de cada categora?
6.4 Si usted ingresa a laborar en la empresa A y le ofrecen de remuneracin 305 um.
En qu categora clasifica?
6.5 S usted ingresa a laborar en la empresa B y le ofrecen de remuneracin 585 u.m.
En qu categora clasifica?

@ Abanto Canto

6.6 Si en la empresa A se decide aumentar las remuneraciones a cada funcionario en


un 6%. Cul sera la nueva remuneracin promedio?
6.7 Si en la empresa B se decide disminuir las remuneraciones a cada uno de los
funcionarios en 10 u.m Cul sera la nueva remuneracin promedio?
7. Desarrolle las preguntas e de la gua de ejercicios 1, usando las frmulas de medidas
de posicin.
8. En el sector servicios el sueldo promedio es de 200 u.m. Si los varones constituyen el
70% de la poblacin remunerada, es factible que su ingreso promedio mensual sea de
300 u.m.
9. La media aritmtica entre dos nmeros es 8 y su media geomtrica 2. Calcule la media
armnica.

@ Abanto Canto

III.
Dispersin o Variacin: Es la distancia que hay entre el valor de un dato y el valor de la
media.
Ejemplo: Sea la muestra de ingresos de 6 empleados, en unidades monetarias, 56, 60, 52,
50, 48, 63.

El promedio es x 54,83

dispersin del dato 56


dispersin del dato 60
x 54,83

48

50

52

54

56

58

60

62

Como se observa en el dibujo anterior, cada dato tiene su respectiva dispersin con
respecto al promedio. En adelante se analizara la dispersin pero en conjunto mediante
medidas absolutas o relativas.

1. Varianza: Es una medida de dispersin absoluta medida en unidades cuadradas de


los datos originales. Se define:
n

S n2

(x
i 1

x)2

S n21

Varianza muestral

(x
i 1

x)2

n 1

Cuasi varianza

@ Abanto Canto

Siendo deducidas de estas, las frmulas prcticas:

S n2

x
i 1

2
i

x2

S n21

x
i 1

2
i

nx 2

n 1

Respectivamente.

2. Desviacin Estndar: Se define como la raz cuadrada de la varianza. Esta medida de


variacin se puede interpretar como el promedio de variabilidad de los datos con respecto
al promedio. Se define:

S S2

3. Coeficiente de Variabilidad: Es una medida relativa de la variacin de los datos


respecto de la media. Si el coeficiente de variacin es menor o igual al 33% los datos
pueden considerarse como homogneos y si el coeficiente de variacin es mayor al 33%
heterogneos. Esto ltimo que se anoto es subjetivo y referencial pues otros pueden
considerar valores diferentes, en todo caso mientras mayor sea el valor porcentual mucho
ms hetergeneos sern los datos en la muestra. Se define:

CV ( x)

S
100
X

@ Abanto Canto

OTRAS MEDIDAS DE VARIABILIDAD IMPORTANTE EN EL ANALISIS DE DATOS

1. Rango Intercuartlico: Se define como la diferencia entre el cuartil 3 y el cuartil 1. Esta


medida busca el rango o recorrido del 50% de los datos centrales, que en diferentes
muestras pueden ser comparados evitando datos ausentes (25% por abajo y 25% por
arriba) que pueden estar distorsionando la comparacin de la informacin. La frmula es:

RIC Q3 Q1

2. Desviacin media: Es una medida de variabilidad de los datos respecto de la media y


que a diferencia de la varianza usa el valor absoluto de la diferencia (la varianza usa el
cuadrado de la diferencia). Se define:

D.M ( X )

D.M ( X )

x ni
n

Para datos no agrupados

Para datos agrupados

No olvide estimado alumno que la desviacin media y la varianza son medidas de


variabilidad con respecto a la media (diferencia del valor del dato y la media), la
discrepancia radica en el uso de la herramienta matemtica (cuadrado en el caso de la
varianza y el valor absoluto en el caso de la desviacin media) para no perder la suma
total de las diferencias en el cociente de cada una de las frmulas. La interpretacin
entonces de la desviacin y la desviacin estndar es la misma.

@ Abanto Canto

3. ndices de asimetra: Los ndices o criterios de asimetra son ciertas funciones que, tras
aplicar a determinados datos ofrecen algunos de los siguientes resultados:

As 0 Indica simetra

As 0 Indica asimetra positiva


As 0 Indica asimetra negativa

Entre los ndices de asimetra ms conocidos tenemos:

3.1 ndice de asimetra de Pearson:

As

x Mo
S

3.2 ndice de asimetra de Fisher:

(x
As

(x
As

x)3 / n
S3

Para datos no agrupados

x ) 3 ni / n
S3

Para datos agrupados

@ Abanto Canto

4. Medidas de Apuntamiento o Curtosis. El grado de dispersin de los datos influye sobre


la curva. El apuntamiento o curtosis es una ms de las propiedades de una distribucin de
frecuencias. Se parte de la base de que existen curvas con un grado medio de
apuntamiento, otras ms apuntadas y otras menos apuntadas.
Los criterios son los siguientes:

Cr 3 La curtosis es media, se habla de Mesocurtica

Cr 3 La curtosis es alta, se habla de Leptocurtica


Cr 3 La curtosis es baja, se habla de Platicurtica.

La frmulas son:

Cr

(x

(x
Cr

x)4 / n
S4

x ) 4 ni / n
S4

Para datos no agrupados

Para datos agrupados

Ejercicios para la clase:

1. Se tiene las notas producto de las evaluaciones de un curso de capacitacin que se


realiz a un grupo de vendedores de seguros de vida:

@ Abanto Canto

20, 50, 80, 50, 80, 96, 58, 89, 36, 78, 99, 98,

Calcule e interprete:

a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media

2. Las edades de un grupo de jefes de familia del barrio Italia en la comuna de La florida
son dadas a continuacin.

Edades

ni

20-30

10

30-40

40-50

10

50-60

@ Abanto Canto

Calcule e interprete:

a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media

@ Abanto Canto

Otros Grficos Descriptivos.


Diagrama de tallos y Hojas
Una forma adecuada de organizar un conjunto de datos de tamao pequeo es graficando
a travs de tallos y hojas. Estas grficas se obtienen dividiendo cada uno de los datos,
por ejemplo, en dos partes: tallo y hojas. Si todos los datos son nmeros de dos dgitos,
podemos tomar como su tallo la parte del nmero correspondiente a las decenas, y como
su hoja la parte del dgito correspondientes a las unidades.
El dato 45:
Tallo: 4 hoja: 5
Los datos 45 y 47:
Tallo 4 y Hojas: 5,7

Veamos el siguiente ejemplo (Edades de clientes):


45 56 35 26 24 25 56 23 24 39 36 29 36 36
25 36 44 18 36 25 36 25 66 26 35 41 51 62 60

(SPSS)
Edad Stem-and-Leaf Plot
Frequency
1,00
10,00
9,00
3,00
3,00
3,00
Stem width:
Each leaf:

Stem &
1
2
3
4
5
6

.
.
.
.
.
.

Leaf
8
3445555669
556666669
145
166
026

10,00
1 case(s)

@ Abanto Canto

Diagrama de cajas
Se usa algunos de los estadsticos que resumen una muestra de datos, como por ejemplo:
mediana, cuartiles, asimetra, etc. Tambin es un detector de datos atpicos o datos
extremos.
Cuartil 1

Me

Cuartil 3

Datos

Datos

Atpicos

Datos
Atpicos

at

Extremos

at

at

Extrem
os

BES
BII
BEI

Donde:
Banda exterior inferior:
Banda interior inferior:
Banda interior superior:
Banda exterior superior:

Adems:

Datos

BIS

@ Abanto Canto

Trabajando los mismos datos del ejemplo anterior.

@ Abanto Canto

Problema propuesto:

Supongamos tenemos los siguientes datos (aparece solo la

primera parte de datos, en realidad son 150 datos), correspondientes a los clientes de una
empresa de seguros.

@ Abanto Canto

A continuacin se procesan estos (150 clientes) datos en R, obteniendo los grficos de


histograma, box plot y diagrama de tallos y hojas. Interprete, discuta y deduzca
conclusiones que permita describir o perfilar a los clientes segn la informacin
registradas (variables)

@ Abanto Canto

> stem(Ingresos[Genero=="Hombre"],3)

@ Abanto Canto

The decimal point is 1 digit(s) to the right of the |


25 | 579
26 |
27 |
28 |
29 |
30 |
31 |
32 |
33 | 3
34 |
35 |
36 | 6
37 |
38 | 9
39 | 8
40 | 0337
41 | 46
42 | 0
43 | 8
44 | 9
45 | 1469
46 |
47 | 579
48 | 048
49 | 2567
50 | 249
51 | 6
52 | 0679
53 | 0348899
54 | 24566
55 | 11259
56 | 05
57 | 135677
58 | 012246789
59 | 55
60 | 139
61 | 2477
62 | 1
63 | 59
64 | 06
65 | 226
66 | 68
67 | 0
68 | 147
69 | 129
70 |
71 |
72 |
73 | 6
74 | 0
75 |

@ Abanto Canto

76 | 6
77 | 27
78 |
79 |
80 | 4
81 |
82 | 0
83 |
84 |
85 |
86 |
87 |
88 |
89 | 2
90 |
91 | 3
92 |
93 |
94 |
95 |
96 |
97 |
98 | 9
> stem(Ingresos[Genero=="Hombre"],3)
The decimal point is 1 digit(s) to the right of the |
25 | 579
26 |
27 |
28 |
29 |
30 |
31 |
32 |
33 | 3
34 |
35 |
36 | 6
37 |
38 | 9
39 | 8
40 | 0337
41 | 46
42 | 0
43 | 8
44 | 9
45 | 1469
46 |
47 | 579
48 | 048
49 | 2567

@ Abanto Canto

50 | 249
51 | 6
52 | 0679
53 | 0348899
54 | 24566
55 | 11259
56 | 05
57 | 135677
58 | 012246789
59 | 55
60 | 139
61 | 2477
62 | 1
63 | 59
64 | 06
65 | 226
66 | 68
67 | 0
68 | 147
69 | 129
70 |
71 |
72 |
73 | 6
74 | 0
75 |
76 | 6
77 | 27
78 |
79 |
80 | 4
81 |
82 | 0
83 |
84 |
85 |
86 |
87 |
88 |
89 | 2
90 |
91 | 3
92 |
93 |
94 |
95 |
96 |
97 |
98 | 9
>

@ Abanto Canto

Ejercicios propuestos:

1.

La edad media de los candidatos a un determinado curso de perfeccionamiento


siempre fue baja, aproximadamente 22 aos. Como ese curso fue proyectado para
captar candidatos de todas las edades, se decidi hacer una campaa de divulgacin.
Para verificar si la campaa fue o no eficiente se hizo un estudio de la edad de los
candidatos de la ltima promocin, con los siguiente resultados
Edad (aos) Frecuencia
18-20

18

20-22

12

22-26

10

26-30

30-36

total

100

a. A partir de estos resultados. dira usted, que la campaa tuvo algn efecto (
Obviamente segn la media).
b. Un investigador decidi usar la siguiente regla: si la diferencia ( x 22 ) resulta ser

s
2
, concluye que la campaa tuvo efecto. Cul sera su
n

conclusin si adopta esta regla?

mayor que el valor

2. A continuacin se tiene el retorno diario de una accin B medido en tanto por uno,
durante 220 das:

@ Abanto Canto

Retorno diario

ni

-0.10 -0.05

20

-0.05

0.00

10

0.00

0.05

50

0.05

0.10

10

0.10

0.15

70

0.15

0.20

40

0.20

0.25

20

Calcule e interprete: a. varianza

b. desviacin estndar

d. ndice de asimetra

2.

c. coeficiente de variacin

e. ndice de curtosis

Los activos anuales (en millones de pesos) de un grupo de empresas son

Activos (millo. de
pesos)

ni

600-800

10

800-1000

40

1000-1200

20

1200-1400

30

1400-1600

60

1600-1800

10

Determine e interprete: a. Varianza

b. desv. Estndar. c. Coeficiente de variacin

@ Abanto Canto

d. Desviacin media e. Rango Intercuartlico.

3.

A continuacin se registra los impuestos pagados por un grupo de pequeos


empresarios en unidades monetarias (u.m)
Impuestos (u.m)

ni

34-38

50

38-42

20

42-46

30

46-50

30

50-54

20

54-58

10

a. Grafique adecuadamente. Interprete en trminos de su asimetra


b. Son los impuestos homogneos estadsticamente. Justifique.
c. Categorize a los empresarios de la forma:

@ Abanto Canto

IV
Medidas de Relacin.

En muchas aplicaciones, interesa medir la relacin entre dos variables cuantitativas o


quizs tambin entre dos variables cualitativas. En esta unidad estudiaremos medidas de
relacin entre dos variables cuantitativas.

Para estudiar la relacin entre dos variables cuantitativas, se recomienda iniciar el estudio
explorando grficamente esta relacin, mediante la construccin de un diagrama de
dispersin. Para luego confirmar esta relacin explorada mediante medidas estadstico
como ejemplo la covarianza o el coeficiente de correlacin

Covarianza.

La covarianza es una medida de la forma de la relacin entre dos variables cuantitativas.


La covarianza puede ser positiva, negativa o cero. Si la covarianza es positiva, entonces la
relacin entre las variables es positiva o directa, ejemplo, el caso de la oferta y el precio
(ver figuras abajo). Si la covarianza es negativa, entonces la relacin entre las variables es
negativa o inversa, ejemplo, el caso entre la demanda y el precio. Si la covarianza es cero
no hay relacin (lineal) entre las variables.

@ Abanto Canto

cov (x, y)= +

cov (x, y)= -

cov (x, y)0

La covarianza se define.

cov( x, y )

(x
i 1

x )( y i y )
n 1

x y nx y ,
n 1

Observe que si x y la cov( x, y) es igual a la varianza. Podemos entonces interpretar la


covarianza como una medida de dispersin entre dos variables, que mide la relacin entre
estas dos variables.

@ Abanto Canto

Ejemplo:

Es de inters en cierta empresa del rubro metalrgico, estudiar la relacin entre la


variable edad, medida en aos, y el rendimiento laboral, medida en porcentaje. Se tiene el
siguiente registro:

X: Edad

Y: Rendimiento Laboral

28

52

26

59

36

88

56

90

42

75

23

62

Construimos en una primera etapa un diagrama de dispersin que nos permita explorar la
relacin existente entre estas dos variables. A continuacin, se muestra el respectivo
diagrama de dispersin:

Y: Rendimiento Laboral
100
90
80
70
60
50
40
20

30

40
Edad (aos)

50

60

@ Abanto Canto

Del diagrama de dispersin podemos concluir, en esta primera etapa de exploracin, que
la relacin entre estas dos variables es directa (positiva), es decir, a mayor edad mayor
rendimiento laboral o tambin a menor edad menor rendimiento laboral.

La medida de covarianza que calcularemos, nos confirmar la exploracin que se hizo con
el diagrama de dispersin:

Donde

XY

28

52

1456

26

59

1534

36

88

3168

56

90

5040

42

75

3150

23

62

1426

211

426

15774

representa los totales de cada columna.

211 426
15774 6

6 6 158,6
Aplicando la formula tenemos: cov( x, y )
5

@ Abanto Canto

La covarianza resulta ser 158,6. Este nmero es positivo, por lo tanto, la relacin entre la
variable edad y rendimiento laboral es positiva. La covarianza confirma la exploracin
hecha con el diagrama de dispersin.

Coeficiente de Correlacin

El coeficiente de correlacin es una medida estadstica bivariada, al igual que la


covarianza, pero que adems de medir la forma, mide el grado de la relacin entre, no se
olviden, dos variables cuantitativas.

El valor del coeficiente de correlacin esta entre -1 y +1, pasando obviamente por el cero.
Si el coeficiente de correlacin esta cerca de -1 +1 la relacin es alta (depende del signo
si es positiva o negativa). Si el coeficiente de correlacin esta cerca del cero
(positivamente o negativamente) la relacin es baja. Si es cero es por que la covarianza es
cero, entonces no hay relacin entre la variables. Podramos ser una poco mas especfico y
decir que si el coeficiente de correlacin esta cerca del +0,5 -0,5 la relacin es moderada
(negativa o positiva).

El coeficiente de correlacin se define:

rx , y

cov ( x, y )
Sx Sy

Calcules el coeficiente de correlacin para el ejemplo:

@ Abanto Canto

XY

X2

Y2

28

52

1456

784

2704

26

59

1534

676

3481

36

88

3168

1296

7744

56

90

5040

3136

8100

42

75

3150

1764

5625

23

62

1426

529

3844

211

426

15774

8185

31498

Como vemos en la ltima tabla incluimos dos nuevas columnas en los clculos, esto para
poder calcular las desviaciones estndar que necesitaremos.

211
8185 6

2
2
x nx
6
Sx
152,9 6
n 1
5

Sy

426
31498 6

2
2
y ny
6 250,4
n 1
5

Por lo tanto la covarianza es igual a:

rx , y

158,6
152. 6 250,4

0,81

@ Abanto Canto

Es decir la relacin entre la edad y el rendimiento es directa y adems alta.

Cuando empezamos esta unidad dijimos que los diagramas de dispersin permitan
explorar la forma de la relacin. Pero tambin adems de explorar la forma permiten
explorar el grado de la relacin, como se muestra en las siguientes figuras. En diagramas
de dispersin donde los puntos graficados de las dos variables estn cerca de una lnea, la
relacin entre las variables es fuerte, que a diferencia de aquellos donde los puntos estn
ms alejados de una lnea.
Y

X1

X2

Esta claro entonces que rx1 y rx2 y

Regresin Lineal Simple.

Muchas veces se necesita predecir o estimar el valor de una variable Y, que llamaremos
variable dependiente, conociendo el valor de una variable X, que llamaremos variable
independiente.

El mtodo de regresin lineal simple, entrega la herramienta para satisfacer esta


necesidad.

Este asume una relacin lineal entre las variables dependiente e independiente, es decir
un modelo de la forma:

@ Abanto Canto

Y 0 1 X +

Que es el modelo de regresin lineal poblacional, donde 0 es el valor del intercepto,


geomtricamente el valor sobre el eje Y por donde cruza la lnea en el plano. Un modelo
sin intercepto como el siguiente:

Y 1 X

Cruza por el origen del plano.

1 Es el valor de la pendiente que geomtricamente define el ngulo de inclinacin de la


lnea definida en un plano.

En trminos reales el intercepto es el valor de la variable dependiente, cuando el valor de


la variable independiente es cero. Y la pendiente es cambio esperado de la variable
dependiente (aumenta o disminuye), cuando la variable independiente cambia (aumenta
o disminuye) en una unidad.

Y 0 1 X

@ Abanto Canto

Estimacin

La ecuacin de la recta se estima minimizando la suma de las distancias cuadradas entre el


valor observado y esperado, es decir, de las siguientes ecuaciones.

Es as que se obtiene el modelo de regresin lineal simple muestral, es decir:

Donde:

@ Abanto Canto

Ejemplo:

Segn resultados anteriores:

cov( x, y) 158,6

S x 152,96

Por lo que:

El modelo de regresin lineal simple muestral sera:

Esta ecuacin estimada, es la ecuacin obtenida bajo el criterio que expresamos antes: Es
la mejor ecuacin de la lnea, es decir, la lnea mediante la cual se minimiza las distancia
cuadradas entre el valor observado y el valor estimado de cada observacin.

@ Abanto Canto

A continuacin obtenemos esta lnea mediante la ayuda de Excel, una herramienta


importantsima en el procesamiento de los datos, para el anlisis.

Y
y = 1,0368x + 34,538
R = 0,6567

100
90
80
70

60

Lineal (Y)

50
40
30
20

40

60

El valor del intercepto estimado es de 34,538, la diferencia con la ecuacin estimada por
la formulas es por el proceso de aproximacin que ocupamos. Un intercepto de 34,538
indica que si una vendedor tuviera una edad de cero aos su rendimiento sera de
34,538%. Por otro lado la pendiente, que en este caso indica que por cada ao que
aumenta la edad el rendimiento aumentara tambin en 1,0368%.

En la salida tambin aparece una medida de bondad de ajuste, que es el coeficiente de


determinacin. Esta indica cuanto explica el modelo de la variacin de la variable
dependiente, visto de otra forma el porcentaje de explicacin de la variable
dependiente, por la variable independiente. Se obtiene.

@ Abanto Canto

En el ejemplo este valor es 65%, que indica que la edad explica un 65% de la variacin del
rendimiento.

@ Abanto Canto

Ejercicios propuestos.

1. Suponga que se prueba una campaa publicitaria para un nuevo producto de 10 ciudades.
La intensidad X de la publicidad vara de una ciudad a otra. El porcentaje Y de familiaridad
con el producto se determina por medio de una encuesta despus de la campaa
publicitaria:

X: 4

4.5

5.5

Y. 10.1 10.3 10.4 21.7

6.5

36.7

51.5

67

7.5
68.5

8.5

68.2

69.3

x 62.5 y 413.7 xy 2930.45 x

411.25

23421.27

a.
b.
c.
d.
e.
f.
g.
h.

Calcule el coeficiente de correlacin. Interprete.


Encuentre las estimaciones mnimos cuadrados para el modelo: Y 0 1 x
Es el modelo b adecuado
El modelo debe tener intercepto
Estime la mediante un intervalo del 95%
Interprete el intercepto y la pendiente
Calcule e interprete el coeficiente de determinacin
Prediga Y, cuando X = 6.7

i.

Encuentre las estimaciones mnimos cuadrados para el modelo: ln Y 0 1

1
y
x

responda c, d y e

2.

Los siguientes son datos mustrales relativos al nmero de horas de estudio fuera de clase durante
un perodo de tres semanas de alumnos de un curso de estadstica aplicada a la administracin y a sus
calificaciones en el examen el ese perodo.

Estudiante muestreado

Horas de Estudio(X)

20

16

34

23

27

32

18

22

Calificaciones en

64

61

84

70

88

92

72

77

n 10

@ Abanto Canto

examen (Y)

1. Dibuje un diagrama de dispersin. Interprete


2. Es verdad que la relacin entre las horas de estudio y las calificaciones es alta y directa.
Justifique su respuesta
3. Estime y escriba la ecuacin de regresin lineal simple. Dibjela
4. Interprete el intercepto y la pendiente
5. Si un alumno estudia 30 horas, que calificacin esperara obtener?
Calcule e interprete el coeficiente de determina

3.

Para una muestra de 20 observaciones mensuales un analista financiero quiere efectuar la


regresin de la tasa porcentual de rendimiento (Y) de las acciones de una empresa sobre
la tasa porcentual de rendimiento (X) de un ndice burstil. Dispone de la siguiente
informacin

20

yi 22,6
i 1

20

xi 25,4
i 1

20

yi2 130,2
i 1

20

xi2 145,7
i 1

20

x y
i 1

a.
b.
c.
d.

150,5

Calcule la covarianza e interprete


Calcule el coeficiente de correlacin e interprete
Estime la ecuacin de regresin lineal simple. Interprete los coeficientes de regresin
Calcule una medida de bondad de ajuste. Interprete. Es bueno el modelo si el objetivo es
predecir la tasa porcentual de rendimiento de las acciones de la empresa?
e. Estime el valor de la tasa porcentual de rendimiento de la empresa si la tasa porcentual
de rendimiento del ndice burstil es 0,86?

4. En un estudio de comportamiento de lectura se esta investigando dos variables


cuantitativas las que son registradas en la siguiente tabla:

Edad (aos)

22

28

20

36

19

46

40

52

48

45

Horas de lectura por


semana

11

10

16

18

20

15

24

@ Abanto Canto

a. Construya un Diagrama de dispersin. Interprete

b. Calcule e interprete la covarianza entre Edad y horas de Lectura.

c. Ajuste una regresin lineal simple considerando horas de lectura como variable
dependiente.

d.

Cunto se espera lea una persona de 33 aos?

5. En un estudio de conducta de compras por ingreso se mide:

Ingreso (miles de pesos)

200 240 360 360 208 48 409 568 488 458

Ventas (miles de pesos)

36

80

40 100 60 160 30 200 150 180

a. Construya un Diagrama de dispersin. Interprete

b. Calcule e interprete el coeficiente de correlacin entre Ingreso y Ventas.

c. Ajuste una regresin lineal simple considerando Ventas como variable dependiente e
ingreso variable independiente.

d.

Interprete el intercepto y la pendiente estimada. Que venta se espera obtener para una
persona que tiene un ingreso de 298 m p

6.

a. Para cada uno de los pares de variables listados a continuacin, esboce el diagrama de
dispersin esperado. Diga si usted espera dependencia lineal, y en los casos afirmativos de una
idea del coeficiente de correlacin.

a. Nmero de horas trabajadas y salario de un grupo de trabajadores.

@ Abanto Canto

b. Nmero de trabajadores y el tiempo en terminar una obra de construccin

c. Los sueldos promedios iniciales de los estudiantes de administracin han sido


modelados segn una regresin lineal simple, obteniendo los siguientes resultados:

Y 1850 950 X

R 2 0,365

Donde Y es el sueldo inicial en u.m y X es el tiempo medido en aos desde 1985.


a. Interprete la pendiente
b. Interprete el coeficiente de determinacin