Anda di halaman 1dari 13

PROPEDÉUTICO DEL DIPLOMADO EN FINANZAS

Material elaborado por Dr. Francisco Ortiz Arango.

Universidad Panamericana.

CAPÍTULO 1. ESTADÍSTICA BÁSICA

1.1. Estadística descriptiva


1.1.1. Histogramas y polígonos de frecuencias
1.1.2. Distribuciones de frecuencias relativas
1.2. Medidas de Tendencia Central y de Dispersión
1.2.1. Medidas de tendencia central
1.2.2. Medidas de dispersión
1.3. Sesgo y curtosis

ESTADÍSTICA DESCRIPTIVA.

La Estadística Descriptiva es la técnica de las Matemáticas que recolecta, organiza, presenta y describe
un conjunto de datos, por ejemplo: la edad de una población, altura de los estudiantes de una escuela,
producto interno bruto histórico, precios históricos del petróleo, paridad cambiaria entre monedas,
escolaridad de una población, entre muchas otras, con el fin de presentar apropiadamente las distintas
características cuantitativas de esos conjuntos.

El primer para para poder hacer un análisis estadístico es que una vez obtenidos datos, se debe proceder
a ordenarlos ya sea de manera creciente o decreciente, a la diferencia entre el valor mayor de los datos y
el menor se le llama Rango de los datos.

Para facilitar la organización de una gran cantidad de datos es muy útil distribuirlos en clases o
categorías también llamados intervalos de clase, los cuales son subconjuntos del rango, al valor que se
encuentra a la mitad de la clase se le llama marca de clase; al contar cuantos elementos se distribuyen o
acumulan en cada clase estamos determinando la frecuencia de clase y a la tabla en la que se listan las
frecuencias de clase se llama Distribución de frecuencias o Tabla de frecuencias.

Histogramas y Polígonos de frecuencias.

 Un histograma de frecuencias o simplemente histograma consiste en un conjunto de rectángulos


que sirven para representar gráficamente una distribución de frecuencias, dos características
principales de los histogramas son:
o sus bases están sobre un eje horizontal (el eje X), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del intervalo de clase, y
o áreas proporcionales a las frecuencias de clase.
 Un polígono de frecuencias, es la gráfica de una línea poligonal que muestra las frecuencias de
clase graficadas contra las marcas de clase. Este se puede obtener conectando los puntos medios
de las partes superiores de los rectángulos de un histograma de frecuencias acumuladas o a través
de una ojiva que es un polígono de frecuencias acumuladas.

Distribuciones de frecuencia relativas y acumuladas.

La frecuencia relativa de una clase es la frecuencia de la clase dividida entre la suma de las frecuencias
de todas las clases y generalmente se expresa como porcentaje. La suma de las frecuencias relativas de
todas las clases es igual al valor de 1 o 100%.

Una distribución de frecuencia acumulada se construye sumando las frecuencias de cada clase hasta
considerar al total de datos. Su representación gráfica es a través de un histograma

Ejemplos y ejercicios. Tomados del libro: Estadística, 4ª. Ed. Serie Schaum. Murray R. Spiegel y Larry
J. Stephens.

2.19 a) Disponga los números 12, 56, 42, 21, 5, 18, 10, 3, 61, 34, 65 y 24 en una ordenación, y b)
determine el rango.

2.20 En la tabla 2.14 se presenta una distribución de frecuencias de la cantidad de minutos por semana
que ven televisión 400 estudiantes.

Tiempo Número de
(minutos) estudiantes
300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Tabla 2.14

De acuerdo con esta tabla, determinar:

a) El límite superior de la quinta clase. 799


b) El límite inferior de la octava clase. 1000

c) La marca de clase de la séptima clase. 949

d) Las fronteras de clase de la última clase. 1100 y 1199

e) El tamaño del intervalo de clase. 100

f) La frecuencia de la cuarta clase. 76

g) La frecuencia relativa de la sexta clase. 62/400

h) El porcentaje de estudiantes que no ven televisión más de 600 minutos por semana.
(14+46+58)/400= 29.5%

i) El porcentaje de estudiantes que ven televisión 900 o más minutos por semana. 76/400= 19%

j) El porcentaje de estudiantes que ven televisión por lo menos 500 minutos por semana, pero menos de
1 000 minutos por semana. 312/400= 78%

Elaborar: a) un histograma y b) un polígono de frecuencias para la distribución de frecuencias de la tabla


2.14.

2.24. Con los datos de la tabla 2.14 del problema 2.20, construir: a) una distribución de frecuencias
relativas, b) un histograma de frecuencias relativas y c) un polígono de frecuencias relativas.

Con los datos de la tabla 2.14, construir: a) una distribución de frecuencias acumuladas, b) una
distribución acumulada porcentual, c) una ojiva y d) una ojiva porcentual. (Obsérvese que a menos que
se especifique otra cosa, una distribución acumulada es del tipo “menos que”)

2.27 En la tabla siguiente se dan los diámetros en centímetros de una muestra de 60 balines fabricados
en una empresa. Elaborar una distribución de frecuencias de los diámetros, empleando los intervalos de
clase adecuados.

1.738 1.729 1.743 1.740 1.736 1.741 1.735 1.731 1.726 1.737

1.728 1.737 1.736 1.735 1.724 1.733 1.742 1.736 1.739 1.735

1.745 1.736 1.742 1.740 1.728 1.738 1.725 1.733 1.734 1.732

1.733 1.730 1.732 1.730 1.739 1.734 1.738 1.739 1.727 1.735

1.735 1.732 1.735 1.727 1.734 1.732 1.736 1.741 1.736 1.744

1.732 1.737 1.731 1.746 1.735 1.735 1.729 1.734 1.730 1.740.
2.28 Con los datos del problema 2.27 (anterior), construir: a) un histograma, b) un polígono de
frecuencias, c) una distribución de frecuencias relativas, d) un histograma de frecuencias relativas, e) un
polígono de frecuencias relativas, f) una distribución de frecuencias acumuladas, g) una distribución
acumulada porcentual, h) una ojiva, i) una ojiva porcentual.

2.29 Empleando los resultados del problema 2.28, determinar el porcentaje de balines cuyo diámetro: a)
es mayor que 1.732 cm, b) no es mayor que 1.736 cm y c) está entre 1.730 y 1.738 cm. Comparar los
resultados con los obtenidos directamente a partir de los datos en bruto del problema 2.27.

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

Para lograr tener una descripción más completa de un conjunto de datos la Estadística Descriptiva se
vale como vimos antes de tablas y gráficas, sin embargo esto no es suficiente para tener una mejor
percepción e interpretación de los datos recabados, por tal motivo se recurre al uso de parámetros
estadísticos cuya función es complementar la descripción del conjunto de datos considerado. Estos
parámetros pueden agruparse en dos grupos:

 Medidas de tendencia central: Media aritmética o media, mediana, moda, percentiles


 Medidas de dispersión: Desviación media, deviación estándar, varianza, covarianza,
correlación

Medidas de tendencia central, nos dan una descripción o idea de hacia qué valor se van aglutinando
los valores de los datos considerados.

Media o promedio aritmético: La media de un conjunto de números 𝑥1 , 𝑥2 , 𝑥3 , . . , 𝑥𝑛


n

x  x2   xn
x
j 1
j

x 1 
n n

Media ponderada o promedio ponderado: La media ponderada se utiliza cuando tenemos datos
agrupados por clases, en tal caso el promedio se verá afectado por la frecuencia de los datos de cada
clase. En el caso particular de que la frecuencia de cada clase sea la misma tendremos como resultado la
media aritmética, es decir la media aritmética es un caso particular de la media ponderada. Para calcular
la media ponderada utilizaremos la expresión:
k

x f  x f   xk f k
x
j 1
j fj
 1 1 2 2  ; donde k es el número de clases.
f1  f 2   f k k

f j 1
j
Existe una variante de esta fórmula e interpretación si consideramos el “peso o ponderación” de cada
valor de los datos dentro de la serie de datos a estudiar, si se asignan los pesos w1 , w2 , , wk
repectivamente a cada valor de los datos de acuerdo a su importancia o preponderancia, podremos
calcular el valor promedio ponderado utilizando una expresión similar a la anterior pero ahora con
ponderadores cuyo valor será un número decimal, de hecho la suma de los ponderadores debe ser igual a
1, así tenemos:
k

x w  x w   xk wk
x w
j 1
j j

 1 1 2 2  ; donde k es el número de clases.


w1  w2   wk k

w j 1
j

Y como la suma w1  w2   wk  1 si se consideran todas las ponderaciones de la serie de datos,


llegaremos a la expresión del valor esperado de una variable aleatoria x, en la cual x representa de
manera genérica todos los valores de una serie de datos, así tendremos:
k
E  x    x1 w1  x2 w2   xk wk   x j w j ; (Media Ponderada |x| )
j 1

Mediana: La mediana de un conjunto de datos ordenados es el valor central o la media de dos valores
centrales.

Moda: La moda de un conjunto de valores es el valor que se presenta con mayor frecuencia en el
conjunto de valores.

Percentiles: En un conjunto de datos en el que éstos se hallan ordenados de acuerdo con su magnitud, el
valor a la mitad de la lista ordenada de datos (o la media aritmética de los dos valores de en medio), que
divide al conjunto en dos partes iguales, es la mediana. Continuando con esta idea se puede pensar en
aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Estos valores, denotados Q1,
Q2 y Q3 son el primero, segundo y tercer cuartiles, respectivamente; el valor Q2 coincide con la
mediana. De igual manera, los valores que dividen al conjunto en diez partes iguales son los deciles y se
denotan D1, D2, . . . , D9, y los valores que dividen al conjunto en 100 partes iguales son los percentiles
y se les denota P1, P2, . . . , P99. El quinto decil y el percentil 50 coinciden con la mediana. Los
percentiles 25 y 75 coinciden con el primero y tercer cuartiles, respectivamente.

Medidas de dispersión, las medidas de dispersión nos proporcionan una idea de que tanto se dispersan o
separan los valores de un grupo de datos con respecto a la media.

Desviación media: La desviación media (DM) de un conjunto de números 𝑥1 , 𝑥2 , 𝑥3 , . . , 𝑥𝑛 se definie


como:
n

| x
j 1
j x|
Desviación media ( DM )  .
n

Varianza: La varianza de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , . . , 𝑥𝑛 , mide la desviación cuadrática media


de los datos con respecto de su media. Cuando se consideran todos los datos de una población decimos
que se está calculando al varianza poblacional y se representa como  2 y se define como:

 x 
n 2
j x
j 1
2  . (VAR) Varianza de la Población
n

Cuando se considera el conjunto de datos de una muestra, se dice que se está calculando una varianza
muestral y se representa con s2 y se calcula con una expresión similar sólo que ahora se divide entre n-1:

 x 
n 2
j x
j 1
s2  Varianza de la Muestra
n 1

Desviación estándar: La desviación estándar de un conjunto de datos se define como la raíz cuadrada
positiva de la varianza, y su valor radica en que nos proporciona una idea de la “distancia o separación
promedio” entre los datos considerados y su media. Al igual que en el caso de la varianza existe la
varianza poblacional σ y la varianza muestral s, las cuales como se dijo antes se calculan mediante la
raíz cuadrada de la varianza poblacional y muestral respectivamente. Cuando n>30 la diferencia de los
valores entre las desviaciones estándar poblacional y muestral es mínima (Excel por default calcula la
varianza y la desviación estándar muestrales). SIEMPRE ES POSITIVA

Separación de tus datos con respecto a tu promedio = Desviación Estándar

Varianza y desviación estándar de datos agrupados, en el caso de tener datos agrupados por clases
cada una con distintas frecuencias utilizaremos la siguiente expresión para calcular la varianza y con su
raíz cuadrada la desviación estándar:
 x 
k 2
j x fj
j 1
 
2

 x 
k 2
j x fj
j 1
s 
2

n 1

Covarianza: Es el valor que indica el grado de variación conjunta ente dos variables aleatorias. Este es
el primer dato que se utiliza para determinar si existe una dependencia entre ambas variables el cual
necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal en una recta
de regresión, se calcula con la expresión:

 x  
n

j  x yj  y
cov  x, y    xy 
j 1

Donde: x, y son los valores promedio de las series de datos correspondientes.

Correlación: Es frecuente que se estudie sobre una misma población los valores de dos variables
estadísticas distintas, con el fin de identificar si existe alguna relación entre ellas, es decir, si los cambios
en una de ellas influyen en los valores de la otra. Si ocurre esto se dice que las variables están
correlacionadas o bien que hay correlación entre ellas. La apreciación visual de la existencia de
correlación no es suficiente, por lo cual se recurre al coeficiente de correlación de Pearson o
simplemente coeficiente de correlación lineal, este es el índice estadístico que mide la relación lineal
entre dos variables cuantitativas, dicho índice se denota con la letra r y se calcula mediante la expresión:

LA CORRELACIÓN TIENE VALORES DE -1 A 1, NOS DETERMINA LA INTERACCION


ENTRE DOS SERIES DE DATOS

 xy
r
 x y

 Este coeficiente de correlación lineal divide la covarianza por el producto de las desviaciones
estándar de ambas variables. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables. El valor del índice de correlación varía en
el intervalo [-1, 1] y se interpreta de la siguiente forma:
• Si r = 0, no existe ninguna correlación. El índice indica, por lo tanto, una independencia
total entre las dos variables, es decir, que la variación de una de ellas no influye en
absoluto en el valor que pueda tomar la otra. NO TIENE QUE VER ENTRE ELLAS
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total
entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra
también lo hace en idéntica proporción.
• Si 0 < r < 1, existe una correlación positiva.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total
entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra
disminuye en idéntica proporción. CUANDO UNA CRECE LA OTRA DECRECE
• Si -1 < r < 0, existe una correlación negativa.

TEORIA DEL PORTAFOLIO SE APLICA LA CORRELACIÓN

Ejercicios.

En cinco materias, un estudiante obtuvo las calificaciones siguientes: 85, 76, 93, 82 y 96. Determinar la
media aritmética de estas calificaciones.

Un psicólogo mide los tiempos de reacción de un individuo a ciertos estímulos; éstos fueron 0.53, 0.46,
0.50, 0.49, 0.52, 0.53, 0.44 y 0.55 segundos, respectivamente. Estimar el tiempo medio de reacción del
individuo a estos estímulos.

Un conjunto de números consta de 6 seises, 7 sietes, 8 ochos, 9 nueves y 10 dieces. ¿Cuál es la media
aritmética de estos números?

En la tabla 3.10 se presenta la distribución de los diámetros de las cabezas de remaches producidos por
una empresa. Calcular el diámetro medio.
Encontrar la media y la mediana de estos conjuntos de números: a) 5, 4, 8, 3, 7, 2, 9 y b) 18.3, 20.6,
19.3, 22.4, 20.2, 18.8, 19.7, 20.0.

Encontrar la media, la mediana y la moda de cada uno de los conjuntos de números siguientes: a) 7, 4,
10, 9, 15, 12, 7, 9, 7 y b) 8, 11, 4, 3, 2, 5, 10, 6, 4, 1, 10, 8, 12, 6, 5, 7.

Encontrar la media, la mediana y la moda de cada uno de los conjuntos de números siguientes: a) 7, 4,
10, 9, 15, 12, 7, 9, 7 y b) 8, 11, 4, 3, 2, 5, 10, 6, 4, 1, 10, 8, 12, 6, 5, 7.

Con los datos de la tabla 3.13 encontrar su media y su desviación estándar.

a) Sumando 5 a cada uno de los números del conjunto 3, 6, 2, 1, 7, 5 se obtiene el conjunto 8, 11, 7, 6,
12, 10. Mostrar que los dos conjuntos tienen la misma desviación estándar pero diferentes medias. ¿Qué
relación hay entre las medias?

b) Si cada uno de los números del conjunto 3, 6, 2, 1, 7 y 5 se multiplica por 2 y después se le suma 5, se
obtiene el conjunto 11, 17, 9, 7, 19, 15. ¿Qué relación existe entre las medias y las desviaciones estándar
de estos dos conjuntos?

c) ¿Qué propiedades de la media y de la desviación estándar se ilustran mediante los conjuntos de


números particulares de los incisos a) y b)?

d) Calcular la correlación entre las series de datos de los incisos a y b.

Encontrar la desviación estándar del conjunto de números de la progresión aritmética 4, 10, 16, 22, . . . ,
154

En la tabla 4.11 se da el ingreso per cápita en los 50 estados de Estados Unidos, en 2005.
El análisis de estos datos obtenido con SPSS es el siguiente:

Verificar el rango, la desviación estándar y la varianza.

a) Calcular el coeficiente de correlación entre los valores correspondientes de X y Y dados en la


tabla 14.24.
b) Multiplicar por 2 cada uno de los valores de X que aparecen en la tabla y sumarles 6. Multiplicar
por 3 cada uno de
c) los valores de Y que aparecen en la tabla y restarles 15. Encontrar el coeficiente de correlación
entre estos dos nuevos
d) conjuntos de valores y explicar por qué sí, o por qué no, se obtienen los mismos resultados que
en el inciso a).
Tabla 14.24
X 2 4 5 6 8 11
Y 18 12 10 8 7 5

14.16 Se estudió la relación entre el exceso de peso y la presión sanguínea alta en adultos obesos. En
la tabla 14.12 se presentan exceso de peso, en libras, y unidades superiores a 80 en la presión
diastólica. En la figura 14-7 se presenta el diagrama de dispersión obtenido con SAS.

Tabla 14.12
Unidades
Exceso de peso en libras superiores a 80
75 15
86 13
88 10
125 27
75 20
30 5
47 8
150 31
114 78
68 22
a) Elaborar la gráfica de la figura 14-7 usando otra herramienta.
b) Calcular el coeficiente de correlación
c) Interpretar el resultado obtenido.

SESGO Y CURTOSIS

Sesgo. El sesgo mida el grado de asimetría de una distribución con. Con frecuencia una distribución no
es simétrica alrededor de ningún valor, pero en lugar de ello tiene una de sus colas más larga que la otra.
Si la cola más larga está ubicada a la derecha, como en la figura 3-3, se dice que la distribución es
sesgada hacia la derecha, mientras que, si la cola más larga está a la izquierda, como en la figura 3-4, se
dice que está sesgada hacia la izquierda. Las medidas que describen esta asimetría se denominan
coeficientes de sesgo, o simplemente sesgo. Una de dichas medidas es

SESGO: QUE TAN ASIMÉTRICA ES CON RESPECTO A SU MEDIA, PUEDE SER + O -

MEDIA PRIMER MOMENTO

DESV ESTANDAR SEGUNDO MOMENTO

SESGO TERCER MOMENTO

CURTOSIS ES EL CUARTO MOMENTO

LA DISTRIBUCION NORMAL EL SESGO ES CERO, POR LO TANTO MEDIA, MODA Y


MEDINANA ES LO MISMO.

 x 
n 3
j x
j 1
3 
n 3

Otras formas de medir el sesgo son las siguientes:

media - moda 3    mediana 


3  
 

La medida  3 será positiva o negativa si la distribución es sesgada a la derecha o a la izquierda,


respectivamente. Para una distribución simétrica,  3 = 0.
Curtosis. En algunos casos una distribución puede tener sus valores concentrados cerca de la media, de
manera que la distribución tiene un pico grande como se indica en la curva continua de la figura 3-5. En
otros casos, la distribución puede ser relativamente plana como se ve en la curva punteada de la figura 3-
5. Las medidas que determinan qué tan empinada se encuentra una distribución se denominan
coeficientes de curtosis, o simplemente curtosis. Cuando la curtosis es mayor a 3 se dice que la
distribución es “puntiaguda” o leptocúrtica; por otro lado, cuando es menor a 3 se dice que es
platicúrtica y cuando vale 3 que es mesocúrtica, valor que corresponde a la distribución normal. Una
medida que se usa con frecuencia está dada por:

 x 
n 4
j x
j 1
4 
n 4

Ejercicios.
Encontrar el sesgo y curtosis con los datos de las tablas 3.10, 3.13 y 4.11.

Realizar un análisis estadístico completo con los datos históricos de los precios del petróleo
mexicano, el WTI y el Brent, usando las tablas de Excel.

Bibliografía:
Estadística, 4ª. Ed. Serie Schaum, McGraw-Hill, 2009. Murray R. Spiegel y Larry J. Stephens.

Business Statiscs, 7th. Edition. McGraw-Hill, 2008. Aczel-Sounderpandian.