Anda di halaman 1dari 150

Centro de Estudios de la Administracin Regional de Cantabria.

Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral








CURSO DE ESTADSTICA DESCRIPTIVA Y
ANLISIS DE DATOS CON LA HOJA DE
CLCULO EXCEL




D. Francisco Parra Rodrguez. Jefe de Servicio de Estadsticas Econmicas y
Sociodemogrficas. Instituto Cntabro de Estadstica.

D. M Paz Moral Zuazo. Profesora Titular de Universidad. Universidad del
Pas Vaco

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
NDICE


1. El Mtodo Estadstico
1.1. Introduccin 5
1.2. El Mtodo Estadstico 5
1.3. Conceptos y definiciones bsicas 7
2. Introduccin a las funciones estadsticas en Excel
2.1. Funciones en Excel 9
2.2. Grficos 10
2.3. Tablas y grficos dinmicos 13
2.4. Las macros Anlisis de datos para el tratamiento estadstico 17
3. Anlisis de distribuciones
3.1. Introduccin 23
3.2. Distribuciones de frecuencias unidimensionales 23
3.3. Medidas de posicin en una distribucin de frecuencias unidimensional 31
3.4. Caractersticas de las medidas de dispersin 44
3.5. Distribuciones de frecuencias bidimensionales 47
3.6. Distribuciones de probabilidad. Algunas distribuciones de inters 51
4. Medidas de desigualdad y concentracin
4.1. Medidas de forma 55
4.2. Medidas de concentracin: ndice de Gini y Curva de Lorenz 57
4.3. Clculo e interpretacin de los ndices de concentracin 57
5. Modelo de regresin lineal
5.1. El mtodo de los mnimos cuadrados ordinarios 61
5.2. Bondad del ajuste 65
5.3. Inferencia acerca de los estimadores 66
5.4. Prediccin en el modelo de regresin 68
5.5. Violacin de los supuestos del modelo lineal de regresin 69
6. Regresin lineal mltiple
6.1. Introduccin 79
6.2. Deficiencias muestrales: multicolinealidad y errores de medida 82
6.3. Modelo con variables cuantitativas y cualitativas como regresores 84
6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 88
6.5. El modelo probabilstico lineal 92
7. Nmeros ndices
7.1. Introduccin 95
7.2. ndices simples y complejos 96
7.3. ndices ponderados 97
7.4. ndices de precios 98
7.5. Enlaces y cambios de base 99
7.6. Deflactacin de series econmicas 101
7.7. Principales ndices de precios espaoles 102
8. Series temporales
8.1. Introduccin a las series temporales 107
8.2. Componentes de una serie temporal 110
8.3. Anlisis de la tendencia 111
8.4. Anlisis de la estacionalidad 121

Anexo I: Anlisis de regresin con Excel 131
Anexo II: Acceso a datos externos desde Excel 141
Anexo III: Macros en Excel 149








Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
















Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
1.- El mtodo estadstico

1.1.- Introduccin

Aunque la palabra Estadstica proviene del latn status o estado, esta palabra slo describe
en parte su significado real, es decir, solo describe la funcin de la Estadstica de llevar
registros ordenados de datos para describir el estado de las cosas. Sin embargo, la
Estadstica va ms all de esta simple funcin.

En forma ms general, la Estadstica es la ciencia que se ocupa de la coleccin, clasificacin,
organizacin, anlisis, sntesis e interpretacin de datos. En palabras sencillas podramos decir
que la Estadstica es la ciencia de los datos

En trminos generales la Estadstica aborda dos tipos de problemas:

Resumir, describir y explorar datos.
Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogi la muestra.

As, la Estadstica se divide en dos partes ntimamente relacionadas:

Estadstica Descriptiva: Esta es la parte de la Estadstica que se dedica a la organizacin,
sntesis y descripcin de conjuntos de datos.

Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias
es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es
necesario resumirlos o representarlos de manera clara, simplificada o reducida.

Estadstica Inferencial: Esta rama de la Estadstica trata el problema de inferir la naturaleza
de un conjunto de datos a partir de una muestra de dichos datos.

El conjunto de individuos o entidades que se desea describir se denomina poblacin, mientras
que una muestra es un subconjunto de individuos seleccionados de la poblacin.


1.2.- El mtodo estadstico

Segn el diccionario de la RAE el significado de la palabra Ciencia es (en su primera acepcin):

CIENCIA: Conjunto de conocimientos obtenidos mediante la observacin y el razonamiento,
sistemticamente estructurados y de los que se deducen principios y leyes generales.

Segn esta definicin podemos fcilmente comprender la razn de catalogar la Estadstica
como ciencia, ya que como se puede ver la estadstica se adapta perfectamente a esta
definicin.

Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigacin
estadstica o lo que es lo mismo, vamos a ver en que consiste el mtodo estadstico, que es
un mtodo cientfico.

Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos
son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
y universales. Es el mtodo propio a la ciencia, el Mtodo Cientfico, el que se aplica al ciclo
completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los
resultados obtenidos.
En el mtodo cientfico podramos distinguir en forma esquemtica, y con las limitaciones que
esto supone, las siguientes etapas:

Eleccin y enunciado del problema
La eleccin de un problema con el fin de averiguar sus causas o de encontrarle soluciones,
depender de los juicios de valor del investigador y de las condiciones sociales, polticas y
econmicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a travs de la
descripcin de la situacin problema o mediante el planteamiento de una pregunta.

Formulacin de una Hiptesis
La hiptesis es una explicacin de la situacin problema o una respuesta posible a la
pregunta planteada. Se formula en trminos afirmativos respecto a relaciones entre
variables pertinentes.

Deduccin de consecuencias verificables de la hiptesis
Siendo la hiptesis una explicacin o una respuesta general, muchas veces no es
posible investigar directamente su veracidad. Se procede en estos casos a deducir en
forma lgica consecuencias particulares de la hiptesis

Verificacin de la hiptesis
La verificacin puede hacerse, sobre todo en las ciencias exactas, mediante
demostraciones tericas basadas en relaciones aceptadas en el estado actual del
conocimiento.

Interpretacin de los resultados
Con los datos obtenidos en la etapa anterior se decide si se ha rechazar o no la hiptesis
en estudio.

Poniendo todo lo anterior en relacin a lo que nos ocupa en el curso podemos ver cuales son
las etapas del Mtodo Estadstico.
Podemos decir que es un conjunto de procedimientos aplicados en secuencia lgica a la
obtencin y anlisis de datos. Es el mtodo estadstico el que nos proporciona las tcnicas
necesarias para recolectar y analizar la informacin requerida. Podramos distinguir en l una
etapa de Planificacin y otra de Ejecucin

Etapa de Planificacin
En esta etapa debemos considerar las siguientes fases:

- Definicin de objetivos: Corresponde formalmente a la descripcin del problema
que da origen a la investigacin. Se debe sealar detalladamente lo que se pretende investigar,
es decir, el qu, cmo, donde, cuando y por qu.

- Definicin del Universo: Se debe definir el grupo del cual se extraer la informacin
y a la cul se referirn los resultados.

- Diseo de la muestra: La teora del Muestreo o de Diseo y Anlisis de
Experimentos pueden garantizarnos que la informacin que generaremos nos permitir
proyecciones vlidas al universo de inters.

- Definicin de las unidades de observacin, escalas de clasificacin y unidades
de medida: En una misma investigacin puede haber varios objetivos parciales que requieran
estudiar unidades de observacin diferentes.

- Preparacin del plan de tabulacin y anlisis: El cuidado en este aspecto nunca
podra considerarse excesivo, debera llegarse, tal vez, hasta considerar alternativas de
anlisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Etapa de Ejecucin
En esta etapa podemos reconocer las siguientes fases:

- Recoleccin de la informacin: En esta fase se recogen los datos de acuerdo a los
planes establecidos anteriormente. Generalmente es lo que se conoce como Trabajo de
Campo.
Es importante garantizar la obtencin correcta de la informacin, para lo cual hay que
establecer los correspondientes procesos encaminados al control de calidad del proceso.

- Tratamiento y Elaboracin de la informacin: Una vez que se tienen los datos
estos han de pasar por procesos de validacin y depuracin, que garanticen que la informacin
obtenida es correcta (sin datos imposibles o inconsistentes).
Asimismo hay que garantizar una correcta codificacin de los datos, para un tratamiento
correcto.
Con los datos verificados, y generalmente en un soporte informtico, se procede a la
elaboracin de tablas, informes y de todos los procedimientos estadsticos necesarios para
lograr un mejor anlisis de los mismos.
En esta fase es donde intervienen las tcnicas de estadstica descriptiva que se van a estudiar.

- Anlisis de los resultados: El anlisis de los resultados es la ltima fase del
proceso, que en general depende del tipo de estudio que estemos realizando, que puede ser
descriptivo, inferencial, confirmatorio,

1.3.- Conceptos y definiciones bsicas

En esta seccin se presentan algunas nociones bsicas sobre lo que se va a tratar en el curso:

Estadstica descriptiva: Conjunto de mtodos de descripcin, anlisis y representacin de
conjuntos numerosos de datos. Utiliza mtodos numricos y grficos con el fin de resumir,
ordenar y simplificar la informacin contenida en los datos.

Poblacin estadstica: Conjunto de elementos que poseen una o varias caractersticas
comunes y sobre los cuales se va a realizar el estudio. Debe estar perfectamente determinada,
sin ningn tipo de ambigedad, de forma que se pueda distinguir fcilmente si un elemento
pertenece o no a la misma. Por ejemplo: varones mayores de 25 aos, productos alimenticios,
ciudades con ms de cincuenta mil habitantes, etc.
Una poblacin puede ser finita o infinita, segn el nmero de elementos que la compongan.
Los elementos de la poblacin se denominan unidades estadsticas o individuos y al nmero
total de individuos que constituyen la poblacin se le denomina tamao de la poblacin. Un
individuo es, por tanto, cualquier ente observable que posee caractersticas medibles o
clasificables.


Muestra: A menudo, es imposible o poco prctico realizar un estudio exhaustivo de la
poblacin, por lo que se hace necesario seleccionar un subconjunto representativo de la
misma, llamado muestra, cuyo estudio permite extraer conclusiones generalizables a toda la
poblacin. El nmero de elementos de la muestra se denomina tamao de la muestra.
Como ya hemos indicado, la estadstica descriptiva trata nicamente de recoger, clasificar y
resumir los datos obtenidos a partir del estudio de una muestra, sin pretender obtener
conclusiones o hacer inferencias acerca de la poblacin completa (objetivo de la inferencia
estadstica).

Caracteres: Cualidades o caractersticas comunes de los individuos de la poblacin, que se
desean estudiar en dicha poblacin. Por ejemplo, en la poblacin formada por los estudiantes
matriculados en la Diplomatura de Estadstica para el curso actual, los caracteres pueden ser
sexo, edad, color de ojos, estatura, peso, etc.
Cada uno de los posibles estados que puede presentar un carcter se denomina modalidad.
Por ejemplo: hombre-mujer, 18-19-20-21-etc., negros-marrones-verdes-azules son las
modalidades de los caracteres sexo, edad y color de ojos, respectivamente. Las modalidades
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
de un carcter han de ser exhaustivas y excluyentes, es decir, cada individuo de la poblacin
debe presentar una y slo una de esas modalidades.

Los caracteres se pueden clasificar en cualitativos y cuantitativos:
Caracteres cualitativos o atributos son aquellos cuyas modalidades no son medibles, por
ejemplo, el sexo, el color de ojos, el nivel de estudios, la profesin, el estado civil, el grupo
sanguneo, la nacionalidad, el nivel socio-econmico, etc. seran caracteres cualitativos de una
persona.
Aunque los caracteres cualitativos no se pueden medir numricamente, su informacin puede
venir dada en escala nominal o en escala ordinal. Se dice que la informacin relativa a un
carcter viene dada en escala nominal si entre las distintas modalidades o categoras (no
numricas) no se puede establecer ningn orden natural, por ejemplo: sexo, color de ojos,
profesin, estado civil, grupo sanguneo, nacionalidad, etc. Por el contrario, en una escala
ordinal s es posible establecer un orden o graduacin entre las distintas modalidades del
carcter, por ejemplo: nivel de estudios (primaria-secundaria-bachillerato-universitarios-
postgrado), nivel socio-econmico (bajo-medio-alto), etc.

Caracteres cuantitativos son aquellos cuyas modalidades son medibles numricamente, es
decir, a cada modalidad se le asigna un nmero de forma natural. Por ejemplo, la edad, la
estatura o el peso de una persona, el nmero de empleados de una empresa, el tamao de un
municipio, etc.

Variable estadstica o aleatoria. En general, una variable estadstica es la representacin
matemtica de un carcter. Las variables estadsticas se suelen representar mediante las letras
X, Y, Z, etc. El trmino variable se refiere a que cambia de valor segn el individuo que se
observe y el trmino aleatoria a que el valor observado vara en funcin de una funcin de
distribucin de probabilidad, que puede ser conocida o no.
Una variable estadstica podr tomar tantos valores como modalidades presente el carcter
correspondiente. Los valores de una variable X se representarn mediante {x
1
;x
2
;} los de una
variable Y mediante {y
1
;y
2
;}, y as sucesivamente.

Atendiendo a la clasificacin de los caracteres establecida anteriormente, las variables
estadsticas se clasifican asimismo en:

Variables estadsticas cualitativas: representan caracteres cualitativos y tienen un
tratamiento bastante especial. Su informacin puede venir dada en escala nominal u ordinal.

Variables estadsticas cuantitativas: representan caracteres cuantitativos y pueden ser:
Discretas: son aquellas que slo pueden tomar valores aislados (en nmero finito o
infinito numerable), normalmente enteros (por ejemplo: nmero de hijos de una familia,
nmero de alumnos en una facultad, etc.).

Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un
intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un
cuerpo, la velocidad de un mvil, etc.)

Notemos que, con frecuencia, la distincin entre estos dos tipos de variables es ms terica
que prctica, en el sentido de que una misma variable puede ser considerada discreta o
continua, dependiendo de la precisin de los aparatos de medida. As, muchas variables
continuas sern tratadas como discretas y viceversa.

Probabilidad: si un suceso puede ocurrir de n maneras mutuamente excluyentes e igualmente
verosmiles, y si na de stas poseen un atributo A, la probabilidad de A es la fraccin na/n
(Mood y Graybill, 1978).
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
2. Introduccin a las funciones estadsticas en
EXCEL.

En este tema se van a introducir un conjunto de aplicaciones de Excel tiles para realizar
ejercicios de Estadstica: funciones estadsticas, grficos, tablas dinmicas y las herramientas
para el anlisis de datos.

2.1. Funciones en Excel

Una funcin es una frmula definida en Excel, que usaremos para realizar operaciones
complejas sobre valores numricos, de texto o de otro tipo. Podremos aplicar funciones a datos
ubicados en celdas individuales o conjuntos de datos (filas, columnas, matrices). Una funcin
siempre devuelve un valor, que puede ser un texto, un nmero o un valor lgico. Podemos
utilizar funciones escribiendo directamente una expresin o bien utilizando el asistente , una
vez posicionados en la celda en la que deseamos que aparezca el resultado de la funcin.
Veamos un ejemplo de escritura directa de una funcin: supongamos que deseamos calcular la
suma de las cantidades que figuran en la columna A, fila 10, columna B desde la fila 5 hasta la
10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello,
hacemos clic sobre la celda A20 y escribimos
=SUMA(A10;B5:B10;50;37)

Los argumentos de una funcin pueden ser constantes, variables, rangos de celdas u otras
funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el
argumento requerido. Los argumentos de una funcin se separan por punto y coma.

Si utilizamos el asistente de frmulas nos aparecer el cuadro de dilogo Insertar funcin. Las
funciones se encuentran agrupadas por categoras, que podemos ver en la lista desplegable, o
bien podemos utilizar la bsqueda para localizar la funcin que nos interesa. Para cada una de
las funciones, Excel dispone de un texto de ayuda con la descripcin de la funcin, de sus
argumentos y ejemplos de uso.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Una vez seleccionada la funcin, en la siguiente pantalla introduciremos los argumentos de la
misma, escribindolos directamente o seleccionando rangos de celdas



Excel 2003 dispone de 80 funciones estadsticas para clculo de medidas de tendencia central,
dispersin y forma, para series de datos, as como distribuciones de probabilidad, recuentos y
valores del estadstico en contrastes de hiptesis. En este curso veremos como aplicar las ms
habituales para obtener una descripcin de nuestros datos.

2.2. Grficos

Excel permite crear grficos a partir de los datos contenidos en un libro. Los grficos permiten
visualizar la informacin de la hoja para poder comparar datos y deducir conclusiones.
TIPOS DE GRFICOS
COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un
perodo de tiempo.
BARRAS: Ilustran las comparaciones entre elementos individuales.
LNEAS: Muestran las tendencias de los datos a intervalos temporales y compara
categoras.
CIRCULAR: Muestran el tamao proporcional de los elementos que conforman un todo.
GRFICO XY O DIAGRAMA DE DISPERSIN: Muestran las relaciones entre valores
numricos de varias series de datos.
REAS: Destacan la magnitud de los datos en el transcurso del tiempo.
ANILLOS: Al igual que un grfico circular muestra la relacin de las partes con un todo,
aunque puede contener ms de una serie de datos.
RADIALES: Compara los valores de series de datos. Cada categora tiene su propio eje de
valores. Las lneas conectan todos los valores de las mismas series.
SUPERFICIE: Son tiles para conocer las combinaciones ptimas (mximos o mnimos)
entre dos conjuntos de datos.
BURBUJAS: Es un grfico de dispersin pero con tres variables.
COTIZACIONES: Se utiliza para ilustrar la cotizacin de acciones. Requieren entre tres y
cinco series de datos (mximo, mnimo y cierre; apertura, mximo, mnimo y cierre;
volumen, mximos, mnimos y cierre; volumen, apertura, mximo, mnimo y cierre).
CNICOS, CILNDRICOS Y PIRAMIDALES: Son equivalentes a los grficos de columnas
y barras, cambiando nicamente la presentacin.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
ELEMENTOS DE UN GRFICO

CREAR UN GRFICO
Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de grficos
o en el men Insertar seleccionamos Grfico. Seleccionamos el tipo de grfico, para
cada categora de grfico se nos ofrece un subtipo.
En la ficha Tipos personalizados podemos encontrar grficos combinacin de dos tipos de
grficos, por ejemplo, lneas y columnas, y grficos con diseos ms vistosos.


En el 2 paso del asistente si no he especificado el rango de datos o est mal podemos
seleccionarlo en la ficha Rango de datos pulsando el icono , que contrae el cuadro de
dilogo para poder seleccionar de la hoja el rango de datos y seleccionamos si los datos
queremos representarlos en filas o columnas. En la ficha Serie seleccionamos el rango donde
se encuentran los datos y nombres de las series de datos y el rango de los rtulos de los ejes
de categora.
Resumen de gastos
5.500
2.000
9.246
2.000
4.139
1.488
9.735
1.500
0
2.000
4.000
6.000
8.000
10.000
12.000
Personal Alquiler Viajes Suminist ros
Est e ao
Pasado ao
Eje de valores
rea del grfico
Lneas de divisin
Eje de categoras
Leyenda
Rtulos de datos
Ttulo del
grfico
rea de trazado
Marca de graduacin
Series de datos
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral




En el 3
er
paso del asistente aadimos y damos formato a Ttulos, Eje, Lneas de divisin,
Leyenda, Rtulos de datos y Tabla de datos.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


En el ltimo paso del asistente elegimos la ubicacin del grfico.




2.3. Tablas y grficos dinmicos

Una tabla dinmica consiste bsicamente en una agrupacin de una o varias series de
datos desagregados, de forma que obtengamos una vista resumida de los mismos. Con las
tablas dinmicas no solamente podremos elaborar casi cualquier tipo de informe que
necesitemos, sino que adems podremos actualizar automticamente los mismos a medida
que dispongamos de nuevos datos. Los informes de tablas y grficos dinmicos constituyen
potentes herramientas para la elaboracin de publicaciones o informes.

Para crear una tabla dinmica, acudiremos al men Datos -> Informe de tablas y grficos
dinmicos
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


El Asistente nos guiar en tres pasos en el proceso de creacin del informe. En primer lugar
especificaremos la ubicacin de los datos y el tipo de informe que vamos a generar.

A continuacin, marcamos el rango de celdas que contienen los datos




Por ltimo indicamos donde vamos a situar la tabla dinmica



Una vez hecho esto, la tabla se muestra sin contenidos. Debemos especificar en qu posicin de
la tabla se presentarn los datos agregados. Para ello, seleccionaremos cada uno de los
elementos de la lista y lo agregaremos a una de las reas de filas, columnas, datos o pgina.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Destacar que la opcin rea Pgina nos permite seleccionar otro campo, de forma que la tabla
mostrar los datos para cada valor del campo que se ha especificado en Pgina, pero slo uno
cada vez.
Hay un botn por cada ttulo o campo de la base, esos botones se arrastran a:
Pgina: Si queremos que el elemento se presente de manera individual, por pginas.
Fila: Muestra los datos como cabecera de las filas.
Columnas: muestra los datos como cabecera de columna.
rea de datos: Siempre sern las columnas o campos que tengan datos numricos, ya que con
ellos se realizan los clculos, por defecto la suma.

Disponemos de las siguientes funciones de agregacin de los datos:
- Suma
- Cuenta
- Promedio
- Mximo
- Mnimo
- Producto
- Contar nmeros
- Desviacin tpica
- Desviacin tpica de la poblacin
- Varianza
- Varianza poblacional

En el ejemplo se han elegido para las columnas las variables AO y MUNICIPIO, y para las filas
las variables GRUPO_EDAD y SEXO. Como valor agregado se ha aadido la suma de
POBLACION.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Una vez creada la tabla, podemos modificarla mediante las siguientes acciones, disponibles en el
men que aparece cuando hacemos clic con el botn derecho del ratn sobre la tabla:

- Crear un grfico dinmico, a partir de los datos de la tabla
- Ejecutar el asistente para modificar el diseo o las opciones de la tabla



- Actualizar los datos desde el origen. Esta opcin es especialmente til si los datos
proceden de una base de datos externa, puesto que nos permitir actualizar el informe
sin tener que realizar los pasos previos de importar los datos desde la fuente
- Seleccionar un conjunto de filas o columnas para ocultar/mostrar el detalle o agregar y
desagregar elementos
- Especificar la funcin o funciones de agregacin que aplicamos en el rea de datos
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


- Opciones generales de tabla: ttulo, formato, totales s o no, tratamiento de valores
errneos o nulos, etc.
-


- Ocultar/mostrar la barra de herramientas y la lista de campos de la tabla dinmica


2.4. Las macros Anlisis de datos para el tratamiento
estadstico

Los principales desarrollos estadsticos que contiene la hoja de clculo de Excel 2003
se encuentran en el men Herramientas -> Anlisis de datos. En caso de no encontrar esta
opcin activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas
para anlisis desde el apartado Complementos, tal como se muestra en la figura siguiente.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Una vez cargada la macro las posibilidades de efectuar anlisis y operaciones
estadsticas son numerosas. Muchas de estas posibilidades que se irn desarrollando a lo
largo del curso.




A continuacin ofrecemos una breve descripcin de los componentes de la macro Anlisis de
Datos, esta es la que aparece en la opcin ayuda que incorpora la hoja de clculo EXCEL:

a) Anlisis de varianza de un factor

Realiza un anlisis simple de varianza para comprobar la hiptesis segn la cual dos o
ms muestras son iguales (extradas de poblaciones con la misma media). Esta tcnica
profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por
R.A. Fisher en 1925 para resolver diversos problemas agrcolas, tiene por objetivo
descomponer la variabilidad de los datos asociados a un experimento en componentes
independientes, las cuales son asignables a distintas causas.

b)Anlisis de varianza de dos factores con varias muestras de grupo

Realiza una extensin del anlisis de varianza de un factor con ms de una muestra
por cada grupo de datos.



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
c) Anlisis de varianza de dos factores con una sola muestra por grupo

Realiza un anlisis de dos factores con una sola muestra por grupo que comprueba la
hiptesis segn la cual las medias de dos o ms muestras son iguales (extradas de
poblaciones con la misma media). Esta tcnica profundiza en las pruebas para dos medidas
como, por ejemplo, la prueba t.

d) Coeficiente de correlacin

Mide la relacin entre dos conjuntos de datos que han sido calculados en escala para
ser independientes de la unidad de medida. El clculo de la correlacin de poblacin devuelve
la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estndar.

Podr utilizar la herramienta Coeficiente de correlacin para determinar si dos
conjuntos de datos varan conjuntamente, es decir, si los valores altos de un conjunto estn
asociados con los valores altos del otro (correlacin positiva), si los valores bajos de un
conjunto estn asociados con los valores bajos del otro (correlacin negativa) o si los valores
de ambos conjuntos no estn relacionados (correlacin tiende a cero).

Covarianza

Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de
las medias respectivas. La covarianza es una medida de la relacin entre dos rangos de datos.

Podr utilizar la herramienta Covarianza para determinar si dos rangos de datos varan
conjuntamente, es decir, si los valores altos de un conjunto estn asociados con los valores
altos del otro (correlacin positiva), si los valores bajos de un conjunto estn asociados con los
valores bajos del otro (correlacin negativa) o si los valores de ambos conjuntos no estn
relacionados (correlacin tiende a cero).

Estadstica descriptiva

Genera un informe de estadsticas de una sola variable para datos del rango de
entrada, y proporciona informacin acerca de la tendencia central y dispersin de los datos.

Suavizacin exponencial

Predice un valor basndose en el pronstico correspondiente al perodo anterior,
ajustado al error de dicho pronstico. Utiliza la constante de suavizacin a, cuya magnitud
determina la exactitud con la que los pronsticos responden a errores del pronstico anterior.

Prueba F para varianzas de dos muestras

Realiza una prueba F de dos muestras para comparar las varianzas de dos
poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una
carrera de atletismo difieren en la varianza de las muestras de dos corredores.

Anlisis de Fourier

Resuelve problemas de sistemas de lneas y analiza datos peridicos,
transformndolos mediante el mtodo Fast Fourier Transform (FFT). Esta herramienta tambin
realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve
los datos originales.


Histograma

Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y de
clases de datos. Genera datos acerca del nmero de apariciones de un valor en un conjunto de
datos. Por ejemplo, en una clase con 20 alumnos se desea obtener la distribucin de
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
calificaciones mediante una categora de puntuacin por letras. Una tabla de histograma
presentar los lmites de las calificaciones por letras as como el nmero de calificaciones que
hay entre el lmite ms bajo y el actual. La calificacin ms frecuente es la moda de los datos.

Media mvil

Proyecta valores en el perodo pronosticado, basndose en el valor promedio de la
variable calculada durante un nmero especfico de perodos anteriores.

Una media mvil proporciona informacin de tendencias que quedara enmascarada
por una simple media de todos los datos histricos. Utilice esta herramienta para pronosticar
ventas, inventarios u otras tendencias.

Generacin de nmeros aleatorios

Llena un rango con nmeros aleatorios independientes extrados de uno de varias
distribuciones. Podr utilizar esta herramienta para caracterizar a los sujetos de una poblacin
con una distribucin de probabilidades. Por ejemplo, puede utilizar una distribucin normal para
caracterizar la poblacin de estatura de las personas, o utilizar una distribucin de Bernoulli con
dos resultados posibles para caracterizar la poblacin de resultados cuando se lanza una
moneda al aire.

Jerarqua y percentil

Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un
conjunto de datos. Podr utilizar este procedimiento para analizar la importancia relativa de los
valores en un conjunto de datos.

Regresin

Realiza un anlisis de regresin lineal utilizando el mtodo de mnimos cuadrados para
ajustar una lnea a un conjunto de observaciones. Podr utilizar esta herramienta para analizar
la forma en que una sola variable dependiente se ve afectada por los valores de una o ms
variables independientes, por ejemplo, varios factores inciden en el rendimiento de un atleta,
entre ellos la edad, la altura y el peso. Basndose en un conjunto de datos acerca del
rendimiento, la regresin determina la parte de cada uno de los factores en las medidas de
rendimiento. Los resultados de la regresin podrn utilizarse entonces para predecir el
rendimiento de un atleta nuevo no sometido a prueba.

Muestra

Crea una muestra de la poblacin tomando los datos del rango de entrada como
poblacin. Es posible utilizar una muestra en lugar de toda la poblacin cuando sta sea
demasiado grande para procesarla o para presentarla grficamente. Adems, si cree que los
datos de entrada son peridicos, puede crear una muestra que contenga slo los valores de
una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de
ventas trimestrales, la muestra realizada con una tasa peridica de 4 permitir colocar los
valores del mismo trimestre en la tabla de resultados.

Prueba t para medias de dos muestras emparejadas

Realiza una prueba t de Student en dos muestras emparejadas para determinar si las
medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas
de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par
de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos
veces a prueba, antes y despus de un experimento.




Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Prueba t para dos muestras suponiendo varianzas iguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t
homoscedstica. Se emplea para determinar si las medias de dos muestras son iguales.

Prueba t para dos muestras suponiendo varianzas desiguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t
heteroscedstica. Utilcela para determinar si las medias de dos muestras son iguales y a partir
de qu momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada
cuando exista un grupo antes del tratamiento y despus de l.

Prueba z para medias de dos muestras

Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta
herramienta se emplea para comprobar las hiptesis acerca de la diferencia existente entre las
medias de dos poblaciones, por ejemplo, puede utilizarla para estudiar las diferencias en el
rendimiento de dos modelos de vehculos.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3.- Anlisis de distribuciones
3.1.- Introduccin

En este tema y los siguientes se van a introducir tcnicas estadsticas para una sola variable,
es decir, que con lo que se va a tratar es una serie de valores {x
1
, x
2
, , x
n
}

que se habrn
obtenido de medir una variable en una serie de individuos. Si la serie corresponde a una
variable medida en un individuo a lo largo del tiempo tendremos una serie temporal, y si es
una variable medida en diversas localizaciones geogrficas tendremos una serie espacial.
Estas dos ltimas, aunque se les puede aplicar algunas de las tcnicas explicadas, no
constituyen el objetivo de este captulo.

3.2.- Distribuciones de frecuencias unidimensionales
3.2.1.- Tablas de Frecuencias en variables cualitativas o cuantitativas
discretas.
Una vez que se tienen los datos de una variable hay que ordenarlos y resumirlos. Una forma de
hacerlo es agrupar los valores iguales y contar las veces que se repite cada uno de ellos.
En variables cualitativas o cuantitativas discretas esta es la forma habitual de proceder, en
variables cuantitativas continuas se proceder primero a una agrupacin de los datos.

Las definiciones de los distintos tipos de frecuencias se dan a continuacin:

Frecuencia absoluta: Llamaremos as al nmero de repeticiones que presenta una
observacin. Se representa por n
i
.

Frecuencia relativa: Es la frecuencia absoluta dividida por el nmero total de datos, se
suele representar por f
i
.

n
n
f
i
i
= == =


Propiedad:
La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.

Si la variable que se est tratando es cualitativa ordinal o bien cuantitativa se pueden definir
otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables
cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe
un orden natural para los valores de este tipo de datos.

Frecuencia absoluta acumulada: Es la suma de los distintos valores de la frecuencia
absoluta tomando como referencia un individuo dado. La ltima frecuencia absoluta
acumulada es igual al n de casos:

Suponiendo que hay k valores distintos
N
1
= n
1

N
2
= n
1
+ n
2

N
k
= n
1
+ n
2
+ . . . . . . + n
k-1
+ n
k
=n

Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta
acumulada por el nmero total de datos, se la suele representar con la notacin: F
i


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
De igual forma, tambin se puede definir a partir de la frecuencia relativa, como suma
de los distintos valores de la frecuencia relativa, tomando como referencia un individuo
dado. La ltima frecuencia relativa acumulada es igual a la unidad.

Tabla de frecuencias para una variable discreta. La ordenacin en la tabla, ser:

x
i
n
i
N
i
f
i
F
i

x
1
n
1
N
1
f
1
F
1

x
2
n
2
N
2
f
2
F
2

x
3
n
3
N f
3
1
n
i
=N 1

3.2.2.- Tabla de frecuencias para variable continua: recorrido, intervalo,
amplitud, marca de clase, densidad de frecuencia.

Cuando nos encontramos con una distribucin con un gran nmero de valores, se suelen
agrupar en intervalos para facilitar la comprensin de los datos. Esta prctica tiene en cambio
un inconveniente: se pierde informacin sobre la propia distribucin.
[L
i-1
, L
i
)
Se indica por L
i-1
al extremo inferior del intervalo y por L
i
al extremo superior. Cerramos el
intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo
ser al contrario.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla
podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los
extremos, y dividir entre 2.

La amplitud del intervalo, sera la longitud del intervalo, se representa por:
a = L
i
- L
i-1


NOTA: Cmo obtener, a partir de los datos, una tabla de frecuencias agrupada?
N de intervalos: A partir de la raz cuadrada del nmero de datos
redondeando podemos obtener el nmero de intervalos.
Recorrido: Valor mayor, menos valor menor de los datos. Re= x
n
-x
1

Amplitud: Divisin entre el Recorrido y el nmero de intervalos que hayamos
decidido. Se puede redondear tambin.

ervalos de N
a
i
int
Re
= == =

NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de
frecuencia del intervalo -isimo, como el cociente entre el nmero total de observaciones de
un intervalo y la amplitud del mismo
i
a
i
n
i
d = == =


3.2.3.- Ejemplos

Ejemplo 1

El gobierno desea averiguar si el nmero medio de hijos por familia ha descendido respecto de
la dcada anterior. Para ello ha encuestado a 50 familias respecto al nmero de hijos, y ha
obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
2 1 i i i L L c + ++ + = == =
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Se pide:

a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Construir la tabla de frecuencias?
e) Cul es el nmero de familias que tiene como mximo 2 hijos?
f) Cuntas familias tienen ms de 1 hijo, pero como mximo 3?
Qu porcentaje de familias tiene ms de 3 hijos?

Solucin:

a) La poblacin objeto de estudio es el conjunto de familias de un determinado pas.

b) La variable que estamos estudiando es el nmero de hijos por familia

c) El tipo de variable es discreta ya que el nmero de hijos solo puede tomar determinados
valores enteros (es imposible tener medio o un cuarto de hijo).

d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un
determinado nmero de hijos. Podemos ver que el nmero de hijos, toma los valores existentes
entre 0 hijos, los que menos y 6 hijos, los que ms y tendremos:

x
i
n
i
N
i
f
i
F
i

0 2 2 0,04 0,04
1 4 6 0,08 0,12
2 21 27 0,42 0,54
3 15 42 0,30 0,84
4 6 48 0,12 0,96
5 1 49 0,02 0,98
6 1 50 0,024 1
N = 50 1

e) El nmero de familias que tienen dos o menos hijos es: 2+4+21 = 27

f) El nmero de familias que tienen ms de un hijo pero tres como mximo es: 21 + 15 = 36

Por ltimo el porcentaje de familias que tiene ms de tres hijos, son aquellos que tienen 4; 5 y 6
es decir 6+1+1= 8

El porcentaje ser el tanto por uno multiplicado por cien es decir, la frecuencia relativa de
dichos valores multiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0,16 + 100 = 16 %


Ejemplo 2

Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus
habitaciones, el gerente investiga los precios por habitacin de 40 hoteles de la misma
categora de esa ciudad. Los datos obtenidos en euros fueron

23,4 28,2 22,2 33,6 25,8 29,4 30 36,6 30,6 27
31,8 23,4 25,8 30 36 28,2 30,6 25,2 26,4 34,8
19,8 25,8 24,6 34,8 26,4 28,8 36,6 25,8 31,8 27
24 32,4 23,4 28,2 19,8 27 28,2 25,2 27 28,8

Se pide:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Qu problema plantea la construccin de la tabla de frecuencias?
e) Cunto hoteles tienen un precio entre 19 y 22 euros?
f) Cunto hoteles tienen un precio superior a 28?
g) Qu porcentaje de hoteles cuestan como mucho 25?

SOLUCIONES:

a) La poblacin objeto de estudio son los hoteles de una ciudad.
b) La variable que estamos estudiando es el precio.
c) El tipo de variable es continua.
d) El problema que plantea es que existen muchos valores diferentes. Por tanto es
conveniente agrupar la serie en intervalos.
La manera de hacerlo sera la siguiente: primero, calculamos el recorrido
Re = x
n
x
1
= 36,6 19,8 = 16,8
Cuando no se nos dice nada sobre el n de intervalos a tomar, ste se suele obtener
calculando la raz cuadrada del n de datos observado. Veremos que la raz cuadrada de 40 es
igual a 6,32 por lo tanto tomaremos 6 intervalos, que es el entero ms prximo.
Como el recorrido es 16,8, si lo dividimos por el n de intervalos tendremos la amplitud de cada
uno de ellos y as: 16,8/6 = 2,8. Tomaremos 3 como amplitud del intervalo, puesto que resulta
ms sencillo y claro operar con enteros y, puesto que la eleccin del nmero y amplitud de los
intervalos se deja a criterio del investigador, siempre preferiremos la opcin ms simple.


[L
i-1
,, L
i
) n
i
N
i
f
i
F
i

[19 - 22) 2 2 0,05 0,05
[22 - 25) 6 8 0,15 0,2
[25 - 28) 12 20 0,3 0,5
[28 - 31) 11 31 0,275 0,775
[31 - 34) 4 35 0,1 0,875
[34 - 37) 5 40 0,125 1
N= 40

e) 2
f) 20
g) %=F
2
*100=0,2*100=20

3.2.4.- Primeros Grficos estadsticos.

Para apreciar a golpe de vista la magnitud o posicin de las variables, se suelen efectuar una
representacin grfica, los sistemas de grficos ms usuales son:

Diagrama de puntos
Este tipo de representacin se suele utilizar con variables cuantitativas continuas, y consiste en
representar sobre una recta los valores obtenidos.
Permite apreciar la distribucin de los datos a lo largo de su recorrido.
-2 -1 0 1 2 3 4 5


Diagrama de tallo-hojas
Este tipo de diagrama permite visualizar la distribucin de una variable numrica.
Si se tienen los datos:

52 23 36 45 11 20 40 26 38 54 12 18 43 38 46 57
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
53 34 40 18 26 32 54 35 21 23 62 31 59 21 53 27
16 24 38 54 52 44 53 64 18 52 14 65 56 69 62 27
25 55 29 64 52 28 45 49 31 22 62 45 24 44 55 68

El diagrama es el siguiente:

1246888
011233445667789
11245688
003445569
222233344455679
22244589

En la parte izquierda est el primer dgito de los datos (pueden ser 2 o ms dgitos). En la
parte derecha se encuentra el dgito final, de forma que cada dgito corresponde a un valor
(podran ser tambin grupos de dos o ms dgitos).

Diagrama de barras
Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable. En el eje
horizontal, situaremos los diferentes valores de la variable. En el eje vertical la frecuencia.
Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia
adecuada.
0
2
4
6
8
10
12
14
16
18
a b c d e


Las barras se podran dibujar en horizontal.

0 5 10 15 20
a
b
c
d
e


Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.

Diagrama de sectores
El rea de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta
o relativa.

Para calcularlo podemos decir que el rea depende del ngulo central, mediante la siguiente
proporcin: n
i
/N=/360
Como resulta n
i
/N = f
i
, tendremos que *360
i
f =

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
20%
36%
24%
9%
11%
a
b
c
d
e


Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.


Histograma
Cuando la variable es continua se puede utilizar un histograma para su representacin. En este
caso se dibujan rectngulos cuya base corresponde a la amplitud del intervalo (clase) y de
forma que el rea del rectngulo corresponde a la frecuencia relativa de la clase.

x
F
r
e
c
u
e
n
c
i
a
-4 -2 0 2 4
0
5
0
1
0
0
1
5
0
2
0
0

Los intervalos pueden no ser iguales:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
x
F
r
e
c
u
e
n
c
i
a
-4 -2 0 2 4
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0


Polgono de frecuencias
Es la recta que une los extremos superiores de un diagrama de barras (que no se dibuja
normalmente), o bien los puntos centrales de la base superior de los rectngulos de un
histograma.

0
2
4
6
8
10
12
14
16
18
a b c d e



Diagramas con frecuencias acumuladas
Son diagramas de barras o polgonos de frecuencias en los que se emplean las frecuencias
acumuladas.

0
1
2
3
4
5
6
1 2 3 4 5

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

0
1
2
3
4
5
6
1 2 3 4 5




Pictograma
Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la
variable (ejemplo un pez) y su tamao suele guardar relacin con la frecuencia


Cartograma
Se representa la informacin mediante un diagrama convencional insertado en un mapa. Este
tipo se aplica a variables en la que los individuos son regiones geogrficas.
Si las frecuencias o el valor de la variable se representa con colores tenemos lo que se llama
un mapa temtico.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
hasta 1
( 1 3 ]
( 3 7 ]
( 7 9 ]
Ms de 9
(1)
(2)
(4)
(2)
(0)


Se pueden tambin representar barras con las frecuencias en cada una de las zonas,o bien
diagramas de sectores o cualquier otro.




3.3.- Medidas de posicin en una distribucin de frecuencias
unidimensional

3.3.1.- Introduccin

En este tema y el siguiente vamos a obtener unos nmeros que cuantifiquen las
propiedades fundamentales de la distribucin de frecuencias. Estos nmeros podemos
clasificarlos en:

Medidas de localizacin (posicin). Son coeficientes de tipo promedio que tratan de
representar la situacin una determinada distribucin, pueden ser de dos tipos:
1.-Centrales:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
-Medias:
Aritmtica
Geomtrica
Armnica
-Medianas
-Moda
2.-No centrales:
-Cuantiles:
Cuartiles
Deciles
Centiles o percentiles

Medidas de dispersin: Son complementarias de las de posicin en el sentido que sealan la
dispersin en conjunto de todos los datos de la distribucin respecto de la medida o medidas
de localizacin adoptadas.

Medidas de forma: Estudian la asimetra-simetra y deformacin (apuntamiento,
aplastamiento) respecto de una distribucin modelo denominada distribucin NORMAL

Medidas de concentracin: Estudian la concentracin de una distribucin frente a la
uniformidad.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3.3.2.- Medidas de centralizacin.

MEDIA ARITMTICA: Es la suma de todos los valores de la variable dividida entre el nmero
total de elementos.
1 2 3 1 1
....
n
i
n n i
x
x x x x x
X
n n
=
+ + + +
= =


Si el valor xi de la variable X se repite n
i
veces, aparece en la expresin de la media
aritmtica de la forma:
i i
x n
X
n
=

,

Como
i
i
n
f
N
= otra posible expresin ser
1
n
i i
i
X x f
=
=



Ejemplo: Si tenemos la siguiente distribucin, se pide hallar la media aritmtica, de los
siguientes datos expresados en kg.
x
i
n
i
x
i
n
i

54 2 108
59 3 177
63 4 252
64 1 64
10 601

601
60,1
10
i i
x n
X
n
= = =

kg
NOTA: A la media aritmtica se la denomina tambin CENTRO DE GRAVEDAD de la
distribucin.

Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las
marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos
indistintamente c
i
= x
i


Ejemplo:

[L
i-1
,L
i
) x
i
= c
i
n
i
c
i
n
i

[30 , 40) 35 3 105
[40 , 50) 45 2 90
[50 , 60) 55 5 275
10 470

470
47
10
i i
x n
X
n
= = =




Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
MEDIA ARITMTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el
mismo peso. Esta importancia que asignamos a cada variable, es independiente de la
frecuencia absoluta que tenga. Ser como un aumento del valor de esa variable, en tantas
veces como consideremos su peso.

Es la media aritmtica que se utiliza cuando a cada valor de la variable (x
i
) se le otorga una
ponderacin o peso distinto de la frecuencia o repeticin. Para poder calcularla se tendr que
tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable
Se la suele representar como:
i i i
i i
x w n
Xw
w n
=


Siendo w
i
la ponderacin de la variable x
i
y
i
w

la suma de todas las ponderaciones.



Ejemplo: Un estudiante realiza 3 exmenes de complejidad creciente, obteniendo los siguientes
resultados: 5, 8 y 7.
El primer examen lo hizo en hora, el segundo en 1 hora y el tercero en hora y media, por lo
que se les atribuye una ponderacin de 1, 2 y 3 respectivamente. Se pide calcular la nota
media.

X
i
n
i
W
i
x
i
w
i

5 1 1 5
8 1 2 16
7 1 3 21
3 N = 6 42

Si calculamos la media aritmtica tendremos que :
5 8 7
6, 67
3
i i
x n
X
n
+ +
= = =

.
Ahora bien, si calculamos la media ponderada, obtendremos:
( ) ( ) ( )
( )
5 1 8 2 7 3
5 16 21 42
7
1 2 3 6 6
w
x x x
x
+ +
+ +
= = = =
+ +


Propiedades de la media aritmtica
PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a
la media aritmtica es 0.

Veamos que resulta al operar la siguiente expresin:
1
( )
n
i
i
x X
=

. Tendremos que
( ) ( ) ( )
1
1 1 1 1
( ) ( )
1 1
. 0 0
n
i
i i i i i i i i i i i i
i
i i i i i
i i
i i
i i
n
x X x n Xn x n Xn x n X n x n Xn
n n n n n
x n
x n n
n n n
=
= = = = =
| |
= =
|
\




PROPIEDAD 2: La media aritmtica de los cuadrados de las desviaciones de los valores
de la variable con respecto a una constante cualquiera se hace mnima cuando dicha
constante coincide con la media aritmtica (Teorema de KRING).
( )
( ) ( )
2
2
1 0 0
i i
i i
i
x x n
x k n
n
D k prop
n n n

= = = = =


Para k x = (media aritmtica) el valor de las desviaciones ser mnima.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la
media aritmtica queda aumentada en dicha cantidad:

Supongamos que tenemos una variable x de la que conocemos su media.
Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la
siguiente forma:
i i
y x k = + . Si ahora queremos calcular la media de esta segunda variable:
( ) ( )
1
n
i i
i i i i i i i i i i i
i
i i i i
y n
x k n x n kn x n kn x n kn
y
n n n n n n
x n x n
kn
k
n n n
=
+ + +
= = = = = + =
= + = +





como
i i
x n
X
n
=

si sustituimos tendremos Y X k = +
PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma
constante la media aritmtica queda multiplicada por dicha constante. La demostracin
se realizara de manera anloga a la anterior.

NOTA: De las dos propiedades anteriores se deduce que la resta y la divisin se
realizaran de igual manera para la propiedad 3 y 4 respectivamente.

Corolario: Si una variable es transformacin lineal de otra variable (suma de un nmero
y multiplicacin por otro), la media aritmtica de la 1 variable sigue la misma transformacin
lineal con respecto a la media aritmtica de la 2 variable, siendo
y
i
= a x
i
+ b , donde a y b son nmeros reales:

( ) ( )
i i i i i i i i i i
y n ax b n ax n bn a x n b n
y ax b
n n n n n
+ +
= = = = + = +



Podemos utilizar esta metodologa para calcular la media de la siguiente distribucin.

X
i
n
i

38432 4
38432 8
38436 4
38438 3
38440 8

Si efectuamos un cambio de variable
38436
2
i
i
x
y

= tomando como nueva variable el
valor ms centrado, tendremos:

x
i
n
i
y
i
y
i
n
i

38432 4 (38432 - 38436)/2 = -2 -8
38432 8 (38432 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
3 1
27 9
i i
y n
y
n
= = =
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Como
38436
2
x
y

= , entonces

1
2 38436 2 38436 0, 222 38436 38436, 222
9
x y = + = + = + =



PROPIEDAD 5: - Si en un conjunto de valores se pueden obtener 2 ms
subconjuntos disjuntos, la media aritmtica del conjunto se relaciona con la media
aritmtica de cada uno de los subconjuntos disjuntos de la siguiente forma:
1
N
i i
I
x N
X
n
=
=


Siendo
i
x la media de cada subconjunto y N
i
el nm. de elementos de cada subconjunto.

Veamos la demostracin de la propiedad: Sea la distribucin x
1
, x
2
,, x
n
, x
n+1
,
x
n+2
,,x
k
,
observando que habran como dos subconjuntos de n y k-n elementos cada
uno. Si
consideramos la media aritmtica de la distribucin:
i i
x n
X
n
=

y calculamos los sumatorios
para los dos subconjuntos, la expresin de la media quedara:
1 1 1
1
n k n
k
j j r r j j
r r
j r n j
r n
x n x n x n
x n
X
n n n
= = + =
= +
+
= = +



Si multiplicamos numerador y denominador de cada una de las fracciones por una misma
cantidad el resultado no vara, por tanto, multiplicaremos la primera por N
1
que es su nmero
de elementos del primer subconjunto y la segunda por N
2
que es el correspondiente, la
expresin quedar:
n
N
n x
N
n
N
n x
N
n N
n x N
n N
n x N
X
n
j
j j
n
j
j j
k
n r
r r
n
j
j j
| || |
| || |
| || |
| || |
| || |

| || |





\ \\ \
| || |
+ ++ +
| || |
| || |
| || |
| || |
| || |

| || |





\ \\ \
| || |
= == = + ++ + = == =



= == = = == =
+ ++ + = == =
= == =
2
1
2
1
1
1
2
1
2
1
1
1
como
1
1
1
n
j j
j
x n
x
N
=
=

y

1
2
2
kn
rj jr
r n
x n
x
N
= +
=

son la media del primer y segundo subconjunto, la expresin la podemos


expresar de la siguiente manera:
1 2 1 1 2 2
1 2
N N X N X N
X X X
n n n
+
= + = que es lo que
queramos demostrar ya que si las frecuencias se multiplican o dividen por un mismo nmero,
la media no vara

IMPORTANTE: Hay que tener en cuenta que la media aritmtica es muy sensible a los
valores extremos, es decir, a valores numricos muy diferentes, (tanto por lo grandes, o
pequeos que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de
resolverlo, que veremos ms adelante.



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
MEDIA GEOMTRICA Y ARMNICA.

Media geomtrica: Responde a la siguiente expresin
1 2 2
1 2 3
......
k
n n n n
n
k
G x x x x =

y se la puede define, como la raz n-sima del producto de todos los valores de la variable.
Tambin la podemos representar como:
3 1 2
1
1 2 3
( ....... )
k
n n n n
n
k
G x x x x =

NOTA: En muchas ocasiones, los valores de la distribucin nos impiden poder efectuar
los clculos al exceder la capacidad de la calculadora.
Utilizaremos las propiedades de los logaritmos:
lg (a.b) = lg a + lg b
lg a
n
= n lg a
3 3 1 2 1 2
1
1 2 3 1 2 3
1
lg lg( ....... ) lg( ....... )
k k
n n n n n n n n
n
k k
G x x x x x x x x
n
= = =
3 1 2
1 2 3
1
(lg lg 2 lg .... lg )
k
n n n n
k
x x x x
n
= + + + +

sabiendo que lo podemos expresar en notacin compacta:
1 1 2 2 3 3
lg 1
( lg lg lg ...... lg ) lg
i i
k k
n x
n x n x n x n x G
n n
+ + + + = =

, por lo que podemos


decir que
G = anti lg
lg
i i
n x
n


El logaritmo de la media geomtrica es la media aritmtica de los logaritmos de los valores de
la variable. El problema se presenta cuando algn valor es 0 negativo y exponente de la raz
par ya que no exista raz par de un nmero negativo.

Suele utilizarse cuando los valores de la variable siguen una progresin geomtrica.
Tambin para promediar porcentajes, tasas, n ndices, etc. siempre que nos vengan dados en
porcentajes.

Ejemplo: Hallar la media geomtrica de la siguiente distribucin:

x
i
N
i

100 10
120 5
125 4
140 3
n = 22
lg
lg
i i
n x
G
n
=


por lo tanto ser conveniente ampliar la tabla con lo que nos quedar

x
i
n
i
lg x
i
n
i
lg x
i

100 10 lg 100 = 2 20
120 5 lg 120 = 2.079 10,396
125 4 lg 125 = 2.097 8,387
140 3 lg 140 = 2.146 6,438
n = 22 45.221
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
lg
45, 221
lg 2, 056
22
i i
n x
G
n
= = =


G = anti lg. 2,0555 = 113,632


Media armnica. La representaremos como H: Es la inversa de la media aritmtica de las
inversas de los valores de la variable, responde a la siguiente expresin:

3 1 2
1 21 3
....
i
i
n n
H
n n n n
x x x x
= =
+ + +



Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores
pequeos).
Su problema: cuando algn valor de la variable es 0 o prximo a cero no se puede calcular.





Ejemplo: calcular la media armnica de la siguiente distribucin:

x
i
N
i

100 10
120 5
125 4
140 3

Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia
por lo que ampliaremos la tabla con 2 columnas adicionales:

x
i
n
i
1/x
i
n
i
/x
i
X
i
n
i

100 10 1/100 0.1 1000
120 5 1/120 0.042 600
125 4 1/125 0.032 500
140 3 1/140 0.021 420
N= 22 0.195 2520

82 , 112
195 , 0
22
= == = = == = = == =

i
i
x
n
n
H 545 , 114
22
2520
= == = = == = = == =

n
n x
X
i i


Entre la media aritmtica la media geomtrica y media armnica se da siempre la siguiente
relacin:
H G X


MEDIANA: Me

La mediana o valor mediano ser el valor de la variable que separa en dos grupos los valores
de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden
dentro de la ordenacin.
El lugar que ocupa se determina dividiendo el n de valores entre 2:
2
n

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Cuando hay un nmero impar de valores de la variable, la mediana ser justo el valor de orden
central, aquel cuya frecuencia absoluta acumulada coincida con
2
n
. Es decir:
1
2
i i i
n
N N Me x

< = . Por tanto la mediana coincide con un valor de la variable.


El problema est cuando haya un nmero par de valores de la variable. Si al calcular
2
n
resulta
que es un valor menor que una frecuencia absoluta acumulada, el valor de la mediana ser
aquel valor de la variable cuya frecuencia absoluta cumpla la misma condicin anterior:
1
2
i i i
n
N N Me x

< = . Por el contrario si coincide que


2
i
N
N = , para obtener la
mediana realizaremos el siguiente clculo:
1
2
i i
x x
Me
+
+
=

Ejemplo: Sea la distribucin

x
i
N
i
N
i

1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
N = 35
lugar que ocupa
35
17, 5
2 2
n
= =

como se produce que
1
16 17, 5 26
2
i i i
n
N N Me x

< < < < = ,por lo tanto Me = 7


El otro caso lo podemos ver en la siguiente distribucin:

x
i
N
i
N
i

1 3 3
2 4 7
5 9 16
7 10 26
10 6 32
N= 32

Lugar que ocupa = 32/2 = 16 ==>
1 1
5 7
6
2 2
i
x x
Me
+
+ +
= = =
Notar que en este caso se podra haber producido que hubiera una frecuencia absoluta
acumulada superior a 16. En este caso se calculara como en el ejemplo anterior.

En distribuciones agrupadas, hay que determinar el intervalo mediano [ )
1
,
i i
L L

, la forma de
hacerlo ser calcular el valor de la mitad de n, y observar que intervalo tiene una frecuencia
absoluta acumulada que cumpla
1
2
i i
n
N N

< < .
Despus de saberlo haremos el siguiente clculo:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
1
1
2
i
i i
i
N
N
Me L a
n

= +


Siendo: [ L
i-1
,
L
i
) el intervalo que contiene a la frecuencia acumulada N/2

a
i
= amplitud de dicho intervalo.




Ejemplo:

[ L
i
-1
,
L
i
) n
i
N
i

[20 , 25) 100 100
[25 , 30) 150 250
[30 , 35) 200 450
[35 , 40) 180 630
[40 , 45) 41 671
N = 671


671/2 = 335.5 ; Me estar en el intervalo [30 - 35 ). Por tanto realizamos el clculo:
1
1
33, 5 250
2
30 *5 32,138
200
i
i i
i
n
N
Me L a
n

= + = + =


MODA: Mo

Ser el valor de la variable que ms veces se repite, es decir, el valor que tenga mayor
frecuencia absoluta.
Pueden existir distribuciones con ms de una moda: bimodales, trimodales, etc.
En las distribuciones sin agrupar, la obtencin de la moda es inmediata.

Ejemplo:
x
i
n
i

1 2
2 7
3 5
4 7
5 4
Moda {2, 4}, en este caso tenemos una distribucin bimodal.

En los supuestos que la distribucin venga dada en intervalos, es decir, sea agrupada, se
pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta.

Si tienen la misma amplitud, en primer lugar tendremos que encontrar el intervalo modal, ser
aquel que tendr mayor frecuencia absoluta
1
[ , )
i i
L L

. Posteriormente realizaremos el
siguiente clculo:

1
1
1 1
i
i i
i i
n
Mo L a
n n
+

+
= +
+

Siendo:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
L
i-1
= extremo inferior del intervalo modal
a
i
amplitud de dicho intervalo
n
i-1
y n
i+1
densidades de frecuencia de los intervalos anterior y posterior
respectivamente al que contiene la moda.

Cuando los intervalos sean de distinta amplitud, el intervalo modal ser el de mayor densidad
de frecuencia , es decir
i
i
i
n
d
a
= ,ya que consideraremos la calidad del intervalo en funcin
de la frecuencia y de la amplitud. Para realizar el clculo, tendremos en cuenta la siguiente
expresin:
1
1
1 1
i
i i
i i
d
Mo L a
d d
+

+
= +
+


Nota:
1.- Cuando hay una nica moda, la mediana suele estar comprendida entre x y Mo.
2.- Cuando la distribucin es simtrica (con 1 moda) se cumple que: x = Me=Mo

Ejemplo: Hallar la moda de la siguiente distribucin

[L
i-1
,L
i
) n
i
D
i
= n
i
/a
i

[0 , 25) 20 0.8
[25 , 50) 140 5.6
[50 , 100) 180 3.6
[100 , 150) 40 0.8
[150 , 200) 20 0.4

Calculamos el intervalo modal [25 50). Operamos:
1
1
1 1
3, 6
25 25 45, 5
0, 8 3, 6
i
i i
i i
d
Mo L a
d d
+

+
= + = + =
+ +


3.3.3.- Cuantiles: cuartiles, deciles y percentiles

Son medidas de localizacin similares a las anteriores. Se las denomina CUANTILES (Q). Su
funcin es informar del valor de la variable que ocupar la posicin (en tanto por cien) que nos
interese respecto de todo el conjunto de variables.

Podemos decir que los Cuantiles son unas medidas de posicin que dividen a la distribucin en
un cierto nmero de partes de manera que en cada una de ellas hay el mismo de valores de la
variable.

Las ms importantes son:
CUARTILES, dividen a la distribucin en cuatro partes iguales (tres divisiones). C
1
,C
2
,C
3
,
correspondientes a 25%, 50%,75%.
DECILES, dividen a la distribucin en 10 partes iguales (9 divisiones).D
1
,...,D
9
,
correspondientes a 10%,...,90%
PERCENTILES, cuando dividen a la distribucin en 100 partes (99 divisiones).P
1
,...,P
99
,
correspondientes a 1%,...,99%.

Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a
la Mediana y as veremos
2 5 50
4 10 100
= =
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Distinguiremos entre distribuciones agrupadas, y las que no lo estn:
En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa:
Entonces tendremos que:

N
i-1
< (%)n < N
i
Q = x
i

en el supuesto que (%)n = N
i

1
2
i i
x x
Q
+
+
=
En distribuciones agrupadas primero encontraremos el intervalo donde estar el cuantil, lugar
en el que N
i=1
< (%)n< N
i
Intervalo [L
i-1
, L
i
) , en este caso:
( )
1
1
%
i
i i
i
N N
Q L a
n

= +

Ejemplo:
DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribucin

x
i
n
i
N
i

5 3 3
10 7 10
15 5 15
20 3 18
25 2 20
n = 20

Calcular la mediana (Me); el primer y tercer cuartil (C
1
,C
3
); el 4 decil (D
4
) y el 90 percentil (P
90
)

Mediana (Me)
Lugar que ocupa la mediana lugar 20/2 = 10
Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es clculo:
1
10 15
12, 5
2 2
i i
x x
Me
+
+ +
= = =

Primer cuartil (C
1
)
Lugar que ocupa en la distribucin ( ). 20 = 20/4 = 5 Como N
i-1
< (25%).n < N
i
, es decir 3
< 5 < 10 esto implicara que C
1
= x
i
= 10

Tercer cuartil (C
3
)
Lugar que ocupa en la distribucin (3/4).20 = 60/4 = 15, que coincide con un valor de la
frecuencia absoluta acumulada, por tanto realizaremos el clculo:
1
3
15 20
17, 5
2 2
i i
x x
C

+ +
= = =

Cuarto decil (D
4
)
Lugar que ocupa en la distribucin (4/10) . 20 = 80/10 = 8. Como N
i-1
< (%).n < N
i
ya que 3
< 8 < 10 por tanto D
4
=10.

Nonagsimo percentil (P
90
)
Lugar que ocupa en la distribucin (90/100). 20 = 1800/100 = 18. que coincide con un valor de
la frecuencia absoluta acumulada, por tanto realizaremos el clculo:
1
90
20 25
22, 5
2 2
i i
x x
P

+ +
= = =

Ejemplo:
DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la
siguiente distribucin:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

[L
i-1
, Li) n
i
N
i

[0 , 100) 90 90
[100 , 200) 140 230
[[200 , 300) 150 380
[300 , 800) 120 500
n = 500

Primer cuartil (C
4
)
Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto C
4
estar
situado en el intervalo [100 200).Aplicando la expresin directamente, tendremos:
4
125 90
100 100 125
140
C

= + =

Cuarto decil (D
4
)
Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D
4
estar situado en el intervalo [100 200).
Aplicando la expresin tendremos:
4
200 90
100 100 178, 57
140
D

= + =

Nonagsimo percentil (P
90
)
Lugar que ocupa: (90/100) . 500 = 450, por tanto P
90
estar situado en el intervalo [300
800). Aplicando la expresin tendremos:
90
450 380 70
300 500 300 500 591, 67
120 120
P

= + = + =

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

3.4.- Caractersticas de las medidas de dispersin.

Las medidas de dispersin nos sirven para cuantificar la separacin de los valores de una
distribucin.
Llamaremos DISPERSIN O VARIABILIDAD, a la mayor o menor separacin de los valores de
la muestra, respecto de las medidas de centralizacin que hayamos calculado.
Al calcular una medida de centralizacin como es la media aritmtica, resulta necesario
acompaarla de otra medida que indique el grado de dispersin, del resto de valores de la
distribucin, respecto de esta media.
A estas cantidades o coeficientes, les llamamos: MEDIDAS DE DISPERSIN, pudiendo ser
absolutas o relativas

Medidas de dispersin absolutas:
Recorrido
Recorrido intercuartlico.
Varianza
Desviacin tpica
Desviacin media respecto de la mediana

Medidas de dispersin relativas
Coeficiente de variacin de PEARSON
Indice de variacin respecto de la mediana


3.4.1.- Medidas de dispersin absolutas

Recorrido: Se define como la diferencia entre el mayor y menor valor de las variables de
una distribucin:
1 n
R x x =

Recorrido intercuartlico: Se define como la diferencia entre el tercer y el primer cuartil:
3 1 i
R C C =

Desviacin media respecto de la mediana: Es la media aritmtica de los valores absolutos
de las desviaciones de los valores de la variable con respecto de la mediana.
i i
Me
x Men
D
n

=



Varianza: Es la media aritmtica de los cuadrados de las desviaciones de los valores de
la variable con respecto de la media de la distribucin. Responde a la expresin
2
2
( )
i i
x X n
S
n

=



Cuando se trabaja con muestras se suele utilizar la cuasi-varianza, que se obtiene como la
anterior pero en el divisor aparece n-1. Esta medida tiene mejores propiedades asintticas
(muestras grandes) que la varianza.

NOTA: Su problema son las unidades ya que minutos al cuadrado no existen, y si hablamos de
longitud m x m nos dara metros al cuadrado o sea superficie. El valor de la varianza no lo
podemos tomar, pues, como la cantidad que resulta, en las unidades que nos proporcionan los
datos. Para hacernos una idea aproximada, nunca exacta, hay que obtener la raz cuadrada, y
as esta nueva medida, es la desviacin tpica:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Si operamos, podemos obtener la siguiente expresin, que es mucho ms sencilla de operar, y
obtenemos menos error de redondeo:
2 2
2 2
( )
i i i i
x X n x n
S X
n n

= =




Propiedades de la varianza :
1.- Es siempre un valor no negativo, que puede ser igual o distinta de 0. Ser 0 solamente
cuando todos los valores de la variable sean iguales.
2.- Si a todos los valores de la variable se le suma una constante la varianza no se
modifica. Vemoslo:
2
2
( )
i i
x X n
S
n

=


Si a x
i
le sumamos una constante x
i
= x
i
+ k tendremos (sabiendo que ' x x k = + )

2 2 2
2 2
( ) ( ' ') [( ) ( ' )]
i
i i i i i
x X n x X n x k X k n
S S
n n n
+ +
= = = =


3.- Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Vemoslo:
Si a x
i
= x
i
k tendremos (sabiendo que ' X X k = )
2 2 2
2
[ ( )] ( ' ') [( ) ( ' )]
i
i i i i i
k x X n x X n x k X k n
S
N N N

= = = =


2 2 2 2
2 2
( ) ( )

i i i
k x X n k x X
k S
n n

= = =



4.- Si en una distribucin obtenemos una serie de subconjuntos disjuntos, la varianza de la
distribucin inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la
expresin
2
2 i i
x
N S
S
n
=



Siendo N
i
el n de elementos del subconjunto (i) y S
2
i
la varianza del subconjunto (i)


Desviacin tpica: La desviacin tpica o standard, es la raz cuadrada, con signo
positivo, de la varianza. Se representa por S, y tiene la siguiente expresin:

2
2
( )
i i
x X n
S S
N

= + = +




Propiedades de la desviacin tpica

A su vez la desviacin tpica, tambin tiene una serie de propiedades que se deducen
fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada de la varianza):

1.- La desviacin tpica es siempre un valor no negativo S ser siempre 0 por definicin.
Cuando S = 0 X = x
i
(para todo i).
2.- Si a todos los valores de la variable se le suma una misma constante la desviacin
tpica no vara.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
F
1
f
1
Q
1
Me Q
3
f
2
F
2
3.- Si a todos los valores de la variable se multiplican por una misma constante, la
desviacin tpica queda multiplicada por el valor absoluto de dicha constante.


3.4.2.- Grficos con medidas de posicin y dispersin: Diagrama de caja.
Una forma de representar grficamente la distribucin es la utilizacin de medidas para tener
una idea de la distribucin de los valores.

Para construir un Diagrama de caja se utiliza la mediana y los cuartiles. En el grfico siguiente
se indica la forma de hacerlo.









Me es la mediana
Q
1
y Q
3
son el primer y tercer cuartil
f
1
es Q
1
-1,5(Q
3
-Q
1
) o el mnimo (el que sea ms grande)
f
2
es Q
3
+1,5(Q
3
-Q
1
) o el mximo (el que sea ms pequeo)
F
1
es Q
1
-3(Q
3
-Q
1
)
F
2
es Q
3
+3(Q
3
-Q
1
)

Los puntos entre f
1
y F
1
se representan de una forma, lo mismo que los que estn entre f
2
y F
2
Los puntos menores de F
1
o mayores que F
2
se representan de otra.
Ambos tipos de observaciones son lo que se conoce como observaciones atpicas.

Tambin son tiles estos grficos para comparar distribuciones.

A B C D E F G H
2
5
1
0
2
0
5
0
1
0
0


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3.4.3.- Medidas de dispersin relativa. Coeficiente de variacin de
PEARSON.

El problema de las medidas de dispersin absolutas es que normalmente son un indicador que
nos da problemas a la hora de comparar. Comparar muestras de variables que entre s no
tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas de
dispersin relativas. El coeficiente de variacin de PEARSON es una de las ms significativas y
lo podemos definir, como el cociente entre la desviacin tpica y la media aritmtica de
una distribucin.

Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades por tanto V
es adimensional.
x
S
V
X
=

El coeficiente de variacin no se ve influido si multiplicamos todos los valores de la variable por
una constante
x x
k S k S
V V
k X k X
= = =
Propiedad:
Si a todos los valores de la variable se le suma una misma constante el coeficiente de
variacin queda alterado. Es consecuencia inmediata de las propiedades de la media.



3.5.- Distribuciones de Frecuencias Bidimensionales


De forma general, si se estudian sobre una misma poblacin y se miden por las mismas
unidades estadsticas una variable X y una variable Y, se obtienen series estadsticas de las
variables X e Y.
Considerando simultneamente las dos series, se suele decir que estamos ante una variable
estadstica bidimensional.

3.5.1.- Distribuciones estadsticas bidimensionales: tablas de doble
entrada o de contingencia o de correlacin


Tablas de doble entrada o de contingencia

Sea una poblacin estudiada simultneamente segn dos caracteres X e Y; que
representaremos genricamente como (x
i
; y
j
; n
ij
), donde x
i
; y
j
, son dos valores cualesquiera y n
ij

es la frecuencia absoluta conjunta del valor i-simo de X con el j-simo de Y.
Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de
contingencia, la cual podemos representar como sigue:

Y
X

y
1


y
2


..

y
j


..

y
k


n
i .

x
1
n
11
n
12
.. n
1j
.. n
1k
n
1 .

x
2
n
21
n
22
.. n
2j
.. n
2k
n
2 .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
x
i
n
i1
n
i2
.. n
ij
.. n
ik
n
i .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
h
n
h1
n
h2
.. n
hj
.. n
hk
n
h .

n
. j
n
. 1
n
. 2
..

n
. j
.. n
. k
N

En este caso, n
11
nos indica el nmero de veces que aparece x
1
conjuntamente con y
1
;
n
12
, nos indica la frecuencia conjunta de x
1
con y
2
, etc.


3.5.2.- Distribuciones marginales
Dada la distribucin bidimensional (x
i
; y
j
; n
ij
), se llaman distribuciones marginales a cada una
de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una
de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribucin bidimensional;

Y
X

y
1


Y
2


Y
3


y
4


n
i
.

x
1


n
11


n
12


n
13


n
14


n
1
.

x
2


n
21


n
22


n
23


n
24


n
2
.

x
3


n
31


n
32


n
33


n
34


n
3
.

x
4


n
41


n
42


n
43


n
34


n
4
.

n.
j


n.
1


n.
2


n.
3


n.
4


N

podemos obtener las siguientes distribuciones marginales

X

Y

x
i


n
i
.

y
j


n.
j


x
1


n
1
.

y
1


n.
1


x
2


n
2
.

y
2


n.
2


x
3


n
3
.

y
3


n.
3


x
4


n
4
.

y
4


n.
4

n n

Por tanto, podemos decir:


= == = = == =
= == = = == = = == =
N
j
ij j
n
i
j
n n n n
1
.
1
.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3.5.3.- Distribuciones condicionadas. Caso de independencia estadstica
Al poner una restriccin o condicin a una de las dos variables, tenemos las distribuciones
condicionadas.
Se las suele representar como:
X/Y , indica que el valor de X viene condicionado por Y
Y/X indica que el valor de Y viene condicionado por X

Independencia estadstica
Se dice que dos variables X e Y son independientes estadsticamente cuando la frecuencia
relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los
casos, es decir:

.
.

ij j
i
n n
n
n n n
= Para todo i, j

Si esto no se cumple para todos los valores se dice que hay dependencia estadstica.

3.5.4.- Covarianza. Caso de independencia
En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si
existe algn tipo de relacin entre ellas. Esto se ve grficamente con el diagrama de dispersin.
Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relacin:

1 1
( )( )
n k
i j ij
xy
i j
x x y y n
S
n
= =

=



Si S
xy
>0 hay dependencia directa (positiva), es decir a grandes valores de x
corresponden grandes valores de y.
Si S
xy
= 0 las variables estn incorreladas, es decir no hay relacin lineal.
Si S
xy
< 0 hay dependencia inversa o negativa, es decir a grandes valores de x
corresponden grandes valores de y.

Grficamente, indicara la Covarianza, que los datos, se ajustan a una recta, en los
siguientes casos:






PROPIEDADES DE LA COVARIANZA:
1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores
de la variable y les sumamos una constante k, la covarianza no vara.
2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los
valores de la variable y los multiplicamos por una constante k, su covarianza queda
multiplicada por el producto de las constantes.
3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza S
xy
, y
transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva
covarianza se relaciona con la anterior de la forma: S
zt
=acS
xy
.

S
xy
>0 S
xy
<0
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
4.- Otra forma de calcular la Covarianza sera:
i j ij
xy
i j
x y n
S XY
n
=

. Ser la que
utilizaremos en la prctica.

NOTA: El inconveniente de la covarianza, como medida de asociacin es su dependencia de
las unidades. Habr que definir una nueva medida, que no est afectada por los
cambios en las unidades de medida. Esta medida ser el coeficiente de correlacin
lineal rxy, con la siguiente expresin:
xy
xy
x y
S
r
S S
=
siendo S
x
y S
y
las desviaciones tpicas de x e y. Este coeficiente es adimensional y siempre
estar entre 1 y 1.
Si hay relacin lineal positiva, r
xy
>0 y prximo a 1.
Si hay relacin lineal negativa r
xy
<0 y prximo a 1.
Si no hay relacin lineal r
xy
ser prximo a 0.

NOTA: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si
dos variables son independientes su covarianza vale cero. No podemos asegurar lo
mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos
decir que son independientes. Sabemos que linealmente no tienen relacin, pero
podran tener otro tipo de relacin y no ser independientes.



Ejemplo:
A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlacin:

Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58

Los clculos que necesitamos:
169' 6
67' 8
x
y
=
=

7' 2139
8' 7567
x
y
s
s
=
=

175 80 180 82 162 57
169' 6 67' 8 52' 32
10
xy
s
+ + +
= =
L


Ahora se puede calcular el coeficiente de correlacin lineal rxy y el de determinacin lineal R2
52' 32
0'8282
7' 2139 8' 7567
xy
r = =


que nos indica que las variables estn relacionadas.


3.5.5.- Representaciones grficas: diagrama de dispersin o nube de
puntos
Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y.








Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


Para indicar el nmero de coincidencias, o bien ponemos smbolos diferentes, o bien indicamos
entre parntesis, el nmero n
ii
.



3.6.- Distribuciones de probabilidad. Algunas distribuciones de
inters

Una distribucin de probabilidad es, en trminos generales, cualquier regla o mecanismo que
determine la probabilidad de que una variable aleatoria X tome un determinado valor x (v.a.
discreta) o se encuentre comprendida en un rango (v.a.continua). Esta regla o mecanismo
puede ser un grfico, una tabla o una funcin. Toda distribucin de probabilidad, ha de cumplir
estos dos requisitos:

1) x x X P 0 ) ( si la v.a. es discreta o bien



x
x dx x f 0 ) ( si es continua
2)

= = 1 ) ( x X P si es discreta o


=1 ) ( dx x f si es continua

Una funcin de distribucin de probabilidad es la expresin que nos indica cual es la
probabilidad de que la variable aleatoria tome un valor menor o igual que x. En notacin
matemtica

) ( ) ( x X P x F =

La funcin de densidad de probabilidad es la derivada de la funcin de distribucin y nos indica
la probabilidad de que la v.a. X tome un determinado valor x (v.a. discreta). En el caso de una
v.a. continua, la integral definida en un intervalo [a,b] de la funcin de densidad proporciona la
probabilidad de que la v.a. se encuentre en [a,b].


Distribucin binomial
La distribucin binomial es una distribucin de probabilidad discreta del nmero de xitos en
una secuencia de n experimentos independientes, cada uno de los cuales tiene probabilidad
de ocurrir. Su funcin de densidad de probabilidad est dada por:

Nube de puntos
Alturas (cm.)
P
e
s
o
s

(
k
g
.
)
150 155 160 165 170 175 180
57
62
67
72
77
82
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
para , siendo las combinaciones de n en x (n
elementos tomados de x en x)
Por ejemplo, la distribucin binomial se usa para encontrar la probabilidad de sacar 5 caras y 7
cruces en 12 lanzamientos de una moneda. En este caso se tiene que
y resulta:

Su media y su varianza son:




Distribucin hipergeomtrica
Una v.a. X que toma todos los valores comprendidos entre 0 y n, sigue una distribucin
hipergeomtrica cuando:


[ ]
|
|

\
|
|
|

\
|

|
|

\
|
= =
x
N
x n
Nq
x
Np
x P
Xn
Esta funcin proporciona la probabilidad de obtener un nmero determinado de "xitos" en una
muestra, conocidos el tamao de la muestra, n, el nmero de xitos de la poblacin, p, y el
tamao de la poblacin, N. Esta distribucin proporciona la base terica para el muestreo
aleatorio sin reposicin en poblaciones finitas.
Su esperanza (media) y varianza son
np E
Xn
= ) (
y
npq
N
n N
1
2




Distribucin Normal
Se hace necesario, para la teora siguiente, conocer la distribucin normal , ya que tiene gran
importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribucin tiene un
apuntamiento u otro, siempre en comparacin con la distribucin normal.
Tambin es conocida como campana de Gauss, debido a su forma. Esta campana responde
a la representacin grfica de la funcin de densidad de la distribucin:


e
x
x f


2
2
2
) (
2
1
) (

=



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

La importancia de la distribucin normal se debe principalmente a que hay muchas variables
asociadas a fenmenos naturales que siguen el modelo de la normal:
Caractersticas biomtricas
Caracteres fisiolgicos como el efecto de un frmaco
Caracteres sociolgicos como el consumo de cierto producto por un mismo
grupo de individuos
Caracteres psicolgicos como el cociente intelectual
Nivel de ruido en Telecomunicaciones
Errores cometidos al medir ciertas magnitudes
Valores estadsticos muestrales como la media

La representacin grfica de la funcin de densidad de la distribucin normal, de parmetros
y , N(, ), tiene las siguientes caractersticas:

a) es simtrica respecto a la media (parmetro )
b) creciente para x < y decreciente para x >
c) hay un mximo en x =
d) el valor de f(x) se acerca asintticamente a 0 cuando x ->

Cuando = 0 y = 1, la distribucin se conoce con el nombre de normal estndar.
Dada una variable aleatoria normal X, con media y desviacin tpica , si definimos otra
variable aleatoria , entonces la variable aleatoria Z tendr una distribucin
normal estndar de media 0 y desviacin tpica 1. Se dice que se ha tipificado la variable X.


Distribuciones derivadas de la normal

Las distribuciones que se explican a continuacin se obtienen como combinaciones de
funciones de distribucin de variables aleatorias independientes que siguen una distribucin
normal.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Distribucin
2
de Pearson
La variable aleatoria resultante de sumar k variables aleatorias independientes, que siguen una
distribucin normal estndar (media = 0 y desviacin tpica = 1), tiene una distribucin que se
denomina X
2
con k grados de libertad.
La funcin de densidad de la variable as construda viene dada por la siguiente expresin:


donde y f
k
(x) = 0 para .
es la funcin gamma.
La esperanza matemtica es igual a k y la varianza es 2k.

La distribucin X
2
es asimtrica y su propiedad fundamental es que, si sumamos dos variables
aleatorias X
2
independientes de grados de libertad n y m, se obtiene una nueva v.a. X
2
con
n+m grados de libertad.
Esta distribucin tiene muchas aplicaciones en inferencia estadstica, por ejemplo en el test ji-
cuadrado y en la estimacin de varianzas. Tambin est involucrada en el problema de estimar
la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de
una recta de regresin lineal, a travs de su papel en la distribucin t de Student, y participa en
todos los problemas de anlisis de varianza, por su papel en la distribucin F de Snedecor, que
es la distribucin del cociente de dos variables aleatorias de distribucin ji-cuadrado e
independientes.


Cuando k es suficientemente grande se aproxima por la distribucin normal.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
4.- Medidas de desigualdad y concentracin
4.1.- Medidas de forma

Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos o
bloques: medidas de asimetra y medidas de curtosis.

4.1.1.- Asimetra

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, segn
sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de
simetra, decimos que la distribucin es simtrica. Diremos pues, que es simtrica, cuando a
ambos lados de la media aritmtica haya el mismo n de valores de la variable, equidistantes
de dicha media dos a dos, y tales que cada par de valores equidistantes tiene la misma
frecuencia absoluta. En caso contrario, dicha distribucin ser asimtrica o diremos que
presenta asimetra.

Asimtrica a la derecha Asimtrica a la izquierda Simtrica



Para calcular la asimetra, una posibilidad, es utilizar el llamado coeficiente de FISHER que
representaremos como g
1
y responder a la siguiente expresin matemtica:

3
1
3
( )
i i
x x n
g
ns

=



Segn sea el valor de g
1
, diremos que la distribucin es asimtrica a derechas o positiva, a
izquierdas o negativa, o simtrica, o sea:

Si g
1
> 0 la distribucin ser asimtrica positiva o a derechas (desplazada hacia la
derecha).
Si g
1
< 0 la distribucin ser asimtrica negativa o a izquierdas (desplazada hacia la
izquierda).
Si g
1
= 0 la distribucin ser simtrica.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Otra posibilidad de calcular la asimetra, es por medio del coeficiente de PEARSON (Ap), el
cual responde a la siguiente expresin.
p
X Mo
A
S

=
Aunque en la prctica este coeficiente sera ms fcil de calcular que el anterior, casi no lo
utilizaremos ya que solo es cierto cuando la distribucin tiene las siguientes condiciones:
Unimodal
Campaniforme
Moderada o ligeramente asimetrica.
Si Ap > 0 la distribucin ser asimtrica positiva o a derechas (desplazada hacia la
derecha).
Si Ap < 0 la distribucin ser asimtrica negativa o a izquierdas (desplazada hacia la
izquierda).
Si Ap = 0 la distribucin ser simtrica.

NOTA: Otro coeficiente es el coeficiente de asimetra de Bowley, menos utilizado. El cual
esta basado en la posicin de los cuartiles y la mediana, para lo cual los relacionaremos de
acuerdo con la siguiente expresin:
3 1
3 1
2 C C Me
Ab
C C
+
=
+



4.1.2.- Curtosis

Para calcularlo utilizaremos la expresin

4
2
4
( )
3
i i
x X n
g
ns




Si g
2
> 0 la distribucin ser leptocrtica o apuntada
Si g
2
= 0 la distribucin ser mesocrtica o normal
Si g
2
< 0 la distribucin ser platicrtica o menos apuntada que lo normal.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


4.2.- Medidas de concentracin: Indice de Gini y Curva de
Lorenz.

Las medidas de concentracin tratan de poner de relieve el mayor o menor grado de igualdad
en el reparto del total de los valores de la variable, son por tanto indicadores del grado de
distribucin de la variable.

Para este fin, estn concebidos los estudios sobre concentracin.

Denominamos concentracin a la mayor o menor equidad en el reparto de la suma total de los
valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos
extremos:

1.- Concentracin mxima, cuando uno solo percibe el total y los dems nada, en este
caso, nos encontraremos ante un reparto no equitativo:
x
1
= x
2
= x
3
= = x
n-1
= 0 y x
n
.
2.- Concentracin mnima, cuando el conjunto total de valores de la variable esta
repartido por igual, en este caso diremos que estamos ante un reparto equitativo
x
1
= x
2
= x
3
= = x
n-1
= x
n


De las diferentes medidas de concentracin que existen nos vamos a centrar en dos:
Indice de Gini, Coeficiente, por tanto ser un valor numrico.
Curva de Lorenz, grfico, por tanto ser una representacin en ejes coordenados.

4.3..- Clculo e interpretacin de los ndices de concentracin

Sea una distribucin de rentas (x
i,
n
i
) de la que formaremos una tabla con las siguientes
columnas:

1.- Los productos x
i
n
i
, que nos indicarn la renta total percibida por los n
i
rentistas de
renta individual x
i
.
2.- Las frecuencias absolutas acumuladas N
i
.
3.- Los totales acumulados u
i
que se calculan de la siguiente forma:
u
1
= x
1
n
1
u
2
= x
1
n
1
+ x
2
n
2
u
3
= x
1
n
1
+ x
2
n
2
+ x
3
n
3
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

u
n
= x
1
n
1
+ x
2
n
2
+ x
3
n
3
+ + x
n
n
n
Por tanto podemos decir que
1
n
n i i
i
u x n
=
=


4.- La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por
ciento y que representaremos como p
i
y que vendr dada por la siguiente notacin
100
i
i
N
p
n
=
5.- La renta total de todos los rentistas que ser u
n
y que dada en tanto por ciento, la cual
representaremos como q
i
y que responder a la siguiente notacin:
100
i
i
n
u
q
u
=


Por tanto ya podemos confeccionar la tabla que ser la siguiente:
X
i
n
i
x
i
n
i
N
i
u
i

100
n
N
p
i
i
=
100
n
i
i
u
u
q = p
i
- q
i

x
1
n
1
x
1
n
1
N
1
u
1
p
1
q
1
p
1
- q
1

x
2
n
2
x
2
n
2
N
2
u
2
p
2
q
2
p
2
- q
2

... ... ... ... ... ... ... ...
X
n
n
n
x
n
n
n
N
n
u
n
p
n
q
n
p
n
- q
n

Como podemos ver la ltima columna es la diferencia entre las dos penltimas, esta diferencia
seria 0 para la concentracin mnima ya que p
i
= q
i
y por tanto su diferencia seria cero.

Si esto lo representamos grficamente obtendremos la curva de concentracin o curva de
Lorenz .La manera de representarlo ser, en el eje de las X, los valores p
i
en % y en el de las
Y los valores de q
i
en %. Al ser un %, el grfico siempre ser un cuadrado, y la grfica ser una
curva que se unir al cuadrado, por los valores (0,0), y (100,100), y quedar siempre por
debajo de la diagonal.
La manera de interpretarla ser: cuanto ms cerca se site esta curva de la diagonal, menor
concentracin habr, o ms homogeneidad en la distribucin. Cuanto ms se acerque a los
ejes, por la parte inferior del cuadrado, mayor concentracin.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Veamos dos ejemplos, el de la izquierda de poca concentracin y el de la derecha de ms
concentracin.











Analticamente calcularemos el ndice de Gini el cual responde a la siguiente ecuacin
( )
1
1
1
1
k
i i
i
G
k
i
i
p q
I
p


Este ndice tomara los valores de I
G
= 0 cuando p
i
= q
i
concentracin mnima y de I
g
= 1
cuando q
i
= 0
Esto lo veremos mejor con un ejemplo


Frecuencia
marca x
i
n
i u
n
q
i
=(u
i
/u
n
) 100 p
i
= (Ni/n) 100 p
i
- q
i
L
i-1
L
i
x
i
n
i
N
i

0 50 25 23 23 575 575 1,48 8,85 7,37
50 100 75 72 95 5400 5975 15,38 36,54 21,16
100
150
125 62 157 7750 13725 35,33 60,38 25,06
150
200
175 48 205 8400 22125 56,95 78,85 21,90
200
250
225 19 224 4275 26400 67,95 86,15 18,20
250
300
275 8 232 2200 28600 73,62 89,23 15,61
300
350
325 14 246 4550 33150 85,33 94,62 9,29
350
400
375 7 253 2625 35775 92,08 97,31 5,22
400
450
425 5 258 2125 37900 97,55 99,23 1,68
450 475 2 260 950 38850 100,00 100,00 0,00
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
500

260 38850 651,15 125,48

Se pide ndice de concentracin y Curva de Lorenz correspondiente

Indice de concentracin de GINI

( )
1
1
1
1
125, 48
0,193
651,15
k
i i
i
G
k
i
i
p q
I
p

= = =


Observamos que hay poca concentracin por encontrarse cerca del 0.

Curva de Lorenz
La curva la obtenemos cerca de la diagonal, lo que indica que hay poca concentracin:
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
90,0
100,0
0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
5. MODELO DE REGRESIN LINEAL
5.1.- El Mtodo de los Mnimos Cuadrados Ordinarios.

La regresin lineal es una de las tcnicas ms utilizadas en el trabajo economtrico. Mediante
dicha tcnica tratamos de determinar relaciones de dependencia de tipo lineal entre una
variable dependiente o endgena, Y, respecto de una o varias variables explicativas o
endgenas, X. En este epgrafe comenzaremos el estudio del caso de una nica ecuacin de
tipo lineal con una variable dependiente y una independiente, dejando para el prximo epgrafe
la generalizacin del modelo al caso de multiples variables exgenas.

Se trata de estudiar una ecuacin o un modelo del siguiente tipo:

t t t
e bX a Y + + =

Nuestra labor consiste en estimar los parmetros a y b de la ecuacin anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el mtodo de los Mnimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este mtodo debemos hacer
ciertas hiptesis sobre el comportamiento de las variables que integran el modelo.


A la variable e
t
la denominamos trmino de perturbacin o error, y es una variable que recoge
todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la
variable Y y que, sin embargo, no estn reflejados en la variable explicativa X. Estos factores
deben ser poco importantes, es decir, no puede existir ninguna variable explicativa relevante
omitida en el modelo de regresin. De ser as, estaramos incurriendo en lo que se conoce
como un error de especificacin del modelo. El trmino de perturbacin tambin recoge los
posibles errores de medida de la variable dependiente, Y.

De lo anterior se desprende que, a la hora de estimar los parmetros del modelo, resultar de
vital importancia que dicho trmino de error no ejerza ninguna influencia determinante en la
explicacin del comportamiento de la variable dependiente. Por ello, cuando se aplica el
mtodo de mnimos cuadrados ordinarios, se realizan las siguientes hiptesis de
comportamiento sobre el trmino de error:

1. La esperanza matemtica de e
t
es cero, tal que E(e
t
) = 0. Es decir, el comportamiento
del trmino de error no presenta un sesgo sistemtico en ninguna direccin
determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos
que medir la longitud de un determinado objeto, a veces al medir dicha longitud
cometeremos un error de medida por exceso y otras por defecto, pero en media los
errores estarn compensados.

2. La covarianza entre e
i
y e
j
es nula para i j tal que E(e
i
e
j
) = 0. Ello quiere decir que el
error cometido en un momento determinado, i, no debe estar correlacionado con el
error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no
ejercen influencia unos sobre otros. En caso de existir correlacin, nos encontraramos
ante el problema de la autocorrelacin en los residuos, el cual impide realizar una
estimacin por mnimos cuadrados vlida.

3. La matriz de varianzas y covarianzas del trmino de error debe ser escalar tal que
Var(e
i
) =
2
I, i=1,,n, donde I es la matriz unidad. Dado que siempre que medimos
una variable, se produce un cierto error, resulta deseable que los errores que
cometamos en momentos diferentes del tiempo sean similares en cuanta. Esta
condicin es lo que se conoce como supuesto de homocedasticidad que, en caso de
no verificarse, impedira un uso legtimo de la estimacin lineal por mnimos cuadrados.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Estas hiptesis implican que los errores siguen una distribucin Normal de media cero y
varianza constante por lo que, dado su carcter aleatorio, hace que los errores sean por
naturaleza impredecibles.

Asimismo, las variables incluidas en el modelo deben verificar que:

1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante
todo el periodo muestral, es decir, no se produce un cambio importante en la estructura
de comportamiento de Y a lo largo de la muestra considerada.

2. Las variables explicativas, X
i
, son no estocsticas, es decir, son consideradas fijas en
muestreos repetidos.

3. El nmero de variables explicativas, k, siempre debe ser menor que el tamao
muestral, n. Es decir, siempre debemos disponer de ms observaciones que
parmetros haya en el modelo.

Veamos a continuacin, suponiendo que se verifican los supuestos anteriores, como se realiza
la estimacin de los parmetros a y b. Grficamente, el resultado que obtendremos al estimar
dichos parmetros ser una recta que se ajuste lo mximo posible a la nube de puntos definida
por todos los pares de valores muestrales (X
i
,Y
i
), tal y como se puede apreciar en el grfico 5.1.



Grfico 5.1. Nube de puntos o grfico de dispersin con variables relacionadas
linealmente

El trmino de error, e
i,
puede ser entendido, a la vista del grfico anterior, como la distancia
que existe entre el valor observado, Y
i
, y el correspondiente valor estimado, que sera la
imagen de X
i
en el eje de ordenadas. El objetivo de la estimacin por Mnimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
decir
1
:


= = =
= =
n
i
n
i
i i i
n
i
i i
X b a Y Y Y e Min
1 1
2 2
1
2
)

( )

(

1
Los parmetros y variables que llevan encima un smbolo de acento circunflejo (^) indican que son estimadas por lo
que no se corresponden con el valor real de la variable sino que con el calculado por nosotros.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Derivando esta expresin respecto a los coeficientes a y b e igualando a cero obtenemos el
siguientes sistema de ecuaciones:

X b a Y X b na Y
n
i
i
n
i
i

1 1
+ = + =

= =



= = =
+ =
n
i
i
n
i
i
n
i
i i
X b X a X Y
1
2
1 1



donde n representa el tamao muestral y X e Y representan las medias de dichas variables.
Resolviendo dicho sistema de ecuaciones obtenemos la solucin para los parmetros a y b:

X b Y a
X X
Y Y X X
b
n
i
i
n
i
i i
=

=
=
1
2
1
) (
) )( (





Ejemplo 5.1.
Se pretende estimar el siguiente modelo:

t t t
e bX a Y + + =

donde Y
t
es la cantidad vendida anualmente del bien Y en el ao t, y X
t
es el precio medio al
cual se vendi el bien Y durante el ao t. Se dispone de los siguientes datos muestrales:


Ao Y
t
X
t

1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
10
12
13
14
15
17
20
21
22
20
19
18
16
15
15
14
14
13
12
13
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
A partir de estos datos iniciales podemos calcular la siguiente tabla:

Y
t
X
t
) ( Y Y
i
) ( X X
i
) ( Y Y
i
) ( X X
i

2
) ( X X
i

2
) ( Y Y
i

10 19 -6,4 4,1 -26,24 16,81 40,96
12 18 -4,4 3,1 -13,64 9,61 19,36
13 16 -3,4 1,1 -3,74 1,21 11,56
14 15 -2,4 0,1 -0,24 0,01 5,76
15 15 -1,4 0,1 -0,14 0,01 1,96
17 14 0,6 -0,9 -0,54 0,81 0,36
20 14 3,6 -0,9 -3,24 0,81 12,96
21 13 4,6 -1,9 -8,74 3,61 21,16
22 12 5,6 -2,9 -16,24 8,41 31,36
20 13 3,6 -1,9 -6,84 3,61 12,96
Total 164 149 0 0 -79,6 44,9 158,4
Media 16,
4
14,
9
0 0

Aplicando las formulas vistas anteriormente:
82 . 42 ) 9 . 14 7728 . 1 ( 4 . 16
7728 . 1
9 . 44
6 . 79
) (
) )( (
1
2
1
= = =
=

=
=
X b Y a
X X
Y Y X X
b
n
i
i
n
i
i i


de donde la ecuacin de la recta estimada ser
t t t
e X Y + = 7728 . 1 82 . 42

Finalmente, sustituyendo en la expresin anterior los valores de X
t
, podemos obtener los
valores de
i
Y

y el valor de los trminos de error, e


i
:

i
Y


i i i
Y Y e

=
9.13140312
0.86859688
10.9042316
1.09576837
14.4498886
-1.44988864
16.2227171
-2.22271715
16.2227171
-1.22271715
17.9955457
-0.99554566
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
17.9955457
2.00445434
19.7683742
1.23162584
21.5412027
0.45879733
19.7683742
0.23162584



5.2. Bondad de Ajuste

Como ya hemos comentado anteriormente, el modelo de regresin lineal se plantea para
explicar el comportamiento de la variable dependiente Y. Por ello, en dicho estudio ser
interesante analizar la variacin que experimenta esta variable y, dentro de esta variacin,
estudiar qu parte est siendo explicada por el modelo de regresin y qu parte es debida a los
errores o residuos. Para ello, a partir de los trminos de error, se puede obtener la expresin:

e e Y Y Y Y '

'

' + =

En el caso de que exista trmino independiente en el modelo, la descomposicin anterior
quedara como:

SCR SCE SCT + =

donde:
SCT: es la Suma de Cuadrados Totales y representa una medida de la variacin de la
variable dependiente.
SCE es la Suma de Cuadrados Explicados por el modelo de regresin.
SCR es la Suma de Cuadrados de los Errores



Cada una de estas sumas viene dada por las siguientes expresiones:


2
1
2 2
' Y n Y Y n Y Y SCT
n
i
= =

=


2
' ' Y n Y X SCE =

SCE SCT Y X Y Y e SCR
n
i
i
= = =

=
' ' '
1
2






A partir de las expresiones anteriores es posible obtener una medida estadstica acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacin
(R
2
), que se define como:

SCT
SCR
R = 1
2
, 0 R
2
1
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

y en el caso particular de modelo con trmino independiente, como:

SCT
SCE
R =
2
, 0 R
2
1

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo nmero de variables exgenas, ya que la capacidad explicativa de un modelo es mayor
cuanto ms elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto
cuidado a la hora de trabajar con modelos que presenten un R
2
muy cercano a 1 pues, aunque
podra parecer que estamos ante el modelo perfecto, en realidad estara encubriendo ciertos
problemas de ndole estadstica como la multicolinealidad que veremos ms adelante.

Por otra parte, el valor del coeficiente de determinacin aumenta con el nmero de variables
exgenas del modelo por lo que, si los modelos que se comparan tienen distinto nmero de
variables exgenas, no puede establecerse comparacin entre sus R
2
. En este caso debe
emplearse el coeficiente de determinacin corregido
2
R , el cual depura el incremento que
experimenta el coeficiente de determinacin cuando el nmero de variables exgenas es
mayor.


La expresin analtica de la versin corregida es:

( )
2 2
1
1
1
1
1 R
k n
n
n SCT
k n SCR
R

=

cuyo valor tambin oscila entre 0 y 1

5.3. Inferencia acerca de los Estimadores

Hasta el momento hemos visto como la estimacin por Mnimos Cuadrados Ordinarios permite
obtener estimaciones puntuales de los parmetros del modelo. La inferencia acerca de los
mismos permite completar dicha estimacin puntual, mediante la estimacin por intervalos y los
contrastes de hiptesis. Los primeros posibilitan la obtencin de un intervalo dentro del cual,
con un determinado nivel de confianza, oscilar el verdadero valor de un parmetro, mientras
que los segundos nos permitirn extraer consecuencias del modelo, averiguando si existe o no,
evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parmetros.
Veamos la expresin analtica de la estimacin por intervalos y las reglas a seguir para realizar
un contraste de hiptesis.

Intervalos De Confianza
a) Intervalo de confianza para el parmetro
i


Su clculo se realiza mediante la siguiente expresin:

)

( :
k n i
t S IC
i i




donde
i
S


es la desviacin tpica estimada para el coeficiente
i

, que se obtiene de la matriz


de varianzas y covarianzas de los estimadores expresada como:

|
|
|
|
|

\
|
=
2
2 2
2
...
... ... ... ...
...
...
2 1
2 2 1 2
1 2 1 1
K K K
K
K






Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


cuyos estimadores sern:
|
|
|
|
|

\
|
=
2

2

2


2


...
... ... ... ...
...
...
2 1
2 2 1 2
1 2 1 1
K K K
K
K
S S S
S S S
S S S
S






obtenidos a partir de la expresin ( )
1 2

'

= X X S S
e

, donde
k n
e
S
n
i
i
e

=1
2
2
es la estimacin de la
varianza del trmino de error y ( )
1
'

X X la inversa de la matriz de productos cruzados de los
regresores utilizados (ver Tema 7).

b) Intervalo de confianza para la varianza del trmino de error
La expresin del intervalo de confianza para la varianza del trmino de error es:

|
|
|
|

\
|

|
|
|
|

\
|


2
2 2
2
1
2 2
1
2
;
) (
;
) (
:
2 2 2
2


SCR SCR k n S k n S
IC
e e
e


donde representa el nivel de significacin del contraste y generalmente se utiliza un 5% de
significacin.

Contrastes de Hiptesis

a) Contraste individual sobre un parmetro

Formulacin de la hiptesis:
*
0
:
j j
H =
*
1
:
j j
H

Estadstico experimental:
j
S
t
j j

*
exp


=
Estadstico terico: ) 2 / (
k n tco
t t

=

Regla de decisin: Si
tco
t t >
exp
se rechaza la hiptesis nula



b) Contraste de significacin individual

Formulacin de la hiptesis: 0 :
0
=
j
H
0 :
1

j
H
Estadstico experimental:
j
S
t
j

exp

=
Estadstico terico: ) 2 / (
k n tco
t t

=

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Regla de decisin: Si
tco
t t >
exp
se rechaza la hiptesis nula

c) Contrastes para un conjunto de hiptesis lineales

Formulacin de la hiptesis: r R H = :
0


o alternativamente:
q K qk q q
K k
K k
r r r r
r r r r
r r r r H
= + + +
= + + +
= + + +



...
... ..........
...
... :
2 2 1 1
2 2 2 22 1 21
1 1 2 12 1 11 0


Estadstico experimental:
( ) ( ) [ ] ( )
k n
SCR
q
r R R X X R r R
F

' '

1
1
exp


donde q representa el nmero de ecuaciones de la hiptesis nula

Estadstico terico: ( ) , , k n q F F
tco
=

Regla de decisin: Si
tco
F F >
exp
se rechaza la hiptesis nula






d) Contraste de significacin global

Formulacin de la hiptesis: 0 ... :
3 2 0
= = = =
K
H

Estadstico experimental:
( )
k n
R
k
R
k n
SCR
k
SCE
F

=
2
2
exp
1
1 1


Estadstico terico: ( ) , , 1 k n k F F
tco
=

Regla de decisin: Si
tco
F F >
exp
se rechaza la hiptesis nula

5.4. Prediccin en el Modelo de Regresin

Una vez estimado y validado el modelo, una de sus aplicaciones ms importantes consiste en
poder realizar predicciones acerca del valor que tomara la variable endgena en el futuro o
para una unidad extramuestral. Esta prediccin se puede realizar tanto para un valor individual
como para un valor medio, o esperado, de la variable endgena, siendo posible efectuar una
prediccin puntual o por intervalos. Su clculo se realiza mediante las expresiones que figuran
a continuacin:

a) Prediccin individual: se trata de hallar el valor estimado para la variable Y un periodo hacia
delante. En este caso basta con sustituir el valor de las variables exgenas en el modelo en
el siguiente periodo y calcular el nuevo valor de Y.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

b) Intervalo de prediccin. Para hallar un intervalo de prediccin debe utilizarse la siguiente
expresin:

( ) ( )
(

+ + +
+

+ + +

+ + 1
1 '
1 1 1
1 '
1 1
' 1 Y

; ' 1

:
t t k n t t t k n t
X X X X S t X X X X S t Y IC

c) Intervalos de prediccin para un valor medio o esperado. La expresin a utilizar en este
caso ser:


( )
( ) ( )
(

+
+

+ + +

+ +
+
1
1 '
1 1 1
1 '
1 1
' Y

; '

:
1
t t k n t t t k n t Y E
X X X X S t X X X X S t Y IC
t



5.5. Violacin de los Supuestos del Modelo Lineal de Regresin

Como veamos en anteriores epgrafes, el modelo de regresin lineal requiere que se cumplan
las siguientes hiptesis sobre los trminos de error:

Media cero : E(e
i
) = 0 i=1,,n
Varianza constante : Var(e
i
) =
2
I i=1,,n
Residuos incorrelacionados : Cov(e
i
,e
j
) = 0

El incumplimiento de alguna de dichas hiptesis, implica la no aleatoriedad de los residuos y,
por tanto, la existencia de alguna estructura o relacin de dependencia en los residuos que
puede ser estimada, debiendo ser considerada en la especificacin inicial del modelo. Los
principales problemas asociados al incumplimiento de las hiptesis de normalidad de los
residuos son, por un lado, la heteroscedasticidad, cuando la varianza de los mismos no es
constante, y la autocorrelacin o existencia de correlacin entre los diferentes residuos, lo que
violara el supuesto de trminos de error incorrelacionados.

Si se construye una grfica de los resultados de una estimacin mnimo cuadrtica (en abcisas)
frente al valor absoluto de los residuos (en ordenadas), cuando stos ltimos presentan una
distribucin Normal de media cero y varianza constante, N (0,
2
), el resultado obtenido (grfico
6.2.) muestra que el tamao del error es independiente del tamao de la variable estimada, ya
que errores con valor elevado se corresponden con valores bajos y altos de la variable
dependiente estimada; sin embargo, una distribucin de residuos con problemas de
heteroscedasticidad da lugar a una figura como la que puede observarse en el grfico 6.3., en
donde se manifiesta una clara relacin de dependencia entre la variable estimada y el tamao
del error. En este caso los errores de mayor tamao se corresponden con los valores ms altos
de la variable estimada.










Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Residuos aleatorios de media cero y
varianz a constante
0
500
1000
1500
2000
2500
3000
3500
0 200 400 600 800
Re si duos va l or a bsol uto (e )
V
a
r
i
a
b
l
e

e
s
t
i
m
a
d
a

(
y
)

Grfico 5.2. Residuos Homocedsticos


Residuos con heterocedasticidad
0
500
1000
1500
2000
2500
3000
3500
0 200 400 600 800 1000
Residuos valor absoluto (e)
V
a
r
i
a
b
l
e

e
s
t
i
m
a
d
a

(
y
)

Grfico 5.3. Residuos Heteroscedsticos


La representacin grfica de los errores en forma de serie temporal, es decir, poniendo en el
eje de abcisas los errores y en ordenadas el periodo temporal en que estn datados, permite
apreciar la ausencia o presencia de correlacin ya que a los residuos no correlacionados
(grfico 5.4.) le corresponde una representacin grfica en la que no se aprecia pauta temporal
alguna, sucedindose de forma impredecible o aleatoria, mientras que en los residuos con
problemas de autocorrelacin, la pauta temporal es evidente, evidencindose que cada residuo
puede ser predicho en funcin de la sucesin de los errores correspondientes a periodos
temporales pasados (grfico 5.5.)
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Residuos aleatorios con media cero y
varianza constante
-1000
-500
0
500
1000
1940 1950 1960 1970 1980 1990 2000 2010

Grfico 5.4. Residuos sin Autocorrelacin

Residuos con problema de autocorrelacin
-1000
-500
0
500
1000
1940 1950 1960 1970 1980 1990 2000 2010

Grfico 5.5. Residuos con Autocorrelacin

Estos problemas asociados a los errores pueden detectarse con test estadsticos diseados
para ello. A continuacin se describen dichos test y la forma en que debe procederse para
estimar modelos en donde la estimacin mnimo-cuadrtica presenta problemas de este tipo
asociados a los residuos.

Heteroscedasticidad
Decimos que el trmino de error de una estimacin mnimo-cuadrtica presenta
heteroscedasticidad cuando la varianza del mismo es diferente para las distintas
observaciones que integran la muestra, lo que implica que la variabilidad de los errores
mnimo-cuadrticos obtenidos estn relacionados de alguna manera con los datos utilizados en
el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por
presentar alguna relacin de dependencia con alguna de las variables exgenas utilizadas. Las
consecuencias para la estimacin mnimo-cuadrtica son que los estimadores de los
coeficientes seguirn siendo insesgados y lineales pero ya no sern de mnima varianza o
eficientes.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
La deteccin de la heteroscedasticidad se realiza a travs de diversos contrastes paramtricos,
entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de Goldfeld-
Quandt (1965) y el contraste de White (1980), los cuales pasamos a ver a continuacin.

Test de Bartlett
El test de Bartlett se basa en de que la suposicin de que las n observaciones de los datos de
la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de
los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n
1
sera el nmero de observaciones correspondientes al primer
grupo, n
2
el nmero de observaciones asociadas al segundo grupo y, en general, n
G
es el
nmero de observaciones asociadas al grupo g-simo. A cada grupo le corresponde un valor
medio de la variable dependiente y una varianza para este valor medio.

El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitindose la hiptesis de existencia de heteroscedasticidad si
la varianza es significativamente diferente entre los grupos formados.





Los pasos a seguir en la prctica para realizar el test de Bartlett son los siguientes:

1. Se estima la varianza (
2
g
s ) de cada grupo de observaciones, g=1, 2, ..., G mediante la
siguiente expresin:

g
n
g
g i
g
n
y y
s
g

=
1
2
2
) (


2. Se calcula el estadstico S:

|
|

\
|

|
|

\
|
=


=
= =
G
g g
G
g
g g g
G
g
g
n n G
s n s
n
n
n
S
1
1
2 2
1
1 1
) 1 ( 3
1
1
log log


Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (
2
) con G1
grados de libertad. Por lo tanto, se rechazar la hiptesis de igual varianza en todos los grupos
si S es mayor que el valor crtico de la distribucin chi-cuadrado al nivel de significacin
estadstica fijado.


Contraste de Goldfeld-Quant
El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma
de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una
relacin montona creciente o decreciente respecto a alguna variable exgena (que
denominaremos variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
funcin de la variable z.

2. Eliminar c observaciones centrales de la ordenacin anterior, de tal forma que queden
dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
tal forma que (n-c)/2 sea sustancialmente mayor que el nmero de parmetros del
modelo.

3. Estimar dos veces el modelo original mediante Mnimos Cuadrados Ordinarios,
utilizando en cada estimacin una de las submuestras.

4. Denominando SR
1
y SR
2
a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subndice 1 corresponda a la submuestra con la menor
suma) se define el estadstico F:

2
1
SR
SR
F =

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad
entonces, con la ordenacin de la muestra, la varianza del trmino de error ser mayor
hacia el final de la muestra que al principio de la misma. Como el cuadrado de los
residuos est asociado con la varianza de los mismos, entonces SR
2
debera ser
sensiblemente mayor que SR
1
. Por ello, se rechazara la hiptesis nula de
homocedasticidad siempre que el valor del estadstico F excede el valor en tablas de la
distribucin F
(n-c-2k)/2, (n-c-2k)/2
, aceptndose la existencia de heteroscedasticidad en caso
contrario.


Contraste de White
El contraste de White se desarroll tambin para evitar la necesidad de considerar una forma
especfica para la heteroscedasticidad. El contraste se basa en que, bajo la hiptesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:

1 2
) ' (

X X

Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada
por:
) ,..., , ( , ) ' ( ' ) ' (
2 2
2
2
1
1 1
n
diag X X X X X X =



Por tanto, si tomamos la diferencia entre ambas queda:

1 2 1 1
) ' ( ) ' ( ' ) ' (

X X X X X X X X

Por ello, basta con contrastar la hiptesis nula de que todas estas diferencias son iguales a
cero, lo que equivale a contrastar que no hay heteroscedasticidad.

Los pasos a seguir para realizar el contraste de White son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados

2. Realizar una regresin del cuadrado de la serie de residuos obtenidos en el paso
anterior sobre una constante, las variables exgenas del modelo original, sus
cuadrados y los productos cruzados de segundo orden (los productos resultantes de
multiplicar cada variable exgena por cada una de las restantes hasta completar . Es
decir, se trata de estimar por MCO la relacin:


k k k k k k k k k k t
X X X X X X X X X X X X X X e
1 1 2 3 2 1 1 2 1 1
2 2
1 1 1 1
2
... ... ... ... ...

+ + + + + + + + + + + + + + =

3. Al aumentar el tamao muestral, el producto nR
2
(donde n es el nmero de
observaciones y R
2
es el coeficiente de determinacin de la ltima regresin) sigue una
distribucin Chi-cuadrado con p 1 grados de libertad, donde p es el nmero de
variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
existencia de heteroscedasticidad cuando el valor del estadstico supere el valor crtico
de la distribucin Chi-cuadrado al nivel de significacin estadstica fijado.


Correccin de la heteroscedasticidad
Los problemas de heteroscedasticidad se resuelven utilizando una tcnica de estimacin lineal
que recibe el nombre de Mnimos Cuadrados Generalizados (MCG). El uso de Mnimos
Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de
regresin tal que todas ellas quedan divididas por la desviacin tpica de los residuos:

e
i
i
e
ji
ji
e
i
i
e
e k j
X
X
Y
Y

= = = =
* * *
, ,..., 2 , ,

Posteriormente se realiza la regresin mnimo cuadrtica con el modelo transformado:

i ki k i i
i e X X X Y * * ... * *
3 3 2 2 1
*
+ + + + + =

La transformacin descrita del modelo original requiere del conocimiento previo de una
estimacin de la varianza de los residuos. Si no se dispone de una estimacin previa de dicha
varianza, sta puede estimarse mediante la siguiente expresin:

k T
e
n
i
t
MCG

=1
2
2




Autocorrelacin

Decimos que existe autocorrelacin cuando el trmino de error de un modelo economtrico
est correlacionado consigo mismo a travs del tiempo tal que E(e
i
,

e
j
) 0. Ello no significa que
la correlacin entre los errores se d en todos los periodos sino que puede darse tan slo entre
algunos de ellos. En presencia de autocorrelacin, los estimadores mnimo-cuadrticos siguen
siendo insesgados pero no poseen mnima varianza, debindose utilizar en su lugar el mtodo
de Mnimos Cuadrados Generalizados.

La existencia de autocorrelacin en los residuos es fcilmente identificable obteniendo las
funciones de autocorrelacin (acf) y autocorrelacin parcial (acp) de los errores mnimo-
cuadrticos obtenidos en la estimacin. Si dichas funciones corresponden a un ruido blanco, se
constatar la ausencia de correlacin entre los residuos. Sin embargo, el mero examen visual
de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la prctica
economtrica se utilizan diversos contrastes para la autocorrelacin, siendo el ms utilizado el
de Durbin-Watson (1950), que pasamos a ver seguidamente.


Contraste de Durbin-Watson
Si se sospecha que el trmino de error del modelo economtrico tiene una estructura como la
siguiente:

t t t
u e e + =
1


entonces el contraste de Durbin-Watson permite contrastar la hiptesis nula de ausencia de
autocorrelacin. Dicho contraste se basa en el clculo del estadstico d, utilizando para ello los
errores mnimo-cuadrticos resultantes de la estimacin:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

=
=

=
n
i
i
n
i
i i
e
e e
d
1
2
2
2
1

) (


El valor del estadstico d oscila entre 0 y 4, siendo los valores cercanos a 2 los ndicativos de
ausencia de autocorrelacin de primer orden. La interpretacin exacta del test resulta compleja,
ya que los valores crticos apropiados para contrastar la hiptesis nula de no autocorrelacin
requieren del conocimiento de la distribucin de probabilidad bajo el supuesto de cumplimiento
de dicha hiptesis nula, y dicha distribucin depende a su vez de los valores de las variables
explicativas, por lo que habra que calcularla en cada aplicacin. Para facilitar la interpretacin
del test Durbin y Watson derivaron dos distribuciones: d
i
y d
s
, que no dependen de las variables
explicativas y entre las cuales se encuentra la verdadera distribucin de d, de forma que a
partir de un determinado nivel de significacin, se adopta la siguiente regla de decisin:

Si d d
i
rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis
alternativa de autocorrelacin positiva.
Si d 4 d
i
rechazamos la hiptesis nula de no autocorrelacin frente a la
hiptesis alternativa de autocorrelacin negativa.
Si d
s
d 4- d
s
aceptamos la hiptesis nula de no autocorrelacin.

En la siguiente pgina presentamos la tabla con la distribucin desarrollada por Durbin y
Watson para los valores de d
i
y d
s


Ejemplo 5.2.
En el siguiente ejercicio planteamos una regresin lineal entre el consumo de energa elctrica
en Espaa y el PIB a precios de mercado valorado en moneda constante (millones de euros).

Consumo de Energa Elctrica
(miles de TEP)
PIB
(millones de
euros)
198
7
9427 355312
198
8
9876 373412
198
9
10410 391443
199
0
10974 406252
199
1
11372 416582
199
2
11488 420462
199
3
11569 416126
199
4
11999 426041
199
5
12462 437787
199
6
12827 448457
199
7
13331 466513
199
8
14290 486785
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
199
9
15364 507346
200
0
16309 528714
200
1
17282 543746
200
2
17756 554852
Fuente: INE y OCDE

Con los datos de la tabla anterior la estimacin MCO entre el consumo de energa elctrica y el
PIB sera la siguiente:

Y
t
=-6234.4+0.043X
t
+
t


Siendo Y
t
el consumo de energa elctrica y X
t
el PIB en moneda constante.

Los resultados de la estimacin se presentan a continuacin:

Estadsticas de la regresin
Coeficiente de correlacin
mltiple
0.9961969
9
Coeficiente de determinacin R
2
0.9924084
4
R
2
ajustado 0.9918661
9
Error tpico 233.80585
3
Observaciones 16

Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin -6234.453 451.562 -13.806 0.000
PIB-$ 0.043 0.001 42.780 0.000

Como vemos las estadsticas de la regresin realizada son buenas, se obtiene un R
2
muy
elevado, y los parmetros son estadsticamente significativos, ya que el valor terico de la t-
Student es 2.51 al 95% de probabilidad.

No obstante, la representacin grfica de los errores apunta a la posibilidad de un problema de
autocorrelacin entre los residuos:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Grafico de los residuos
-400,0
-300,0
-200,0
-100,0
0,0
100,0
200,0
300,0
400,0
500,0
600,0
1986 1988 1990 1992 1994 1996 1998 2000 2002 2004


Para verificarlo calculamos el estadstico t de Durbin-Watson:

Y* e
t
e
t
2
e
t
-e
t-1
(e
t
-e
t-1
)
2

1987 8933 494.2 354817.8
1988 9705 170.5 373241.5 -323.6 104742.4
1989 10475 -65.2 391508.2 -235.7 55551.6
1990 11107 -133.3 406385.3 -68.2 4645.2
1991 11548 -176.3 416758.3 -43.0 1845.5
1992 11714 -225.9 420687.9 -49.6 2462.8
1993 11529 40.2 416085.8 266.1 70804.9
1994 11952 46.9 425994.1 6.8 45.6
1995 12453 8.5 437778.5 -38.4 1474.9
1996 12909 -81.9 448538.9 -90.5 8185.4
1997 13680 -348.7 466861.7 -266.8 71161.5
1998 14545 -255.1 487040.1 93.6 8769.2
1999 15423 -58.8 507404.8 196.3 38536.6
2000 16335 -25.9 528739.9 32.9 1079.7
2001 16977 305.4 543440.6 331.3 109776.4
2002 17451 305.3 554546.7 -0.1 0.0
Total 0.0 7179830.0 -188.8 479081.7


0667 . 0
0 . 830 , 179 , 7
7 . 081 , 479

) (
1
2
2
2
1
= =

=
=

n
i
i
n
i
i i
e
e e
d

Los valores tericos del estadstico para n=16 observaciones y k=1 variables explicativas, son
d
D
=0.98 y d
U
=1.24. Dado 0.0667 < 0.98 no podemos rechazar la hiptesis de la existencia de
autocorrelacin positiva.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
6. Regresin Lineal Mltiple

6.1.- Introduccin.

Pasamos a continuacin a generalizar el modelo anterior al caso de un modelo con varias
variables exgenas, de tal forma que se trata de determinar la relacin que existe entre la
variable endgena Y y variables exgenas, X
1
,X
2
,, X
k
. Dicho modelo se puede formular
matricialmente de la siguiente manera:

t kt k t t
e X X X e X Y + + + + = + = ...
2 2 1 1
, i=1,2, , n

donde:
|
|
|
|
|

\
|
=
n
Y
Y
Y
Y
...
2
1
es el vector de observaciones de la variable endgena
[ ]
k 2 1
2 1
2 22 21
1 12 11
X ... X X
...
... ... ... ...
...
...
=
|
|
|
|
|

\
|
=
nk n n
k
k
X X X
X X X
X X X
X es la matriz de observaciones de las variables
exgenas
|
|
|
|
|

\
|
=
K

...
2
1
es el vector de coeficientes que pretendemos estimar
|
|
|
|
|

\
|
=
n
e
e
e
e
...
2
1
es el vector de trminos de error
Si en la expresin anterior se considerara que existe trmino independiente, , la matriz X
quedara como:

[ ]
k 3 2
2
2 22
1 12
X ... X X
... 1
... ... ... ...
... 1
... 1
1 =
|
|
|
|
|

\
|
=
nk n
k
k
X X
X X
X X
X

y el modelo quedara as:

i ik k i i i
u X X X Y + + + + + = ...
2 2 1 1
i=1,2,..., n



Suponiendo que se verifican las hiptesis que veamos antes, el problema a resolver
nuevamente es la minimizacin de la suma de los cuadrados de los trminos de error tal que:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


= = =
= =
n
i
n
i
i i i
n
i
i i
X Y Y Y e Min
1 1
2 2
1
2
) ( )

(

Desarrollando dicho cuadrado y derivando respecto a cada
i
obtenemos el siguiente sistema
de ecuaciones expresado en notacin matricial:

Y X X X ' ' =

en donde basta con despejar premultiplicando ambos miembros por la inversa de la matriz
) ' ( X X para obtener la estimacin de los parmetros del modelo tal que:

Y X X X ' ) ' (

1
=

donde:

|
|
|
|
|
|
|
|
|

\
|
=



= = =
= = =
= = =
n
i
ik
n
i
i ik
i
i
n
i
ik i
n
i
i
n
i
i i
n
i
ik i
n
i
i i
n
i
i
X X X X
X X X X X
X X X X X
X X
1
2
1
2
n
1
1 ik
1
2
1
2
2
1
1 2
1
1
1
2 1
1
2
1
... X
..... ... ..... .....
...
...
'
|
|
|
|
|
|
|
|
|

\
|
=

=
=
=
n
i
i ik
n
i
i i
n
i
i i
Y X
Y X
Y X
Y X
1
1
2
1
1
....
`


Si en el modelo existiera trmino independiente, , las matrices anteriores seran:


|
|
|
|
|
|
|
|
|

\
|
=



= = =
= = =
= =
n
i
ik
n
i
i ik
i
ik
n
i
ik i
n
i
i
n
i
i
n
i
ik
n
i
i
X X X
X X X X
X X n
X X
1
2
1
2
n
1
1
1
1
2
1
1
1
1 1
1
... X
..... ... ..... .....
...
...
'
|
|
|
|
|
|
|
|
|

\
|
=

=
=
=
n
i
i ik
n
i
i i
n
i
i
Y X
Y X
Y
Y X
1
1
1
1
....
`


El resultado de multiplicar dichas matrices conduce a la obtencin de la estimacin de los
parmetros
i
del modelo:

|
|
|
|
|

\
|
=
|
|
|
|
|
|
|
|
|

\
|

|
|
|
|
|
|
|
|
|

\
|
= =




=
=
=

= = =
= = =
= = =

k
n
i
i ik
n
i
i i
n
i
i i
n
i
ik
n
i
i ik
i
i
n
i
ik i
n
i
i
n
i
i i
n
i
ik i
n
i
i i
n
i
i
Y X
Y X
Y X
X X X X
X X X X X
X X X X X
Y X X X

...

....
... X
..... ... ..... .....
...
...
' ) ' (
2
1
1
1
2
1
1
1
1
2
1
2
n
1
1 ik
1
2
1
2
2
1
1 2
1
1
1
2 1
1
2
1
1


Cada uno de los coeficientes estimados,
i

, son una estimacin insesgada del verdadero


parmetro del modelo y representa la variacin que experimenta la variable dependiente Y
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
cuando una variable independiente X
i
vara en una unidad y todas las dems permanecen
constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadsticas
muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados,
eficientes y ptimos.


Ejemplo 6.1.

Se dispone de informacin relativa al grado de ocupacin hotelera (Y), nmero medio de
turistas (X
1
), medido en miles de turistas, y estancia media (X
2
), medida en das. Los datos
disponibles son de corte transversal y pertenecen a cada una de las 17 Comunidades
Autnomas. Se quiere conocer como variar el empleo del sector turstico en Cantabria en
funcin del aumento de las estancias medias.

Tabla 6.1.
Viajeros, pernoctaciones y estancia media. Ao 2003
Datos por comunidades autnomas y provincias

Empleo (en
miles)
Nmero de viajeros
(miles)
Estancia
media
Andaluca 28,4 11.902,5 3,1
Aragn 3,6 1.848,0 2,1
Asturias (Principado de) 2,4 1.088,2 2,3
Balears (Illes) 25,9 6.716,0 7,2
Canarias 27,2 4.875,7 7,8
Cantabria 2,0 933,8 2,4
Castilla y Len 6,2 3.647,6 1,7
Castilla-La Mancha 2,8 1.805,1 1,7
Catalua 23,5 10.771,7 3,4
Comunidad Valenciana 13,4 5.579,7 3,9
Extremadura 2,2 1.000,7 1,7
Galicia * 6,3 3.040,5 2,1
Madrid (Comunidad de) 10,7 5.748,9 2,1
Murcia (Regin de) 2,0 882,5 3,0
Navarra (Comunidad Foral
de) 1,1 557,7 2,0
Pas Vasco 3,2 1.540,6 1,9
Rioja (La) 0,7 446,2 1,8
161,8 62.385,5 50,3

Fuente:INE.

El modelo terico a estimar con la informacin disponible es el siguiente:

Y
i
= +
1
X
1i
+
2
X
2i
+ e
i

donde Y es el empleo X
1
el numero de viajeros y X
2
la estancia media.


Obtenemos los sumatorios de los productos cruzados:
Y X
1
X
2

Y 3.193 1.101.921 709
X
1
426.702.792 227.645
X
2
203

En consecuencia:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
( )
|
|
|

\
|
=

203 227642 50
227645 426702792 62386
50 62386 17
'
1
X X ( )
|
|
|

\
|
=
709
1101921
162
'Y X
Vamos a estimar el modelo propuesto por Mnimos Cuadrados Ordinarios. Para ello, basta con
multiplicar las matrices tal que:

|
|
|

\
|
= =

672 , 2
002 , 0
702 , 5
' ) ' (

1
Y X X X


Por lo que el modelo queda como sigue:

i
Y

= = -5,702+0,002X
1i
+ 2,67X
2


donde 002 , 0

1
= indica el efecto, sobre el grado de ocupacin hotelera, de las variaciones
unitarias del nmero medio de turistas y 67 , 2

2
= mide la variacin que se producira en el
grado de ocupacin hotelera si la estancia media aumentara en una unidad. En consecuencia
un aumento de las estancias medias de los turistas en Cantabria de 2,4 das a 3 da significara
un aumento del empleo del sector en 1.607 personas.


6.2. Deficiencias Muestrales: Multicolinealidad y Errores de
Medida
Multicolinealidad
El fenmeno de la multicolinealidad aparece cuando las variables exgenas de un modelo
economtrico estn correlacionadas entre s, lo que tiene consecuencias negativas para la
estimacin por Mnimos Cuadrados Ordinarios pues, en ese caso, en la expresin:

Y X X X ' ) ' (

1
=

la matriz ) ' ( X X no ser invertible por lo que resultar imposible hallar la estimacin de los
parmetros del modelo y la varianza de los mismos. Esto es lo que se conoce por el nombre de
multicolinealidad exacta.

Sin embargo, en la prctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad
aproximada, siendo una de las columnas de la matriz ) ' ( X X , aproximadamente, una
combinacin lineal del resto por lo que ser una matriz aproximadamente singular. Al no ser el
determinante de ) ' ( X X igual a cero, existir inversa y podrn estimarse los parmetros pero
con las siguientes consecuencias:

Por un lado, pequeas variaciones muestrales producidas al incorporar o sustraer
un nmero reducido de observaciones muestrales podran generar importantes
cambios en los parmetros estimados.

Por otro lado, la matriz de covarianzas del estimador MCO, ( )
1 2

'

= X X S S
e

, al
ser un mltiplo de
1
) ' (

X X , ser muy grande por ser el determinante de ) ' ( X X
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
muy pequeo por lo que la estimacin realizada ser muy poco precisa al ser la
desviacin tpica de cada parmetro muy elevada.


Las soluciones propuestas para resolver el problema de la multicolinealidad son variados, si
bien en general resultan poco satisfactorios:

Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable
exgena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.

Tambin se ha sugerido la posibilidad de reformular el modelo, convirtindolo en un
modelo de varias ecuaciones .

Errores de medida
Cuando hablamos de errores en las variables nos referimos a los errores de medicin de las
mismas. Como el alumno ya debera conocer, al medir las relaciones existentes en Economa
recurrimos a variables obtenidas, la mayora de las veces por medio de estimaciones
muestrales, esto es, a travs de un muestreo representativo de las unidades que las generan
(consumo interior de un pas, produccin, etc.) o derivadas de stas (Producto Interior Bruto,
etc.). Estas estimaciones de las variables macroeconmicas van asociadas a un error de
muestreo. Las variables cuantificadas a travs de muestreos representativos, no slo se dan al
trabajar con macromagnitudes, encontrndoselas tambin el investigador en todas las
disciplinas (Marketing, Contabilidad, etc.)
Es importante, por tanto, que al efectuar cualquier tipo de investigacin y anlisis, se conozca
la fuente y origen de los datos, as como sus caractersticas bsicas (error de muestreo, nivel
de confianza, tipo de muestreo, tamaos muestrales, universo de referencia, influencia o sesgo
de la no respuesta, etc.).

El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo
largo del tiempo entre los econmetras, existiendo partidarios de su tratamiento as como
partidarios de no tenerlos en cuenta.

A estos errores se les propuso como los causantes de las discrepancias en los valores
observados y la regresin, fundamentndose en la diferencia existente entre las variables
tericas y las variables empricas.

La aceptacin de la existencia de errores en la medicin de las variables produce un problema
de aceptacin de inconsistencia en las estimaciones mnimo cuadrticas debido a que,
evidentemente, si una variable esta medida con error ste se reflejar en la perturbacin
aleatoria, producindose una correlacin entre ambos componentes de la ecuacin.

En estos casos se utiliza la definicin de variable latente, como la variable real, que no siempre
coincidir con la variable emprica u observada. La variable latente se describe como la
variable observada ms el trmino de error.

Llevado el problema a un modelo concreto, se puede observar como sustituyendo las variables
a analizar (siempre se supone que se desea trabajar con variables reales latentes) por las
variables observadas ms el error de medida, se llega al problema descrito.

Este problema difiere en su magnitud segn si el error se da en las variables explicativas o en
las variables endgenas. As, si slo existen errores en la variable endgena, los estimadores
mnimo cuadrticos sern insesgados y consistentes, pero presentarn un problema de
eficiencia (se incrementa la varianza del error). Si, por el contrario, los errores de medicin se
encuentran en las variables explicativas del modelo, los estimadores mnimo cuadrticos sern
sesgados e inconsistentes.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Otro hecho a tener en cuenta es que habitualmente no se conoce el valor real de la variable, no
conocindose, por tanto, el error cometido en su medicin (estimacin), debiendo el
investigador trabajar con la variable observada, lo que conduce a la necesidad de trabajar con
estimadores consistentes.
Actualmente existe una lnea de investigacin en la cual se trabaja con errores en las variables,
conocida como el anlisis de ecuaciones estructurales los cuales, partiendo del hecho de que
no se miden perfectamente las variables latentes mediante la informacin disponible,
incorporan dentro de su implementacin los errores de medida. Dentro de esta lnea de
investigacin cabe destacar los siguientes mtodos:

Mtodo de Agrupacin de las Observaciones, que consiste en la divisin de los
valores muestrales en grupos o submuestras a partir de los cuales, una vez ordenados
de menor a mayor los valores de la variable explicativa, se calculan las medias
aritmticas, obtenindose de esta manera tanto la pendiente como el trmino
independiente. Los estimadores as obtenidos son consistentes, pero no eficientes.

Mtodo de Variables Instrumentales (VI), consiste en encontrar un instrumento o
variable que, no estando incluida en el modelo, est incorrelacionada con el trmino de
error y correlacionada con la variable explicativa para la que acta de instrumento y
que posee errores de medida. El estimador obtenido de esta manera ser un estimador
consistente, si bien el mtodo plantea ciertas dificultades, ya que es difcil encontrar en
la prctica instrumentos de una variable medida con error que no estn correlacionados
con el trmino de error.

Mtodo de la Regresin Ponderada, en la que se da una ponderacin igual a los
errores de X y de Y. Posteriormente, y una vez fijada la relacin entre las varianzas de
los errores, se procede a estimar X en funcin de Y, y de Y en funcin de X, debiendo
encontrarse la regresin verdadera entre ambas estimaciones.


6.3. Modelo con variables cuantitativas y cualitativas como
regresores.

En un modelo economtrico, se entiende por variable al concepto econmico que queremos
analizar. Normalmente utilizaremos variables cuantitativas, es decir, aquellas cuyos valores
vienen expresados de forma numrica. Sin embargo, tambin existe la posibilidad de incluir en
el modelo economtrico informacin cualitativa, siempre que la informacin cualitativa pueda
expresarse de forma cuantitativa. Dentro de este tipo de variables se distinguen::

Variables proxies: son variables aproximadas a la variables objeto de anlisis. Por
ejemplo, si quiero utilizar una variable que mida el nivel cultural de un pas (variable
cualitativa) puedo utilizar como variable proxy el nmero de bibliotecas existentes en un
pas, que si bien no recoge el concepto exacto que yo quiero medir, si se aproxima al
mismo.

Variables ficticias o dummy: estas variables toman nicamente (en principio) dos
valores arbitrarios segn se de o no cierta cualidad en un fenmeno. Habitualmente a
la variable ficticia se le asigna el valor 1 si ocurre un determinado fenmeno y 0 en
caso contrario. Estas variables, a su vez, pueden ser de dos tipos:

Ficticia de intervalo: Por ejemplo si estoy analizando la variable exportaciones
en Espaa desde 1970 hasta el ao 2000, hay un hecho importante que es la
entrada de Espaa en la Unin Econmica que debo recoger a travs de la
utilizacin de la variable ficticia.

Ficticia de escaln: Por ejemplo si est analizando el crecimiento econmico
de un pas en el que en un ao determinado hubo un acontecimiento
meteorolgico que tuvo una repercusin negativa sobre la economa, al
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
tratarse ste un dato casual (y no equilibrado con el resto de valores que toma
la serie) debo introducir en el modelo este tipo de informacin para que la
tenga en cuenta en la estimacin y cometa un menor error.



Variables definidas por su pertenencia o no a un grupo: si yo tengo una variable
cualitativa que me define la pertenencia o no de un pas a un grupo (por ejemplo renta
alta, media y baja) podr introducir esta variable cualitativa en el modelo codificndola,
es decir expresando sus valores en nmeros de tal forma que puedo asociar cada nivel
de renta con un valor nmero arbitrario (por ejemplo 1: renta baja; 2: renta media; y 3:
renta alta).Se entiende por datos, los diferentes valores que toma una variable. Los
datos pueden corresponder a los valores de una variable en el tiempo (serie temporal),
o avalores para diferentes sujetos en un momento dado (datos de corte transversal).

A continuacin vamos a plantear el ejercicio de la inclusin de una variables cualitativa
dicotmicas dummy en un modelo de regresin lineal.

Supongamos que tenemos el siguiente modelo:

Y
t
=
1
+
2
X
t
+
t
(1) siendo i=1,.,T
1
, T
1+1
T

En el periodo T
1
sabemos de la existencia de un suceso extraordinario que afecta a la
evolucin de la variable dependiente, y queremos lgicamente saber el efecto que causa dicho
suceso extraordinario sobre la ecuacin a estimar.

Por ello habremos de definir las siguientes variables dummy:

>

= =

>

=
1
1
1
1
1
0
) 2 1 ( 2
0
1
1
T t si
T t si
D D
T t si
T t si
D
t t t


La estructura de ambas variables sera la siguiente:

(
(
(
(
(
(
(
(
(

=
(
(
(
(
(
(
(
(
(

=
1
.
.
1
0
.
.
0
2
0
.
.
0
1
.
.
1
1 D D

D1 tienen tantos 1 como observaciones hay hasta T
1
y D2 tiene tantos 1 como observaciones
hay entre T
1
y T.
Analizar el efecto del suceso extraordinario sobre la regresin, puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T o conjuntamente para todo el periodo, bien
sobre el termino constante B1 o sobre la pendiente B2.

Para el anlisis del trmino constante tendremos que plantear los siguientes modelos de
regresin:

Y
t
=
1
+
1
D1
t
+
2
X
t
+
t
(2)
Y
t
=
1
+
2
D2
t
+
2
X
t
+
t
(3)
Y
t
=
1
D1
t
+
2
D2
t
+
2
X
t
+
t
(4)


En este caso :

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Si se utiliza la especificacin del modelo (2) el anlisis de la invariabilidad de
1

exige contrastar la hiptesis nula H
0
:
1
=0

Si se utiliza la especificacin del modelo (3) el anlisis de la invariabilidad de
1

exige contrastar la hiptesis nula H
0
:
2
=0

Si se utiliza la especificacin del modelo (2) el anlisis de la invariabilidad de
1

exige contrastar la hiptesis nula H
0
:
1
=
2


Si queremos analizar la pendiente del modelo, plantearemos las siguientes ecuaciones de
regresin:

Para el anlisis del trmino constante tendremos que plantear los siguientes modelos de
regresin:

Y
t
=
1
+
2
X
t
+
1
(D1
t
X
t
)+
t
(5)
Y
t
=
1
+
2
X
t
+
2
(D2
t
X
t
)+
t
(6)
Y
t
=
1
+
1
(D1
t
X
t
)+ +
2
(D2
t
X
t
)+
t
(7)


En cuyo caso:

Si se utiliza la especificacin del modelo (5) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
1
=0

Si se utiliza la especificacin del modelo (6) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
2
=0

Si se utiliza la especificacin del modelo (7) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
1
=
2


Las variables dummy tambin pueden ser utilizadas para modelizar variables definidas por su
pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relacin que
existe entre la renta disponible y las primas de seguro contratadas por un grupo N de
individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo
Y
i
, y la renta o los ingresos que declara cada uno de ellos R
i
:

Y
i
=
1
+
2
R
i
+
t
(8), siendo i=1..N

De este grupo de individuos conocemos algunas otras caractersticas que pueden ser
transcendentes a la hora de nuestro anlisis, por ejemplo el nivel de estudios. En concreto
disponemos de informacin sobre el nivel de estudios que han completado: sin estudios,
primarios, secundarios o universitarios. Utilizando dicha informacin creamos las siguientes
variables dummy:

= =

=
rios universita estudios tiene i si
rios universita estudios tiene no i si
D D
rios universita estudios tiene no i si
rios universita estudios tiene i si
D
t t t
0
1
) 2 1 ( 2
0
1
1


Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de
ello tienen estudios universitarios, las variables dummy tendran la siguiente estructura:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
(
(
(
(
(
(
(
(
(
(

=
(
(
(
(
(
(
(
(
(
(

=
0
1
1
1
1
0
1
1
0
2
1
0
0
0
0
1
0
0
1
1 D D

Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto
que tiene el nivel de formacin en el gasto en primas de seguros de los diferentes individuos. Al
igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en
el termino independiente (), o en el coeficiente () que relaciona el nivel de renta con el
importe pagado en primas.

El planteamiento del problema para el anlisis del trmino constante sera entonces:

Y
i
=
1
+
1
D1
i
+
2
R
i
+
i
(9)
Y
i
=
1
+
2
D2
i
+
2
R
i
+
i
(10)
Y
i
=
1
D1
i
+
2
D2
i
+
2
R
i
+
i
(11)


En este caso:

Si se utiliza la especificacin del modelo (9) el anlisis de la invariabilidad de
1
exige
contrastar la hiptesis nula H
0
:
1
=0

Si se utiliza la especificacin del modelo (10) el anlisis de la invariabilidad de
1
exige
contrastar la hiptesis nula H
0
:
2
=0

Si se utiliza la especificacin del modelo (11) el anlisis de la invariabilidad de
1
exige
contrastar la hiptesis nula H
0
:
1
=
2


Para el anlisis de la pendiente tendremos que plantear los siguientes modelos de regresin:

Y
i
=
1
+
2
R
i
+
1
(D1
i
R
i
)+
i
(12)
Y
i
=
1
+
2
R
i
+
2
(D2
i
R
i
)+
i
(13)
Y
i
=
1
+
1
(D1
i
R
i
)+ +
2
(D2
i
R
i
)+
i
(14)
En cuyo caso:

Si se utiliza la especificacin del modelo (12) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
1
=0

Si se utiliza la especificacin del modelo (13) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
2
=0

Si se utiliza la especificacin del modelo (14) el anlisis de la invariabilidad de
2
exige
contrastar la hiptesis nula H
0
:
1
=
2






Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
6.4. El empleo de variables cualitativas para el tratamiento de la
estacionalidad

En Economa se suele trabajar con datos anuales, pero en muchos casos y derivado del
carcter predictivo del modelo o bien de la objetiva utilizacin del mismo, se hace necesario
trabajar con series de datos diarias, mensuales o trimestrales, y muchas series en economa
generalmente adolecen del carcter estacional de las mismas (consumos bajos en los meses
de verano, consumos tursticos altos en este periodo, disminucin de las ventas en domingos y
lunes, etc.) Las variables dummy pueden utilizarse para recoger el efecto de la estacionalidad
en el modelo economtrico que estimamos.

Las variables dummy para ajuste estacional son variables artificiales que asumen valores
discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de
los aos 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se
sealo en el apartado 6.3, es un patrn de comportamiento regular de una serie a lo largo de
cada ao, que puede obedecer a factores tales como costumbres, das festivos decretados,
vacaciones de verano, poca de navidad y otros factores similares que ocasionan incrementos
o disminuciones en las magnitudes de ciertas variables, como por ejemplo la produccin, las
ventas, etc.

Si se trabaja con datos trimestrales, cabra pensar en utilizar una variables artificial para cada
trimestre, que definidas como: q
1
, q
2
, q
3
y q
4
; su representacin matricial para dos aos
cualesquiera sera:


(
(
(
(
(
(
(
(
(
(
(
(

=
. 1 . . . .
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 0 0 0 1
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 0 0 0 1
8
7
6
5
4
3
2
1
x
x
x
x
x
x
x
x
X

No obstante hay que tener presente que las columnas correspondientes a las variables
estacionales daran lugar a una combinacin lineal exacta con la constante, lo cual producira
que el determinante de la matriz X'X fuera igual a cero y, por tanto, singular (no invertible), lo
que impide estimar los coeficientes del modelo de regresin.

Para evitar este inconveniente se utilizan nicamente tres de las cuatro variables dummy y por
supuesto la constante. As, si se excluye la variable q
4
en la matriz X, el efecto estadstico de la
variable omitida estara implcitamente recogido con la columna de la constante. En definitiva,
la matriz de variables exgenas estara determinada por las tres dummy: q
1
, q
2,
q
3
y la
constante, y las variables exgenas cuantitativas con lo cual la matriz sera:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
(
(
(
(
(
(
(
(
(
(
(
(

=
. 1 . . .
1 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
1 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
8
7
6
5
4
3
2
1
x
x
x
x
x
x
x
x
X

Otra forma muy utilizada consiste en expresar las variables artificiales estacionales como
desviaciones con respecto a la que corresponde al cuarto trimestre. Estas nuevas variables,
que podran denominarse S
1
, S
2
y S
3
, corresponderan a las siguientes diferencias vectoriales:

S
1
= q
1
- q
4

S
2
= q
2
- q
4

S
3
= q
3
- q
4


Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la
nueva matriz X queda definida de la siguiente manera:

(
(
(
(
(
(
(
(
(
(
(
(



=
. 1 . . .
1 1 1 1
1 1 0 0
1 0 1 0
1 0 0 1
1 1 1 1
1 1 0 0
1 0 1 0
1 0 0 1
8
7
6
5
4
3
2
1
x
x
x
x
x
x
x
x
X

Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han
sido definidos de forma tal que su suma sea cero en cada ao, por lo que este sistema permite
que el efecto estacional se anule en el ao y que se obvie el problema de singularidad de la
matriz.
A manera de ejemplo, considrese un modelo de regresin con cifras trimestrales, en donde la
variable Y depende de la variable X y en el que se incorporan tres variables dummy
trimestrales (S
i
, para todo i = 1, 2, 3) y un trmino de error (). Este modelo estara
representado de la siguiente manera:

Y =
0
+
1
X +
1
S
1
+
2
S
2
+
3
S
3
+

La estimacin se llevara a cabo con las tres variables dummy trimestrales S
1
, S
2
y S
3
. Los
coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto
trimestre.

Es importante mencionar que en el caso de variables con periodicidad mensual, se crearan
nicamente once variables estacionales, en forma equivalente a lo explicado en esta seccin.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Sin embargo, en este caso se presenta el inconveniente de que se requiere gran cantidad de
observaciones.

No obstante hay que tener presente que el uso de las variables estacionales presenta
problemas cuando la estacionalidad de la serie Y es mvil, es decir, cuando vara ao con ao.
En este caso, es difcil que modelos de este tipo capturen de una forma adecuada la
estacionalidad de la variable dependiente.

Ejemplo 6.2.
Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al
consumo de electricidad en GWh en Espaa (Y
t
) y al PIB a precios de mercado en millones de
euros constantes de 1995.
Tabla 7.2
Ao Q
Demanda de Electricidad
(GWh)
PIB (millones de
euros)
1 40919 109275
2 37275 111875
3 38070 111211
1996
4 39981 116096
1 40246 113396
2 39070 115566
3 40464 115744
1997
4 42602 121807
1 43263 118399
2 41535 120735
3 43273 121472
1998
4 45010 126179
1 46551 122424
2 43735 126471
3 45908 126474
1999
4 48160 131977
1 49922 129443
2 46861 133021
3 48208 130743
2000
4 50020 135507
1 52029 134079
2 49314 135900
3 50887 134475
2001
4 53405 139292
1 53928 136892
2 51523 138746
3 51950 137060
2002
4 53762 142154
1 57156 140080
2 53231 141861
3 56516 140207
2003
4 56990 146163
Fuente: Ministerio de Economa



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
En la figura 6.1 se aprecia el carcter estacional de la demanda de energa elctrica:
Consumo de Electricidad (GWh)
30.000
35.000
40.000
45.000
50.000
55.000
60.000
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1996 1997 1998 1999 2000 2001 2002 2003

Fig. 6.1. Consumo Trimestral de Electricidad

Los trimestres de mayor consumo son los terceros y cuartos (otoo e invierno) y los de menor,
el segundo y tercero (primavera y verano).

Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres:

Y
t
= -24,705.2+3,087.2Q1
t
-996.1Q2
t
+1,066.2Q3
t
+0.55X
t
+e
t

con los siguientes resultados:

Estadsticas de la regresin
Coeficiente de correlacin
mltiple
0.9908421
7
Coeficiente de determinacin R
2

0.9817682
1
R
2
ajustado
0.9790672
1
Error tpico
854.45583
1
Observaciones 32


Coeficiente
s Error tpico
Estadstico
t
Intercepci
n
-
24705.2227 1999.20037
-
12.3575521
PIB 0.55474441 0.01492667 37.1646554
Q1 3087.18799 439.461556 7.024933
Q2
-
996.097068 432.19015
-
2.30476578
Q3 1066.19716 434.284718 2.45506488



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Para considerar la hiptesis H
0
:
i
=0, hay que tener presente que el valor terico de la t-Student
correspondiente a una distribucin con (32-5) grados de libertad es 1.69 para =0.05/2 (95% de
confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos
de cero.

6.5. El modelo probabilstico lineal

El modelo de probabilidad lineal se caracteriza por tener la variable endgena y dicotmica o
binaria, es decir toma el valor y=1 si un determinado suceso ocurre y el valor y=0 en caso
contrario. Estos modelos son gran utilizacin en anlisis estadstico en las ciencias sociales,
pero encuentran una difcil aplicacin en el anlisis estadstico en economa debido a las
dificultades de interpretacin econmica de los resultados que ofrecen este tipo de
investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente
investigan es la probabilidad de que se de una opcin (determinada por la variable endgena) o
no se de (valores y=1 o y=0).

A pesar del carcter dicotmico de la variable endgena, el modelo de probabilidad lineal se
especifica de la forma habitual, teniendo presente que las variables exgenas no son
dicotmicas sino continuas:

Y
i
=
1
+
2
X
i
+
i
(1) siendo i=1,N

De acuerdo con la expresin (1) el hecho de que la variable endgena tome valores discretos
(1 0), el trmino de perturbacin
i
, nicamente puede tomar dos valores:

Si Y
i
=0
i
= -
1
-
2
X
i
con probabilidad p.

Si Y
i
=1
i
= 1-
1
-
2
X
i
con probabilidad (1-p).

Dado que la esperanza del trmino de error ha de ser nula E(
i
)=0, entonces se demuestra que
p= 1-
1
-
2
X
i
y (1-p) =
1
+
2
X
i
, lo que permite evaluar la probabilidad de que la variable
endgena tome el valor correspondiente:

Prob (Y
i
=0) = Prob (
i
= -
1
-
2
X
i
) = p = 1-
1
-
2
X
i
.

Prob (Y
i
=1) = Prob (
i
= 1-
1
-
2
X
i
) = (1-p) =
1
+
2
X
i
.

A su vez la varianza del trmino de perturbacin, se calculara a partir de p:

Var(
i
)= (1-
1
-
2
X
i
)(
1
+
2
X
i
)=p*(1-p)

Una problemtica inherente a los estimadores MCO de estos modelos, son los siguientes:

La perturbacin aleatoria (
i
) no sigue una distribucin normal. Es sencillo observar
este hecho ya que el carcter binario (1 o 0) de la variable endgena afecta a la
distribucin de la perturbacin, teniendo esta una distribucin Binomial. Este problema
se aminora cuando se utilizan tamaos de muestra (N) grandes en donde la
distribucin Binomial es susceptible de aproximarse a una Normal.

La perturbacin aleatoria no tiene una varianza constante (es heteroscedstica), lo
cual supone una falta de eficiencia. Para solucionarlo habra que realizar
transformaciones que nos diesen una perturbacin homocedstica, esta
transformacin consiste en multiplicar todas las variables por una cierta cantidad que
elimine el problema de la heteroscedasticidad. Dicha cantidad puede ser:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
) 1 )( (
1
2 1 2 1 i i
X X
) ) ) )
+

siendo los estimaciones MCO del modelo.

El mayor problema que plantean estos modelos es no obstante que las predicciones
realizadas sobre la variable endgena no siempre se encuentran en el intervalo [0,1],
ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos
soluciones, una es tomar como valor 0 todas las estimaciones de la variable
endgena con valores negativos, y 1 cuando estas resulten mayores que 1. La
segunda, solucin es utilizar funciones de distribucin que estn acotadas entre cero y
uno. Segn sea esta distribucin tendremos las distintas versiones de los modelos con
variable dependiente dicotmica. Las ms utilizadas son los modelos Probit y Logit.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
7. NUMEROS INDICES
7.1. Introduccin

El nmero ndice es un valor expresado como porcentaje de una cifra que se toma como
unidad base. Por ejemplo, cuando decimos que el ndice de precios de consumo (base media
de 1992=100) correspondiente al mes de diciembre de 1997 es 122,9, estamos sealando que
los precios en diciembre de 1997 eran un 22,9 ms elevados que los que estaban en vigor a lo
largo de 1992.

Los nmeros ndices no tienen unidades y pueden referirse tanto a precios (ndice de precios
de consumo, ndice de precios percibidos por los agricultores, ndice de precios industriales)
como a cantidades (ndice de produccin industrial).

El nmero ndice es un recurso estadstico para medir diferencias entre grupos de datos.
Un nmero ndice se puede construir de muchas formas distintas. La forma de cada
ndice en particular depender del uso que se le quiera dar.

Los nmeros ndices se elaboran tanto con precios (p) como con cantidades (q). El ao en que
se inicia el clculo de un nmero ndice se denomina ao base y se nombran por p
0
o q
0
segn
tratemos de precios o de cantidades, a los precios o las cantidades de los aos sucesivos los
indicamos por p
t
o q
t
. Si trabajamos con diferentes tipos de mercancas utilizamos los
subndices (i) para referirnos a un tipo de mercanca, de modo que utilizamos los smbolos p
it
o
q
it
para sealar el precio o la cantidad de la mercanca i en el perodo t. Si hubiese N
mercancas el valor total de la cesta de productos durante el periodo t se expresa :



Valor total durante el periodo t = p q
it it
i
N
=

1



Los nmeros ndices se clasifican en ponderados y no ponderados. Los nmeros ndices no
ponderados son los ms sencillos de calcular, pero deben de utilizarse con especial cuidado.
Los nmeros ndices ponderados requieren que definamos previamente a su construccin los
criterios de ponderacin o de peso. Una vez definida una ponderacin debe de respetarse en
los sucesivos perodos. En este apartado estudiaremos los ndices ponderados que son de
aplicacin comn.

A la hora de elaborar un nmero ndice hay que tener presente una serie de propiedades que el
ndice debe de cumplir. Dichas propiedades son:

a) Existencia: Todo nmero ndice ha de tener un valor finito distinto de cero.

b) Identidad: Si se hacen coincidir el perodo base y el perodo actual el valor del ndice tiene
que ser igual a la unidad (o 100 si se elabora en porcentajes).

c) Inversin: El valor del ndice ha de ser invertible al intercambiar los perodos entre s. Es
decir : I
I
t
o
o
t
=
1
el ndice del ao o calculado con la base del ao t, ha de ser igual al inverso
del ndice del ao t calculado en base del ao o.

d) Proporcionalidad: Si en el perodo actual todas las magnitudes experimentan una variacin
proporcional, el nmero ndice tiene que experimentar tambin dicha variacin.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
e) Homogeneidad: Un nmero ndice no puede estar afectado por los cambios que se realicen
en las unidades de medida.


7.2. ndices simples y complejos

Considerado un perodo determinado (por ejemplo, enero de 1990) como perodo base del
ndice, se elabora el ndice simple a partir de la razn de precios (precios relativos) o
cantidades (cantidades relativas) respecto al valor de aqullos en el perodo base multiplicados
por 100:

I
x
x
it
it
io
= 100

En el siguiente perodo el ndice simple sera

I
x
x
i t
i t
io
( )
( )
+
+
= 1
1
100

Al comparar los nmeros ndice I
it
e I
i(t+1)
se ve el incremento del precio de dicho producto en
cuestin. Los ndices simples pueden agregarse de diferentes formas, a dichas
agregaciones se les conoce como ndices complejos. Si suponemos que tenemos N
diferentes productos, obtendramos operando los siguientes ndices complejos:

a) ndice media aritmtica de ndices simples cuando operamos del siguiente modo :

I =
I I I
N
=
I
N
N
i
i
N
1 2 1
+ + +
=

...

b) ndice media geomtrica de ndices simples cuando operamos del siguiente modo :

I = I I I I
N
N i
i
N
N
1 2
1
. .... =
=



c) ndice media armnica de ndices simples cuando operamos del siguiente modo :

I
N
I I I
N
I
N
i i
N
=
+ + +
=
=

1 1 1
1
1 2 1
...



d) ndice media agregativa de ndices simples cuando operamos del siguiente modo :

=
=
=
+ + +
+ + +
=
N
i
io
N
i
it
No o o
Nt t it
x
x
x x x
x x x
I
1
1
2 1
2
...
...


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
7.3. ndices ponderados.

Una ponderacin w
i
es un valor de referencia para cada producto que determina su importancia
relativa en el ndice total. Al ser el ponderador un valor relativo lo normal es que se presente
calculado en tanto por uno, por ciento por mil, expresando as el porcentaje que representa
dicho producto en la cesta de productos que cubre el ndice:

W =
p q
p q
i
i i
i i
n
0 0
0 0



Una vez obtenidos los ponderadores (w
i
) se calculan el ndice media aritmtica ponderada de
ndices simples cuando operamos del siguiente modo :

I =
I w I w I w
w w w
=
I w
w
N N
N
i i
i
N
i
i
N
1 1 2 2
1 2
1
1
+ + +
+ + +
=
=

...
...
.

Ejemplo 7.1.

En la tabla 7.1 aparece la informacin que disponemos sobre una cesta de productos:
2000 2001 2002
Productos Precio venta Unidades Precio venta Unidades Precio venta Unidades
M1 1 3000 1,2 4000 1,4 5500
M2 1,5 4000 1,5 3000 1,6 4500
M3 2 2500 2 2500 2,4 2000
M4 4 2000 4,5 1500 4,5 2000

Calculamos los ndices simples de precios para los productos de la cesta:

Productos 2000 2001 2002
M1 100 120,00 140,00
M2 100 100,00 106,67
M3 100 100,00 120,00
M4 100 112,50 112,50

Los ndices simples para la cesta de productos sern:

Indices
simples
2000 2001 2002
Media
aritmtica
100 108,13 119,79
Media
geomtrica
100 107,79 119,16
Media
armnica
100 107,46 118,55
Media
agregativa
100 108,13 119,79

El ponderador sera tanto por uno el valor del producto, es decir el precio por la cantidad
vendida, en el total vendido:

2000 2001 2002
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
M1 0,13636364 0,2280285 0,26829268
M2 0,27272727 0,21377672 0,25087108
M3 0,22727273 0,23752969 0,16724739
M4 0,36363636 0,32066508 0,31358885

Y el ndice media aritmetica ponderado resultarn ser los siguientes:

Indice
ponderado
2000 2001 2002
Media
aritmtica
100 108,57 119,67


7.4. ndices de precios.

Los ndices de precios se elaboran usualmente utilizando ndices complejos ponderados,
siendo los ms utilizados los denominados ndices de Laspeyres, Paasche y Fisher.

a) ndice de Laspeyres

El ndice de Laspeyres es una media aritmtica ponderada de ndices simples, cuyo criterio de
ponderacin es w
i
=p
io
.q
io
. La frmula que define el ndice de Laspeyres es la siguiente:

Lp=
I w
I
=
p q
p q
i i
i
N
i
i
N
it io
i
N
io io
i
N
=
=
=
=

1
1
1
1


Se suele utilizar este ndice a la hora de elaborar los ndices de precios por cuestiones
prcticas ya que nicamente requiere investigar en el ao base el valor de los ponderadores,
que es la parte mas costosa de la elaboracin del ndice, (tngase en cuenta que en el IPC se
realiza una encuesta de presupuestos familiares en los aos base que requiere una muestra de
20.000 hogares). Una vez determinados los ponderadores el ndice de Laspeyres nicamente
requiere que se investigue en los sucesivos perodos la evolucin de los precios.

b) ndice de Paasche
Tambin es una media aritmtica ponderada de los ndices simples, pero utilizando como
coeficiente ponderador w
i
=p
io
.q
it
; por tanto su definicin queda como:

Pp=
I w
I
=
p q
p q
i i
i
N
i
i
N
it it
i
N
io it
i
N
=
=
=
=

1
1
1
1


La diferencia entre el ndice Paasche y el ndice Laspeyres es que exige calcular las
ponderaciones para cada periodo corriente t, haciendo su clculo estadstico ms laborioso, y
presentando el inconveniente de que slo permite comparar la evolucin del precio de cada
ao con el ao base, dado que las ponderaciones varan de perodo en perodo. Ambas
razones han determinado que este ndice sea ms inusual que el anterior.

c) ndice de Fisher.

El ndice de Fisher es la media geomtrica de los ndices de Laspeyres y Paasche, es decir :

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Ep= Lp Pp .

Como los ndices de precios de consideran un ao determinado para calcular el ponderador
bien sea a partir de q
0
.p
0
, o de q
t
.p
0
, utilizan la denominacin de ao base para referirse al
ao 0 a partir del que se calcula el ponderador w
i
.

7.5. Enlaces y cambios de base.

Uno de los problemas que tienen los ndices ponderados como el ndice de Laspeyres es que
pierden representatividad a medida que los datos se alejan del periodo base. Tngase presente
que, por ejemplo, el IPC que el INE calcul en 1991 utiliz los ponderadores obtenidos en la
Encuesta de Presupuestos Familiares de 1983 que, a su vez, reflejaba la estructura media de
consumo de los espaoles en aquel ao. El tiempo transcurrido entre 1983 y 1991 era lo
suficientemente dilatado para que se hubieran producido cambios en los hbitos de consumo y
en consecuencia el INE procedi a elaborar una nueva Encuesta de Presupuesto Familiares (la
de 1992), cuya estructura de consumo cesta de compra es la que actualmente se utiliza
como base para obtener el IPC.

La decisin que tom el INE de realizar un nuevo IPC con la estructura de consumo resultante
de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del
IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los
ndices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori
entre s. El procedimiento a travs del cual hacemos comparables nmeros ndices obtenidos
con bases distintas es lo que se denomina Enlace. El enlace de ndices se basa en la
propiedad de inversin de los nmeros ndices.

Supongamos que queremos efectuar un cambio de base desde un ndice construido con base
1992, a otro en base 2001.

Sea I
t
92
el ndice construido en base 1992 e I
t
01
el ndice construido con la base 2001, entonces:
01
01
01
92
92
01
92
01
01 91
01
.
I
I
I
I
I I
= I
t t
t
=

En el caso del IPC espaol el INE publica el valor del cociente
01
01
01
92
I
I
que denomina coeficiente
legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 2001 y el
construido con la base 1992 para Espaa y Cantabria, figuran en la tabla siguiente:

Tabla n 7.2
Indice de Precios de Consumo. Base 2001. Coeficientes de Enlace
IPC. Base 2001. Coeficientes de Enlace.
Comunidades Autnomas. Grupos COICOP


Nacional Cantabria
General. Base 2001 0,740268 0,746689
Alimentos Y Bebidas No Alcohlicas 0,780515 0,769814
Bebidas Alcohlicas Y Tabaco 0,546851 0,528061
Vestido Y Calzado 0,843242 0,858994
Vivienda 0,701667 0,726533
Menaje 0,780330 0,859012
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Medicina 0,766029 0,876321
Transporte 0,712176 0,708012
Comunicaciones 0,825968 0,820249
Ocio Y Cultura 0,753008 0,719466
Enseanza 0,575517 0,561891
Hoteles, Cafs Y Restaurantes 0,681374 0,667208
Otros Bienes Y Servicios 0,702260 0,699994

Fuente: Instituto Nacional de Estadstica


Las series enlazadas se calculan multiplicando cada uno de los ndices en base 92 por este
coeficiente.

No obstante, hay que tener presente que estos coeficientes mantienen las tasas de variacin
publicadas hasta diciembre de 2001 de los ndices en base 1992 pero no permiten calcular
tasas de variacin entre periodos de distintas bases, ya que no solucionan la ruptura
ocasionada por la inclusin de los precios rebajados.

Por lo tanto, las tasas de variacin entre periodos de distintas bases obtenidas mediante los
ndices en base 1992 enlazados con el coeficiente de enlace legal y los ndices en base 2001
no estaran bien calculadas.


Ejemplo 7.2

A continuacin vamos ha realizar un ejercicio de enlace de diferentes bases del ndice de
precios percibidos por los agricultores.

En la Tabla n 7.3 tenemos una tabla con las series 1996-2001 del ndice de Precios Percibidos
por la Agricultores en Espaa del producto Leche, base 1995; y la serie 2000-2006 de dicho
ndice en base 2000. El enlace de la serie 1996-2011 a la base 2000 se realiza conforme a la
regla antes expuesta:
Tabla n 7.3
Indice de precios percibidos por los agricultores en Espaa. Precio de la leche.

Aos
Precios de
la leche
(Base
1995)
Precios
Leche
(Base
2000)
Precios
Leche
(Enlace
1996-2000)
1996 99,96 96,74
1997 101,70 98,42
1998 105,21 101,82
1999 104,02 100,67
2000 103,33 100,00 100,00
2001 114,62 110,23 110,23
2002 104,16 104,16
2003 104,20 104,20
2004 110,01 110,01
2005 109,52 109,52
2006 107,54 107,54


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
7.6. Deflactacin de series econmicas.

La utilidad ms importante que tienen los ndices de precios, aparte de describir el
comportamiento de los precios durante un perodo concreto, es la de deflactar series
cronolgicas o temporales valoradas en pesetas. Deflactar es eliminar el componente de
subida de precios que es inherente a toda serie temporal que viene referida a un valor
monetario (ventas de una empresa, los depsitos y crditos bancarios, el PIB, etc...). Las
ventas de una empresa, por ejemplo, se incrementan de un ao a otro ( de un mes a otro),
bien por haber aumentado el nmero de pedidos que realizan los clientes o bien por que la
empresa o el mercado haya decidido una subida en los precios de los artculos pedidos. Si
nosotros valoramos el nmero de pedidos del ao actual utilizando los precios vigentes el
ejercicio pasado dispondramos de un elemento comparativo con respecto al ejercicio anterior
que nos sealara de manera inequvoca si nuestro volumen de negocio se ha incrementado
con independencia de lo ocurrido con los precios

En consecuencia, cuando obtenemos el valor de la serie utilizando como referencia para su
valoracin el precio que rige en un perodo determinado (un ao en concreto), realizamos una
valoracin a precios constantes en tanto que dicha serie valorada a los precios vigentes en
cada perodo nos da su valor a precios corrientes.

En la prctica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza
dividiendo la primera por un ndice de precios adecuado. Este procedimiento recibe el nombre
de deflactacin y al ndice de precios elegido se le denomina deflactor.

No obstante, hay que sealar que, cuando utilizamos como deflactor un ndice de Laspeyres:

v
l
p . q
p . q
p . q
t
p
it it
it io
io io
= =

p q
p q
p q
io io
it it
it io
.
.
.


No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de
Paasche cuando es utilizado como del

v
l
p . q
p . q
p . q
t
p
it it
it it
io it
= =

p q io io .

En el cuadro siguiente se ha deflactado la serie de salarios ordinarios en la construccin de
Cantabria por trabajador en el periodo 2002 a 2006 utilizando el ndice General de Precios al
Consumo de Cantabria de 2002 a 2006 (media trimestral) en base 2006:

Tabla n 7.2

Ao Trimestre
Coste
salarial
ordinario IPC
Coste
salarial en
euros del
2006
2002 1 1105,61 87,04 1270,30
2002 2 1163,12 88,84 1309,25
2002 3 1197,78 88,80 1348,92
2002 4 1203,04 90,16 1334,33
2003 1 1180,87 90,05 1311,40
2003 2 1216,98 91,06 1336,41
2003 3 1200,49 90,96 1319,81
2003 4 1226,42 92,44 1326,78
2004 1 1215,01 91,77 1323,91
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
2004 2 1265,44 93,79 1349,28
2004 3 1247,24 93,66 1331,68
2004 4 1280,62 95,30 1343,79
2005 1 1288,86 94,52 1363,55
2005 2 1301,36 96,58 1347,48
2005 3 1295,75 96,89 1337,41
2005 4 1320,46 98,43 1341,50
2006 1 1359,89 98,31 1383,21
2006 2 1368,91 100,43 1363,00
2006 3 1386,91 100,31 1382,57
2006 4 1362,92 100,94 1350,25
2007 1 1355,71 100,52 1348,71
2007 2 1389,98 102,66 1353,99
2007 3 1428,71 102,76 1390,35
Fuente : ICANE.

7.7 Principales ndices de precios espaoles.

A continuacin exponemos las principales carctersticas de los ndices de precios espaoles:

ndice de Precios al Consumo (IPC)

El IPC es una medida estadstica de la evolucin del conjunto de precios de los bienes y servicios
que consume la poblacin residente en viviendas familiares en Espaa.

El consumo se define en el IPC a travs de todos los gastos que los hogares dedican al consumo;
se excluyen, por tanto, las inversiones que realizan los hogares. Adems, slo se tienen en cuenta
los gastos reales que realiza la poblacin, lo que implica la exclusin de cualquier operacin de
gasto imputada (autoconsumo, autosuministro, alquiler imputado, salario en especie o consumos
subvencionados, como los sanitarios o educacionales).

La cesta de la compra para elaborar el IPC se obtena de una encuesta de gastos de consumo de
los hogares.

Tradicionalmente, el IPC cambiaba de base cada ocho o nueve aos; esto era as porque la fuente
utilizada para la elaboracin de las ponderaciones y de la cesta de la compra era la Encuesta
Bsica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base
del IPC. De hecho hasta 1997 convivan dos encuestas de presupuestos familiares: una continua,
con periodicidad trimestral, y una bsica, que se realizaba cada ocho o nueve aos. A partir de ese
ao ambas encuestas fueron sustituidas por una sola, cuya periodicidad es trimestral y la
informacin que proporciona est ms cercana a la encuesta bsica, en cuanto al nivel de
desagregacin. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos
Familiares (ECPF), proporciona la informacin necesaria para realizar un cambio de sistema del
IPC, la actualizacin de las ponderaciones as como la renovacin de la composicin de la cesta
de la compra. Pero, adems, posibilita la actualizacin permanente de dichas ponderaciones as
como la revisin de la cesta de la compra.

Para calcular el IPC en las bases anteriores al 2001 correspondiente al perodo t se utiliza el ndice
de Laspeyres. La ponderacin de un artculo (wi=pio.qio) representa la proporcin del gasto
efectuado en ese artculo respecto al gasto total efectuado por los hogares. La estructura de
ponderaciones permaneca fija durante el perodo de vigencia del Sistema de ndices de Precios
de Consumo.

La nueva frmula de clculo del IPC Base 2001 se denomina Laspeyres encadenado, el perodo
de referencia de los precios vara cada ao. Durante el ao 2002 coincide con el ao base y para
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
aos posteriores al 2002 ser el mes de diciembre del ao inmediatamente anterior al
considerado.

El principal inconveniente de estos ndices es la falta de aditividad, no permite obtener el indice
medio a partir de la suma ponderada de los indices que lo componen. El ndice general no se
puede obtener como media ponderada de los doce grupos.

El nmero total de artculos que componen la cesta de la compra del IPC base 2001 es 484. La
estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases.

Tambin, a diferencia de las bases anteriores, los precios medios utilizados en el clculo del ndice
se obtienen a partir de medias geomtricas. La entrada en vigor del Sistema 2001 supuso tambin
una ruptura en las series de ndices debido a la inclusin de los precios rebajados. Esta ruptura
afecta al clculo de las tasas de variacin cuando los ndices de los perodos de tiempo
seleccionados estn medidos en bases diferentes; cuando esto ocurre, la frmula general para
calcular las tasas de variacin debe ser modificada.

El IPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador
estadstico cuyo objetivo es proporcionar una medida comn de la inflacin que permita realizar
comparaciones internacionales y examinar, as, el cumplimiento que en esta materia exige el
Tratado de Maastricht para la entrada en la Unin Monetaria Europea.

La base legal del proceso de armonizacin del IPC es el Reglamento del Consejo n 2494/95 de
23 de octubre de 1995 que establece las directrices para la obtencin de ndices comparables, as
como un calendario de obligado cumplimiento para todos los pases de la Unin Europea.

La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios mdicos y la
Enseanza reglada. Diferencias menores se dan en la ponderacin de los Seguros, para los que
slo se consideran los gastos ligados a las primas netas, los Automviles, de los cuales se elimina
los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos
farmacuticos, que slo incluyen los no subvencionados.

El IPCA est formado por doce grandes grupos. Para definir estos grupos se ha utilizado la
COICOP.

ndice de Precios Industriales (IPRI)

El IPRI es un indicador coyuntural que mide la evolucin mensual de los precios de los productos
industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercializacin,
es decir, mide la produccin a precios de venta a salida de fbrica obtenidos por los
establecimientos industriales en las transacciones que estos efectan, excluyendo los gastos de
transporte y comercializacin y el IVA facturado.

Se elabora a partir de una encuesta de periodicidad mensual, que investiga ms de 8.000
establecimientos industriales. La cobertura del ndice se extiende a todos los sectores industriales
excluida la construccin.

El IPRI investiga los precios de las ramas de actividad industriales al nivel de 4 dgitos de la CNAE
(subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de
productos. Estos productos, a su vez, se desagregan en variedades (desagregacin de productos
con caractersticas fsicas suficientemente homogneas) y subvariedades (modelos concretos de
una variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500
variedades y alrededor de 26.000 datos elementales o datos primarios de precios.

Se calcula como un ndice de Laspeyres, que se pondera de acuerdo a la importancia de las
ramas de actividad y de los productos en 2000, segn la informacin que suministra la Encuesta
Industrial, de la siguiente forma:

Al nivel de rama de actividad (divisin, agrupacin, grupo y subgrupo de la
CNAE) segn el valor de la cifra de negocios.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Al nivel de productos, segn el valor de la produccin.

En el nuevo sistema del ndice de precios industriales se ofrece informacin para las distintas
Comunidades Autnomas.

ndice de Coste de la Construccin.

El ndice de Coste de la Construccin ndice de Consumos intermedios de la
construccin se elabora a partir de datos procedentes de la Encuesta de la Estructura de la
Construccin, y del IPRI.

El ndice de Coste de la Construccin tiene como base el ao 1990. Es un ndice de Laspeyres
que aplica la estructura de ponderaciones de materiales y consumos diversos" obtenida a partir
de la Encuesta de Estructura de la Construccin a la evolucin de los precios industriales del IPRI,
base 1990. El ndice de Coste a la Construccin se desagrega en tres ndices de precios de los
consumos de construccin segn la tipologa de las obras.


ndices de precios percibidos por el agricultor.


El Ministerio de Agricultura y Pesca elabora desde 1953 la estadstica ndice de Precios Percibidos
por el agricultor, que con periodicidad mensual suministra informacin sobre los precios medios
nacionales de los productos agrarios, e ndices de precios agregados para la totalidad de los
productos agrarios y para los grupos ms significativos.

Los ndices de precios agregados son ndices de Laspeyres que necesitan de ponderadores
referidos a un ao base para formar los nmeros ndices compuestos de diferentes
especificaciones de productos. La base actual con la que se elabora el ndice es la de 1990, otros
cambios de base tuvieron lugar en 1965, 1976 y 1985.

La metodologa de elaboracin del ndice de precios percibidos por el agricultor se apoya en un
anlisis de la estructura productiva y comercial de la produccin agraria en el ao base, que da
lugar a una definicin de las especificaciones de productos a considerar, la distribucin geogrfica
(reas territoriales) y frecuencia mensual de las tomas de datos necesarios. Ello origina una
estructura de ponderaciones para cada rea geogrfica que se utiliza para la elaboracin de los
precios mensuales, y una ponderacin para cada especificacin que se utiliza para elaborar los
ndices agregados.

En definitiva, para cada ao base se confecciona una matriz en donde figuran las cantidades
comercializadas en el perodo base en cada rea territorial (provincia) y mes, que tiene en cuenta
la estacionalidad de la produccin y la diversidad agronmica de las reas. De dicha matriz se
obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales.

El precio percibido se define como el precio de mercado, sin incluir gastos de transporte,
adecuacin del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en
el conjunto de las reas, lo que da lugar a XX especificaciones de productos.

ndices de precios hoteleros.

El Indice de Precios Hoteleros (IPH) es una medida estadstica de la evolucin mensual del
conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes.

Para su obtencin se utiliza la Encuesta de Ocupacin en Alojamientos Tursticos:
Establecimientos Hoteleros (EOH) con la informacin que se obtiene, mensualmente, de unos
8.500 establecimientos a los que se les enva un cuestionario. A partir de esta encuesta se
obtiene informacin sobre la ocupacin hotelera (viajeros entrados, pernoctaciones, grado de
ocupacin etc.), su estructura (plazas, personal, etc.) y dems variables de inters, con una
amplia desagregacin geogrfica y por categoras de los establecimientos. En el cuestionario,
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
se les pide, entre otras variables, los precios aplicados a distintos tipos de clientes por una
habitacin doble con bao. Esos precios se desglosan en las siguientes tarifas:
Tarifa normal.
Tarifa fin de semana.
Tarifa especial a tour-operador.
Tarifa especial a empresas.
Tarifa especial a grupos.

El ndice de precios se calcula a partir de:
t
t
sT
t
sT
w I I

=
=
5
1
100

donde y ,
0
t
ST
t sT
t
M
M
I = y

=
=
5
1
0 0
0 0
t
t t
t t
t
B M
B M
w
que representa el porcentaje de ingresos percibidos por los hoteleros por las habitaciones
ocupadas en una tarifa concreta sobre los ingresos obtenidos por el total de tarifas; y siendo,
M
t
sT
: precio de la habitacin doble con bao (sin incluir IVA ni desayuno) en la tarifa t, en el mes
s del ao T. B
t
0
: nmero total de habitaciones ocupadas a las que se les aplic la tarifa t en el
ao base.
M
t
0
: precio medio, en el ao base 2001, de la habitacin doble con bao (sin incluir IVA ni
desayuno) en la tarifa t.

En la encuesta se solicita a los hoteleros que indiquen el porcentaje de aplicacin de cada una
de las tarifas sobre el total de habitaciones ocupadas. De ah se extrae la informacin para
calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del ao base. La
suma de esa variable a lo largo de los doce meses del ao 2001 (B
t
0
) es la que se utiliza en el
clculo de las ponderaciones (W
t
).
Las ponderaciones se calculan a nivel de provincia, categora del establecimiento y tarifa, y
posteriormente se agregan por tarifas, categoras o comunidades autnomas segn el ndice
agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se
actualiza la base, lo cual est previsto realizar anualmente

A diferencia del ndice de Precios de Consumo, el IPH es un indicador desde la ptica de la
oferta, ya que mide la evolucin de los precios que efectivamente perciben los hoteleros en
aplicacin de las distintas tarifas por las que facturan. Por tanto, no mide la evolucin de los
precios que pagan los hogares ni la tarifa oficial que aplican los hoteleros, sino el
comportamiento de los precios facturados por los hoteleros a distinto tipo de clientes (hogares,
empresas, agencias de viaje y tour-operadores).
Se calculan y difunden ndices para las diecisiete comunidades autnomas, Ceuta y Melilla;
adems, tambin se publican ndices para las distintas tarifas a nivel nacional.



ndices de costes laborales.

El Indice de Costes Laborales es una operacin estadstica continua, de carcter coyuntural y
periodicidad trimestral, que tiene por objetivos proporcionar informacin sobre:
- El Coste Laboral medio por trabajador y mes.
- El Coste Laboral medio por hora efectiva de trabajo.
- El tiempo trabajado y no trabajado.

Se obtienen resultados nacionales y por comunidades autnomas. La encuesta se extiende al
conjunto de la industria, la construccin y los servicios, en concreto se investigan a aquellas
cuentas de cotizacin con actividades econmicas comprendidas en las secciones de la C a la
K y de la M a la O de la Clasificacin Nacional de Actividades Econmicas 1993 (CNAE-93). En
total se investigan 54 divisiones de la CNAE-93. Quedan excluidas, la Administracin Pblica,
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Defensa y Seguridad Social Obligatoria (Seccin L de la CNAE-93), el servicio domstico
(Seccin P) y los organismos extraterritoriales (Seccin Q).

Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de
cotizacin por los que haya existido obligacin de cotizar durante al menos un da en el mes de
referencia.

A efectos del clculo del coste laboral por trabajador, aquellos que han estado de alta en la
cuenta de cotizacin durante un periodo de tiempo inferior al mes se contabilizan como la parte
proporcional al tiempo que han estado de alta en dicha cuenta.

Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican
segn su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran
trabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la
actividad de que se trate. Son trabajadores a tiempo parcial, y as debe quedar reflejado en su
contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de
la empresa en la actividad de que se trate o, en caso de no existir sta, inferior a la mxima
legal establecida.

En la encuesta se define como el coste total en que incurre el empleador por la utilizacin de
factor trabajo. Incluye el Coste Salarial ms los Otros Costes. El coste salarial comprende todas
las remuneraciones, tanto en metlico como en especie, realizadas a los trabajadores por la
prestacin profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo
efectivo, cualquiera que sea la forma de remuneracin, o los periodos de descanso
computables como de trabajo. El Coste Salarial incluye por tanto el salario base, complementos
salariales, pagos por horas extraordinarias, pagos extraordinarios y pagos atrasados.
Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el
trabajador no por el desarrollo de su actividad laboral sino como compensacin de gastos
ocasionados por la ejecucin del trabajo o para cubrir necesidades o situaciones de inactividad
no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social.


La Jornada Laboral se define como el nmero de horas que cada trabajador dedica a
desempear su actividad laboral. Se distinguen los siguientes conceptos:
- Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal,
contrato individual o convenio colectivo entre el trabajador y la empresa.
- Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de
trabajo como en jornada extraordinaria, incluyendo las horas perdidas en lugar de
trabajo, que tienen la consideracin de tiempo efectivo en virtud de la normativa
vigente.Se obtienen como la suma de las horas pactadas ms las horas extras y/o
complementarias menos las horas no trabajadas excepto las horas perdidas en el
lugar de trabajo.
- Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por
cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopcin
y motivos personales, descansos como compensacin por horas extraordinarias,
horas de representacin sindical, cumplimiento de un deber inexcusable, asistencia
a exmenes y visitas mdicas, das u horas no trabajadas por razones tcnicas,
organizativas o de produccin, horas perdidas en el lugar de trabajo, conflictividad
laboral, absentismo, guarda legal, cierre patronal, ).

En la Encuesta de Coste Laboral se calculan ndices simples de variacin de los Costes
Laborales medios. Para ello, se toma como perodo base el ao 2000, de forma que los Indices
de Costes de 2000 se hacen 100. Un ndice cualquiera se calcula mediante la frmula:
o
t
t
C
C
I =
Donde C
0
es el coste medio en el perodo base 2000 y C
t
es el coste medio en el trimestre
actual.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
8. SERIES TEMPORALES

8.1. Introduccin a las series temporales

El presente epgrafe pretende ser una breve introduccin al estudio de las series temporales,
las cuales poseen una gran importancia en el campo de la Economa dada la abundancia de
este tipo de observaciones; de hecho, las series temporales constituyen la mayor parte del
material estadstico con el que trabajan los economistas.

Pero, qu es una serie temporal? Por definicin, una serie temporal es una sucesin de
observaciones de una variable realizadas a intervalos regulares de tiempo. Segn realicemos
la medida de la variable considerada podemos distinguir distintos tipos de series temporales:

Discretas o Continuas, en base al intervalo de tiempo considerado para su medicin.

Flujo o Stock. En Economa, se dice que una serie de datos es de tipo flujo si est
referida a un perodo determinado de tiempo (un da, un mes, un ao, etc.). Por su
parte, se dice que una serie de datos es de tipo stock si est referida a una fecha
determinada (por ejemplo, el 31 de Diciembre de cada ao). Un ejemplo de datos de
tipo flujo seran las ventas de una empresa ya que stas tendrn un valor distinto si se
obtiene el dato al cabo de una semana, un mes un ao; por su parte, la cotizacin de
cierre de las acciones de esa misma empresa sera una variable de tipo stock, ya que
slo puede ser registrado a una fecha y hora determinadas. Obsrvese que existen
relacin entre ambos tipos de variables, pues la cotizacin al cierre de las acciones no
es ms que el precio de cierre del da anterior ms, o menos, el flujo de precios de la
sesin considerada.

Dependiendo de la unidad de medida, podemos encontrar series temporales en
pesetas o en diversas magnitudes fsicas (kilogramos, litros, millas, etc.)

En base a la periodicidad de los datos, podemos distinguir series temporales de datos
diarios, semanales, mensuales, trimestrales, anuales, etc.


Antes de profundizar en el anlisis de las series temporales es necesario sealar que, para
llevarlo a cabo, hay que tener en cuenta los siguientes supuestos:

Se considera que existe una cierta estabilidad en la estructura del fenmeno estudiado.
Para que se cumpla este supuesto ser necesario estudiar perodos lo ms
homogneos posibles.

Los datos deben ser homogneos en el tiempo, o, lo que es lo mismo, se debe
mantener la definicin y la medicin de la magnitud objeto de estudio. Este supuesto no
se da en muchas de las series econmicas, ya que es frecuente que las estadsticas se
perfeccionen con el paso del tiempo, producindose saltos en la serie debidos a un
cambio en la medicin de la magnitud estudiada. Un caso particularmente frecuente es
el cambio de base en los ndices de precios, de produccin, etc. Tales cambios de
base implican cambios en los productos y las ponderaciones que entran en la
elaboracin del ndice que repercuten considerablemente en la comparabilidad de la
serie en el tiempo.

El objetivo fundamental del estudio de las series temporales es el conocimiento del
comportamiento de una variable a travs del tiempo para, a partir de dicho conocimiento, y bajo
el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones, es
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
decir, determinar qu valor tomar la variable objeto de estudio en uno o ms perodos de
tiempo situados en el futuro, mediante la aplicacin de un determinado modelo calculado
previamente.

Dado que en la mayor parte de los problemas econmicos, los agentes se enfrentan a una
toma de decisiones bajo un contexto de incertidumbre, la prediccin de una variable reviste una
importancia notoria pues supone, para el agente que la realiza, una reduccin de la
incertidumbre y, por ende, una mejora de sus resultados.

Las tcnicas de prediccin basadas en series temporales se pueden agrupar en dos grandes
bloques:

Mtodos cualitativos, en los que el pasado no proporciona una informacin directa
sobre el fenmeno considerado, como ocurre con la aparicin de nuevos productos en
el mercado. As, por ejemplo, si se pretende efectuar un estudio del comportamiento de
una accin en Bolsa, y la sociedad acaba de salir a cotizar al mercado, no se puede
acudir a la informacin del pasado ya que sta no existe.

Mtodos cuantitativos, en los que se extrae toda la informacin posible contenida en
los datos y, en base al patrn de conducta seguida en el pasado, realizar predicciones
sobre el futuro.

Indudablemente, la calidad de las previsiones realizadas dependern, en buena medida, del
proceso generador de la serie: as, si la variable observada sigue algn tipo de esquema o
patrn de comportamiento ms o menos fijo (serie determinista) seguramente obtengamos
predicciones ms o menos fiables, con un grado de error bajo. Por el contrario, si la serie no
sigue ningn patrn de comportamiento especfico (serie aleatoria), seguramente nuestras
predicciones carecern de validez por completo.

Generalmente, en el caso de las series econmicas no existen variables deterministas o
aleatorias puras, sino que contienen ambos tipos de elementos. El objeto de los mtodos de
previsin cuantitativos es conocer los componentes subyacentes de una serie y su forma de
integracin, con objeto de realizar de su evolucin futura.

Dentro de los mtodos de prediccin cuantitativos, se pueden distinguir dos grandes enfoques
alternativos:

Por un lado, el anlisis univariante de series temporales mediante el cual se intenta
realizar previsiones de valores futuros de una variable, utilizando como informacin la
contenida en los valores pasados de la propia serie temporal. Dentro de esta
metodologa se incluyen los mtodos de descomposicin y la familia de modelos
ARIMA univariantes que veremos ms adelante.

El otro gran bloque dentro de los mtodos cuantitativos estara integrado por el anlisis
multivariante o de tipo causal, denominado as porque en la explicacin de la variable o
variables objeto de estudio intervienen otras adicionales de ella o ellas mismas.

En el tratamiento de series temporales que vamos a abordar, nicamente se considerar la
informacin presente y pasada de la variable investigada. Si la variable investigada es Y y se
dispone de los valores que toma dicha variable desde el momento 1 hasta T, el conjunto de
informacin disponible vendr dado por:

Y
1
, Y
2
, Y
3
, , Y
T-1,

Y
T






Dada esa informacin, la prediccin de la variable Y para el perodo T+1 la podemos expresar
como:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

T T
Y
/ 1

+


Con esta notacin queremos indicar que la prediccin para el periodo T+1 se hace
condicionada a la informacin disponible en el momento T. El acento circunflejo sobre la Y nos
indica que esa prediccin se ha obtenido a partir de un modelo estimado. Conviene tambin
hacer notar que T+1 significa que se est haciendo la prediccin para un perodo hacia delante,
es decir, con la informacin disponible en t hacemos una prediccin para el perodo siguiente.

Anlogamente, la prediccin para el perodo T+2 y para el perodo T+m, con la informacin
disponible en T, vendr dada, respectivamente, por:

T m T T T
Y Y
/ / 2

+ +


que sern predicciones de 2 y m perodos hacia adelante.

Si, genricamente, para el perodo t se efecta una prediccin con la informacin disponible en
t1, y a la que designamos por
1 /

t t
Y , para el perodo t podemos hacer una comparacin de
este valor con el que realmente observemos (Y
t
). La diferencia entre ambos valores ser el
error de prediccin de un perodo hacia adelante y vendr dado por:

1 / 1 /


=
t t t t t
Y Y e

Cuando un fenmeno es determinista y se conoce la ley que lo determina, las predicciones son
exactas, verificndose que 0
1 /
=
t t
e . Por el contrario, si el fenmeno es poco sistemtico o el
modelo es inadecuado, entonces los errores de prediccin que se vayan obteniendo sern
grandes.

Para cuantificar globalmente los errores de prediccin se utilizan los siguientes estadsticos: la
Raz del Error Cuadrtico Medio (RECM) y el Error Absoluto Medio (EAM).

En el caso de que se disponga de T observaciones y se hayan hecho predicciones a partir de
la observacin 2, las frmulas para la obtencin de la raz del Error Cuadrtico Medio y el Error
Absoluto Medio son las siguientes:

1

1
1
)

(
1
2
1 /
2
1 /
2
2
1 /
2
2
1 /

=


=

T
Y Y
T
e
EAM
T
Y Y
T
e
RECM
T
t
t t t
T
t
t t
T
t
t t t
T
t
t t


De forma anloga se pueden aplicar la RECM y el EAM en predicciones de 2, 3, , m perodos
hacia adelante.

En el anlisis de series temporales se aplican, en general, mtodos alternativos a unos mismos
datos, seleccionando aquel modelo o aquel mtodo que, en la prediccin de perodos
presentes y pasados, arroja errores de prediccin menores, es decir, arroja una RECM o un
EAM menor.



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
8.2. Componentes de una Serie Temporal

Tradicionalmente, en los mtodos de descomposicin de series temporales, se parte de la idea
de que la serie temporal se puede descomponer en todos o algunos de los siguientes
componentes:

Tendencia (T), que representa la evolucin de la serie en el largo plazo

Fluctuacin cclica (C), que refleja las fluctuaciones de carcter peridico, pero no
necesariamente regular, a medio plazo en torno a la tendencia. Este componente es
frecuente hallarlo en las series econmicas, y se debe a los cambios en la actividad
econmica.

Para la obtencin de la tendencia es necesario disponer de una serie larga y de un
nmero de ciclos completo, para que sta no se vea influida por la fase del ciclo en que
finaliza la serie, por lo que, a veces, resulta difcil separar ambos componentes. En
estos casos resulta til englobar ambos componentes en uno solo, denominado ciclo-
tendencia o tendencia generalizada.

Variacin Estacional (S): recoge aquellos comportamientos de tipo regular y repetitivo
que se dan a lo largo de un perodo de tiempo, generalmente igual o inferior a un ao, y
que son producidos por factores tales como las variaciones climatolgicas, las
vacaciones, las fiestas, etc.

Movimientos Irregulares (I), que pueden ser aleatorios, la cual recoge los pequeos
efectos accidentales, o errticos, como resultado de hechos no previsibles, pero
identificables a posteriori (huelgas, catstrofes, etc.)

En este punto, cabe sealar que en una serie concreta no tienen por qu darse los cuatro
componentes. As, por ejemplo, una serie con periodicidad anual carece de estacionalidad.

La asociacin de estos cuatro componentes en una serie temporal, Y, puede responder a
distintos esquemas; as, puede ser de tipo aditivo:

Y=T+C+S+I

Tambin puede tener una forma multiplicativa:

Y=TCSI


O bien ser una combinacin de ambos, por ejemplo:

Y=TCS+I


Una forma sencilla para ver como estn asociadas las componentes de una serie temporal es
representar grficamente la serie que estamos analizando. Si al realizar la representacin
grfica se observa que las fluctuaciones son ms o menos regulares a lo largo de la serie, sin
verse afectadas por la tendencia (vase Fig. 9.1), se puede emplear el esquema aditivo.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Figura 8.1. Esquema aditivo

Si, por el contrario, se observa que la magnitud de las fluctuaciones vara con la tendencia,
siendo ms altas cuando sta es creciente y ms bajas cuando es decreciente (vase Fig. 8.2),
se debe adoptar entonces el esquema multiplicativo.





Figura 8.2. Esquema multiplicativo.


8.3. Anlisis de la tendencia

Como decamos en el apartado anterior, la tendencia es el componente de la serie temporal
que representa la evolucin a largo plazo de la serie. La tendencia se asocia al movimiento
uniforme o regular observado en la serie durante un perodo de tiempo extenso. La tendencia
es la informacin ms relevante de la serie temporal ya que nos informa de si dentro de cinco,
diez o quince aos tendr un nivel mayor, menor o similar al que la serie tiene hoy da.

El anlisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para
conocer cules son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de
estudio, y por otro, para predecir sus valores futuros.

Las tendencias suelen representarse mediante funciones de tiempo continuas y diferenciables.
Las funciones de tendencia ms utilizadas son:

1. Lineal.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
2. Polinmica.
3. Exponencial.
4. Modelo autorregresivo
5. Funcin
6. Curva de Gompertz
7. Modelo logartmico recproco

Si una serie temporal X
t
se ajusta a una tendencia lineal, la funcin de tiempo que se plantea
es la siguiente:

X
t
=+t t= 1, 2, , n

Una tendencia polinmica de grado p se ajustar a una funcin del siguiente tipo:

f(t) = +
1
+
2
t
2
+ +
p
t
p


Si la tendencia sigue una ley exponencial, entonces la funcin de ajuste ser:

f(t) = ae
rt

donde a y r son constantes.

Un modelo autorregresivo ajusta la tendencia de la forma siguiente:

X
t
=
0
+
1
x
t-1
+ u
t
siendo >0

La curva logstica se representa mediante la funcin:

T t =
T
be
rt
( )
1



donde t, b y r son constantes positivas.

La curva de Gompertz responde a la siguiente ecuacin:

f (t) = Tb
e-rt


donde T, r, b son parmetros positivos.

Finalmente, el modelo logartmico recproco, viene definido por la relacin:

f(t) = a + b 1/t B<0

Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no
lineales y proceder a su estimacin como si fuera una funcin de tendencia lineal.

Una vez establecido un modelo terico para la tendencia, se debe proceder a la determinacin
o clculo de los parmetros que desconocemos mediante diversos procedimientos estadsticos,
que pasamos a describir a continuacin.
Mtodo de los semipromedios
El mtodo de los semipromedios es la forma ms rpida de estimar una lnea de tendencia
recta. El mtodo requiere dividir la serie de datos en dos mitades y calcular el promedio de
cada mitad que se centra en el punto medio. La recta que una ambas medias (o
semipromedios) ser la lnea de tendencia estimada.

Ejemplo 8.1.

Utilizando la serie cronolgica de ventas de gasolina en Cantabria sobre la que vamos a
realizar un ajuste de una tendencia basada en el mtodo de semipromedios:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Tabla 8.1.
AOS Tm.
1997 105.329
1998 105.525
1999 95.429
2000 88.350
2001 102.230
2002 94.142
2003 98.082
2004 97.321
2005 90.566
2006 87.920
Tabla 8.1. Tendencia de la evolucin de las ventas de gasolinas en Cantabria.
Aos 1997-2006. (miles de tm). Fuente: ICANE

Dividimos la serie en dos mitades, cada una de cinco aos, y calculamos los promedios de
cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes
a 1999 y 2004:

Promedio centrado en 1999 = 373 . 99
5
102.230 + 88.350 + 92.429 + 105.525 + 105.329
=

Promedio centrado en 2004 = 606 . 93
5
87.920 + 90.566 + 97.321 + 98.082 + 94.142
=



La ecuacin de la lnea de tendencia ser:

Y
t
*
= a + bt

donde Y
t
*
es el valor de la tendencia estimada de las ventas de gasolina.

El valor de a se obtiene al hacer t=0, y se hace corresponder con el valor del primer promedio:

373 . 99
*
0
= = Y a

El coeficiente de la pendiente de la recta b representara el incremento anual de la tendencia, y
se calcula a partir de los dos promedios:

153 . 1
5
373 . 99 603 . 93
=

= b

Ntese que al ser cinco los aos que hay de diferencia entre 2004 y 1999, aos en los que
hemos centrado los promedios, el denominador que utilizamos para calcular el incremento
anual es igual a 5.

La ecuacin Y
t
*
=99.373-1.153t nos sirve para obtener la tendencia una vez conocidos los
valores t o del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de X
t

se elaboran a partir de una sucesin de puntuaciones consecutivas que van desde un mnimo
de -2 de 1997 hasta un mximo de 7 en 2006:

Tm. Semipromedio t Tendencia
1997 105.329 -2 101.679
1998 105.525 -1 100.526
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
1999 95.429 99.373 0 99.373
2000 88.350 1 98.219
2001 102.230 2 97.066
2002 94.142 3 95.913
2003 98.082 4 94.759
2004 97.321 93.606 5 93.606
2005 90.566 6 92.453
2006 87.920 7 91.300
Tabla 8.2. Tendencia de la evolucin de las ventas de gasolinas en Cantabria.
Aos 1997-2006. (miles de tm.).Mtodo de semipromedios.


Representamos en el grfico 8.2 la tendencia:

80.000
85.000
90.000
95.000
100.000
105.000
110.000
1
9
9
7
1
9
9
8
1
9
9
9
2
0
0
0
2
0
0
1
2
0
0
2
2
0
0
3
2
0
0
4
2
0
0
5
2
0
0
6
Tm.
Tendencia

Grfico 8.2.

Mtodo de mnimos cuadrados

El mtodo de mnimos cuadrados es el que ms se utiliza para ajustar tendencias. Este mtodo
da los mismos resultados que el mtodo anterior cuando es utilizado para obtener tendencias
lineales. Si realizamos sencillas transformaciones aritmticas de los datos puede tambin ser
utilizado para representar funciones de tendencias no lineales.

Estimar una tendencia lineal por el mtodo de MCO equivale a estimar la siguiente funcin:

Y
t
*
= a + bt


utilizando como variable explicativa un vector de nmeros secuenciales {1,2,3,,n}
representativos del periodo.

Si se quiere obtener una tendencia exponencial, debemos linealizar la funcin lo que requiere
su transformacin en logaritmos:

Y = be
rt


entonces:

ln Y
t
= ln b + rt
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Una vez estimada la tendencia lineal por mnimos cuadrados, calculamos la exponencial del
logaritmo para devolver la tendencia a la escala de los datos originales.

Ejemplo 8.2

Veamos un ejemplo: consideremos la siguiente tabla en la que se muestra la evolucin de las
ventas de gasolina en Cantabria. Con dichos datos vamos a estimar una tendencia exponencial
mediante el mtodo de mnimos cuadrados.

Tm.(Y) Logaritmo
(Y)
X Tendencia
logartmica
Tendencia
1997 105.329 11,56 1 11,54 102.715
1998 105.525 11,57 2 11,53 101.252
1999 95.429 11,47 3 11,51 99.810
2000 88.350 11,39 4 11,50 98.389
2001 102.230 11,53 5 11,48 96.987
2002 94.142 11,45 6 11,47 95.606
2003 98.082 11,49 7 11,45 94.244
2004 97.321 11,49 8 11,44 92.902
2005 90.566 11,41 9 11,42 91.579
2006 87.920 11,38 10 11,41 90.275
Tabla 8.3. Tendencia de la evolucin de las ventas de gasolina en Cantabria.
Aos 1997-2006. (miles de tm.).Mtodo de mnimos cuadrados.

Veamos la representacin de dichos datos en el grfico 8.3.; en l comprobamos cmo se
ajusta a los datos de venta de gasolina en Cantabria:

80.000
85.000
90.000
95.000
100.000
105.000
110.000
1
9
9
7
1
9
9
8
1
9
9
9
2
0
0
0
2
0
0
1
2
0
0
2
2
0
0
3
2
0
0
4
2
0
0
5
2
0
0
6
Tm.
Tendencia
Tendencia
exponencial

Grfico 8.3.

Para analizar la calidad del ajuste realizado hay que considerar los estadsticos de la regresin
mnimo cuadrada
2
:


Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,64744046
Coeficiente de determinacin R
2
0,41917914

2
El captulo 5.1 dedicado a la regresin minimo-cuadrada estudia los fundamentos de dicha tcnica y los
estadsticos que se mencionan.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
R
2
ajustado 0,34657654
Error tpico 0,05422273
Observaciones
10

El coeficiente R
2
es una medida de que la magnitud de los errores con respecto al tamao de
la variable Y; errores muy pequeos en relacin al tamao de Y determinan que el coeficiente
R
2
se aproxime a 1; por el contrario errores muy altos en relacin al tamao de la variable Y,
darn lugar a valores de R
2
ms alejados de 1 y ms cercanos a cero. En el ejercicio que
hemos realizado la magnitud del coeficiente de determinacin (R
2
=0,4192) sera indicativo de
un mal ajuste.

Otros estadsticos que debemos considerar son los que hace referencia al grado de
significacin de los coeficientes b y m:

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95% Inferior
95,0%
Superior
95,0%
Intercepcin
11,5540567 0,03704118 311,924649 1,2494E-17 11,4686396 11,6394738 11,4686396 11,6394738
Variable X
-0,01434426 0,00596973 -2,40283376 0,04298622
-
0,02811047 -0,00057805 -0,02811047 -0,00057805

La intercepcin en el origen es el coeficiente a, y la Variable X 1 es el coeficiente b. La tabla
da el abanico de valores ms probables para ambos coeficientes al nivel de confianza del 95%,
estos valores son los que figuran en las casillas Inferior y Superior. En el caso del coeficiente a,
el ajuste mnimo-cuadrado da como resultado que lo ms probable es que se encuentre entre
el intervalo que va desde el valor 11,47 hasta el 11,63, siendo su valor medio 12,55; en tanto
que el coeficiente b estar en el intervalo que va desde -0,03 hasta -0,0006, resultando ser su
valor medio -0,01. Como entre estos intervalos no figura el valor cero, sealamos que los
coeficientes estimados son estadsticamente significativos.


En el ejemplo la funcin lineal estimada sera:

Y
t
*
= 11,47 - 0,01t

que en forma exponencial quedara:

Y
t
= 104198,9.e
-0,011t


Medias mviles

En el anlisis de series temporales, el mtodo de medias mviles tiene diversas aplicaciones:
as, este mtodo puede sernos til si queremos calcular la tendencia de una serie temporal sin
tener que ajustarnos a una funcin previa, ofreciendo as una visin suavizada o alisada de una
serie, ya que promediando varios valores se elimina parte de los movimientos irregulares de la
serie; tambin puede servirnos para realizar predicciones cuando la tendencia de la serie tiene
una media constante.

Veamos qu es una media mvil: se trata, sencillamente de una media aritmtica que se
caracteriza porque toma un valor para cada momento del tiempo y porque en su clculo no
entran todas las observaciones de la muestra disponible.

Entre los distintos tipos de medias mviles que se pueden construir nos vamos a referir a dos
tipos: medias mviles centradas y medias mviles asimtricas. El primer tipo se utiliza para la
representacin de la tendencia, mientras que el segundo lo aplicaremos para la prediccin en
modelos con media constante.

Las medias mviles centradas se caracterizan porque el nmero de observaciones que
entran en su clculo es impar, asignndose cada media mvil a la observacin central. As, una
media mvil centrada en t de longitud 2n + 1 viene dada por la siguiente expresin:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

1 2
... ...
1 2
1
) 1 2 (
1 1
+
+ + + + + +
=
+
= +
+ + +
=
+
n
Y Y Y Y Y
Y
n
n MM
n t n t t n t n t
n
n i
i t t


Como puede observarse, el subndice asignado a la media mvil, t, es el mismo que el de la
observacin central, Y
t
. Obsrvese tambin que, por construccin, no se pueden calcular las
medias mviles correspondientes a las n primeras y a las n ltimas observaciones.
Por su parte, en el caso de las medias mviles asimtricas se asigna cada media mvil al
perodo correspondiente a la observacin ms adelantada de todas las que intervienen en su
clculo. As la media mvil asimtrica de n puntos asociada a la observacin t tendr la
siguiente expresin:

n
Y Y Y Y
Y
n
n MMA
t t n t n t
t
n t i
i t t
+ + + +
= =
+ +
+ =
+
1 2 1
1
... 1
) (

Este tipo de medias mviles se emplea en la prediccin de series cuya tendencia muestra una
media constante en el tiempo, utilizndose la siguiente ecuacin:

n
Y
n
Y
n MMA Y
n
n MMA
n T T
T
T
n T i
t T
1 1
1
2
1
) (
1
) (
+ +
+
+ =
+
+ = =



Es decir, para predecir el valor de la serie en el perodo siguiente se suma a la media mvil, la
media aritmtica de los n ltimos perodos, siendo n la longitud de la media mvil.

La utilizacin de medias mviles implica la eleccin arbitraria de su longitud u orden, es decir,
del nmero de observaciones que intervienen en el clculo de cada media mvil. Cuanto mayor
sea la longitud, mejor se eliminarn las irregularidades de la serie, ya que al intervenir ms
observaciones en su clculo se compensarn las fluctuaciones de este tipo, pero por el
contrario, el coste informativo ser mayor. Por el contrario, cuando la longitud es pequea, la
media mvil refleja con mayor rapidez los cambios que puedan producirse en la evolucin de la
serie. Es conveniente, pues, sopesar estos factores al decidir la longitud de la media mvil.


Ejemplo 8.3
Veamos a continuacin un ejemplo, continuando con la serie de ventas de gasolina, optamos
por calcular una media mvil trienal que ofrece los siguientes resultados:

Tm. Media mvil
trienal
1997 105.329
1998 105.525 102.094
1999 95.429 96.435
2000 88.350 95.336
2001 102.230 94.907
2002 94.142 98.151
2003 98.082 96.515
2004 97.321 95.323
2005 90.566 91.936
2006 87.920
Tabla 9.4. Tendencia de la evolucin de las ventas de gasolina en Cantabria.
Aos 1997-2006. (miles de tm.).Media mvil trienal

El valor de la media mvil trienal asignado a 1998 se calcula as:

3
95429 105525 105329
102094
+ +
=
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
A su vez, el valor de la media mvil trienal asignado a 1999 se calcula as:

3
88350 95429 105525
96435
+ +
=

Media movil trienal
80.000
85.000
90.000
95.000
100.000
105.000
110.000
1
9
9
7
1
9
9
9
2
0
0
1
2
0
0
3
2
0
0
5
Tm.
Media mvil
trienal

Grfico 8.4.

Como se aprecia en el grfico 9.4., el inconveniente que tiene la media mvil es que perdemos
informacin de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar
que las medias mviles, comparadas con mtodos basados en ajustes aritmticos, tienen un
coste informativo.
Alisado Exponencial Simple

El mtodo del alisado exponencial simple consiste, al igual que en el caso de las medias
mviles, en una transformacin de la variable original. Si una variable Y es sometida a un
proceso de alisado exponencial simple se obtiene como resultado la variable alisada S
t
.
Tericamente, la variable alisada S
t
se obtendra segn la expresin:

S
t
= (1 w) Y
t
+ (1 w) wY
t-1
+ (1-w) w
2
Y
t-2

+ (1 w) w
3
Y
t-3

+ (1)

donde w es un parmetro que toma valores comprendidos entre 0 y 1, y los puntos
suspensivos indican que el nmero de trminos de la variable alisada puede ser infinito. La
expresin anterior en realidad no es ms que una media aritmtica ponderada
3
de infinitos
valores de Y.

Se denomina alisada ya que suaviza o alisa las oscilaciones que tiene la serie, al obtenerse
como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial
se debe a que la ponderacin o peso de las observaciones decrece exponencialmente a
medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que
estn alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de
simple se aplica para distinguirla de otros casos en que, como veremos ms adelante, una
variable se somete a una doble operacin de alisado.


3
Para que pueda aceptarse que es una media aritmtica ponderada debe verificarse que las ponderaciones, sumen 1.
La demostracin, que excede las pretensiones de este texto, se basa en el clculo de la suma de infinitos trminos de
una progresin geomtrica convergente.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Una vez que se han visto estos aspectos conceptuales, vamos a proceder a la obtencin
operativa de la variable alisada, ya que la expresin no es directamente aplicable, por contener
infinitos trminos. Retardando un perodo en la expresin anterior se tiene que:

S
t-1

= (1 w) Y
t-1

+ (1 w) wY
t-2

+ (1-w) w
2
Y
t-3

+ (2)

Multiplicando ambos miembros por w se obtiene:

wS
t-1

= (1 w) wY
t-1

+ (1 w) w
2
Y
t-2

+ (1 w) w
3
Y
t-3

+ (3)

Restando (3) de (1) miembro a miembro y ordenando los trminos se tiene que:

S
t
= (1 - w) Y
t
+ wS
t-1


O tambin:

S
t
= Y
t
+ (1 - ) S
t-1


donde = 1 w.

Ahora ya slo nos falta calcular los valores de y S
0
, parmetros a partir de los cuales resulta
sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que:

S
1
= Y
1
+ (1 - ) S
0

S
2
= Y
2
+ (1 - ) S
1

S
3
= Y
3
+ (1 - ) S
2


Al asignar un valor a hay que tener en cuenta que un valor pequeo de significa que
estamos dando mucho peso a las observaciones pasadas a travs del trmino S
t-1
. Por el
contrario, cuando es grande se da ms importancia a la observacin actual de la variable Y.
En general, parece que un valor de igual a 0.2 es apropiado en la mayor parte de los casos.
Alternativamente, se puede seleccionar aquel valor de para el que se obtenga una Raz del
Error Cuadrtico Medio menor en la prediccin del perodo muestral.

Respecto a la asignacin de valor a S
0
se suelen hacer estos supuestos: cuando la serie tiene
muchas oscilaciones se toma S = Y
1
; por el contrario, cuando la serie tiene una cierta
estabilidad se hace S
0
= Y .


Ejemplo 8.4
En este ejemplo se presenta un alisado exponencial para la serie de ventas de gasolina,
utilizando como factor de alisado el valor 0,5.
Tm.(Y) Media movil
Alisado
a=0,50
1997 105.329
1998 105.525 102.094 102.094
1999 95.429 98.762
2000 88.350 93.556
2001 102.230 97.893
2002 94.142 96.017
2003 98.082 97.050
2004 97.321 97.185
2005 90.566 93.876
2006 87.920 90.898

Tabla 8.5. Tendencia de la evolucin de las ventas de gasolina en Cantabria.
Aos 1997-2006. (miles de tm.). Alisado exponencial

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
El valor inicio del alisado, S
0
, es la media de los tres primeros aos:

3
95429 105525 105329
102094
+ +
=

Alisado exponencial
80.000
85.000
90.000
95.000
100.000
105.000
110.000
1
9
9
7
1
9
9
9
2
0
0
1
2
0
0
3
2
0
0
5
Tm.(Y)
Alisado a=0,50

Grfico 8.5.


Alisado Exponencial Doble

Una variante ms avanzada del mtodo anterior es el Alisado Exponencial Doble, tambin
conocido como mtodo de Brown. Bsicamente, lo que se hace mediante este mtodo es
someter a la variable a una doble operacin de alisado: en la primera operacin se alisa
directamente la variable objeto de estudio, mientras que en la segunda operacin se procede a
alisar la variable alisada previamente obtenida. As pues, las frmulas del Alisado Exponencial
Doble son las siguientes:

Primer alisado: S
t
= Y
t
+ (1) S
t-1

Segundo alisado: S
t
= S
t
+ (1) S
t-1


Obsrvese que en los dos alisados se utiliza el mismo coeficiente . A partir de las dos
variables alisadas se estiman los coeficientes de la recta para utilizarlos en la prediccin.

Las frmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta
son las siguientes:

) (
1
2
' ' '
1
' ' '
0
t t t
t t t
S S b
S S b

=
=



Finalmente, si con la informacin disponible en t, deseamos realizar una prediccin de la
variable para el momento t+m, aplicaremos la siguiente frmula:

m b b Y
t t m t 1 0

+ =
+


Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener S
t
' y S
t

es necesario conocer los valores iniciales, que en este caso seran dos, S
0
y S
0
. Para
determinarlos se utilizan las siguientes relaciones que permiten obtener b
0t
y b
1t
, aunque en
sentido inverso.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Realizando un ajuste de la recta por mnimos cuadrados con toda la informacin disponible se
obtendrn las estimaciones
t t
b b
1 0

.


Haciendo que:

b
00
=
t
b
0

y b
10
=
t
b
1



y tomando t = 0, se obtiene:

=
1
2
1
10 00
' '
0
10 00
'
0
b b S
b b S


A partir de estos valores se inicia la recursin ya sealada.

En lo que respecta al valor de , es vlido lo que se dijo en el caso del Alisado Exponencial
Simple, siendo aconsejable tomar = 0.2 o, alternativamente, seleccionar aquel valor de que
haga mnima la Raz del Error Cuadrtico Medio cuando realicemos predicciones.

8.4. Anlisis de la estacionalidad

En este apartado pasamos a examinar el anlisis de la estacionalidad de las series temporales,
entendindose por tal, aquellos ciclos regulares cuya duracin es inferior al ao. Las
variaciones o ciclos estacionales son muy frecuentes en las series temporales, sea cual sea su
naturaleza, y pueden presentar un esquema horario, diario, semanal, mensual, trimestral o
incluso semestral, no siendo necesario que tengan alguna relacin con las estaciones del ao.
Lo verdaderamente importante de los ciclos estacionales es su temporalidad o repeticin
regular.

Algunos ejemplos de ciclos estacionales seran:

El aumento de viajeros en los autobuses urbanos en determinadas horas del da.

Las ventas diarias de un supermercado que suelen presentar entre semana un
esquema bastante regular.

El movimiento de viajeros en los establecimientos hoteleros que se concentra en
determinados meses del ao.

El consumo de energa elctrica que suele ser mayor los meses de invierno.

El motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en
cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolucin
de las series, actuando muchas veces el factor estacional como una mscara que impide
captar adecuadamente la evolucin del fenmeno objeto de estudio. Un ejemplo de estas
distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y
segundo trimestre del ao, ya que el ciclo estacional al delimitar un aumento del consumo en
los meses de invierno, impide una interpretacin correcta sobre el uso subyacente de la
energa de dicho perodo.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Por ello, ser conveniente eliminar el influjo de los ciclos estacionales en la serie, a fin de poder
realizar comparaciones entre dos estaciones sucesivas y predecir correctamente el
comportamiento futuro de la variable.



Para ello, existen diferentes procedimientos: utilizacin de filtros lineales, X11-ARIMA, SEATS
(Signal Extraction in ARIMA Time Series), etc., cuya solucin requiere de un clculo
matemtico relativamente complejo; aqu nicamente estudiaremos los procedimientos de
desestacionalizacin ms sencillos: el mtodo de porcentaje promedio y el mtodo del
porcentaje promedio mvil.

Asimismo, cabe sealar que, con carcter previo a la desestacionalizacin, a menudo hay que
realizar una serie de ajustes en la serie temporal para tener en cuenta hechos o eventos que
pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser
festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc.,
no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen,
de ah que sea necesario corregir previamente los datos iniciales. Una forma de compensar
estas variaciones es multiplicar la serie de datos orignales por la siguiente razn:

dado mes del efectivos das de Nmero
laboral) calendario un en ( aos de promedio un en mes un de efectivos das de Nmero


en la que la definicin de los das efectivos depender de la serie cronolgica que nos interesa
y de los motivos por los que realizamos el ajuste.

Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia,
se suele hacer un anlisis de la varianza del componente estacional-irregular de la serie,
utilizando como factor de variacin la referencia temporal de la serie (semanal, mensual,
trimestral, etc.). Dicho anlisis proporciona como estadstico la F de Snedecor, cuyo valor
comparado con el que figura en las tablas del Anexo, nos permite determinar si tiene
significacin el factor temporal para explicar la varianza de la serie; de admitirse dicha
posibilidad, quedara demostrado que los movimientos estacionales de la serie son lo
suficientemente determinantes como para proceder a su desestacionalizacin posterior.


Ejemplo 8.5

Veamos a continuacin un ejemplo: vamos a realizar un test de presencia de estacionalidad a
la serie mensual de ventas de gasolina en Cantabria durante el perodo 1997-2006.

Aos
Meses
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1
7405 8098 6596 5951 7242 6230 6458 6818 6195 6186
2
6323 7756 6675 5846 6913 6236 6240 6654 6013 6013
3
8799 8939 8054 6762 8076 7798 7305 7661 7564 7118
4
8337 8777 7957 7013 8634 7661 8410 8353 7206 7329
5
8517 7843 7561 6744 7973 7645 8278 7772 7614 7402
6
8169 8351 8049 6745 8690 7676 8235 8319 7823 7322
7
11051 10575 10101 9638 10416 9882 10151 9780 9334 8591
8
12188 12229 10992 10996 12817 9858 11749 10894 10649 9906
9
9465 8638 8032 8865 8607 6915 8529 8357 7762 7634
10
8752 8114 7374 5900 7662 9768 8049 7592 7081 7026
11
7629 7731 6661 6405 7114 6923 6838 7151 6407 6466
12
8694 8474 7377 7485 8086 7550 7840 7970 6918 6927
TOTAL
105329 105525 95429 88350 102230 94142 98082 97321 90566 87920
Tabla 8.6. Ventas de Gasolina en Cantabria

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Para ello, obtenemos la componente estacional-irregular de la serie como diferencia entre la
serie original y una tendencia que calculamos mediante una media mvil centrada de 12
trminos.

Aos
Meses 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
1 0 -824 -1752 -1477 -891 -1888 -1550 -1379 -1614 -1212
2 0 -1170 -1570 -1582 -1372 -1635 -1925 -1472 -1776 -1323
3 0 82 -141 -736 -187 68 -995 -450 -175 -208
4 0 -27 -176 -362 224 -245 254 280 -491 8
5 0 -969 -483 -610 -496 -245 129 -327 -21 76
6 -608 -443 97 -618 171 -169 62 209 276 -5
7 2216 1906 2202 2168 1981 2018 1948 1722 1788 0
8 3233 3651 3162 3437 4439 1994 3511 2889 3103 0
9 499 133 310 1197 252 -908 261 360 253 0
10 -251 -322 -269 -1904 -612 1882 -214 -309 -439 0
11 -1318 -682 -914 -1501 -1133 -1016 -1383 -737 -1095 0
12 -268 86 -90 -583 -76 -435 -388 123 -542 0
Tabla 8.7. Ventas de Gasolina en Cantabria. Componente Estacional-Irregular


Para realizar un test de presencia de estacionalidad utilizamos la tcnica de Anlisis de
Varianza de un factor, utilizando como factor la agrupacin por meses de los datos de ventas
de gasolina.

El anlisis de varianza ofrece en este caso los siguientes resultados:
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de F
Entre
grupos 11 185129269 16829933,6 82,2705918 3,9469E-44
Dentro de
los
grupos 97 19843099,7 204568,038
Total 108 204972369

Como se puede apreciar, el valor de la F es lo suficientemente grande para admitir la hiptesis
H
0
de que el factor temporal mensual explica una parte de la varianza que tiene toda la serie.
El valor crtico de la F por debajo del cual rechazamos la hiptesis H
0
en las tablas estara en
torno a 2.

Mtodo del porcentaje promedio

El mtodo del porcentaje promedio es un procedimiento rpido y simple para elaborar un ndice
estacional. El primer paso consiste en expresar la informacin de cada mes (o trimestre) como
un promedio para el ao; en un segundo paso se obtienen porcentajes de los promedios
anuales; y, finalmente, en un tercer paso, dichos porcentajes se promedian en cada mes,
obtenindose como resultado el ndice estacional.

Ejemplo 8.6.
Para ilustrar el mtodo del porcentaje promedio utilizamos el anterior ejemplo de las ventas
mensuales de gasolina en Cantabria para el perodo 1997-2006.

En primer lugar obtenemos el promedio mensual de las ventas anuales:


Aos
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
1 7405 8098 6596 5951 7242 6230 6458 6818 6195 6186
2 6323 7756 6675 5846 6913 6236 6240 6654 6013 6013
3 8799 8939 8054 6762 8076 7798 7305 7661 7564 7118
4 8337 8777 7957 7013 8634 7661 8410 8353 7206 7329
5 8517 7843 7561 6744 7973 7645 8278 7772 7614 7402
6 8169 8351 8049 6745 8690 7676 8235 8319 7823 7322
7 11051 10575 10101 9638 10416 9882 10151 9780 9334 8591
8 12188 12229 10992 10996 12817 9858 11749 10894 10649 9906
9 9465 8638 8032 8865 8607 6915 8529 8357 7762 7634
10 8752 8114 7374 5900 7662 9768 8049 7592 7081 7026
11 7629 7731 6661 6405 7114 6923 6838 7151 6407 6466
12 8694 8474 7377 7485 8086 7550 7840 7970 6918 6927
TOTAL 105329 105525 95429 88350 102230 94142 98082 97321 90566 87920
MEDIA 8777 8794 7952 7363 8519 7845 8174 8110 7547 7327
Tabla 8.8.

Despus calculamos en cada ao el porcentaje del promedio, que es la relacin que se da
entre las ventas de cada mes y su promedio anual.

Aos
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95%
Tabla 8.9.



El ndice estacional sera el promedio para cada mes de los diez datos anuales:

Aos
Meses
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
ndice
estacional
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84% 83,42%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82% 80,43%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97% 97,04%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100% 99,05%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101% 96,30%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100% 98,76%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117% 123,80%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135% 139,60%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104% 103,11%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96% 96,11%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88% 86,23%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95% 96,14%
1200%
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Tabla 8.10.

El ndice nos seala que en el perodo estudiado las ventas de enero han estado un
83.42% por debajo de las ventas mensuales promedio de cada ao, y que en el mes de
agosto el nivel de ventas fue un 139.60% superior al nivel de venta mensuales promedio
anual. Dado que el valor medio mensual del ndice ha de ser igual a 100, la suma de los 12
datos de que consta el ndice mensual debe ser igual a 1200.

Para obtener una serie de las ventas ajustadas estacionalmente, esto es, descontando el
efecto que provoca el ciclo estacional, se dividira las ventas de cada mes por el
correspondiente ndice estacional y se multiplicara por 100:

Aos
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 8876 9707 7907 7133 8681 7468 7741 8173 7426 7415
2 7861 9643 8299 7268 8595 7753 7758 8273 7476 7476
3 9067 9211 8299 6968 8322 8036 7528 7894 7795 7335
4 8417 8861 8033 7080 8717 7734 8491 8433 7275 7399
5 8845 8145 7852 7003 8280 7939 8596 8071 7907 7687
6 8271 8456 8150 6829 8799 7772 8338 8423 7921 7414
7 8926 8542 8159 7785 8413 7982 8199 7900 7539 6939
8 8731 8760 7874 7877 9181 7062 8416 7804 7628 7096
9 9180 8378 7790 8598 8348 6707 8272 8105 7528 7404
10 9106 8442 7672 6139 7972 10163 8375 7899 7368 7310
11 8847 8965 7725 7428 8250 8028 7930 8293 7430 7498
12 9043 8814 7673 7786 8411 7853 8155 8290 7196 7205
Tabla 8.11.

Mtodo del porcentaje del promedio mvil

El mtodo del porcentaje del promedio mvil es uno de los mtodos ms usados para la
medicin de la variacin estacional. Su clculo es tambin bastante sencillo: en primer lugar se
obtiene un promedio mvil de 12 meses de la serie de datos originales (o de 4 trimestres si se
utilizan los datos trimestrales) tal que:

2
,..., 1
2
,
2
, ) (
2 /
1 ) 2 / (
5 . 0
L
N
L L
t
L
Y
L MM
L
L
i t
t
+ = =

+
+
+


Luego se recurre a un promedio mvil de 2 meses para centrar convenientemente el promedio
anterior, al que se le denomina promedio mvil centrado de doce meses; es decir:

2
,..., 2
2
, 1
2
,
2
) ( ) (
) 2 x (
5 . 0 5 . 0
L
N
L L
t
L MM L MM
L MM
t t
t
+ + =
+
=
+


Finalmente se obtiene el ndice dividiendo los datos originales por el promedio mvil centrado,
MM(L x 2)
t
:

t
t
t
L MM
Y
EI
) 2 x (
=

es decir, una estimacin conjunta del componente estacional y del componente irregular. A los
valores obtenidos mediante la expresin anterior se los denomina ndices brutos de variacin
estacional.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Si disponemos de informacin para K aos completos, el nmero total de observaciones es N y
la longitud del perodo estacional es L, se verificar que KL = N. Bajo estos supuestos, para
cada estacin se dispone de K1 ndices brutos de variacin estacional, ya que se pierden L/2
datos al principio y L/2 datos al final, es decir, se pierde un dato en cada estacin.

Para cada estacin se puede calcular una media de todos los ndices brutos disponibles. As,
para la estacin h, la media se obtendr sumando todos los ndices brutos de variacin
estacional correspondientes a esa estacin y dividiendo por K1, que es el nmero de datos
disponibles en cada caso; es decir:

L h
K
EI
E
t
h
,..., 2 , 1 ,
1
*
=

=



Al haber realizado un promedio de K1 datos, el componente irregular queda eliminado si K es
suficientemente grande. En todo caso, al promediar siempre se atenuar el efecto del
componente irregular. Por ello, el resultado obtenido es un ndice de variacin estacional en el
que se supone que el componente irregular ha desaparecido completamente.

Sin embargo, estos ndices no van a ser los definitivos, ya que se trata de ndices no
normalizados. Si existe estacionalidad, sta no debe afectar al nivel de la serie, por lo que es
razonable exigir a los coeficientes de estacionalidad el requisito de que su media sea 1, ,
alternativamente, que su suma sea L. Cuando los ndices de estacionalidad cumplen este
requisito se dice que estn normalizados. Los ndices de variacin estacional normalizados se
pueden calcular fcilmente aplicando una proporcin. As, si utilizamos el smbolo
h
E

para
designar el ndice de variacin estacional de la estacin h, su expresin vendr dada por

1
*
*

=
=
L
h
h
h h
E
L
E E

Finalmente, la serie desestacionalizada se obtendr dividiendo cada valor de la serie original
por el ndice de variacin estacional correspondiente. As, en el caso de que el perodo t
pertenezca a la estacin h, entonces el valor de la serie desestacionalizada, al que
designaremos por D
t
, vendr dado por:

h
t
t
E
Y
D

=

Ejemplo 8.7.

Veamos a continuacin un ejemplo, utilizando de nuevo la serie de ventas de gasolina de
Cantabria para obtener dicho ndice estacional.

Aos Meses Ventas Media mvil 12 meses
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835
8 12.188 8.955
9 9.465 8.966
10 8.752 9.003
11 7.629 8.947
12 8.694 8.962
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
1998 1 8.098 8.922
2 7.756 8.926
3 8.939 8.857
4 8.777 8.804
5 7.843 8.812
Tabla 8.12.

El primer promedio mvil se centra en el 6 mes (Junio), lo que implica dejar sin valores seis
meses al final de la serie.

El segundo promedio, que es una media mvil de dos meses, se realiza para centrar
convenientemente el promedio mvil anterior, el primer valor que aparece es el valor promedio
de 8.777 y 8.835, y se centra en el 7 mes (Julio), quedando as ambos extremos de la serie
resultante con seis meses de ausencia de datos:

Aos Meses Ventas Media mvil 12
meses
Promedio mvil
centrado
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835 8.806
8 12.188 8.955 8.895
9 9.465 8.966 8.960
10 8.752 9.003 8.985
11 7.629 8.947 8.975
12 8.694 8.962 8.954
1998 1 8.098 8.922 8.942
2 7.756 8.926 8.924
3 8.939 8.857 8.891
4 8.777 8.804 8.830
5 7.843 8.812 8.808
Tabla 8.13.

Finalmente se calcula el ndice dividiendo los datos originales por el promedio mvil centrado y
multiplicando por cien:

Aos Meses Ventas Media mvil
12 meses
Promedio
mvil
centrado
ndice
estacional
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835 8.806 125,49%
8 12.188 8.955 8.895 137,02%
9 9.465 8.966 8.960 105,63%
10 8.752 9.003 8.985 97,41%
11 7.629 8.947 8.975 85,00%
12 8.694 8.962 8.954 97,09%
1998 1 8.098 8.922 8.942 90,56%
2 7.756 8.926 8.924 86,91%
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
3 8.939 8.857 8.891 100,54%
4 8.777 8.804 8.830 99,40%
5 7.843 8.812 8.808 89,05%
Tabla 8.14

La serie desestacionalizada de las ventas de gasolina en Cantabria sera el promedio mvil
centrado de 12 meses:

0
2.000
4.000
6.000
8.000
10.000
12.000
14.000
1
9
9
7
Ventas
Promedio mvil
centrado
Serie
desestacionalizada

Grfico 8.4.
Prediccin con estacionalidad estable

Los coeficientes de estacionalidad calculados en el epgrafe anterior pueden ser utilizados para
realizar predicciones de la variable. Para ello, vamos a considerar el supuesto de que
disponemos de una muestra de tamao T y deseamos realizar predicciones para los L perodos
siguientes (por ejemplo, si los datos son trimestrales y la muestra comprende aos completos,
se tratara de predecir los valores que toma la variable en los trimestres del primer ao
postmuestral).

Bajo el supuesto de estacionalidad estable, el predictor vendr dado por la siguiente expresin:

h h T T h t
E T Y

/ + +
= , h = 1, 2, , L

donde
h T
T
+

es la prediccin obtenida de la tendencia mediante el ajuste de una funcin a los


datos desestacionalizados.
Desestacionalizacin con Estacionalidad Cambiante
Hasta ahora hemos considerado el supuesto de que los coeficientes de estacionalidad eran
estables, es decir, que se repetan ao tras ao. Sin embargo, en muchas ocasiones este
supuesto no es realista, pudiendo ocurrir que estos coeficientes estn afectados por una
tendencia.

Bajo el supuesto de estacionalidad cambiante, las fases para la aplicacin del mtodo de la
razn a la media mvil son las siguientes:

1. Obtencin de unas medias mviles de orden estacional.
2. Obtencin de unas medias mviles centradas.
3. Obtencin de los ndices brutos de variacin estacional.
4. Obtencin de los ndices de variacin estacional sin normalizar.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Las tres primeras fases son las mismas que se aplicaban bajo el supuesto de estacionalidad
estable. Una vez obtenidos los ndices brutos de variacin estacional, se debe proceder a la
representacin de este indicador para cada estacin por separado. A la vista de esta
representacin se tomar la decisin de cul es la funcin matemtica adecuada para
representar la tendencia de la estacionalidad.

Recurdese que los ndices brutos de variacin estacional son una estimacin conjunta del
componente estacional y del componente irregular. Por ello, al realizar el ajuste de modelos
que recojan la tendencia de la estacionalidad, lo que estamos haciendo en realidad es separar
estos dos componentes. As, adoptando el supuesto de que estn integrados de forma aditiva,
se tendr la siguiente descomposicin:

t t t
I E EI + =
*
, h = 1, 2, , L

donde
*
t
E son los valores estimados al ajustar una funcin del tiempo en la que la variable
dependiente es EI. En la mayor parte de las ocasiones es adecuado el ajuste de una recta para
tal finalidad. Si ste es el caso resulta:

r a a E
h h t 1 0
*
+ = , h = 1, 2, , L

donde r es el ao en que se encuentra el perodo t. Teniendo en cuenta que al calcular los
ndices brutos de variacin estacional se pierden L/2 datos al principio y L/2 al final y
suponiendo que se dispone de informacin sobre K aos completos, entonces r variar, segn
los casos, entre 2 y K o entre 1 y K1.

Despus de realizado el ajuste se proceder a la prediccin de los coeficientes de
estacionalidad de cada uno de los aos que integran la muestra. De esta forma se obtienen
unos ndices de variacin estacional sin normalizar, aunque distintos para cada ao.

Seguidamente, la obtencin de los ndices de variacin estacional normalizados se realizar
haciendo una ligera modificacin en la frmula ya estudiada. Concretamente, la frmula a
aplicar ser la siguiente:

*
*

=
m
m
t t
E
L
E E , m = 1, 2, , r

Como puede verse en la frmula anterior, la normalizacin se realiza ao a ao. Por ello, el
factor de normalizacin es igual a L dividido por la suma de los ndices de variacin estacional
correspondientes al mismo ao (r) en que se encuentra el perodo t.

Finalmente, la serie desestacionalizada, al igual que antes, se obtiene dividiendo la serie
original por el ndice de variacin estacional correspondiente, es decir,

t
t
t
E
Y
D

=

Obsrvese que, bajo el supuesto de estacionalidad cambiante, a cada dato de la variable le
corresponde un ndice de variacin estacional distinto, a diferencia de lo que ocurra bajo el
supuesto de estacionalidad constante, donde el ndice de variacin estacional permaneca fijo
dentro de cada estacin.

Desestacionalizacin y Prediccin con Estacionalidad Cambiante

Bajo el supuesto de estacionalidad cambiante, el predictor vendr dado por la siguiente
expresin:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

h h T T h t
E T Y

/ + +
= , h = 1, 2, , L

donde
h T
T
+

es la prediccin obtenida de la tendencia mediante el ajuste de una funcin a los


datos desestacionalizados y E es la prediccin de la estacionalidad para el perodo T+h,
obtenida a partir de un ajuste y su posterior normalizacin.




















Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Anexo I: Anlisis de regresin con Excel

La notacin de la regresin lineal en EXCEL es la siguiente:
Y = mX + b
Siendo, Y la variable dependiente, X , la variable independiente, el parmetro m es la
pendiente y el parmetro b es una constante que indica que cuando X=0, Y=b.
Para calcular los parmetros de la regresin lineal se procedera:

m=Cov(xy)/Var(x)

Cov(xy)=Covarianza de XY = Media Aritmtica(XY)-Media A(X)*Media A(Y)

b=Media A(X)-Media A(Y)*m

COVARIANZA

Obtiene el promedio del producto de desviaciones de puntos de datos partiendo de las medias
respectivas. La covarianza es una medida de la relacin entre dos rangos de datos y est
vinculada a la unidad de medida correspondiente a X e Y.

Sintaxis: Clculo de Covarianza de X1 e Y

Escribimos en la celda Covar(b3:b24;c3:c24)

COEFICIENTE DE CORRELACIN

Mide el grado de relacin existente entre las variables, y se calcula mediante:

Corr(XY)=Cov(XY)/(Desv(x)*Desv(y))

Este toma valores entre 1 y -1,

Si Corr(XY)= 1 Relacin Directa y Absoluta (Aumento de X=>Aumento Y).
0 No existe Correlacin (X e Y son incorreladas).
-1 Relacin Indirecta y Absoluta (Aumento de X=>Dism. Y).

Sintaxis: Clculo de Coef. de Correlacin de X1 e Y

Escribimos en la celda =Coef.de.Correl(b3:b24;c3:c24)




Asistente: Nos situamos en Asistente de funciones, estadsticas, y COEF. DE CORREL. y
en el paso 2 de 2

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


en Matri 1 situamos el rango de valores de Y, y en Matriz2 el de la X1


COEFICIENTE DE DETERMINACIN

Muestra la bondad de la recta de regresin para estudiar la relacin de dependencia entre las
variables. Su valor flucta entre 0 y 1. En 1 nos indicara que la recta es perfecta para
determinar esa relacin y en 0 que no nos es til la recta de regresin para determinarla.

En el caso de que fuera 1, nos indicara que no existiran diferencias entre valores estimados y
valores reales.

Sintaxis: =COEFICIENTE.R2(matriz_ymatriz_x)

ESTIMACIN LINEAL para 2 variables

Calculamos ahora la recta de regresin lineal entre dos variables, Y y X1 mediante :

Y=m*X1 + b


Sintaxis: ESTIMACION.LINEAL(Matrix_Y;Matriz_X;constante;estadstica)

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Conocido_y Valores de la Variable dependiente (Obligatorio).
Conocido_x Valores de la Variable independiente.
Constante Determina si b debe de calcularse (se omite o pone Verdadero), lo que
debe ser lo habitual, salvo que se sepa con certeza que cuando X=0, Y
es distinto de cero. En este ltimo caso, debe de ponerse 0 o FALSO.
Estadstica Determina si se calcula estadsticos adicionales de la recta de regresin.

La funcin devuelve una MATRIZ, por lo que debe de seleccionarse el rango de salida :

Seleccionar el rango de salida, Entrar en el asistente de funciones y confirmar con Ctrl
+ Shift+ Return




las salidas de los indicadores se nos muestran de la siguiente forma

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
m b
se(m) se(b)
R2 se(y)
F df
ss(reg) ss(res)

m Pendiente de la recta de regresin.
Puede ser calculada separadamente mediante la funcin PENDIENTE
Sintaxis =Pendiente(matriz_y;matriz_x)

b Punto de interseccin con eje Y. Puede calcularse independientemente
con la funcin INTERSECCION.eje
Sintaxis =Interseccion.eje(matriz_y;matrix_x)

se(m) Valor del error tpico de la pendiente.


se(b) Valor del error tpico de la interseccin.


R2 Coeficiente de Determinacin de la recta de regresin.
Puede calcularse separadamente mediante la funcin COEFICIENTE.R2

Sintaxis =Coeficiente.R2(matriz_y;matriz_x)


se(y) Error tpico de la estimacin Puede calcularse independientemente
con la funcin ERROR.TIPICO.XY

Sintaxis =Error.Tipico.XY(Matriz_y;Matriz_x)

F Estadstico F o valor F observado.
Puede calcularse independientemente con la funcin DISTR.F

Sintaxis =Distr.F(X;grados_libertad1;grados_libertad_2)

df Grados de libertad para la prueba F.

se(reg) Suma de los cuadrados de la regresin.

se(resid) Suma de los cuadrados de los residuos.




TENDENCIA

Una vez calculados los valores m y b de la recta y analizado los dos estadsticos anteriores,
podemos realizar el pronstico de valores que alcanzar Y en funcin de los nuevos valores de
X.

$ y =mX+b

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Mediante esta funcin podemos calcular, tanto los valores que obtendra la Y para distintos
valores de X1, como las diferencias entre los valores reales de X1 y los valores estimados para
cada X1.
Para ello utilizamos el asistente de funciones, Tendencia


con lo que hemos calculado los valores estimados, para los datos reales que tenemos.

Mediante el asistente de grficas podemos representar las diferencias entre los valores reales y
los obtenidos por regresin lineal. (Para ello ordenamos los datos de la tabla anterior de menor
a mayor).

As mismo, vamos a calcular valores de tendencia para datos ajenos a la muestra utilizada,
para ello hay que escribir en la matriz de Nuevas_X, las deseadas.

Tambin se puede realizar, calculando mediante la funcin PRONOSTICO para un valor
determinado de X1

Sintaxis: =Pronstico(xmatriz_ymatriz_x)
REGRESIN LINEAL MLTIPLE

Al igual que hemos realizado la regresin lineal mnimo cuadrtica para establecer la
dependencia entre Y e X, tambin podemos realizarlas para observar dicha dependencia de Y
respecto a varias variables (X1..Xn).

En este caso la regresin ser del tipo :

Y=m1X1+..+mnXn+b

De la misma manera calcularemos el coeficiente de determinacin y los coeficientes de
correlacin parciales entre variables.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
En Excel es posible calcular otros estadsticos que pueden ser muy tiles, tales como EL Valor
F Observado, los grados de libertad, la suma de regresin de cuadrados, la suma residual de
los cuadrados, error tpico de la estimacin...

Veamos ahora el caso de que la variable dependiente est relacionada con ms de una
variable independiente.

Para n variables dependientes, la recta de regresin ser :

Y=x1*m1 + ...+xn*mn + b

Para 3 variables independientes:

Y=X1*m1+X2*m2+X3*m3+b

y los resultados se muestran en la siguiente matriz de datos :




Seleccionamos la regresin mediante el asistente de frmulas :





Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
ESTIMACIN EXPONENCIAL

En ocasiones la dependencia entre variables no se ajusta a una recta o al ajustarla nos sale un
coeficiente de determinacin que indica que no es til, y podemos realizar la estimacin
mediante una curva exponencial.

En Excel podemos realizar la tendencia de datos mediante la funcin crecimiento que ajusta
los datos de X, Y a lo largo de la curva.

Hasta ahora, hemos realizado la estimacin mediante regresin lineal, pero todos los procesos
obtenidos en la lineal (univariante y multivariante), se pueden realizar de igual forma con una
regresin exponencial mediante una estimacin logartm
ica.

La curva obtenida ser de la forma:
y=(b*(m1x1)..(mnxn)) o matricialmente y=b*mx

En este caso si al especificar la constante en el asistente ponemos Falso, el valor que no
calcula se asume igual a 1.

Ya que Excel calcula la formula para los clculos:
Ln(Y)=Ln(b)+ x1 * Ln(m1) + .. + Xn * Ln(mn)

los estadsticos que nos resultan sern :

se(m) Errores tpicos de Ln(m)
se(b) Error tpico de Ln(b)

En el asistente seleccionaremos la funcin ESTIMACION.LOGARITMICA.
La tendencia de los datos la realizamos mediante la funcin CRECIMIENTO.

Estimacin de un Modelo de Regresin Lineal con la macro
Anlisis de datos

A continuacin, vamos a estimar los parmetros de un determinado modelo por Mnimos
Cuadrados Ordinarios utilizando la macro Anlisis de datos, programa que simplifica
notablemente los clculos a realizar cuando disponemos de muchas observaciones y/o
variables exgenas.

Supongamos que la cantidad demandada de manzanas viene determinada en funcin de su
precio, y queremos cuantificar dicha relacin. Partimos de la siguiente tabla de datos:

Cantidad (Kg.) Precio (u.m. / Kg.)
2.456 82
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
2.325 92
2.250 94
2.200 99
2.100 106
2.082 108
2.045 112
2.024 115

Si realizamos un diagrama de dispersin mediante la opcin Grfico, dentro del men Insertar
de Excel, obtendremos un grfico como el siguiente en el que puede comprobarse la relacin
que aparentemente existe entre cantidades demandadas de manzanas y su precio.

Curva de demanda
80
85
90
95
100
105
110
115
120
2.000 2.100 2.200 2.300 2.400 2.500
Precio (u.m. / Kg.)

Relacin entre la demanda de manzanas y su precio
Pasamos a continuacin a estimar la recta de regresin por Mnimos Cuadrados Ordinarios.
Para ello, el alumno debe verificar que tiene instalada la opcin Herramientas para el Anlisis
dentro la opcin Complementos del men Herramientas.


En caso de no tener dicha opcin instalada en nuestro ordenador, deberemos marcar las
casillas que se ven en la figura, insertando seguidamente el CD-Rom de Microsoft Office para
proceder a su instalacin. Una vez instaladas estas opciones, dispondremos de una nueva
opcin en el men Herramientas llamada Anlisis de Datos. Si pinchamos en ella, nos
aparecer una ventana similar a la siguiente, en la que seleccionaremos la opcin Regresin:



Al seleccionar dicha opcin nos aparecer un cuadro de dilogo como el siguiente:

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


En este cuadro de dilogo podemos seleccionar el rango de nuestra hoja de clculo que
contiene los datos referidos a la variable endgena (Rango Y de entrada) y a las variables
exgenas (Rango X). Asimismo, se incluyen otras opciones sumamente tiles tales como
eliminar el trmino independiente del modelo (Constante igual a cero), determinar el nivel de
confianza al cual se realizarn los tests de significacin de los parmetros, la posibilidad de
obtener una tabla con los trminos de error del modelo (Residuos) y su grfico (Grafico de
Residuales), etc.

Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos
(no debemos olvidar indicar en qu Hoja, Rango o Libro deseamos que nos aparezcan los
resultados), pulsamos en Aceptar y nos aparecer una ventana similar a sta:



La estimacin de los parmetros del modelo aparecen en la columna Coeficientes, junto con su
Desviacin Tpica o Error Tpico y el estadstico t de significatividad individual (obsrvese que
al trmino independiente del modelo, Excel lo denomina Intercepcin). A la vista de los
resultados, el modelo estimado tiene la siguiente forma:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Cantidad = 3534.27 13.36 Precio
(48.1) (-18.46)

donde entre parntesis se muestra el estadstico t experimental asociado a cada parmetro,
siendo ambas claramente superiores a 2.365 (valor en tablas de una t de Student con n k = 7
grados de libertad al 95% de confianza.

Para el anlisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados:

a) Por un lado, si marcamos la casilla Curva de Regresin Ajustada obtenemos un grfico
con los valores originales y estimados de la variable endgena, lo que nos permitir
realizar un primer acercamiento visual al grado de ajuste de la recta (vase grafico)



Precio Curva de regresin ajustada
1.900
2.000
2.100
2.200
2.300
2.400
2.500
80 85 90 95 100 105 110 115 120
Precio
C
a
n
t
i
d
a
d
Cantidad
Pronstico Cantidad

Recta de regresin entre la demanda de manzanas y su precio


b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del
coeficiente de determinacin que, en nuestro caso, es del 98%, lo que nos indica un
grado de ajuste muy bueno.

Para evaluar la significatividad estadstica de los parmetros estimados, adems de los
estadsticos t asociados a cada parmetro estimado y los respectivos intervalos de confianza
para cada uno de ellos, Excel nos muestra tambin el estadstico F que aparece en la tabla
Anlisis de Varianza, mediante el que se realiza un contraste de significacin global de los
parmetros estimados. En los resultados obtenidos, el estadstico F tomo un valor 340.8
asociado a un p-value de 0.0000016, valor que es claramente inferior a 0.05, por lo que se
rechaza la hiptesis nula, lo que nos permite afirmar que todos los parmetros del modelo son
globalmente significativos, es decir, todos son significativamente distintos de cero. En este
punto, cabe sealar que si estimamos un modelo con varias variables exgenas y nos
encontramos con que alguno de los parmetros del modelo es estadsticamente igual a cero,
deberamos eliminar dicha variable del modelo al no haberse encontrado una relacin de
causalidad con la variable endgena.

Respecto al anlisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores
Ajustados (Pronstico Cantidad), los Residuos del modelo y los Residuos Estndares (es decir,
tipificados). Segn la teora que hemos estudiado hasta ahora, los residuos estndares deben
seguir una distribucin Normal de media 0 y desviacin estndar 1; por tanto, aquellos residuos
cuyo valor absoluto supere 1.96 se correspondern con valores atpicos, tambin denominados
outliers en la literatura estadstica. En nuestro ejemplo, afortunadamente, no se observa ningn
outlier como puede apreciarse en la siguiente tabla de Anlisis de Residuos:
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


Anlisis de los residuos
Observacin Pronstico Cantidad Residuos Residuos estndares
1 2439,03 16,97 0,79
2 2305,46 19,54 0,91
3 2278,75 -28,75 -1,33
4 2211,96 -11,96 -0,56
5 2118,47 -18,47 -0,86
6 2091,75 -9,75 -0,45
7 2038,33 6,67 0,31
8 1998,26 25,74 1,20


El grfico de los residuos tambin constituye una herramienta de anlisis importante, ya que
nos permite evaluar la aleatoriedad de los mismos. En nuestro ejemplo, se observa una ligera
falta de aleatoriedad, derivada de que los cuatro ltimos residuos presentan una marcada
racha creciente.

Precio Grfico de los residuales
-40
-30
-20
-10
0
10
20
30
40
80 85 90 95 100 105 110 115 120
Precio
R
e
s
i
d
u
o
s

Grfico de residuos del modelo de demanda de manzanas frente al precio







Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Anexo II: Acceso a datos externos desde Excel


Adems de poder utilizar ficheros de datos en distintos formatos (HTML, XML, texto, etc.),
Excel permite importar datos desde servidores de bases de datos (SQL Server, Oracle,
MySQL, p. ej.), siempre y cuando tengamos instalado en nuestro PC el controlador
correspondiente.
En el caso de que los datos de inters se encuentren en una base de datos Access, podremos
acceder a los mismos de dos maneras: bien como fichero o bien como servidor de bases de
datos, mediante la creacin de una conexin ODBC u OLEDB.

Vamos a explicar dos ejemplos de acceso a una BD Access.

Caso 1: Acceso como archivo

Procedemos a abrir el fichero Access desde el men Archivo -> Abrir. En Tipo de archivo
seleccionamos Bases de datos de Access (*.mdb; *.mde)



La advertencia de seguridad nos informa sobre la posibilidad de que la consulta de datos
proporcione un acceso a informacin no autorizada. Una BD Access, adems de los datos de
inters, puede contener consultas a otras fuentes de datos y debemos tener esto en cuenta
cuando utilizamos archivos procedentes de otro usuario o departamento. En este caso, abrimos
el fichero puesto que es de confianza.
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



La ventana Seleccionar tabla nos muestra las tablas y vistas o consultas existentes en la BD,
para seleccionar la que nos interese. Solamente podemos seleccionar una tabla, por lo que, si
deseamos cargar datos procedentes de diferentes tablas, tendremos que repetir esta operacin
para cada una de ellas.

Una vez seleccionada una tabla, se cargan los datos en la hoja activa, incluyendo las
cabeceras con el nombre de las columnas.



Una vez cargados los datos, la barra de herramientas de datos externos nos permitir:

- modificar la consulta, por ejemplo filtrar los datos mediante una sentencia SQL


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


- establecer propiedades del rango de datos y comportamiento de la hoja de datos
(actualizacin al abrir, refresco cada cierto tiempo, etc.)



- actualizar los datos inmediatamente



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Caso 2: Acceso como servidor base de datos

Para importar datos desde un servidor de BBDD, acudiremos al men Datos -> Obtener
datos externos -> Importar datos




Por defecto, Excel nos muestra los ficheros existentes para orgenes de datos ya definidos. Si
no disponemos de una conexin para la base de datos, podemos crearla pulsando el botn
Nuevo origen. El Asistente para la conexin de datos nos guiar paso a paso para
establecer una conexin. En primer lugar, seleccionamos el tipo de origen de datos.


Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
En el ejemplo, seleccionamos DSN (nombre de origen de datos) ODBC para abrir el origen de
datos Access instalado por defecto




En la ventana de exploracin, buscamos el fichero datos_climaticos.mdb




A continuacin, seleccionaramos una tabla, tal y como hicimos en el caso anterior
Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral



Por ltimo, guardamos los datos de conexin, para su uso posterior



Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral
Anexo III: Macros en Excel

Qu son las macros?
Las tareas que se realizan con frecuencia pueden automatizarse mediante macros. Una macro
(macroinstruccin) consiste en una serie de comandos y funciones que se almacenan en un
mdulo de Visual Basic y que pueden ejecutarse siempre que sea necesario realizar la tarea.
Son, por lo tanto, programas sencillos pero que pueden resultar tremendamente tiles en
nuestro trabajo diario, con la ventaja de que no es necesario conocer un lenguaje de
programacin para crearlas. Simplemente dejaremos que Excel lo haga por nosotros.
Grabar macros
Al grabar una macro, Excel almacena informacin sobre cada paso dado cuando se ejecutan
de forma manual una serie de comandos. A continuacin, se ejecuta la macro para que repita
los comandos. Si se comete algn error mientras se graba la macro, tambin se graban las
correcciones que se realicen. Visual Basic almacena cada macro en un nuevo mdulo adjunto
a un libro.

Para que una macro se ejecute cada vez que haga clic en un botn determinado o presione
una combinacin de teclas especfica, asigne la macro a un botn de la barra de herramientas,
a un mtodo abreviado de teclado o a un objeto grfico de una hoja de clculo.
Ejecutar fcilmente una macro
Se puede ejecutar una macro seleccionndola de una lista en el cuadro de dilogo Macro.

Centro de Estudios de la Administracin Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, M Paz Moral


Administrar macros
Tras grabar una macro, se puede ver el cdigo de macro con el Editor de Visual Basic para
corregir errores o modificar lo que hace la macro. Por ejemplo, si la macro de ajuste de texto
tambin tiene que aplicar el formato de negrita al texto, se puede grabar otra macro para
aplicar el formato de negrita a una celda y, a continuacin, copiar las instrucciones de esa
macro a la macro de ajuste de texto.
El Editor de Visual Basic es un programa diseado para que los usuarios principiantes puedan
escribir y editar fcilmente cdigo de macro, y proporciona mucha Ayuda en pantalla. No es
preciso saber cmo se programa o se utiliza el lenguaje de Visual Basic para realizar cambios
sencillos en las macros. El Editor de Visual Basic permite modificar macros, copiarlas de un
mdulo a otro, copiarlas entre diferentes libros, cambiar el nombre de los mdulos que
almacenan las macros o cambiar el nombre de las macros.
Seguridad de macros
Excel incluye protecciones para ayudar a proteger contra virus susceptibles de ser transmitidos
por macros. Si se comparten macros con otros usuarios, se puede certificar esas macros con
una firma digital de modo que los dems usuarios pueden comprobar que proceden de una
fuente fidedigna. Al abrir un libro que contiene macros, se puede comprobar su origen antes de
habilitarlas.

Anda mungkin juga menyukai