Anda di halaman 1dari 142

259

PRE-PRCTICAS
260


INTRODUCCIN.


Sera deseable que el alumno construyera hojas de clculo como las del fichero PRCTICAS
partiendo de hojas en blanco. Dado el escaso nmero de horas de prcticas y para que dicho
tiempo se dedique a los aspectos ms relacionados con la asignatura, se han confeccionado
unas PRE-PRCTICAS donde la base de la plantilla como lneas, colores, etiquetas,...
permanece en las hojas y falta por completar aquellas expresiones que hemos considerado
ms interesantes.
Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone
conocido por el alumno, sencillamente se recuerda y aconseja sobre la forma de utilizarlo. Se
pretende as que el alumno conozca mejor cmo se han construido estas hojas para que haga
un uso correcto de ellas y, si fuera el caso, sea capaz de modificarlas y adaptarlas a nuevas
situaciones.

Al faltar el valor de determinadas celdas, otras que dependen de las anteriores aparecern con
mensajes de error de clculo. Esos errores de clculo se irn resolviendo a medida que se
vayan completando las primeras. Todas las celdas, salvo las que el alumno debe completar,
estn protegidas.

Una vez resuelta cada PRE-PRCTICA su contenido debe coincidir con la hoja
correspondiente del fichero PRCTICAS.


261
PRE-PRCTICA 1
Muestreo aleatorio simple en poblaciones infinitas

En esta pre-prctica completaremos todas las expresiones (celdas amarillas) del caso numrico
y aquellas del caso no numrico que son diferentes de las anteriores.

Las expresiones o funciones ms habituales estn en Excel y nos podemos referir a ellas
simplemente indicando su nombre. As para calcular la media aritmtica, en lugar de escribir
la expresin de la suma de las celdas donde estn los datos y dividir por el nmero datos,
usaremos la funcin PROMEDIO.
Para contar el nmero de datos de la muestra usaremos la funcin CONTAR y para hallar la
cuasivarianza utilizaremos VAR.
Todas las funciones de Excel van precedidas por el signo =. Cuando una funcin, como las
anteriores, se refiere a los datos contenidos en un rango de celdas (conjunto continuo de
celdas), indicaremos la primera y ltima celda separadas por dos puntos (p.e.,
=CONTAR(C21:C100)). Si el rango de celdas ocupa ms de una columna, se indicar la
primera celda de la primera columna y la ltima celda de la ltima columna.
Para completar las expresiones de las celdas C12, C13, C14, C15, C18, D11, D12 Y D18 nos
basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los
apuntes y en el formulario. Recordemos que debemos empezar siempre con el signo =, que las
operaciones aritmticas habituales estn representadas por los conocidos smbolos del teclado
262
+ , , * , / . Para la raz cuadrada utilizaremos la funcin RAIZ (p.e. =RAIZ(D11)) y para las
potencias el smbolo del acento circunflejo francs ^ (p.e., para elevar B3 al cuadrado:
=B3^2).

PRE-PRCTICA 2
Muestreo aleatorio simple en poblaciones finitas

El muestreo aleatorio simple en poblaciones finitas es anlogo en sus expresiones al caso
infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones
finitas que aparece en la expresin de la varianza del estimador de la media

2
-
( )
S N n
V y
n N
(
| |
=
| (
\ .

y la novedad de que no slo se puede estimar la media sino tambin el
total.

Utilizando las relaciones de la estimacin del total y su varianza con los correspondientes
valores para la media

( )
2
, ( ) ( ) N y V N V y = =

completaremos las celdas D10 y D12.
263
La varianza para el estimador de la media (y proporcin) en C12 (y E12) es anloga a la del
caso infinito salvo el coeficiente corrector para poblaciones finitas:

2
-
( )
S N n
V y
n N
| |
=
|
\ .
,


-
( )
1
pq N n
V p
n N
| |
=
|

\ .
.
En las celdas C18, D18, E18 y F18 calculamos el tamao de la muestra n segn las
expresiones que aparecen en el formulario. Debe decirse en este punto que debemos usar los
parntesis necesarios para que el orden de las operaciones sea el correcto.

2
2
( 1)
N
n
N D

=
+

2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=
( 1)
Npq
n
N D pq
=
+

2
( )
4
B
D proporcin =
2
2
( )
4
B
D total
N
=

Para facilitar la escritura en Excel de algunas expresiones del fichero PRCTICAS, stas se
han simplificado previamente y lo que aparece no es la trascripcin fiel de cmo estn en los
apuntes de clase y en el formulario.
La cota del error de estimacin y los extremos de los intervalos de confianza tienen en este
tipo de muestreo y en los que siguen la misma expresin que se ha visto para el muestreo
aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una
de las pre-prcticas.

PRE-PRCTICA 3
Muestreo aleatorio estratificado

Trabajaremos sobre el modelo de tres estratos, caso numrico. Los modelos de dos y cuatro
estratos as como el caso no numrico se han construido de forma anloga.
Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio
simple por lo que sern vlidas las expresiones construidas para este tipo de muestreo en la
pre-prctica anterior. Tambin sern tiles las funciones copiar y pegar para no tener que
repetir una por una todas las expresiones en cada uno de los estratos.
En primer lugar y para ilustrar lo ltimo dicho, observemos que en la pre-prctica aparece en
la parte superior (donde calculamos los estimadores y sus errores) slo las expresiones para el
primer estrato (segn el muestreo aleatorio simple). Si se observa se ver que dichas
expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). Anlogas
264
expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la
columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas
expresiones dos o ms veces, dependiendo del nmero de estratos, usaremos las acciones
copiar y pegar.

Marcaremos el rango de celdas que va de C9 a D15, seleccionaremos copiar, marcaremos el
rango E9:F15 (o slo la primera de las celdas, E9) y con la opcin pegar se copiarn las
expresiones del estrato 1 en el estrato 2 pero, como puede comprobarse, referidas a la columna
E en lugar de C. Repetiremos lo mismo para el estrato 3.
Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de
cada estrato pero no de la poblacin global (columnas I y J). Dadas las conocidas relaciones
entre la media y el total (trabajado en la pre-prctica anterior) nos vamos a centrar en la media
y concretamente en las expresiones que son diferentes de todo lo que hasta aqu se ha visto.
Para calcular en I8 el tamao total de la poblacin (igual en I9 para el tamao total de la
muestra) debemos sumar los correspondientes tamaos en cada estrato. Para eso se puede usar
el smbolo + o la funcin SUMA ( =C8+E8+G8 o =SUMA(C8:G8)). Cuando usemos la
funcin SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos
los dos puntos por punto y coma (por ejemplo, =A5+B15+F3 es igual a
=SUMA(A5;B15;F3)). Esto ltimo es lo que se ha hecho en las expresiones de I10 y I12 que
se podran igualmente haber escrito usando el smbolo + sencillamente.
265

Para facilitar la construccin de las expresiones correspondientes a las distintas asignaciones
se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en
esas sumatorias. Como las expresiones son las mismas para cada estrato, pero referidas a los
datos de cada uno, escribiremos primero las correspondientes al estrato 1 (C16, C17, C18 y
C19) y posteriormente como se hizo antes, las marcaremos, seleccionaremos copiar y
pegaremos en las celdas E16, E17, E18 y E19 para el segundo estrato y en G16, G17, G18 y
G19 para el tercero.

Dada la analoga de las expresiones para las distintas asignaciones en el caso de la media y
total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel), nos
centraremos en el caso de la media.
TAMAO
MUESTRAL

MEDIA y TOTAL







ASIGNACIN
PTIMA

1 1
2 2
1
( )
L L
i i
i i i
i i
i
L
i i
i
N
N c
c
error fijo B n
N D N

= =
=
=
+


1
1
( )
L
i i
i
i
L
i i i
i
N
C
c
coste fijo C n
N c

=
=
=


1
j j
j
j L
i i
i
i
N
c
N
c

=
=





ASIGNACIN DE
NEYMAN

2
1
2 2
1
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
=
+


1
j j
j L
i i
i
N
N

=
=





ASIGNACIN
PROPORCIONAL

2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N

=
=
=
+


j
j
N
N
=
266


D
2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=

De acuerdo a las expresiones de n para cada tipo de asignacin, confeccionaremos las celdas
I22, I23, I24 Y I25, a continuacin calcularemos los tamaos de las muestras de cada estrato
segn la expresin
i i
n n = en las correspondientes celdas de las columnas C, E y G. Los
coeficientes de asignacin son similares para cada estrato por lo que los escribiremos para el
estrato 1 en la columna C y lo copiaremos en los otros estratos.
Una novedad en relacin a las copias que se han hecho antes es que aparece el smbolo $
precediendo bien la letra o el nmero que definen la posicin de una celda. Este smbolo tiene
la propiedad de fijar el valor de la columna (letra) o fila (nmero) a la hora de hacer copias.
Como es conocido, cuando copiamos la expresin de una celda en otra, todas las letras y
nmeros relativos a la posicin de las celdas referenciadas en la expresin cambian avanzando
o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde
copiamos. Para que esto no sea as (cuando nos convenga, como el caso que nos ocupa de las
asignaciones) con el smbolo $ fijaremos las posiciones de las celdas que no queramos que
cambien en la copia.
Nota: se recuerda que el hecho de que aparezca el smbolo $ en la referencia a una celda no
cambia en absoluto su valor.
Segn las anteriores aclaraciones escribiremos
i i
n n = en las celdas C22, C23, C24 y C25
(observe que el valor de
i
es el mismo en C22 y C25, en ambos casos usamos la asignacin
ptima), y posteriormente lo copiaremos en E22, E23, E24 y E25 para el estrato 2 y en G22,
G23, G24 y G25 para el estrato 3.
En la siguiente pantalla se pueden observar algunos de los anteriores comentarios.
1 1
1
j j
j
L
i i
i
i
N
c
n n n
N
c

=
= =


$I22=n C19=
1 1
1
N
c

$C19+$E19+$G19=
3
1
i i
i
i
N
c


Los parntesis que aparecen en la expresin de la celda C22 y en otras
(=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el
orden adecuado.
267


PRE-PRCTICA 4
Estimadores de razn, regresin y diferencia

En esta pre-prctica estimaremos la razn R y la media utilizando estimadores de razn ,
regresin y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas
a partir de la media).

268
Los valores de los estimadores as como de sus varianzas se expresan fcilmente en las celdas
C12, C13, D12, D13, F12, F13, H12 y H13. Slo un detalle digno de mencin: debido a los
ceros que aparecen en las columnas E (
i
rx ), F (
2
( )
i i
y rx ), H (
i i i
d y x = ) e I (
2
i
d ) cuando se
opera sobre valores inexistentes de las columnas C y D, se tiene que utilizar en H12 la
expresin =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la
funcin PROMEDIO incluira a todos los ceros como datos, obteniendo un valor falso para
dicha media).

Por esta misma razn, al hallar las varianzas residuales C17 y H17 se han usado las
expresiones:
( )
2
2
1
1
1
n
r i i
i
S y rx
n
=
=


C17 =SUMA(F22:F100)/(C11-1)
( ) ( )
2
2
2 1
2 1 1
2 2
2 1
1 1
1 1
( )
1 1 1 1
n
i n n
i
i i
n
i i
i n n
i
D i i i i i i
i i
d
d d n
n
d
n
S y x d d d d y x
n n n n
=
= =
=
= =
| |
|
| |
|
|
| \ .

|
\ .
= + = = = =



En la anterior lnea aparecen distintas formas de escribir la cuasivarianza de las diferencias.
En las PRCTICAS hemos utilizado la ltima.
H17 =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1)
Nota: Mucho cuidado, no confunda
2
1
n
i
i
d
=

y
2
1
n
i
i
d
=
| |
|
\ .

.

Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados clculos de las
columnas E, F, H e I se hubiese utilizado la funcin =SI(condicin; accin si cierta; accin si
falsa), como veremos en la prctica 6. A pesar de esta posible solucin se ha dejado as esta
hoja de prcticas para que seamos conscientes del peligro de esos falsos ceros que aparecen
cuando se opera de esta forma.

La complicada expresin de la varianza residual para los estimadores de regresin (F17) se
ve facilitada porque su raz cuadrada (desviacin tpica residual) es la funcin de Excel
=ERROR.TIPICO.XY.
Nota: Cuidado al escribir los argumentos de esta funcin. En primer lugar se colocan las
celdas con los valores de la variable Y (D22:D100) y a continuacin despus del punto y
269
coma los valores de la variable X: =ERROR.TIPICO.XY(D22:D100;C22:C100). Hacerlo al
revs supondra calcular la desviacin tpica residual para la recta de regresin de X/Y

( )
x a by = +

que no es la recta utilizada en el modelo de los estimadores de regresin.

Si observamos el formulario, los tamaos muestrales (tanto para la media como para el total)
para conseguir un determinado error de estimacin mximo, son similares salvo que cada tipo
de estimador considera su varianza residual.
2 2 2
2 2 2
r L D
r L D
N N N
n n n
ND ND ND


= = =
+ + +

Basndonos en el anterior comentario y utilizando para copiar el smbolo $ donde sea
necesario, bastar con crear las expresiones D19 y E19 y copiarlas en F19, G19 y H19, I19.
A la hora de determinar el tamao muestral para estimar el total se ha tenido en cuenta la
siguiente simplificacin en las anteriores expresiones:
2 2
2
4 4
B B
ND N
N N
= = ,
por ejemplo E19 =($C8*C17)/(C17+((E18^2)/(4*$C8))).
La expresin C19 es algo distinta y no se puede copiar directamente de las anteriores
expresiones, es exactamente igual a D19 salvo el valor
2 2
4
x
B
D

= .

Para completar las columnas E, F, H e I, escribiremos las expresiones en las celdas E22, F22,
H22 e I22,
(E22=$C$12*C22, F22=(D22-E22)^2, H22=D22-C22, I22=H22^2)
posteriormente copiaremos desde E22 hasta E100 (colocando el ratn en la esquina inferior-
derecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F, H e I de igual
forma. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100
habr que fijar con el smbolo $ dicha celda (no es necesario fijar C anteponindole el $,
aunque aparece as en la prctica, basta con escribir C$12 puesto que al copiar no nos
movemos de columna, slo nos movemos de fila).

En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de
regresin. En G22 la calcularemos, segn nuestros apuntes, a partir de la covarianza y
varianza. En G23 aparece segn la funcin de Excel que nos da dicho valor. Con esta
coincidencia se quiere mostrar que en este caso, como en otros, puede haber distintas
alternativas para calcular un mismo valor.
270
G22 =COVAR(C22:C100;D22:D100)/VARP(C22:C100)
G23 =PENDIENTE(D22:D100;C22:C100)
Notas: La misma advertencia que se hizo con la funcin
=ERROR.TIPICO.XY(D22:D100;C22:C100) vale aqu. Las celdas en las que se encuentran
los valores de Y y de X deben aparecer en la funcin PENDIENTE en dicho orden pues si se
altera estaramos calculando la pendiente de la recta de regresin de X/Y. En algunas
funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que
aparezcan las celdas con los valores de X e Y es indiferente. Se sugiere escribir estas
funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo.
La funcin VARP es la varianza de los datos de la muestra mientras que la funcin VAR es la
cuasivarianza de la muestra.

PRE-PRCTICA 5
Muestreo sistemtico

Los clculos para este tipo de muestreo se basan en el muestreo aleatorio simple para
poblaciones finitas que ya se ha estudiado. La nica novedad que presenta respecto a ste es el
clculo de k, el cual se ilustra en la PRACTICA 5 RESUELTA.

271
PRE-PRCTICA 6
Muestreo por conglomerados

En esta pre-prctica haremos uso de la funcin =SI a la que hacamos referencia ms arriba
en la pre-prctica 4. Recordemos su formato,
=SI(condicin; accin si cierta; accin si falsa)

De las celdas cuya expresin vamos a completar en esta pre-prctica

C13, C19, D12 y D13 se construyen utilizando la anterior funcin =SI que nos permite
realizar dos clculos (o acciones) distintos dependiendo de una condicin. En nuestro caso
concreto la condicin va a ser el conocimiento o no del tamao de la poblacin M o lo que es
equivalente el conocimiento o no del tamao medio de los conglomerados de toda la
poblacin
M
M
N
= . Si el contenido de la celda C8 es vaco (C8=) se entender que no se
conoce M y se proceder de una manera (accin si cierta), en cambio si la celda C8 no est
vaca se utilizar dicha informacin y se proceder de otra forma (accin si falsa).
En C13 y C19 las dos formas de proceder consisten en usar 11 m C = o
8
9
C
M
C
=
(aparece
subrayado).
C13 =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))
272

En D12 y D13 (tambin en D14, D15 y D16) dejaremos la celda en blanco () si no tenemos
la informacin de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos
esa informacin, D12 =SI(C8="";"";C12*C8)

El resto de celdas de esta pre-prctica (C12, C17, D19, E12, E13, E17 y E19) se resuelven
fcilmente a partir de las correspondientes expresiones del formulario.
La funcin =SI se podra haber utilizado en el clculo de las celdas E23 a E100 y F23 a F100
para evitar la aparicin de ceros falsos como se anunci en la pre-prctica 4. En la celda
E23 escribiramos =SI(C23=;;C$12*C23) y copiaramos su contenido hasta la celda
E100. En la celda F23 escribiramos =SI(D23=;;(D23-E23)^2) y copiaramos su
273
contenido hasta la celda F100. Como puede comprobarse, de esta manera no aparecen ceros
falsos y los problemas que comentbamos en la pre-prctica 4.

PRE-PRCTICA 7
Estimacin del tamao de la poblacin

Utilizando las operaciones algebraicas bsicas, potencias y logaritmos neperianos (=LN) se
completan sin ningn tipo de nueva dificultad, a partir del formulario, las celdas C17, C18,
D17, D18, E17, E18, E23, E24, F17, F18, F23 y F24. La cota del error de estimacin y los
intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de
tipos de muestreo.


274
275


















PRCTICAS
276
INTRODUCCIN


Se han diseado unas hojas de clculo en Excel que permiten calcular todas las expresiones
sobre muestreo, indicadores estadsticos regionales y medidas de localizacin espacial que se
estudian en la asignatura.

Aunque el formato de cada hoja es distinto dependiendo de los clculos que en ella se
realizan, hay unas caractersticas comunes que vamos a describir en primer lugar:
Las celdas en las que debemos introducir los datos de la muestra son de color gris.
Las celdas en las que calculamos el valor de las expresiones (coeficientes, ndices,
estadsticos,...) son de color amarillo.
Las dems celdas de distintos colores (por motivos meramente estticos) se
corresponden con etiquetas para identificar los valores que aparecen en la hoja.
En la parte superior de cada hoja se calculan los estimadores y errores asociados
(adems de otros valores necesarios y relativos como los intervalos de confianza,...)
por debajo de estas filas y separadas por una o ms filas de color blanco se calcula el
tamao de la muestra (o muestras) necesario para que se pueda hacer la estimacin con
un error mximo fijado de antemano, COTA DEL ERROR DE ESTIMACION
DESEADA (o un coste total mximo, vase el muestreo estratificado)

Para evitar que involuntariamente alteremos las expresiones de estas hojas de clculo se ha
protegido el contenido de todas las celdas salvo las de introduccin de datos (celdas grises).
Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger /
Desproteger hoja o bien copiaremos la hoja del fichero original (PRACTICAS) en una
nueva hoja no protegida (se aconseja esta segunda opcin).

En el desarrollo de la asignatura se propone a los alumnos la realizacin de 9 prcticas con la
ayuda del fichero PRACTICAS.
Para que puedan comprobar la correcta resolucin de las mismas, se ofrecen resueltas en los
ficheros: PRACTICA 1 RESUELTA,.... Las hojas de estos ficheros estn protegidas para
evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen
previamente segn se indica en el prrafo anterior. Una vez resueltos los ejercicios que
aparecen en el enunciado de estas 9 prcticas (que se han seleccionado como representativos
de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos
problemas pueda de las relaciones de ejercicios, resueltos o no, que se le han facilitado.
277

Cuando se vaya a utilizar el fichero PRACTICAS, se debe borrar, antes de introducir los
datos del problema, el contenido de todas las celdas de datos (celdas grises), pues dejar datos
de ejercicios previos podra dar lugar a resultados errneos. Cuando se borren los datos de las
celdas grises aparecern errores de clculo en las celdas donde se evalan las expresiones
sobre dichos datos (#DIV/0!, #VALOR!, #NUM!, ..., dado que se evala la expresin
considerando cero el valor de las celdas vacas). Estos errores desaparecern en cuanto se
introduzcan los correspondientes nuevos datos. En las celdas donde permanezcan dichos
errores son expresiones que no se pueden calcular con la informacin de que disponemos y
por tanto no podemos conocer.

En algunas ocasiones ser necesario introducir la informacin del problema en celdas distintas
a las habituales (grises), para ello desprotegeremos previamente la hoja. Destacamos aqu, por
ser muy frecuente, el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y
muestreo estratificado en lugar de disponer de todos los datos que forman las muestras slo
tenemos la informacin resumida del tamao, media y varianza (en variables numricas) o del
tamao y proporcin (en variables dicotmicas), en ese caso en las correspondientes celdas
(marcadas con un color amarillo ms intenso) escribiremos dichos valores, quedando vacas
las celdas grises correspondientes a los datos muestrales.
(Nota: en la hoja Razn, regresin y diferencia se utilizan distintos tonos de amarillo slo
con fines estticos, no por los motivos indicados aqu para el muestreo aleatorio simple y
estratificado).

El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versin del
programa y de la configuracin de las barras de herramientas, zoom,..., de hecho en este
documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no
resta generalidad ni validez a los comentarios que se acompaan.

Para cada una de las prcticas que siguen se han elegido ejercicios representativos, algunos
estn resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los captulos. Sera
conveniente resolver todos ellos a mano antes de hacerlo con el ordenador, eso ayudar a una
mejor comprensin de cmo se ha construido la plantilla para la prctica y de la potencialidad
del ordenador para resolver este tipo de problemas.
Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que
se resuelven con la ayuda del ordenador y otros a mano, sino que todos los ejercicios que hay
278
en las relaciones de cada captulo se pueden resolver (salvo puntuales excepciones) de ambas
formas y deberan resolverse cmodamente una vez que se dominen estas prcticas tras
resolver los ejemplos que siguen.


Las prcticas 10 y 11 sobre contrastes de hiptesis no paramtricos se realizarn con la
ayuda del programa SPSS. Previo a estas prcticas se ofrece una Introduccin al SPSS
para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una
Guia breve de SPSS para aquellos otros que quieran profundizar ms en su uso.



279
PRCTICA 1

Muestreo Aleatorio Simple en poblaciones infinitas
(o con reemplazamiento)

1. Con objeto de estimar la media poblacional de dos poblaciones infinitas, realizamos
un muestreo aleatorio simple sobre ambas poblaciones, recogiendo en la primera una
muestra de tamao 36 y en la segunda una muestra de tamao 45
MUESTRA 1 MUESTRA 2
26,3
28,5
31,6
25,5
24,6
32,3
35,5
29
27,3
34,6
29,5
28,8
26,6
27,5
35,4
38
29
27
31,5
30,2
29,4
30,6
31,4
25
26
24
29,2
25,5
27,8
26
24
26
31,5
35,3
32,2
34,1
1
0
1
1
0
0
1
1
0
1
1
1
0
0
1
1
0
1
1
0
0
0
1
0
1
0
1
0
0
0
1
1
1
0
1
0
1
0
1
1
0
0
0
0
1
Obtenga en ambos casos:
a. La media muestral.
b. La cuasivarianza muestral.
c. Lmite para el error de estimacin (95% de confianza)
d. Intervalo de confianza para la media poblacional (nivel de confianza del 95%)
Solucin:
MUESTRA 1 MUESTRA 2
a) Media muestral
29, 35 y =

51,11% p =
b) Cuasivarianza muestral
2
1
13, 38
n
S

=
2
1
0, 2556
n
S

=
c) Lmite para el error de estimacin 1,22 0,1507
d) Intervalo de confianza (28,13 , 30,57) (36,04% , 66,18%)

Seleccionamos del fichero Excel PRACTICAS la hoja MAS infinito (Muestreo aleatorio
simple en poblaciones infinitas) y antes de nada, tal y como se aconseja en la
INTRODUCCIN A LAS PRCTICAS EN EXCEL debemos borrar toda la informacin
numrica que hubiera en las celdas grises. Este primer paso comn a todas las prcticas que
siguen no se repetir en la explicacin de cada una para no aumentar innecesariamente la
longitud del documento
280


Dado que los datos de la muestra 1 son numricos los escribiremos en la columna
correspondiente a Datos numricos (columna C) y la muestra 2 por ser dicotmica la
escribiremos en la columna D


Obtenindose la solucin del apartado a) en C10 y D10, del apartado b) en C11 y D11, del
apartado c) en C13 y D13, del apartado d) en C14, C15, D14 y D15.


281
2. Un hipermercado desea estimar la proporcin de compras que los clientes pagan con
su Tarjeta de Compras. Durante una semana observaron al azar 300 compras de las
cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas
con dicha tarjeta.
b) Cuantas compras deberan observarse para estimar, con un error inferior al
2%, la proporcin de compras pagadas con la tarjeta. (Consideren los
datos anteriores como una muestra previa)
c) Si no se tuviera ninguna informacin acerca de los clientes que utilizan la
tarjeta, cuntas compras deberamos observar para asegurar que la anterior
estimacin se realiza con un error inferior al 2%.
Solucin: a) (7,95%, 15,38%), b) n=1.030,61.031, c) n=2.500.
Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo ms intenso
(Herramientas/Proteger/Desproteger hoja...).

Puesto que se trata de una variable dicotmica trabajaremos sobre la columna D. Escribimos
en D9 el tamao de la muestra (300) y en D10 el valor de la proporcin muestral (=35/300)
282


Obtenindose en D14 y D15 la solucin al apartado a): (0,0795 , 0,1538).
Si deseamos ver el valor de una o varias celdas con ms decimales, seleccionaremos stas y
pulsaremos en el botn aumentar decimales de la barra de herramientas formato tantas
veces como decimales se quieran aadir. Anlogamente, con el botn disminuir decimales
redondearemos el resultado con un menor nmero de decimales. (Si la hoja est protegida no
nos permitir hacer este tipo de acciones).
283

En casi todas las hojas (MAS infinito, MAS finito, 2 Estratos, 3 Estratos, 4
Estratos, Razn, regresin y diferencia y Conglomerados) se ha adoptado un esquema
similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y
los errores de estimacin asociados (y clculos relacionados con los anteriores) en la parte
inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se
determina el tamao de la muestra para un lmite del error de estimacin fijado (deseado).
Para esta parte inferior de la plantilla se necesita como informacin, para realizar los clculos,
la cota del error de estimacin deseada y en el caso numrico la varianza muestral que puede
obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta Muestra o bien
a partir del rango (como veremos en el ejercicio 5 de la prctica 2). En el caso dicotmico la
varianza muestral depende de

p (proporcin muestral o estimacin de la proporcin) y este


es el valor que debemos incluir en la plantilla para obtener el tamao muestral,

p puede
obtenerse de una muestra previa que aparecera bajo la etiqueta Muestra, introducirse
directamente si se conoce su valor (como en el apartado b de este ejemplo,

35/ 300 p = ), o
bien, darle el valor 0.5 cuando no se tenga ninguna informacin acerca de su valor (como en el
apartado c).
NOTA: No debe confundirse el tamao muestral que aparece etiquetado en rosa que
corresponde al tamao de una muestra que hemos observado, que ya tenemos, del tamao
muestral que aparece etiquetado en naranja y que nos dice cmo debe ser la muestra que
debemos tomar, por tanto an no se tiene, para conseguir que las estimaciones tengan
284
como mximo un determinado error de estimacin. Asimismo no debemos confundir la
cota del error de estimacin etiquetada en rosa que se refiere al error asociado a una
estimacin hecha con la muestra que hemos observado y por tanto su valor no lo
decidimos nosotros, con la cota del error de estimacin etiquetada en naranja que la
fijamos de antemano.
Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 COTA DEL
ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solucin: n=1030,6

Por ltimo, para resolver el apartado c), dado que no se tiene informacin sobre la proporcin
de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167),
suponemos que ese valor es =0,50.

285
En las celdas D11, D12, D13, D14 y D15 aparecen errores en el clculo de dichas expresiones
debido a que entienden que el tamao muestral en D10 es cero, pero dichas celdas no afectan
al clculo de la expresin D18 donde aparece el tamao muestral necesario para que el error
de estimacin no supere el 2% (D17=0,02)
3. Este mismo hipermercado desea estimar tambin el valor medio de las compras
realizadas con su Tarjeta de Compras. Basndose en los anteriores datos observa
que el valor total de las compras hechas con la tarjeta fue de 4.500 (siendo la
cuasivarianza de los datos 615,15). Estmese el valor medio de las compras pagadas
con la tarjeta y el error de estimacin asociado.
Solucin:

128, 57 8, 38 B = =

Aunque en el mismo contexto que el ejercicio 2 de esta prctica, en este caso trabajamos con
una variable numrica donde el tamao de la muestra no es 300 sino 35 (clientes observados
que pagaron con la tarjeta).
En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos
mediante su media (la calculamos como la suma de las compras dividida entre el nmero de
ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja
de clculo para poder introducir directamente en las celdas color amarillo intenso los
anteriores valores que la hoja de clculo hubiese obtenido si le diramos los datos de la
muestra.

La estimacin de la media y el error de estimacin asociado pueden leerse en las celdas C10 y
C13.
286

PRCTICA 2

Muestreo Aleatorio Simple en poblaciones finitas.

Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de
poblaciones infinitas estudiado anteriormente y presenta anlogas posibilidades y/o
dificultades. Nos podemos encontrar con variables de tipo numrico (ejercicios 1, 2 y 3) y
dicotmicas (ejercicios 3 y 4). Situaciones en las que conocemos explcitamente los datos de
la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra
en su media, varianza y tamao muestrales (caso numrico, ejercicio 2) o en su proporcin y
tamao muestrales (caso dicotmico, ejercicio 4).
En cuanto a las diferencias entre un tipo de muestreo y otro, sealar que en el muestreo
aleatorio simple en poblaciones finitas tiene sentido la estimacin del total poblacional (como
sabemos, a partir de la media o de la proporcin) hecho que no se trata en el muestreo
aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las
estimaciones, errores de estimacin e intervalos de confianza, tanto en el caso numrico como
dicotmico, se han desdoblado para calcular los correspondientes valores relativos a la
estimacin de la media (o proporcin) y del total. Dado que nos enfrentamos a una poblacin
finita debemos introducir el valor finito del tamao de la poblacin en C8 o E8. Cuando
algunos valores (tamao poblacional, tamao muestral,..., datos muestrales) son comunes a la
estimacin de la media y del total se fusionan las celdas de las dos columnas para evitar
repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente
pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en
poblaciones finitas.

287

1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada
para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la
muestra para estas seis cuentas son los siguientes:
Dinero adeudado ()
35,50
32,00
43,00
41,00
44,00
42,50
a) Estime el total del dinero adeudado y establezca un lmite para el error de
estimacin.
b) Cuntas cuentas deberan observarse para estimar el total de deuda con un error
inferior a 200? (considere los anteriores datos como una muestra previa)
Solucin: a) 3966,6 =

2 ( ) 381, 02 V =

b) 18, 96 19 n =
En este sencillo ejercicio slo tenemos que borrar los datos de las celdas grises e introducir la
informacin del enunciado. No es necesario desproteger la hoja porque no se modifica
ninguna de las expresiones de las celdas amarillas.

288
Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el mximo error de
estimacin que deseamos en la celda D17 se obtiene el tamao muestral necesario en D18,
(si el error de estimacin se refiere a la media, ste debe introducirse en C17).
2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una
comunidad de regantes para estimar el promedio de consumo de agua diario (en m
3
)
durante un periodo estacional seco. La media y varianzas muestrales fueron
3
10, 31 y m = y
2 6
2, 25 s m = . Hay en total 750 regantes en la comunidad.
a) Estime el consumo medio diario de toda la comunidad y establezca un
lmite para el error de estimacin.
b) Estime con un intervalo de confianza la cantidad total de litros de agua
empleada diariamente.
Solucin: a)
3 3
10, 31 0, 41 y m B m = = , b) (7.425.090 litros , 8.039.910 litros).
En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que
desprotegerla para escribir en C9, C10 y C11 el tamao, la media y varianza muestrales,
adems de no olvidar el tamao de la poblacin en la celda C8. En C10 y C13 est la
respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores estn
expresados en m
3
y la respuesta la piden en litros por lo que se multiplicarn por 1000).

289
3. Para estimar el nmero de alumnos de un grupo de la asignatura Tcnicas para el
Anlisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los
15 alumnos de un grupo de prcticas de la asignatura. La respuesta se recoge en la
siguiente tabla
1-SI
2-SI
3-NO
4-SI
5-NO
6-NO
7-SI
8-SI
9-SI
10-NO
11-NO
12-NO
13-SI
14-SI
15-NO
a) Estime, mediante un intervalo de confianza, cuntos de los 150 alumnos
que hay en ese grupo tienen acceso en casa a Internet.
b) Le parece fiable la prediccin?.
c) A cuantos alumnos se tendra que preguntar para que la estimacin se
realizara con un error inferior a 10 alumnos.
Solucin: a) (42,05 , 117,95), b) No, el error es muy grande (37,95) y por tanto el
intervalo de confianza muy amplio, c) n=90,191.
Este ejercicio es un sencillo ejemplo de datos dicotmicos donde se conocen los valores de la
muestra, slo tenemos que introducirlos en la columna correspondiente, etiquetando como 1
aquella respuesta cuya proporcin o total queremos estimar (en este caso SI=1, NO=0).
Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en
la filas 14 y 15 la respuesta. El valor de la cota del error de estimacin del total que vemos en
F13=37,95 es importante si lo comparamos con la estimacin del total F10=80 (casi la mitad),
por lo que se concluye la poca fiabilidad de la estimacin. Escribiendo el mximo error de
estimacin que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el
tamao muestral necesario para conseguirlo.

290

4. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada
para determinar la proporcin de estudiantes que est a favor del cambio del sistema
semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente.
Estime la proporcin de estudiantes que est a favor del cambio y establezca un lmite
para el error de estimacin.
Solucin:

19, 44% 3, 74% p B = =


En este ejemplo de datos dicotmicos (como el anterior) no tenemos explcitamente la lista de
los 180 elementos observados pero conocemos el tamao (180) y la proporcin muestral
(35/180). Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y
E10 (=35/180)

apareciendo en E10 y E13 la respuesta.

NOTA: En ejemplos con datos dicotmicos donde se tenga la lista completa de los valores de
la muestra se puede optar por este procedimiento de resolucin que resulta a veces ms
cmodo. As por ejemplo, en el ejercicio anterior podramos haber contado los elementos de la
muestra n=15, el nmero de respuestas SI=8, desproteger la hoja de clculo y escribir en E9
(15) y en E10 (=8/15).
291


5. Encuentre el tamao de muestra necesario para estimar el valor total de 1.000
cuentas por cobrar con un lmite para el error de estimacin de 10.000. Aunque no
se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que
la mayora de las cuentas caen dentro del intervalo (600, 1.400).

NOTA: En la casilla C11 estimamos la varianza mediante
( )
2
2
2
1400 600
40.000
16 16
R


= =
(se utiliza que la desviacin tpica en variables normales es aproximadamente la cuarta
parte del rango o recorrido de los datos observados)
Solucin: 615, 62 616 n =

En primer lugar, sealar que se trata de un problema con datos numricos (valor de las
cuentas) y que estamos interesados en la estimacin del total. Segn se sugiere en la nota,
escribiremos en la celda C11 la expresin =((1400-600)^2)/16 ,o bien =(800^2)/16, que como
puede observarse vale 40000. En D17 introduciremos el mximo error de estimacin que
queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta
292



293
PRCTICA 3

Muestreo Aleatorio Estratificado.

En el fichero Excel de las prcticas de la asignatura hay tres hojas con las plantillas para los
clculos necesarios en el muestreo aleatorio estratificado de 2, 3 y 4 estratos, tanto para datos
numricos como dicotmicos. Para un mayor nmero de estratos se puede confeccionar la
plantilla fcilmente copiando las dos columnas de un estrato tantas veces como se quiera e
incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos
columnas de toda la poblacin donde se recopila la informacin del conjunto de todos los
estratos (vase las notas sobre las preprcticas).
El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los
estratos, por lo que en cada estrato (en la parte superior de la plantilla) se han copiado,
exactamente, las mismas expresiones que aparecen en el muestreo aleatorio simple. La
determinacin del tamao muestral y su asignacin (parte inferior de la plantilla) son mucho
ms complejas que en el muestreo aleatorio simple y no guardan relacin con l.
Al igual que el muestreo aleatorio simple, el muestreo aleatorio estratificado puede hacerse
sobre poblaciones finitas e infinitas. Nosotros hemos supuesto el modelo con tamaos
poblacionales de los estratos finitos (que aparecen en la fila 8), pero como veremos en algunos
ejemplos ( ejercicios 4 y 8) se puede aplicar tambin al caso de tamaos poblacionales
infinitos.
Para simplificar las expresiones de la parte inferior de la plantilla (determinacin del tamao
muestral y asignacin) se han hecho unos clculos previos en la banda blanca intermedia que
aparecen en un negro menos intenso y carecen de una interpretacin directa.

1. Se est interesado en determinar la audiencia de la publicidad televisiva en una
cadena local de un municipio, se decide realizar una encuesta por muestreo para
estimar el nmero de horas por semana que se ve la televisin en las viviendas del
municipio. ste est formado por tres barrios con diferentes perfiles socio-culturales
que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio
B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes
como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de
tamaos: 15 del barrio A, 6 del barrio B, y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los
resultados, con mediciones del tiempo que se ve la televisin en horas por semana, se
294
muestran en la siguiente tabla:
BARRIO A BARRIO B BARRIO C
36
39
38
28
29
34
38
37
41
37
26
32
29
35
41
20
30
14
41
39
25

14
15
21
20
24
22
17
11
14

Estime el tiempo medio que se ve la televisin, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un lmite para el error de estimacin.
e) Qu tipo de asignacin se ha utilizado?
NOTA: Obsrvese que debido al tipo de asignacin utilizado,
st
y y = .
st
y aparece en la celda I10=28,23. y lo podemos calcular, por ejemplo en la celda B28,
escribiendo la funcin =PROMEDIO(C28:G100) que calcula la media aritmtica de
todos los datos incluidos en las tres muestras (columnas C, E y G), obtenindose
B28=28,23.
Debido a los traslados necesarios no cuesta lo mismo obtener una observacin en un
barrio que en otro. Se estima que el coste de una observacin del barrio A es de 1, 9
para el barrio B y 4 para el barrio C.
f) Cuntos hogares deberan entrevistarse para estimar el nmero medio de horas a
la semana que se ve la televisin en los hogares del municipio con un error
inferior a 1 hora. (Tmese los anteriores datos como una muestra previa para
estimar los parmetros necesarios).
NOTA: Para comprobar que la asignacin ptima y de Neyman coinciden cuando los
costes son iguales, escriba en las celdas C21, E21 y G21 el mismo valor para los tres
costes y observar que las filas 22 y 23 de la tabla (asignacin ptima y de Neyman)
coinciden.
g) Supngase que se tiene slo 600 para gastar en el estudio, determine el tamao
de la muestra y la asignacin que minimizan el error de estimacin. (Como en el
apartado anterior, tmese los datos de la tabla como una muestra previa para
estimar las varianzas de los estratos).
295
Solucin: a) 34, 67 2, 40
A
y B = = b) 28,17 8, 35
B
y B = =
c) 17, 56 2, 82
C
y B = = d) 28, 23 2, 22
st
y B = = e) proporcional
f)
1 2 3
n=124,88 n =79,71 80 n =23,39 24 n =21,78 22 n=80+24+22=126 . En
el caso de no querer sobrepasar un mximo error de estimacin siempre redondearemos
por exceso.
g)
1 2 3
n=198,56 n =126,74 126 n =37,19 37 n =34,63 34 n=126+37+34=197 .
Cuando no queramos superar un determinado presupuesto redondearemos por defecto,
hacindolo as : (1 126) (9 37) (4 34) 595 coste total = + + =
sin embargo: (1 127) (9 38) (4 35) 609 coste total = + + =
Estamos ante el caso ms sencillo de estratos con datos numricos donde slo tenemos que
introducir la informacin que tenemos en las celdas grises. No hace falta desproteger la hoja
3 Estratos salvo para los clculos del apartado e (motivo por el que lo resolveremos al final).
Para responder a los apartados a, b, c y d , escribiremos los tamaos poblacionales de los
estratos en la fila 8 y los valores de las muestras en las columnas C, E y G bajo las etiquetas
Muestra 1, Muestra 2 y Muestra 3.
NOTA: No olvide pulsar Enter despus de escribir el ltimo dato pues en caso contrario
la hoja de clculo no lee ste.
La estimacin para la media y su lmite para el error de estimacin en cada uno de los estratos
(barrios) pueden verse en C10, C13; E10, E13; G10, G13 y la estimacin para el conjunto de
todos los hogares de la poblacin en I10, I13.

296
Para contestar al apartado f, escribiremos los costes de observacin en C21, E21 y G21 y el
mximo error de estimacin que queremos cometer al estimar la media en I20 (si
pretendiramos estimar el total de horas con un determinado error utilizaramos la celda J20).
En las filas 22, 23 y 24 estn los tres tipos de asignacin estudiados. Nos fijaremos en los
valores que aparecen en las columnas correspondientes a la media de cada estrato y de la
poblacin porque ha sido sobre la estimacin de la media donde hemos impuesto la condicin
de que el error no supere 1 hora. A los valores que hay a la derecha de stos y que se refieren
al total no hay que prestarles atencin, se han calculado suponiendo que queremos estimar el
total con un error cero (celda J20 en blanco) y carecen de sentido, obsrvese que en el caso de
la asignacin ptima deberamos observar 453 elementos de un total de 420 que hay en toda
la poblacin, con la asignacin de Neyman habra que observar en el estrato 2 a 130
elementos, sin embargo slo hay 84 en ese estrato.
Hechas estas aclaraciones nos queda an la decisin de cul de las tres asignaciones debemos
tomar. Salvo que se pregunte por una asignacin concreta en el enunciado del ejercicio,
debemos utilizar siempre que se pueda la asignacin ptima, fila 22, pues como su nombre
indica es la mejor. Cuando no conozcamos los costes de observacin (brrese estos de la fila
21) no se podr obtener la asignacin ptima, la hoja de clculo nos dar errores de divisin
por cero.

297
En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un
presupuesto o coste total fijo, en este caso 600. Para ello utilizamos la asignacin ptima
para un coste total fijo, fila 25. La solucin la tenemos en la pantalla que aparece en la pgina
19 de este documento (celdas C25, E25, G25, I25). La celda B21 incluye dos etiquetas, la
primera COSTE DE UNA OBSERVACIN se refiere a lo que cuesta una observacin en
cada estrato y debemos escribirlo en C21, E21 y G21, la segunda etiqueta COSTE TOTAL
hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21.
La determinacin y asignacin de las muestras en los apartados f y g utilizan las estimaciones
de las varianzas de los datos en cada estrato (varianza muestral, fila 11) a partir de las
muestras previas de 15, 6 y 9 elementos que disponemos en los respectivos estratos, tal y
como se indica en el enunciado.
En el apartado e vamos a verificar que se ha utilizado la asignacin proporcional en la
muestra observada. Para comprobarlo hay que ver que
3 1 2
1 2 3
n n n n
N N N N
= = = o
equivalentemente
3 1 2
1 2 3
N N N N
n n n n
= = = . Para ello en cualesquiera tres celdas en blanco
calcularemos: =C8/C9, =E8/E9, =G8/G9 y observaremos que coinciden.
Nota: Para hacer esos clculos en esta hoja habr que desprotegerla. Si coinciden estos
tres valores no es necesario comprobar la igualdad con =I8/I9.
Consecuencia de haber utilizado la asignacin proporcional es que
st
y y = . Ese hecho se ha
comprobado calculando y en B28 y observando que coincide con
st
y en I10 (vase pantalla
de la pgina 19).
2. En el caso anterior, tambin se desea saber qu proporcin de hogares ven un
determinado programa, para decidir la conveniencia de insertar un anuncio en los
intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los
hogares de la muestra anterior se recoge a continuacin:
BARRIO A BARRIO B BARRIO C
SI
SI
NO
NO
SI
NO
SI
NO
SI
NO
SI
SI
NO
NO
NO
SI
NO
SI
SI
SI
SI

NO
SI
SI
NO
SI
SI
SI
SI
NO
a) Estime con un intervalo de confianza la proporcin de hogares del municipio
donde se ve el programa.
b) Cuntos hogares deberan entrevistarse si se quisiera hacer dicha estimacin con
un error inferior al 5%. (Supngase que se realiza la entrevista por telfono y el
298
coste de las observaciones es el mismo para todos los casos al no ser necesarios los
traslados. Tmese los anteriores datos como una muestra previa para estimar los
parmetros necesarios)
c) Respndase a la pregunta anterior pero suponiendo que no se tiene ninguna
informacin previa sobre la proporcin de hogares donde se ve el programa.
Solucin: a) (42,7% , 77,3%)
b)
1 2 3
n=188,98 n =101,29 102 n =30,27 31 n =57,42 58 n=102+31+58=191
c)
1 2 3
n=204,88 n =102,44 103 n =40,98 41 n =61,46 62 n=103+41+62=206
Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aqu
trabajamos con datos dicotmicos. Seleccionaremos en la hoja 3 Estratos la plantilla que
hay a la derecha para datos dicotmicos e introduciremos la informacin en las celdas grises
(no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0.
En el enunciado de este ejercicio no se repiten los tamaos poblacionales de los estratos
porque se sobreentiende que son los mismos al no cambiar de poblacin en estudio.

Tras introducir los datos, en S14 y S15 tenemos los extremos del intervalo de confianza
pedido en el apartado a.
Obsrvese que aunque se dice que los costes de observacin por telfono son los mismos,
stos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la
299
asignacin ptima. Pero sabemos, como se ha comprobado en la nota al apartado f del
ejercicio anterior, que las asignaciones ptima y de Neyman coinciden si los costes de
observacin son iguales (se conozcan o no). Se sugiere escribir unos costes de observacin
(los que se quieran) iguales para los tres estratos y comprobar que la asignacin ptima nos
dara los mismos valores que la asignacin de Neyman (M23, O23, Q23 y S23) que son la
solucin al apartado b.
Cuando, como en el apartado c, no se tienen datos previos para estimar la proporcin en cada
estrato y a partir de ella la varianza de los datos en cada estrato, suponemos que el valor de la
proporcin es 0,5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir
en M10, O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas
MUESTRA 1, MUESTRA 2 y MUESTRA3.

Al no introducir datos muestrales (por tanto, tamao muestral = 0) aparecen errores de clculo
en las filas 11, 12, 13, 14 y 15, pero esos valores no afectan a la determinacin del tamao
muestral que slo tiene en cuenta los tamaos de los estratos (fila 8) y la estimacin de la
proporcin (fila 10). Adems se observa que al ser la proporcin igual en los tres estratos y
por tanto la varianza de los estratos, las asignaciones de Neyman y proporcional coinciden y
son la solucin al apartado c.

300
3. Una multinacional desea obtener informacin acerca de la efectividad de una mquina
comercial. Se va a entrevistar por telfono a un nmero de jefes de divisin, para
pedirles que califiquen la maquina con base en una escala numrica. Las divisiones
estn localizadas en Norteamrica, Europa y Asia. Es por eso que se usa muestreo
estratificado. Los costes son mayores para las entrevistas de los jefes de divisin
localizados fuera de Norteamrica. La tabla siguiente proporciona los costes por
entrevista, varianzas aproximadas de las calificaciones y nmero de jefes de divisin
en cada zona.
Estrato I
(Norteamrica)
Estrato II
(Europa)
Estrato III
(Asia)
112
25 , 2
9 $
1
2
1
1
=
=
=
N
c

68
24 , 3
25 $
2
2
2
2
=
=
=
N
c

39
24 , 3
36 $
3
2
3
3
=
=
=
N
c

La multinacional quiere estimar la calificacin media con un error inferior a 1 punto.
Encuentre el tamao apropiado de la muestra que conduce a este error para el estimador y
su asignacin.
Solucin:
1 2 3
n=11,26 n =6,84 7 n =2,99 3 n =1,43 2 n=7+3+2=12
En la hoja 3 Estratos, tras borrar toda la informacin de las celdas grises, escribimos el valor
de los costes de observacin en la fila 21, las varianzas de los estratos en la fila 11 (hay que
desproteger la hoja) y los tamaos de los estratos en la fila 8. El mximo error de estimacin
que se quiere cometer al estimar la media se sustituye en I20. La solucin sera la asignacin
ptima (fila 22), valen los mismos comentarios hechos en el ejercicio 1, apartado f.

301
4. Una inspectora de control de calidad debe estimar la proporcin de circuitos integrados
de ordenador defectuosos que proceden de tres mquinas diferentes de produccin.
Ella sabe que de los circuitos integrados que van a ser inspeccionados, el 50%
proceden de la mquina A, el 30% de la mquina B y el 20% de la mquina C. En una
muestra aleatoria de 200 circuitos integrados, 80 provienen de la mquina A, 70 de la
B y 50 de la C. De los circuitos integrados muestreados: son defectuosos 10 de la
mquina A, de la B son defectuosos 6 y de la C son 5 defectuosos. Estratifique la
muestra en circuitos integrados provenientes de las mquinas A, B y C, estime la
proporcin de defectuosos en la poblacin y fije un lmite para el error de estimacin
(omita los coeficientes correctores para poblaciones finitas en todos los casos).

NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores
para poblaciones finitas
i i
i
N n
N

en la correspondiente hoja de clculo (tres estratos), lo que


equivale a hacerlos igual a 1. Tendramos que (por ejemplo en el estrato 1) borrar en las
frmulas de las celdas M12 y N12 las expresiones
8 9
8
i i
i
N n M M
N M

= (anlogamente
repetiramos para los estratos 2 y 3 en las celdas O12, P12, Q12 y R12) . Lo anterior se
puede resolver ms fcilmente dando a los valores
i
N en las celdas M8, O8 y Q8 valores
muy grandes de forma que 1
i i
i
N n
N

. Por otra parte dado que los valores


i
N no son
conocidos aunque s
i
N
N
(0,50, 0,30 y 0,20), debemos respetar dichas proporciones
(sugerencia M8=50.000.000, O8=30.000.000 y Q8=20.000.000).
Solucin:

10,82% 4, 56%
st
p B = =


Al no disponer de las observaciones muestrales sino de los tamaos de las muestras (
1
9 80 n M = = ,
2
9 70 n O = = ,
3
9 50 n Q = = ) y proporciones muestrales en cada estrato
( 10 10/ 80 M = , 10 6/ 70 O = , 10 5/ 50 Q = ), desprotegeremos la hoja y escribiremos esa
informacin en las filas 9 y 10. No se conocen los tamaos poblacionales de los estratos por lo
grandes que son estos (podemos considerarlos infinitos) pero s se conoce la relacin de estos
tamaos con el de toda la poblacin
3 1 2
100 50%, 100 30%, 100 20%
N N N
N N N
| |
= = =
|
\ .
.

302
Como se indicaba en la introduccin a la prctica 3, las plantillas para el muestreo aleatorio
estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas, pero
estas plantillas pueden utilizarse tambin para el caso de muestreo aleatorio estratificado con
tamaos poblacionales de los estratos infinitos (tan grandes que su tamao es desconocido).
La clave para hacerlo est en la anterior nota. La diferencia entre las expresiones del muestreo
aleatorio simple en poblaciones finitas e infinitas est en que en el primero aparece
multiplicando el coeficiente corrector para poblaciones finitas
N n
N

y en el segundo no (o lo
que es lo mismo, 1
N n
N

= ). As, borrando
i i
i
N n
N

de todas las expresiones o haciendo


1
i i
i
N n
N

= , habremos adaptado nuestras plantillas al caso de muestreo estratificado con


tamaos de los estratos infinitos. Dado que borrar y manipular sobre las expresiones escritas
puede provocar fcilmente errores, si no se hace con toda cautela, proponemos la segunda
alternativa como la forma ms segura de transformar las expresiones del muestreo aleatorio
simple finito en el caso infinito. Para ello en la fila 8 (TAMAO POBLACIONAL)
escribiremos valores muy grandes para los tamaos de los estratos (
i
N ) de forma que
1
i i
i
N n
N

, lo que equivale prcticamente a quitarlo de las expresiones donde aparece. Pero


con esto no acaba todo, no podemos escribir unos tamaos
i
N tan grandes como queramos a
nuestro antojo, dichos tamaos han de respetar la relacin entre los tamaos de los estratos, es
decir, los valores
i
N
N
que habitualmente vienen dados en porcentajes. En este ejercicio:
1
100 50%
N
N
= ,
2
100 30%
N
N
= ,
3
100 20%
N
N
= . Por ltimo, una forma sencilla de asignar
los tamaos a los estratos respetando dichos porcentajes consiste en aadir al porcentaje varios
ceros (el mismo en todos los estratos). En este caso para el estrato 1 hemos tomado 50
millones como tamao poblacional y anlogamente para los otros estratos:
1
M8=50.000.000 N = ,
2
O8=30.000.000 N = y
3
Q8=20.000.000 N =
303

La pequea diferencia entre la solucin del problema B=4,56% y el valor que aparece en la
anterior pantalla (S13=0,0457, es decir, 4,57%) es debido a que trabajamos con 1
i i
i
N n
N

y
no exactamente 1. Si se quiere una mejor aproximacin a la solucin debemos escribir
mayores valores en M8, O8 y Q8, lo que se consigue simplemente aadiendo ms ceros a
dichas cifras (ojo, el mismo nmero en todas!).


5. El Ministerio de Medio Ambiente quiere estimar el nmero total de hectreas
plantadas de rboles en las fincas de una comarca. Ya que el nmero de hectreas de
rboles vara considerablemente con respecto al tamao de la finca, decide estratificar
sobre la base del tamao de las fincas. Las 240 fincas de la comarca son clasificadas
en 4 categoras de acuerdo al tamao. Una muestra aleatoria estratificada de 40 fincas,
seleccionada mediante asignacin proporcional, dio como resultado el nmero de
hectreas plantadas de rboles que se muestra en la siguiente tabla:

304
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
86
1
= N 72
2
= N 52
3
= N 30
4
= N
14
1
= n 12
2
= n 9
3
= n 5
4
= n
97 67 125 155 142 256 167 655
42 125 67 96 310 440 220 540
25 92 256 47 495 510 780
105 86 310 236 320 396
27 43 220 352 196
45 59 142 190
53 21
a) Estime el nmero total de hectreas plantadas de rboles en las fincas de
la comarca y fije el lmite para el error de estimacin.
b) Este estudio se quiere hacer anualmente con un lmite para el error de
estimacin de 5.000 hectreas. Encuentre el tamao muestral y su
asignacin para garantizar dicho lmite de error si se usa la asignacin de
Neyman.
Solucin: a) 50505, 60 8663,12 B = =
b)
1 2 3 4
n=59,7 n =6,9 7 n =16,7 17 n =16,4 17 19, 7 20 n=7+17+17+20=61 n =

Este ejercicio es del mismo tipo que el ejercicio 1: datos numricos y conocemos las
observaciones muestrales, pero en este caso el nmero de estratos es 4. Salvo esa diferencia
(por lo que seleccionaremos en este caso la hoja 4 Estratos) no presenta ninguna dificultad
nueva a las encontradas en el ejercicio 1. Sin necesidad de desproteger la hoja, escribiremos
los tamaos poblacionales de los estratos en la fila 8 y las observaciones muestrales en las
columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaos de las
muestras pues la hoja de clculo los obtiene al contar las observaciones muestrales que se han
escrito debajo).
En L10 y L13 est la solucin al apartado a. Escribiendo en L20 el mximo error que se quiere
cometer al estimar el total de hectreas, se puede leer en la fila 23 (asignacin de Neyman,
dado que no tenemos informacin sobre costes para poder calcular la asignacin ptima) la
respuesta del apartado b (si queremos obtener la solucin con un decimal podemos utilizar el
botn disminuir decimales como se indic en el ejercicio 2 de la prctica 1). Recordemos,
dado que se va a estimar el total, que debemos leer de la fila 23 slo la informacin de las
celdas bajo las columnas TOTAL.
305


6. Para la comarca del ejercicio anterior, el gobierno tambin desea conocer la proporcin
de fincas que han sufrido algn incendio en los ltimos diez aos. Para ello, en la
misma muestra se pregunta sobre el referido asunto, obtenindose las siguientes
respuestas
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
86
1
= N 72
2
= N 52
3
= N 30
4
= N
14
1
= n 12
2
= n 9
3
= n 5
4
= n
NO NO SI NO NO NO NO NO
SI SI NO SI SI NO SI NO
NO NO NO NO NO NO NO
NO NO NO NO NO NO
SI SI NO NO SI
NO NO NO SI
NO NO
Estmese con un intervalo de confianza la proporcin de fincas de la comarca que han
sufrido algn incendio en los ltimos diez aos.
Solucin: (11,9% , 38,21%)
306
Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Seleccionaremos
en la hoja 4 Estratos la plantilla que hay a la derecha para datos dicotmicos e
introduciremos la informacin en las celdas grises (no es necesario desproteger la hoja)
codificando las respuestas SI como 1 y los NO como 0.


7. Una psicloga que est trabajando con un grupo de adultos con retraso mental, desea
estimar su tiempo medio de reaccin a un cierto estmulo. Ella considera que varones y
mujeres probablemente presentarn una diferencia en tiempos de reaccin, por lo que
desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En
estudios previos de este tipo de investigaciones se ha encontrado que los tiempos
presentan una amplitud de variacin de 5 a 20 segundos para varones y de 3 a 14
segundos para mujeres. Los costes del muestreo son los mismos en ambos estratos.
Usando la asignacin ptima, encuentre el tamao muestral necesario para estimar el
tiempo medio de reaccin para el grupo, con un lmite de error de un segundo.
Solucin:
1 2
28, 48 14, 96 15 13, 52 14 15 14 29 n n n n = = = = + =
N=96, N
1
=43, por tanto N
2
=53 .

Como en el ejercicio 5 de la prctica 2 estimaremos la varianza de los datos en cada
estrato a partir del rango o recorrido de los mismos. En el primer estrato escribiremos en la
307
celda C11
( )
2
2
2
20 5
14, 06
16 16
R


= = . Anlogamente en el estrato 2,
( )
2
2
14 3
E11= 7, 56
16 16
R

= = .
Como en el apartado b del ejercicio 2, los costes de observacin en cada estrato son los
mismos. Podemos optar por escribir el mismo coste de observacin en C21 y E21
(cualquier valor, por ejemplo aqu hemos considerado 1) y leer la solucin en las filas 22 y
23, o bien dejar esas celdas en blanco (C21 y E21) y tomar como solucin la asignacin de
Neyman en la fila 23 (la asignacin ptima en la fila 22 dara errores de clculo, divisin
por cero, en este caso)



8. Una verificacin de control de calidad estndar para bateras de automviles consiste
simplemente en registrar su peso. Un embarque particular de una fbrica consisti en
las bateras producidas en dos meses diferentes, con el mismo nmero de bateras
producidas en cada mes. El investigador decide estratificar con base en meses para el
muestreo de inspeccin a fin de observar la variacin mensual. Las muestras aleatorias
simples de los pesos de las bateras para los dos meses dieron las siguientes
mediciones (en libras):
308
Mes A Mes B
61,5 64,5
63,5 63,8
63,5 63,5
64,0 66,5
63,8 63,5
64,5 64,0
a) Estime el peso medio de las bateras del embarque (poblacin), y fije un
lmite para el error de estimacin. Descarte el coeficiente corrector para
poblaciones finitas.
b) El estndar de la fbrica para este tipo de bateras es de 69 libras.
Considera usted que el embarque cumple el estndar promedio?
c) Cree usted que la estratificacin del ejercicio anterior es deseable, o ser
suficiente con muestreo aleatorio simple?
Solucin: a) 63, 88 0, 63
st
y B = =
b) No, 69 no pertenece al intervalo (63,26 , 64,51)
c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendra
63, 88 0, 65 y B = = , que es muy similar a lo obtenido en a) (las medias coinciden por ser
la asignacin proporcional). Esta pequea diferencia entre los errores del muestreo
aleatorio simple y del estratificado se debe a que los estratos no estn formados por datos
ms homogneos que el conjunto de la poblacin, como puede verse al comparar sus
varianzas muestrales
2 2 2
1 2
1, 07 1, 30 1, 27 S S S = = = , por tanto no estara justificado
estratificar basndose en la produccin por meses.

La produccin de bateras no es conocida exactamente debido a su alto nmero, slo nos dice
el enunciado que la produccin es la misma en cada mes. Por tanto hemos de suponer los
tamaos de los estratos infinitos e iguales. Este hecho se confirma cuando en el apartado a se
sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. Este
problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron
vamos a resolver este otro.
As, daremos a los tamaos de los estratos en C8 y E8 valores elevados pero iguales
309

La solucin al apartado a se puede leer en G10 y G13. Para responder al apartado b nos
fijamos en los extremos del intervalo de confianza para la media (G14, G15), dado que el
valor 69 no est entre ambos concluimos que nuestros datos rechazan la afirmacin de que el
peso medio de la produccin de bateras examinada sea de 69 libras.

Para el apartado c juntaremos las muestras de los dos estratos en una nica muestra aleatoria
simple y la analizaremos con la ayuda de la hoja MAS infinito. Observamos que la
estimacin de la media tiene una cota de error de estimacin similar a la del apartado a
(analizando los datos segn un muestreo estratificado). Tal y como se indica en los
comentarios a la solucin del apartado c ms arriba, esto es debido a la falta de homogeneidad
de los datos dentro de cada estrato, hecho que se confirma comparando las varianzas de las
muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusin
de ambas (celda C11 de la siguiente pantalla).
310

311
PRCTICA 4

Estimadores de Razn, Regresin y Diferencia.

En esta plantilla slo tenemos que introducir los valores que aparecen en las celdas grises, no
tenemos que modificar ninguna expresin. No es necesario, por tanto, desproteger la hoja.
Se deber tener cuidado en no confundir los papeles de las variables X e Y cuyos datos
muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La
variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones
sobre la variable Y. Por consiguiente, una forma sencilla de establecer claramente el papel de
las variables es fijarnos en sobre qu variable debemos estimar el valor de su media y/o total
(variable Y).
Habitualmente slo nos darn el valor de la media poblacional de X o del total poblacional de
X, pero no ambos, dado que fcilmente se puede calcular uno a partir del otro
x
x x x
N
N


| |
= =
|
\ .
, en cualquier caso debemos completar el valor de los dos como se ha
hecho en la siguiente pantalla
8 15000
9 75
10 200
C
C
C
| |
= = =
|
\ .
y volveremos a ver en el ejercicio 1
de esta prctica.

312
Si se quiere realizar alguna de las estimaciones con un error de estimacin inferior a un
determinado valor B, escribiremos ste en la celda correspondiente de la fila 18. Para obtener
el tamao muestral necesario para conseguir dicho nivel de error tenemos que conocer
adems de ste (fila 18), el tamao poblacional (C8) y la varianza residual asociada al modelo
(fila 17), para estimar esta ltima necesitamos una muestra previa que debe aparecer en las
columnas C y D. Sin embargo, los valores de la media poblacional de X ( )
x
o del total
poblacional de X ( )
x
no son necesarios, salvo en el caso de que se quiera estimar la razn
(R) con un determinado error B, entonces escribiremos el valor de
x
o en su defecto x
(como en el ejercicio 2) en la celda C9.
Nota: El valor del coeficiente b de la recta de regresin se ha obtenido en G22 y G23
utilizando dos expresiones distintas. Con esto se quiere mostrar al alumno que ste y otros
valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas.

1. Los auditores frecuentemente estn interesados en comparar el valor intervenido de los
artculos con el valor asentado en el libro. Generalmente, los valores en el libro son
conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos
con una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse
para obtener una buena estimacin del valor intervenido total o medio para la
poblacin.
Supngase que una poblacin contiene 180 artculos inventariados con un valor
establecido en el libro de 13.320. Una muestra aleatoria simple de 10 artculos nos dio los
siguientes resultados:
Valor intervenido
i
y Valor en el libro
i
x
9
14
7
29
45
109
40
238
60
170
10
12
8
26
47
112
36
240
59
167
Estime el valor intervenido medio, mediante un estimador de razn, un estimador de
regresin y un estimador de diferencia. Obtenga el intervalo de confianza en cada caso.
Solucin: Estimador de razn (72,79 , 76,03).
313
Estimador de regresin (72,80 , 75,97).
Estimador de diferencia (72,86 , 75,94)

En el enunciado del ejercicio est indicado quien es cada variable. Si no lo fuera as,
utilizando la estrategia sugerida ms arriba de que Y es la variable sobre la que se quiere hacer
la estimacin, es claro que Y = valor intervenido y por tanto X = valor en el libro.
Conocemos C8=N=180 y C10= 13320
x
= , escribiremos tambin
13320
9
180
x
x
C
N

= = = ,
colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente
pantalla se lee la solucin en las columnas de la estimacin de la media, filas 15 y 16.


2. Una encuesta de consumo fue realizada para determinar la razn de dinero gastado en
alimentos sobre el ingreso por ao, para las familias de una pequea comunidad. Una
muestra aleatoria de 8 familias fue seleccionada de entre 100. Los datos de la muestra
se presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1 25100 3800
2 32200 5100
314
3 29600 4200
4 35000 6200
5 34400 5800
6 26500 4100
7 28700 3900
8 28200 3600
Estime la razn poblacional, y establezca un lmite para el error de estimacin.
Solucin: 0,1531; 0, 0118 r B = =
NOTA: Como no se conoce la media poblacional de X, debemos estimarla por su media
muestral, es decir, C9=PROMEDIO(C22:C100).
La nota anterior slo es aplicable para estimar la razn r, pues si utilizamos x en lugar de
x
cuando queremos estimar la media de la variable Y mediante un estimador de razn,
regresin o diferencia, obtendramos que

y yL yD
y = = = , es decir, estimaramos la
media de la variable Y slo mediante su media muestral y no estaramos utilizando
informacin auxiliar alguna. Si en el ejercicio 1 hacemos
B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que

y yL yD
y = = = (D12=F12=H12=B22)

Necesitamos conocer el valor de
x
(C9) y
x
(C10) cuando se quiere estimar la media o el
total, por cualquiera de los tres mtodos. Sin embargo, no es necesario el valor de
x
para
estimar la razn R, aunque si es preciso al menos estimarla con x si queremos obtener la cota
del error de estimacin asociado.
Al no conocer
x
en este ejemplo, escribiremos la media muestral de X
( )
=promedio(C22:C100) x en la celda C9.
315

Para identificar las variables X e Y recordemos que la razn se define como el cociente del total de
Y sobre el total de X. Por tanto, en este ejemplo donde se quiere estimar la razn o proporcin de
dinero gastado en alimentos en relacin al ingreso total por ao, Y = gasto en alimentos, X =
ingreso total.

En cuanto a la nota sobre no usar x en lugar de
x
cuando estimemos la media de Y, se
aclara con la siguiente pantalla.

316


Hemos escrito en C9 la media muestral de X
( )
=promedio(C22:C100) x en lugar de la media
poblacional de X
13320
180
x
x
N

| |
= =
|
\ .
. Se ha calculado en B22 la media muestral de Y
( )
=promedio(D22:D100) y para comprobar que si se utiliza x en lugar de
x
, la media de Y se
estimara, mediante los tres mtodos, sencillamente por y .
317
PRCTICA 5

Muestreo Sistemtico.

El muestreo sistemtico, bajo determinadas condiciones (muy generales), se comporta como el
muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de
estimacin. Debido a esto, tras razonar que nos encontramos bajo esas condiciones,
utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los
problemas de muestreo sistemtico.
1. La gerencia de una compaa privada est interesada en estimar la proporcin de
empleados que favorecen una nueva poltica de inversin. Una muestra sistemtica de
1 en 10 es obtenida de los empleados que salen del edificio al final de un da de
trabajo en particular. Use los datos de la tabla siguiente para estimar la proporcin a
favor de la nueva poltica, y establezca un lmite para el error de estimacin. Suponga
que hay un total de 2.000 empleados.
Empleado
muestreado
Respuesta
3 1
13 0
23 1

1993 1

=
=
200
1
132
i
i
y
Solucin:

66% 6, 37%
sy
p B = =


318
Dado que no conocemos explcitamente los 200 valores de la muestra (y aunque se conocieran
sera largo escribirlos) pero si conocemos la suma de ellos, =
=
200
1
132
i
i
y , introduciremos
directamente la estimacin de p en E10

132
200
p
| |
=
|
\ .
y el tamao muestral en E9 (para lo que es
preciso desproteger primero la hoja). El tamao muestral se obtiene dividiendo el tamao
poblacional N=2000 entre 10 (muestra sistemtica de 1 en 10) o sencillamente observando el
ndice superior de la sumatoria =
=
200
1
132
i
i
y .

2. Con los datos del ejercicio anterior, determine el tamao de muestra requerido para
estimar p, con un lmite para el error de estimacin del 4,8%. Qu tipo de muestra
sistemtica deber obtenerse?
Solucin: 326, 2 327 n = . Sera suficiente con tomar una muestra sistemtica de 1-en-6
donde
2000
333, 3 333 334
6
n o = = .

La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamao muestral
necesario, en la celda E18 (326,2), para que la estimacin de p no supere la cota B=0,048
(4,8%), pero no obtenemos directamente el valor de k que es slo caracterstico del muestreo
sistemtico.
El valor de k se puede obtener fcilmente calculando en cualquier celda en blanco el cociente
entre el tamao poblacional y el tamao muestral (por ejemplo,
8
22 6,13
18
N E
B
n E
= = = ) y
quedndonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente
como se ha hecho en
8
23 6
18
N E
B ENTERO ENTERO
n E
| | | |
= = =
| |
\ . \ .

319

320
PRCTICA 6

Muestreo por Conglomerados.

En esta plantilla utilizamos la funcin condicional SI para el clculo de expresiones que tienen
diferentes formas (o sencillamente no se pueden calcular) dependiendo de la informacin que
tengamos.
La funcin condicional SI cuya forma general es:
=SI(condicin; accin si la condicin es cierta; accin si la condicin es falsa)
la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la
media, si conocemos
8
9
C
M
C
= (tamaos medio de todos los conglomerados de la poblacin)
se har segn

2
2
1
( )
c
S N n
V y
N n
M

= , pero si no se conoce lo estimaremos mediante 11 m C =
(tamao medio de los conglomerados de la muestra). As, en la condicin preguntamos si la
celda C8 est vaca (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en
cuyo caso no es conocido
8
9
C
M
C
= y utilizaremos 11 m C = (accin si la condicin de no
conocer M es cierta) y utilizaremos el valor de
8
9
C
M
C
= cuando C8 contenga el valor de M,
es decir, no est vaca (accin cuando la condicin de C8 vaca sea falsa). Observe que las
dos acciones son iguales salvo esta diferencia que hemos subrayado.
=SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))

321
En C19, para la determinacin del tamao muestral, se ha hecho igual que en C13.
=SI(C8="";(C9*C17)/(C17+(C9*((C18*C11/2)^2)));(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2))))

En la parte inferior izquierda se ha calculado el coeficiente de correlacin lineal entre los
tamaos de los conglomerados y los totales por conglomerado para justificar la conveniencia
de estimar el total considerando el tamao de los conglomerados (TOTAL(M conocido),
columna D) o sin utilizar dicha informacin (columna E). Cuando esta correlacin es fuerte el
mtodo de estimacin del total en la columna D nos proporciona mejores estimaciones (con
menor error de estimacin). La anterior pantalla recoge una situacin donde la correlacin es
dbil (los mayores tamaos de los conglomerados no estn asociados con los mayores totales,
ni los menores con los menores) y como puede verse el mtodo de estimacin del total en la
columna D tiene un error asociado, 188218,94, mayor que el obtenido en la columna E,
184099,44. Lgicamente, cuando no podamos estimar el total por ambos mtodos, todos estos
comentarios sobran.

Tambin se ha utilizado la funcin SI en las expresiones de la estimacin del total cuando M
es conocido (columna D). Obviamente, stas no pueden calcularse cuando M es desconocido.
En este caso la accin cuando la condicin (no conocemos M=C8) es cierta es que no se
calcula nada (escribimos para dejar la celda vaca: abrir y cerrar comillas sin nada entre ellas)
y si conocemos M=C8 (la condicin es falsa) la accin es el clculo de la correspondiente
expresin (en D12 la estimacin del total y en D13, D14, D15 y D16 el resto de valores
asociados a dicha estimacin)
D12 =SI(C8=;;C12*C8)
En la anterior pantalla, donde M=1500, aparecen los valores para la estimacin del total
cuando M es conocido, sin embargo, en la siguiente donde C8 est en blanco (desconocemos
el tamao de la poblacin) dichas celdas estn vacas.
322


1. En una pequea ciudad se quiere estimar la proporcin de hogares interesados en
contratar el sistema de televisin digital, para lo cual se considera la ciudad dividida
en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se
interroga a cada familia acerca de si estara interesada en contratar la televisin
digital. Los datos de la encuesta se encuentran en la tabla:
Manzana N hogares en la manzana N hogares interesados
1 8 2
2 7 2
3 9 3
4 6 3
5 5 3
a) Estime la proporcin de hogares interesados en contratar el sistema de televisin
digital. Calcule el lmite para el error de estimacin.
b) Con un intervalo de confianza estime el nmero de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el nmero de hogares en la ciudad es
1500.
d) Suponiendo que los datos de la tabla representan una muestra previa, cmo debe
tomarse una nueva muestra para estimar la proporcin poblacional del apartado a)
con un lmite para el error de estimacin del 1%.
323
Solucin: a)

37,14% 11, 5% p B = = b) (423,25 , 616,75) c) (396,16 , 718,12)


d) 154, 4 155 n =
NOTA: Repetir este ejemplo con todos los
i
m iguales (por ejemplo, 7
i
m i = ),
supongamos conocido 200 7 1400 M = = y estime el total por los dos mtodos
estudiados
( )
t
t
M y N y = =

. Observe como coinciden las dos estimaciones
D12=E12=520, as como la varianza del estimador D13=E13=2340 y el lmite para el
error de estimacin D14=E14=96,75.

En el muestreo por conglomerados no se distingue entre variables numricas y variables
dicotmicas. En ambos casos el total por conglomerado,
i
y , se calcula de igual forma,
bien sumando valores numricos o los ceros y unos de las variables dicotmicas. En este
ejercicio estamos ante un ejemplo de variable dicotmica donde las respuestas interesado
y no interesado se han codificado como 1 y 0, y posteriormente sumado para cada
manzana o conglomerado. Conocemos el nmero de manzanas o conglomerados en la
poblacin, N=200, pero no sabemos el nmero de elementos en la poblacin, M.
Se sustituyen los valores del nmero de hogares en la manzana en el tamao o nmero de
elementos en el conglomerado, columna C, y el nmero de hogares que han mostrado
inters, respuesta igual a 1, en el total o suma por conglomerado de la columna D. El
mximo error que se quiere cometer al estimar la media (proporcin en este caso) lo
escribiremos en tanto por uno en C18=0,01.
Las respuestas: al apartado a se lee en C12 y C14,
al apartado b en E15 y E16
y al apartado d en C19.
324

En el apartado c se supone conocido M=1500. Al sustituir dicho valor en C8 se calculan las
expresiones para la estimacin del total cuando M es conocido, columna D. No obstante, esta
estimacin es peor que la obtenida en el apartado b como muestra la cota del error de
estimacin en D14=160,98 y E14=96,75. Lo anterior puede justificarse en base a la dbil
relacin entre los tamaos y totales de los conglomerados, B27=0,083.

325
En la siguiente pantalla se comprueba la propiedad, que se recuerda en la nota, de
coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual
tamao.


2. El gerente de un peridico desea estimar el nmero medio de ejemplares comprados
cada semana por una familia de una localidad. Los 4000 hogares estn agrupados en
400 edificios. Se tiene una encuesta piloto en la cual se seleccion una muestra de 4
edificios y se entrevistaron a todas las familias de estos edificios, obtenindose los
siguientes resultados:
Edificio Peridicos comprados cada semana
por familia
1 1 2 1 3 3 2 1 4 1 1
2 1 3 2 2 4 4 1 1 2
3 2 1 1 1 1 3 2 1 2 1 1
4 1 1 3 2 1 5 3 3
a) Estime con la encuesta piloto el nmero medio de peridicos comprados
cada semana por las familias de la localidad y el error de estimacin
asociado.
b) Determine, usando los datos de la encuesta piloto, cuntos edificios debe
326
tener la nueva muestra si se quiere estimar el nmero medio de peridicos
comprados cada semana por familia, con un error de estimacin inferior a
0,20 unidades.
Solucin: a) 1, 95 0, 40 y B = = b) 15, 21 16 n =
En este ejemplo de muestreo por conglomerados nos dan explcitamente las observaciones
individuales de la muestra, habr que contar el nmero de elementos en cada conglomerado,
i
m , y hallar la suma de las observaciones en cada uno de ellos,
i
y . Para obtener el nmero de
observaciones en cada edificio o conglomerado contaremos el nmero de familias que se han
observado en cada edificio, 10 en el primero, ... Para calcular los totales
i
y podemos hacerlo
como se indica en la siguiente pantalla, de forma que posteriores comprobaciones,
correcciones de errores, ... pueden hacerse fcilmente editando el contenido de las celdas D23
y siguientes.

327
PRCTICA 7

Estimacin del tamao de la poblacin.


Las cuatro tcnicas que se incluyen en esta prctica tienen elementos comunes como los
correspondientes a la estimacin del tamao de la poblacin y otros, como la estimacin de la
densidad,, especficos de algunas de ellas. Se han marcado en negro las celdas cuyos
valores o expresiones no se utilizan en alguna de las tcnicas.

1. Se desea estimar la poblacin de avutardas en determinada regin. Para ello se
capturan 30 avutardas que se devuelven marcadas a la poblacin. En una segunda
muestra de 20 avutardas se observaron 5 marcadas. Estmese el nmero de avutardas
que viven en la regin y la precisin del estimador usado.
Solucin:

120 92, 95 N B = =

2. Se desea estimar la poblacin de ardillas en un parque. Para ello se capturan 50
ardillas que se devuelven al parque marcadas. Se toma una segunda muestra hasta
que se consigue encontrar 5 marcadas, para lo cual fue necesario capturar 70 de ellas.
Estime, usando un intervalo con el 95% de confianza, el nmero de ardillas que
viven en el parque.
Solucin: (149, 24 , 1.250, 76)

3. La polica de Madrid est interesada en conocer el nmero de aficionados que se
reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con
este dato se puede conocer la cuanta de medios materiales y humanos (polica,
proteccin civil, personal sanitario, etc.) necesaria para atender futuras
concentraciones. Para estimar el nmero de aficionados se toma una fotografa area
de la zona ocupada por stos, tras lo cual se traza sobre ella una cuadrcula que
divide el rea total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se
numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por ltimo se
cuenta el nmero de aficionados que hay en cada uno de los cuadros seleccionados,
obtenindose los resultados de la tabla:


328
N del cuadro
Nmero de aficionados
en el cuadro
N del cuadro
Nmero de aficionados
en el cuadro
1
2
3
4
5
6
7
8
9
10
193
216
250
163
209
195
232
174
215
198
11
12
13
14
15
16
17
18
19
20
160
220
163
306
319
289
205
210
209
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de
confianza.
b) Estime el nmero total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.
Solucin: a)

2
2,16 (2,1 , 2, 23) aficionados m =
b)

64.860 (62.887, 29 , 66.832, 71) M aficionados =



4. Se desea estimar el nmero total de autobuses que, entre las 6 y las 24 horas del
domingo, circulan por un determinado punto kilomtrico de una carretera. La
observacin se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a
lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableci el
control, no circul por el punto en cuestin ningn autobs. Estimar el nmero total
de autobuses que circularon entre las 6 y las 24 horas. Dar un lmite de error de
estimacin.
Solucin:

86, 24 37, 8 M B = =

Con estos cuatro ejemplos se ilustran las cuatro tcnicas de estimacin del total que
estudiamos en este captulo.
En el primer y segundo ejercicios slo tenemos que identificar si se trata de muestreo directo o
inverso (dependiendo de si se ha fijado el tamao de la segunda muestra o sta se toma hasta
conseguir un nmero de elementos marcados). Es claro que el primer ejercicio se trata de un
caso de muestreo directo y el segundo de muestreo inverso.
329

En el muestreo por cuadros y por cuadros cargados se puede considerar una poblacin en una
superficie (ejercicio 3) o en un espacio temporal (ejercicio 4).

El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el nmero de
elementos observados en cada cuadro de la muestra. El rea total se calcula multiplicando 300
cuadros por el rea de cada uno (10x10), y el nmero total de elementos observados en la
muestra,
1
n
i
i
m m
=
=

, sumando los elementos observados en los 20 cuadros (como indica la


flecha en la anterior pantalla).

El ltimo ejercicio es un caso de muestreo por cuadros cargados, donde no es importante el
nmero de elementos en cada cuadro puesto que ste es en general cero o uno y muy raras
veces mayor a uno. As slo contaremos los cuadros con elementos (uno o ms), cuadros
cargados, y los cuadros sin elementos o cuadros no cargados. En este caso los cuadros en el
espacio temporal son sencillamente intervalos de tiempo.
Hay que tener cuidado en escribir el tamao del rea total y de cada cuadro en la misma
unidad de medida. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren
estimar los autobuses que circulan por un lugar se han expresado en minutos,
1080=(24-6)*60, al igual que los intervalos de tiempo controlados.
330
PRCTICA 8

Indicadores estadsticos regionales

En las plantillas de la hoja Indicadores estadsticos regionales se encuentran resueltos los
ejemplos 8.1 a 8.7 del captulo 8 del mismo nombre. La observacin de cmo se han resuelto
a mano en dicho captulo puede ayudar a comprender mejor cmo se ha construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresin (ni
desproteger la hoja), slo hay que escribir los datos del problema en las celdas grises (como
siempre, se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo
problema para evitar trabajar por error con otros datos).

1. (ejercicio 3, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga el ndice de concentracin de Theil e interprete su valor.
Solucin:
1
ln ln 0,1597
N
i i
i
T N x x
=
= + =

0,1152
ln
T THEIL
T
I I
N
= = =
Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el
coeficiente e ndice de Theil. Las diferencias entre los valores obtenidos a mano y con la hoja
de clculo son debidas slo a errores de redondeo en las operaciones.

331

2. (ejercicio 4, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga la desigualdad colectiva e interprete su valor.
Solucin:

1 1 1
1 1 2, 6865
0, 6716
4 4 4
N N N
i i i i
i i i
D d f d d
= = =
= = = = =


Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la
desigualdad colectiva y en el margen derecho las desigualdades individuales.


3. (ejercicio 5, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas y el nmero de oficinas bancarias
fue
REGIONES PIB OFICINAS
R1
R2
R3
R4
80
15
100
50
350
70
450
250
Obtenga el ndice de asociacin geogrfica de Florence del nmero de oficinas
respecto al PIB e interprete su valor.
332
Solucin:
1
1
1 0, 97959
2
N
i i
i
F x y
=
= =


Sustituyendo los valores de PIB y nmero de oficinas en las variables X e Y se obtiene a pie
de tabla el ndice de asociacin geogrfica de Florence. Obsrvese que es indiferente permutar
los valores de X e Y. En la siguiente pantalla se han cambiado los valores de X e Y en
relacin a como se resolvi este ejercicio al final del captulo 8, obtenindose el mismo
resultado.



333
PRCTICA 9

Medidas de localizacin espacial

En las plantillas de la hoja Medidas localizacin espacial se encuentran resueltos los
ejemplos 9.2, 9.3, 9.5 y 9.6 del captulo 9 del mismo nombre. La observacin de cmo se
han resuelto a mano en dicho captulo puede ayudar a comprender mejor cmo se ha
construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresin (ni
desproteger la hoja), slo hay que escribir los datos del problema en las celdas grises de la
tabla DATOS que aparece en la parte superior de la hoja.

La hoja est preparada inicialmente para 10 sectores y 10 regiones pero puede fcilmente
ampliarse a cualquier nmero de la siguiente forma:
Se desprotege la hoja.
Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la
columna E y seleccionamos en el men Insertar/Columnas).

Se copia la columna de alguno de los 10 sectores iniciales en sta (siguiendo la
conocida secuencia marcar+copiar+pegar, copiaremos la columna D en la E). As, esta
nueva columna ya tendr todas las expresiones necesarias para los clculos
correspondientes (al copiar la columna se copian tanto las expresiones como los
valores de la tabla DATOS y la cabecera, en este ejemplo: S2; tendremos que
cambiar los datos y las etiquetas de la cabecera)
334

Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para ms de 11
sectores.
Un procedimiento anlogo nos permite ampliar la hoja para ms de 10 regiones. En este caso
se insertar una nueva fila (en cada una de las tablas) entre las regiones R1 y R10, y
copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla.
Esto ltimo tambin es aplicable a la prctica 8 para ampliar el nmero de regiones o grupos
de regiones.
1. (ejercicio 4, relacin tema 9) En un pas, dividido administrativamente en tres regiones,
el sector industrial est constituido fundamentalmente por los siguientes subsectores:
Siderurgia, Construccin, Qumicas y Alimentacin. El nmero de trabajadores ocupados
en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles):
Regiones
I II III
Siderurgia 15 10 6
Construccin 165 110 66
Qumicas 30 20 12
Alimentacin 195 130 78
Calcule las diversas medidas de localizacin espacial e interprtelas, justificando y apoyando
los comentarios en los datos del enunciado.

335
Solucin:
Cocientes de localizacin y
especializacin
ij
L
SECTOR
REGION S1 S2 S3 S4
R1 100,00 100,00 100,00 100,00
R2 100,00 100,00 100,00 100,00
R3 100,00 100,00 100,00 100,00
Coeficientes de localizacin
sectorial
SECTOR
S1 S2 S3 S4
j
CL
0 0 0 0

Coeficientes de especializacin regional
REGION i
CE
R1 0
R2 0
R3 0
Coeficientes de diversificacin
de cada regin
REGION i
CD
*
i
CD
R1 0,6178 0,49
R2 0,6178 0,49
R3 0,6178 0,49
Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los
sectores con las regiones pues las medidas que se obtienen no son simtricas en relacin a los
datos, es decir, cambian si colocamos las regiones en los sectores y stos en el lugar de las
otras.

Las distintas medidas de localizacin espacial pueden leerse en las tablas que hay bajo los
DATOS.
2. (ejercicio 3, relacin tema 9) Se dispone de la siguiente informacin sobre nmero de
ocupados para algunas Comunidades Autnomas clasificados segn ciertas actividades:
Energa Alimentos Industrial textil
Andaluca 10.000 65.000 20.000
Castilla La Mancha 3.000 18.000 14.000
Castilla Len 19.000 30.000 8.000
Catalua 15.000 60.000 90.000
a) Obtenga los coeficientes de localizacin de las distintas actividades.
336
b) Calcule los coeficientes de especializacin para cada comunidad.
Solucin:
Coeficientes de localizacin sectorial
SECTOR
S1 S2 S3
CLj 0,2423 0,1219 0,2197
Coeficientes de especializacin regional
REGION CEi
R1 0,192733
R2 0,047808
R3 0,234649
R4 0,170455
Colocando los datos del ejercicio en la tabla DATOS, igual que antes, se obtienen entre otros
los coeficientes pedidos.


337
INTRODUCCIN AL SPSS

1.- INTRODUCCIN

El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a
la realizacin de anlisis estadsticos aplicados a las ciencias sociales. Con ms de 30 aos de
existencia es, en la actualidad, el paquete estadstico con ms difusin a nivel mundial.

El SPSS implementa una gran variedad de temas estadsticos en los distintos mdulos del
programa. Nosotros utilizaremos solo el mdulo SPSS base.

En los siguientes apartados se hace una breve introduccin a los conceptos bsicos de este
programa. Para una mejor exposicin de los mismos puede consultarse la Gua breve de
SPSS o el Tutorial en el men de ayudas (?) muy recomendable esta ltima opcin.


1.1.- PASOS BSICOS EN EL ANLISIS

1. Introducir los datos en SPSS.
Es posible:
o Abrir un archivo creado anteriormente o
o Introducir nuevos datos (se ver ms adelante en 1.3- Editor de datos).
Los archivos de datos con formato SPSS tienen extensin *.sav. Para abrir un archivo de datos
de este formato, seleccione en el men principal: Archivo/Abrir/Datos. Por defecto, SPSS dar
una relacin de los archivos en su directorio con extensin *.sav. Busque y seleccione el
archivo que se desee abrir. Adems de los archivos con este formato, SPSS puede abrir
338
archivos de EXCEL, LOTUS 1-2-3, dBASE, sin necesidad de convertirlos a un formato
intermedio ni de introducir informacin sobre la definicin de los datos.
Desde aplicaciones como Microsoft Excel tambin puede leer los encabezados de las columnas
como nombres de variables. Para ello elija en los mens: Archivo/Abrir/Datos y seleccione
Excel(*.xls) en la lista desplegable Tipo

Tras seleccionar el fichero Excel que queremos abrir, aparecer el cuadro de dilogo Apertura
de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables
en la primera fila de la hoja de clculo (Leer nombres de variables de la primera fila de
datos), as como las casillas que se desean importar (Rango). En Excel 5 o posterior, tambin
se pueden especificar la Hoja de trabajo que se desea importar. Si los encabezados de las
columnas no cumplen las normas de denominacin de variables de SPSS, se convertirn en
nombres de variables vlidos y los encabezados originales de las columnas se guardarn como
etiquetas de variable (vase ms adelante en 1.3.-Editor de datos).

339

2. Seleccionar un procedimiento estadstico para analizar los datos con el sistema de mens.


3. Seleccionar las variables para el anlisis.
Las variables que podemos usar en cada procedimiento se muestran en un cuadro de dilogo
del que se seleccionan.


4. Ejecutar el procedimiento y ver resultados.
Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de
extensin *.spo. Los grficos se pueden modificar en la ventana del editor de grficos.
340


1.2.- ENTORNO DE TRABAJO

Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos:
Editor de datos. Es la ventana que se abre automticamente cuando se inicia una sesin de
SPSS. Muestra el contenido del archivo de datos actual. Con l, se pueden crear nuevos
archivos o modificar los ya existentes.
Visor de resultados. Todas las tablas, grficos y los resultados estadsticos se muestran en el
visor. Puede editar resultados y guardarlos. Esta ventana se abre automticamente la primera
vez que se ejecuta un procedimiento.
Adems de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que
configuran la apariencia general del SPSS:
Barra de ttulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos
utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar
y cerrar ventana.
341
Barra de mens. Recoge las denominaciones de los mens de SPSS a travs de los cuales se
pueden ejecutar todos los posibles comandos que proporciona el paquete.
Barra de herramientas. Proporciona un acceso rpido y fcil a las tareas ms comunes de cada
ventana de SPSS. El significado de cada icono puede verse situando el ratn sobre el propio
icono.
Barra de estado. Suministra informacin sobre el estado en que se encuentra SPSS.
Ejemplo 1.-
- Abrir archivo de datos Datos de empleados.sav
- Realizar el procedimiento:
Analizar/ Estadsticos Descriptivos/ Descriptivos con la variable Salario Actual
- Realizar lo mismo con la variable Meses desde el contrato.


1.3.- EDITOR DE DATOS

El editor de datos proporciona dos vistas:
Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las
funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de
clculo, sin embargo, existen algunas diferencias:
o Cada fila representa un caso u observacin (atencin en ejercicio 1).
o Las columnas son variables.
o Las casillas contienen valores numricos o de cadena. A diferencia de una hoja de
clculo, las casillas del editor de datos no pueden contener frmulas.
Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de
datos. Aqu:
o Las filas son variables.
o Las columnas son caractersticas de las variables.
342

Ejemplo 2.- Abrir vista de datos y vista de variables en el archivo de datos:
Datos de Empleados.sav.


Una vez que nos encontramos en la ventana Editor de datos podemos abrir un archivo de
datos creado con anterioridad (como vimos en 1.1.- Pasos bsicos en el anlisis) o crear un
nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso
es el de definir las variables que formarn el archivo. Para definir una variable se pueden
seguir dos procedimientos:
En vista de datos, haciendo doble clic con el botn izquierdo del ratn cuando el puntero del
mismo se encuentra situado en la palabra var del extremo superior de la columna o
Pulsando en la pestaa de vista de variables y escribiendo las especificaciones de la variable
cuyos datos vamos a introducir segn las indicaciones que siguen:

Para la especificacin del nombre de las variables se debe tener en cuenta:
El nombre debe comenzar por una letra. Los dems caracteres pueden ser letras, dgitos, puntos
o los smbolos @, #, _ o $.
Los nombres de variable no pueden terminar en punto.
Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las
variables creadas automticamente por algunos procedimientos).
La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler
a 64 caracteres en idiomas de un solo byte (por ejemplo, ingls, francs, alemn, espaol,
343
italiano, hebreo, ruso, griego, rabe, tailands) y a 32 caracteres en los idiomas de dos bytes
(por ejemplo, japons, chino, coreano).
No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, y *).
Cada nombre de variable debe ser nico; no se permiten duplicados.
Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras
reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
Los nombres de variable se pueden definir combinando de cualquier manera caracteres en
maysculas y en minsculas, esta distincin entre maysculas y minsculas se conserva en lo
que se refiere a la presentacin.
Cuando es necesario dividir los nombres largos de variable en varias lneas en los resultados,
SPSS intenta dividir las lneas aprovechando los subrayados, los puntos y los cambios de
minsculas a maysculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus
especificaciones:

Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botn tipo y luego los
puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos ms
usuales son numrico y cadena.

Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas
las variables nuevas son numricas. Se puede utilizar Tipo de variable para cambiar el tipo de
datos. El contenido del cuadro de dilogo Tipo de variable depende del tipo de datos
seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el nmero de
decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista
desplegable de ejemplos.
Los tipos de datos disponibles son los siguientes:
Numrico. Una variable cuyos valores son nmeros. Los valores se muestran en formato
numrico estndar. El Editor de datos acepta valores numricos en formato estndar o en
notacin cientfica.
Coma. Una variable numrica cuyos valores se muestran con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin comas, o bien en notacin cientfica. Los
valores no pueden contener comas a la derecha del indicador decimal.
344
Punto. Una variable numrica cuyos valores se muestran con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin puntos, o bien en notacin cientfica. Los
valores no pueden contener puntos a la derecha del indicador decimal.
Notacin cientfica. Una variable numrica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez. El Editor de datos acepta
para estas variables valores numricos con o sin el exponente. El exponente puede aparecer
precedido por una E o una D con un signo opcional, o bien slo por el signo (por ejemplo, 123,
1,23E2, 1,23D2, 1,23E+2 y 1,23+2).
Fecha. Una variable numrica cuyos valores se muestran en uno de los diferentes formatos de
fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo
para los valores de ao de dos dgitos est determinado por la configuracin de las opciones
(en el men Edicin, seleccione Opciones y, a continuacin, pulse en la pestaa Datos).
Dlar. Una variable numrica que se muestra con un signo dlar inicial ($), comas que
delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir
valores de datos con o sin el signo dlar inicial.
Moneda personalizada. Una variable numrica cuyos valores se muestran en uno de los
formatos de moneda personalizados que se hayan definido previamente en la pestaa Moneda
del cuadro de dilogo Edicin/Opciones. Los caracteres definidos en la moneda personalizada
no se pueden emplear en la introduccin de datos pero s se mostrarn en el Editor de datos.

345
Cadena. Una variable cuyos valores no son numricos y, por lo tanto, no se utilizan en los
clculos. Los valores pueden contener cualquier carcter siempre que no se exceda la longitud
definida. Las maysculas y las minsculas se consideran diferentes. Este tipo tambin se
conoce como variable alfanumrica.

Nivel de medida. Puede especificar el nivel de medida como Escala (datos numricos de una
escala de intervalo o de razn), Ordinal o Nominal. Los datos nominales y ordinales pueden ser
de cadena (alfanumricos) o numricos.
nominal. Una variable puede ser tratada como nominal cuando sus valores representan
categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la
compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el
cdigo postal o la confesin religiosa.
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan
categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un
servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables
ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las
puntuaciones de evaluacin de la preferencia.
escala. Una variable puede ser tratada como de escala cuando sus valores representan
categoras ordenadas con una mtrica con significado, por lo que son adecuadas las
comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos
y los ingresos en dlares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabtico de los valores de
cadena indica el orden correcto de las categoras. Por ejemplo, en una variable de cadena cuyos
valores sean bajo, medio, alto, se interpreta el orden de las categoras como alto, bajo, medio
(orden que no es el correcto). Por norma general, se puede indicar que es ms fiable utilizar
cdigos numricos para representar datos ordinales.
Anchura. Nmero de dgitos de los valores de esa variable.

346
Columnas. Anchura de las columnas. Se puede especificar un nmero de caracteres para el
ancho de la columna. Los anchos de columna tambin se pueden cambiar en la Vista de datos
pulsando y arrastrando los bordes de las columnas.
Los formatos de columna afectan slo a la presentacin de valores en el Editor de datos. Al
cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y
definido de un valor es ms ancho que la columna, aparecern asteriscos (*) en la ventana
Vista de datos.

Decimales. N de decimales de los datos.

Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud
(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener
espacios y caracteres reservados que no se admiten en los nombres de variable.

Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este
proceso es especialmente til si el archivo de datos utiliza cdigos numricos para representar
categoras que no son numricas (por ejemplo, cdigos 1 y 2 para hombre y mujer). Las
etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las
etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden
ocupar hasta 120 bytes. Las etiquetas de valor no estn disponibles para las variables de cadena
larga (variables de cadena de ms de 8 caracteres).

Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el
usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado
se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.
Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para
un tratamiento especial y se excluyen de la mayora de los clculos.
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el
archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el
usuario cada vez que se abre un archivo de datos.
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de
valores perdidos o un rango ms un valor de tipo discreto.
347
Slo pueden especificarse rangos para las variables numricas.
No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de
ms de ocho caracteres).
Se considera que son vlidos todos los valores de cadena, incluidos los valores vacos o nulos,
a no ser que se definan explcitamente como perdidos. Para definir como perdidos los valores
nulos o vacos de una variable de cadena, escriba un espacio en blanco en uno de los campos
debajo de la seleccin Valores perdidos discretos.
Alineacin. Alineacin de los datos (Izquierda, derecha o centro)


Una vez definidas las variables, para la introduccin de los datos (en la pestaa vista de datos)
habr que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos
valores, pulsando ENTER o movindonos con el cursor.

Tambin podemos modificar datos ya creados:
Insertar un nuevo caso entre los casos existentes.
Seleccionar en la vista de datos, cualquier casilla debajo de la posicin donde se desea insertar
el nuevo caso y
- Elija en la barra de mens: Datos/Insertar Caso o
- El correspondiente botn de la barra de herramientas o
- Con el botn derecho del ratn elija Insertar caso.

Insertar una nueva variable entre las variables existentes.
Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posicin donde se
desea insertar la nueva variable y
- Elegir los mens: Datos/Insertar variable o
- El correspondiente botn de la barra de herramientas o
- Con el botn derecho del ratn elija Insertar variable

Mover variables.
Si queremos mover una variable que est entre otras dos, en la vista de datos, podemos insertar
un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por
ltimo pegar en la nueva variable insertada.

348
Borrar algn caso o variable.
Seleccionar previamente en la vista de datos las filas, las columnas o el rea a borrar y pulsar
SUPR o Edicin/Borrar o con el botn derecho del ratn elegir Eliminar.

Ir a un caso en el editor de datos.
Elegir en la barra de mens: Edicin/Ir al caso e introducir el nmero de fila o con el
correspondiente botn de la barra de herramientas.

Para guardar un archivo de datos creado tendremos que seleccionar en la barra de mens
Archivo/Guardar como. Nos aparecer un cuadro de dilogo en el cual debemos indicar el
nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de
cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que
seleccionar Archivo/Guardar o con el correspondiente botn de la barra de herramientas y el
archivo se guardar con el mismo nombre y ubicacin que tena con anterioridad.

349
EJERCICIOS

1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado
producto en una semana determinada. La variable edad es cuantitativa y mostramos sus
valores, la variable sexo es cualitativa y utilizamos una variable numrica (escala nominal:
1, hombre; 2, mujer). Los datos son los siguientes:
Hombres 32 32 42 55 37 61 48 43
Mujeres 50 80 61 49 30 21 37 34
Se pide:
a. Crea un archivo con la definicin anterior de las variables y los datos y gurdalo con el
nombre Edad.sav
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores
Hombres 1 1 1 2 1 1 2 1
Mujeres 1 5 1 1 2 2 1 1
Sitala entre las variables anteriores.

2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas:
SEXO REGION DE
PROCEDENCIA
MESES COMO
REPRESENTANTE
INGRESOS
MENSUALES en
Hombre
Mujer
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Andaluca (1)
Catalua (2)
Madrid (3)
Pas Valenciano (4)
Galicia (5)
Catalua (2)
Pas Vasco (6)
Andaluca (1)
Madrid (3)
Andaluca (1)
Pas Vasco (6)
Madrid (3)
Galicia (5)
Catalua (2)
Andaluca (1)
Galicia (5)
60
72
48
36
60
24
36
48
84
84
48
36
24
12
16
10
1950
1235
2251
3581
1500
2500
5890
3510
2456
2474
3000
2958
1354
1100
3581
2456

Se pide:
a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos
de la tabla anterior, definiendo las variables de forma adecuada.
b. Inserta una nueva variable que ser el estado civil de los representantes con los siguientes
valores.

350
soltero
soltero
casado
soltero
divorciado
casado
casado
casado
soltero
soltero
viudo
casado
casado
casado
soltero
soltero
c. Inserta un nuevo caso entre los existentes con estos valores:
SEXO REGION DE
PROCEDENCIA
MESES COMO
REPRESENTANTE
INGRESOS
MENSUALES en
ESTADO CIVIL
Hombre Catalua 48 1500 divorciado
d. Obtenga el nmero medio de meses como representante y los valores mximo, mnimo y
mediano de los ingresos.

3. Crear un archivo con los siguientes datos y llamarlo salarios.sav
SALARIOS EMPLEADOS
0-700
700-1000
1000-1500
1500-3000
ms de 3000
40
120
250
90
50

Nota: Introducir los valores de los salarios con cdigos numricos (por ejemplo, 1 a 5) y en
Vista de variables en la columna Valores etiquetarlos como 0-700,
Cuando se introducen las frecuencias de las observaciones de una variable hay que indicrselo
al SPSS. Seleccionaremos en la barra de mens Datos/Ponderar casos marcando en la
ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderacin
(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra
opcin es seleccionar el correspondiente icono de la barra de herramientas que representa a una
balanza.
351
PRCTICA 10

Contrastes no paramtricos para una muestra (SPSS)

1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
3. CONTRASTE DE LAS RACHAS

1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
El contraste Chi-cuadrado para una muestra permite averiguar si la distribucin emprica de
una variable categrica (o numrica) se ajusta o no a una determinada distribucin terica. La
hiptesis nula de bondad de ajuste se pone a prueba utilizando un estadstico que compara las
frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (tericas
segn la hiptesis nula). La condicin para que el test sea vlido es que las frecuencias
esperadas en todas las categoras sean mayores que 5, el SPSS da por valido el test siempre y
cuando el nmero de frecuencias esperadas menores de 5 no superen el 20% del total de
frecuencias esperadas, aunque lo ms correcto es que todas las frecuencias esperadas sean
mayores que 5. En el caso de que haya frecuencias esperadas menores que 5 se proceder a
agrupar modalidades semejantes, para ello seleccionaremos en la barra de mens
Transformar/Recodificar en distinta variable y repetiremos el anlisis con la nueva variable
generada (vase ejemplo 3).
Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no
paramtricas/Chi-cuadrado.
La lista de variables del archivo de datos ofrece un listado de todas las variables. Para
contrastar la hiptesis de bondad de ajuste referida a una variable hay que trasladar esa
variable a la lista Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece
tantos contrastes como variables.

RECUADRO RANGO ESPERADO. En esta ventana es posible decidir qu rango de
valores deben tenerse en cuenta en el anlisis:
Obtener de los datos. Cada valor distinto de la variable se considera una categora
para el anlisis.
Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los
lmites especificados en los cuadros de texto Inferior y Superior. Los valores no
incluidos en esos lmites se excluyen del anlisis.

352
RECUADRO VALORES ESPERADOS. Las opciones de este recuadro sirven para hacer
explcitas las frecuencias esperadas con las que se desean comparar las observadas:
Todas las categoras iguales. Las frecuencias esperadas se obtienen dividiendo el
nmero total de casos vlidos entre el nmero de categoras de la variable.
Valores. Esta opcin permite definir frecuencias esperadas concretas. Los valores que
se introducen pueden ser porcentajes, probabilidades, frecuencias relativas o
frecuencias absolutas. El orden en el que se introducen los valores es muy importante,
pues la secuencia introducida se hace corresponder con las categoras de la variable
cuando stas se encuentran ordenadas de forma ascendente. Si se ha introducido como
una variable numrica con etiquetas, el orden es el de los valores numricos. Si se ha
introducido como un variable de cadena (alfanumrica) el orden es el alfabtico.

BOTN OPCIONES. Permite obtener algunos estadsticos descriptivos y decidir qu
tratamiento se desea dar a los valores perdidos.
Estadsticos. Las opciones de este recuadro permiten obtener algunos estadsticos
descriptivos:
o Descriptivos. Ofrece el nmero de casos vlidos, la media, la desviacin tpica,
el valor mnimo y el valor mximo.
o Cuartiles. Ofrece los centiles 25, 50 y 75.
Hay que sealar que estos estadsticos no siempre tendrn sentido, pues la prueba de
chi-cuadrado se utiliza generalmente con variables categricas (no numricas). Para
contrastar la hiptesis de bondad de ajuste con variables cuantitativas es preferible
utilizar el contraste de Kolmogorov-Smirnov.
Valores perdidos. Estas opciones permiten decidir qu tratamientos se desea dar a los
valores perdidos en el caso de que se haya seleccionado ms de una variable:
o Excluir casos segn prueba. Se excluyen de cada contraste los casos con
valor perdido en la variable que se est contrastando. Es la opcin por defecto.
o Excluir caso segn lista. Se excluyen de todos los contrastes solicitados los
casos con algn valor perdido en cualquiera de las variables seleccionadas.

Ejemplo 1 (Ejercicio 1, relacin Tema 10)
El gerente de una planta industrial pretende determinar si el nmero de empleados que asisten
al consultorio mdico de la planta se encuentra distribuido de forma equitativa durante los
cinco das de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas
353
completas de trabajo, se observaron los siguientes nmeros de empleados que asistieron al
consultorio:
Lunes Martes Mircoles Jueves Viernes
49 35 32 39 45
Existe alguna razn para creer que el nmero de empleados que asisten al consultorio
mdico, no se encuentra distribuido de forma equitativa durante los das de trabajo de la
semana?, ( 05 . 0 = ).
(FICHEROS DE DATOS: Ejercicio1_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio1F_T10.sav (datos agrupados, con frecuencias))

NOTA: Cuando se utilicen ficheros con frecuencias se deber indicar en que columna se
encuentran stas, seleccionando en primer lugar el icono que representa una balanza o bien en
los mens Datos/Ponderar casos..., despus en la ventana Ponderar casos marcaremos la
opcin Ponderar casos mediante y en la casilla Variable de ponderacin incluiremos el
nombre de la columna (variable) que contiene las frecuencias.


A continuacin seleccionaremos Analizar/Pruebas no paramtricas/Chi-cuadrado


354

Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste
(recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores
esperados marcaremos Todas las categoras iguales (aparece marcada por defecto).

Pulsaremos en Aceptar, obtenindose en el visor de resultados lo que sigue:

DiasSemana
N observado N esperado Residual
Lunes
49 40,0 9,0
Martes
35 40,0 -5,0
Mircoles
32 40,0 -8,0
Jueves
39 40,0 -1,0
Viernes
45 40,0 5,0
Total
200


355
Estadsticos de contraste
DiasSemana
Chi-
cuadrado(a)
4,900
gl
4
Sig. asintt.
,298
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es
40,0.

Dado que el p-valor (0.298) es mayor que 05 . 0 = , se mantiene la hiptesis nula de que el
nmero de visitas al consultorio mdico se distribuye de forma equitativa de lunes a viernes.

Ejemplo 2
Una compaa de gas afirma, basndose en experiencias anteriores, que al final del invierno
el 80% de las facturas ya han sido cobradas, un 10% se cobraran con pago aplazado a un mes,
un 6% se cobrar a dos meses y un 4% se cobrar a ms de dos meses. Al final del invierno
actual, la compaa selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas
ya cobradas, 49 cobradas a un mes, 30 a cobrar en dos meses y 34 a cobrar en un periodo
superior a los dos meses. Podemos concluir, a raz de los resultados, que la experiencia de
aos anteriores se ha vuelto a repetir este invierno?
(FICHERO DE DATOS: Ejemplo2F_T10.sav (datos agrupados, con frecuencias))
Seguiremos un procedimiento anlogo al del ejemplo 1 pero marcaremos en Valores
esperados la opcin Valores e introduciremos los porcentajes del modelo que indica el
enunciado en el orden 80, 10, 6 y 4 (segn el orden de los valores numricos que se han
utilizado para indicar cada categora)

356
El visor de resultados nos ofrece:
facturas
N observado N esperado Residual
ya cobradas
287 320,0 -33,0
se cobran a un mes
49 40,0 9,0
se cobran en dos meses
30 24,0 6,0
se cobran a ms de dos
meses
34 16,0 18,0
Total
400

Estadsticos de contraste
facturas
Chi-
cuadrado(a)
27,178
gl
3
Sig. asintt.
,000
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es
16,0.

Como el p-valor (0.000) es menor que 0.05, se rechaza la hiptesis nula de que los datos
observados se ajustan a los datos esperados. Por tanto, la experiencia de aos anteriores no se
ha vuelto a repetir este invierno.

Ejemplo 3 (Ejercicio 8, relacin Tema 11)
Una muestra sobre el n de personas que diariamente requieren informacin de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson de parmetro 2, 7 = ? (utilice el contraste
2
)
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))

Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero
de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados, vamos
a introducir las probabilidades del modelo de la distribucin de Poisson.
Aunque en la muestra slo aparecen valores entre cero y cinco, en la distribucin de Poisson
se puede presentar cualquier valor entero mayor o igual a cero. Segn lo anterior
consideraremos inicialmente las modalidades: 0 personas, 1 persona, 2 personas, ..., 5 o ms
personas.

Consultando en la tabla de probabilidades de la distribucin de Poisson con 2, 7 =
obtenemos para las anteriores modalidades:
357
x p(x)
0
1
2
3
4
...
0,0672
0,1815
0,2450
0,2205
0,1488
...
La probabilidad, p(x5), se puede obtener sumando p(5)+p(6)+p(7)+... , hasta el ltimo valor
que aparezca en la columna de 2, 7 = con probabilidad distinta de cero, o bien, restando a 1
las probabilidades asociadas a x<5, 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1- 0,8630=0,1370.
(Introduciremos las probabilidas sin el cero de las unidades, pues slo acepta valores con 5
dgitos incluida la coma: ,0672 ... ,1370)

En el visor de resultados aparecer:
PersonasDia
N
observado
N
esperado Residual
,00
2 1,8 ,2
1,00
4 4,9 -,9
2,00
5 6,6 -1,6
3,00
8 6,0 2,0
4,00
5 4,0 1,0
5,00
3 3,7 -,7
Total
27
Estadsticos de contraste
PersonasDia
Chi-
cuadrado(a)
1,655
gl
5
Sig. asintt.
,895
a 4 casillas (66,7%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mnima es 1,8.

Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos
ltimas modalidades para que todas las frecuencias esperadas sean mayores que 5.
358
NOTA: La opcin de agrupar valores semejantes para que las frecuencias esperadas sean
mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de
independencia y homogeneidad.

Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable.
Seleccionamos como variable numrica PersonasDia y como variable de resultado
escribimos PersonasDiaB. En Valores antiguos y nuevos escribiremos la siguiente
recodificacin
Antiguo->Nuevo
0->1
1->1
2->2
3->3
4->4
5->4


(posteriormente, si se quiere, se etiquetarn los valores 1 como 1 o menos y 4 como 4 o ms).

Se repetir el contraste sobre la nueva variable PersonasDiaB, considerando las siguientes
modalidades y probalidades asociadas

359
x p(x)
1 o menos
2
3
4 o ms
0,2487=0,0672+0,1815
0,2450
0,2205
0,2858=0,1488+0,1370



Tras aceptar las selecciones de la anterior pantalla, en el visor de resultados observaremos:
PersonasDiaB

N
observado
N
esperado Residual
1 o menos
6 6,7 -,7
2,00
5 6,6 -1,6
3,00
8 6,0 2,0
4 o ms
8 7,7 ,3
Total
27
Estadsticos de contraste
PersonasDiaB
Chi-
cuadrado(a)
1,184
gl
3
Sig. asintt.
,757
a 0 casillas (,0%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mnima es 6,0.

Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de
5 a 3 despus de agrupar modalidades.
Segn el nivel de significacin asociado al estadstico chi-cuadrado (0,757>>0,05) se
aceptara la hiptesis nula de que el nmero de personas que requieren la mencionada
informacin se distribuye segn una ley de Poisson de parmetro 2, 7 = .


360
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
Al igual que el contraste chi-cuadrado para una muestra, la prueba de Kolmogorov-Smirnov
es una prueba de bondad de ajuste: sirve para contrastar la hiptesis nula de que la
distribucin de una variable se ajusta a una determinada distribucin terica de probabilidad.
A diferencia del contraste Chi-cuadrado que fue diseada para evaluar ms bien el ajuste de
variables categricas, el contraste K-S para una muestra se usa slo para evaluar el ajuste de
variables cuantitativas.
Para contrastar la hiptesis nula de bondad de ajuste, la prueba K-S se basa en la comparacin
de dos funciones de distribucin: la emprica,
n
F , y la terica
0
F .
Para las distribuciones discretas (Poisson,...) se calculan las diferencias:
0
( ) ( )
i n i i
D F x F x =
Para las distribuciones continuas (Normal, Uniforme,...) se calculan las diferencias
*
0 0 1
( ) ( ) ( ) ( )
i n i i i n i i
D F x F x y D F x F x
+
= =
El estadstico del contraste Z se obtiene a partir de la diferencia ms grande en valor absoluto
y del tamao muestral n,
( )
*
max ,
i i i
Z n D D = , obtenindose la significacin asinttica
bilateral a partir de la frmula de Smirnov:
( )
( ) ( )
2
2
9 25 1,233701
4 9 16 2
0 0, 27 1
2, 506628
0, 27 1 1 ( )
1 3,1 2
3,1 0
Z
Z
Si Z p
Si Z p Q Q Q Q e
Z
Si Z p Q Q Q Q Q e
Si Z p

=
= + + =
= + =
=

Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona
Analizar/Pruebas no paramtricas/K-S de 1 muestra.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numrico. Para contrastar la hiptesis de bondad de ajuste referida a una variable se traslada a
la lista Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece un contraste
por cada variable seleccionada.

RECUADRO DISTRIBUCIN DEL CONTRASTE. Las opciones de este recuadro
permiten elegir la distribucin terica a la cual se desea ajustar la distribucin de la variable
seleccionada: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse ms de una).
Los parmetros en las diferentes distribuciones se estiman a partir de los datos.
BOTN OPCIONES. Conduce a un subcuadro de dilogo idntico al del contraste de chi-
cuadrado.
361
Ejemplo 4 (Ejercicio 8, relacin Tema 11)
Una muestra sobre el n de personas que diariamente requieren informacin de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov)
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramtricas/K-S de 1 muestra.


En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos
PersonasDia, pulsando Aceptar en el visor de resultados aparecer:
362
Prueba de Kolmogorov-Smirnov para una muestra
PersonasDia
N
27
Parmetro de Poisson(a,b)
Media
2,7037
Absoluta
,085
Positiva
,057
Diferencias ms extremas
Negativa
-,085
Z de Kolmogorov-Smirnov
,443
Sig. asintt. (bilateral)
,989
a La distribucin de contraste es la de Poisson.
b Se han calculado a partir de los datos.

Como el p-valor (0,989) es mayor que 0,05 se acepta la hiptesis de que el nmero de
personas que requieren informacin se distribuye como una Poisson (de parmetro 2,7).

Ejemplo 5 (Ejercicio 7, relacin Tema 11)
Con un nivel de significacin del 5%, contraste la hiptesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribucin normal de
media 14 y varianza 2,25 (desviacin tpica 1,5).
(FICHERO DE DATOS: Ejercicio7_T11.sav (datos sin agrupar, sin frecuencias))
El SPSS toma por defecto como valores de la media y de la desviacin tpica para la hiptesis
nula los de la muestra (14,4 y 1,955).
Prueba de Kolmogorov-Smirnov para una muestra

N
10
Media
14,4000
Parmetros normales(a,b) Desviacin tpica
1,95505
Absoluta
,181
Positiva
,181
Diferencias ms extremas
Negativa
-,119
Z de Kolmogorov-Smirnov
,573
Sig. asintt. (bilateral)
,898
a La distribucin de contraste es la Normal.
b Se han calculado a partir de los datos.

Si queremos que la media y desviacin tpica tomen en la hiptesis nula unos valores
concretos, como en este ejemplo, debemos seleccionar Pegar en la ventana de opciones del
contraste de Kolmogorov-Smirnov para una muestra. Nos aparecern los comandos de SPSS
que siguen:
NPAR TESTS
/K-S(NORMAL)= DATOS
/MISSING ANALYSIS.
363

A continuacin del comando NORMAL escribiremos una coma seguida del valor de la media
seguida de otra coma y del valor de la desviacin tpica. Si la media o desviacin tpica
tuvieran decimales se usar el punto decimal (nunca la coma). Una vez modificado quedar
como:
NPAR TESTS
/K-S(NORMAL,14,1.5)= DATOS
/MISSING ANALYSIS.
En esta misma ventana donde se ha hecho la modificacin seleccionamos Ejecutar/Todo y
obtendremos el resultado del contraste.
Prueba de Kolmogorov-Smirnov para una muestra

N
10
Media
14
Parmetros normales(a,b) Desviacin tpica
1,5
Absoluta
,200
Positiva
,109
Diferencias ms extremas
Negativa
-,200
Z de Kolmogorov-Smirnov
,632
Sig. asintt. (bilateral)
,819
a La distribucin de contraste es la Normal.
b Especificado por el usuario

Como el p-valor (0,819) es mayor que 0,05 se acepta la hiptesis de que la muestra procede de
una distribucin Normal de media 14 y varianza 2,25.


364
3. CONTRASTE DE LAS RACHAS
La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones
es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son
independientes entre s. Esta prueba permite detectar si el nmero de rachas observado en una
determinada muestra de tamao n es lo suficientemente grande o lo suficientemente pequeo
como para poder rechazar la hiptesis de aleatoriedad en las observaciones.
Para obtener el nmero de rachas de un conjunto de observaciones es necesario que stas estn
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotmica). Si no
lo estn, se deber utilizar algn criterio (media, mediana, moda, etc.) para hacer que lo estn.
Una vez clasificadas las observaciones en dos grupos, el SPSS utiliza una tipificacin del
nmero de rachas cuya distribucin es una N(0,1). El SPSS ofrece el nivel crtico bilateral.
Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramtricas/Rachas.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numrico. Para contrastar la hiptesis de aleatoriedad o independencia referida a una variable
se traslada esa variable a la lista Contrastar variables. Si se selecciona ms de una variable,
el SPSS ofrece un contraste por cada variable seleccionada.

RECUADRO PUNTO DE CORTE. Para obtener el nmero de rachas es necesario que las
observaciones estn claramente clasificadas en dos grupos. Si no lo estn, debe utilizarse
algn criterio para hacer que lo estn. Pueden usarse como criterio de dicotomizacin la
mediana, la moda, la media o cualquier valor. En ese caso, los valores ms pequeos que el
punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el
punto de corte pasan a formar parte del segundo grupo. Si se desea contrastar la hiptesis de
independencia referida a una variable categrica o de cadena puede utilizarse en punto de
corte la opcin Personalizado. Si la variable es, por ejemplo, dicotmica, con cdigos 0 y 1,
puede utilizarse como punto de corte el valor 0.5 (o cualquier nmero comprendido entre 0 y
1), de modo que los casos con cdigo 0 pasen a formar parte del primer grupo y los casos con
valor 1 pasen a formar parte del segundo grupo. Para convertir las variables de cadena en
variables numricas (para poder aplicar este contraste) utilice el procedimiento
Recodificacin automtica, disponible en el men Transformar.

BOTN OPCIONES. Igual que en los contrastes anteriores.


365
Ejemplo 6. (Ejercicio 14, relacin Tema 11)
Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21,
18, 21, 22 ( 0,10 = ).
(FICHERO DE DATOS: Ejercico14_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramtricas/Rachas.
En el enunciado no se indica que se tome como punto de corte un valor en especial. Hemos
tomado la mediana que es el valor marcado por defecto.


Prueba de rachas
ejemplo_rachas
Valor de prueba(a)
19,00
Casos < Valor de prueba
4
Casos >= Valor de prueba
7
Casos en total
11
Nmero de rachas
4
Z
-1,102
Sig. asintt. (bilateral)
,270
a Mediana

Como el p-valor (0,270) es mayor que 0,10 se acepta la hiptesis nula de aleatoriedad de la
muestra.
366
PRCTICA 11

Contrastes no paramtricos: Tablas de contingencia y contrastes para dos
muestras independientes (SPSS)

1.- TABLAS DE CONTINGENCIA. CHI-CUADRADO. INDEPENDENCIA Y
HOMOGENEIDAD.
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. PRUEBA DE
KOLMOGOROV-SMIRNOV. PRUEBA U DE MANN-WHITNEY

1.- TABLAS DE CONTINGENCIA
Cuando se trabaja con dos variables categricas, los datos suelen organizarse en tablas de
doble entrada en las que cada entrada representa un criterio de clasificacin o variable
categrica. Como resultado de esta clasificacin, las frecuencias aparecen organizadas en
casillas que contienen informacin sobre la relacin existente entre ambos criterios. A estas
tablas de frecuencias se les llama tablas de contingencias.
El procedimiento de tablas de contingencias permite obtener no solo las tablas, adems
incluye estadsticos y medidas de asociacin que proporcionan la informacin necesaria para
estudiar las posibles pautas de asociacin existentes entre las variables que conforman la tabla.
Para utilizar este procedimiento seleccionamos en el men Analizar la opcin Estadsticos
Descriptivos/ Tablas de contingencias. La lista de variables del archivo de datos muestra todas
las variables numricas y de cadena corta del archivo de datos. Para obtener una tabla de
contingencia se traslada una variable a la lista filas y otra a la lista columna.
Las opciones disponibles son:
Mostrar los grficos de barras agrupadas. Activando esta opcin el visor de
resultados muestra un grfico de barras agrupadas con las categoras de la variable fila
en el eje de abscisas y las categoras de la variable columna anidadas dentro de las
categoras de la variable fila. Cada barra del diagrama, por tanto, representa una casilla
y su altura viene dada por la frecuencia de la correspondiente casilla.
Suprimir tablas. Esta opcin puede activarse si no se desea obtener ninguna tabla de
contingencias. Esto tendra sentido si nicamente interesara obtener un grfico de
barras o alguno de los estadsticos o medidas de asociacin disponibles en el
procedimiento Tablas de contingencias.


367
BOTN ESTADSTICOS
El grado de relacin existente entre dos variables categricas no puede ser establecido
simplemente observando las frecuencias de una tabla de contingencias. Incluso aunque la tabla
recoja las frecuencias porcentuales en lugar de las absolutas, la simple observacin de las
frecuencias no puede conducir a una conclusin definitiva. Para determinar si dos variables se
encuentran relacionadas debe utilizarse una medida de asociacin, preferiblemente
acompaada de su correspondiente prueba de significacin. Una de las opciones disponibles
es Chi-cuadrado.

CHI-CUADRADO
La opcin Chi-cuadrado proporciona un estadstico que permite contrastar la hiptesis de que
los dos criterios de clasificacin utilizados (las dos variables categricas) son independientes.
Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables
fueran independientes. Si los datos son compatibles con la hiptesis de independencia, la
probabilidad asociada al estadstico Chi-cuadrado (el p-valor) ser alta (mayor 0.05). Si esa
probabilidad es pequea (menor que 0.05), se considera que los datos son incompatibles con
la hiptesis de independencia y se concluir que las variables estudiadas est relacionadas.
Para que el estadstico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas
no sean demasiado pequeas. Suele asumirse que, si existen frecuencias esperadas menores de
5, stas no deben superar el 20% del total de frecuencias esperadas, aunque lo ms correcto es
que todas las frecuencias esperadas sean mayores que 5. El SPSS muestra en una nota a pie de
tabla un mensaje indicando el valor de la frecuencia esperada ms pequea; si existe alguna
casilla con frecuencia esperada menor que 5, la nota a pie de tabla tambin informa acerca del
porcentaje que stas representan sobre el total de casillas de la tabla. En el caso de que ese
porcentaje supere el 20%, el estadstico debe interpretarse con cautela o mejor proceder a
agrupar filas y/o columnas de la tabla. Para ello seleccionaremos en la barra de mens
Transformar/Recodificar en distinta variable y repetiremos el anlisis con la nueva variable
generada.

BOTN CASILLAS
Las casillas o celdas de una tabla de contingencias pueden contener informacin muy variada,
en concreto: frecuencias observadas, frecuencias esperadas, varios tipos de porcentajes y
residuos brutos y tipificados. Parte de esta informacin es esencial para poder interpretar
apropiadamente las pautas de asociacin presentes en una tabla despus de que se rechace la
hiptesis de independencia.
368
Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias
absolutas:
Observadas. Nmero de casos resultantes de la clasificacin.
Esperadas. Nmero de casos que debera haber en cada casilla si las variables
utilizadas fueran independientes.
Recuadro Porcentajes. Es posible seleccionar uno o ms de las siguientes frecuencias
porcentuales:
Fila. Porcentaje que la frecuencia observada de una casilla representa respecto
al total marginal de su fila.
Columna. Porcentaje que la frecuencia observada de una casilla representa
respecto al total marginal de su columna.
Total. Porcentaje que la frecuencia observada de una casilla representa
respecto al nmero total de casos de la tabla.
Recuadro Residuos. Los residuos son las diferencias existentes entre las frecuencias
observadas y esperadas de una casilla. Son especialmente tiles para averiguar en qu
grado se desvan de la hiptesis de independencia las frecuencias de cada casilla;
consecuentemente, son tiles para interpretar las pautas de asociacin presentes en la
tabla. Es posible seleccionar una o ms de las siguientes opciones:
No tipificados. Diferencia entre la frecuencia observada y la esperada.
Tipificados. Residuo no tipificado dividido por la raz cuadrada de su
correspondiente frecuencia esperada. Su valor esperado es 0 pero su desviacin
tpica es menor que 1, lo cual hace que no puedan interpretarse como
puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada
casilla contribuye al valor del estadstico chi-cuadrado. De hecho, sumando los
cuadrados de los residuos tipificados se obtiene el valor del estadstico chi-
cuadrado. Los residuos tipificados son iguales a
( ) ( )
2
ij ij ij ij
ij ij
n E n E
E E

=
Tipificados corregidos. Estos residuos se distribuyen normalmente con media
0 y desviacin tpica 1. Su utilidad radica en que, puesto que se distribuye
como N(0,1), son fcilmente interpretables: utilizando un nivel de confianza
0.95, puede afirmarse que los residuos mayores de 1.96 delatan casillas con
ms casos de los que debera haber en esa casilla si las variables estudiadas
fueran independientes; mientras que los residuos menores de -1.96 delatan
369
casillas con menos casos de los que cabra esperar bajo la condicin de
independencia.

BOTN FORMATO
Controla algunos detalles relacionados con el aspecto de las tablas de contingencias
generadas.
Recuadro Orden de filas. Permite controlar el orden en el que aparecen las categoras
de la variable fila:
Ascendente. Muestra las categoras de la variable fila ordenadas de menor
a mayor. Es la opcin por defecto.
Descendente. Muestra las categoras de la variable fila ordenadas de mayor
a menor.

Ejemplo 1 (ejercicio 10, relacin tema 10)
Se clasifican a los 150 empleados de una empresa segn su salario y su antigedad. Los
resultados aparecen en la siguiente tabla. Hay independencia entre los sueldos y la
antigedad? ( ( 0, 05) =
Salario\Antigedad <5 aos 5-10 10-20 >20 aos
i
n


0-500
500-1000
1000-2000
2000-3000
>3000
17
16
4
9
6
5
8
11
8
3
10
9
5
8
4
6
7
2
6
6
38
40
22
31
19
j
n

52 35 36 27 150
(FICHEROS DE DATOS: Ejercicio10_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio10F_T10.sav (datos agrupados, con frecuencias))

Recordemos que cuando se utilizan ficheros con frecuencias se deber indicar en que
columna se encuentran stas, seleccionando en primer lugar el icono que representa una
balanza o bien en los mens Datos/Ponderar casos..., despus en la ventana Ponderar casos
marcaremos la opcin Ponderar casos mediante y en la casilla Variable de ponderacin
incluiremos el nombre de la columna (variable) que contiene las frecuencias.

Seleccionamos Analizar/Estadsticos Descriptivos/Tablas de contingencia
370

En situaciones reales, inicialmente no se dispone de los datos agrupados y ordenados en una
tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un
formato de dos columnas como aparece en estas pantallas. Por ello vamos a pedir que estos
datos los represente en una tabla de contigencia (no marcaremos la opcin Suprimir tablas)
con los Salarios por filas y la Antigedad por columnas.

371
En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de
contingencia, en este ejemplo marcaremos Frecuencias observadas (aparece como recuento
en la tabla), Frecuencias esperadas y Residuos tipificados corregidos.

En Estadsticos seleccionaremos el estadstico Chi-cuadrado de Pearson para estudiar la
independencia entre Salario y Antigedad.


Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen:
La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos tipificados corregidos
372
Tabla de contingencia Salario * Antiguedad
Antiguedad Total

menos de 5
aos 5-10 aos 10-20 aos
ms de 20
aos
Salario 0-500 Recuento
17 5 10 6 38
Frecuencia esperada
13,2 8,9 9,1 6,8 38,0
Residuos corregidos
1,5 -1,7 ,4 -,4
500-1000 Recuento
16 8 9 7 40
Frecuencia esperada
13,9 9,3 9,6 7,2 40,0
Residuos corregidos
,8 -,6 -,3 -,1
1000-2000 Recuento
4 11 5 2 22
Frecuencia esperada
7,6 5,1 5,3 4,0 22,0
Residuos corregidos
-1,8 3,2 -,2 -1,2
2000-3000 Recuento
9 8 8 6 31
Frecuencia esperada
10,7 7,2 7,4 5,6 31,0
Residuos corregidos
-,7 ,4 ,3 ,2
Ms de 3000 Recuento
6 3 4 6 19
Frecuencia esperada
6,6 4,4 4,6 3,4 19,0
Residuos corregidos
-,3 -,8 -,3 1,6
Total Recuento
52 35 36 27 150
Frecuencia esperada
52,0 35,0 36,0 27,0 150,0

La prueba Chi-cuadrado de independencia
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
15,932(a) 12 ,194
Razn de verosimilitudes 14,781 12 ,254
Asociacin lineal por lineal
1,888 1 ,169
N de casos vlidos
150
a 4 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 3,42.


Ms 3000 2000-3000 1000-2000 500-1000 0-500
Salario
20
15
10
5
0
R
e
c
u
e
n
t
o
Grfico de barras
Ms de 20 aos
10-20 aos
5-10 aos
< 5 aos
Aos_Antiguedad

373

Segn el p-valor (0.194) se aceptara la hiptesis de independencia. Sin embargo, el residuo
corregido para un salario (1000-2000) y una antigedad (5-10) es 3.2 que no est comprendido
entre -1.96 y 1.96, es decir, se escapa de la hiptesis de independencia al 5% de significacin.
Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 ltimas filas y las dos
ltimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean
mayores que 5.

Recordemos que la opcin de agrupar valores semejantes para que las frecuencias esperadas
sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y
homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para
una muestra (como vimos en el ejemplo 3 de la prctica 10).

Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta
variable. Seleccionamos como variable numrica Salario y como variable de resultado
escribimos SalarioB. En Valores antiguos y nuevos escribiremos la siguiente recodificacin
Antiguo->Nuevo
1->1
2->2
3->3
4->4
5->4
(posteriormente, si se quiere, se etiquetaran los valores 1, 2 y 3 como en Salario y el nuevo
valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Ms de 2000).
Repetiremos el mismo proceso con la variable Antigedad. Seleccionamos como variable
numrica Antiguedad y como variable de resultado escribimos AntiguedadB. (Nota: En la
ventana Var. numrica->Var. de resultado hay que eliminar primero Salario->SalarioB, pues
si no lo hacemos se aplicar tambin a ese par de variables la recodificacin que queremos
hacer en la pareja Antigedad->AntiguedadB). En Valores antiguos y nuevos escribiremos la
siguiente recodificacin
Antiguo->Nuevo
1->1
2->2
3->3
4->3
(posteriormente, si se quiere, se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo
valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como ms de 10 aos).
Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros
Ejercicio10_T10.sav y Ejercicio10F_T10.sav) obteniendo:
374
Tabla de contingencia SueldoB * AntiguedadB
AntiguedadB

menos de 5
aos 5-10 aos
mas de 10
aos
Total
Recuento
17 5 16 38
Frecuencia esperada
13,2 8,9 16,0 38,0
0-500
Residuos corregidos
1,5 -1,7 ,0
Recuento
16 8 16 40
Frecuencia esperada
13,9 9,3 16,8 40,0
500-1000
Residuos corregidos
,8 -,6 -,3
Recuento
4 11 7 22
Frecuencia esperada
7,6 5,1 9,2 22,0
1000-2000
Residuos corregidos
-1,8 3,2 -1,0
Recuento
15 11 24 50
Frecuencia esperada
17,3 11,7 21,0 50,0
SueldoB
ms de 2000
Residuos corregidos
-,8 -,3 1,1
Recuento
52 35 63 150
Total
Frecuencia esperada
52,0 35,0 63,0 150,0
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
13,108(a) 6 ,041
Razn de verosimilitudes 12,069 6 ,060
Asociacin lineal por lineal
1,537 1 ,215
N de casos vlidos
150
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 5,13.

Segn el p-valor (0.041) se rechazara la hiptesis de independencia a un nivel de
significacin del 5% (0,05), contrariamente a la conclusin obtenida antes de agrupar las
frecuencias esperadas menores que 5.

Ejemplo 2 (Ejercicio 11, relacin Tema 10)
A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y
sus calificaciones fueron registradas como baja, media o alta, obtenindose:
Universidad A Universidad B
BAJA
MEDIA
ALTA
105
140
255
140
135
225
Contrastar la hiptesis de que la distribucin de calificaciones en las 2 universidades es la
misma (con 0, 01 = )
(FICHEROS DE DATOS: Ejercicio11_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio11F_T10.sav (datos agrupados, con frecuencias))

La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos corregidos, es la siguiente:
375
Tabla de contingencia Nota * Universidad
Universidad

A B
Total
Recuento
105 140 245
Frecuencia esperada
122,5 122,5 245,0
Baja
Residuos corregidos
-2,6 2,6
Recuento
140 135 275
Frecuencia esperada
137,5 137,5 275,0
Media
Residuos corregidos
,4 -,4
Recuento
255 225 480
Frecuencia esperada
240,0 240,0 480,0
Nota
Alta
Residuos corregidos
1,9 -1,9
Recuento
500 500 1000
Total
Frecuencia esperada
500,0 500,0 1000,0

Se puede observar como los residuos corregidos de las casillas Nota baja se salen del
intervalo (-1.96, 1.96). Existe una desproporcin significativa a favor de la Universidad B
(residuo corregido 2.6 frente a -2.6) lo que significa que hay una proporcin de alumnos de la
universidad A menor de la esperada con notas bajas. En la prueba chi-cuadrado se obtiene:
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
6,966(a) 2 ,031
Razn de verosimilitudes 6,984 2 ,030
N de casos vlidos
1000
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 122,50.

El p-valor menor de 0.05 (0.031) nos lleva a rechazar la hiptesis de homogeneidad con un
nivel de significacin del 5% pero a aceptarla con un nivel de significacin del 1% como
aparece en el enunciado del ejercicio.
Alta Media Baja
Nota
300
250
200
150
100
50
0
R
e
c
u
e
n
t
o
Grfico de barras
B
A
Universidad



376
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES
Este procedimiento contiene varias pruebas no paramtricas, todas ellas diseadas para
analizar datos provenientes de diseos con una variable independiente categrica (con dos
niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos
ordinal (en la cual interesa comparar los dos grupos o muestras).
El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos
muestras, la prueba U de Mann-Whitney, la prueba de reacciones extremas de Moses y la
prueba de las rachas de Wald-Wolfowitz. Para obtener cualquiera de estas pruebas:
Se selecciona la opcin Pruebas no paramtricas/Dos muestras independientes del men
Analizar. La lista de variables del archivo de datos ofrece un listado de todas las variables con
formato numrico. Para obtener cualquiera de las pruebas no paramtricas incluidas en el
procedimiento (puede seleccionarse ms de una simultneamente):
Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista
Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece un
contraste por cada variable seleccionada.
Seleccionar la variable que define los grupos (muestras) que interesa comparar y
trasladarla al cuadro Variable de agrupacin.
Pulsar el botn Definir grupos para acceder al subcuadro de dilogo que permite
indicar cules son los dos cdigos de la variable de agrupacin que corresponden a los
grupos que interesa comparar.
En el recuadro Tipo de prueba, marcar la opcin u opciones correspondientes a las
pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten
contrastar la misma hiptesis.
El botn opciones conduce a un cuadro de dilogo que permite obtener algunos estadsticos
descriptivos y controlar el tratamiento de los valores perdidos.

PRUEBA DE KOLMOGOROV-SMIRNOV
Esta prueba sirve para contrastar la hiptesis de que dos muestras proceden de la misma
poblacin. Para ello compara las funciones de distribucin empricas de ambas muestras,
( ) ( )
n m
F x y F x .
Se calculan las diferencias ( ) ( )
i n i m i
D F x F x = . El estadstico del contraste Z se obtiene a
partir de la diferencia ms grande en valor absoluto y de los tamaos muestrales n y m,
377
( )
max
i i
nm
Z D
n m
=
+
, obtenindose la significacin asinttica bilateral a partir de la frmula
de Smirnov:
( )
( ) ( )
2
2
9 25 1,233701
4 9 16 2
0 0, 27 1
2, 506628
0, 27 1 1 ( )
1 3,1 2
3,1 0
Z
Z
Si Z p
Si Z p Q Q Q Q e
Z
Si Z p Q Q Q Q Q e
Si Z p

=
= + + =
= + =
=

Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia
central, simetra, variabilidad,

Ejemplo 3 (Ejercicio 9, relacin Tema 11)
Con nivel de significacin de 5%, contraste la hiptesis de que los siguientes valores
muestrales proceden de una misma poblacin.
Muestra 1 2 4 2 3 5 6 7 8 9 3
Muestra 2 2 4 5 3 5 4 7 6 5 3
(FICHERO DE DATOS: Ejercicio9_T11.sav)
Al tratarse de muestras independientes, aparecern todos los datos de ambas muestras en la
misma columna (Puntuacin) y en la columna Muestras con los cdigos 1 y 2 distinguiremos
a qu muestra pertenece cada puntuacin.
Seleccionaremos Analizar/Pruebas no paramtricas/Dos muestras independientes del men
Analizar.

378
En la ventana que aparecer, seleccionaremos Puntuaciones para Contrastar variables y
Muestras para Variable de agrupacin. En Definir grupos indicaremos que la primera muestra
tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de
Kolmogorov-Smirnov.

En el visor de resultados se obtiene:
Estadsticos de contraste(a)
Valores
Absoluta
,200
Positiva
,100
Diferencias ms extremas
Negativa
-,200
Z de Kolmogorov-Smirnov
,447
Sig. asintt. (bilateral)
,988
a Variable de agrupacin: Muestra

Dado que la significacin asinttica (0.988) es mayor que 0.05 se acepta la hiptesis de que
ambas muestras proceden de la misma poblacin.

PRUEBA U DE MANN-WHITNEY
Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se
cumplen los supuestos en los que se basa la prueba (normalidad), o cuando no es apropiado
utilizar la prueba T porque el nivel de medida de los datos es ordinal. Este test es sensible a las
diferencias de medianas, algo sensible frente a las diferencias de asimetra e insensible frente a
las diferencias de varianzas. Es fiable en la comparacin de dos promedios poblacionales
cuando ambas distribuciones tienen la misma forma.
379
Con muestras pequeas el SPSS ofrece el nivel crtico bilateral exacto del estadstico U, el
cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales
que U.
Con muestras grandes, el SPSS ofrece una tipificacin del estadstico U denominada Z, que se
distribuye aproximadamente como una N(0,1). El nivel crtico bilateral se obtiene
multiplicando por dos la probabilidad de obtener valores menores o iguales a Z.

Ejemplo 4 (Ejercicio 9, relacin Tema 11)
Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney.
Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann-
Whitney en Tipo de prueba


Segn el visor de resultados:
Estadsticos de contraste(b)
Valores
U de Mann-Whitney
46,500
W de Wilcoxon
101,500
Z
-,268
Sig. asintt. (bilateral)
,789
Sig. exacta [2*(Sig.
unilateral)]
,796(a)
a No corregidos para los empates.
b Variable de agrupacin: Muestra

Al ser las muestras pequeas observamos la significacin exacta (0.796). sta es mayor que
0.05, concluimos que ambas muestras proceden de la misma poblacin.
380

Nota: Segn Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de
8 8 m y n . Hay autores que consideran m y n grandes cuando 60 m n + . En nuestro
ejemplo n=10, m=10 y la significacin exacta y asinttica son muy prximas.
381










FORMULARIOS
Y
TABLAS ESTADSTICAS
382
383
MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS
(O CON REEMPLAZAMIENTO)




MEDIA


PROPORCION


ESTIMADOR

1
1
n
i
i
y y
n
=
=



1
1
, 0, 1
n
i i
i
p y y
n
=
= =






CUASIVARIANZA
MUESTRAL


( )
2
2
1
1
1
n
i
i
S y y
n
=
=




2
2 1
2 1
1
n
i
n
i
i
i
y
y
n
S
n
=
=
| |
|
\ .




( )

2
2
1
1
1 1
n
i
i
n pq
S y y
n n
=
= =





1 q p =

VARIANZA DEL
ESTIMADOR

2 2
( ) ( )
S
V y V y
n n

= =



( ) ( )
1
pq pq
V p V p
n n
= =




LIMITE DEL ERROR DE
ESTIMACIN = B

2 ( ) 2
S
V y
n
=




2 ( ) 2
1
pq
V p
n
=



INTERVALO DE
CONFIANZA

2 , 2
S S
y y
n n
| |
+
|
\ .



2 , 2
1 1
pq pq
p p
n n
| |
|
+
|
\ .





TAMAO MUESTRAL

2
2 ( ) 2 V y B
n

= =

2 2 2
2
,
4
4
B
n D
B D

= = =

2 ( ) 2
pq
V p B
n
= =

2
2
,
4
4
pq pq B
n D
B D
= = =


384
MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS
SIN REEMPLAZAMIENTO



MEDIA
TOTAL


PROPORCION
TOTAL



ESTIMADOR

1
1
n
i
i
y y
n
=
=



1
n
i
i
N
N y y
n

=
= =

1
1
, 0, 1
n
i i
i
p y y
n
=
= =

N p =





VARIANZA DEL
ESTIMADOR

2
( )
S N n
V y
n N

=


2
2
( ) ( ) ( ) ( )
S
V V N y N V y N N n
n
= = =





( )
1
pq N n
V p
n N





2
( ) ( ) ( ) ( )
1
pq
V V N p N V p N N n
n
= = =



LIMITE DEL ERROR
DE ESTIMACIN = B

2 ( ) V y


2 ( ) 2 ( ) V N V y =





2 ( ) V p


2 ( ) 2 ( ) V N V p =





INTERVALO DE
CONFIANZA


2 ( ) , 2 ( ) ( ) y V y y V y +


2 ( ) , 2 ( ) ( ) V V + =



2 ( ) , 2 ( ) ( ) ( ) ( ) N y V y N y V y = +



2 ( ) , 2 ( ) ( ) p V p p V p +


2 ( ) , 2 ( ) ( ) V V + =



2 ( ) , 2 ( ) ( ) ( ) ( ) N p V p N p V p = +





TAMAO MUESTRAL

2
2
( 1)
N
n
N D

=
+


2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=



( 1)
Npq
n
N D pq
=
+


2
( )
4
B
D proporcion =
2
2
( )
4
B
D total
N
=



385

MUESTREO ALEATORIO ESTRATIFICADO




MEDIA
TOTAL


PROPORCION
TOTAL



ESTIMADOR

1
1
L
i st i
i
y N y
N
=
=



1
L
st
i st i
i
N y N y
=
= =





1
1
L
i st i
i
p N p
N
=
=




1
L
st
i st i
i
N p N p
=
= =







VARIANZA DEL
ESTIMADOR


2
2
1
1
( ) ( )
L
i st i
i
V y N V y
N
=
= =



2
2
2
1
1
L
i i i
i
i i i
S N n
N
N n N
=

=






2
2 2
1
( ) ( )
L
i i i
st
i st
i i i
S N n
V N V y N
n N

= =





2
2
1
1
( ) ( )
L
i st i
i
V p N V p
N
=
= =




2
2
1
1
1
L
i i i i
i
i i i
p q N n
N
N n N
=







2 2
1
( ) ( )
1
L
i i i i
st
i st
i i i
p q N n
V N V p N
n N

= =







TAMAO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL


FORMULACIN
GENERAL

2 2
1
2 2
1
L
i i
i i
L
i i
i
N
n
N D N

=
=
=
+




2
1
2
1
L
i i i
i i
L
i i i
i
N p q
n
N D N p q

=
=
=
+





386
MUESTREO ALEATORIO ESTRATIFICADO

TAMAO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL







ASIGNACIN
PTIMA


1 1
2 2
1
( )
L L
i i
i i i
i i
i
L
i i
i
N
N c
c
error fijo B n
N D N

= =
=
=
+


1
1
( )
L
i i
i
i
L
i i i
i
N
C
c
coste fijo C n
N c

=
=
=



1
j j
j
j L
i i
i
i
N
c
N
c

=
=




1 1
2
1
L L
i i
i i i i i
i i i
L
i i i
i
p q
N p q c N
c
n
N D N p q
= =
=
=
+



1
1
L
i i
i
i i
L
i i i i
i
p q
C N
c
n
N p q c
=
=
=



1
j j
j
j
j
L
i i
i
i i
p q
N
c
p q
N
c

=
=







ASIGNACIN DE
NEYMAN


2
1
2 2
1
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
=
+



1
j j
j L
i i
i
N
N

=
=




2
1
2
1
( )
L
i i i
i
L
i i i
i
N p q
n
N D N p q
=
=
=
+



1
j j j
j L
i i i
i
N p q
N p q

=
=






ASIGNACIN
PROPORCIONAL


2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N

=
=
=
+



j
j
N
N
=


1
1
1
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N
=
=
=
+



j
j
N
N
=



D
2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=
2
( )
4
B
D proporcion =
2
2
( )
4
B
D total
N
=
387
ESTIMACIN DE RAZN



RAZN


MEDIA
TOTAL




ESTIMADOR

1
1
n
i
i
n
i
i
y
y
r
x
x
=
=
= =

y x
r =


y
x
r =




VARIANZA RESIDUAL



( )
2
2
1
1
1
n
r i i
i
S y rx
n
=
=







VARIANZA DEL
ESTIMADOR





2
2
1
( )
r
x
N n S
V r
N n

=



2
2
( ) ( )
r
y x
N n S
V V r
N n


= =



2
2 2
( ) ( )
r
y
x
N n S
V V r N
N n


= =









DETERMINACIN DEL
TAMAO MUESTRAL

2
2
2
2
r
r
r
r
N
n S de una muestra previa
ND

= =
+



2 2
( )
4
x
B
D para estimar R

=

2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =










388
ESTIMACIN DE REGRESIN

MEDIA
TOTAL



VARIANZA, COVARIANZA
Y COEF. DE
CORRELACIN
MUESTRALES


( ) ( )
2 2
2 2 2 2
1 1
1 1
( 1)
1
n n
x i x i x x
i i
S x x s x x n S ns
n n
= =
= = =




( )( ) ( )( )
1 1 1
1 1 1
1
n n n
xy i i xy i i i i
i i i
S x x y y s x x y y x y x y
n n n
= = =
= = =




2 2
2
2 2 2 2
xy xy
xy
x y x y
S s
r
S S s s
= =




ESTIMADOR

( )( )
( )
1
2 2
2
1
( )
n
i i
xy xy
i
yL x n
x x
i
i
x x y y
S s
y b x b
S s
x x

=
=

= + = = =

yL
yL
N =





VARIANZA RESIDUAL

ERROR TPICO DE
ESTIMACIN

( ) ( )
( )
2
2
2 2 2 2
2
1
1
( ) 1
2 2 2
n
xy
L i i y y xy
i
x
s
n n
S y y b x x s s r
n n s n
=
| |
= + = =
|
|

\ .



2
L L
S S =




VARIANZA DEL
ESTIMADOR


2
( )
L
yL
N n S
V
N n


=


2
( ) ( ) yL
yL
V N V =






DETERMINACIN DEL
TAMAO MUESTRAL

2
2
2
2
L
L
L
L
N
n S de una muestra previa
ND

= =
+


2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =

389
ESTIMACIN DE DIFERENCIA


MEDIA
TOTAL




ESTIMADOR



( )
yD x x
y x d d y x = + = + =


yD
yD
N =





VARIANZA RESIDUAL


( ) ( )
2 2
2
1 1
1 1
( )
1 1
n n
D i i i i i i
i i
S y x d d d d y x
n n
= =
= + = =







VARIANZA DEL ESTIMADOR


2
( )
D
yD
N n S
V
N n


=



2
( ) ( ) yD
yD
V N V =






DETERMINACIN DEL
TAMAO MUESTRAL


2
2
2
2
D
D
D
D
N
n S de una muestra previa
ND

= =
+



2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =



390
MUESTREO POR CONGLOMERADOS


MEDIA o PROPORCIN
TOTAL (M conocido)


TOTAL




NOTACIN


conglomerados en la poblacin N = conglomerados en la muestra n =

i
elementos en el conglomerado i m =
i
suma de las observaciones del conglomerado i y =
1
N
i
i
elementos en la poblacin M m
=
= =


1
n
i
i
elementos en la muestra m m
=
= =


1
1
N
i
i
tamao medio de los conglomerados de la poblacin M m
N
=
= =



1
1
n
i
i
tamao medio de los conglomerados de la muestra m m
n
=
= =





ESTIMADOR

1
1
n
i
i
n
i
i
y
y
m

=
=
= =



M y =





1
1
n
i t
i
y y
n
=
=




t
t
N y =






VARIANZA
DEL
ESTIMADOR

( )
2
2
1
1
1
n
c i i
i
S y ym
n
=
=

2
2
1
( )
c
S N n
V y
N n
M

=


2
2
( ) ( ) ( )
c
S
V M V y N N n
n
= =





( )
2
2
1
1
1
n
t i t
i
S y y
n
=
=

2
( )
t
t
S N n
V y
N n

=


2
2
( ) ( ) ( )
t
t
t
S
V N V y N N n
n
= =






TAMAO
MUESTRAL

2
2
2
2
c
c
c
c
de una muestra previa
N
n S
ND

= =
+


2
2
( )
4
B M
D media =
2
2
( )
4
B
D total
N
=

2
2
2
2
t
t
t
t
de una muestra previa
N
n S
ND

= =
+


2
2
( )
4
B
D total
N
=





391
ESTIMACIN DEL TAMAO DE LA POBLACIN





MUESTREO DIRECTO


MUESTREO INVERSO

NOTACIN

elementos marcados t =
total de elementos en la muestra de recaptura n =
elementos marcados en la muestra de recaptura s =


ESTIMADOR

t nt
N
s
p
= =

t nt
N
s
p
= =




PROPIEDADES DEL
ESTIMADOR

( )
( ) N N t
E N N
nt

= +


( )
2
3
( ) t n n s
V N
s

=

( )
E N N =


( )
2
2
( )
( 1)
t n n s
V N
s s

=
+






















392
ESTIMACIN DEL TAMAO DE LA POBLACIN





MUESTREO POR CUADROS




DENSIDAD


TOTAL


NOTACIN


rea total A =
rea de cada cuadro a =
nmero de cuadros en la muestra n =
nmero medio de elementos por cuadro en la muestra m =


ESTIMADOR

m
a
=



M A =

VARIANZA DEL
ESTIMADOR



( )

V
an

=



( )

( )

2
2
A
V M A V
an

= =

CUADROS CARGADOS




DENSIDAD


TOTAL


NOTACIN


rea total A =
rea de cada cuadro a =
nmero de cuadros en la muestra n =
y = nmero total de cuadros no cargados


ESTIMADOR

1
ln
y
a n

| |
=
|
\ .




ln
A y
M A
a n

| |
= =
|
\ .


VARIANZA DEL
ESTIMADOR



( )
2
1 n y
V
a ny


=



( )

( )
2
2
2
A n y
V M A V
a ny


= =

393
INDICADORES ESTADSTICOS REGIONALES

Medidas de desigualdad-concentracin regional:
j
x = valores porcentuales (proporciones) de la variable respecto del total=
1
j
N
j
j
X
X
=


Coeficiente de Theil
1
ln ln
N
j j
j
T N x x
=
= +


Propiedad de agregacin:
1 1
ln ln
k k
g
g g g
g g
g
x
T N x x T
N
= =
| |
= + +
|
|
\ .


1
k
g
g
N N
=
=


g
g j
j G
x x

=

ln ln
g
j j
g g
j G
g g
x x
T N
x x

| |
= +
|
|
\ .


ndice de Theil:
1 1
ln ln ln
1
ln ln ln
N N
j j j j
j j
T THEIL
N x x x x
T
I I
N N N
= =
+
= = = = +


Desigualdad individual: 1
i
i
i i
x X x
d
X X

= =
Desigualdad colectiva:
1
N
i i
i
D d f
=
=


Propiedad de agregacin:
1 1
1
k k
g
g g g
g g
g
N
x
D d N D
N N x
= =
= +


g
g j
g j
j G
j
x X
D f
X

=


g
g
g
x x
d
x

=

Medidas de dispersin regional:
Varianza: ( ) ( )
2
1
1
N
j
j
V X X x
N
=
=


Varianza normalizada: ( )
2
( ) V X
VN X
x
=

Coeficiente de asociacin geogrfica de Florence :
1
1
1
2
N
j j
j
F x y
=
=


394
MEDIDAS DE LOCALIZACIN ESPACIAL
ij
j
Y
Y

i
participacin de la regin i en el sector j
i
Y
Y

i
participacin de la regin i en la poblacin
ij
i
Y
Y

i
participacin del sector j en la regin i
ij
i
Y
Y

i
participacin del sector j en la regin i

Cociente de localizacin regional del sector j en la regin i (cociente de especializacin de
la regin i en el sector j) :
/ /
100 100
/ /
ij i ij j
ij
j i
Y Y Y Y
L
Y Y Y Y
= =
i i
i i

Coeficiente de localizacin sectorial (del sector j-simo):
1
1
2
N
ij
i
j
i
j
Y
Y
CL
Y Y
=
=

i
i

Coeficiente de especializacin regional (de la regin i-sima):
1
1
2
L
ij j
i
j
i
Y Y
CE
Y Y
=
=

i
i

Coeficiente de diversificacin (de la regin i-sima):
2
2
1
2 2
1 1
L
ij
j
i
i L L
ij ij
j j
Y
Y
CD
L Y L Y
=
= =
| |
|
\ .
= =


i

Coeficiente de diversificacin normalizado:
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .


395
Contrastes
2
de Pearson
n
i
=n de observaciones en la clase i.
E
i
=np
i
=n esperado de
observaciones en la clase i bajo H
0
.
( )
2
2
1
k
i i
i i
n E
E


ij
n = n de elementos en la categora
i
A de X
y
j
B de Y.
1
c
i ij
j
n n

=
=

= n de elementos en la categora
i
A de X.
1
r
j ij
i
n n

=
=

= n de elementos en la categora
j
B de Y.
n = n de elementos en la muestra.
i j
ij
n n
E
n

=
( )
2
2
1 1
r c
ij ij
i j ij
n E
E

= =


ij
n = n de elementos en la categora
i
A de X,
de la poblacin
j
B .
1
c
i ij
j
n n

=
=

= n de elementos en la categora
i
A de X.
1
r
j ij
i
n n

=
=

= n de elementos en la poblacin
j
B .
n = n de elementos en la muestra.
i j
ij
n n
E
n

=
( )
2
2
1 1
r c
ij ij
i j ij
n E
E

= =


0
H : X F(x)
H
0
: X e Y son independientes. H
0
: Las c poblaciones son homogneas
(se distribuyen igual)
: ( ). ( ) ( )
1
H X G x G x F x
H
1
: X e Y no son independientes. H
1:
Las c poblaciones no se distribuyen igual
2 2
1,1 0 k
rechazamos H si



>
2 2
( 1)( 1); 1 o r c
rechazamos H si



>
2 2
( 1)( 1); 1 o r c
rechazamos H si



>


396
Contrastes de Kolmogorov-Smirnov (muestras independientes).
| |
0
( ) F x P X x =
( )

n
n observaciones x
F x
n

=
( ) ( )
0
max
exp n
D F x F x =
( )
1

n
muestra
n observaciones x
F x
n

=

( )
2

m
muestra
n observaciones x
F x
m

=

exp
max ( ) ( )
n m
D F x F x =
0
H : X F(x)
: ( ). ( ) ( )
1
H X G x G x F x
Contraste bilateral:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=

`

)

Contrastes unilaterales:
0 0
1 1
: ( ) ( ) : ( ) ( )
(1) (2)
: ( ) ( ) : ( ) ( )
n m n m
n m n m
H F x F x H F x F x

H F x F x H F x F x
= =

` `
< >
) )

( .14)
0 exp
rechazamos H si D D tabla A

>
distinguiendo si n m = o n m y si el test es unilateral o bilateral. Se rechaza
0
H si
exp
D D

> . (Tablas A.18 y A.19)




397
Contraste de Mann-Whitney (muestras independientes).

0
. ( ) ( )
n m
H Las dos muestras proceden de la misma poblacin F x F x = =
1
. ( ) ( )
n m
H Las muestras proceden de
poblaciones distintas F x F x
=

1
( ) ( )
(
).
n m
H F x F x
La muestra de tamao n toma valores
mayores que la muestra de tamao m
= <
20 40
( 3.17 3.20)
n y m
tablas a

( )
60
(0,1)
n m
z N
+ >

2
nm
=
2
( 1)
12
nm n m

+ +
=
0
0
U
z

=
0
2
Se rechaza H si p

muestras de
tamaos n y m
n m
0 1 2
min ( , ) U U U =
1 1
( 1)
2
n n
U nm R
+
= +
2 2
( 1)
2
m m
U nm R
+
= +
0 0
( )
Se rechaza H si U U
U valor crtico para el test unilateral

0
Se rechaza H si p
0
Se rechaza H si p
| |
0
p P z z =
0 0
( )
Se rechaza H si U U
U valor crtico para el test bilateral

0 0
( )
Se rechaza H si U U
U valor crtico para el test unilateral

1
( ) ( )
(
).
n m
H F x F x
La muestra de tamao n toma valores
menores que la muestra de tamao m
= >

398
Test de las rachas (aleatoriedad, muestras independientes).

0
( ) H El orden de los valores de la muestra es aleatorio casual =
0
H Las dos muestras proceden
de la misma poblacin
=
( )
A
H El orden de los valores de la
muestra NO es aleatorio casual
=
1
( )
A
H Efecto de aglomeracin
pocas rachas
=
2
.
( )
A
H Los valores se
suceden de forma regular
muchas rachas
=
1
.
( )
A
H Las dos muestras proceden
de poblaciones distintas
pocas rachas
=
1 2
20
( 4.40)
n y n
tabla

( )
1 2
20
(0,1)
n o n
N
>
1 2
1 2
2
1
n n
n n
= +
+
( ) ( )
2 1 2 1 2 1 2
2
1 2 1 2
2 (2 )
1
n n n n n n
n n n n


=
+ +
R
z

=
0
(
%)
2
u o
Se mantiene H si r R r
lmites inferiores y superiores
del

< <
0
(
u
Se mantiene H si r R
lmites inferiores del %)
<
0
(
o
Se mantiene H si R r
lmites superiores del %)
<
0
(
u
Se mantiene H si r R
lmites inferiores del %)
<
0
2 2
Se mantiene H si z z z

< <
0
Se mantiene H si z z

<
0
Se mantiene H si z z

<
0
Se mantiene H si z z

<








399
Test de los signos (muestras dependientes).






0 1 2
: . ( ) ( ) H La mediana de las diferencias es cero Las dos muestras proceden de la misma distribucin F x F x =
1
1 2
:
. ( ) ( )
H Las dos muestras proceden
de distribuciones distintas F x F x
100
( 4.4)
n
tabla

101 1000
( 4.5)
n
tabla

( )
30
(0,1)
n
N

0
1 2
, ,
i i i
Se rechaza H cuando hay demasiadas diferencias de un signo y por tanto muy pocas del signo contrario
d x x d diferencias de signo positivo d diferencias de signo negativo
+
= = =
2
2 4
n n
= =
{ }
0
, Se acepta H si EI d d ED
+

1
1 2
:
.
( ) ( ) ( 1
2).
H Las dos muestras proceden
de distribuciones distintas
F x F x La muestra toma
valores mayores que la muestra
<
1
1 2
:
.
( ) ( ) ( 1
2).
H Las dos muestras proceden
de distribuciones distintas
F x F x La muestra toma
valores menores que la muestra
>
{ }
0
, Se acepta H si d ED EI d
+

{ }
0
, Se acepta H si d ED EI d
+

{ }
0
2 2
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si EI d d ED
+

d
z

+
+

=
d
z


=
d
z

+
+

=
d
z


=
{ }
0
, Se acepta H si d ED EI d
+
{ }
0
, Se acepta H si d ED EI d
+


400
Test de Wilcoxon de los signos-rangos (muestras dependientes).





( )
65
4.2
n
tabla

( )
25
(0,1)
n
N
>

1 2
( 1)
min( , )
2
i i i i
n n
d x x ordenar d de menor a mayor R y R verificar R R R R R
+ + +
+
= + = =
0
:
0
H La distribucin de las diferencias es simtrica alrededor de su mediana 0 Las dos muestras proceden de la misma distribucin.
H : f(+d)= f(-d) F(+d)+F(-d)=1


0
( ) Se rechaza H si R R R valor crtico para el test
1
: . H Las dos muestras proceden de distribuciones distintas

( )( )
2
1 2 1
( 1)
4 24
n n n
R n n
z

+ +
+
= = =
0
2
( ) Se rechaza H si z z test bilateral


0
( ) Se rechaza H si z z test unilateral

Anda mungkin juga menyukai