Anda di halaman 1dari 133

Alexander Pinto y Neil Pernalete de P.

Captulo I

pg. 1
CAPITULO I: NATURALEZA DE LA ESTADISTICA
Conceptos Matemticos bsicos

Para muchos de los participantes de estudios en el campo de las ciencias sociales, quizs el
trmino matemticas es muy fuerte y tienden a rechazar muchos de sus aspectos, pero tal vez
porque no los han explorado, tal vez por las malas experiencias que han tenido en el
transcurso de su vida estudiantil o quizs por no relacionarlo con su futuro desempeo y si a
eso se asocia el termino estadstica pudiramos concluir que aumenta la decepcin, ansiedad y
quizs frustracin, cuando en realidad lo que se necesita es una racin de conocimiento
aritmtico, por lo tanto vamos a repasar algunos conocimientos aritmticos previos para
integrarlos al mundo de la estadstica y del anlisis de datos.

Nmeros nominales: son los que utilizan para designar
Nmeros ordinales: representan una posicin en una serie determinada.
Nmeros cardinales: son los que se utilizan para representar cantidades.
Sustantivos matemticos: consiste en el empleo de smbolos para representar cantidades.
Adjetivos matemticos: se utilizan para modificar un sustantivo y darle mayor precisin,
utilizan los subndices Xi.
Verbos matemticos: son los que guan al usuario para efectuar algo que tiene las mismas
caractersticas, uno de los ms importantes es .
Adverbios matemticos: son los que modifican los verbos, por ejemplo los smbolos de suma.

Medida: Consiste en la combinacin de la expresin numrica y la unidad de medicin
correspondiente, constituye una medida como resultado de la confrontacin o comparacin de
magnitudes con un patrn o unidad de medida establecida.

Ejemplos:
Si se desea conocer la longitud de un aula de clases, se comparara el largo del saln con una
cinta mtrica, como resultado obtendramos 7,5 metros, podra decirse entonces que el
resultado obtenido constituye una medida deseada. Pero si lo que desea es medir el nivel de
conocimientos que posee un alumno en cuanto cierto contenido programtico, se le somete a
una prueba que cubra los objetivo a medir, el resultado, por ejemplo 16 puntos representara la
medida deseada, solo que es menos precisa que la anterior, ya que la caracterstica a medir es
variable y no tangible, como lo es el largo de un saln.
Se concluye que las diferencias en cuanto a la precisin de la medida son una consecuencia
del mayor o menor cambio de aquello que es objeto de medida.

Expresin numrica Unidad de medicin
65 Aos
1,75 Metros
52 kilogramos
17 Puntos
28 Grados
36 Segundos
25 litros


Escala de medida
Es el conjunto de reglas que se establecen de acuerdo a un propsito definido, siendo realizada
esta asignacin sobre un conjunto de reglas fijas.
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 2
Las escalas de medidas exigen de cierta igualdad formal entre las operaciones a realizar con
los nmeros y las que se pueden realizar con los objetos empricos, por lo tanto de acuerdo al
tipo de nmero se originan cuatro escalas: nominal, ordinal, de intervalo y de razones o
proporciones.

Escala Nominal
Cuando los objetos empricos solo permiten la operacin de igualdad y desigualdad. Por lo
antes sealado las observaciones de variables no ordenadas constituyen un nivel de medida
muy bajo y corresponden a la escala nominal, de all que los nmeros asignados para
representar diferentes clases de una escala nominal solamente tienen propiedades cualitativas
y sirven nicamente para identificar las clases.
Los datos en la escala nominal reciben el nombre de datos de frecuencia, enumerativos, datos
de atributos o datos de categora, por lo tanto la nica relacin adecuada de dicha escala son
las de equivalencia o igualdad (=) y las de no-equivalencia ( ).

Ejemplo
Un grupo de alumnos se podra clasificar en funcin del sexo. En este sentido, se le asignara
un 1 a los varones y un 2 a las hembras. De igual modo se poda haber clasificado a los
alumnos de acuerdo a su estado de procedencia, as tendramos un 1 para Anzotegui, un 2
para Apure, un 3 para Aragua, y as sucesivamente.

Escala Ordinal
Es la clasificacin hecha con los objetos empricos, permitiendo establecer, adems, una
relacin de igualdad, una relacin de orden, es una escala superior a la nominal y de hecho se
presentan variables cuyas clase se encuentran en una serie ordenada de relaciones, por lo
tanto se expresan desde el punto de vista de lgebra de las desigualdades, a es menor que b (a
< b), en esta escala los nmeros tampoco son cuantitativos, solamente indican la posicin en
una serie ordenada y no cuanta es la diferencia que existe entre posiciones sucesivas.

Ejemplo
El ordenamiento de un grupo de alumnos segn su estatura, no por mediciones efectuadas de
la estatura de cada alumno, sino simplemente el orden de menor a mayor, o viceversa, que
puede efectuarse a simple vista de acuerdo a sus tamaos. La cuanta de la diferencia de
estatura entre ellos no podra determinarse, solo se sabra quien es ms o menos alto.

Escala de Intervalos
Es aquella donde se pueden utilizar las operaciones de igualdad (equivalencia), orden
(jerarquizacin) y adems la igualdad de la diferencia. En esta escala se habla de la presencia
de un cero relativo, los valores de esta escala son cuantitativos emplean nmeros cardinales y
permiten la realizacin de cualquier tipo de operacin aritmtica. El punto cero es determinado
en forma arbitraria y no indica la ausencia de la variable que se mide.



Ejemplo
Cuando medimos la temperatura con un termmetro, las medidas resultantes pueden ser
ordenadas en una escala de intervalos iguales, de modo que la diferencia entre 50C y 30C
es igual a la diferencia entre 90C y 70C. Esto se justifica por cuanto el grado es una unidad
constante.

Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 3
Con esta escala podemos hacer las operaciones aritmticas corrientes y aplicar en general, casi
todos los procedimientos estadsticos. Lo nico que no podemos hacer es operaciones que
impliquen la presencia o el manejo de un cero absoluto. Por ejemplo: no podemos decir que la
temperatura que indica 60 C es el doble de la que indica 30 C. Para hacer esta afirmacin
debemos suponer un cero absoluto con respecto al cual 30 est en un punto intermedio entre
60 y ese cero. Esto equivale al cero relativo de la temperatura, ya que no indica ausencia de
temperatura sino el punto de congelacin del agua.

Escala de razones
Es la clasificacin de objetos empricos donde puede determinarse las relaciones de igualdad,
orden, igualdad de intervalo e igualdad de razones, esta ultima debido a su caracterstica en
cuanto a que las mediciones efectuadas a partir del cero absoluto, es decir, ausencia de la
variable que se est midiendo.

Ejemplo
Si se posee un rea de 10 metros y se divide entre 2, es igual a dividir un rea de 20 metros
entre 4, es decir: 10/2=20/4. Esta igualdad de razones es posible porque existe un cero
absoluto: 0 metros significa ausencia de longitud o distancia.

Como se observa las escalas de intervalos y razones tienen el mismo origen en los nmeros
cardinales y su nica y real diferencia es el cero, pero el resto de sus propiedades son iguales.

Estadstica
La palabra Estadstica, significa esencialmente dos cosas: recuento o inventario de datos y
ciencia matemtica. Como recuento o inventario de datos: se asocia a la palabra estadsticas
(en plural), donde se recopila informacin pertinente a un hecho determinado, por ejemplo: las
estadsticas de accidentes automovilsticos durante 2003 en cierta ciudad, o las estadsticas de
nacimientos vivos en algn centro hospitalario, etc.

Esta idea de la estadstica no es nueva, se ha venido utilizando desde la antigedad, hace mas
de 4000 aos los chinos ya utilizaban tablas estadsticas agrcolas; tambin los egipcios y
romanos utilizaban operaciones diferentes de recuentos. Actualmente se le conoce como
Estadstica Descriptiva.

Por lo tanto con la utilizacin de la Estadstica Descriptiva, se pueden realizar los siguientes
procedimientos:
a. ordenar y agrupar datos.
b. construir tablas de grficos.
c. convertir datos originales en puntuaciones estadsticas.
d. Determinar promedios.
e. Relacionar instrumentos.

El desarrollo de toda una teora de la estadstica para llegar a convertirla en una ciencia
matemtica, parte del estudio de los juegos de azar, extendido hasta crear una rama particular
de la matemtica: el clculo de las probabilidades, esto llevo a muchos investigadores a
descubrir principio generales, entre ellos: Fisher, Pascal, Fermat, Bernoulli, Euler, Laplace y
Gauss.

Hoy en da la Estadstica, como ciencia matemtica, adems de realizar anlisis de datos
demogrficos, econmicos o sociolgicos, ha extendido su campo de aplicacin a todas
aquellas investigaciones en las que el anlisis de datos exija el conocimiento de las leyes de
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 4
azar, y suponga adems, la organizacin de datos, sometimiento a prueba de hiptesis
cientficas, estudiar los procedimientos de anlisis y las tcnicas de los resultados obtenidos.
Esto es conocido como Estadstica Muestral o Inferencial.

Por lo antes expuesto la Estadstica Inferencial permitir:
a. seleccionar muestras.
b. Determinar los errores muestrales.
c. Contrastar promedios.
d. Estimar el valor del parmetro poblacional.
e. Elaborar conclusiones, generalizaciones vlidas para la poblacin.

Conceptos Bsicos
Poblacin: Conjunto de unidades, individuos, elementos, datos que satisfacen una definicin
comn y que rene cierto inters de estudio, lo cual seala que tiene que ser medible. Por lo
tanto es una definicin comn. La poblacin debe estar claramente delimitada antes de dar
inicio a cualquier investigacin; si el nmero de elementos que la conforman es limitado y
contable, se dice que es una poblacin finita, si por el contrario es ilimitado, y por lo tanto no
puede contarse se dice que es una poblacin infinita.

Ejemplo
Las calificaciones obtenidas por los alumnos cursantes de Estadstica en el segundo semestre
del ao 2007 en CUAM: es una poblacin delimitada, finita y contable.

Muestra
Parte o subconjunto de la poblacin, la cual deber reunir las caractersticas de sta para que
sea representativa de la misma; la seleccin de sus elementos se denomina muestreo y el ms
utilizado es el aleatorio o al azar, en el cual es conocida la probabilidad de seleccin de cada
elemento de la poblacin.

Ejemplo
35 alumnos escogidos al azar de Estadstica del actual semestre de FaCE de la UC.

Muestra aleatoria
Es un subconjunto de la poblacin seleccionado de forma tal que cada miembro de la poblacin
ha tenido igual oportunidad de ser elegido.

Dato
Se refiere a nmeros o medidas obtenidas como resultados de observaciones para
investigacin.



Parmetro
Es una medida obtenida a partir de las observaciones de una poblacin, para referirse a ellas
se simbolizan con letras griegas ( , , , ).

Ejemplo
Promedio de las calificaciones de los alumnos cursantes de Estadstica en el segundo semestre
del ao 2007 en FaCE de la UC.

Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 5
Edad promedio de los alumnos cursantes de Estadstica en el turno de la maana en el primer
semestre del ao 2007 en CUPIO.

Estadstico
Medida obtenida a partir de las observaciones de una muestra de acuerdo a ciertos
procedimientos especficos. Se puede utilizar para estimar el parmetro poblacional, de all que
debe considerarse que cada estadstico describe algn aspecto de la poblacin, para su
simbologa se utilizaran letras latinas ( X , s).

Ejemplo
Calificacin promedio de 35 alumnos escogidos al azar de la seccin 20 de Estadstica del
actual semestre de FaCE de la UC.

Talla promedio de 50 nios de los 80 inscritos en el Pre-escolar Las Acacias en Valencia.

Atributos y Variables (Caracteres cualitativos y cuantitativos)
Antes de explicar estos aspectos, vamos primeramente a aclarar en que consisten tres
aspectos bsicos: unidad estadstica, carcter y modalidad.

Unidad estadstica
Se refiere a los elementos que componen una poblacin determinada.

Carcter
Son las caractersticas en base a las cuales puede describirse una poblacin determinada.

Modalidad
Es la forma como se presenta el carcter y cada unidad estadstica o individuo debe poseer una
sola modalidad por lo tanto son incompatibles y excluyentes.

Atributo (Carcter Cualitativo)
El atributo es un carcter cualitativo ya que sus modalidades no son directamente medibles, es
por eso que se le llama cualidad o atributo, y a sus modalidades se les llama categoras, lo
que hace realmente es atribuirle al sujeto elemento u objeto la posesin de una caracterstica.
Estas clases deben estar claramente delimitadas y ser excluyentes entre si.

Ejemplos
El sexo (gnero), tiene dos categoras: varn y hembra, las cuales son incompatibles y
exhaustivas. Es decir, cada individuo debe poseer una y sola una modalidad por carcter: o se
es varn o hembra, pero no ambas cosas a la vez.

El estado civil puede exhibir varias modalidades segn la informacin que se requiera: casado-
no casado; soltero-casado-viudo-divorciado.

Cuando estamos en presencia de una caracterstica cualitativa solamente podemos expresar el
nmero de individuos que la poseen (dato de frecuencia o de conteo).

Variable (Carcter Cuantitativo)
Un carcter es cuantitativo si sus diversas modalidades son medibles y numerables. Es decir,
cada modalidad, puede representarse por un nmero.
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 6
Este nmero se llama variable estadstica, por eso se llaman variables a los caracteres
cuantitativos ya que las diferentes modalidades son los diferentes valores posibles de la
variable estadstica, de all que se distinga entre ellos grado, nivel, cantidad dentro de cada
clase. As la edad, talla y el peso, por ejemplo son variables cuantitativas.

Ejemplos
Nmero de carros accidentados en la Avenida Bolvar de Valencia luego de un torrencial
aguacero.

Calificaciones en el segundo lapso obtenidas por el noveno grado B del Colegio Santa Cruz.

Las variables cuantitativas pueden ser: Discretas y Continuas.

Variables Discretas
Constituyen un tipo de variables que se caracterizan porque sus posibles valores son aislados
(se expresan generalmente como nmeros enteros o mltiplos de un nmero fijo). En estas
variables se encuentran las medidas discretas que son aquellos valores que no pueden
subdividirse en partes menores que la unidad.

Ejemplo
El nmero de hijos de una familia.

El nmero de materias aprobadas por un alumno en el ltimo semestre.

Variables Continuas
Constituyen un tipo de variables que admiten un nmero infinito de valores en un intervalo
dterminado. Por lo tanto admiten expresin decimal, en esta variable se dan las medidas
continuas que son aquellas que pueden referirse a cualquier parte de la unidad por ser un
nmero real.

Ejemplo
Distancia existente entre el aula 15 y el aula 16 en el CUPIO.
Puntuaciones obtenidas por un grupo de 25 alumnos en una prueba objetiva de Historia de 45
preguntas de opciones mltiples.

Exactitud de la Medida
La variable continua admite un nmero infinito de valores posibles en cualquier intervalo de
valores dados. Por lo tanto la medida exacta jams ser lograda en este tipo de variables, por lo
tanto las medidas que se obtienen son inexactas o aproximadas, por lo tanto para estudiar
estadsticamente una variable es necesario establecer una unidad de medida que permita
sistematizar el anlisis.

Para tener una aproximacin ms cercana al valor real de la medida exacta se determinaran los
lmites del valor real de acuerdo con la siguiente ecuacin







Valor exacto = Valor informado unidad de medida
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 7
Ejemplo
Sea la unidad de medida el kilogramo, y un alumno tiene un peso de 56 kilogramos, el peso real
se encontrar dentro de los lmites que resultan de aplicar la ecuacin.
56 kgs = 55,5 kgs y 56 + kgs = 56,5 kgs
Podemos decir que no es el valor real sino que entre esos lmites, 55,5 y 56,5, probablemente
se encuentre el valor ms cierto.

Redondeo de los nmeros
Como lo hemos sealado las medidas no son exactas sino aproximadas ya que los
instrumentos de recoleccin son materiales y se pueden cometer errores de medida, de este
modo las cifras son aproximadas por exceso o por defecto, de all que el redondeo consiste en
la eliminacin de una o ms cifras de un nmero en el ms prximo posible.
Si la medida que se est redondeando se ha hecho con precisin o exactitud se conviene en
que el error por defecto o por exceso sea 0,5 unidades de la ltima cifra que se presenta.

Para el redondeo de los nmeros es necesario tener algunas tcnicas para que sea lo ms
conveniente y universal posible.

Regla 1
Si la cifra siguiente a la que se va a redondear es menor que cinco, se redondea por defecto, es
decir la cifra permanece igual.

Ejemplo
Cifra Redondear Resultado
7,5816 centsimas 7,58
4,64 dcimas 4,6
132,4 unidad 132
284 decenas 280

Regla 2
Si la cifra siguiente a la que se va a redondear es mayor que cinco, se redondea por exceso, es
decir la cifra se debe aumentar en una unidad.

Ejemplo
Cifra Redondear Resultado
7,5817 Milsimas 7,582
4,67 Dcimas 4,7
139,8 Unidades 140
289 Decenas 290

Regla 3
Si la cifra siguiente a la que se va a redondear es igual a cinco y a continuacin la cifra es igual
a cero, puede ocurrir

3. a. si la cifra anterior al cinco es par, se redondea por defecto

Ejemplo
Cifra Redondear Resultado
7,465 centsimas 7,46
4,65 dcimas 4,6
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 8
132,5 unidad 132
2,8665 milsimas 2,866
3. b. si la cifra anterior al cinco es impar, se redondea por exceso

Ejemplo
Cifra Redondear Resultado
7,475 centsimas 7,48
4,35 dcimas 4,4
133,5 unidad 134
2,8615 milsimas 2,862

Regla 4
Si la cifra siguiente al digito que vamos a redondear es igual a cinco y a continuacin existe
cualquier otro nmero distinto de cero (0) se redondea por exceso.

Ejemplo
Cifra Redondear Resultado
7,4651 centsimas 7,47
4,252 dcimas 4,3
0,51 unidad 1
2,86253 milsimas 2,863

El conocimiento de estos conceptos y elementos bsico es necesario para enfrentar la
utilizacin del procesador estadstico, ya que para enfrentarlo debemos conocer de la mejor
manera su fundamentacin terica.

A continuacin se presenta una serie de ejercicios para que identifiquen los conceptos
manejados al principio de esta unidad.

Ejercicios

1. Categorice cada una de las siguientes medidas segn su pertenencia o no a las escalas
nominal, ordinal, de intervalo o razn.
a. Identificacin de las zonas postales segn sus respectivos nmeros.
b. Posicin acadmica (profesor asistente, agregado, asociado, titular)
c. Sistema mtrico para medir distancias.
d. Nmeros de telfonos.

2. Un profesor construye una prueba de ortografa seleccionando una muestra de 200 palabras
de un diccionario.
a. Si el profesor califica su prueba de una de las siguientes maneras cul es la escala de
medida que emplea?
"O" si el alumno escribi al menos un plural con algn error.
"1" el alumno escribi todos los plurales correctamente.
b. Si el profesor cuenta el nmero de palabras correctamente escritas y denomina tal hecho
como "la habilidad para escribir con ortografa", cul es la escala de medida a la que est
recurriendo?

3. Determinar los lmites reales que corresponden al valor obtenido en los ejemplos siguientes:
Sensibilidad de Valor
Alexander Pinto y Neil Pernalete de P. Captulo I

pg. 9
Variable la medida Obtenido
a. Edad Al mes ms cercano 6 aos 5 meses
b. Peso Al gramo ms prximo 2 Kgs. 13 gramos
c. Valor monetario Al bolvar ms cercano Bs. 343
Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 10
CAPITULO II: Procesadores Estadsticos
Conceptos Bsicos
El computador es un instrumento que se relaciona bsicamente con el procesamiento y
calculo de datos, en pocas palabras es una mquina que convierte un conjunto de datos en
informacin utilizando una serie de instrucciones para ello.

Este conjunto de instrucciones se llama software y es un programa que puede ser una
aplicacin de Windows, un procesador estadstico o cualquier software que permita la
realizacin del mismo.

Entre los procesadores estadsticos existen una gran gama que depende de la adecuacin
que tengan los usuarios a su ergonoma los pueden seleccionar, por ejemplo: el
Statgraphics, SPSS, el SAS, Minitab, Systat, BMPD, etc, tambin existen aplicaciones del
Office como el Excel.


















Fig. 2.1. Presentacin del Statgraphics




















Fig. 2.2. Presentacin del SPSS

Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 11













Fig. 2.3. Presentacin del Excel

Esas aplicaciones son de las comunes en el mercado, pero es necesario sealar que los
manejos son diferentes entre ellos pero los mismos pueden importar bases de datos de
cada uno de ellos y adecuarlas, por lo tanto el usuario que pretenda elaborar anlisis
estadsticos con la utilizacin de ellos debe tener conocimiento bsico del sistema operativo
Windows ya que sino lo posee la ejecucin no ser la adecuada as como tambin
conocimientos de estadstica como estudiamos en el capitulo anterior.

Cualquier paquete estadstico deber implementar como mnimo los estadsticos
tradicionales: descriptivos, frecuencias, medidas de tendencia central, medidas de
dispersin, correlacin, contraste de hiptesis, tablas y coeficientes de contingencia, anlisis
de varianza y medidas de fiabilidad, contraste no paramtricos y un largo etctera.

De los mundialmente conocidos y sealados en el presente manual manejaremos el
Statgraphics Plus, el cual es un software que integra una gran variedad de funciones
estadsticas, grficos de alta resolucin y fue elaborado por STSC, INC. and Statistic
Graphial Corporation.

Para la activacin de cualquier paquete estadstico el usuario debe ubicar el icono
respectivo y accionarlo mediante el mouse, o dirigirse al botn inicio, seleccionar programas
y hacer clic en el Statgraphics.

El icono del Statgraphics Plus (Versin 5.1) aparece a continuacin:





Fig. 2.4. Icono del Statgraphics Plus

Con este icono se activara el paquete estadstico y se podrn efectuar las distintas
operaciones para las cuales fue elaborado. Este producto permite, en la gran mayora de los
casos, el trabajo interactivo; por ejemplo presenta los procedimientos estadsticos y su
grfico, lo cual permite personalizarlos. Adems presenta una herramienta denominada
StatFolio la cual permite almacenar trabajos completos realizados para posteriormente
volver a usarlos sin necesidad de tratarlos, o sea que se pueden guardar y recuperar
rpidamente en su totalidad.

Luego de activar el referido paquete presenta la siguiente pantalla


Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 12






















Fig. 2.5. Pantalla principal del Statgraphics

En la cual se debe accionar maximizando la ventana Sin Nombre para que se presente la
hoja de trabajo en la cual poder construir la base de datos para el anlisis respectivo de
acuerdos a los datos recogidos, quedando as:























Fig. 2.6. Hoja de clculo del Statgraphics
De esta pantalla es de mucha importancia la barra de men y los iconos los cuales permiten
realizar rpidamente las diferentes operaciones:
Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 13


Abrir StatFolio


Guardar StatFolio


Abrir archivo de datos


Guardar archivo de datos


Cortar


Copiar



Pegar



Imprimir

Fig. 2.7. Barra de mens e iconos de la hoja de clculo del Statgraphics

Estos sern los principales iconos para manejar la base de datos que se esta creando o se
va a crear.

As mismo nos encontramos con la barra de men la cual presenta diferentes opciones que
van desde: Archivo, Edicin, Grficos, Descripcin (Estadstica Descriptiva), Comparacin
(Estadstica Inferencial), Dependencia (Regresin lineal), Avanzado (Varias tcnicas
estadsticas), SnapStat!! Ver, Ventana y Ayuda, al pulsar cada uno de ellos aparecer un
men emergente con una serie de posibles comandos para ser ejecutados de los cuales
mostraremos en esta parte los que pueden servir para el manejo de la base de datos
principalmente, los otros sern tratados en captulos posteriores.









Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 14











































Fig. 2.8. Mens tipo persiana del Statgraphics

Conjuntamente con la ventana Sin Nombre aparecen otras tres ventanas, a saber
StatAdvisor, es una herramienta la explica los resultados generados por el Statgraphics,
tambin sugiere otros posibles anlisis que se pudiesen realizar, otra ventana que se
encuentra minimizada es StatGallery (archivos grficos) nos permite guardar los grficos
generados y StatReporter esta herramienta permite generar comentarios acerca de los
anlisis que se realicen.

Cuando se genere una base de datos es necesario identificar los elementos que
corresponden con las filas las columnas y las celdas, a saber

Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 15
Variables o atributos



Registro o
unidad estadistica
.






Dato
Fig. 2.9. Ubicacin de los elementos en la hoja de clculo

Creacin de una base de datos
Para crear una base de datos y poder realizar anlisis estadsticos a partir de ella realizar
operaciones con las diferentes variables, en primera instancia se debe activar el
Statgraphics Plus, como se indic, al ejecutar esta accin le desplegar la ventana
correspondiente con cuatro ventanas minimizadas en la parte inferior, ver pagina tres,
siendo la ventana Sin Nombre, la que debe restaurar para trabajar.
Considere que est creando una base de datos vaca, se hace necesario considerar el tipo
de variable, si es numrica es aceptada por defecto, si es alfanumrica o carcter es
rechazada y debe ser configurada para poder ser aceptada.
1. Seleccionar la columna
2. Men emergente (Pulsar botn derecho del ratn)
3. Seleccionar Modificar columna
4. Nombre de la variable.
5. Tipo (Activar el deseado, seleccionar Carcter, si es alfanumrica)
6. Pulsar el botn Aceptar
7. Cargar la variable

Estos pasos se repiten cada vez que necesitemos crear una variable dentro de esta base de
datos que se est creando.

GUARDAR UN ARCHIVO DE DATOS
Si ya ha sido creada la base de datos es necesario archivarla para evitar estar creando en
cada sesin de trabajo una. El Statgraphics Plus las archiva en una carpeta denominada
DATA cuando se guarda en el disco duro de la computadora, si lo va a realizar en un
disquete o en un disco removible (pen driver) es necesario direccionarlo para que quede en
el mismo.
Forma 1
1. Botn Archivo de la Barra de men.
2. Si es primera vez seleccionar Guardar como, Guardar Datos como, pero si desea
guardarlo con otro nombre debe seleccionar, Guardar Datos como.
3. Colocarle un nombre
4. Pulsar el botn Guardar
Si se esta guardando por primera vez este archivo aparecer el nombre asignado en la
parte superior de la ventana.
Forma 2.
1. Pulse el icono con la figura del Disquete y nmeros 1234 en la barra de herramientas
2. Continuar con los pasos de la forma anterior desde el nmero 2.


70
Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 16
ABRIR UN ARCHIVO DE DATOS EXISTENTE
Si el archivo de datos fue creado con anterioridad y requerimos trabajar nuevamente con el,
debemos abrirlo y se puede realizar de dos formas:
Forma 1
1. Pulsar en la barra de men el botn Archivo.
2. Seleccionar Abrir, Abrir Datos
3. Escoger el nombre del archivo seleccionado
4. Pulsar el botn Abrir
5. Aparece en ventana minimizada, que se debe restaurar para observarlo.
Forma 2.
1. Pulsar el icono con forma de Hoja de clculo (Tercero de izquierda a derecha).
2. Seleccionar el nombre del archivo.
3. Pulsar el botn Abrir
4. Aparece en ventana minimizada, que se debe restaurar para observarlo.
En un archivo creado de datos creado se pueden realizar distintas operaciones con las
variables existentes, tales como recodificar variables, generar variables nuevas a partir de
las creadas.

RECODIFICANDO VARIABLES
Recodificar variables significa por ejemplo utilizar una variable de tipo alfanumrica
(carcter) y convertirla en una variable tipo carcter o numrica.
1. Marcar la columna
2. Men emergente (Pulsar el botn derecho del mouse)
3. Seleccionar Recodificar Datos
4. Establecer los lmites inferior, superior y el nuevo valor.
5. Verificar las condiciones de los lmites
6. Pulsar el botn Aceptar
As mismo se pueden recodificar variables numricas en intervalos u otros nmeros y
efectuar las operaciones que se receten de acuerdo a la investigacin.

GENERAR UNA NUEVA VARIABLE A PARTIR DE LAS EXISTENTES
Con las variables existentes se pueden crear nuevas variables, mediante diferentes
operaciones como de igualar (numricas o carcter), o en relaciones mayor que, menor que.
Los operadores que permiten realizar operaciones matemticas, entre los ms comunes,
estn +, -, *, /, SQRT, LOG, se pueden realizar distintas operaciones como son frmulas
1. Ubicarse en la columna donde va a ser generada la nueva variable.
2. Marcar la columna.
3. Men emergente.
4. Seleccionar Generar Datos (Muestra el cuadro Generar Datos)
5. Sealar las condiciones para la nueva variable, a que variables va utilizar y cuales
operadores utilizar. Por ejemplo que exista una variable denominada Nota y se
necesita seleccionar solamente los varones, quedara NOTA SELECT(sexo
=varn), se crea una nueva variable utilizando las notas de solamente en los
varones.
6. Confirmar pulsando el Botn Aceptar (se genera la nueva variable en la columna
seleccionada)

GUARDAR ARCHIVOS DE DATOS Y RESULTADOS A LA VEZ
Ejecute sus procedimientos y en lugar de borrarlos minimice las ventanas, recuerde que
debe aparecer el nombre del procedimiento(s) y la(s) variable(s).
1. Pulse el icono en forma de Disquete (Segundo de la barra) solo, le preguntar
Guardar StatFolio Como
2. Asigne nombre
3. Guardar
Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 17
Al continuar guardando en la misma sesin o cuando lo cargue, solo pulse el icono y se
ejecutar la accin (Lo puede realizar por Archivo, en la barra de men)

ABRIR ARCHIVOS DE DATOS Y RESULTADOS A LA VEZ
Si guard el archivo de datos y los resultados del mismo mediante el StatFolio, podr
recuperarlos mediante el siguiente procedimiento
1. Pulse el primer icono de la barra de herramientas (La carpeta), le preguntar Abrir
StatFolio.
2. Seleccione el nombre del archivo.
3. Abrir.
Ser cargado la base de datos y los resultados que tiene guardados, con los cuales podr
seguir realizando los anlisis que necesiten.

TRABAJANDO CON EL COMANDO EDICION DE LA BARRA DE MENU
Permite recortar, copiar, pegar, cambiar el tipo de letra, cambiar el ttulo del anlisis,
insertar, borrar y ordenar el archivo.

COPIAR O CORTAR
1. Marcar la(s) columna(s) o fila(s).
2. Ejecutar Cortar (Icono Tijera) o Copiar (Icono dos hojas papel).

PEGAR LO COPIADO O CORTADO
1. Posicione el punteo donde desee ubicar lo copiado o cortado.
2. Pulse Pegar del men o el sptimo icono.

CAMBIAR EL TIPO DE LETRA DEL ANALISIS
1. Edicin.
2. Cambiar Ttulo del Anlisis.
3. Seleccionar en el cuadro: Fuente, Estilo, Tamao, Tipo de alfabeto y luego aceptar.

INSERTAR
1. Posicione el cursor en la celda donde va a insertar.
2. Si es una columna o fila marcarla.
3. Edicin.
4. Insertar. Ya se ejecuta la accin.

BORRAR
Repita los pasos 1, 2, 3 de Insertar. 4. Borrar. Y se ejecuta la accin.

ORDENAR VARIABLES
En estas operaciones tambin se pueden realizar por ejemplo ordenar una variable de
acuerdo a constitucin se procede de la siguiente manera:
1. Marcar la columna (Variable)
2. Pulsar el botn Edicin de la barra de men
3. seleccionar Ordenar Datos (aparecer un cuadro de dilogo).
4. Seleccionar si el orden es Ascendente o Descendente.
5. Pulsar el botn Aceptar, se ejecuta la accin, es necesario tener cuidado ya que se
realiza en la misma columna.







Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 18
Ejercicio 1.
Los siguientes datos corresponden a una muestra aleatoria hipottica de la Facultad de
Ciencias de la Educacin, la cual es objeto de investigacin:

Sujeto Sexo Seccin Edad Turno Lgica Matemtica Estadstica Esp.
1 F 11 21 M 06 03 05 Soc
2 F 71 22 N 13 04 07 LL
3 F 13 25 M 07 10 08 Ing
4 M 72 22 N 14 11 09 LL
5 M 71 25 N 12 10 10 LL
6 F 12 21 M 10 05 12 Soc
7 M 12 27 M 13 12 10 Ing
8 M 12 19 M 06 02 11 Ing
9 F 71 20 N 05 05 05 LL
10 F 72 20 N 01 04 06 LL
11 M 71 19 N 03 12 12 Soc
12 F 13 20 M 01 10 10 LL
13 M 12 23 M 07 16 16 Ing
14 F 11 22 M 05 12 13 LL
15 M 11 21 M 12 16 10 Soc
16 F 72 25 N 10 14 17 Ing
17 M 71 26 N 16 09 18 Ing
18 F 13 27 M 14 17 19 Soc
19 F 72 28 M 03 12 10 Ing
20 F 11 20 N 02 10 09 Soc

Antes de realizar cualquier operacin adecu el sistema a que lo que realice quede
archivado en su disco de trabajo.

1. Construya una base de datos denominada Ejercicio 1.
2. Edite el archivo y cree las variables de acuerdo a las caractersticas.
3. Cree una variable denominada edad1 donde se seleccione de la variable edad
solamente los alumnos del turno de la noche.
4. Cree una variable denominada mating donde se seleccione de la variable Matemtica los
alumnos de Ingls.
5. Cree una variable denominada lomaes donde la calificacin de Lgica aporte el 35%,
Matemtica el 27% y Estadstica el resto.
6. Cree una variable denominada frmula1 que responda a la siguiente frmula:
(Lgica + Matemtica + Estadstica)
2

------------------------------------------------- . 20
5
7. Cree una variable denominada Estafs donde se seleccione de la variable Estadstica los
que sean del sexo F y de la especialidad Soc.
8. Cree una variable denominada logest donde se seleccione de la variable Lgica, los
alumnos que tengan puntuaciones iguales o superiores a 8 puntos en Estadstica.
9. Genere una variable denominada sexo1, mediante la remodificacin de la variable sexo,
colocando como etiqueta la categora respectiva en palabra (femenino, masculino) sin
que se pierda la variable original.
10. Genere una variable denominada edadrec, mediante la remodificacin de la variable
edad, con las siguientes categoras inicial, para el intervalo 19 - 21, media para 22 - 25 y
adulto para 26 28.
11. Todas las operaciones ejecutadas deben ser almacenadas en un archivo StatFolio
denominado Resultados 1, ya que sern usados a posteriori.


Alexander Pinto y Neil Pernalete de P. Captulo II
Pg 19
Ejercicio 2
En un instituto de educacin superior de la regin se tiene la siguiente informacin de los
graduados en su ltima promocin de TSU
Nombre Bachiller TSU Indice Acad Promedio
Mireya Ciencias Informtica 43,40 13,25
Jos Ciencias Turismo 61,72 14,78
Miguel Humanidades Informtica 60,40 14,25
Rafael Humanidades Informtica 59,37 16,75
Ana Ciencias Ed. Especial 59,65 15,47
Xiomara Ciencias Ed. Especial 47,25 18,33
Carmen Humanidades Turismo 55,95 16,28
Juan Ciencias Informtica 48,30 10,47
Luisana Humanidades Turismo 48,50 11,56
Henry Humanidades Informtica 50,35 12,45
Magaly Ciencias Ed. Especial 49,70 11,28
Susana Humanidades Ed. Especial 63,25 15,58
Egilda Humanidades Ed. Especial 54,25 14,35
Johanna Ciencias Informtica 60,10 17,86
Victor Ciencias Ed. Especial 55,15 13,25
Carlos Ciencias Turismo 47,40 13,47
Dannela Humanidades Informtica 47,25 12,11
Yamerly Humanidades Informtica 58,25 15,48
Mary Ciencias Informatica 60,15 19,33
Rosangela Ciencias Turismo 45,50 11,28
a. Construya una base de datos denominada Ejercicio 2.
b. Edite el archivo y cree las variables de acuerdo a las caractersticas.
c. Cree una variable denominada CAMBIO donde seleccione de la variable TSU
solamente los alumnos de la especialidad de Turismo.
d. Genere una variable denominada inaprom donde ndice Acadmico aporte las
dos terceras partes y la variable promedio aporte lo restante.
e. Genere una variable denominada indice1 donde de la variable ndice
Acadmico se seleccione los que tengan puntuaciones iguales o superiores a
49,50.
f. Cree una variable denominada promci donde seleccione de la variable
Promedio los que sean Bachiller en Ciencias y del TSU Informtica.
g. Si del ndice acadmico solo se seleccionan para continuar los que posean
puntuaciones iguales o mayores a 58,75 puntos, cree una variable
denominada IAS con la etiqueta en categoras seleccionado y no
seleccionado.
h. Genere una variable denominada IAT donde el ndice acadmico sea
transformado a una escala de 1 a 20.
i. Si la variable Promedio aporta el 40% y el ndice acadmico aporta el
porcentaje restante, genere una variable denominada IAA.
j. De la variable IAA, genere una variable denominada IAAR, para cual
recodifique y etiquete los mayores o iguales a 10 como admitidos y los
restantes con no admitidos.
k. Todas las operaciones ejecutadas deben ser almacenadas en un archivo
StatFolio denominado Resultados 2, ya que sern usados a posteriori.

Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 20
CAPITULO III: ORGANIZACIN Y REPRESENTACIN GRFICA DE LOS DATOS.
A partir de este momento vamos a comenzar la utilizacin del paquete estadstico
Statgraphics Plus para el procesamiento de datos y la obtencin de resultados dependiendo
de las necesidades de la investigacin.
En los conceptos bsicos desarrollados en el primer captulo hicimos referencia al dato y se
dijo que estaba referido a nmeros o medidas que se han obtenido de diferentes fuentes, a
saber: pruebas, encuestas y experimentos y en el procesador se ubican en las celdas.

Existe otro concepto el cual va a transitar por todo el anlisis de datos y la estadstica el cual
el de frecuencias, se refiere al nmero de unidades estadsticas que tienen un valor o
atributo particular, por ejemplo el nmero de individuos a favor de cierta actitud.

Tipos de frecuencias
Absoluta (f)
Ordinaria
Relativa (h)

Frecuencias

Acumulada Absoluta (F)

Relativa (H)


Frecuencia Ordinaria Absoluta (f): Consiste en el nmero de repeticiones de las unidades
estadsticas que poseen determinada medida.

Frecuencia Ordinaria Relativa (h): Consiste en la proporcin de datos o unidades
estadsticas que poseen determinada medida, si se multiplica por cien (100) se convierte en
porcentaje.

Frecuencia Acumulada Absoluta (F): Consiste en la acumulacin se unidades estadsticas
o datos que poseen una determinada medida, esta acumulacin puede realizarse desde el
dato menor, o puede ser lo que existe acumulado en un determinado rango de valores de la
medida.

Frecuencia Acumulada Relativa (H): Consiste en la acumulacin se proporcin de datos
unidades estadsticas o datos que poseen una determinada medida, esta acumulacin
puede realizarse desde el dato menor, o puede ser lo que existe acumulado en un
determinado rango de valores de la medida, si se multiplica por cien (100) se convierte en
porcentaje acumulado.
En estadstica en necesario el agrupamiento de los datos, para lo cual debe considerarse el
tipo de escala de medida que se utiliza para la obtencin de la medida en la variable, de all
que una forma muy sencilla es agruparlos en forma ordenada.










Fig. 3.1. Tabla de frecuencias ordenada
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 21
Otra forma de organizar los datos es mediante la distribucin de frecuencias y consiste en
colocar los datos y al lado el nmero de veces que se repite y la suma de todas constituye el
total y se representa por n, cuando las frecuencias se corresponden con las datos originales
se conoce esta organizacin como distribucin con datos directos, existe otra forma de
organizar los datos y es por medio de las distribuciones de frecuencias agrupadas en
intervalos, estas formas de organizacin corresponden a variables medidas en escala de
intervalos o razones, cuando las variables son recogidas en escala nominal u ordinal y se
presentan en una tabla esta se conoce como distribucin de frecuencias para datos
categricos.

CONSTRUIR TABLAS DE FRECUENCIAS PARA VARIABLES CATEGRICAS
Cuando en una investigacin los instrumentos de recoleccin de datos suministran
informacin en las escalas de medidas nominal u ordinal, se construye una distribucin de
frecuencias para datos categricos, que muestra las modalidades de la variable y las
frecuencias correspondientes, para ello se procede de la siguiente manera:

1. Pulse botn Descripcin de la barra de men.
2. Del men emergente seleccione Datos Cualitativos.
3. Seleccione a continuacin Tabulacin.
4. Elija la Variable objeto de estudio.
5. Pulse el botn Aceptar.
6. Muestra cuatro ventanas, una de resumen del procedimiento, la tabla de frecuencias
y dos grficos, diagrama de barras y diagrama de sectores.



Fig. 3.2. Resumen analtico


Fig. 3.3. Tabla de frecuencias del Statgraphics

En la tabla que nos muestra la fig. 3.3., encontramos Valor, lo cual corresponde a las
modalidades de la variable, Frecuencia (frecuencia ordinaria absoluta, f), Frecuencia
Relativa (frecuencia ordinaria relativa, h), Frecuencia Acumulativa (frecuencia acumulada
absoluta, F) y Frecuencia Acum. Rel. (Frecuencia acumulada relativa, H).

Observacin: Si usted va a guardar tanto los datos como los resultados de los anlisis
realizados mediante el StatFolio, se recomienda que para ello cada vez que realice un
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 22
anlisis no borre la ventana de trabajo sino que la minimice y adems le coloque un nombre
para tener claramente identificada cada una de ellas, con el anlisis respectivo. Para lo cual
se procede de la siguiente manera:
1. Haga clic en la barra de men en Edicin.
2. Del men emergente seleccione Cambiar Ttulo del Anlisis.
3. En el cuadro mostrado escribir el ttulo del anlisis.
4. Pulsar Aceptar. De inmediato se genera el nuevo ttulo de la ventana.

Si la tabla a construir es de dos categoras se debe utilizar una tabla de doble entrada o
cruzada, en la cual las frecuencias corresponden simultneamente a las modalidades de los
atributos, en el paquete estadstico se trabaja de la siguiente manera:

1. Pulse botn Descripcin de la barra de men.
2. Del men emergente seleccione Datos Cualitativos.
3. Seleccionar Tabulacin Cruzada.
4. Indicar la variable que desea que vaya por la columna y la fila.
5. Pulsar Aceptar.
Presenta cuatro ventanas: dos de texto (Resumen del procedimiento y tabla de
frecuencias) y dos grficas (Diagrama de barras y Grfico de mosaico), mostramos la
tabla cruzada, si desea puede escoger la forma como presentar los porcentajes para ello
pulse el botn derecho del Mouse y del men emergente escoja la forma.
















Fig.3.4. Tabla cruzada de frecuencias del Statgraphics


DISTRIBUCION DE FRECUENCIAS AGRUPADAS EN INTERVALOS
Consiste en el agrupamiento de varias clases de datos creadas las cuales son mutuamente
excluyentes, en donde stas se definen en trminos de los intervalos de agrupamientos
empleados.

Elementos de un intervalo









Fig.3.5. Represtacin de elementos de un intervalo

Li

Ls
Xi Xs
Xm
i
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 23
Li: Lmite inferior real y corresponde al limite aparente del intervalo menos la mitad de
unidad de medida. (Ver pg. 7, unidad I)
Xi: Lmite inferior aparente.
Ls: Lmite superior real y corresponde al limite aparente del intervalo mas la mitad de unidad
de medida.
Xs: Lmite superior aparente.
Xm: Punto medio, consiste en el punto equidistante entre los lmites del intervalo, superior e
inferior, es el punto ms representativo del intervalo, se determina manualmente mediante la
siguiente frmula:




Para la construccin de la distribucin de frecuencias agrupadas en intervalos no existe una
regla fija en cuanto al nmero de intervalos, pero debe tenerse en cuenta que no sean muy
grandes ya que se perdera la discriminacin original, ni muy pequeos porque se desvirta
el objetivo de agruparlos, aunque se acepta en la mayora de los textos que se utilicen entre
10 y 15 intervalos, cuando se haya decidido el nmero de ellos, se procede a utilizar el
paquete estadstico para elaborar la misma mediante la siguiente secuencia:

1. Pulsar en la barra de men Descripcin.
2. En el men emergente seleccionar Datos Numricos.
3. Luego se selecciona Anlisis Unidimensional.
4. Seleccionar la variable deseada.
5. Pulsar el botn Aceptar.
Se presentan como resultados cuatro ventanas: dos de texto (Resumen del
procedimiento y resumen estadstico) y dos grficas (Diagrama de dispersin y Grfico
de caja y bigotes), para continuar con el anlisis,
6. Seleccionar el icono Opciones Tabulares.
7. Seleccionar del cuadro de dialogo Tabla de frecuencias, que mostrar la distribucin
de acuerdo a los objetivos planteados, para cambiar la estructura de la tabla en
cuanto el nmero de intervalos se pulsa sobre la hoja de trabajo el botn derecho del
mouse y del men emergente que se presenta selecciona Opciones de Ventanas, y
se completa de acuerdo a lo que se necesite, nmero de clases, lmite inferior, lmite
superior se pulsa Aceptar y presenta la nueva tabla.


Fig. 3.6. Tabla de frecuencias para variables continas del Statgraphics

Como se ve en la tabla se encuentran los elementos del intervalo, siendo los lmites, el
punto medio y los diferentes tipos de frecuencias.
2 2
Ls Li Xs Xi
Xm
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 24
REPRESENTACIONES GRAFICAS
No cabe duda que una distribucin de frecuencias bien construida presenta claros
resultados y ofrece un buen medio para poder obtener fructferas conclusiones, pero
tambin es indudable, que si el contenido de las tablas lo expresamos, no con nmeros,
sino valindonos de grficos sencillos pueden resultar las interpretaciones de una manera
ms clara y su conocimiento intuitivo quedar fcilmente grabado en el lector de la
investigacin. Para la eleccin del grfico es necesario tener en cuenta dos factores: la
naturaleza de los datos y el fin u objetivo al que se destina el grfico.

Tipos de Grficos




















Fig. 3.7. Tipos de grficos segn el carcter

Histograma
Es uno de los grficos ms utilizados para la representacin de las variables continuas,
configurado por una serie de barras o rectngulos levantados sobre el eje de las abscisa,
cuya base es la amplitud de los intervalos de una distribucin de frecuencias, la altura de los
rectngulos es la cantidad de datos correspondientes a cada intervalo, es decir la frecuencia
ordinaria absoluta.

Secuencia para elaborar el histograma con el procesador.
1. Pulsar en la barra de men Descripcin.
2. En el men emergente seleccionar Datos numricos.
3. Luego se selecciona Anlisis Unidimensional.
4. Seleccionar la variable deseada.
5. Pulsar el botn Aceptar.
Aparecen nuevamente las cuatro ventanas, luego
6. Seleccionar el icono Opciones grficas, eliminando las opciones de grfico de
dispersin y caja de bigotes.
7. pulsar el botn de Aceptar.

Al realizar esta secuencia aparece al lado derecho de la ventana el grfico, histograma, para
poder trabajar con su configuracin es necesario activarlo para lo cual se hace doble clic y
se agranda, en este modo se pueden cambiar el tipo de letra, colores, por ejemplo para
cambiar el ttulo del grfico se hace clic sobre el mismo y es marcado, luego se pulsa el
botn derecho del mouse y muestra un men emergente del cual se selecciona opciones
Caracteres
Cuantitativos
Cualitativos
Variables
Continuas
Variables
Discretas
Diagrama
de Pastel
Diagrama
de barras
Histograma Polgono de
frecuencias
Curva
Acumulada
Diagrama
de barras
Diagrama
de Pastel
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 25
grficas, se hace la modificacin deseada, tambin se puede cambiar el tipo de letra, el
color y tamao seleccionando la opcin lnea de fuentes, este procedimiento es permitido
tambin en las identificaciones de los ejes de ordenadas, rellenos, diseo, ttulo principal..


Fig. 3.8. Histograma que muestra el Statgraphics

Polgono de Frecuencias
Literalmente la palabra polgono significa figura de muchos ngulos, y para construirlo se
utilizan los puntos medios en el eje de las abscisas y las frecuencias ordinarias absolutas en
el eje de la ordenada, as la interseccin entre ellos sealara un punto que luego unido con
los dems representar una figura con entrantes y salientes, que finalmente tienen el mismo
significado que el histograma, los puntos ms elevados representan las mayores frecuencias
obtenidas.
Para construirlo con el procesador se siguen los mismos pasos que con el histograma pero
en lugar de este se selecciona tipo de grfico Polgono.

















Fig. 3.9. Polgono que muestra el Statgraphics

Curva de Porcentajes Acumulados
Es un grfico utilizado para variables continuas, y se construye tomando en cuenta los
porcentajes acumulados de una distribucin de frecuencias (H %), en el eje de las
ordenadas y los lmites de los intervalos en el eje de la abscisa. Como el porcentaje que
siempre se usa es el acumulado siempre se genera una curva en sentido ascendente; es til
cuando se quiere determinar en forma grfica porcentajes acumulados, o los valores de un
determinado porcentaje.
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 26

El procedimiento es idntico al del polgono, pero se selecciona polgono, y en el tipo de
frecuencia relativa y acumulada y presenta el siguiente grfico
















Fig. 3.10. Curva de porcentajes que muestra el Statgraphics

Diagrama Circular o de Pastel
Este grfico se utiliza en variables cualitativas que no presenten gran cantidad de categoras
o modalidades, permite poner de manifiesto los porcentajes o frecuencias, consiste en
presentar sectores proporcionales al porcentaje correspondiente a la caracterstica
considerada, de manera que la comparacin entre un sector y el total es fcil de interpretar.

Secuencia para elaborar el diagrama circular con el procesador.
1. Pulsar en la barra de men Descripcin.
2. En el men emergente seleccionar Datos Cualitativos.
3. Luego se selecciona Tabulacin.
4. Pulsar el botn Aceptar.
Se generan las cuatro ventanas, que se sealaron anteriormente. En esas ventanas al lado
derecho aparecen el diagrama de sectores y el diagrama de barras, este es mostrado en
diferentes colores o tramas en las categoras y de ellas al lado derecho muestra una leyenda
identificndolas, adems muestra, por defecto, el porcentaje de cada una de ellas, el cual
puede ser modificado por frecuencias.
Los cambios de textos, tipo de letra, colores, etc., se realizan igual que en los grficos
continuos (Ver histograma).















Fig. 3.11. Diagrama de Pastel que muestra el Statgraphics
Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 27
Diagrama de Barras
Se utiliza para representar variables discretas o atributos, las barras son separadas porque
no existe una continuidad en la variable, y son anchas. Cada rectngulo representa una
categora, y en conjunto debern tener una base constante y una altura proporcional a la
frecuencia absoluta correspondiente.

Para generar el diagrama de barras se realiza la misma secuencia que el diagrama de
pastel o la tabulacin para datos cualitativos.

Este grfico, se presente en sentido horizontal pero puede ser editado y cambiado a vertical,
as como otras modificaciones a fin de mejorarlo.
















Fig. 3.12. Diagrama de barras que muestra el Statgraphics

Se pueden tambin construir diagramas de barras para las tablas cruzadas.
















Fig. 3.13. Diagrama de barras compuesto que muestra el Statgraphics

Alexander Pinto y Neil Pernalete de P. Capitulo III
pg. 28
EJERCICIOS
A. Con la base de datos denominado EJERCICIO 1 de la unidad anterior y utilizando los
comandos y tcnicas adecuados responda los siguientes planteamientos:

1. Con la variable creada en el numeral 5 del Ejercicio N 1, elabore un anlisis de
frecuencias que contenga ocho intervalos y use los datos desde el menor al mayor.
2. Para la variable creada en el numeral 6 del Ejercicio N 1, elabore La tabla de
frecuencias para 10 intervalos, construya el histograma de frecuencias correspondiente,
el polgono y la curva de porcentajes acumulados, con los ajustes necesarios para los
textos, tipo de letras y colores, .
3. Para la variable matemtica elabore un anlisis de frecuencia, para aquellos alumnos
que sean de la especialidad de Ingls, para ello utilice 10 intervalos y elabore el polgono
de frecuencias con las leyendas correspondientes.
4. Obtenga la tabla de frecuencias para la variable especialidad la cual debe ser generada
por recodificacin con etiquetas completas.
5. Genere el grfico ms adecuado para la tabla obtenida en el planteamiento anterior.
6. Tabule las variables seccin y especialidad en una sola tabla, as mismo represente la
tabla en un solo grafico.
7. Elabore los diagramas de barras y de pastel de las variables alfanumricas.
8. Elabore una tabla cruzada donde la edadrec ocupe las columnas y sexo1 las filas, que
los porcentajes se presenten por columnas, y represntelos grficamente con quien lo
haga de manera ms adecuada.
9. Guarde los resultados de este ejercicio en el archivo StatFolio denominado Resultados
1.

B. Con la base de datos denominado EJERCICIO 2 de la unidad anterior y utilizando los
comandos y tcnicas adecuados responda los siguientes planteamientos:

1. Con las variables numricas, elabore un anlisis de frecuencias que contenga siete
intervalos y use los datos desde el menor al mayor.
2. Para la variable creada en el literal d, elabore La tabla de frecuencias para 9
intervalos, construya el histograma de frecuencias correspondiente, el polgono y la
curva de porcentajes acumulados, con los ajustes necesarios para los textos, tipo de
letras y colores.
3. Para la variable generada en el literal e elabore un anlisis de frecuencia, para ello
utilice 10 intervalos y elabore el polgono de frecuencias con las leyendas
correspondientes.
4. Con la variable cambio, generada en el literal c, realice el anlisis de frecuencia
correspondiente, generado por defecto y los grficos que mejor lo representan.
5. Obtenga las tablas de frecuencias para la variable bachiller y TSU.
6. Genere los grficos ms adecuados para las tablas obtenidas en el planteamiento
anterior.
7. Tabule las variables alfanumricas en una sola tabla, as mismo represente la tabla
en un solo grfico.
8. Para la variable IAA genere una tabla de frecuencias con 8 intervalos y seale
cuantos y que porcentaje de alumnos esta por encima de 8 puntos, adems muestre
el grfico ms adecuado.
9. De la variable IAAR muestra la tabla de frecuencias y el grfico ms adecuado.
10. Guarde los resultados de este ejercicio en el archivo StatFolio denominado
Resultados 2.




Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 29
UNIDAD IV: MEDIDAS DE TENDENCIA CENTRAL Y DE ORDEN
Hasta ahora se han fijado los conceptos fundamentales y las primeras tcnicas de la estadstica
descriptiva, a partir de ahora comenzamos el estudio de algunas medidas que describen los
datos sin agrupacin o los agrupados en distribuciones, comenzamos por los valores ms
caractersticos de una serie y son los que ocupan la parte central de ella, son las llamadas
medidas de tendencia central, de all que esas medidas expresan un valor central, al cual tienen
tendencia, o a convertirse los datos de la variable, por lo tanto resumen a estos por ser un
valor en termino medio.
Las principales medidas de tendencia central son la media aritmtica, la mediana y la moda,
estos son promedios, los cuales son un valor esperado, probable o frecuente de una variable,
referente a todos los valores y en especial a los centrales.

Media Aritmtica X
Se define como la suma de las puntuaciones de una variable dividida por el nmero de ellas, de
all que sea un indicador de las tendencias hacia las posiciones centrales de la de la variable

Su frmula de clculo para datos directos





Datos agrupados






Existen calculadoras con funciones estadsticas que realizan estas funciones, as como los
paquetes estadsticos para el cual sealamos a continuacin la secuencia de determinacin de
la media aritmtica.

1. Pulsar el botn Descripcin de la barra de men
2. Del men emergente seleccionar Datos Numricos
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y el
diagrama de dispersin y el grfico de caja y bigotes, como producto de esta seleccin
muestra los estadsticos descriptivos ms comunes en la ventana de resumen
estadstico.







n
Xi
X
n
i 1
n
Xi f
X
n
i 1
) * (
n
Xm f
X
n
i 1
) * (
Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 30





























Fig. 4.1. Resumen de estadsticos

El valor que corresponde a la media aparece Media = 12,0.

Interpretacin
Se esta trabajando con una variable que se denomina puntos y se ha solicitado el anlisis
de los descriptivos ms comunes y tenemos que el valor de la media es 12 puntos, lo cual
se interpretara como la puntuacin mas representativa de esa serie de datos, lo cual indica
que la serie esta conformada por datos que tienden hacia los 12 puntos, en otras palabras.

Propiedades de la media
Primera
La suma algebraica de las desviaciones de las diversas puntuaciones con respecto a la
media es igual a cero.
Para demostrarlo con el procesador, es necesario generar una variable producto de que a
cada dato se reste el valor de la media y luego activar el resumen estadstico y solicitarle la
suma, mediante el uso de la opcin de ventana.








Fig. 4.2. Resumen de estadsticos para la nueva variable

Al observar los resultados nos muestra con respecto a la nueva variable que la media es
igual a 0 y la suma es igual a 0,0, por lo tanto se ha demostrado la propiedad.

Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 31
Segunda
Si a cada puntuacin de una serie se suma una constante, las puntuaciones resultantes
tendrn una media igual a la original ms esa constante.
Para demostrar esta propiedad debemos generar una variable en que se sume un valor
constante a cada datos por ejemplo tomemos el valor 5, para continuar con la demostracin,
ahora es el momento de solicitar el resumen estadstico y sus resultados para contrastar la
media nueva con la media de la variable original.











Fig.4.3. Media para la variable original Fig. 4.4. Media para la nueva variable

Si observamos los dos resmenes el primero, fig. 4.3, corresponde a la variable original y la
media es igual a 12, mientras que la segunda, fig. 4.4, corresponde a la variable en la que
se sumo la constante de 5 a cada dato de la variable, y esta muestra una media de 17 lo
cual es igual a la media original mas la constante (12 + 5).


Tercera
Si a cada puntuacin de una serie se multiplica por una constante la media de las
puntuaciones resultantes ser igual a la media original multiplicada por esa constante.
Para demostrar esta propiedad debemos generar una variable en que se multiplique por un
valor constante a cada datos por ejemplo tomemos el valor 3.

Fig. 4.5. . Media para la variable original Fig. 4.6. Media para la nueva variable


Si observamos los dos resmenes la fig. 4.5, corresponde a la variable original y la media
es igual a 12, mientras que la fig. 4.6 corresponde a la variable generada en la que se
multiplico por una constante de 3 a cada dato de la variable, y esta muestra una media de
36 lo cual es igual a la media original multiplicada por la constante (12 * 3).


Cuarta
La suma de los cuadrados de las desviaciones de las puntuaciones con respecto a la media
es menor que la suma de los cuadrados correspondientes a cualquier otro valor diferente a
esa media.



Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 32

Fig. 4.7. Suma de los cuadrados respectos a la media Fig. 4.8. Suma de los cuadrados respectos a cualquier valor

Al observar las dos tablas en la fig. 4.7 simplemente se elev al cuadrado las diferencias
con respecto a la media y se obtuvo una suma igual a 324, mientras que en la fig. 4.8 se le
resto cada uno de los datos el valor 9, se obtuvo las diferencias y luego se elev al
cuadrado y se obtuvo una suma igual a 459, de all que se prueba que los cuadrados de las
desviaciones de las puntuaciones con respecto a la media es menor que la suma de los
cuadrados correspondiente a cualquier otro valor diferente a la media (324 < 459).

Mediana (Xd)
La mediana es otra medida de tendencia central importante y se define como el punto
numrico que deja por debajo y por encima del mismo el 50% de los casos.
Para la determinacin del valor de la misma cuando los datos se encuentran solamente
ordenados la medina ocupa el lugar central y se corresponde con el valor de la variable en
dicho lugar.

Para el clculo se utilizan la siguiente frmula:



Donde,

li: limite inferior del intervalo donde esta ubicado el valor a la mediana.
lp: lugar de la mediana


Fi: frecuencia acumulada absoluta del intervalo anterior a donde se encuentra la mediana.
i: amplitud del intervalo.

Para la determinacin del valor de la mediana mediante el paquete estadstico se utiliza el
mismo procedimiento que en la media, pero si observamos en el Resumen Estadstico no
aparece la mediana debemos activar la opcin para que genere se pulsa el botn derecho
del mouse aparece un men emergente del cual seleccionamos Mediana y luego se pulsa el
botn Aceptar, si observan hemos eliminados otros valores y aparece el valor de la
mediana.







Fig. 4.9. Resumen estadstico que muestra la mediana

i
f
Fi lp
li Xd *
2
n
lp
Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 33
Interpretacin
El valor de la mediana es de 12 puntos lo cual significa que por debajo de esa puntuacin
existe el 50% de los casos, o en otras palabras 12 puntos divide a la serie de datos en dos
partes iguales.

Moda (Xo)
Es la otra medida de tendencia central muy usada y se puede definir como el dato que ms
se repite en el conjunto de ellos, es decir, la que ocurre con mayor frecuencia.

Para la determinacin del valor de la moda en datos directos simplemente se ubica el valor
que ms se repite.

Para el clculo por datos agrupados en intervalos




donde
li. limite inferior del intervalo donde este la frecuencia mayor.
di: diferencia inferior (fm- fi), se corresponde a la diferencia de las de las frecuencias
ordinarias absolutas del intervalo con mayor frecuencia (fm) y el intervalo anterior (fi).
ds: diferencia superior (fm fs), se corresponde a la diferencia de las de las frecuencias
ordinarias absolutas del intervalo con mayor frecuencia (fm) y el intervalo siguiente (fs).
i: amplitud del intervalo.

Para la determinacin del valor de la moda mediante el paquete estadstico se utiliza el
mismo procedimiento que en la mediana y el valor a interpretar corresponde a Moda.








Fig. 4.10. Resumen estadstico que muestra la moda

Interpretacin
Observemos que el valor de la moda es igual a 12, si aparece en blanco ocurre es porque
existen varios valores los cuales se repiten con la misma frecuencia por lo tanto resulta una
serie multimodal, lo cual dificulta su interpretacin, es necesario tener cuidado con estos
casos de all que se recomienda utilizar las medidas de tendencia central de acuerdo a los
objetivos de la investigacin.


Recomendaciones para el uso de las medidas de tendencia central

La Media se recomienda utilizarla cuando:
1. se necesita el valor ms representativo.
2. no existan datos extremos.

i
di ds
di
li Xo *
Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 34
La mediana se recomienda utilizarla cuando:
1. existan datos extremos.
2. se necesite el valor que divida a la serie en dos partes exactamente iguales.

La moda se recomienda utilizarla cuando:
1. Se necesite una visin rpida de la tendencia central.
2. sea una variable discreta, o algn atributo y se necesite la tendencia central.

Relaciones entre las medidas de tendencia central























Fig. 4.11. Grficos de simetra y asimetra

La relacin entre los promedios indica simplemente las posicin de los datos respectos a la
media luego de comparar las medidas, una distribucin simtrica significa que las medidas de
tendencia central poseen el mismo valor, Xo Xd X , por lo tanto la concentracin de datos
es la misma por encima y por debajo de la media, si es asimtrica positiva significa que
Xo Xd X , de all que la concentracin de datos sea por debajo de la media; si es
asimtrica negativa significa que Xo Xd X , por lo tanto la concentracin de datos es por
encima de la media.


Medidas de Orden
Son aquellas medidas que se basan en la posicin que ocupan en las series los diferentes
valores que asumen los datos en una escala de 100. Estas medidas se refieren a los cuartiles y
los percentiles.

Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 35
Cuartiles
Son los puntos que dividen a la distribucin continua en cuatro partes iguales, los
simbolizaremos con la letra Q, el primer cuartil (Q
1
) es el punto por debajo del cual existe el
25% de los casos, el segundo cuartil (Q
2
) es el punto que deja por debajo el 50% de los casos,
por lo tanto se corresponde con la mediana, el tercer cuartil (Q
3
), es el punto que deja por
debajo el 75% de los casos, de all que estos cuartiles dividan la serie en cuatro partes iguales.

0 100

Q
1
Q
2
Q
3



25%

50%

75%

Fig. 4.12. Cuartiles

Percentiles
Cuando necesitamos dividir esa serie en cien partes iguales estaremos en presencia de los
percentiles (Xp), y se definen como el punto de una serie de datos en la cual se encuentra un
determinado porcentaje de casos por debajo de l. En La simbologa la equis (X) representa la
variable y la (p) el porcentaje de all que se tenga percentil 10 (X
10
), percentil 84 (X
84
) y percentil
50 (X
50
) que es al mismo tiempo la mediana.

Para el clculo de los percentiles y/o cuartiles es necesario determinar las posiciones que
ocupa cada uno de ellos para luego ubicar el valor.

En el clculo de datos directos se utiliza la siguiente frmula

) )( (
1 2 1 1
X X L L X Xp
p


Donde:
X
p
: Valor del percentil
X
1
: puntuacin anterior a un percentil dado
L
p
: lugar del percentil
L
1
: Lugar de la puntuacin anterior
X
2
: Puntuacin posterior al percentil.

Para datos en distribuciones de frecuencias se utiliza la siguiente frmula




Donde:
li: limite inferior del intervalo donde esta ubicado el valor del percentil.
lp: lugar del percentil.


2
*n p
lp
i
f
Fi lp
li Xp *
Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 36
Fi: frecuencia acumulada absoluta del intervalo anterior a donde se encuentra el percentil.
i: amplitud del intervalo.

Para la determinacin de valor de un percentil determinado mediante el paquete estadstico se
realiza la siguiente secuencia.
1. Pulsar el botn Descripcin de la barra de men.
2. Del men emergente seleccionar Datos numricos.
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar.
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y el
diagrama de dispersin y el grfico de caja y bigotes, como producto de esta seleccin
muestra los estadsticos descriptivos ms comunes en la ventana de resumen
estadstico.
7. Seleccionar el segundo icono de la barra de trabajo, la opcin tabular.
8. Seleccionar en el cuadro de dilogo Percentiles, como producto de esta seleccin
muestra los percentiles 1, 5, 10, 25, 50, 90, 95, 99.










Fig. 4.13. Percentiles que muestra el Statgraphics

Para poder generar otros percentiles diferentes a los generados por defecto pulse el botn
derecho del mouse y aparece un men emergente del cual selecciona Opciones de ventana y
muestra los valores por defectos que puedan ser cambiados, si no desea llenar todos los
cuadros con valores debe colocar cero (0), pero nunca dejarlos vacos ya que causara error en
el procedimiento, y luego confirme pulsan do Aceptar.

















Fig. 4.14. Cuadro para seleccionar los valores de percentiles



Alexander Pinto y Neil Pernalete de P. __ Capitulo IV
pg. 37
Interpretacin
Si se toma como referencia el percentil 5 (X5 = 2,0) significa que por debajo de 2 puntos existe
el 5% de los casos. Ahora si se interpreta el percentil 90 (X90 = 18), significa que por debajo de
18 puntos existe el 90% de los casos en la variable.

Ejercicios
A. Con base de datos denominada EJERCICIO 1, del capitulo III y utilizando las tcnicas y
comandos adecuados responda los siguientes planteamientos:

1. Determine e interprete las medidas de tendencia central de las variables numricas
(Lgica, Matemtica y Estadstica) y determine cual ellas es la ms adecuada para
describir cada variable.
2. Determine y explique la relacin entre promedios del ejercicio anterior.
3. Determine e interprete los cuartiles de la variable Lgica.
4. Determine e interprete los siguientes percentiles: 10, 18, 32, 58, 71 y 87, de la variable
creada en el numeral 10 del ejercicio N 1.
5. Con respecto a la tabla generada en el ejercicio 2 del capitulo III, determine e interprete
las medidas de tendencia central como tambin su relacin.
6. Para esa misma variable determine los percentiles 8, 15, 22, 37, 45, 83 y 93.
7. Para la variable edad pruebe las propiedades de la media para la suma y la
multiplicacin con valores constantes (4 y 8 respectivamente).
8. Divida la variable Estadstica en 5 partes iguales y seale las puntuaciones que la
limitan.
9. Con respecto a la variable Lgica, si esta se divide en tres grupos, a saber: bajo con el
32% de los casos, medio con el 52% y el resto corresponde al grupo denominado alto,
que puntuaciones los limitan.
10. Determinar las edades que limitan el 40% central.
11. Obtengan las medidas de tendencia central para la respuesta al planteamiento N3 del
ejercicio A del capitulo III.
12. Archive los resultados de este ejercicio en el archivo StatFolio denominado Resultados 1


B. Con la base de datos denominada EJERCICIO 2 del capitulo III y utilizando las tcnicas y
comando adecuados, responda los siguientes planteamientos:
1. Para las respuestas generadas en la parte B, determine las medidas de tendencia
central, la relacin entre los promedios, los cuarteles y los percentiles 13, 26, 33, 65 y
78.
2. De las medidas de tendencia central obtenidas en el planteamiento anterior seale cual
es la ms adecuada en cada caso.
3. Si la variable IAT se divide en cuatro grupos, agrupando el primero el 17%, el segundo
grupo conformado por un 35% de los casos, el tercer grupo de 30% y el cuarto el
porcentaje restante, que puntuaciones los limitan.
4. Si el CNU decide asignar becas a los que estn ubicados en el 18% de los mejores, que
puntuacin deben obtener como mnimo para merecer una beca.
5. Si se esta convirtiendo los grupos en cualitativos y se asigna una A slo al 10% de los
mejores y siempre existe un 15% de deficientes los cuales reciben F. Qu
puntuaciones corresponde como mnimo para merecer una A, y cul es la mxima de los
deficientes?
6. Archive los resultados de este ejercicio en un archivo StatFolio denominado Resultados
2.

Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 38
UNIDAD V: MEDIDAS DE VARIABILIDAD Y DE FORMA
Son aquellas que indican la dispersin de las distintas puntuaciones con respecto a su
tendencia central, por lo tanto permiten determinar cuan alejados o cerca de la medida que
se tome como referencia se encuentra los datos, por lo tanto nos indicaran si estn muy
cercano a la medida de tendencia central que se use como referencia que estn muy
cercanos a ella, de all que indique homogeneidad y por lo tanto esa medida ser
representativa de la serie de datos, si ocurre lo contrario sealarn que los datos se alejan
de la medida y por lo tanto ser un grupo homogneo y la medida ser poco representativa.

Entre las medidas de variabilidad o dispersin ms comunes tenemos, la amplitud total o
Rango la cual se simboliza generalmente como A, la amplitud semi-intercuartil (Q), la
desviacin tpica o estndar (s), la varianza (s
2
) y el coeficiente de variacin (Cv).

Rango o Amplitud Total (A)
Indica la distancia la distancia que existe entre el dato menor (d) y el dato mayor (D)
inclusive de una serie de datos, es la ms sencilla y directa de las medidas de dispersin, es
muy poco utilizada por su marcada inestabilidad ante la existencia d valores extremos, ya
que la informacin mostrada por ella nos dar una impresin errada de heterogeneidad.

Frmula


Donde:
D: dato mayor
d: dato menor

Procedimiento con el paquete
1. Pulsar el botn Descripcin de la barra de men
2. Del men emergente seleccionar Datos Numricos
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y
el diagrama de dispersin y el grfico de caja y bigotes, como producto de esta
seleccin muestra los estadsticos descriptivos ms comunes en la ventana de
resumen estadstico.
7. En la ventana del resumen estadstico aparece el Rango.











Fig. 5.1 Resumen de los estadsticos
Como se observa el rango de la serie de datos es igual a 19.

Rango o Espacio Semi-intercuartil (Q)
A fin de evitar la inestabilidad de la amplitud total y ante la existencia de valores extremos se
utiliza el espacio semi-intercuartil el cual es la mitad de espacio intercuartil y se determina
1 ) ( d D A
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 39
simplemente restando el cuartel tercero menos el cuartel primero y dividindolo por dos,
generalmente esta medida se asocia con la mediana.

Grafico

Frmula



Donde:
Q
3
: Cuartil tercero o percentil setenta y cinco.
Q
2
: Cuartil segundo o mediana.
Q
3
: Cuartil primero o percentil veinticinco.

Procedimiento con el paquete

Relacin entre la mediana y el espacio semi-intercuartil
Estas relaciones nos permiten determinar el tipo de asimetra que posee la distribucin de
datos, son

Q
3
Q
2
> Q
2
Q
1
Asimtrica Positiva

Q
3
Q
2
= Q
2
Q
1
Simtrica

Q
3
Q
2
< Q
2
Q
1
Asimtrica Negativa
Con el mismo procedimiento, se seleccionan los valores para el resumen estadstico y se
puede hacer la relacin para determinar el tipo de asimetra o simetra.














Fig. 5.2. Resumen de los estadsticos

Relacin

16 12 < 12 10; 4 < 2 Por lo tanto se presente una relacin asimtrica
negativa lo cual significa que existe mayor concentracin de datos por encima de la media.

Desviacin Tpica o Estndar (s)
Consiste en el promedio de todas las desviaciones de los datos con respecto a la media
aritmtica de la serie de datos o distribucin.




2
1 3
Q Q
Q
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 40
Datos no agrupados







Datos agrupados en intervalos





Secuencia para la determinacin de la desviacin tpica mediante el paquete estadstico
Statgraphics, si observamos es el mismo procedimiento para todos los estadsticos
descriptivos:

1. Pulsar el botn Descripcin de la barra de men
2. Del men emergente seleccionar Datos Numricos
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y
el diagrama de dispersin y el grfico de caja y bigotes, como producto de esta
seleccin muestra los estadsticos descriptivos ms comunes en la ventana de
resumen estadstico.


Interpretacin de la desviacin tpica
Como se observa en la Fig. 5.1., el valor de la desviacin tpica para una variable
denominada puntos es de 4,8107, lo cual significa que los datos tienden en promedio a
dispersarse en 4,81 puntos con respecto a la media.

Varianza (s
2
)
Expresa la variacin promedio cuadrtica entre cada valor de la serie respecto a la media
aritmtica de la serie de datos o distribucin (cuadrado de la desviacin tpica).
Como la varianza es una medida cuadrtica es muy til determinar la varianza para poder
determinar la variabilidad de la serie de datos o distribuciones cuando se relaciona con la
media.
La secuencia es la misma que para determinar la desviacin estndar.

Interpretacin
En la fig. 5.1 se observa que el valor de la varianza es de 23,1429, lo cual significa la media
de los cuadrados de los desvos con respecto a la media es de 23,1429 puntos cuadrados.

Coeficiente de Variacin (Cv)
El coeficiente de variacin e una medida de variacin la cual no considera las medidas en
que se expresan las variables ni los valores o magnitudes que asuman los datos de las
variables. Es el cociente entre la desviacin tpica y la media expresado en porcentaje, por
lo tanto representa que tan variado es la serie con respecto a su media aritmtica.

Frmula


1
2
1
n
X X
s
n
i
i
1
) (
1
_
1
2
n
X X X
s
n
i
i
n
i
i
1
) (
2
n
X Xm f
s
100 *
X
s
Cv
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 41

Cuando se posee un solo valor de coeficiente de variacin, por ser una medida relativa no
indica mayor cosa, por lo tanto si permite comparar grupos con diferentes medias e inclusive
en diferentes rangos ya que homogeniza el valor con respecto a la media aritmtica.

Para la determinacin del valor del coeficiente de variacin mediante el paquete estadstico
se utiliza el mismo procedimiento que en la media, pero si observamos en el Resumen
Estadstico no aparece el mismo debemos activar la opcin para que genere se pulsa el
botn derecho del mouse aparece un men emergente del cual seleccionamos Coeficiente
de Variacin y luego se pulsa el botn Aceptar, si observan hemos eliminados otros valores
y aparece el valor del coeficiente de variacin.

Secuencia para la determinacin con el Statgraphics
1. Pulsar el botn Descripcin de la barra de men
2. Del men emergente seleccionar Datos Numricos
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y
el diagrama de dispersin y el grfico de caja y bigotes, como producto de esta
seleccin muestra los estadsticos descriptivos ms comunes en la ventana de
resumen estadstico.
7. Pulsar el botn derecho del Mouse y seleccionar opciones de ventana en la cual se
escoger el coeficiente de variacin.
8. Pulsar el botn Aceptar y mostrar los resultados.










Fig. 5.3. Resumen de los estadsticos (Ver Cv)

Interpretacin
Como se observa muestra un coeficiente de variacin igual a 40,0892% el cual por si solo
no indica mayor cosa debera interpretarse comparndolo con otro grupo.










Fig. 5.4. Resumen de los estadsticos para mltiple variables

Como se observa en la tabla anterior aparecen dos variables puntos y aporte, las cuales se
han obtenidos los resultados por el procedimiento en el se consideran del men
Descripcin Datos numricos Anlisis Multidimensional y para la variable puntos el
valor del Cv = 40,09% y para la variable aporte el Cv = 22,96%, lo cual indica que la variable
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 42
aporte en ms homognea que la otra variable (puntos) y por lo tanto es ms representativa
la media ya que el grupo es ms homogneo que el correspondiente a la variable puntos.

Medidas de Forma
Son las medidas que permiten el estudio de la serie o distribucin de datos como un todo,
de acuerdo a ellas podemos describir el grado de deformacin de las mismas y las
principales son la asimetra y la curtosis.

Asimetra
En unidades anteriores se introdujo el trmino asimetra, la cual indica el comportamiento de
los datos con respecto a la media aritmtica ya que esta describe el comportamiento general
de los datos, de all que indique la concentracin de los datos por encima o por debajo de la
media.
Fig. 5.5. Simetra y tipos de Asimetra




donde As es el coeficiente de asimetra

El paquete estadstico determina el valor de la asimetra por la frmula inicial es decir utiliza
el momento tercero y para su interpretacin se tiene

Si As > 0, la asimetra es a la derecha o positiva; existe mayor concentracin de
valores a la derecha de la media que a su izquierda.
Si As = 0, existe simetra; existe la misma concentracin de valores a la derecha y a
la izquierda de la media.
Si As < 0, la asimetra es a la izquierda o negativa; existe mayor concentracin de
valores a la izquierda de la media que a su derecha.
Secuencia para la determinacin de la asimetra

1. Pulsar el botn Descripcin de la barra de men
3
3
/ ) (
s
n X Xi
As
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 43
2. Del men emergente seleccionar Datos Numricos
3. Seleccionar Anlisis Unidimensional.
4. Seleccionar la variable.
5. Pulsar el botn Aceptar
6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadstico y
el diagrama de dispersin y el grfico de caja y bigotes, como producto de esta
seleccin muestra los estadsticos descriptivos ms comunes en la ventana de
resumen estadstico.
7. Pulsar el botn derecho del Mouse y seleccionar opciones de ventana en la cual se
escoger el Asimetra.
8. Pulsar el botn Aceptar y mostrar los resultados












Fig. 5.6. Resumen de los estadsticos

Interpretacin
El valor de la asimetra es igual a 0,71, lo cual indica que es una asimetra negativa y
seala que la concentracin de datos es a la derecha de la media o sea por encima de ella.

Existen otras frmulas que permiten determinar el valor del coeficiente de asimetra, como
son





La frmula que aparece en primera instancia se interpreta igual que la de los momentos,
mientras que las dos restantes, se puede interpretar con la siguiente tabla referencial

As = 0 simtrica
0,01 As 0,10 se dice que es ligeramente asimtrica.
0,11 As 0,30 se dice que es moderadamente asimtrica
0,31 As 1,00 se dice que es marcadamente asimtrica

Curtosis
La curtosis se refiere a las frecuencias de los valores centrales de una serie o distribucin de
datos, tomando como referencia la distribucin normal, si la curva que representa a la serie
de datos es ms alta y estrecha que la curva normal diremos que es apuntada y su se llama
leptocrtica, lo cual indica que el grupo es homogneo en el centro, si la curva es baja y
ancha se llama platicrtica, de all que el grupo se heterogneo o disperso en el centro y si
se asemeja a la normal diremos que es mesocrtica.
s
Xd X
As
) ( 3
) (
) 2 (
1 3
1 2 3
Q Q
Q Q Q
As
10 90
10 90
2
X X
X Xd X
As
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 44












Fig. 5.7. Tipos de curtosis
Frmula




Para su interpretacin se toma en cuenta la siguiente referencia,
Si Cu > 0 distribucin leptocrtica
Si Cu = 0 distribucin mesocrtica
Si Cu < 0 distribucin platicrtica

La secuencia para la determinacin del valor de la curtosis es semejante a la de la asimetra
que la tenemos en la tabla 5.6

Interpretacin.
En la tabla sealada nuestra el valor de la curtosis es igual a 0,866906, ese coeficiente
indica que la distribucin es leptocrtica lo cual nos permite concluir que la serie de datos es
homognea en el centro por lo tanto poco discriminativa

Existen otras frmulas basadas en los percentiles




Donde se toma como valor de referencia el coeficiente 0,263

Si Cu > 0,263 es platicrtica
Si Cu = 0,263 es mesocrtica
Si Cu < 0,623 es leptocrtica

Puntuaciones tpicas o tipificadas (z)
Al intentar interpretar un dato de forma aislada tratamos de ubicarlo en cierta posicin con
respecto a alguna medida en referencia; as por ejemplo lo hicimos con el percentil, el cual
indica que por debajo de esa puntuacin existe un determinado porcentaje de casos o con el
rango percentil el cual nos permite ubicar una determinada puntuacin, otra forma pudiera
ser interpretar ese dato con respecto a un punto central, por ejemplo la media.

Las puntuaciones tpica indican cuantas desviaciones estndar se desvan con respecto a la
media aritmtica las puntuaciones originales.




4
4
/ ) (
s
n X Xi
Cu
10 90
X X
Q
Cu
s
X Xi
z
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 45

El paquete Statgraphics no determina los valores de la puntuacin estandariza mediante
men, vamos a generar una variable para que de acuerdo a la frmula nos indique el valor
de cada puntuacin z para cada uno de los datos.






























Fig. 5.8. Creacin de la puntuacin z

Si necesitamos interpretar cual es de mejor rendimiento es que se aleja ms desviaciones
tpicas por encima de la media y resulta el registro identificado con el N 1 con una z = -
2,29 el de peor rendimiento ya que se aleja ms desviaciones por debajo de la media y el
de mejor rendimiento es el identificado con el N15 el cual se aleja ms desviaciones tpicas
por encima de la media, z = 1,66 .

Las puntuaciones z asumen importancia ya que nos permiten comparar datos o
puntuaciones en diferentes escalas, y adems nos permiten estudiar si los datos de una
determinada serie provienen de una distribucin normal, esta puntuacin es muy importante
en la estadstica inferencial.

Puntuaciones T
La escala T no s ms que una transformacin de las puntuaciones originales en una escala
cuya media es de 50 y un desviacin tpica de 10.



) * 10 ( 50 z T
Alexander Pinto y Neil Pernalete de P. Captulo V
pg. 46

Fig. 5.9. Creacin de la puntuacin T

Si deseamos comparar por ejemplo cual de los datos tiene mejor rendimiento, observamos
al registro identificado como el N15, posee una puntuacin T = 66,6 y por ejemplo cul es
el de peor rendimiento resulta el N1 con una puntuacin T de 27,1.

Ejercicios
A. Con la base de datos denominada Ejercicio 1.
1. Determine, utilizando las puntuaciones de las asignaturas, cul de los resultados es
ms homogneo, por simple lmites de la variable.
2. En cul asignatura es ms representativa la media?
3. En cual de las dos variables, la denominada ioames y formula1, es menos
representativa la media.
4. Determine el tipo de asimetra comparando la relacin de los cuarteles con los
resultados de las asignaturas.
5. De acuerdo a la dispersin cul asignatura result ser ms homognea?
6. Determine e interprete los coeficientes de asimetra de las variables numricas.
7. Determine e interprete los coeficientes de curtosis de las variables numricas.
8. de la variable generada en el numeral 6 del captulo II, determine cul sujeto posee
el mejor rendimiento y cul peor rendimiento mediante la escala z?
9. Si un sujeto obtuvo una puntuacin de 07 puntos en Lgica, otro obtuvo una
puntuacin z = -0,39 en Matemtica y otro obtuvo una puntuacin T = 46, cul
obtuvo mejor rendimiento? Genere las variables para comparar.
10. Guarde los resultados obtenidos en el archivo StatFolio denominado Resultados 1.


Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 47
UNIDAD VI: MEDIDAS DE RELACION
Hasta Ahora en las unidades anteriores hemos trabajados con solamente con grupos de
datos que corresponden una variable cuando se da este caso se denominan distribuciones
unidimensionales, pero existen momentos en los cuales se hace necesario el estudio de dos
distribuciones correspondientes a un mismo grupo de registro, es decir parejas de datos, se
denominan distribuciones bidimensionales por lo tanto vienen en forma conjunta: en algunos
otros momentos corresponden a ms variables y se denominan multidimensionales.

Uno de los aspectos ms interesantes de la estadstica es el estudio de la relacin entre dos
o ms fenmenos representados por las variables, de all que se presenta un concepto muy
interesante y es correlacin.

Correlacin
Se define como la relacin concomitantes entre dos variables, por lo tanto expresa lo que
ocurre en una variable ocurre o no en la otra y esto se expresa a travs del coeficiente de
correlacin.

Coeficiente de correlacin
Consiste en la expresin cuantitativa del grado de relacin existente entre por lo menos dos
variables, dicho coeficiente presenta dos partes una que se refiere al sentido y otra a la
magnitud. Existe diferentes tipos de coeficientes y la seleccin de cada uno de ellos
depender de la escala de medida y de la naturaleza de la variable y la relacin lineal o no
de la distribucin bidimensional.

Tipos de Correlacin
Cuando las variables se intercorrelacionan se pueden dar varios tipos de correlacin,
seguiremos las correlaciones que se pueden representar mediante una lnea recta la
correlacin existente, y son a saber:
Correlacin Positiva, se dice cuando a los cambios que ocurren en una variable se
dan en el mismo sentido en la otra, si sea un aumento en una se da una aumento en
la otra y viceversa.



















Fig. 6.1 Nube de puntos para Matemtica y Fsica
La correlacin positiva puede ser perfecta, lo cual indica que las unidades estadstica
que ocupan las primeras posiciones en una variable tambin ocupan primeras
posiciones en la otra y viceversa.
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 48
Correlacin Negativa, se dice cuando a los cambios que ocurren en una variable se
dan en sentido contrario en la otra, si sea da un aumento en una se da una
disminucin en la otra y viceversa.






















Fig. 6.2. Nube de puntos para Tiempo y Rapidez de lectura

Al igual que la correlacin positiva, la correlacin negativa puede ser perfecta lo cual
significa que las unidades estadsticas que ocupan primeras posiciones en una
variable ocupan ltimas posiciones en la otra y viceversa.

Correlacin Nula, se dice cuando las variables no se intercorrelacionan, por lo tanto
son independientes una de la otra.




















Fig. 6.3. Nube de puntos para Educacin Fsica y Rapidez de lectura

Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 49
Una forma expedita para ver como se representan grficamente la intercorrelacin de las
variables es mediante un grfico denominado nube de puntos o diagrama de dispersin, el
de manera grfica nos seala la correlacin y su tendencia de acuerdo a la concentracin de
los datos.

Coeficiente de Correlacin Producto de los Momentos de Pearson
Es el coeficiente que se utiliza cuando las variables que se intercorrelacionan son continuas,
esto significa que han sido medidas en escala de intervalos o razones. Este coeficiente es
lineal y paramtrico, por lo tanto solo puede se utilizado cuando exista una pareja de
variables correspondiente a una misma muestra ya que lo hace es comparar la covarianza
existente entre ellas. Como hemos sealado la correlacin en perfecta, positiva o negativa,
cuando se dan los criterios, pero en el resto de las situaciones exceptuando cuando las
variables sean independientes se dar la existencia de una tendencia y en este caso se
necesita determinar el valor del coeficiente de correlacin para saber en cuanto se da la
intercorrelacin de las variables. El Coeficiente de Pearson se simbolizar as r
xy
, para la
determinacin del mismo se utiliza de forma manual las siguientes frmulas:




Otras frmulas son tambin de fcil uso son
Frmula de los desvos Frmula de las puntuaciones originales





El paquete estadstico asume para su uso la de las puntuaciones originales.

Para interpretar el coeficiente de correlacin de Pearson asumiremos la siguiente tabla:










Esta escala es solamente una sugerencia no es un dogma, ya que su interpretacin esta
sujeta a un conjunto de factores que influyen sobre el valor del coeficiente de correlacin.

Por ejemplo si existe un coeficiente de correlacin entre dos variables, talla y peso, de 0,80
(r
xy
= 0,80), para interpretarlo debemos establecer algunas consideraciones iniciales como
son el sentido, positiva, el grado de relacin alta, pero no es perfecta por lo tanto es una
tendencia, diramos entonces Correlacin imperfecta positiva de tipo alto lo cual indica una
lata tendencia a que quienes posean una alta talla tienden a tener un alto peso y viceversa
quienes tenga una talla baja tienden a tener un peso bajo.

Es necesario aclarar que la correlacin no implica necesariamente causalidad, o sea que
una variable es producto de la otra.

Para la utilizacin del coeficiente de correlacin de Pearson debemos considerar que se
cumplen los siguientes supuestos:
r
xy
Grado de relacin
0 Nula
0,01 - 0,20 Muy baja o despreciable
0,21 - 0,40 Baja o leve
0,41 - 0,60 Media o sustancial
0,61 - 0,80 Alta o importante
0,81 - 0,99 Muy alta
1 Perfecta
n
z z
r
y x
xy
*
2 2
*
*
y x
y x
r
xy
2 2 2 2
) ( ) (
) )( (
Y Y N X X N
Y X XY N
r
xy
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 50
a. Cada para de datos es independiente de los dems.
b. Las dos variables a correlacionar son continuas.
c. La relacin existente entre ellas es rectilnea.

Procedimiento de determinacin por el paquete.
1. Pulsar el botn Descripcin de la barra de men.
2. Seleccionar del men Datos Numricos.
3. Seleccionar Anlisis Multidimensional.
4. Seleccionar las variables a correlacionar
5. Pulsar el botn Aceptar.
A continuacin aparece la ventana de anlisis con el resumen del procedimiento, la matriz
de correlaciones y un grfico que corresponde a la matriz de dispersiones.















Fig. 6.4. Matriz de correlaciones que muestra el Statgraphics

Los elementos que se presentan al final de anlisis son en primer lugar las correlaciones, el
tamao de la muestra y la probabilidad de significacin (P-Valor) de dicho coeficiente que
tratemos en el capitulo VIII.

En el caso que se analiza se presente la correlacin existente entre puntos y nota1 con un
valor de 0,6810, de lo cual se tiene que es una correlacin imperfecta positiva de grado alto
lo cual indica que existe una alta tendencia en mantener posiciones tanto en puntos como
en nota1.

Regresin y Prediccin
Como tratamos anteriormente el coeficiente de correlacin es un resumen del grfico de
dispersin o nube de puntos entre las variables objeto de estudio, pero la diferencia entre
regresin y correlacin esta en que la primera trata de de prever la variable dependiente en
funcin de los valores de la variable dependiente, en consecuencia si cambiamos el papel
de las variables cambiar tambin la ecuacin de regresin , ya que la recta de regresin se
adapta a las unidades de las variable que desea predecir, sin embargo la recta es la misma
independiente del orden de las variables, por lo tanto describen como vara la media de una
variable en funcin de la otra y de una dispersin que es la desviacin tpica residual.




El poder de prediccin de las variables lo determinamos partiendo de la ecuacin de la recta
mostrada en la frmula anterior, que ahora se adecuara, para la estimacin, mediante las
siguientes ecuaciones de predicciones

bX a Y
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 51
Estimacin de X a partir de Y Estimacin de Y a partir de X



Es necesario sealar tambin la existencia del coeficiente de determinacin r
xy
2
que es el
cuadrado del coeficiente de correlacin.

Procedimiento para la determinacin con el procesador
1. Pulsar el botn Dependencia de la barra de men
2. Seleccionar del men Regresin Simple
3. Seleccionar la variable dependiente en Y, y la independiente en X
4. Pulsar el botn Aceptar.

A continuacin muestra la ventana con el anlisis respectivo y el grfico modelo ajustado.


Fig. 6. 5. Anlisis de Regresin simple que muestra el Statgraphics

Si observamos detenidamente la ventana del anlisis de regresin simple nos muestra una
primera parte que corresponde a la ordenada y la pendiente de la recta; en segunda
instancia un anlisis de la varianza que no mostramos en este parte pero que trataremos en
el captulo X, de seguida muestra un cuadro con el coeficiente de correlacin y el coeficiente
de correlacin al cuadrado (R cuadrado), expresado en porcentaje y por ltimo en
Y b a X
xy xy
* X b a Y
yx yx
*
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 52
Statadvisor, el cual presenta la ecuacin de prediccin para la estimacin en este caso se
uso como variable dependiente la Y.

El R-cuadrado se interpreta como coeficiente de determinacin y expresa la ganancia de la
precisin que se obtiene utilizando la recta de regresin, en otras palabras india la
proporcin de la varianza de la variable dependiente que es explicada por la varianza de la
variable independiente, en este caso solo se explica el 46,37% de ella, ya que la correlacin
entre las variables fue alta (0,68).

As mismo podemos predecir con dicha ecuacin el valor en nota1 de acuerdo al valor que
se plantee de puntos, para ello utilizaremos 12 puntos, aplicamos la frmula:

















Fig. 6.6. Grfico de la recta de regresin
Lo cual significa que el que haya obtenido 12 en la variable puntos obtendra 11,59, si la
relacin fuera perfecta esta prediccin sera absolutamente cierta, no habra error, pero
como el coeficiente de correlacin no fue igual a uno se esta cometiendo un error de
estimacin el cual aparece en el anlisis como Error estndar de Est en este caso es igual a
2,76688, su frmula de clculo es



Donde s es la desviacin tpica de la variable dependiente.

Coeficiente de Correlacin Ordinal de Spearman (r
s
)
Cuando las diferencia de los datos con respecto a un rasgo en particular y que no puede
medirse directamente sino mediante una escala ordinal, se utiliza el coeficiente de
correlacin ordinal de Spearman, el cual es no paramtrico y se deriva del coeficiente de
correlacin de Pearson, mide la diferencia entre los rangos. Su frmula es la siguiente:




Donde d es la diferencia de los rangos entre las variables y n el nmero de los pares de
medidas.

El coeficiente de correlacin de Spearman no es ms que un caso particular del de Pearson,
por lo tanto tomaremos para su interpretacin la misma escala.
Procedimiento de clculo
1. Pulsar el botn Descripcin de la barra de men.
59 , 11 ) 12 ( 515432 , 0 * 41481 , 5 1 nota
2
) ( 1 r s
est
) 1 (
6
1
2
n n
d
r
s
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 53
2. Seleccionar del men Datos Numricos.
3. Seleccionar Anlisis Multidimensional.
4. Seleccionar las variables a correlacionar
5. Pulsar el botn Aceptar.
A continuacin aparece la ventana de anlisis con el resumen del procedimiento, la matriz
de correlaciones y un grfico que corresponde a la matriz de dispersiones. Como se observa
es el mismo procedimiento que el coeficiente de correlacin de Pearson, ahora para
determinar el Coeficiente de correlacin de Spearman, en la ventana del anlisis
multivariable:
6. se selecciona la Opcin Tabular y del men emergente es escoge
Correlacin por Rangos.
7. Se pulsa el botn Aceptar.

Y luego aparecen l matriz de correlaciones:














Fig. 6.7. Matriz de correlacin de
Spearman

Como sealbamos en el coeficiente de correlacin de Pearson, es la misma identificacin
de los elementos, y su interpretacin es con la misma escala.

Por la tanto el coeficiente por rangos de Spearman es igual a 0,6612 lo cual indica que
existe una alta tendencia a los sujetos a mantener las mismas posiciones tanto en puntos
como en nota1.

Coeficiente de Correlacin Biserial Puntual (r
bp
).
Se utiliza para determinar el grado de relacin existente entre una variable de naturaleza
continua (escala de intervalo o razones) y otra variable de naturaleza dicotoma o dicotmica
es decir por su naturaleza se divide en solo dos categoras o modalidades.



Donde:
Xp: Corresponde a la media de la variable continua de los que se encuentran en el criterio.
Xq: Corresponde a la media de la variable continua de los que no se encuentran en el
criterio.
s: desviacin tpica de la variable continua.
p: proporcin de unidades estadsticas que se encuentra en el criterio.
q: proporcin de unidades estadsticas que no se encuentra en el criterio.




q p
s
X X
r
q p
bp
* *
_ _
n
f p
p
n
f q
q
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 54
Aunque el paquete estadstico no permite determinar dicho coeficiente, se pueden obtener
los elementos para aplicar manualmente la frmula mediante el siguiente proceso:
Descripcin Datos Numricos Anlisis Unideimensional seleccionar la
variable continua y luego utilizar SELECT de acuerdo a la variable categrica, para obtener
las medias parciales y la desviacin tpica.

Coeficiente de Correlacin Phi ( )
Se utiliza cuando las variables a correlacionar poseen naturaleza dicotomica o al menos uno
lo sea, la otra pudiera ser dicotomizada es decir se tiene un punto y a partir de el se divide la
variable continua en dos categoras, se presentan en tablas de 2 x 2, y se aplica la siguiente
frmula:



Donde las letras (a, b, c, d) corresponde a las frecuencias de las celdas y p, q, p y q
corresponden a las frecuencias marginales. De una tabla de 2 x 2 como sealamos.


p


q


q p
El paquete tampoco nos suministra el coeficiente phi, solamente el phi cuadrado que
tratemos ms adelante, pero podemos construir la tabla cruzada con las variables que
necesitemos establecer la relacin y luego aplicar manualmente la frmula.
Al igual que los dos coeficientes anteriores tambin se utiliza para interpretarlo la tabla que
tenemos para el coeficiente de correlacin de Pearson.

Coeficiente de Correlacin Parcial (r
12.3
)
Se utiliza cuando se desea determinar el verdadero grado de relacin entre dos variables
cuando se controla o elimina la influencia de una tercera.




Procedimiento para determinarlo con el paquete estadstico:
1. Pulsar el botn Descripcin de la barra de men.
2. Seleccionar del men Datos Numricos.
3. Seleccionar Anlisis Multidimensional.
4. Seleccionar las variables a correlacionar
5. Pulsar el botn Aceptar.
A continuacin aparece la ventana de anlisis con el resumen del procedimiento, la matriz
de correlaciones y un grfico que corresponde a la matriz de dispersiones. Como se observa
es el mismo procedimiento que el coeficiente de correlacin de Pearson, ahora para
determinar el Coeficiente de correlacin Parcial, en la ventana del anlisis multivariable:

6. se selecciona la Opcin Tabular y del men emergente es escoge
Correlacin Parcial.
7. Se pulsa el botn Aceptar.

b

a


d


c
' '
* * *
) * ( ) * (
q p q p
c b d a
) 1 )( 1 (
) * (
2
23
2
13
23 13 12
3 . 12
r r
r r r
r
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 55












Fig. 6.8. Matriz de Correlacin Parcial que muestra el Statgraphics

Interpretacin
Supngase que se desea determinar el verdadero grado e relacin entre las variables
puntos y nota1 cuando se controla la influencia de la edad, se tiene un coeficiente de
correlacin parcial (r
12.3
) de 0,6704, lo cual indica que es el verdadero grado de correlacin
entre dichas variable al controlar la edad, si se compara con el obtenido por Pearson (r
xy
),
fue de 0,6812270, lo cual nos lleva a la conclusin que la edad si ejerce influencia sobre
puntos y nota1.

Coeficiente de Correlacin Mltiple (R
1.23
)
Se utiliza cuando se desea determinar la relacin existente entre una variable dependiente o
predicha y por lo menos dos variables independientes o predictoras tomadas de manera
conjunta, de all que el resultado del coeficiente indica cuanto de la variable dependiente es
predicho por las variables independientes en forma conjunta.


Significa que es la raz cuadrada del coeficiente de determinacin mltiple,
el cual trata de explicar cuanto de la varianza de la variable dependiente es explicado en
forma conjunta por la varianza de las variables dependientes, su frmula de clculo es





Procedimiento para la determinacin por el procesador
1. Pulsar el botn Dependencia de la barra de men
2. Seleccionar del men Regresin Mltiple.
3. Seleccionar las variables a correlacionar, para ello coloque la variable dependiente y
luego las independientes.
4. Pulsar el botn Aceptar.
A continuacin aparece la ventana de anlisis con el resumen
2
23 . 1 23 . 1
R R
2
23
23 13 12
2
13
2
12 2
23 . 1
1
) * * (
r
r r r r r
R
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 56






Fig. 6.9. Analisis de regresin mltiple del Statgraphics

Aparece al igual que en la regresin simple la variable dependiente, la ordenada y la
pendiente, luego un anlisis de varianza los cuales no estudiaremos en este momento y
posteriormente el coeficiente de determinacin (R-cuadrado) expresado como porcentaje,
para convertirlo en coeficiente de correlacin mltiple le extraemos la raz cuadrada a la
proporcin y lo interpretamos.



Si consideramos el coeficiente de determinacin (R-cuadrado) es igual a 46,7579% indica la
proporcin de la varianza de nota1 que es explicada en forma conjunta por puntos y edad,
ahora vemos el coeficiente de correlacin mltiple y es 0,68379 , lo cual indica que nota1 es
determinada en forma conjunta por puntos y edad.

Ejercicios.
1. A continuacin se presentan una serie de coeficientes de correlacin entre dos
asignaturas: Biologa y Qumica, interprete cada uno de ellos.
a. r = 0,41 b. r = -0,72 c. r = 0
d. r = 1,00 e. r = - 1,00 e. r = 0,50

2. Se presentar una serie de variables indique y explique el tipo de coeficiente de
correlacin ms adecuado.
a. edad y calificaciones.
b. calificaciones y peso.
c. tiempo en dos competencias, 100 y 200 metros planos.
d. calificaciones en una prueba y sexo.
e. estado civil y sexo.
f. nivel de educacin medido como universitario y otro yy el xito medido como exitoso
y sin xito.
g. edad y peso.
h. puntuaciones en el test de Raven y la respuesta al item N 5 (correcto, incorrecto).
68379 , 0 467579 , 0
2
23 . 1 23 . 1
R R
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 57
3. Un coeficiente de correlacin de 0,80 representa el doble de relacin que uno de 0,80.
4. A continuacin se presentan datos correspondientes a cincuenta alumnos de la Facultad
de Ciencias de la Educacin, para los cuales se realizar una investigacin cuasi-
experimental, donde las variables de identifican de la siguiente manera:
Columna 1: Identificacin de los alumnos.
Columna 2: Modalidad de Ingreso (CNU, PIA: Prueba Interna de Admisin).
Columna 3: Sexo (M: Masculino, F: Femenino).
Columna 4: Edad cumplida.
Columna 5: Tipo de plantel (Pub: Pblico, Pri: Privado)
Columna 6: Turno de estudio (M: Maana, T: Tarde, N: Noche).
Columna 7: ndice Acadmico del CNU.
Columna 8: Rango en puntualidad.
Columna 9: Calificaciones primer lapso.
Columna 10: Calificacin en resolucin de problemas.
Columna 11: Calificacin en trabajo de investigacin.
Columna 12: Respuesta a la pregunta N 5 de la resolucin de problemas.

1 2 3 4 5 6 7 8 9 10 11 12
1 CNU M 21 Pub M 62 38 10 11 18 C
2 PIA F 23 Pri T 51 45 16 15 18 C
3 PIA M 24 Pri M 51 50 16 17 14 C
4 CNU M 21 Pub N 50 21 18 14 19 C
5 PIA F 23 Pri M 50 22 13 15 16 C
6 PIA F 23 Pub M 50 29 11 13 14 C
7 PIA F 22 Pub M 62 10 10 12 18 C
8 CNU F 23 Pri N 65 7 15 16 15 I
9 PIA F 22 Pub T 68 15 19 19 19 I
10 PIA M 23 Pri M 70 12 15 18 15 I
11 PIA M 22 Pub M 51 28 16 18 17 I
12 CNU F 22 Pri M 66 48 17 17 17 I
13 CNU F 22 Pub M 68 33 16 15 13 I
14 PIA F 21 Pri M 69 31 14 10 15 I
15 PIA F 24 Pub T 63 20 09 11 14 I
16 PIA M 23 Pub T 71 11 10 12 14 I
17 CNU M 25 Pri T 72 16 08 09 12 C
18 PIA F 27 Pri N 51 24 09 08 15 I
19 PIA F 22 Pub N 54 26 16 17 11 I
20 PIA F 24 Pub M 66 35 16 18 16 C
21 CNU F 23 Pub M 68 39 13 11 13 C
22 PIA M 21 Pub M 61 44 09 09 15 C
23 PIA M 25 Pri M 60 49 12 14 16 C
24 PIA F 23 Pri N 63 1 09 08 16 C
25 CNU M 22 Pub N 64 2 14 11 15 I
26 PIA F 26 Pub N 58 41 08 08 15 I
27 CNU M 21 Pub M 53 13 10 11 16 I
28 PIA M 23 Pub N 58 5 11 12 14 C
29 PIA F 26 Pub M 67 36 17 12 18 C
30 PIA F 22 Pub M 66 8 12 10 17 I
31 PIA F 21 Pri T 69 3 15 15 17 C
32 PIA M 23 Pri N 70 27 15 16 17 C
33 CNU M 24 Pri N 51 32 13 15 18 I
34 PIA F 22 Pub T 56 9 18 19 18 I
35 CNU F 22 Pub N 65 4 17 15 17 I
Alexander Pinto y Neil Pernalete de P. Capitulo VI
pg. 58
36 PIA M 22 Pub M 58 14 17 18 16 I
37 CNU M 23 Pri T 55 19 12 13 15 C
38 PIA M 22 Pub M 53 17 17 18 14 C
39 PIA M 22 Pub M 58 23 17 15 16 C
40 CNU F 24 Pri N 66 40 13 14 15 C
41 PIA F 21 Pub M 64 18 17 16 16 C
42 PIA F 22 Pri T 66 25 16 15 14 C
43 CNU F 23 Pub N 62 30 09 13 18 C
44 PIA F 23 Pri M 58 49 16 18 17 C
45 PIA M 25 Pri T 59 47 15 19 15 I
46 PIA M 25 Pub M 60 46 15 17 18 I
47 PIA M 22 Pri M 64 6 14 18 15 C
48 CNU F 26 Pub N 67 34 14 14 15 C
49 PIA F 27 Pub M 54 42 12 15 18 I
50 PIA M 26 Pub N 58 37 16 16 17 I

a. Elabore los diagramas de dispersin de y seale grficamente el tipo de correlacin:
X: Primer lapso Y: Resolucin de problemas
X: Primer lapso Y: Trabajo de investigacin
X: Resolucin de problemas Y: Trabajo de investigacin.
b. Para las nubes de puntos construidas en el literal anterior identifique el sexo en cada
una de ellas.
c. Determine si es cierto a que mayor puntuacin en las variables identificadas con X
en el literal a, existe una alta tendencia a obtener las mayores puntuaciones en las
variables identificadas con Y.
d. Determine si es cierto a que mayor edad se obtiene mayor ndice de admisin.
e. Determine cul ser la puntuacin probable en el primer lapso de una alumno que
haya obtenido 15 puntos en el trabajo de investigacin, y cual seria su error de
estimacin.
f. Ser cierto que los alumnos con menor edad obtiene los primeros lugares en
responsabilidad.
g. Determine el verdadero grado de relacin entre la resolucin de problemas y el
trabajo de investigacin cuando se controla la calificacin del primer lapso.
h. Determine si es cierto el responder correctamente el item N 5 indica una alta
tendencia a obtener las mejores calificaciones.
i. Ser cierto que las hembras tienden a responder correctamente el item N 5.
j. Cual ser el grado de relacin existente entre el tipo de plantel y el sexo.
k. Cunto del primer lapso es explicado por la resolucin de problemas y el trabajo de
investigacin en forma conjunta.
l. Determine si la edad mantiene alguna relacin con el ndice acadmico de admisin.
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.52
UNIDAD VII: Introduccin a la Teora de las Probabilidades

Definiciones Bsicas

Experimento Aleatorio
Es el conjunto de pruebas aleatorias realizadas en las mismas condiciones. El resultado no se
conoce a priori, pero si se conocen todos los resultados.

Espacio Muestral
Es un conjunto cuyos elementos representan los resultados posibles de un experimento. Es el
conjunto universal y se representa por S. Encierra todos los casos posibles. Ejemplo: Lanzamiento de una
moneda S = {c , s}
Lanzamiento de un dado S = {1, 2, 3, 4, 5, 6}

Punto Muestral o Evento Elemental
Consiste en cada uno de los resultados posibles de un espacio muestral y se simboliza con la letra
"e". En el lanzamiento de la moneda, tendremos e
1
= cara y e
2
= sello.

El nmero de puntos muestrales de S (espacio muestral) puede representarse por n(S).

Evento
Es un subconjunto del espacio muestral. Los diferentes eventos se representan con letras
maysculas, tales como: A, B, C. El nmero de puntos muestrales de un evento se puede representar por
m(e).

Evento Compuesto
Es cualquier combinacin de eventos elementales. Se simboliza por la letra "E".

Seleccin Aleatoria
Un objeto se selecciona aleatoriamente de una coleccin o poblacin, si en dicha seleccin cada
objeto tiene la misma probabilidad o posibilidad de ser elegido. Esta seleccin puede ser:
a. Con reemplazo o reposicin, cuando cada elemento se extrae y es devuelto a la poblacin,
antes de seleccionar otro objeto. Ej. La lotera.
b. Sin reemplazo o reposicin, cuando cada elemento se extrae de la poblacin y no es devuelto
antes de seleccionar otro objeto. Ej. El bingo.

Probabilidad (P)
Nmero que se asigna a los sucesos aleatorios, siempre entre 0 y 1, de all que
0 s P s 1

Concepto de probabilidad enfocado a travs de diferentes teoras
Teora Clsica
Se considera que cada resultado de un experimento tiene la misma probabilidad de aparecer que
cualquier otro y por lo tanto, se le puede asignar la misma probabilidad de ocurrencia (equiprobabilidad).
Se considera la probabilidad de una forma "a priori". Se requiere dividir el nmero de resultados deseables
entre el nmero de resultados posibles bajo la condicin de que todos los resultados del experimento
sean igualmente probables.

N. de resultados favorables al suceso A
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.53
P(A) = -----------------------------------------------------------------
N. total de sucesos (Favorables + No favorables)

Ejemplo
Si seleccionamos una carta, en forma aleatoria, de un juego de barajas espaolas, Cul es la
probabilidad de que la carta seleccionada:
a. sea un dos
4
P(A) = ---- = 0,10
40
b. sea una carta de bastos.

10
P(A) = ---- = 0,25
40

Enfoque emprico o Frecuencia relativa
Los tericos de la frecuencia relativa consideran que el nico procedimiento vlido para determinar
la probabilidad de un evento es por medio de las observaciones repetidas, por lo tanto es una probabilidad
"a posteriori". De ah que:
a. Si un experimento se realiza N veces en las mismas condiciones y existen M resultados a favor
de un evento; entonces una estimacin de la probabilidad de ese evento es el cociente M/N.

b. La estimacin de la probabilidad de un evento P(E) = M/N se acerca a un lmite; es decir, a la
probabilidad verdadera del evento, cuando N se acerca al infinito.
Estimacin P(E) = M/N P(E) = lim = M/N
N-->

Enfoque subjetivo o Personalista
La probabilidad es una medida de confianza personal en un caso particular. Un subj etivista
asignara una medida ponderada entre 0 y 1, a un evento, de acuerdo con el grado de seguridad en su
posible ocurrencia.
Ejemplo: Probabilidad de ganar la Serie Mundial de las Grandes Ligas para los Indios de Cleveland o los
Bravos de Atlanta.

Probabilidad. Definicin Matemtica
La probabilidad del evento A, P(A), es la razn entre el nmero de puntos muestrales que
representan a A y el nmero total de puntos muestrales, con la condicin de que todos los puntos
muestrales tengan igual probabilidad de ocurrencia.
Ejemplos para construir el espacio muestral
a. Se lanza un dado y se observa el nmero que aparece en la cara superior.
b. Se lanza una moneda cuatro veces, construya el espacio muestral para el nmero de caras obtenidas.
c. Sea el lanzamiento simultaneo de un dado y una moneda construya el espacio muestral.
d. Sea el lanzamiento simultaneo de dos dados, construya el espacio muestral.
Con los datos anteriores determine los siguientes eventos.
1. {(X = suma de las caras)/X>12}
2. {(X = suma de las caras)/ x/3 sea entero}
3. {(X = suma de las caras)/ 2 s X s 12}

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.54
Axiomas de las Probabilidades
Positividad
La probabilidad es no negativa
P(E) > 0

Certidumbre
La probabilidad de todo espacio muestral es igual a 1. P(S) = 1, de all que se cumpla

0 s P(E) s 1

Uniones
La probabilidad de un evento compuesto es igual a la suma de las probabilidades de los eventos
elementales.
P(E) = P(e
1
) + P(e
2
) + ... + P(e
n
)

Tipos de Eventos
Regla de la Adicin
Eventos Mutuamente Excluyentes
Se dice que dos eventos, A y B, son mutuamente excluyentes, si A y B no tienen puntos
muestrales en comn. As los eventos simples o elementales no pueden aparecer simultneamente.
P(A U B) = P(A) + P(B)
Ejemplo:
Si se lanza un dado al aire, Cul es la probabilidad de en su cara superior aparezca el 2 el 4?
Evento A = aparezca el nmero 2 ---> P(A) = 1/6
Evento B = aparezca el nmero 4 ---> P(B) = 1/6

P(A U B) = 1/6 + 1/6 = 2/6 = 1/3 = 0,333
Si se extrae aleatoriamente una carta de un juego de barajas espaolas. Cul es la probabilidad
de que la carta sea de oros o sea de bastos?



Evento A = la carta sea de oros ---> P(A) = 10/40
Evento B = la carta sea de bastos ---> P(B) = 10/40

P(A U B) = 10/40 + 10/40 = 20/40 = 2/4 = 1/2 = 0,50

Cul es la probabilidad de que sea un 2 o una figura?
Cul es la probabilidad de extraer una bola roja o negra, si en una caja existen 3 bolas rojas, 4 negras y
3 verdes?
Cul es la probabilidad de extraer una roja o una verde?

Eventos Solapados
Se dice que dos eventos, A y B, son solapados o unidos, si tienen puntos muestrales en comn.
Los puntos muestrales pertenecen tanto a A como a B, forman un subconjunto que se llama interseccin
A y B, representada por A B.

Para eventos solapados, la cantidad P(A) + P(B), incluye dos veces la probabilidad de los puntos
muestrales en el conjunto interseccin, por lo tanto se debe sustraer a la P(A U B) la P(A B).
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.55

P(A U B) = P(A) + P(B) - P(A B)
Ejemplos
Si se extrae aleatoriamente una carta de un juego de barajas espaolas Cul es la probabilidad
de aparicin de una copa o de un as?
Evento A = sea una carta de copas ---> P(A) = 10/40
Evento B = la carta sea un as ---> P(B) = 4/40
Evento A B = la carta sea copa y as ---> P(A B) = 1/40

P(A U B) = 10/40 + 4/40 - 1/40 = 14/40 - 1/40 = 13/40 = 0,325

Si se lanza un dado cul es la probabilidad de que en la cara superior salga un nmero impar o
un nmero divisible por 3?
Evento A = salga un nmero impar P(A) = 3/6
Evento B = salga un nmero divisible por 3 P(B) = 2/6
Evento A B = salga nmero impar y divisible por 3 P(A B) = 1/6
P(A U B) = 3/6 + 2/6 1/6 = 4/6 = 0,67

Evento Complementario
Se dice que dos eventos A y A
c
, son complementarios si el segundo es un subconjunto que
contiene todos los eventos elementales del espacio muestral que no estn en el primero, es decir, los
sucesos complementarios son mutuamente excluyentes, su unin es el espacio muestral (S) y su
interseccin es el conjunto vaco (|).
P(A
c
) = 1 - P(A)

Ejemplo
Sea el lanzamiento de un dado. Cul es la probabilidad que el lado superior no sea un nmero
divisible por 3?
Evento A = nmero divisible por 3 ---> P(A) = 2/6
P(A
c
) = 1 - 2/6 = 4/6 = 0,666
Sea el lanzamiento de dos dados cul es la probabilidad de que los lados superiores de los
dados no sumen 5?
Evento A = los lados sumen 5 ---> P(A) = 4/36
P(A
c
) = 1 - 4/36 = 32/36 = 0,888

Regla de la Multiplicacin
Eventos Independientes
Se dice que dos eventos A y B, son independientes si la ocurrencia de uno no influye en la
ocurrencia del otro; es decir, que el resultado de uno no influye en el resultado del otro.

P(A B C D) = P(A) . P(B) . P(C) . P(D)

Ejemplo
Sea el lanzamiento de cuatro monedas cul es la probabilidad de las cuatro monedas caigan
cara?

P(A B C D) = 1/2 . 1/2 . 1/2 .1/2 = 1/16 = 0,0625

En una seccin de Estadstica, 10 alumnos son del Estado Lara y los 20 restantes del Estado
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.56
Carabobo. Si se selecciona aleatoriamente dos alumnos cul es la probabilidad de que:
a. ambos sean de Lara
b. ambos sean de Carabobo
c. el primero sea de Lara y el segundo de Carabobo.

a. Evento A = uno sea de Lara ---> P(A) = 10/30
Evento B = otro sea de Lara ---> P(B) = 10/30
P(A B) = P(A) . P(B) = 10/30 . 10/30 = 100/900 = 0,111

b. Evento A = uno sea de Carabobo ---> P(A) = 20/30
Evento B = otro ea de Carabobo ---> P(B) = 20/30
P(A B) = 20/30 . 20/30 = 400/900 = 0,444

c. Evento A = el primero sea de Lara ---> P(A) = 10/30
Evento B = el segundo sea de Carabobo ---> P(B) = 20/30
P(A B) = 10/30 . 20/30 = 200/900 = 0,222

Probabilidad Condicional
Se denomina probabilidad condicional del evento A, a la probabilidad de que ocurra A, dado que el
evento B ha ocurrido. Se representa por P(A/B), y se lee "probabilidad del evento A dado B", y se
determina a travs de la siguiente expresin.
P(A B)
P(A/B) = --------------
P(B)


Ejercicios
En un instituto educacional existe una matrcula de 390 alumnos, distribuidos en la siguiente
forma: 7 grado, 100 varones y 80 hembras; 8 grado, 70 varones y 50 hembras; 9 grado, 50 varones y 40
hembras Cul es la probabilidad de que al seleccionar a una persona de ese grupo, sea una alumna
dado que la persona seleccionada es del 8 grado?
Evento A = sea una alumna
Evento B = sea del 8 grado
Evento A B = sea alumna del 8 grado
P(A B) 50/390 19500
P(A/B) = ----------- = -------------- = ------------ = 0,416
P(B) 120/390 46800

Cul es la probabilidad de que al seleccionar en forma aleatoria una persona de ese grupo, sea
alumno, dado que la persona seleccionada sea del 9 grado?
Evento A = sea alumno
Evento B = sea del 9 grado
Evento A B = sea alumno del 9 grado
Reduciendo el espacio muestral

P(A B) 50
P(A/B) = ---------- = -------- = 0,555
P(B) 90

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.57
De la aplicacin de una encuesta en una empresa de la regin central, se sabe que el 40% de los
obreros son mujeres y que el 20% de todas las obreras han iniciados estudios secundarios Qu
probabilidad existe de que al seleccionar un obrero en forma aleatoria, haya iniciado estudios
secundarios, si se sabe que se seleccion a una mujer?
Evento A = haya iniciado estudios secundarios
Evento B = sea mujer
Evento A B = haya iniciado estudios secundarios y sea mujer
P(A B) 0,20
P(A/B) = -------------- = --------- = 0,50
P(B) 0,40


Eventos Dependientes
Se dice que dos o ms eventos son dependientes cuando el conocimiento de la ocurrencia de uno
de ellos altera la probabilidad de ocurrencia del o de los otros. Si A y B, son eventos dependientes, se
tendr

P(A B) = P(A) . P(B/A)
Ejemplos
Una caja contiene cuatro tarjetas blancas y seis azules. Si se seleccionan aleatoriamente y sin
reemplazo dos tarjetas. Cul es la probabilidad de que la primera seleccin sea una tarjeta blanca y la
segunda sea una azul?
Evento A = tarjeta blanca ---> P(A) = 4/10
Evento B/A = tarjeta azul siendo la primera blanca--->P(B/A)= 6/9

P(A B) = P(A) . P(B/A) = 4/10 . 6/9 = 24/90 = 0,2666

Cul es la probabilidad de que las dos sean blancas?
P(A B) = P(A) . P(B/A) = 4/10 . 3/9 = 12/90 = 0,1333

En un conjunto de 50 libros, 10 son defectuosos. Dos libros son seleccionados aleatoriamente y
sin reemplazo Cul es la probabilidad de que ambos libros sean defectuosos?
P(A B) = 10/50 . 9/49 = 90/2450 = 0,0367
Variable Aleatoria
Es toda funcin numrica que permite asignar un nmero real y solo uno, a todos y cada uno
de los eventos elementales de un espacio muestral.
X(S) = {x
1
, x
n
, ... x
n
}

Variable Aleatoria Discreta
Es aquella variable que puede asumir un nmero finito de valores, es decir la cantidad de
valores que puede asumir es contable.

Variable Aleatoria Continua
Es aquella variable que puede asumir cualquier nmero real en un intervalo o unin de
intervalos. Ej: talla, peso.

Para denominar las variables aleatorias se utilizaran letras maysculas: X, Y, Z, y los valores
que pueda asumir la variable con letras minsculas x
1
, x
2
, y
1
,.

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.58
Como los valores que puede asumir son integrantes de un espacio muestral, poseern su
probabilidad, de all que el conjunto de pares ordenados formados por los valores de x y su
probabilidad, se le denomina funcin de probabilidad o distribucin de probabilidad para
variables aleatorias discretas.



Valores de "X" (x
i
) i = 1, 2, ... n

x
1
x
2
x
3
... x
n


Probabilidad P(X = x
i
) = f(x
i
)

f(x
1
) f(x
2
) f(x
3
) ... f(x
n
)

f(x
i
) = P(X = x
i
)

La funcin de probabilidad o distribucin de probabilidades es el conjunto de los pares
ordenados, formados por los valores de X y su probabilidad.


Ejemplo
Obtener la funcin de probabilidad para "el nmero de caras" que se obtendran en el
lanzamiento simultaneo de 3 monedas.




(1) (2) (3)
C CCC (3) X N de caras f(x
i
)
C x
1
= 0 -----> 1/8
S CCS (2) x
2
= 1 -----> 3/8
C x
3
= 2 -----> 3/8
C CSC (2) x
4
= 3 -----> 1/8
S
S CSS (1)

C SCC (2)
C
S SCS (1)
S
C SSC (1)
S
S SSS (0)

La funcin de probabilidad de [x
i
,f(x
i
)] donde f(x
i
) se designa para la probabilidad de que la variable
aleatoria X, asuma el valor x, es decir f(x
i
) = P(X = x
i
).

Ejemplo:
f(0) = P(X = 0) = 1/8 f(2) = P(X = 2) = 3/8

Ejercicios
Determine: a) f(X s 3); b) f(1 s X s 3); c) f(0 < X < 1)

Representacin Grfica de la funcin de probabilidad
X = N de caras f(x
i
)
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.59
0 1/8
1 3/8
2 3/8
3 1/8




Funcin de Distribucin Acumulada






X (x
i
)

f(x
i
) = P(X = x
i
)

F(x) = P(X s x
i
)

3

1/8

8/8

2

3/8

7/8

1

3/8

4/8

0

1/8

1/8

F(0) = P(X s 0) = f(0) = 1/8
F(2) = P(X s 2) = f(0) + f(1) + f(2) = 1/8 + 3/8 + 3/8 = 7/8

Representacin grfica de la funcin de Distribucin Acumulada












Esperanza Matemtica
Tan igual que una distribucin de frecuencias, con sus dos caractersticas importantes: su
tendencia central y su variabilidad, ellas tambin lo son de una variable aleatoria.

La esperanza matemtica, es una medida de tendencia central de una variable aleatoria. La
esperanza matemtica se denomina tambin "valor esperado" o "media" de una variable aleatoria.

La esperanza matemtica de una variable aleatoria es la suma de los productos que se obtienen
multiplicando todos los valores de la variable aleatoria por sus correspondientes probabilidades.

=
= s =
x x
i i
i
x f x X P x F ) ( ) ( ) (
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.60
) ( * ) (
1
Xi f Xi X E
n
i
x
=
= =
Ejemplo
Si se lanzan tres monedas Cul es la esperanza matemtica del nmero de caras?
X = N de caras f(x
i
) x
i
. f(x
i
)
0 1/8 0
1 3/8 3/8
2 3/8 6/8
3 1/8 3/8
----------
E x
i
. f(x
i
) = 12/8 = 1,5
1,5 es el nmero de caras esperadas como promedio en los lanzamientos de las tres monedas.


Ejercicio
En cierto curso de Ingls hay 20 alumnos aprobados y 10 reprobados. Si se selecciona
aleatoriamente dos alumnos, sin reposicin, cul es el nmero esperado de alumnos aprobados en la
muestra?
A AA (2) P(AA) = 20/30 . 19/29 = 38/87
A P(AR) = 20/30 . 10/29 = 20/87
R AR (1) P(RA) = 10/30 . 20/29 = 20/87
P(RR) = 10/30 . 9/29 = 9/87
A RA (1)
R
R RR (0)
X = N aprobados f(x
i
) x
i
. f(x
i
)
2 38/87 76/87
1 40/87 40/87
0 9/87 0
-------------
Ex
i
. f(x
i
) = 116/87 = 1,33

E(X) =
x
= 1,33. Al seleccionar aleatoriamente dos alumnos, una y otra vez sin reemplazo, el promedio de
alumnos aprobados es aproximadamente 1,33 en la muestra.

Varianza
Si X es una variable aleatoria, con esperanza E(X) =
x
, la varianza de "X", que se representa por
V(X) = o
2
, se define como:




En el lanzamiento de las tres monedas, determine la varianza de la variable aleatoria definida
como "el nmero de caras obtenidas".

X f(x
i
) x
i
* f(x
i
) X
2
x
i

2
* f(x
i
)
0 1/8 0 0 0
1 3/8 3/8 1 3/8
2 2 2
* ) ( * ) (
i i i
X f X X V o
(

= =

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.61
2 3/8 6/8 4 12/8
3 1/8 3/8 9 9/8
---------- -----------
x
i
. f(x
i
) = 12/8 = 1,5 x
i

2
. f(x
i
) = 24/8 = 3


= 3 - (1,5)
2
= 3 -2,25 = 0,75


Determine la varianza para la variable aleatoria definida como "el nmero de alumnos aprobados
en la muestra"

X f(x
i
) x
i
. f(x
i
) X
2
x
i
. f(x
i
)
2 38/87 76/87 4 152/87
1 40/87 40/87 1 40/87
0 9/87 0 0 0
------------- --------------
x
i
. f(x
i
) = 116/87 = 1,33 x
i
. f(x
i
) = 192/87 = 2,21

V(X) = 2,21 - (1,33)
2
= 2,21 - 1,77 = 0,44

Modelos Probabilsticos
Un modelo probabilstico es una expresin matemtica deducida de un conjunto de supuestos con
el doble propsito de estudiar los resultados de un experimento aleatorio y de predecir resultados futuros
del experimento cuando se realiza repetidas veces.

Distribucin Bernoulli
Consiste en un experimento aleatorio que tiene solo dos resultados posibles: "xito" y "fracaso", y
sus probabilidades se denotan con "p" y "q" respectivamente.
Esperanza E(X) = p
Varianza V(X) = p . q

Distribucin Binomial
Se refiere a una secuencia de eventos que poseen las siguientes propiedades:
1. Existen "n" pruebas de Bernoulli.
2. Los resultados de cada prueba se clasifican en dos categoras mutuamente excluyentes, llamadas
arbitrariamente "xitos" y "fracasos".
3. Los resultados de cada prueba son independientes.
4. La probabilidad de "xito" en una prueba se representa por "p", y es invariable en todas las pruebas. La
probabilidad de "fracaso" es representada por "q", y es igual a 1 - p.
5. En una prueba determinada, la atencin se centra en si los resultados esperados ocurrieron o no.
6. El experimento se realiza en las mismas condiciones un nmero fijo de pruebas que se denota por "n".

Una variable aleatoria generada en las condiciones anteriores, se llama variable binomial, es
discreta y tiene "n + 1" resultados posibles. Por ejemplo si se lanza una moneda tres veces, el nmero
posible de caras es 0, 1, 2, 3; es decir (3 + 1) = 4 resultados.

Ejemplo de Distribucin Binomial
Si se lanza una moneda 3 veces, cul es la probabilidad de obtener exactamente dos caras?
2 2 2
* ) ( * ) (
i i i
X f X X V o
(

= =

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.62
Aqu el resultados es independiente de los otros, adems el lanzamiento puede dar como resultado cara o
puede ser sello. Cualquier situacin que contenga dos caras puede considerarse exitosa, luego:

(1) (2) (3)

C CCC
C
S CCS

C
C CSC
S
S CSS

C SCC
C
S SCS
S
C SSC
S
S SSS


Todos estos resultados son eventos mutuamente excluyentes y por tanto, la probabilidad de "xitos" por la
ley de adicin ser la suma de las probabilidades individuales de todas las situaciones de xito.

SCC = 1/8 CSC = 1/8 CCS = 1/8

1/8 +1/8 + 1/8 = 3/8

Generalizando, la funcin probabilstica binomial, es la probabilidad de obtener "x" xitos en "n"
pruebas independientes de un experimento con "p" como la probabilidad de xito por cada prueba; es
decir, la binomial se define por b(x, n, p).

Funcin de Probabilidad
n
f(x) = P(X = x) = ( ) p
x
. q
n - x

x
Funcin de Distribucin Acumulada




Si se lanza una moneda tres veces, cul es la probabilidad de obtener exactamente dos caras?

n = 3 f(2) = P(X = 2) = 3 (1/2)
2
. (1/2)
x = 2
p = 1/2 = 0,5 = 3 (1/4) . (1/2) = 3/8
q = 1/2
x n x
n
x
n
x
q p C x X P X F

=

= s = * * ) ( ) (
0
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.63
Se conoce que el 50% de los pre-escolares de un Jardn de Infancia, usan transporte, cul es la
probabilidad de que en una muestra de 3 alumnos, 2 de ellos usen transporte.
n = 3
x = 2 f(2) = P(X = 2) = 3 (0,5)
2
. (0,5)
3 - 2

p = 50/100 = 0,50 = 3(0,25)(0,5) = 3(0,125)
q = 1 - p = 1 - 0,5 = 0,5 = 0,375

De cada 100 veces que se seleccione una muestra de 3 alumnos de ese Jardn de Infancia, es
probable que en 37,5 veces, 2 alumnos usen transporte.

Si de un grupo de 20 aficionados al bisbol se sabe que 8 son fanticos del Magallanes. Si se
selecciona una muestra de 6 aficionados, cul es la probabilidad de que:
a. 3 sean magallaneros.
b. ms de 3 sean magallaneros.
c. menos de 3 sean magallaneros.
d. 3 ms sean magallaneros.
e. 3 menos sean magallaneros.
f. por lo menos 1 sea magallaneros.

a) 3 sean magallaneros
n = 6
x = 3 f(3) = P(X = 3) = 20(2/5)
3
. (3/5)
6 - 3

p = 8/20 = 2/5 = 0,40 = 20(8/125)(27/125)
q = 1 - 2/5 = 3/5 = 060 = 20(216/15625) = 4320/15625
= 0,27648

f(3) = 20(0,064)(0,216) = 0,27648

Utilizando las tablas de distribucin binomial
n = 6 f(x) = P(X = x)
x = 3
p = 0,40 f(3) = P(X = 3)
q = 0,60 f(3) = 0,276
b. Ms de 3 sean magallaneros
n = 6
x = 4, 5, 6 P(X > 3) = f(4) + f(5) + f(6)
p = 0,40
q = 0,60 f(4) = 15(0,4)
4
. (0,6)
6 - 4
= 15 (0,0256)(0,36) = 0,1382
f(5) = 6(0,4)
5
. (0,6)
6 - 5
= 6 (0,01024)(0,6) = 0,0369
f(6) = 1(0,4)
6
. (0,6)
6 - 6
= 1 (0,0041)(1) = 0,0041

P(X > 3) = 0,1382 + 0,0369 + 0,0041 = 0,1792

Utilizando la tabla
Resultados posibles 0 1 2 3 4 5 6
<-------------------->
F(3) 1 - F(3)
P(X > 3) = 1 - F(3) = 1 - 0,8208 = 0,1792

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.64
Distribucin Normal
La distribucin normal es un modelo matemtico, que no existe realmente, sino que se intent
como una funcin bsica la cual rige las variables aleatorias continuas, a dicho modelo se aproximan las
distribuciones de frecuencias como un lmite (Bernoulli, Poisson se aproximan a la normal cuando "n" es
grande.

La Curva Normal es la representacin grfica de una ecuacin de probabilidades la cual presenta,
entre otras, las siguientes propiedades:
1. La curva normal tiene forma de campana.
2. Sus parmetros son y .
3. La curva de la distribucin es asinttica, es decir, las colas de la curva nunca llegan a tocar el eje de las
abscisas.
4. La distribucin normal es simtrica con respecto a la ordenada mxima, siendo por lo tanto, las
medidas de tendencia central iguales entre s.
5. Asume valores entre -oo y +oo .
6. Si "X" est normalmente distribuida con y o , entonces,
X -
z = -----------
o

estar tambin normalmente distribuida.

Esta transformacin de "X" a puntajes tpicos "z" (tipificacin o estandarizacin) tiene el objeto de
reducir a unidades en trminos de desviacin tpica. Es decir, dado un valor "X", el correspondiente valor
"z", indica el sentido y la distancia a que se encuentra "X" de su m (media aritmtica) en trminos de
desviacin tpica. Esta propiedad permite transformar el modelo normal general en el modelo tipificado o
estandarizado.

Una distribucin normal es de forma estndar si su media aritmtica es cero y su varianza igual a
1, por lo tanto, su desviacin tpica es la unidad.

Los valores de la funcin de distribucin normal general no estn tabulados, pero si lo estn los de
una variables estndar "z", siendo su expresin:
X -
z = -----------
o

La funcin de densidad de una distribucin normal es la siguiente:
(X - )
2

1 - -------------
f(x) = ----------- . e o
2

o \ 2 t

donde t = 0 y o = 1.




Probabilidades Acumuladas y Areas bajo la Curva Normal
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.65

F(a) = P(X s a)

F(a) = P(X s A) 1 - F(a) = P(X > a)
a = x
o en un intervalo

P(a s X s b)

a b

Ubicacin para el Manejo de las tablas de Distribucin Normal

F(-z) = P(X s -z)
F(z) = P(X s z)
D(z) = P(-z s X s z)


Ejemplos
Luego de aplicar una prueba objetiva de Biologa a los 70 alumnos cursantes del 9 grado, se
obtuvo una distribucin normal con = 41,12 y o
x
= 7,67.
Determine:
a. qu probabilidad existe que un alumno se encuentre entre la media y 2,5 desviaciones?
z = 2,5 ----> 0,9938

P(0 s z s 2,5) = 0,9938 - 0,50
P(0 s z s 2,5) = 0,4938


}
b
a
dx x f ) (
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.66




2,5 o
0.9938
------------------------------------

b. Cul es la probabilidad que un alumno se encuentre entre la media y -2,5 desviaciones?

z = -2,5 ----> 0,0062

P(-2,5 s z s 0) = 0,50 - 0,0062

P(-2,5 s z s 0) = 0,4938



-2,5 o
0,0062
----------------
c. Cul es la probabilidad de que un alumno se encuentre entre 2,5 desviaciones?
Dz = 2,5 ----> 0,9876

P(-2,5 s z s 2,5) = 0,9876







-2,5 o 2,5 o
---------------------------


d. Cul es la probabilidad de que un alumno obtenga 45 puntos menos?

X - 45 - 41,12
z = ----------- = ---------------- = 0,51
o 7,67


P(z s 0,51) = 0,6950


0,51 o
e. Cul es la probabilidad que un alumno obtenga 43 puntos o ms?
Para resolver, lo primero es tipificar la puntuacin 43
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.67

X - 43 - 41,12
z = ---------- = ---------------- = 0,25
o 7,67

P(z s 0,25) = 0,5987

P(z > 0,25) = 1 - P(z s 0,25)

= 1 - 0,5987 = 0,4013 0,25 o
0,5987
-----------------------

f. Cul es la probabilidad de que un alumno obtenga puntuaciones entre 30 y 35 puntos?

Se tipifican ambos puntajes

X - 31 - 41,12
z
1
= --------- = --------------- = -1,45
o 7,67




35 - 41,12 -1,45 -0,8
z
2
= ---------------- = -0,8
7,67

P(30 s X s 35) = P(-1,45 s z s -0,8)
f(-1,45) = 0,0735
f(-0,8) = 0,2119
P(-1,45 s z s -0,8) = f(-0,8) - f(-1,45)
= 0,2119 - 0,0735 = 0,1384

g. Cul es la probabilidad que un alumno obtenga puntuaciones entre 45 y 50 puntos?
X - 50 - 41,12
z
1
= --------- = ---------------- = 1,16
o 7,67



45 - 41,12
z
2
= ---------------- = 0,51
7,67

P(45 s X s 50) = P(0,51 s z s 1,16)
f(0,51) = 0,6950
f(1,16) = 0,8770

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.68

P(0,51 s z s 1,16) = f(1,16) - f(0,51)
= 0,8770 - 0,6950 = 0,1820

En una distribucin normal, la probabilidad que un alumno se encuentre entre la ordenada mxima
y otra ordenada ubicada por encima de la media es de 0,32. A que distancia en desviaciones tpicas se
encuentra esa ordenada?

Se debe tomar en cuenta la probabilidad de los valores de las ordenadas menores a la media P(z
= 0) = f(0) = 0,50; por lo tanto, la probabilidad acumulada hasta esa ordenada ser de 0,50 + 0,32 = 0,82.
Dicho valor lo obtiene en la tabla de reas bajo la curva normal en la columna |(z) ya que la ordenada se
encuentra por encima de la media y luego se localiza el correspondiente valor z.

0,82 o
0,915
-----------------------

Luego utilizando la tabla de la distribucin normal, que parte del porcentaje a z, ubicamos el 82% y
este indica en z(|) = 0,915

Determinar las puntuacin mxima del 30% de los alumnos (Con el ejercicio inicial)

30% -----> z = -0,524 o
= 41,12
o = 7,67

X -
Z = ------------
o

- 0,54o

X = (z . o) + = (-0,524 . 7,67) + 41,12 = 37,10 puntos

Determinar la puntuacin mnima del 20% de los mejores alumnos

100 - 20 = 80% ----> z = 0,842o

X = (z . o) +

X = (0,842 . 7,67) + 41,12
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.69

X = 47,58 puntos

0,842 o

Qu puntuaciones limitan el 30% central de la distribucin?

Se ubica el 30% en la tabla de distribucin normal para D(z)
30% ----> z = 0,385

X
1
= (-0,385 . 7,67) + 41,12
X
1
= 38,16 puntos
X
2
= (0,385 . 7,67) + 41,12
X
2
= 44,07 puntos




0,385 o 0,385 o

En una distribucin normal, entre dos ordenadas ninguna de las cuales es la mxima, se
encuentra el 20% de los casos. Si se sabe que la que menos se aleja de la ordenada mxima se
encuentra a una distancia de z = 0,17o, a qu distancia se encuentra la otra ordenada?

57% + 20% = 77%

77% ----> z = 0,739










0,17o 0,739o

Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.70
EJERCICIOS A RESOLVER UNIDAD I

1. Escriba los elementos del espacio muestral: Conjunto de los nmeros enteros entre 10 y 40 divisibles
por 3.

2. Luego de corregidos los exmenes correspondientes al primer parcial, se asigna "A" a salir aprobado y
"R" a salir reprobado. Si se extraen aleatoriamente tres elementos, escriba el espacio muestral de dicho
experimento.

3. Basado en el ejercicio anterior, enumere los puntos muestrales del experimento:
a. que el primer alumno elegido este aprobado.
b. que el segundo alumno elegido este aprobado.
c. que el tercer alumno elegido este aprobado.
d. que el primero y el segundo alumnos estn aprobados.
e. que el primero y el tercero estn aprobados.
f. que el segundo y el tercero estn aprobados.
g. que los tres estn aprobados.

4. Cul es la probabilidad de cada uno de los ejercicios anteriores (3).
R: a. 1/2 b. 1/2 c. 1/2 d. 1/4 e. 1/4 f. 1/4 g. 1/8

5. Sea un juego de cartas francesas, cul es la probabilidad de extraer al azar un "diez"? R: 1/13

6. Sea el mismo juego de cartas. Si se extrae aleatoriamente una carta. Cul es la probabilidad de
obtener un diamante o un corazn? R: 1/2

7. Con el mismo juego de cartas, si se extrae una carta, cul es la probabilidad de que sea un "as" o un
"corazn". R: 4/13

8. Sea el lanzamiento de un dado equilibrado, cul es la probabilidad de obtener:
a. un nmero impar? R: 1/2
b. un nmero menor que tres? R: 1/3

9. Sea el lanzamiento de dos dados equilibrados, cul es la probabilidad de que la suma de los lados
sea:
a. igual a siete. R: 1/6
b. igual a once. R: 1/18
c. una suma divisible por tres. R: 1/3

10, En una bolsa se colocan 4 bolas rojas, 5 negras y 11 blancas. Cul es la probabilidad de que al
extraer una bola al azar esta:
a. sea roja. R: 1/5
b. sea blanca o roja. R: 3/4
c. sea ni roja, ni negra. R: 11/20

11. En un curso de Msica la probabilidad de que un alumno sea del Estado Yaracuy es de 0,10, la
probabilidad de que toque cuatro es de 0,08 y la probabilidad de que sea del Estado Yaracuy y toque
cuatro es de 0,04, si se extrae al azar un alumno, cul es la probabilidad de que sea del Estado Yaracuy
o toque cuatro? R: 0,14
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.71

12. Una caja contiene 4 bolas rojas y 3 negras, las bolas rojas estn numeradas del 1 al 4 y las negras del
5 al 7.
a. Escriba el espacio muestral de extraer aleatoriamente dos bolas sin reemplazo.
b. Cul es la probabilidad de que ambas sean rojas? R: 6/21=0,29
c. Cul es la probabilidad de que por lo menos una sea roja? R: 18/21=0,8571
d. ambas sean del mismo color? R: 9/21

13. Responda al planteamiento anterior pero con reemplazo.
b. R: 16/49 c. R:40/49 d. R: 25/49

14. Si se lanza un dado no cargado, cul es la probabilidad de no obtener un nmero par? R:1/2

15. Sea un mazo de barajas espaolas. Si sale "oros", cul es la probabilidad de que sea un rey? R:
1/10

16. Cierto curso esta constituido por 6 varones y 10 hembras, entre las hembras 6 son de Falcn y 4 de
Bolvar, entre los varones 4 son de Falcn y 2 de Bolvar. Si se elige al azar un alumno, cul es la
probabilidad de que:
a. sea hembra sabiendo que es Bolvar? R: 2/3
b. sea varn sabiendo que es de Falcn? R: 2/5

17. Si se extraen al azar dos cartas de un mazo de barajas espaolas, cul es la probabilidad de que la
primera sea una sota y la segunda un as? R: 1/100

18. Una urna contiene 4 bolas azules, 3 verdes y 7 rojas. Si se extraen sucesivamente dos bolas de la
urna, cul es la probabilidad de obtener una bola verde y luego una roja? R:21/196

19, Sea el mismo ejemplo, cul es la probabilidad de obtener una bola verde y luego una roja, siendo el
muestreo con sin reposicin? R: 21/182

20. Sea un juego de carta francesas, si se extraen aleatoriamente dos cartas, cul es la probabilidad de
que la primera sea un "as" y la segunda una "J"?
a. con reemplazo R: 16/2704 b. sin reemplazo R: 16/2652

21. Una empresa ha perfeccionado dos tipos de tiza, A y B, estos productos han sido distribuidos a veinte
de las cincuenta libreras de una ciudad, las veinte libreras escogidas venden A o B o ambas. 15 libreras
venden la tiza A, 12 venden la B. Si se selecciona al azar una tienda de la ciudad, cul es la probabilidad
de que este vendiendo la tiza A o B o ambas? R:2/5
22. Si se lanzan dos dados equilibrados, cul es la probabilidad de no obtener un doble (que ambas
caras sean iguales). R: 5/6

23. La probabilidad de que un cierto alumno practique para un examen es de 0,30. Si solo el 5% de los
alumnos aprueba dicho examen, cul es la probabilidad de que un alumno elegido al azar apruebe , si
sabemos que practica? R: 0,17

24. Si de una caja que contiene 9 tarjetas rojas y 3 azules se extraen 2 tarjetas al azar:
a. construya la distribucin de probabilidades correspondiente a la variable aleatoria definida como "el
nmero de tarjetas rojas en la muestra"
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.72
b. la funcin de distribucin acumulada.
c. determine el valor esperado. R: 1,5
d. determine la varianza. R: 0,34

25. Sea el lanzamiento de un dado. Si X es la variable aleatoria que indica "el nmero de punto de la cara
resultante":
a. construya la distribucin de probabilidades.
b. construya la funcin de distribucin acumulada.
c. determine el valor esperado. R: 3,5
d. determine la varianza. R: 2,92

26. En una bolsa existen cuatro tarjetas numeradas 3, 4, 5, 6, si se extraen aleatoriamente y sin
reemplazo dos tarjetas, y X define a la variable aleatoria "la suma de los dos nmeros que se obtengan":
a. construya la distribucin de probabilidades.
b. construya la funcin de distribucin acumulada.
c. determine el valor esperado. R: 9
d. determine la varianza. R: 1,67

27. En un examen de arrastre de Biologa, de 50 alumnos que aparecen en acta solo se presentaron 30,
de los cuales aprobaron 18. Si se selecciona al azar una muestra de 5 alumnos, cul es la probabilidad
de que:
a. 3 alumnos hayan aprobado? R: 0,3456
b. aprueben entre 2 y 4 alumnos? R: 0,8352
c. menos de dos aprueben? R: 0,087
d. ms de 3 aprueben? R: 0,3369
e. ninguno apruebe? R:0,0102

28. Dentro de la Facultad de Educacin se sabe que la probabilidad de que un alumno seleccione la
mencin de matemtica es de 0,35. Si se selecciona al azar una muestra de 6 alumnos, cul es la
probabilidad de que:
a. al menos 3 seleccionen matemtica? R: 0,3518
b. todos seleccionen matemtica? R: 0,0018
c. dos no seleccionen matemtica? R: 0,0950

29. Si se considera que en una universidad se grada uno de cada tres estudiantes que ingresan por
primera vez, se desea saber la probabilidad de que en una muestra aleatoria de 8 estudiantes:
a. Ninguno se grade? R: 0,0406
b. Se graden dos? R: 0,2756
c. al menos siete se graden? R: 0,0022

30. los alumnos cursantes de la seccin A de un 8vo grado presentaron una prueba objetiva de Geografa:
los resultados se distribuyeron estadsticamente, de lo cual se obtuvo la siguiente informacin:
Tamao = 28 Desviacin = 2,37 Media = 12,65
Si las puntuaciones obtenidas se distribuyen normalmente, determine: cul es la probabilidad de que un
alumno seleccionado al azar este ubicado:
a. entre la media y 1,75 desviaciones? R: 0,4599
b. entre la media y -0,78 desviaciones? R: 0,2823
c. entre 1,18 desviaciones? R: 0,7620
d. entre -0,68 y 0,88 desviaciones? R: 0,5397
Alexander Pinto y Neil Pernalete de P.
Capitulo VII

Material en elaboracin. Uso experimental.
pg.73
e. entre -0,83 y -1,12 desviaciones? R: 0,0719
f. entre 1,14 y 2,11 desviaciones? R: 0,1097
g. Determine cuntos alumnos obtuvieron 8 puntos o menos? R: 1
h. Cul es la probabilidad de que un alumno elegido al azar, obtenga una calificacin de 16 puntos o
ms? R: 0,0793
i. qu calificaciones limitan el 24% central? R: 11,92 y 13,35
j. Cul fue la calificacin mnima del 20% de los alumnos con calificaciones mejores? R: 14,56
k. Qu cantidad de alumnos existe entre la media y 6 puntos? R: 14
l. qu calificacin han alcanzado como mxima el 13% de los alumnos con ms bajas puntuaciones? R:
9,96

31. De una prueba aplicada, la cual se distribuye normalmente, con una media de 32 y una desviaci n
igual a 4. Calcular
a. P(28 s X s 34) R: 0,5328
b. P(31 s X s 35) R: 0,3721
c. P(36 s X s 39) R: 0,1186
d. P(24 s X s 28) R: 0,1359
e. P(X > 24) R: 0,9772
f. P(X s 30) R: 0,3085

32. Supongase que la temperatura T durante el actual mes ha estado distribuida normalmente con media
26
o
y desviacin estndar de 3
o
, determine la probabilidad de que la temperatura este entre 27
o
y 30
o
, en
una seleccin al azar. R: 0,2789*

33. Supongase que los puntajes de una prueba estn normalmente distribuidos con media 76 y desviacin
15. El 15% de loa alumnos, los mejores reciben una A; el 10% de los peores pierden el curso y reciben
una D. Determine:
a. el puntaje mnimo para merecer una A. R: 91,54
b. el puntaje mnimo para aprobar (No merecer una D) R: 56,77

34. muestra aleatoria de 200 alumnos los cuales se distribuyen normalmente con respecto al peso con
una media de 54,250 Kgs y una desviacin de 2,750 Kgs.
a. determine la probabilidad de encontrar un alumnos entre 51 y 53 Kgs. R: 0,2074
b. Cuntos alumnos estn por encima de 54 Kgs? R: 107
c. Qu porcentaje de casos se encuentra por debajo de 50 Kgs? R: 6,18%

35. En la validacin de una prueba objetiva de Historia, se obtuvo que los puntajes se distribuyen
normalmente para una muestra 80 alumnos con una media de 40 puntos y una desviacin de 8 puntos.
a. Si aprueba el 85%, Cul es la puntuacin mnima de aprobacin? R: 31,71
b. Cuntos alumnos resultaron reprobados en funcin de la puntuacin anterior? R: 12
c. Si el 12% de los alumnos se catalogan como excelente, cul es la puntuacin mnima de ellos? E:
49,4
d. Si la puntuacin mnima de aprobacin es de 33 puntos, cul sera el porcentaje de aplazados? R:
19,49

lexander Pinto y Neil Pernalete Captulo VII
pg. 80
CAPITULO VIII: INTRODUCCIN A LA TEORA MUESTRAL
Inferencia Estadstica. Estimadores y Parmetros

Una de las aplicaciones ms importantes de la Estadstica es hacer inferencia acerca de grupos
muy grandes basndose en la informacin obtenida de pequeos grupos. Es decir, tratar de
conocer la poblacin a partir de los datos de una o ms muestras; la exactitud de esto depende de
lo adecuadas que sean la o las muestras elegidas.

Conceptos Bsicos
Poblacin
Conjunto finito o infinito de individuos o elementos que poseen una caracterstica comn. Ej.
Poblacin de un pas. Nmero de estudiantes de la U.C.

Poblacin Finita
Es aquella que contiene un nmero determinado de elementos. Ej. Estudiantes de CUPIO. A este
tipo de poblacin se le llama tambin colectivo real, ya que esta compuesta por elementos
concretos.

Poblacin Infinita
Es aquella cuyo nmero de elementos es tan grande que resulta imposible su determinacin. Ej.
Nmero de veces que una moneda puede lanzarse al aire. Este tipo de poblacin constituye un tipo
de colectivo o poblacin hipottica, ya que sus elementos no existen concretamente pero s en
ciertas hiptesis. En este ejemplo, an sin lanzar la moneda al aire existe una poblacin terica de
todas las probabilidades de lanzarla. Es decir, que podemos definir esta poblacin como el conjunto
de todos los sucesos imaginables en el que pueda tener lugar un suceso.

Si una poblacin determinada puede estudiarse o realizarse en base a sus elementos directamente,
los clculos o medidas obtenidas de ella se denominan parmetros, los cuales se designan con
letras griegas. El revelamiento total de la poblacin se denomina Censo.

Muestra
Es una parte o subconjunto propio de una determinada poblacin, es decir, que en un determinado
nmero de individuos u objetos que han sido elegidos, cada uno de los cuales es un elemento de la
poblacin.

Los clculos o medidas obtenidas a partir de las muestras se llaman estadsticos o estimadores,
ya que a partir de ellos se determina o estima el valor del parmetro de la poblacin. Se designan
con letras latinas.
Simbologa
Parmetros Estadsticos
_
Media X

Desviacin s


2
Varianza s
2


Tamao n

Porcentaje p

lexander Pinto y Neil Pernalete Captulo VII
pg. 81
En general, cualquiera que sea el fenmeno estudiado, es casi imposible el anlisis de todos sus
elementos, ya que es un proceso largo, costoso y estadsticamente peligroso, por cuanto que la
simple omisin de un elemento, afectara el estudio en cuestin. De all que existe una Teora de
Muestras o Teora Muestral: cuyo objetivo es determinar, con la mayor objetividad posible, el
grado de confianza que puede tenerse en las estimaciones realizadas sobre el fenmeno en
general en base al estudio de las muestras. Estas estimaciones se expresan en trminos
probabilsticos con ciertos mrgenes de confiabilidad. Las conclusiones obtenidas a partir de una
muestra tienden a:

Estimar ciertas caractersticas de la poblacin (parmetros), a partir del conocimiento de los
valores de las muestras (estadsticos).
Probar hiptesis vlidas para la poblacin conociendo la informacin de las muestras.

La forma como se elige la(s) muestra(s), se denomina Tcnica de muestreo, y de la forma y
objetividad con que ste se realice, depende la exactitud de la inferencia a realizar.

En el momento de esa seleccin pueden cometerse errores estadsticos que originan diferencias
entre el valor del estadstico obtenido y el parmetro correspondiente. Tales errores se clasifican en:

ERRORES DE MUESTREO
Es el resultado de la eleccin casual de unidades de muestras, esto ocurre porque solo se hace una
observacin parcial del conjunto. La diferencia entre el estadstico y el parmetro no es debido a
tcnicas inadecuadas de muestreo, sino que se trata de un error casual, implcito en la seleccin de
la(s) muestra(s), es decir que la diferencia se debe al azar.
Es debido a esto que dos muestras de una misma poblacin pueden diferir con relacin a un
estadstico determinado. Existen tcnicas estadsticamente determinadas para verificar si es as o
no.

ERROR DE NO MUESTREO
Ms que errores debido al azar, son errores en las mediciones hechas. Comprende errores
sistemticos y equivocaciones. Entre los factores que causan estos errores estn: definicin
inadecuada de la poblacin, imperfeccin del marco, falta de definicin del cuestionario aplicado,
vaga informacin sobre lo que se desea investigar, mtodos imprevistos de entrevista, errores en el
uso de tablas de nmeros aleatorios o al azar, etc.
Para establecer inferencias vlidas relativas a la poblacin, es necesario que la muestra sea
representativa de la poblacin.
El nmero de elementos o unidades incluidas en una muestra puede variar de uno a todos los
elementos de la poblacin (1 n N). El tamao real que ha de tomarse depender de la
variabilidad de la poblacin y del grado de precisin requerido. Una muestra que contenga una
unidad de muestreo puede dar una informacin til, pero las medidas de error de muestreo no
pueden ser aplicadas a sus resultados. Una muestra que contenga todas las unidades de la
poblacin se llama muestreo exhaustivo, o muestra 100 por 100.
TIPO DE MUESTREO
Con reemplazo
Simple al azar
Sin reemplazo

Azar sistemtico
MUESTREO AL AZAR
O PROBABILSTICO Proporcional
Estratificado
lexander Pinto y Neil Pernalete Captulo VII
pg. 82
No proporcional

Por Conglomerados

Dirigido
MUESTREO NO AL AZAR
O NO PROBABILSTICO Por Cuotas

Deliberado

MUESTREO AL AZAR
Es conocido tambin como modelo de probabilidad, ya que siendo al azar se le pueden aplicar las
leyes probabilsticas; el procedimiento de muestreo empleado es la aleatoriedad, de acuerdo con
esto se conoce la probabilidad de seleccin de un elemento, pero no se puede deci dir que
elementos se incluirn en la muestra. En estas muestras probabilsticas se sabe cual es el error que
puede cometerse en la estimacin, es decir, se conoce el riesgo de equivocacin al hacer una
inferencia.


MUESTREO SIMPLE AL AZAR
Es el proceso de seleccin de una muestra en el cual todos y cada uno de los elementos de la
poblacin tienen la misma probabilidad de ser incluidos en la muestra, es decir, tienen la misma
probabilidad de ser elegidos. Este muestreo puede ser con o sin reemplazo.

CON REEMPLAZO
Cada elemento extrado para una muestra regresa a la poblacin, de tal manera que puede formar
parte de otra seleccin. Poblaciones finitas se hacen infinitas a travs de este procedimiento. La
probabilidad de participacin es igual a 1/N.

SIN REEMPLAZO
Cada elemento extrado para una muestra no es regresado a la poblacin, por lo tanto no puede
formar parte de otra seleccin. La probabilidad de seleccin de cada elemento depende del nmero
de elementos extrados; es decir, la probabilidad del:
1er elemento es 1/N
2do elemento es 1/N-1
3er elemento es 1/N-2.

La poblacin se agota por este procedimiento, ya que un elemento extrado no vuelve a participar
en la seleccin siguiente. Este mtodo no se usa en poblaciones muy numerosas.

Una forma rpida de utilizar este procedimiento, muestreo simple al azar, es a travs del la Tabla de
Nmeros Aleatorios o al Azar. Otra forma de realizar este tipo de muestreo es utilizando la funcin
RAN en la calculadora con funciones estadsticas, o tambin los paquetes o procesadores
estadsticos.

MUESTREO POR AZAR SISTEMTICO
Es un procedimiento de muestreo, el cual consiste en elegir elementos para la muestra en intervalos
sistemticos, regulares o iguales a partir del primer elemento seleccionado al azar. Para fijar el
intervalo se divide el total de elementos (poblacin) entre la cantidad de los elementos que
integrarn la muestra, es tambin denominado el elemento ksimo (k = N/n), luego se elige el primer
elemento y a continuacin los dems elementos a razn del intervalo.
lexander Pinto y Neil Pernalete Captulo VII
pg. 83

Ejemplo
Existe una poblacin conformada por 800 elementos, y se desea obtener una muestra de 80
elementos.



El primer elemento se debe elegir entre 01 y 10, mediante la utilizacin de la tabla de nmeros
aleatorios se elige el N 4, el segundo elemento ser el 14 (4 + 10), el tercero 24 (14 +10), hasta
llegar al elemento ochenta que sera 794.

MUESTREO ESTRATIFICADO
Para utilizar este tipo de muestreo la poblacin debe encontrarse dividida en estratos, los cuales
son grupos homogneos en cuanto a la caracterstica a estudiar, luego se elige una muestra de
cada estrato.

MUESTREO ESTRATIFICADO PROPORCIONAL
El nmero de unidades seleccionadas de cada estrato es proporcional al tamao de este.
Posteriormente se eligen los elementos de cada estrato.

Para determinar el nmero de elementos en cada estrato se puede determinar una fraccin de
muestreo.
donde n: muestra
N: poblacin

Ejemplo
La siguiente poblacin pertenece a una delimitacin que se ha realizado para una investigacin y se
desea determinar el tamao de cada estrato que sea proporcional a la poblacin, en una muestra
de 150 sujetos
Grupo A: 400 sujetos
Grupo B: 500 sujetos
Grupo C: 800 sujetos

De all entonces que el nmero de sujetos para cada estrato de manera proporcional ser el
producto del tamao de cada estrato multiplicado por la fraccin de muestreo.
Grupo A = 400. 0,0882 = 35,28 35
Grupo B = 500. 0,0882 = 44,10 44
Grupo C = 800. 0,0882 = 70,56 71
------
n = 150
MUESTREO ESTRATIFICADO NO PROPORCIONAL
El nmero de unidades seleccionadas de cada estrato no se corresponden proporcionalmente con
el tamao del estrato, se utiliza cuando existe una gran dispersin en los estratos, o sea que son
muy diferentes unos de otros.

MUESTREO POR CONGLOMERADOS
La poblacin se encuentra dividida en sectores o grupos llamados conglomerados (grupo
heterogneos dentro de s, pero homogneos entre ellos), de donde se selecciona una muestra al
azar correspondiente a los conglomerados, de acuerdo al tamao determinado.


10
80
800
n
N
Intervalo
N
n
muestreo de f raccin _ _
0882 , 0
1700
150
_ _ muestreo de fraccin
lexander Pinto y Neil Pernalete Captulo VII
pg. 84
Secuencia para la seleccin de Nmeros Aleatorios con el STATS.
El Stats es un procesador estadstico muy sencillo que viene con el libro Metodologa de la
Investigacin de Hernndez Sampieri y Otros, tiene muchas limitaciones pero es muy til para la
seleccin aleatoria y el tamao de la muestra. Su secuencia de proceso es la siguiente
1. Seleccionar el Stats mediante el icono




Fig 8.1 Icono del Stats
2. Escoger Nmeros Aleatorios.


Fig. 8.2 Men principal del Stats
3. Escribir la cantidad de nmeros aleatorios a seleccionar (tamao de la muestra)



Fig. 8.3. Nmeros aleatorios del Stats
4. Escribir el nmero de dgitos que van a tener los nmeros aleatorios.
5. Si la poblacin es infinita, escoger sin lmites, si es finita establecer lmite superior e inferior y
6. Pulsar Calcular. A continuacin se genera una pantalla donde se muestran los nmeros
aleatorios de acuerdo a las condiciones establecidas

MUESTREO NO AL AZAR O NO PROBABILSTICO
Es un proceso de seleccin de muestras sin el uso del azar, se realiza sobre la base del juicio del
experto, conveniencia del investigador. Este procedimiento esta sujeto a errores de muestreo que
no se pueden medir.

MUESTREO DIRIGIDO
Se seleccionan los elementos de una muestra sobre la base del juicio del investigador que cree que
lexander Pinto y Neil Pernalete Captulo VII
pg. 85
los resultados sern representativos.

MUESTREO POR CUOTAS
Mediante este procedimiento se le asigna a cada encuestador un nmero de unidades de
investigacin, que debe cubrir, es decir una cuota de la cual debe recoger la informacin.
MUESTREO DELIBERADO
Consiste en utilizar una parte de la poblacin por parte del investigador a causa de su
accesabilidad.

Esto muestreos, no probabilsticos, presentan la problemtica de la subjetividad y adems que
como no existe la seleccin aleatoria se reduce la posibilidad para la generalizacin a la poblacin.

EJERCICIO
Luego de realizada una encuesta en un grupo de alumnos, referente a la metodologa empleada por
el profesor, se obtuvo tres grupos.
Grupo 1 Grupo 2 Grupo 3
N Alumno Puntuacin N Alumno Puntuacin N Alumno Puntuacin
1 Andrs 18 10 Carmen 14 18 Luis 14
2 Carlos 19 11 Jos 26 19 Ada 28
3 Josefina 22 12 Fernando 22 20 Javier 17
4 Nicols 17 13 Luca 20 21 Marisol 19
5 Zaida 21 14 Pedro 18 22 Jorge 19
6 Mary 26 15 Elsy 19 23 Sara 16
7 Gustavo 13 16 Teresa 17 24 Paula 27
8 Victoria 19 17 Victor 16
9 Betty 16
Seleccione una muestra estratificada proporcional por grupo y sexo de tamao diez (10), utilizando
los dos ltimos dgitos de la columna 4 de la tabla de seleccin aleatoria.
Grupo 1 Grupo 2 Grupo 3
Varones 4 (44%) 4 (50%) 3 (43%)
Hembras 5 (56%) 4 (50%) 4 (57%)



Tamao de la muestra por estrato:
Grupo 1: 9. 0,4167 = 3,75 4
Grupo 2: 8. 0,4167 = 3,33 3
Grupo 3: 7. 0,4167 = 2,92 3


Distribucin por sexo Total
Grupo 1: (4/9) Varones = 2 Hembras = 2 4
Grupo 2: (3/8) Varones = 2 Hembras = 1 3
Grupo 3: (3/7) Varones = 1 Hembras = 2 3

Ahora se determinan los elementos de cada grupo que conformarn la muestra, utilizando los dos
ltimos dgitos de la columna 4 de la tabla de nmeros aleatorios, quedando elegidos los siguientes
sujetos proporcionalmente dentro de cada grupo y sexo.


Sexo

Grupo 1

Grupo 2

Grupo 3

4167 , 0
24
10
_ _ muestreo de fraccin
lexander Pinto y Neil Pernalete Captulo VII
pg. 86
Varones 07 - 02 12 17 20

Hembras

05 - 09

10

21 - 23

DISTRIBUCIONES TERICAS EMPLEADAS EN ESTADSTICA INFERENCIAL
Estas son herramientas que utiliza las estadstica inferencial para realizar sus predicciones, se
consideraran la normal, chi cuadrado, distribucin F y distribucin t.

DISTRIBUCIN NORMAL
Ya fue considerada en el capitulo VII, y es un tipo particular de modelo matemtico, unimodal y
simtrica. De Moivre invent la curva normal para darle solucin fcil y aproximada a las
aplicaciones de la teora de probabilidades.

Sus caractersticas y manejo de las tablas fueron estudiadas anteriormente, pero es importante para
la estadstica inferencial, motivado a que muchas tcnicas inferenciales se basan en hiptesis, las
cuales utilizan en una poblacin, de distribuciones que se pueden describir como si fueran normal,
ya que esta representa con alta precisin las distribuciones que poseen numerosos datos, los
cuales pueden comprobarse matemticamente mediante el teorema del lmite central.

DISTRIBUCIN CHI CUADRADO
Es una curva matemtica que se representa por la letra griega y fue derivada por Karl Pearson.

Partiendo de una distribucin normalmente distribuida, cuya media es cero (0) y desviacin tpica de
uno (1), si se toma una puntuacin aislada X
1
su puntuacin tpica (z) ser z = (X
1
- 0)/1 al denotar el
cuadrado
z
2
=
1
2


En otras palabras es tipificar al cuadrado con un gl.

PROPIEDADES
1. La media de una distribucin
2
, con n grados de libertad son igual a n.
2. La desviacin tpica es igual a n 2
3. La distribucin chi cuadrado es asimtrica positiva, pero con valores altos esta asimetra
prcticamente desaparece.
4. Cuanto mayor sea n ms se aproxima a la distribucin normal.

Su aplicacin fundamental esta hacia los datos nominales.
DISTRIBUCIN F
Es una distribucin con m y n grados de libertad y adems una razn entre cantidades estimadas al
cuadrado.
PROPIEDADES
1. Es asimtrica positiva.
2. Es unimodal.
3. Su mediana es igual o inferior a uno (1).
4. Su media es igual a n/(n - 2) para n 3.
5. Su rango vara entre 0 y oo, ya que es una razn entre cantidades al cuadrado.

Se utiliza para el contraste de varianza a nivel poblacional.

DISTRIBUCIN t
lexander Pinto y Neil Pernalete Captulo VII
pg. 87
Distribucin desarrollada por W. S. Gossett bajo el seudnimo de "student". No existe una nica
distribucin t, sino una familia de ellas, para cada nmero de grados de libertad se tendr una
distribucin t diferente. Estas distribuciones se describen como curvas simtricas unimodales con
media 0 y varianza n/n - 2, para n grados de libertad, son ms achatadas que la distribucin normal,
de all que cuanto mayor sea n, ms se aproxima a la normal, si n es infinito la distribucin t ser
igual a la normal.

PROPIEDADES
1. Su valor vara entre .
2. Es una distribucin exacta.
3. Es unimodal simtrica con respecto a la media.
4. es ms aplastada que la distribucin normal.

Su utilizacin se corresponde con la inferencia de muestras pequeas (n < 30).

DISTRIBUCIONES MUESTRALES
Una distribucin muestral es aquella que esta formada por estadsticos de muestras. Es una
distribucin terica de probabilidades de los valores posibles de algn estadstico muestral que
ocurrira si obtuviramos todas las muestras posibles, tamao fijo, de una poblacin dada.

Las distribuciones muestrales ms comunes son aquellas conformadas por estadsticos tales como
la media y la varianza; es cuando se habla de distribucin muestral de medias o distribucin
muestral de varianzas.

Si se consideran todas las muestras posibles de tamao "n" que puedan extraerse de una poblacin
determinada (con o sin reemplazo). Para cada una de las muestras se puede calcular un estadstico
(la media, la desviacin tpica), los cuales variarn de una muestra a otra. De esta manera se
obtiene una distribucin del estadstico, la cual se denominar distribucin muestral.

Ejemplo
Sea la siguiente poblacin: 2 - 3 - 5 - 7 - 9 - 11 - 12 - 14 - 17 y 19.

Se va a construir una distribucin muestral de la media; donde m es la media de la poblacin, X es
la media de la muestra y N es el total de datos de la poblacin.



Para la distribucin muestral se tomarn grupos de diferentes extensiones y en cada grupo se
formarn cuatro muestras. A cada muestra se le determinar la media para luego construir la
distribucin muestral de stas.

Muestras de tamao 2 (n = 2)

(2, 3)

(7, 9)

(9,11)
2,5 9,9 16,5
(14,19)

9 , 9
10
99
10
19 17 14 12 11 9 7 5 3 2
N
Xi
5 , 2 X
8 X
10 X
5 , 16 X
lexander Pinto y Neil Pernalete Captulo VII
pg. 88
Diferencia entre la media mayor y la menor 16,5 - 2,5 = 14
Muestras de tamao 4 (n = 4)
(2, 3, 5, 7) X = 4,25

(5, 7, 9, 11) X = 8

(9,11,12, 14) X = 11,5
4,2 9,9 15,5
(12,14,17,19) X = 15,5

Diferencia entre la media mayor y la menor 15,5 - 4,25 = 11,25
Muestra de tamao 8 (n = 8)

(2,3,5,7,9, 11, 12,14) X = 7,875

(2,3,5,7,9, 11, 17,19) X = 9,125

(2,3,5,11,12,14,17,19) X = 10,37
7,875 9,9 11,75
(5,7,9,11,12,14,17,19) X = 11,75

Diferencia entre la media mayor y la menor 11,75 - 7,875 = 3,875

Se observa que a medida que aumenta el tamao de las muestras, disminuye la diferencia entre las
medias mayor y menor, esto nos indica que cuando de una poblacin definida, se extraen varios
grupos de muestras, la diferencia entre la media mayor y la menor, disminuye a medida que
aumenta el nmero de elementos de las muestras, esto en primer lugar.

En segundo lugar, a medida que aumenta el tamao de las muestras, las medias muestrales
tienden a acercarse cada vez ms a la media de la poblacin: m, de all que la distribucin normal
esta caracterizada por ,
2
y la distribucin muestral se caracteriza por
x
,
2
/n .

Se habla de distribucin normal porque s esta considerando una poblacin lo suficientemente
grande, tanto que se acerca a la normalidad.

Partiendo de esto se observa que la media de la poblacin ( ) equivale a la media de la distribucin
muestral de medias, es decir =
x
y la varianza de la poblacin equivale a la media de la
distribucin muestral de varianzas, es decir
2
=
s

2.


TEOREMA DEL LMITE CENTRAL
Si de una poblacin con media y varianza
2
, se extraen reiteradas muestras al azar, la
distribucin de seleccin de medias muestrales ser normal con media
x
y varianza
2
/n.

Si las muestras aleatorias son de tamao grande, y se obtiene un gran nmero de ellas, la media de
la distribucin muestral de medias coincide con la media de la poblacin (parmetro) y la media de
las varianzas muestrales es igual a la varianza de la poblacin.

Ejemplo
Sea la poblacin 3 - 5 - 7 - 9. Determinar las muestras posibles de tamao 2 (n = 2), con reemplazo.
N
n
= 4
2
= 16 muestras posibles.
Muestras Medias Muestrales
lexander Pinto y Neil Pernalete Captulo VII
pg. 89
(3, 3) (3, 5) (3, 7) (3, 9) (3) (4) (5) (6)
(5, 3) (5, 5) (5, 7) (5, 9) (4) (5) (6) (7)
(7, 3) (7, 5) (7, 7) (7, 9) (5) (6) (7) (8)
(9, 3) (9, 5) (9, 7) (9, 9) (6) (7) (8) (9)

A continuacin se construye la distribucin muestral de medias.


X f(x
i
) X . f(x
i
)
9 1/16 9/16
8 2/16 16/16
7 3/16 21/16
6 4/16 24/16
5 3/16 15/16
4 2/16 8/16
3 1/16 3/16
X.f(x
i
) = 96/16

Las representaciones grficas de las distribuciones muestrales tienden a la normalidad, pero en la
medida que aumenta el nmero en las muestras de la distribucin, la curva se va haciendo
leptocrtica debido a que se concentran ms hacia el centro de la misma.
Si se representa grficamente a la poblacin se tendra lo siguiente:
f
1


3 5 7 9 Xi

Se observa que la representacin grfica es de forma simtrica rectangular; la distribucin muestral
de medias tiende a agruparse en forma de curva, especficamente hacia la normal.

Ahora se determina el valor de la esperanza matemtica de la distribucin muestral de medias:



Se determina el valor de la media de la poblacin



Concluimos que la = 6 y
x
= 6 , de all que =
x

Para la misma poblacin, se determina el valor de
s

Para determinarlo previamente se calculan las varianzas de las muestras, mediante la siguiente
frmula:




Muestras Varianzas Muestrales
(3, 3) (3, 5) (3, 7) (3, 9) (0) (2) (8) (18)
(5, 3) (5, 5) (5, 7) (5, 9) (2) (0) (2) (8)
(7, 3) (7, 5) (7, 7) (7, 9) (8) (2) (0) (2)
6 16 / 96 ) ( * Xi f X
x
6
4
24
N
X
1
) (
2
2
n
X X
s
lexander Pinto y Neil Pernalete Captulo VII
pg. 90
(9, 3) (9, 5) (9, 7) (9, 9) (18) (8) (2) (0)
Distribucin Muestral de Varianzas
s
2
f(x
i
) s
2
. f(x
i
)
18 2/16 36/16
8 4/16 32/16
s
= s
2
.f(x
i
) = 80/16 = 5
2 6/16 12/16
0 4/16 0
------------
s
2
.f(x
i
) = 80/16
Determinacin de la varianza de la poblacin (
2
)

X X - (X - )
2

3 -3 9
5 -1 1
7 1 1
9 3 9
---------
(X - )
2
= 20

De all que se concluya que
s
2
= 5 y
2
= 5; entonces
s
2
=
2

Varianza de las medias muestrales (
2
x
)
Las medias obtenidas y la cual se construy la distribucin muestral de medias, son las siguientes:

X f (X -
x
) (X -
x
)
2
f.(X -
x
)
2

9 1 3 9 9
8 2 2 4 8
7 3 1 1 3
6 4 0 0 0
5 3 -1 1 3
4 2 -2 4 8
3 1 -3 9 9
-----
40

5 , 2
16
40
) ( *
2
2
N
X f
x
x



Si la varianza de la distribucin muestral de medias (
2
x
) es igual a
2
/n, se tendr
entonces:

2

X
2
= ------ donde
2
=
X
2
. n , luego
2
= 2,5 . 2 = 5
n

2
= 5


2

2
5
X
2
= ---------- ; n = --------- = --------- = 2 n = 2
N
X
2
2,5
5
4
20
) (
2
2
N
X
lexander Pinto y Neil Pernalete Captulo VII
pg. 91

Si la varianza de las medias de muestras (
2
x
) se le extrae la raz cuadrada, se obtiene la
desviacin tpica de la distribucin muestral, esto se conoce como el error tpico.



. Se utiliza El error tpico representa la confiabilidad de un estadstico, se expresa
para predecir el parmetro de la poblacin a partir de un estadstico de muestras.
A mayor tamao de la muestra menor error tpico.
La desviacin tpica de una distribucin muestral de medias ser de n / (
x
). En
consecuencia, cuanto mayor sea el tamao de la muestra, menor ser la desviacin tpica, en la
distribucin muestral de medias, existiendo una mayor concentracin de los estadsticos de dichas
muestras, con tendencia a una curva leptocrtica.

Al considerar a las medias de las muestras como apreciacin de la verdadera media de la
poblacin, se puede decir que las variaciones entre ambas se debe a ciertos errores en el proceso
de inferencia por fluctuaciones del muestreo, de all que la desviacin tpica de la distribucin de
muestreo, pueda designarse como ERROR TPICO. En consecuencia, el error tpico de medias
representado simblicamente por
X
, depende del nmero de elementos que forman la muestra y
de la variabilidad de los datos con respecto a la media aritmtica, lo que se llama la desviacin
tpica de la poblacin.

El error tpico mide el grado en el cual se encuentra afectada la media por los errores de medicin y
fluctuacin del muestreo, es decir aquellas variaciones inevitables que se presentan de muestra a
muestra.

En conclusin se puede decir que el error tpico representa el error medio entre la distribucin y el
promedio del parmetro, es la desviacin tpica de la distribucin muestral y a la vez representa la
confiabilidad.

ESTIMACIN DE LOS PARMETROS DE LA POBLACIN
ESTIMADOR Y ESTIMACIN
Un estimador es un procedimiento expresado a manera de regla o de frmula por medio del cual se
obtiene un valor numrico denominado estimacin. De esta manera
n
Xi
X , que representa
el mtodo por el cual se calcula una media muestral, es un estimador; pero el resultado numrico
que se obtiene efectuando la operacin la operacin indicada es una estimacin.

TIPOS DE ESTIMACIN
ESTIMACIN PUNTUAL
Se intenta obtener el mejor valor estimado simple del parmetro. Se determina un nico valor
estimado al verdadero valor del parmetro. Se utiliza solo el estadstico muestral; es decir, ej. la
media muestral, X, para estimar el parmetro poblacional correspondiente.
ESTIMACIN POR INTERVALOS
Se intenta estimar el parmetro poblacional mediante la especificacin de un intervalo de valores,
determinado por un lmite inferior y otro superior, dentro de los cuales posiblemente estar
comprendido el verdadero valor del parmetro.

REQUISITOS PARA QUE UN ESTIMADOR SEA VALIDO
a. Debe dar en promedio la respuesta correcta o sea el valor medio de la poblacin.
58 , 1 5 , 2
2
x
x
58 , 1 5 , 2
2
x
x
2
x
x
lexander Pinto y Neil Pernalete Captulo VII
pg. 92

b. Debe dar valores que la mayora de veces se aproxime al correcto.

PROPIEDADES DE LOS BUENOS ESTIMADORES
Al seleccionar un estimador de un parmetro, es lgico que se desee seleccionar el "mejor
estimador". Se han propuestos varios criterios para medir la "bondad" de los estimadores.

Las caractersticas principales de un buen estimador consisten:

INSESGABILIDAD
Se dice que un estimador es insesgado o no tendencioso del parmetro poblacional si la media de
la distribucin de medias de las muestras es igual al valor del parmetro estimado.

CONSISTENCIA
Se dice que un estimador es consistente cuando tiende a aproximarse al valor del parmetro a
medida que la muestra aumenta de tamao.

EFICIENCIA
Se dice que un estimador es ms eficiente que otro para un mismo parmetro si la varianza del
primero es menor que la varianza del segundo (estimador de varianza mnima).

SUFICIENCIA
Se dice que un estimador es suficiente si utiliza toda la informacin que posee una muestra sobre el
parmetro que estima.


SIGNIFICACIN DE UN ESTADSTICO. CONCEPTOS PREVIOS
NIVELES DE CONFIANZA

Se refiere a los valores en los cuales se va a determinar la significacin de un estadstico con
respecto al parmetro de la poblacin. Es decir, determinan los valores crticos de dicho parmetro.
Los ms usados son:
95% 0,95 (1 - )
99% 0,99 (1 - )
NIVELES DE RIESGO
Son los niveles de error que se pueden cometer en la significacin de un estadstico. Los ms
usados son:
= 0,05 5%
= 0,01 1%

LMITES Y INTERVALOS DE CONFIANZA
INTERVALO
Rango dentro del cual se encuentra comprendido el parmetro poblacional.

LIMITES
Lmites inferior y superior que definen el intervalo o rango.

Estadstico (Valor crtico)(Error tpico)

GRADOS DE LIBERTAD
Es el nmero de observaciones independientes de la muestra menos el nmero de parmetros de
lexander Pinto y Neil Pernalete Captulo VII
pg. 93
la poblacin que deben estimarse a partir de las observaciones muestrales. Su frmula general es:
gl = n - 1
Esto vara de acuerdo al parmetro a estimar y de las restricciones impuestas por ejemplo en la
correlacin, gl = n - 2.
Para la significacin del estadstico es necesario considerar el tamao que posee la muestra, se
considerara dos tipos:
MUESTRA GRANDE cuando n 30 y se utilizar la tabla de distribucin normal.
En los niveles que se estn considerando, reas bajo la curva normal en z(D)

99% ----> z = 2,58
95% ----> z = 1,96




MUESTRA PEQUEA cuando la n < 30 y se utilizar la tabla "t" de student, dependiendo de
los grados de libertad.
Ejemplo: muestra de tamao 4, determinar los valores crticos al 95 y 99% de confianza.

gl = n - 1 = 4 - 1 = 3gl
Como una caracterstica de curva de t de student es sesgada, viene dada en forma acumulada, de
all que:

99% ----> 99,5% y 95% ----> 97,5


0,975 ----> 3gl ----> t = 3,18 0,995 ----> 3gl ----> t = 5,84
Se sabe que la distribucin normal ( , ) (0, 1) y que la distribucin muestral (
x
, / n ).
Cualquier distribucin muestral puede aproximarse a la normal a partir de una tipificacin, es decir:
) 1 , 0 (
/
N
n
X

Con esta aproximacin pueden determinarse los lmites o intervalo de confianza, dentro de los
cuales probablemente se encontrar el parmetro de la poblacin. Esto es lo que constituye la
estimacin por intervalos, que no es ms que la probabilidad que el parmetro de la poblacin se
encuentre entre los lmites de confianza. Es decir:
lexander Pinto y Neil Pernalete Captulo VII
pg. 94
1 )
/
( C
n
X
C p
En donde: -c y c son los valores crticos para un determinado nivel de confianza (z t)
1 - : nivel de confianza
: nivel de significacin o error

Si = 0,01 1 - = 0,99

LIMITES DE CONFIANZA PARA LA MEDIA DE LA POBLACIN
Va a permitir establecer el valor mnimo y mximo dentro de los cuales probablemente se encuentre
la media de la poblacin.



x
C X *





(n 30) (n 30)
Ejemplo:
A 47 alumnos elegidos al azar, de los que van a ingresar al primer semestre de un instituto
universitario, se les determin la calificacin promedio del bachillerato, siendo la misma de 12,25
puntos, y una dispersin de 2,63 puntos. En el nivel del 0,05, determine los lmites dentro de los
cuales se encuentra el verdadero valor de la calificacin promedio del bachillerato de todos los
alumnos que van a ingresar a dicho instituto.




Datos
n = 47 (Grande) n > 30 ---> z = 1,96
X = 12,25
s = 2,63
= 0,05



12,99 pts

12,25 (0,38)(1,96) = 12,25 0,74

11,51 pts
11,51 12,99
1 ) / * / * ( n C X n C X P
x
z X *
x
t X *
95 , 0 ) / * / * ( n C X n C X P
x
z X *
38 , 0
47
63 , 2
n
s
x
/2
/2
lexander Pinto y Neil Pernalete Captulo VII
pg. 95

En la medida en que la distancia entre los lmites sea ms grande, el estimador ser menos
confiable. En este caso se espera que la media para todos los alumnos que ingresan a ese instituto
universitario sea de 12,25 puntos pero en todo caso no ser menor de 11,51 puntos ni mayor de
12,99 puntos en el nivel del 0,05.

Ejemplo
En la Unidad Educativa Batalla de Carabobo, se seleccion una muestra aleatoria de 10 alumnos
cursantes del sexto grado, a los cuales se les aplic una prueba objetiva de Geografa y se obtuvo
los siguientes resultados:

Alumno A B C D E F G H I J
Puntuacin 23 24 25 28 17 16 24 26 23 22
En el nivel del 0,01, podra afirmarse que el rendimiento medio de la muestra es representativo para
el total de alumnos del sexto grado en Geografa de dicha Unidad Educativa.

Datos
X = 22,8
s = 3,74
= 0,01 ---> gl = n - 1 = 10 - 1 = 9gl
t = 3,25


0,995

26,64 pts
22,8 (1,18)(3,25) = 22,8 3,84
18,96 pts
18,96 22,8 26,64
El promedio de los alumnos que presentaron la prueba objetiva de Geografa en la UE Batalla de
Carabobo, no ser menor de 18,96 puntos ni mayor de 26,64 puntos. En cuanto a su representativa
se puede decir que es poco representativa ya que existe mucha dispersin entre los lmites (7,68),
para ello se considerar: cuando se tenga una diferencia entre los lmites, de 3 para puntuaciones,
como representativa, si es mayor ser poco representativa.

Secuencia para la determinacin de los lmites de confianza para la media poblacional con el
paquete estadstico Statgraphics.
1. Pulsar el botn Descripcin en la barra de men.
2. Del men emergente seleccionar Data Numricos.
3. A continuacin seleccionar Anlisis Unidimensional.
4. Escoger la variable,
5. Pulsar el botn Aceptar, se muestran las cuatro ventanas: resumen del procedimiento,
resumen estadstico, los grficos: de dispersin y el de caja y bigotes.
6. Pulsar el botn de opciones tabulares del cuadro de anlisis,
18 , 1
10
74 , 3
n
s
x
0,005
/2
/2


lexander Pinto y Neil Pernalete Captulo VII
pg. 96
7. Seleccionar Intervalos de confianza
8. Pulsar el botn Aceptar, a continuacin muestra el intervalo de confianza




Fig. 8.3. Intervalo de Confianza para la media por el Statgraphics

Como se observa se encuentra el intervalo de confianza para la media como tambin para la
desviacin tpica, encontrndose estos entre parntesis (li = 20,1276 y ls = 25,4724), para cambiar a
otro nivel de confianza se debe pulsar el botn derecho del mouse y seleccionar Opciones de
ventana y cambiar el nivel deseado.

SIGNIFICACIN DE PORCENTAJE O PROPORCIN
A travs de este procedimiento se pretende estimar el porcentaje de la poblacin a partir de un
porcentaje de muestras.

La distribucin muestral de porcentajes est determinada por lo siguiente:
p: proporcin o porcentaje de acierto
q: proporcin o porcentaje de error

El error tpico o desviacin tpica de la distribucin muestral de porcentaje




El intervalo de confianza para el porcentaje de la poblacin es

p z .
p

Ejemplo
Se desea saber el porcentaje de alumnos en la Facultad de Ciencias de la Educacin, que utilizan
con regularidad la biblioteca como recurso complementario de estudios. Para ello se seleccion al
azar una muestra de 800 alumnos, de los cuales 200 usan la biblioteca con regularidad. En el nivel
del 0,01, se podra afirmar que el porcentaje de uso de la biblioteca es representativo del total de
alumnos de la Facultad de Ciencias de la Educacin.
Datos
n = 800 (Grande)
= 0,01 ----> z = 2,58
% 25 100 *
800
200
p

q = 100 - p = 100 - 25 = 75%




n
q p
p
*
53 , 1
800
75 * 25 *
n
q p
p
0,99
/2
/2
21,05 25 28,95 %
lexander Pinto y Neil Pernalete Captulo VII
pg. 97

28,95%

p z .
p
= 25 (2,58)(1,53) = 25 3,95

21,05%
El porcentaje real no ser menor de 21,05% ni mayor de 28,95%, en el nivel del 0,01, se puede
considerar como poco representativo para el total de la poblacin ya que presenta una dispersin de
7,9%.

Para el procedimiento a travs del procesador se utiliza la siguiente secuencia:
1. Pulsar en la barra de men Descripcin.
2. Del men emergente seleccionar Contraste de Hiptesis.
3. Del cuadro de dialogo seleccionar Parmetro: Proporcin Binomial.
4. Completar el cuadro de dialogo: Hiptesis nula, proporcin de la muestra y tamao de la
muestra.
5. Pulsar el botn Aceptar.







Fig. 8.4. Intervalo de Confianza para proporcin o porcentaje por el Statgraphics

Comparando con los resultados obtenidos en forma manual son muy semejantes, ntese que el
procesador indica que es una aproximacin el resto de los resultados ser, analizados en el prximo
captulo.

SIGNIFICACIN PARA EL COEFICIENTE DE CORRELACIN DE PEARSON
A travs de este procedimiento se pretende estimar el coeficiente de correlacin de Pearson de la
poblacin a partir de un coeficiente de correlacin de muestras.

El intervalo de confianza para el coeficiente de correlacin de la poblacin es



Para realizar esta estimacin existen dos frmulas para el error tpico:

Frmula Clsica Conversin z de Fisher





OBJECIONES A LA FORMULA CLSICA
a. El r
xy
de esta frmula es el verdadero, por lo tanto corresponde a la poblacin. Como
generalmente no se conoce, se sustituye por el obtenido en la muestra, a fin de hacer una
estimacin del error tpico del r
xy
, si este es errado tambin lo ser la estimacin.

b. La distribucin muestral del r
xy
no es normal, excepto cuando el r
xy
= 0 y n es grande, entonces
xy
r xy
C r *
3
1
n
z
r
2
) ( 1
2
n
r
xy
r
xy
lexander Pinto y Neil Pernalete Captulo VII
pg. 98
si r
xy
es un valor entre 0,40 y 0,60 y n > 100 se usa la frmula clsica, sino se utilizar la
conversin de Fisher.

Ejemplo
Se seleccion una muestra aleatoria de 110 casos de alumnos de FaCE que haban cursado y
aprobado Lgica y matemtica, obtenindose un coeficiente de correlacin de 0,49. En el nivel del
0,05 determine un intervalo de confianza para la correlacin de toda la poblacin de alumnos que
han cursado y aprobado Lgica y Matemtica en FaCE.

Datos
n = 110
xy
r xy
z r *

r
xy
= 0,49

= 0,05 ----> z = 1,96

0,63



0,35



La correlacin entre Lgica y Matemtica de los alumnos que la cursaron y aprobaron en FaCE, al
nivel del 0,05, no ser menor de 0,35 ni mayor de 0,63.

Motivado al problema que presenta el conocer el coeficiente de la poblacin es preferible utilizar la
conversin de Fisher ya que esta depende nicamente del tamao de la muestra.

Entre sus caractersticas ms importante se tiene:
1. Su distribucin es aproximadamente normal.
2. El error tpico solo depende de la magnitud de n y es independiente del valor del r
xy
.

Ejemplo
Un profesor de una Escuela Bsica desea determinar el verdadero grado de relacin existente entre
Qumica y Biologa del 9no grado. Para ello eligi una muestra aleatoria de 27 alumnos que haban
cursado ambas asignatura, de las calificaciones obtenidas obtuvo un coeficiente de correlacin de
0,70. Determine, en el nivel del 0,01, si dicho coeficiente es representativo de todos los alumnos del
9no grado que han cursado Qumica y Biologa.
Datos
n = 27 (Pequea)
07 , 0
2 110
) 49 , 0 ( 1
2
) ( 1
2
2
n
r
xy
r
xy
14 , 0 49 , 0 ) 07 , 0 )( 96 , 1 ( 49 , 0 *
xy
r xy
z r
-1,96 0 +1,96 z
0,35 0,49 0,63 rxy
0,95
lexander Pinto y Neil Pernalete Captulo VII
pg. 99

r
xy
= 0,70 ---> Conversin Fisher ---> r
z
= 0,87

= 0,01 muestra pequea, tabla t de student

gl = n - 3 = 27 - 3 = 24 al 0,995 ---> t = 2,8




r
z
r
xy

1,43 0,90


0,31 0,30












Se desprende que la correlacin de la poblacin no ser menor de 0,30, ni mayor de 0,90, en el
nivel del 0,01. En cuanto a la representatividad se dice que el coeficiente de correlacin es poco
representativo para los alumnos de 9no grado de la EB que cursaron Qumica y Biologa.

ESTIMACIN DE LA VARIANZA DE LA POBLACIN
El estadstico que se va utilizar es:




siguiendo este estadstico una distribucin aproximada a la de Chi cuadrado (
2
), la cual es
asimtrica positiva









La variable aleatoria que lleva directamente al chi cuadrado es:


20 , 0
24
1
3 27
1
z
r
56 , 0 87 , 0 ) 20 , 0 )( 8 , 2 ( 87 , 0 *
z
r z
t r
-2,8 0 +2,8 t
0,35 0,49 0,63 rxy
1
) (
2
_
2
n
X X
s
) ( ) 1 (
_
2
X X n s
1-
1
) 1 (
1
) (
2
_
n
n s
n
X X
y
0,99
lexander Pinto y Neil Pernalete Captulo VII
pg. 100

donde "y" es la funcin de distribucin chi cuadrado.

A partir de esta variable aleatoria se van a determinar los valores crticos los cuales van a limitar el
intervalo de confianza para la varianza de la poblacin, utilizando la tabla para ello.

Lmites de confianza para la varianza




Ejemplo
Un grupo de cinco alumnos present una prueba objetiva de Biologa obtenindose los siguientes
resultados: 10 - 15 - 08 - 12 - 11. En el nivel del 0,05 establezca un intervalo de confianza para la
varianza de la poblacin.

X (X - X) (X - X)
2

08 -3,2 10,24
10 -1,2 1,44
11 -0,2 0,04
12 0,8 0,64
15 3,8 14,44
---------
(X - X)
2
= 26,80

gl = n - 1 = 5 - 1 = 4gl // c
1
= 0,48 // c
2
= 11,14






2,41 <
2
< 55,83 a nivel de desviacin tpica 1,55 < < 7,47

La varianza poblacional no ser menor de 2,41 ni mayor de 55,83, al niel del 0,05 para todos los
alumnos que presentaron la prueba de Biologa.

Estos lmites no se determinan directamente con el paquete estadstico pero si observamos los
resultados del intervalo de confianza de la media aparecen los de la desviacin tpica y pueden ser
transformados en Varianza, elevndolos al cuadrado.

TAMAO DE LA MUESTRA
En cualquier investigacin que tenga como uno de sus objetivos una inferencia estadstica surge, al
comenzar la etapa de planificacin, la pregunta acerca del tamao de la muestra que se va a
seleccionar. En cualquier investigacin es de gran importancia que la muestra que se va a obtener
sea de tamao adecuado. Si se toma una muestra demasiado grande se pierde dinero y otros
recursos, si la muestra es demasiado pequea produce resultados intiles.

Se sabe que, cuando la estimacin de la media poblacional es la meta inferencial de una
investigacin, una vez que se ha seleccionado la muestra y se tienen los datos disponibles para el
anlisis, se construir un intervalo de confianza
1
2
2
2
2
1
2
_
2
2
2
_
) 1 ( ) 1 (
) ( ) (
c
n s
c
n s

c
X X
c
X X
48 , 0
80 , 26
14 , 11
80 , 26
) ( ) (
2
1
2
_
2
2
2
_
c
X X
c
X X
0,95
0,975
lexander Pinto y Neil Pernalete Captulo VII
pg. 101

Estadstico (Valor crtico)(Error tpico)

se puede observar que de la segunda parte de la ecuacin n z / * se puede despejar "n" para
determinar su valor.

Si se sabe que n z / * es igual a la mitad de la amplitud del intervalo de confianza; la distancia
mxima que hay entre la estimacin y la media verdadera. Si antes de extraer la muestra se puede
especificar la amplitud del intervalo que se desea construir, se habr determinado la magnitud
deseada de z . / n . Al determinar la amplitud de este, el intervalo, se estara determinando lo
ms cercano que estara la estimacin de la media verdadera.
Si se considera esa distancia como el error (e) se tendra:


quedando de all que la frmula para determinar el tamao de la muestra en
poblaciones infinitas sera:

(N 100.000)

Lo ms problemtico para la utilizacin de esta frmula es el conocer la varianza poblacional, de all
que sea necesario estimarla y se puede hacer a travs de:
a. una muestra piloto, el investigador puede extraer una muestra piloto y le determina la varianza
siendo esta estimacin utilizada como la poblacional.
b. estudios previos similares, estudios realizados con anterioridad, se utilizan estos resultados
para utilizar la frmula.

Para poblaciones finitas se tiene la siguiente frmula:


(N < 100.000)


Las frmulas, permiten la determinacin del tamao de la muestra para la estimacin de la media
poblacional.

Para la estimacin de las proporciones o porcentajes poblacionales se tiene las siguientes.


(N 100.000) Poblaciones infinitas




(N 100.000) Poblaciones finitas



Existe una frmula que nos permite obviar un tanto el conocimiento de la varianza poblacional o de
las proporciones, esta es la frmula de Domenech y Massons, la cual considera el tamao de la
muestra y el error del investigador:

n
z e *
2
2 2
*
e
z
n
) 1 ( *
* *
2 2 2
2 2
N e z
z N
n
2
2 2
* *
e
q p z
n
) 1 ( * *
* * *
2 2
2 2
N e q p z
q p z N
n
lexander Pinto y Neil Pernalete Captulo VII
pg. 102




Ejemplo
Se desea determinar el promedio de la aptitud mecnica de un grupo mayoritario de estudiantes.
Qu tamao de la muestra se necesita para asegurar, en el nivel del 95% de confianza, para que
la media no diste en ms de 3 puntos de la media poblacional? Si se conoce de experiencias que la
desviacin tpica es de 18 puntos.

Datos
nivel: 95% ---> z = 1,96 ; = 18 --->
2
= 324

e = 3



Con una muestra de 138 se puede realizar una estimacin que sea representativa de la poblacin.

De una poblacin de 1623 alumnos cursantes en una Unidad educativa, se desea hacer un estudio
en cuanto al promedio de calificaciones obtenido por ellos. Si el Director de dicho instituto se
plantea un error del investigador del 5%, determine el tamao de la muestra para que esta sea
representativa de toda la poblacin.

Datos
N = 1623
e = 0,05
n = 321 alumnos

Para que la muestra sea representativa de la poblacin se necesita seleccionar a 321 alumnos.

Si deseamos utilizar algn software para determinar el tamao de la muestra existen tambin
muchos, pero con el Statgraphics no es muy prctico as que recurrimos al STATS, que para el
tamao de la muestra es bastante sencillo, para ello seguiremos la siguiente secuencia:

1. Activar el Stats.
2. Seleccionar el tamao de la muestra, de la pantalla que muestra
3. Completar el tamao de la poblacin (universo), error mximo posible, el porcentaje
estimado en la poblacin si es conocido, sino dejarlo en 50% y el nivel de confianza al
cual se har el trabajo, luego de estos
4. Pulsar el botn calcular y mostrara, cuanto es la muestra

1 ) 1 (
2
N e
N
n
138
3
) 324 ( ) 96 , 1 ( * *
2
2
2
2 2
e
q p z
n
1 ) 1 1623 ( ) 05 , 0 (
1623
1 ) 1 (
2 2
N e
N
n
lexander Pinto y Neil Pernalete Captulo VII
pg. 103

fig. 8.5 Resultados del tamao de la muestra por el Stats
Hemos considerado la misma poblacin como tambin el error mximo y por el Stats el tamao
de la muestra es de 310,6338.


Ejercicios
1. Sea el siguiente grupo de 12 alumnos:
Juan Mara Alicia Roberto
Gabriela Toms Mauricio Brbara
Juana Susana Marta Yanina
1.a. Seleccionar una muestra aleatoria de ocho alumnos, utilizando los dos ltimos dgitos de la
columna 4 de la tabla de nmeros aleatorios, como tambin por el Stats.
1.b. Seleccionar una muestra de 10 alumnos, mediante muestreo estratificado proporcional
utilizando los dos primeros dgitos de la columna 8, para ello tambin utilice el Stats. R: 7 hembras y
3 varones.
2. Una poblacin esta formada por las siguientes puntuaciones: 14; 10; 12; 8; 6.
2.a. Obtenga todas las muestras posibles de tamao 2 con reemplazo.
2.b. Demuestre que =
x
y
2
=
s
2
.
3. Si se selecciona una muestra de tamao n a partir de una poblacin con media y varianza
2
.
Si el tamao de la muestra permite suponer que X se distribuye normalmente, determine las
probabilidades de que X, se encuentre entre los siguientes puntos:
3.a. -
n
y +
n
R: 0,6827
3.b. - 1,64
n
y + 1,64
n
R: 0,8990
3.c. - 2,58
n
y + 2,58
n
R: 0,9901
3.d. - 1,96
n
y + 1,96
n
R: 0,9500
4. Para una muestra de 10 profesores de una escuela bsica se observaron las siguientes edades:
45; 37; 37; 30; 29; 44; 39; 35; 40; 33.
Establezca un intervalo de confianza al nivel del 0,01, para la edad promedio de la poblacin. R:
(31,38 - 42,42)
5. Con la poblacin de 50 alumnos en el ejercicio 4 del captulo VI:
lexander Pinto y Neil Pernalete Captulo VII
pg. 104
5.1. Determine el tamao de la muestra con un error mximo del investigador del 15%
5.2. Seleccione esa muestra por azar simple.
5.3. Con el nivel del 0,05, en la muestra obtenida en el 5.2., establezca un intervalo de
confianza para el promedio de edad cumplida.
5.4. En el nivel de confianza del 99%, ser cierto que para toda la poblacin de alumnos el
promedio del ndice acadmico es representativo.
5.5. Determine en el nivel del 0,05, si la relacin existente entre las calificaciones del primer
lapso y la resolucin de problemas es significativamente distinta de cero.
6. Con la misma poblacin:
Determine el tamao de la muestra con un error mximo del investigador del 25%.
Seleccione la muestra estratificando por sexo y turno de estudio.
Entre que lmites se encuentra el promedio de las hembras en las calificaciones en el primer
lapso, con un nivel de confianza del 95%
En el nivel del 0,05, determine si el promedio de notas en el trabajo de investigacin es
representativo para toda la poblacin.
En el nivel del 0,05, determine los lmites fiduciales para el promedio del trabajo de investigacin
para los alumnos del plantel pblico, e indique si es representativo
Ser cierto que al nivel del 0,01, que el promedio de la edad es representativo para los alumnos
que ingresan por CNU.
Determine en el nivel del 0,01, si la relacin existente entre la edad y el trabajo de investigacin.
7. En FaCE se seleccion una muestra aleatoria de 320 alumnos y se les interrog acerca de los
nuevos aranceles. De los anlisis de las respuestas se obtuvo que 250 de ellos no estn de
acuerdo con los nuevos aranceles. En el nivel del 0,05, podemos afirmar que los alumnos de FaCE
(representados por la muestra) estn en desacuerdo en un 75% con los nuevos aranceles. R:
(73,45% - 82,55%).
8. Se desea realizar la estimacin de la proporcin de familias que en un barrio tienen ingresos
medios mensuales superiores a Bs. 50000; para ello se eligi una muestra aleatoria de 900 familias,
de las cuales 480 tenan ingresos superiores a Bs. 50000. En el nivel del 0,01 establezca un
intervalo de confianza para la proporcin de la poblacin. R: (0,49 - 0,57)
9. Si se conoce que la desviacin tpica de las puntuaciones de cierta poblacin es 20. Cul sera
el tamao de la muestra para que el error tpico de la media sea igual
10.a. a 2 R: 100 10.b. a 1 R: 400
10. Si el coeficiente de correlacin existente entre las puntuaciones de las asignaturas Sociologa y
Sociologa de la Educacin para una muestra de 23 alumnos es de 0,81, en el nivel del 0,05
establezca los lmites fiduciales para el coeficiente de correlacin verdadero.
R: (0,58 - 0,92)
11. Un consejero escolar desea calcular la proporcin de 1000 alumnos del ltimo ao que piensa
continuar estudios en la universidad. Determine el tamao de la muestra que necesita tomar el
consejero, si su estimacin debe estar a 0,05 del valor verdadero con un 95% de confianza, si se
conoce que el ao anterior el 70% de los encuestados dijeron que tenan planeado seguir estudios
en la universidad.
R: 359
12. Se ha aplicado una prueba de Castellano a los alumnos de una escuela bsica y se ha obtenido
una desviacin tpica de 15. Cul sera el nmero que debera tener la muestra para que el error
muestral mximo en el nivel del 0,01
12.1. sea de 3 puntos con respecto a la media poblacional. R: 167
12.2. sea de 8 puntos con respecto a la media poblacional. R: 23
13. En un Distrito Escolar se sabe que la poblacin se encuentra dividida de la manera siguiente de
acuerdo al nivel de estudio:
Nivel Alumnos
Pre-escolar 3200
Bsica 7700
lexander Pinto y Neil Pernalete Captulo VII
pg. 105
Media Diversificada 4300
Universitaria 800
13.1. Determine el tamao de la muestra para que sea representativa de la poblacin con un error
mximo permitido del 4%. R: 602
13.2 Luego de determinado el tamao de la muestra que cantidad de alumnos correspondera a
cada nivel de manera proporcional.
R: (120 - 289 - 163 - 30).
14. Si de una poblacin de 1832 sujetos se desea determinar el tamao de la muestra para que sea
representativa de la poblacin con un error mximo admitido del 5%. R: 328.
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 105
CAPITULO IX: INFERENCIA ESTADSTICA: PRUEBA O CONTRASTE DE HIPTESIS

En el captulo anterior se desarrollo una de las tcnicas ms tiles en el campo de la inferencia
estadstica, la estimacin de parmetros o intervalos de confianza. En este captulo trataremos
la prueba de hiptesis, quizs lo ms comn en el campo de la inferencia.

La prueba de hiptesis emplea los mismos conceptos de la estimacin de intervalos. Aunque la
prueba de hiptesis y la estimacin de intervalos se llevan a cabo de diferente forma conducen
a resultados y conclusiones comparables.

La palabra hiptesis se puede definir de las siguientes maneras, a saber:
afirmacin que est sujeta a verificacin o comprobacin.
suposicin que se utiliza como base para una accin.
aseveracin acerca de la veracidad de algo.

Partiendo de all, se encuentra que la clave, una hiptesis es una afirmacin o suposicin y no
un hecho establecido. Por ejemplo, al no existir un conocimiento previo sobre la efectividad de
dos mtodos de enseanza, un investigador trata de proponer la hiptesis de que para la
enseanza de la lectura a estudiantes del primer ao, el mtodo A es superior al mtodo B.
Hiptesis de esta naturaleza pueden basarse en la experiencia y la observacin,
experimentacin o la intuicin. Las hiptesis establecidas en esta forma proporcionan con
frecuencia motivo para realizar una investigacin. Por esta razn se pueden denominar
hiptesis de investigacin.

HIPTESIS DE INVESTIGACIN
Se define como un enunciado predictivo el cual relaciona una o ms variable dependiente con
una o ms variables independientes. Dicho enunciado es una suposicin que debe ser
confirmada.
Ejemplo:
Los nios que reciben orientacin demostrarn mayor aumento en la creatividad que aquellos
que no la reciben. Esto constituye lo que se llama tambin hiptesis de trabajo.

Generalmente la hiptesis de investigacin es necesario volverlas a plantear antes de ser
comprobadas estadsticamente. Cuando ya se han planteado en forma conveniente, de tal
forma que se puedan comprobar por medio de los mtodos estadsticos, reciben el nombre de
hiptesis estadsticas.

HIPTESIS ESTADSTICAS
Consisten en postulados predictivos que se establecen en base a la hiptesis de investigacin y
se comprueban estadsticamente, en otras palabras son afirmaciones sobre uno o ms
parmetros de una o ms poblaciones.

Las hiptesis estadsticas son de dos tipos: Hiptesis Nula y la Hiptesis Alternativa.

HIPTESIS NULA (Ho)
Postulado que no establece diferencia entre el o los resultados obtenidos (muestra) y los
tericos (poblacin). Es la hiptesis que realmente se toma para ser verificada travs de los
procedimientos estadsticos. Especifica los valores hipotticos para uno o ms parmetros
poblacionales. Recibe tambin el nombre de hiptesis de ninguna diferencia. Su nombre es
debido a que es el punto de partida de una investigacin. Resumiendo la hiptesis nula es
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 106
una afirmacin que no establece diferencia entre dos poblaciones o entre el valor verdadero de
algn parmetro y su valor hipottico.

HIPTESIS ALTERNATIVA (H
1
)
Postulado que afirma que el parmetro poblacional tiene un valor distinto al hipottico. Es una
aseveracin sobre el mismo parmetro poblacional que se utiliza en la hiptesis nula. El
rechazo de la hiptesis nula implicar la aceptacin de la hiptesis alternativa, lo cual indica
que los datos particulares proporcionan suficiente evidencia para concluir que la hiptesis nula
era falsa y por lo tanto la segunda hiptesis, la alternativa, es verdadera.

La hiptesis alternativa puede ser direccional o unilateral cuando se indica la direccin de la
diferencia, y no direccional o bilateral cuando afirma solamente que el parmetro poblacional es
diferente al hipottico. Es decir se formula operacionalmente la hiptesis de investigacin.

Escritura simblica de las hiptesis estadsticas.

Para una sola muestra
Ho: = 100 pts
H
1
: 100 pts (No direccionada) -----> Indica diferencia
H
1
: > 100 pts (Direccionada) ---------> Indica aumento
H
1
: < 100 pts (Direccionada) ---------> Indica disminucin

Para dos muestras
H
o
:
1
-
2
= 0 (
1
=
2
)
H
1
:
1
-
2
0 (
1

2
)
H
1
:
1
-
2
> 0 (
1

2
)
H
1
:
1
-
2
< 0 (
1

2
)

Ejemplos para plantear las hiptesis estadsticas a partir de la hiptesis de investigacin

Hiptesis de Investigacin
El mtodo A es ms efectivo que el mtodo B para la enseanza de la lectura en alumnos del
sptimo grado.

H
o
:
A
=
B
(Las dos medias son iguales)
H
1
:
1
>
2
(El mtodo A da un puntaje promedio mayor que el mtodo B).

Hiptesis de investigacin
El porcentaje de alumnos que est de acuerdo con la metodologa del profesor es del 58%.

Ho : = 58% (El porcentaje es igual al 58%)
H
1
: 58% (El porcentaje es diferente del 58%, ya que no indica direccin).

Si la hiptesis nula no es rechazada, se dice que los datos particulares de la muestra no
aportan la evidencia suficiente como para concluir que la hiptesis nula es falsa.



PRUEBA DE HIPTESIS
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 107
Es el proceso de usar la muestra para contrastar o comprobar si la hiptesis formulada es
verdadera o falsa; no existiendo certeza de que no se cometern equivocaciones. Es
denominado tambin Prueba estadstica de la verdad o falsedad de la hiptesis.

Teniendo en cuenta los resultados que se obtienen en el anlisis de los datos de la muestra, se
rechaza o no la hiptesis nula. Rechazar la hiptesis nula no constituye una prueba de que sea
realmente falsa, cabe la posibilidad de que esta ltima sea verdadera y de que la hiptesis
alternativa sea falsa. De la misma manera que en el caso anterior, aunque la hiptesis nula no
sea rechazada, cabe la posibilidad de que sea falsa. La consideracin de estos hechos lleva a
la conclusin de que el rechazo o no rechazo de la hiptesis nula se corre el riesgo a
equivocarse. Los dos tipos de errores posibles son:

Error Tipo I ( ) : es el que se comete cuando se rechaza la hiptesis nula a nivel de la
muestra y esta a nivel de la poblacin es cierta, esto es el rechazo de una hiptesis nula
verdadera.

Error Tipo II ( ) : es el que ocurre cuando a nivel de la muestra se acepta la hiptesis nula y
esta a nivel de la poblacin es falsa, consiste en la aceptacin de una hiptesis nula falsa.

Muestra

Poblacin Ho H
1


Ho
No hay error

(1- )
Error Tipo I

( )


H
1

Error Tipo II

( )
No hay error

(1 - )


Se denomina al nivel de significacin. Cuando se selecciona un nivel de significacin igual a
y se rechaza la hiptesis nula, se dice que los resultados de la muestra son significativos. El
se fija antes de empezar la seleccin aleatoria de la muestra. Los ms utilizados en el campo
de las ciencias sociales son
= 0,05
y = 0,01

Estadstico pertinente, se refiere al estadstico particular que va a formar parte del
procedimiento de verificacin de hiptesis y est determinado por el parmetro que tiene
relacin con la hiptesis. Si se trata de verificar una hiptesis sobre una media poblacional, el
estadstico pertinente es la media muestral X

Cuando se est practicando una prueba de hiptesis existen una serie de pasos anlogos que
pueden seguirse, a saber:

1. FACTORES:
TAMAO PEQUEA (n < 30)
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 108
DE LA
MUESTRA GRANDE (n 30)


BILATERAL (establece diferencias)
CONTRASTE
UNILATERAL (indica una direccin)


VARIANZAS DESCONOCIDAS (Hacer Prueba F)
DE LA
POBLACIN CONOCIDAS

TIPO DE CORRELACIONADAS

MUESTRA NO CORRELACIONADAS O INDEPENDIENTES

2. PLANTEAMIENTO DE HIPTESIS

Hiptesis Nula (Ho): (Siempre plantea igualdad)
Hiptesis Alternativa (H
1
): (Plantea diferencias)

3. RAZN CRTICA POBLACIONAL (z t )

Si n 30 se utiliza como valor crtico z , de acuerdo al contraste.

Si n < 30 se utiliza como valor crtico t , de acuerdo al contraste y los grados de
libertad; estos valores crticos son valores tericos y van a depender del nivel de confianza o de
significacin.

De acuerdo a este planteamiento existen regiones de rechazo y de aceptacin de la
hiptesis nula, de all que la regin de rechazo consta de todos aquellos valores de estadstico
de prueba que son de tal magnitud que, de ser el valor observado del estadstico de prueba
igual a uno de ellos, la hiptesis nula se rechaza.

La regin de aceptacin es el complemento de la regin de rechazo. Si el valor
observado del estadstico de prueba es igual a alguno de los valores que componen la regin
de aceptacin, la hiptesis nula no se rechaza. El tamao de las regiones de rechazo y
aceptacin esta determinado por el error tipo I ( ).

Se dice que un valor calculado es significativo si lleva a concluir que se rechaza una
hiptesis nula.
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 109
La ubicacin de la zona de rechazo depende de la hiptesis alternativa. Si H
1
indica direccin
(aumento o disminucin), se tiene que es una prueba UNILATERAL (de un extremo) H
1
:
1
>

2
; si H
1
no indica direccin, solo establece diferencia o desigualdades, all se esta en
presencia de una prueba BILATERAL (de dos colas o extremos); H
1
:
1

2
.



BILATERAL UNILATERAL

4. RAZN CRITICA MUESTRAL O ESTADSTICO DE PRUEBA (z

)
Estadstico de prueba, es una cantidad numrica que se determina a partir de los datos de la
muestra y que se utiliza para tomar la decisin de rechazar o no una hiptesis nula.




5. REGLA DE DECISIN Y DECISIN ESTADSTICA

Consiste en comparar el valor real calculado del estadstico de prueba con el valor
crtico de esta (z t ). Si este valor calculado esta en la regin de rechazo, se rechaza la
hiptesis nula, de lo contrario, no se puede rechazar.

Si z

< z Se acepta Ho Si t

< t Se acepta Ho
Si z

z Se rechaza Ho

Si t

t Se rechaza Ho



PRUEBA DE HIPTESIS PARA LA MEDIA
Un orientador esta interesado en verificar la calificacin promedio de los alumnos que ingresan
al Ciclo Diversificado, ya que estima que esta es de 11 puntos para toda la poblacin. Para
comprobarlo seleccion una muestra aleatoria de 17 alumnos y obtuvo de ellos una calificacin
promedio de 10,78 puntos y una variabilidad de 2,22 puntos. En el nivel del 0,05 proporcionarn
Tpico Error
Parmetro o Estadstic
_
Ho
H
1

Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 110
estos datos evidencia suficiente para concluir que la calificacin promedio de toda la poblacin
de alumnos que ingresan al ciclo diversificado es de 11 puntos.

Datos 1. Factores
n = 17 Tamao: PEQUEA
X = 10,78 pts Contraste: BILATERAL
s = 2,22 pts Varianzas: DESCONOCIDAS
= 0,05

2. Planteamiento de las Hiptesis
Ho : = 11 pts
H
1
: 11 pts

3. Razn crtica poblacional (t )
Como la muestra es pequea y la varianza de la poblacin no se conoce se trabaja con
la tabla de distribucin t de student, para ello es necesario los grados de libertad
gl = n - 1 = 17 - 1 = 16 gl -----> t = 2,12
t = -2,12 t = 2,12

4. Razn crtica muestral o estadstico de prueba (t

)









5. Regla de decisin
Si t

< t --------> Ho
Si t

t --------> H
1


Conclusin
0,41 < 2,12

De acuerdo a la regla de decisin se tiene que el valor calculado es menor que el valor terico,
por lo tanto se acepta la hiptesis nula, lo cual significa que al nivel del 0,05 se acepta que la
calificacin promedio de todos los alumnos que ingresan al ciclo diversificado es igual a 11
puntos (Ho: = 11 pts).


041
54 , 0
/ 11 78 , 10 / / /
1
x
X
t
54 , 0
12 , 4
22 , 2
17
22 , 2
n
s
x
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 111
Ejemplo
Un investigador desea determinar si la talla promedio de cierta clase social ha variado,
ya que segn investigaciones anteriores era de 167 cms. Para probarlo eligi una muestra
aleatoria de 52 sujetos y obtuvo de ellos una talla promedio de 170 cms y una desviacin de 6
cms. En el nivel del 0,01 determine si realmente ha aumentado dicha talla promedio para la
clase social estudiada.

Datos 1. Factores
= 167 cms Tamao: GRANDE
n = 52 Contraste: UNILATERAL
X = 170 cms
s = 6 cms
= 0,01

2. Planteamiento de las Hiptesis
Ho : = 167 cms
H
1
: > 167 cms

3. Razn critica poblacional (z )
Como la muestra es grande y se trabaja con la tabla de distribucin normal para el valor
crtico z,
z

= 2,33
z = 2,33


4. Razn critica muestral o estadstico de prueba (z

)










5. Regla de decisin
Si z

< z

--------> Ho
Si z

--------> H
1


Conclusin
3,61 < 2,33
61 , 3
83 , 0
/ 170 167 / / /
1
x
X
t
83 , 0
21 , 7
6
52
6
n
s
x
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 112
De acuerdo a la regla de decisin planteada, se tiene que el estadstico de prueba es mayor
que el valor terico por lo tanto se puede concluir al nivel del 0,01 que la talla promedio de la
clase social estudiada realmente ha aumentado.

Secuencia para la prueba de hiptesis con el procesador
1. Pulsar en la barra de men Descripcin.
2. En el men emergente seleccionar Datos Numricos.
3. Luego seleccionar Anlisis Unidimensional.
4. Seleccionar la variable deseada.
5. Pulsar el botn Aceptar, se muestran las cuatro ventanas: resumen del procedimiento,
resumen estadstico, los grficos: de dispersin y el de caja y bigotes.
6. Pulsar el botn de opciones tabulares del cuadro de anlisis
7. Seleccionar Contraste de Hiptesis.
A continuacin nuestra el anlisis de la prueba de hiptesis para la media




















Fig. 9.1. Resultados de la prueba de hiptesis

Ahora identificamos los elementos que muestra la prueba t para poder realizar la interpretacin,
la variable a la cual se le esta realizando la prueba se denomina puntos, nos muestra la media
y la mediana, luego la contraste t, supongamos que deseamos probar
Ho: = 11,75
H
1
: 11,75

Para plantearse los contraste de las hiptesis debemos considerar para contraste bilateral No
igual, para contraste unilateral a la derecha Mayor que, para contraste unilateral a la izquierda
Menor que, lo cual es reflejado en el anlisis siempre lo muestra por defecto el contraste No
igual pero se puede modificar como tambin el nivel de confianza pulsando el botn derecho
del mouse y seleccionando Opciones de ventana y luego escoger los criterios planteados.

Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 113

Fig. 9.2. Cuadro de opciones de la prueba de hiptesis

Con respecto al P-valor es una probabilidad para determinar la aceptacin o rechazo de la
hiptesis nula de acuerdo al nivel de significacin que fue establecido, a partir de las siguientes
reglas de decisin.

Si P-valor es mayor que alfa se acepta la hiptesis nula (Si P-valor Ho)
si P-valor es menor o igual al alfa se rechaza la hiptesis nula (Si P-valor H
1
).

En este caso no hubo necesidad de realizar el contraste con esta regla de decisin ya que nos
indica que no se puede rechazar la hiptesis nula para un alfa de 0,05

PRUEBA DE HIPTESIS PARA PORCENTAJE
El procedimiento de determinacin sigue los mismos pasos, solo que se debe
considerar que el parmetro al cual se va hacer referencia es el porcentaje.

Ejemplo
Un especialista en Didctica sostiene que cierto mtodo de enseanza posee un 90% de
efectividad en los alumnos con respecto al aprendizaje de la lectura. Para probarlo se
seleccion una muestra aleatoria de 200 alumnos a quienes les aplic dicho mtodo,
observndose que fue efectivo en 160 de ellos. En el nivel del 0,05, determine si el
planteamiento del investigador fue cierto.

Datos 1. Factores
= 90% Tamao: GRANDE
n = 200 Contraste: BILATERAL
p = (160/200)100 = 80%
q = 100 - p = 100 - 80 = 20%
= 0,05
2. Planteamiento de las Hiptesis
Ho : = 90%
H
1
: 90%
3. Razn critica poblacional (z )
Como la muestra es grande y se trabaja con la tabla de distribucin normal para el valor
crtico z
z = 1,96
z = -1,96 z = 1,96

Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 114








4. Razn critica muestral o estadstico de prueba (z

)








5. Regla de decisin
Si z

< z --------> Ho
Si z

z --------> Hi

Conclusin
3,53 > 1,96

Al contrastar el valor critico poblacional con el valor critico muestral, se encuentra que el valor
calculado es mayor, por lo tanto, y siguiendo la regla de decisin se rechaza la hiptesis nula,
de all que el planteamiento del investigador no fue cierto ya que el porcentaje de efectividad
del mtodo de enseanza es diferente del 90%.

Con el paquete estadstico Statgraphics se puede proceder siguiendo la siguiente secuencia:
1. Pulsar en la barra de men Descripcin.
2. Del men emergente seleccionar Contraste de Hiptesis.
3. Del cuadro de dialogo seleccionar Parmetro: Proporcin Binomial.
4. Completar el cuadro de dialogo: Hiptesis nula, proporcin de la muestra y tamao de la
muestra.
5. Pulsar el botn Aceptar.
A continuacin muestra el contraste y un grfico denominado curva de potencia.










Fig. 9.3. Resultados de prueba de hiptesis para porcentaje o proporcin
PRUEBA DE HIPTESIS PARA COEFICIENTE DE CORRELACIN
Ejemplo
53 , 3
83 , 2
/ 90 80 / / /
1
p
p
z
83 , 2 8
200
) 20 )( 80 ( *
n
q p
p
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 115
En las ltimas investigaciones realizadas en los ciclos diversificados de la regin, la
relacin existente entre las asignaturas Fsica y Qumica es de 0,75, pero actualmente se
sospecha que ha disminuido. Para probarlo un grupo de profesores seleccion una muestra
aleatoria de 23 alumnos y obtuvo un coeficiente de correlacin de 0,70 entre ambas
asignaturas. En el nivel del 0,01 ayude a dichos profesores a determinar si el coeficiente de
correlacin entre Fsica y Qumica realmente disminuy para la poblacin de alumnos de los
ciclos diversificados de la regin.

Datos 1. Factores
= 0,75 --->
z
= 0,97 Tamao: PEQUEA
n = 23 Contraste: UNILATERAL
r = 0,70 ----> r
z
= 0,87
= 0,01

2. Planteamiento de las Hiptesis
Ho : = 0,75
H
1
: < 0,75

3. Razn critica poblacional (t )
Como la muestra es pequea y la varianza de la poblacin no se conoce se trabaja con
la tabla de distribucin t de student, para ello es necesario los grados de libertad
gl = n - 1 = 23 - 3 = 20 gl -----> t = 2,53

t = 2,53

4. Razn critica muestral o estadstico de prueba (t

)










5. Regla de decisin
Si t

< t --------> Ho
Si t

t --------> H
1


Conclusin
0,45 < 2,53

45 , 0
22 , 0
/ 97 , 0 87 , 0 / / /
1
z
r
z z
r
t
22 , 0
47 , 4
1
3 23
1
3
1
n
Z
r
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 116
De acuerdo a la regla de decisin se tiene que el valor calculado es menor que el valor
terico, por lo tanto se acepta la hiptesis nula, lo cual significa que al nivel del 0,01 se acepta
que la correlacin existente entre las asignaturas Fsica y Qumica de todos los alumnos del
ciclo diversificado no ha disminuido.

Para probar el coeficiente de correlacin de Pearson mediante el paquete Statgraphics Plus, se
utiliza la misma secuencia que vimos en el captulo VI, considerando que lo que prueba este
procesador es si el coeficiente de correlacin es realmente distinto de cero, (ojo buscar imagen
capitulo seis)















Fig. 9.4. Resultados de la correlacin y su significacin
Como se observa el grado de correlacin existente entre las variables puntos y nota1 es igual a
0,6810, y comparamos por ejemplo el P-valor con el nivel del 0,05 y la conclusin que llegamos
es que es significativamente distinto de cero (0,0052 > 0,05), de acuerdo a la regla de decisin
que se planteo con antelacin.

CONTRASTE O PRUEBA DE HIPTESIS PARA VARIANZAS
Este procedimiento permite la determinacin de la homogeneidad de las varianzas; por
lo tanto a travs de la realizacin de la prueba F (Estadstico de prueba), se puede sacar la
conclusin respectiva a la procedencia de las muestras a que pertenezcan los datos
respectivos, si pertenecen a una misma poblacin o a poblaciones diferentes.

Para llevar a cabo dicho procedimiento se har por los siguientes pasos:

a. Establecimiento de las hiptesis
Ho:
1
2
=
2
2

H
1
:
1
2

2
2



b. Razn crtica poblacional (F )
Esta razn crtica como es un valor terico es necesario ubicarlo en tablas, para ello se
utilizar la Distribucin F de Snedecor, donde se trabajar de acuerdo al nivel de confianza con
grados de libertad, m y n, correspondiendo m a la muestra que tenga la varianza con mayor
valor, y el n, para la muestra con la varianza de menor valor
m: gl = n - 1 (muestra con la varianza mayor)
n : gl = n - 1 (muestra con la varianza menor)

El valor de F se ubica de acuerdo del nivel de confianza.
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 117

c. Razn crtica muestral (F

)




d. Regla de decisin
Si F

< F --------> Ho
Si F

F --------> Hi
e. Conclusiones

Ejemplo
De dos grupos seleccionados al azar se obtuvo los siguientes resultados:
Grupo I Grupo II
11,23 Media 13,44
7,21 Variacin promedio 16,80
51 Tamao 41
Se podra afirmar, en el nivel del 0,05 que ambos grupos provienen de una misma poblacin.

a. Planteamiento de la hiptesis.
Ho:
1
2
=
2
2

H
1
:
1
2

2
2

b. Razn crtica poblacional (F )
m: gl = n - 1 = 41 - 1 = 40
n: gl = n - 1 = 51 - 1 = 50
Se ubica a continuacin en la tabla de distribucin F, el valor crtico F = 1,63

c. Razn crtica muestral (F
1
)




d. Regla de decisin
Si F

< F --------> Ho
Si F

F --------> H
1

e. Decisin
2,33 > 1,63
De acuerdo a la regla de decisin, se ve que la razn crtica muestral es mayor que la
poblacional, por lo tanto se puede afirmar que las muestras objetivo de estudio al nivel del 0,05
provienen de poblaciones diferentes.

La secuencia para la determinacin del contraste de varianzas o Prueba F, utilizando el
Statgraphics se sigue la secuencia que a continuacin se muestra:

1. Pulsar en la barra de men Comparacin.
2. En el men emergente seleccionar Dos muestras
3. Luego seleccionar Contraste de Hiptesis.
4. Seleccionar Desviacin tpica normal.
5. Completar Desviacin tpica 1 y desviacin tpica 2.
6. Pulsar el botn Aceptar
menor s
mayor s
F
2
2
1
33 , 2
21 , 7
80 , 16
2
2
1
menor s
mayor s
F
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 118
Muestra el contraste de hiptesis y una curva de potencia. Para cambiar el nivel de significacin
se pulsa el botn derecho del mouse y se selecciona Opcin de Anlisis y luego proceder al
cambio ya que por defecto siempre lo ubica en el 95%.

Fig. 9.5. Resultado del contraste de varianzas

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE MEDIAS
Es una prueba que sirve para contrastar si los resultados obtenidos en la investigacin,
procedentes de dos muestras diferentes, referentes bien a dos poblaciones distintas, o bien a la
misma poblacin en dos momentos sucesivos, representan diferencias significativas en las
poblaciones, o no es as por ser atribuibles dichas diferencias al azar muestral.
En otras palabras, se utiliza para determinar si existe diferencia significativa entre las medias
correspondientes a dos grupos, se hace necesario considerar todos los factores que se haban
hecho mencin con anterioridad, tamao de la muestra, contraste, varianzas a nivel de la
poblacin y tipo de muestra.

En cuanto al tipo de muestra, se tendr que son correlacionadas cuando a un mismo grupo se
le aplican dos pruebas o instrumentos, o la misma prueba o instrumento aplicada en dos
oportunidades. Y se refieren a muestras no correlacionadas o independientes cuando
provienen de grupos que son diferentes.

1. Luego de la aplicacin del segundo examen parcial de Estadstica I a las menciones de
Orientacin y Matemtica de la Escuela de educacin, se obtuvieron los siguientes resultados:
Orientacin Matemtica
6 , 12 1 X 2 , 11
2
X

2
= 10,10
2
= 14,25
N
1
= 26 N
2
= 51
En el nivel del 0,01, determine si existe diferencia significativa entre el rendimiento medio
observado en ambos grupos.
1. Factores
Tamao: GRANDE
Contraste: BILATERAL
Varianzas: CONOCIDAS
Tipo: NO CORRELACIONADA

2. Planteamiento de Hiptesis
Ho:
1
=
2

H1:
1

2

Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 119

3. Razn Crtica Poblacional (z )
Como es una muestra grande y se conocen las varianzas a nivel de la poblacin se utiliza la
tabla de distribucin normal, cuyo valor crtico z,
z = 2,58

3. Razn Crtica Muestral (z
1
)




En este caso se hace necesario seleccionar el error tpico de acuerdo a las condiciones,
muestras de tamao grande, no correlacionadas y varianzas poblacionales conocidas, de all
que sea:





Ahora se realiza el clculo del error tpico


A continuacin se
sustituye para
determinar la razn crtica poblacional




Siguiendo con la resolucin se plantear ahora la regla de decisin

4. Regla de decisin
Si z
1
z se acepta H
0

Si z
1
z se acepta H
1


5. Toma de decisin.
z
1
= 1,71 z

= 2,58 de all que 1,71 2,58 por lo tanto z
1
z se acepta H
0
.

Se acepta H
0
al nivel de significacin del 0,01, lo cual indica que la diferencia observada entre el
rendimiento medio de ambos grupos no es significativa al nivel de la poblacin.

2. En el Departamento de Idiomas Modernos, se desea saber si existe diferencia significativa
entre el inicio y el final del semestre de los alumnos que cursan Ingls I. Para probarlo se eligi
2 1
/ / / / 2 1 2 1
1
x x
X X
z
2
2
1
1
2 1 N N
X X
82 , 0 67 , 0 28 , 0 39 , 0
51
25 , 14
26
10 , 10
2 1
X X
71 , 1
82 , 0
/ 4 , 1 /
82 , 0
0 / 2 , 11 6 , 12 /
1
z
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 120
una muestra aleatoria de 20 alumnos los cuales presentaron una prueba de dominio
instrumental del idioma al inicio y al final del semestre, obtenindose los siguientes resultados:
Inicio Final
10,9 Promedio 13,3
Si de investigaciones anteriores se sabe que la variacin promedio era de 9 y 8
respectivamente para ambas aplicaciones, y el coeficiente de correlacin es de 0,45. En el nivel
del 0,01 determine si el rendimiento medio observado al final del curso es realmente mayor que
al inicio.

1. Factores:
Tamao: PEQUEO
Contraste: UNILATERAL
Varianzas: CONOCIDAS
Tipo: CORRELACINADA

2. Hiptesis
Ho:
1
=
2
(
1
-
2 =
0)
H1:
1

2
(
1
-
2
0)

2. Razn crtica Poblacional (z )
z = 2,33
0,99 z = 2,33

3. Razn crtica Muestral (z
1
)




Es necesario definir el error tpico correspondiente de acuerdo a las condiciones de la muestra,
la cual es pequea, correlacionada pero se conocen las varianzas muestrales.












Sustituyendo en la frmula del error tpico
2 1 2 1
* * . 2
12
2
2
1
1
X X X X
r
N N
67 , 0
47 , 4
3
20
3
1
1
1 N
X
63 , 0
47 , 4
83 , 2
20
83 , 2
2
2
2 N
X
2 1
/ / / / 2 1 2 1
1
x x
X X
z
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 121



Ahora se calcula la razn crtica muestral



4. Regla de decisin
Si z
1
z se acepta H
0

Si z
1
z se acepta H
1


5. Toma de decisin
Si z
1
z H
0
z
1
= 3,48
Si z1 z H
1
z = 2,33
3,48 2,33

z
1
z H
1


Se rechaza la H
0
al 0,01 de significacin, lo cual indica que el rendimiento medio observado al
final del curso es mayor que al inicio.

3. Se esta averiguando si existen diferencias significativas en cuanto a los rendimientos medios
obtenidos en el primer parcial de Estadstica II de acuerdo al sexo de los alumnos, ya que los
investigadores indican que es igual entre varones y hembras. Para comprobarlo se seleccion
una muestra aleatoria la cual se dividi en varones y hembras; se les aplic una prueba y se
obtuvo los siguientes resultados:

Varones Hembras
10,35 Media 9,12
2 Desviacin 1,86
12 Tamao 16
En el nivel del 0,05 compruebe si es cierto el planteamiento de los investigadores.

1. Factores:
Tamao: PEQUEA
Contraste: BILATERAL
Varianzas: DESCONOCIDAS (Prueba F)
Tipo: NO CORRELACIONADAS O INDEPENDIENTES
2. Planteamiento de Hiptesis
Ho:
1
=
2
(
1
-
2 =
0)
H1:
1

2
(
1
-
2
0)

Antes de determinar la razn crtica poblacional y por las caractersticas de las muestras se
hace necesario aplicar la prueba F, para verificar la homogeneidad o heterogeneidad.

Prueba F
a. Planteamiento de la hiptesis.
69 , 0 47 , 0 38 , 0 40 , 0 45 , 0 ) 63 , 0 )( 67 , 0 )( 45 , 0 ( 2
20
8
20
9
2 1
X X
48 , 3
69 , 0
/ 4 , 2 /
69 , 0
0 / 3 , 13 9 , 10 /
1
z
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 122




b. Razn crtica poblacional (F )
m: gl = n - 1 = 12 - 1 = 11
n: gl = n - 1 = 16 - 1 = 15
Se ubica a continuacin en la tabla de distribucin F
1
el valor crtico F = 2,54

c. Razn crtica muestral (F )



d. Regla de decisin
Si F
1
< F --------> Ho
Si F
1
F --------> H
1


d. Decisin
2,33 > 1,63
2
2
2
1
: Ho

3. Razn crtica poblacional (t )
De acuerdo a las condiciones se tiene que las varianzas son conocidas y pequeas, esto es
indicativo para seleccionar el valor crtico y el error tpico, como es una muestra pequea el
valor crtico se obtiene con la tabla t de student dependiendo de los grados de libertad.




gl = n
1
+ n
2
2 = 12 + 16 2 = 26 gl t = 2,06
t = -2,06 t = 2,06

4. Razn crtica a nivel de la muestra (t
1
)





El error tpico de acuerdo a las caractersticas de la muestra es el siguiente:


2 1
/ / / /
2 1
2 1
1
X X
X X
t
)
*
)(
2
(
2 1
2 1
2 1
2 1
2 1 n n
n n
n n
X X
X X
33 , 2
21 , 7
80 , 16
2
2
1
menor s
mayor s
F
2
2
2
1
: Ho
2
2
2
1 1
: H
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 123


Sustituyendo en el error tpico


Ahora se determina la razn crtica muestral




5. Regla de decisin
6. Toma de decisin
Si t
1
t H
0
t
1
= 1,66
Si t1 t H
1
t = 2,06

1,66 < 2,06
t
1
t H
0

Se acepta H
0
al nivel del 0,05, lo cual indica que no existe diferencia significativa entre los
rendimientos medios obtenidos por varones y hembras.

Secuencia para la determinacin de la prueba de hiptesis para la diferencia entre medias con
el Statgraphics:

Muestras Independientes
7. Pulsar en la barra de men Comparacin.
8. En el men emergente seleccionar Dos muestras
9. Luego seleccionar Comparacin.
10. Seleccionar las muestra 1 y la muestra 2.
Si las variables en la base de datos corresponden a muestras independientes se ubica en cada
una de ellas, si las dos variables corresponden a una misma muestra y se desea establecer la
diferencia con respecto a una variable categrica (nominal) se debe colocar la variable
numrica con la seleccin a realizar, se debe seguir este comando:(Variable Numrica)
SELECT(Variable Nominal =Categora 1) y en la segunda muestra (Variable Numrica)
SELECT(Variable Nominal =Categora 2).
11. Pulsar el botn Aceptar.
Aparecen las cuatro ventanas dos de opciones de resultados y dos con grficos, luego
12. Seleccionar el icono Opcin Tabular.
13. Seleccionar Comparacin de Medias
14. Pulsar el botn de Aceptar.
A continuacin muestra el anlisis de la prueba de hiptesis para diferencia entre medias, si va
a cambiar el nivel de confianza solo debe pulsar el botn derecho del mouse y en el men
emergente seleccionar Opciones de Ventana y luego proceder al cambio ya que por defecto
siempre lo ubica en el 95%.


74 , 0 5535 , 0 ) 15 , 0 )( 69 , 3 ( )
192
28
)(
26
9 , 51 44
( )
16 . 12
16 12
)(
26
) 15 ( 46 , 3 ) 11 ( 4
(
2 1
X X
66 , 1
74 , 0
/ 23 , 1 /
74 , 0
0 / 12 , 9 35 , 10 /
1
t
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 124
Fig.9.4. Resultados de la comparacin entre las medias independientes

Este cuadro nos muestra, en una primera parte los lmites de confianza tanto para las medias
de acuerdo a la variable categrica, y tambin un intervalo de confianza para la diferencia entre
las medias. En el ejemplo se est contrastando si existe diferencia significativa en la edad de
acuerdo al tipo de plantel, y aparecen los contraste bilateral (No Igual) y los unilaterales (Mayor
que y Menor que), de all debemos escoger la hiptesis alternativa que necesitemos de
acuerdo a la investigacin, teniendo en cuenta si las varianzas son iguales o diferentes, para
las conclusiones con respecto a la existencia o no de diferencias significativas asumimos
nuevamente la regla de decisin del P-valor y el . Si asumimos que es un contraste bilateral
tendremos que el P-valor = 0,229684 y el nivel del 0,05 debemos concluir que no existe
diferencia significativa entre la edad de acuerdo al tipo de plantel, contrastando con la regla de
decisin.

Muestras Correlacionadas o Pareadas
1. Pulsar en la barra de men Comparacin.
2. En el men emergente seleccionar Dos Muestras.
3. Luego seleccionar Comparacin de muestras pareadas.
4. Seleccionar las muestras (Muestra 1 y Muestra 2).
5. Pulsar el botn Aceptar.
6. Aparecen las cuatro ventanas dos de opciones de resultados y dos con grficos, luego,
7. Seleccionar el icono Opcin Tabular.
8. Seleccionar Contraste de Hiptesis.
A continuacin muestra el anlisis de la prueba de hiptesis para diferencia entre medias
correlacionada o pareada, si va a cambiar el nivel de confianza solo debe pulsar el botn
derecho del mouse y en el men emergente seleccionar Opciones de ventana, tambin se
puede cambiar el contraste o la hiptesis alternativa y luego proceder al cambio ya que por
defecto siempre lo ubica en el 95%.

Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 125
















Fig.9.5. Resultados de la comparacin entre las medias independientes

Se observa en la figura 9.5., donde estn los resultados para la prueba de hiptesis de la
diferencia entre medias correlacionada, donde muestra la diferencia entre las medias y luego la
prueba t, en este caso para contraste bilateral (No Igual), presenta el valor t calculado, el P-
valor y luego nos seala que la hiptesis nula no puede ser rechazada por lo tanto no existe
diferencia significativa entre los puntos y nota1, pues su promedio a nivel poblacional de
acuerdo a esto es igual.

A continuacin presentamos los errores tpicos para las diferencias entre medias de acuerdo a
algunas condiciones ya que el procedimiento manual es el mismo y por el paquete lo que
tenemos es que sealar claramente el tipo de muestra.

Muestras independientes, varianzas desconocidas Muestra correlacionada y varianzas
Y diferentes desconocidas






DIFERENCIA DE PORCENTAJES
La teora inherente a la diferencia entre las medias se corresponde de la misma manera con la
diferencia de porcentajes.
Ejemplo
Se desea saber si existe diferencia significativa en cuanto al porcentaje de alumnos que cursan
el 5to semestre de la licenciatura en Educacin de acuerdo a las especialidades de Educacin
Comercial y Orientacin. Para probarlo se seleccion una muestra aleatoria de 32 alumnos de
Orientacin de los cuales 13 eran varones. La otra muestra aleatoria correspondiente a
Educacin Comercial era de 44 alumnos, de los cuales 27 eran hembras. En el nivel del 0,05,
podemos concluir que el porcentaje de hembras cursantes del 5to semestre de la Licenciatura
en Educacin es el mismo entre ambas especialidades.

Datos
Orientacin Educacin Comercial
n = 32 n = 44
2
2
2
1
2
1
n
s
n
s
) 1 (n n
d
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 126
13 varones 27 hembras
18 hembras 17 varones
p
1
= (19/32)100 = 59,38% p
2
= (27/44)100 = 61,36%
q
1
=100 p
1
= 40,62 q
2
= 100 p
2
= 38,64

1. Factores:
Tamao: GRANDE
Contraste: BILATERAL
Varianzas: DESCONOCIDAS
Muestras: INDEPENDIENTES

2. Planteamiento de hiptesis
Ho :
1
=
2
(
1
-
2
= 0)
H
1
:
1

2
(
1
-
2
0)

3. Razn crtica poblacional (z )
z = 1,96

4. Razn crtica muestral (z
1
)




El error tpico de diferencia de porcentajes para muestras independientes es el siguiente:





sustituyendo



ahora se determina la razn crtica muestral






2 1
/ / / /
2 1 2 1
1
p p
p p
z
2
2 2
1
1 1
* *
2 1
n
q p
n
q p
p p
37 . 11 26 , 129 88 , 53 38 , 75
44
95 , 2370
32
02 , 2412
44
) 64 , 38 36 , 61 (
32
) 62 , 40 38 , 59 ( x x
18 , 0
93 , 10
/ 98 , 1 /
93 , 10
0 / 36 , 61 38 , 59 /
1
z
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 127
5.Regla de decisin 6. Toma de decisin

Si z
1
z H
0
z
1
= 1,96
Si z
1
z H
1
z = 0,18

0,18 = 1,96
z
1
z H
0

Se acepta la Ho al nivel del 0,05 de significacin, lo cual indica que el porcentaje de hembras
en ambas especialidades son iguales a nivel poblacional.


Fig. 9.6. Resultados de la diferencia de porcentajes

Otra forma para determinar es usando el paquete estadstico STATS, cuya secuencia es la
siguiente:
1. Activar el Stats.
2. Seleccionar diferencia de dos proporciones independientes
3. Completar los cuadros, en el nmero de respuestas de los grupos se deben colocar los
tamaos de las muestras, y en los porcentajes se corresponden a cada grupo.
4. Pulsar calcular y nos presenta los resultados de las probabilidades de las diferencias y
el valor z.
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 128
Fig. 9.6. Resultados de la diferencia de porcentajes

Para interpretarlo se puede hacer de dos formas las cuales conducen a la misma conclusin, si
tomamos el valor z y lo comparamos con la tabla de distribucin normal al compararlo
encontramos que no podemos rechazar la hiptesis nula ya que 0,17 < 1,96, o podemos
considerar la probabilidad de la diferencia significativa tampoco podemos rechazar la hiptesi
nula ya que para poder considerarla como rechazada este valor debe ser mayor al nivel de
confianza planteado, si es al 95% tendriamos que menor (13,86 < 95).


Errores Tipo I y II
Muestra
Poblacin Ho H
1


Ho
No hay error
(1- )
Error Tipo I
( )

H
1

Error Tipo II
( )
No hay error
(1 - )

El criterio de aceptar o no la Ho, basndose en la evidencia dada por la muestra, no
constituye una garanta de que se arribe a una conclusin correcta. Se pueden cometer dos
cases de errores: rechazar una hiptesis cuando en realidad es verdadera o aceptarla cuando
es falsa. El rechazo de una hiptesis verdadera se denomina error tipo I. La aceptacin de una
hiptesis falsa se conoce como error tipo II. Siendo la Ho la hiptesis sometida a prueba,
tendremos ERROR TIPO I ( ) se rechaza la Ho siendo verdadera y se acepta H
1
siendo falsa,
o ERROR TIPO II ( aceptar Ho siendo falsa y rechazar H
1
siendo verdadera).

De all que las decisiones correctas sean 1- , se acepta Ho siendo verdadera y se rechaza H
1

siendo falsa, o 1- lo cual significa que se rechaza Ho siendo falsa y se acepta H
1
siendo
verdadera, esta se conoce como la POTENCIA DE LA PRUEBA, lo cual no es ms que la
probabilidad de rechazar Ho cuando sta es falsa y por ende aceptar correctamente H
1
.


Ejercicios
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 129
1. Un investigador cree que el 65% de los alumnos que cursan en FaCE provienen de
hogares con ingresos menores o iguales a Bs. 50000. Seleccion una muestra
aleatoria de 200 alumnos y obtuvo que 125 provienene de este tipo hogares. En el
nivel del 0,01, apoyaran estos datos el planteamiento del investigador. R: 0,73 se
acepta Ho.
2. Un fabricante sostiene que el 95% de los equipos que suministra a una fabrica esta
de acuerdo con las especificaciones requeridas. Un examen a una muestra aleatoria
de 200 de tales equipos revel que 18 eran defectuosos En el nivel del 0,05, pruebe
la hiptesis del fabricante. R: 1,98 se rechaza Ho
3. Un profesor desea utilizar la instruccin programada, como estrategia de enseanza.
Para comprobar si podra aplicarla, eligi una muestra representativa de la
poblacin, la cual separ aleatoriamente en dos grupos: control y experimental. El
grupo control continuo sometido a la clase tradicional y el experimental a la
instruccin programada, ambos fueron sometidos a una prueba antes de iniciar el
experimento y luego de realizado, obtenindose los siguientes resultados:
Control Experimental
Media primera aplicacin 11,21 11,35
Varianza primera aplicacin 3,33 3,18
Tamao primera aplicacin 14 12
Media segunda aplicacin 12,40 13,55
Varianza seguna aplicacin 3,52 2,12
Tamao segunda aplicacin 14 12
Coeficiente entre ambas aplicaciones 0,52 0,66
En el nivel del 0,05:
3.1. Considerando en el grupo experimental las varianzas como las de la poblacin,
determine si es realmente significativo el aumento observado en la segunda
aplicacin. R: 5,5 se rechaza Ho
3.2. Determine si existe diferencia significativa entre el el grupo control y el
experimental en la segunda aplicacin con respecto al rendimiento medio. R:
1,74 se acepta Ho.
3.3. Si se sabia que el coeficiente de correlacin entre las dos aplicaciones el grupo
control para la poblacin era de 0,60, determine si es significativo la
disminucin observada. R: 0,33 se acepta Ho.
4. En la Escuela Bsica Juan XXIII, se desea implantar una nueva estrategia de la
enseanza de la electricidad del rea Formacin para el Trabajo, para investigarlo
se seleccion una muestra aleatoria de siete (7) alumnos del 7mo grado a los cuales
se les va a impartir una unidad didctica con la nueva metodologa, antes de
iniciarla, se aplic una prueba objetiva y al final se repiti la aplicacin de la prueba,
obteniendose los siguientes resultados:
1era aplicacin 08 10 12 11 07 08 13
2da aplicacin 10 11 15 12 07 08 13
En el nivel del 0,01, determine si el rendimiento medio de los alumnos en la
segunda aplicacin fue mejor que en la primera. R: 2,27 se acepta Ho.
5. En el Departamento de Castellano y Literatura de un CD se eligi al azar dos grupos
de alumnos, los cuales fueron sometidos a un test de ortografa y los resultados
obtenidos fueron los siguientes:
Grupo I Grupo II
18 8
14 7
12 6
12 5
25 , 10 X
2 , 6 X
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 130
10 5
8 s = 1,3
6 s= 4,95
2

En el nivel del 0,05, determine ni el rendimiento medio del grupo I es realmente
mayor que el del grupo II al nivel de la poblacin. R: 2,2 se rechaza Ho.
6. Un grupo de alumnos cursantes de Matemtica del 9no grado de una EB, fue
seleccionado al azar y se les aplic una prueba de aritmtica. Luego el profesor les
provoca un estado de ansiedad, y una vez superado este les aplica de nuevo el test
obtenindose los siguientes resultados:
Antes Despus
35,33 promedio 33,33
30 tamao 30
Coeficiente de correlacin 0,72
Si de experiencias anteriores se sabe que la dispersin promedio es de 8,2 antes del
estado de ansiedad y de 5,4 luego de dicho estado. En el nivel del 0,05 determine si
realmente el rendimiento medio es menor luego de provocado el estado de ansiedad.
R: 5,41 se rechaza Ho.
7. Una muestra aleatoria presentprimero y segundo parcial de Matemtica y se
conocen los siguientes resultados:
1er parcial 2do parcial
35 N de items 35
48 N alumnos 48
12,10 Promedio 13,48
6,15 Varianza poblacional 3,92
Correlacin entre ambos parciales 0,72
En el nivel del 0,05
7.1. Si los alumnos tuvieron un rendimiento medio significativamente ms alto en el
2do parcial que en el 1ro. R: 5,75 se rechaza Ho.
7.2. Si sabemos que en el primer parcial 28 alumnos estuvieron por encima de la
media, y el investigador supona que era el 55%, confirman estos resultados lo
que se supona. R: 0,46 se acepta Ho.
7.3. Si antes de la aplicacin de las pruebas, el profesor estima que la relacin entre
los resultados de ambos parciales sera igual a 0,79; una vez conocidos los
resultados anteriomente sealados, puede el profesor mantener su hiptesis
inicial. R:1,07 se acepta Ho.

8. Un grupo de alumnos de Diseo de Investigacin se encuentra realizando una
investigacin acerca de la audiencia de programas matutinos de la TV. Para ello
seleccion muestras de sujetos correspondientes a dos clases sociales diferentes y
los encuest acerca de los programas matutinos, obtenindose los siguientes
resultados:
Clase Tamao N de mujeres que ve programas matutinos
A 200 80
B 150 98
En el nivel del 0,05, proporcionarn estos datos evidencias suficientes para asegurar
que no existe diferencia significativa en cuanto al porcentaje de mujeres que ven
programas matutinos de TV. R: 4,68 se rechaza Ho.
9. Se ha realizado una encuesta entre los estudiantes universitarios que utilizan los
autobuses urbanos para ir a la Universidad de Carabobo, para que opinen acerca de
Alexander Pinto y Neil Pernalete de P Captulo IX
pg. 131
de tres proposiciones: A: mejorar los autobuses existentes, B: aumentar el nmero
de autobuses; y C: instalar una nueva lnea de autobuses. Se toma yuna muesta 200
varones y 200 mujeres, elegidos al azar, en la poblacin extudiantil, observndose
las iguientes elecciones:
Sexo A B C
Varones 62 75 63
Hembras 67 60 73
Se desea saber al nivel del 0,05, si los varones prefieren la opcin B ms que las
mujeres.R: 1,59 se acepta Ho
Una trabajadora social desea comparar dos comunidades con respecto a varias
variables, selecciona al azar una muestra independiente de 120 hogares de la
comunidad A, y una muestra independiente de 100 hogares de la comunidad B. 36
familias de la comunidad A y 35 familias de la comunidad B estn de acuerdo en recibir
aistencia social, en el nivel del 0,05 Sern estos datos suficientes para concluir que los
porcentajes de hogares que aspiran recibir asistencia social en las dos comunidades es
diferente? R: 0,79 se acepta Ho.
10. En los ejemplos que se plantean a continuacin determinar si se ha cometido error:
tipo I o tipo II o no se ha cometido ningn error:
Ho Hi Valor real de P Decisi Tomada
P = 0 P 0 0 Rechazar Ho
P = 0 P 0 0,40 Rechazar Ho
P = 0 P 0 0 Rechazar Ho
P = 0 P 0 - 0,50 Rechazar Ho
11. Para la muestra seleccionada en el ejercicio 5.2 del captulo VII, en el nivel del 0,05:
11.a. Pruebe que respect a la edad que el promedio es menor de 22 aos .
11.b. Compruebe si es cierto que el razonamiento de las mujeres es mayor que el de los
hombres en la calificacin del primer lapso.
11.c. Compruebe si la proporcin de alumnos de los planteles pblico tienden a ser
menores que los de los planteles privados en el CNU.
11.d. Sera cierto que los de la PIA tienden a tener igual promedio en la calificacin del
trabajo de investigacin.
11.e. Establezca si es cierto que el rendimiento medio entre la calificacin del primer
lapso es dferente a la de resolucin de problemas para toda la muestra.
12. Para la muestra seleccionada en el ejercicio 6.2 del captulo VII, en el nivel del 0,01
Pruebe que el promedio de calificaciones para el primer lapso es realmente mayor de 17
puntos.
Compruebe que la proporcin de alumnos del CNU es realmente menor que los de PIA.
Compruebe que el rendimiento de la PIA es menor que el del CNU en las calificaciones de
resolucin de problemas.
Establezca si el coeficiente de correlacin entre resolucin de problemas y el trabajo de
investigacin es realmente distinto de cero.
Pruebe si existe diferencia significativa entre las calificaciones de resolucin de problemas y
el tabajo de investigacin.