Anda di halaman 1dari 116

INSTITUTO TECNOLOGICO DE CULIACAN

Unidad 2, 3 y 4

Alumno: Castilla Ruiz Gloria Estefania

No. Control: 09170482

Fecha de entrega: 22 de Julio de 2011

UNIDAD 2 VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS

Definicin de variable aleatoria discreta. Funcion de probabilidad y de distribucin de una variable aleatoria. Valor esperado.Caso Discreto Definicin Una variable aleatoria (v.a.) es discreta si los valores que asigna forman un conjunto contable (finito o infinito). Ejemplo Sea son el nmero de caras al lanzar dos monedas. Los valores que asigna , el cual es un conjunto contable (finito).

FUNCION DE PROBABILIDAD Sea una variable discreta. La coleccin de nmeros propiedades: que satisface las

. Se llamar una funcin de probabilidad o funcin de masa de probabilidad de la variable aleatoria discreta Ejemplo de 2 dados Se realiza el siguiente experimento: se lanzan dos dados, uno rojo y otro azul. El espacio muestral para este experimento es: .

En una funcin de probabilidad sobre una sigma lgebra asociada al espacio muestral es dada por:

donde

es definida como

Explicacin: Esta es una de las maneras de definir una funcin de probabilidad sobre la sigma lgebra. En este caso debido a que el espacio muestral es finito, se define la funcin de probabilidad para cada elemento de como:

Sea la variable aleatoria

que representa la suma de los nmeros obtenidos en asigna nmeros reales a cada uno de

las caras, entonces la variable aleatoria los elementos de espacio muestral

como se muestra Aqu toma los valores

De esta manera se dice que la variable aleatoria

La funcin de probabilidad para la variable continuacin:

se determina como se muestra a

El valor

se obtiene de la funcin de probabilidad definida sobre la sigma .

lgebra que fu denotado anteriormente como Explicacin: Observe que la letra la variable aleatoria del espacio muestral. y la letra

representa l aprobabilidad de un evento para representa la probabilidad para un elemento

Anlogamente la probabilidad para los otros valores de la variable se presenta en la siguiente tabla:

Probabilid ad = = = = = = = = = = = = = = = = = = = =

Para poder observar mejor el comportamiento de la distribucin de la probabilidad de la variable observe la figura que se presenta a continuacin.

En la grfica se observa que la distribucin de probabilidad es simtrica esto implica que las medidas de tendencia: Media Aritmtica, Mediana y La moda , son iguales. La manera de calcular estas medidas se estudia en la leccin Valor esperado. Observe que lo ms probable que puede ocurrir al lanzar dos es que la suma de las caras sea 7. VALOR ESPERADO Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de lluvia en una ciudad en un ao, el promedio de temperatura en Agosto, el promedio de edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccion es mostrar algunas caractersticas numricas de una distribucin poblacional. El ms comun promedio utilizado en estadstica es la media o valor esperado o esperanza matemtica. Sea sobre una variable aleaoria definida sobre . defina por y sea una funcin real definida

Caso discreto

Suponga Si esperado de

que

es

una

variable

aleatoria

es

discreta. o el valor

, entonces se define la media de por

DISTRIBUCION BINOMIAL Notacin:

Definicin Es una de las distribuciones de probabilidad ms tiles ( control de calidad, produccin, investigacin). Tiene que ver con el experimento aleatorio que produce en cada ensayo o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un criterio o caracterstica especfico (llamado xito) y no ocurrencia de ste (llamado fracaso). Los trminos o calificativos de "xito y fracaso" son solo etiqutas y su interpretacin puede no corresponder con el resultado positivo o negativo de un experimento en la realidad. Ejemplo xito podra ser hallar en un ensayo especfico que la unidad es defectuosa al examinarla. Cada experimento aleatorio consiste en una serie de ensayos o pruebas repetidas realizadas en idnticas condiciones ( uno de ellos es independiente de los dems. Sea y veces), o sea que cada

la probabilidad de xito cada vez que el experimento se realiza la probabilidad de fracaso. Sea X la variable aleatoria que ensayos o pruebas. El inters se centra xitos en esos

representa el nmero de xitos en los

en conocer la probabilidad de obtener exactamente ensayos.

Criterios o propiedades para definir la Distribucin Binomial

Resumiendo, podemos definir estos criterios: 1- El experimento aleatorio consiste en ensayos o pruebas repetidas, e idnticas y fijadas antes del experimento (pruebas de Bernoulli). Son pruebas con reemplazamiento o con reposicin. 2- Cada uno de los ensayos o pruebas arroja solo uno de dos resultados posibles resultados: xito fracaso. 3- La probabilidad del llamado xito ( cada ensayo o prueba. , pemanece costante para

4- Cada prueba o ensayo se repite en idnticas condiciones y es independiente de las dems. Cuando estas propiedades se cumplen en el experimento aleatorio se dice que el constituye un proceso de Bernoulli y cada uno de los ensayos que lo conforman se llama experimento de Bernoulli. 5. El inters recae en hallar la probabilidad de obtener realizar ensayos del mismo E.A. nmero de xitos al

La funcin de probabilidad de X en esas condiciones ser:

Para

entero y

Planteamiento Bsico Supongamos un proceso productivo en serie de una misma unidad y

metalmecnica y en l que: Probabilidad de una unidad defectuosa : probabilidad de unidad no defectuosa: .

Supongamos que el inters est en evaluar el proceso mediante una muestra aleatoria de 4 unidades y por tanto se define la v.a X como el nmero de unidades defectuosas en la muestra. Para garantizar que los ensayos resulten independientes hacemos la seleccin con reemplazamiento o sustitucin.

Supongamos que centramos nuestro interes en

unidad defectuosa en las

cuatro pruebas o ensayos. Sea B=bueno y D= defectuoso. Por lo tanto el esta conformado por 16 resultados posibles ..... Se puede entonces notar que los eventos favorables a constiuyen el

subconjunto . Como no importa el orden de aparicin de la unidad defectuosa sino que aparezca exactamente una unidad con esa caracterstica tenemos:

o sea: defectuosa para cada posible resultado de una unidad

Como son cuatro resultados los que satisfacen el inters especfico de una unidad defectuosa entonces

Si

generalizamos:

donde:

son

las

distintas es la

maneras como probabilidad de los xitos .

xitos se producen dentro de los

ensayos;

xitos en cada una de las maneras distintas de producirse

Para el caso del ejemplo: Consideremos el caso ya no de puede asumir X en las cuatro pruebas. defectuoso; sino todos los valores que

Como de

son

ensayos

consideramos

todos

los

posibles

valores

entonces la

Los valores de se pueden calcular por medios electrnicos utilizando las tablas de la distribucin binomial que proporcionan la solucin de estas operaciones, a veces largas o laboriosas. Con los resultados de esos clculos podemos construir la tabla de distribucin de probabilidades, hacer su grfica y definir sus principales caractersticas. Tomemos como ejemplo la distribucin binomial de parmetros y

Caractersticas de la distribucin binomial. Tendencia central: = aplicando la

definicin de valor esperado se obtiene que para esta distribucin : Dispersin variacin: : =

lo que conduce a que una v.a. binomial X tiene como varianza Por lo tanto su desviacin estandar: .

Asimetria deformacon (Forma): con base en la razn entre los momentos centrales de orden dos y tres como quedo definido antes:

sobre la base de que si: Generalmente la distribucin binomial es sesgada asimetrica hacia la derecha, sesgo que se va perdiendo cuanto ms grande sea el valor de y en la medida en que se acerque a limite en el cual se torna simtrica (por lo tanto (# de pruebas) tienda a ),

Para el caso considerado y utilizando tanto la metodologa tradicional de la definicin de conceptos como usando las frmulas simplificadas, tenemos:

Tota l

0 ; tambien ;

Su sera:

funcin

de

distribucin

acumulada

DISTRIBUCION HIPERGEOMETRICA

Notacin:

Definicin Muchas veces en la prctica es difcil realizar pruebas con reposicin reemplazamiento. Por ejemplo, si en el control de calidad se pierde el elemento que se prueba, pues no se puede hacer reposicin directamente. Se planta entonces la prueba sin reposicin, donde los elementos de la muestra se toman todos a la vez y no individualmente donde el elemento seleccionado no se reintegra al experimento a la muestra nuevamente. La diferencia mas simple con la binomial es la forma de aplicar el muestreo. En efecto, en: : Muestreo con reemplazamiento e independencia de pruebas ensayos. : Muestreo sin reemplazamiento y sin independeencia entre pruebas ensayos. Sus aplicaciones estan en areas con uso considerable de muestreo de aceptacin, pruebas electronicas y de aseguramiento de la calidad, fabricacin de piezas, etc.

Definicin En la distribucin Hipergeomtrica cantidad de resultados xitos en una , tomada de una poblacin de

muestra aleatoria (sin reposicin) de tamao tamao y de la cual

satisface una caracteristica propiedad (xito) antes

del muestreo y

no la satisface (fracaso).

Criterios propiedades que la caracterizan. 1. La poblacin del conjunto de unidades elementos es de orden fnito, de "son xitos", y otra parte: son "fracasos".

los cuales una parte:

2. Cada elemento puede ser caracterizado como xito fracaso.

3. Se obtiene una muestra aleatoria de elementos todos a la vez (sin reemplazamiento) y no de forma independiente. No son pruebas repetidas. 4. El tamao de la muestra aleatoria es grande relativamente en comparacin

con el tamao de la poblacin. Generalmente: 5. Se busca la probabilidad de resultados elementos y nmero de xitos a partir de los fracasos a partir de los elementos asi

clasificados, al obtener una muestra aleatoria de tamao

Planteamiento:. Supongamos un lote de Obtenemos muestra de probabilidad de sacar productos de los cuales: productos, todos a la vez. Interesa entonces la

productos defectuosos (Exito), o sea:

Planteado as el (E.A.) Podemos hacer el siguiente raciocinio: De una poblacin de de de elementos se pueden extraer muestras de tamo ). Al extraer muestras obtener productos

formas diferentes (distintas muestras de tamao tamao productos, el nmero de formas de

defectuosos de formas de obtener

de ellos ser:

y entonces

sera el nmero de de ellos.

productos no defectuosos entre

Como es el mismo evento compuesto, entonces el nmero de formas de seleccionar obtener sera: productos defectuosos esta ligado con el nmero de formas de productos no defectuosos. Luego el total de formas posibles

Combinando los casos

Los parmetros de la distribucin Hipergeomtrica son entonces: Tamao de poblacin. Nmero de elementos de (xitos). con una caracteristica propiedad especfica

Tamao de muestra aleatoria extraida. Nota: Algunos tratadistas simbolizan esta distribucin con:

Caractersticas de la Distribucin Hipergeomtrica. En la practica, si cero La funcin de distribucin acumulativa quedar definida entonces por: , no se aplica el pues su valor tendera a

Pueden ser calculos tediosos laborosos cuando es grande. Por ello hay quienes aplican la forma simplificada de recurrencia:

Ejemplo En una empresa industrial diariamente se producen 90 unidades de unidad metalmecnica, de las cuales generalmente 5 salen defectuosas. Se examina en

un dia cualquiera una muestra de 5 unidades. Hallar la probabilidad de unidades defectuosas.

para

que resolviendo permite definir la tabla de distribucin de probabilidad:

Calculamos el valor de sus principales medidas caractersticas: Media: =

Que simplificadamente:

Varianza: tambien.

y que an de forma mas simplificada:

Sesgo: Hacia la derecha positivo como se v graficamente. Adems, aqui: pues y pues

DISTRIBUCION DE POISON Notacin: X Introduccin Llamada asi por su autor Simon Denis Poisson, probabilista del siglo XIX, pues fue el primero en describirla. Es una generalizacin de la distribucin binomial cuando sobre un . se define una variable aleatoria que representa el nmero de xitos independientes que ocurren para intervalos de medida especficos ( tiempos, lugares, espacios) , ademas con una probabilidad de ocurrencia pequea. Se le llama distribucin de los "eventos raros" pues se usa como aproximacin a la binomial cuando el tamao de muestra es grande y la proporcin de xitos es pequea. Esos intervalos de medida pueden referirse a: Tiempo: (Segundo , minuto, hora, dia, semana, etc.) Area: (Segmento de linea, pulgada cuadrada, Centimetro cuadrado, etc). Volumen:( Litro, galn, onza, etc.) Ejemplo Nmero de defectos por .en piezas similares de un material ..

Nmero de personas que llegan a un taller automotriz en un lapso de tiempo especfico. Nmero de impulsos electrnicos errados transmitidos durante espacio de tiempo especfico. Nmero de llamadas telefnicas que ingresan a un conmutador por minuto. Nmero de interrupciones en servicios de energa en intervalos de un dia. Cantidad de tomos que se desintegran en sustancia radioactiva. Nmero de accidentes automovilsticos en un cruce especfico durante una semana. Criterios propiedades 1. Se da un intervalo de medida que divide un todo de nmeros reales y donde el conto de ocurrencias es aleatorio. Esa divisin puede ser un subintervalo de medida.

2. El nmero de ocurrencias de resultados en el intervalo subintervalo de medida, es independiente de los dems intervalos subintervalos. por eso se dice que el proceso de Poisson no tiene memoria. 3. La probabilidad de que un solo resultado ocurra en un intervalo de medida muy corto pequeo es la misma para todos los dems intervalos de igual tamao y es proporcional a la longitud del mismo al tamao de medida. 4. La probabilidad de que ms de un resultado ocurra en un intervalo subintervalo corto es tan pequea que se considera insignificante (cercana igual a cero). Procesos que se ajustan a estos criterios, se dice, son procesos de Poisson. Definicin Sea una variable aleatoria que representa el nmero de eventos aleatorios independientes que ocurren con igual rapidez en un intervalo de medida. Se tiene entonces que la funcin de probabilidad de esta variable, se expresa por:

Donde es parmetro de tendencia central de la distribucin y representa el nmero promedio cantidad esperada de ocurrencias (xitos) del evento aleatorio por unidad de medida por muestra; y Nmero de ocurrencias especificas para el cual se desea conocer la probabilidad respectiva. Segun sea el valor de de , se define toda una familia de probabilidades de sea menor

Poisson. La probabilidad de que una variable aleatoria de Poisson

igual a un valor de se halla por la funcin de distribucin acumulativa, planteada entonces como:

Los resultados de las probabilidades individuales para valores de sern ms pequeos conforme la variable aleatoria toma valores cada vez ms grandes. Ejemplo El nmero promedio de partculas radioactivas que registra un contador en un milisegundo en la realizacin de un experimento aleatorio es de cinco (5)

partculas. Hallar la probabilidad de que se registre distinto nmero de partculas en un mismo milisegundo.

Acudiendo a las tablas existentes para tal fn a los medios electrnicos, se llega a construir la tabla de distribucin de probabilidades, dando:

y valores de

ms grandes pero con probabilidad mas pequea. Se nota el y y no es tan sesgada a la derecha por el

punto de inflexin entre valor

Caractersticas de la distribucin de Poisson Valor Esperado: Varianza: Forma sesgo: Hacia la derecha con sesgo positivo y que se va perdiendo a medida que crece. Veamos una grfica de funciones de probabilidad para , el cual debe ser conocido.

diferentes valores de

Se puede calcular un coeficiente de asimetra mediante la expresin observar que mientras en una distribucin binomial: puede dar que Alternativa: Si se da la probabilidad de tener, de manera exacta,

Es de

en Poisson se

ocurrencias

en un intervalo veces mayor que el de refencia en la medicin entonces la distribucin de probabilidades de Y nmero de xitos en la nueva unidad de referencia viene dada por

donde

Promedio de ocurrencias por intervalo unidad de medida Nmero de intervalos unidades de medida

considerada en X y especificados. Aqui Ejemplo y

El nmero de pulsos que llegan a un contador GEIGER se presentan en promedio de 6 pulsos por minuto. Hallar la probabilidad de que en 15 minutos se reciban exactamente 20 pulsos.

es decir, que una frecuencia de 6 pulsos por minuto es eqyivalente a una de 1 por minutos.

Definicin de variable aleatoria continua.Funcin de densidad y acumulativa. Valor esperado. Distribuciones uniforme y exponencial. Distribucin normal. Aplicaciones de modelos de variables aleatorias continuas.CASO CONTINUO Una variable es llamada continua si toma todos sus valores sobre un intervalo

de la recta real. Esto es, el conjunto es un intervalo sobre . Como ejemplo este caso se pueden considerar variables tiempo, edad y estatura.

FUNCION DE DENSIDAD

Sea

una

variable

aleatoria

definida

sobre

La tal que

funcin

de

densidad

es dada por alguna funcin integrable sobre

para evento Teorema

todo

Sea

una variable aleatoria definida sobre y satisface:

. Toda funcin

que

es integrable sobre

es la funcin de densidad de alguna variable aleatoria continua

Este teorema nos sirve para determinar cuando una funcin integrable sobre es una funcin de densidad de alguna variable aleatoria continua Ejemplo Sea una funcin sobre dada por .

Esta es una funcin integrable que satisface que como se puede observar en la figura 1.

para todo

Figura 1. Grfico de funcin de probabilidad Adems

Sea el evento A= como

entonces la probabilidad de A puede ser calculada

VALOR ESPERADO Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de lluvia en una ciudad en un ao, el promedio de temperatura en Agosto, el promedio de edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccion es mostrar algunas caractersticas numricas de una distribucin poblacional. El ms comun promedio utilizado en estadstica es la media o valor esperado o esperanza matemtica. Sea sobre una variable aleaoria definida sobre . defina por y sea una funcin real definida

Caso continuo

Suponga que de . Si

es una variable aleatoria continua y

la funcin de densidad o el valor

, entonces se define la media de por

esperado de

DISTRIBUCION UNIFORME Notacin: X UD( )

Definicin Es la ms simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada uno de los valores con una probabilidad idntica. " Sea la variable aleatoria X que puede asumir valores con idntica probabilidad. Entonces la distribucin uniforme discreta viene dada por:

O sea que el parmetro clave en esta distribucin es =nmero de valores que asume la variable aleatoria X y que sera un parmetro de conto. As por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles conforman el espacio muestral: La v.a X: nmero de puntos en la cara superior del dado tiene una distribucin de probabilidad Uniforme discreta, puesto que: = para en otro caso.

La representacin grfica de esta distribucin de probabilidad puede hacerse con un histograma para v.a. discreta, es en este caso la altura de

Planteemos sus caractersticas principales de tendencia central y dispersin. El valor esperado y varianza de una distribucin discreta uniforme se obtienen as: Valor esperado ( )

Varianza (

Para el caso del lanzamiento del dado: el valor esperado y la varianza del nmero de puntos en la cara superior son:

Ejercicio

(Walpole, pg 122) Seleccin de un empleado entre equipo de 10 con el fin de supervisar un proyecto especifico. Esa seleccin se hace al azar utilizando papeleta con nmeros. a- Cul es la probabilidad de que el nmero de la papeleta seleccionado sea menor de 4? ( b- Cul es la media y la varianza de la distribucin de probabilidad del nmero de la papeleta.? y

DISTRIBUCION EXPONENCIAL Notacin:

Introduccin Antes de introducir la variable exponencial puede mirarse un origen natural de sta a partir de una variable aleatoria Poisson, la cual indica el nmero de veces que ocurre un evento en una unidad de tiempo. Si se escribe la funcin de probabilidad Poisson de la siguiente manera:

la probabilidad de que no ocurra algn evento, en el periodo hasta el tiempo est dada por:

De esta manera, puede definirse ahora una variable aleatoria continua mide el tiempo que tarda en ocurrir el primer evento de Poisson. Es decir,

que

Lo que permite construir la funcin de distribucin acumulada as:

Al derivar, con respecto a aleatoria exponencial .

se tiene la funcin de densidad de la variable

Definicin La variable aleatoria que es igual a la distancia (o tiempo) entre ocurrencias tiene una distribucin

sucecesivas de un proceso Poisson con media exponencial con parmetro Funcin de densidad de Probabilidad:

Valor esperado: Observaciones:

Varianza:

1. En la definicin de la variable aleatoria exponencial, sta se plantea como tiempo que tarda en ocurrir el primer evento Poisson. Sin embargo, esta definicin puede hacerse extensiva a las dems unidades de medicin consideradas en los eventos de Poisson, por ejemplo, cantidad de metros de carretera que deben recorrerse hasta que aparezca el primer bache, cantidad de que deben inspeccionarse en una hacienda hasta que aparezca el primer cafetal de broca, etc. 2. En el lenguaje de las aplicaciones tambin se utiliza la distribucin exponencial para modelar tiempo entre eventos, distancia entre eventos, volumen entre eventos.

Ejemplo Supngase que la duracin de los instrumentos electrnicos D distribuciones Exponenciales asi : D D y D tienen

Cual se debe preferir para usarlo durante un periodo de 45 horas? Debera preferirse aquel instrumento que de mayor garanta de duracin para un mnimo de tiempo como el requerido, es decir, debe calcularse la probabilidad de que el instrumento dure por lo menos 45 horas, en cada caso.

El instrumento dos tiene mayor probabilidad de tener duracin de 45 o ms horas. Comprueba los anteriores resultados utilizando la funcin de distribucin.

DISTRIBUCION NORMAL Importancia de la distribucin normal La distribucin normal es de suma importancia en estadstica por tres razones principales: 1.Numerosas variables continuas de fenmenos comportarse probabilisticamente mediante sta. aleatorios tienden a

2.Es el lmite al que convergen tanto variables aleatorias continuas como discretas. 3.Proporciona la base de la inferencia estadstica clsica debido a su relacin con el teorema del lmite central.

Propiedades de la distribucin normal

1.Su grafica tiene forma acampanada. 2.El valor esperado, la mediana y la moda tienen el mismo valor cuando la variable aleatoria se distribuye normalmente. 3.Su dispersin media es igual a 1.33 desviacines estndar. Es decir, el alcance intercuartil est contenido dentro de un intervalo de dos tercios de una desviacin estndar por debajo de la media a dos tercios de una desviacin estndar por encima de la media.

En la prctica, algunas de las variables que observamos slo pueden aproximar estas propiedades. As que si el fenmeno puede mediarse aproximadamente mediante la distribucin normal se tendr: 1.Que el polgono puede verse en forma de campana y simtrico. 2.Sus mediciones de tendencia central tienen bastante parecido. 3.El valor intercuartil puede diferir ligeramente de 1.33 desviaciones estndar. 4.El dominio de la variable aleatoria normalmente distribuida generalmente caer dentro de 3 desviaciones estndar por encima y por debajo de la media. El modelo matemtico

El modelo o expresin matemtica que representa una funcin de densidad de probabilidad se denota mediante el smbolo tiene la siguiente funcin de probabilidad. . Para la distribucin normal, se

donde es la constante matemtica aproximada por 2.71828 es la constante matemtica aproximada por 3.14159

Parmetros es cualquier valor de la variable aleatoria continua, donde As,

A continuacin se presentan las grficas de las funciones de densidad Normal con el objetivo de observar cambios en la distribucin de probabilidad:

caso 1: Cuando se mantiene la misma media, pero cambia la varianza. Ejemplo:

caso 2: Cuando se mantiene la misma varianza, pero cambia la media. Ejemplo: ( y )

Ahora, al examinar la primera y segunda derivada de propiedades de la curva normal:

, se pueden listar otras

1.La moda, que es el punto sobre el eje horizontal donde la curva es un mximo ocurre cuando .

2.La curva es simtrica alrededor de un eje vertical a travs del valor esperado . , es cncava hacia abajo

3.La curva tiene sus puntos de inflexin en si

, y es cncava hacia arriba en cualquier otro punto.

4.La curva normal se aproxima al eje horizontal de manera asinttica conforme nos alejamos de la media en cualquier direccin. Haciendo una transformacin a la variable aleatoria normal , sta se puede

llevar a un nuevo conjunto de observaciones de una variable aleatoria normal con media cero y varianza 1. A dicha transformacin se le conoce como estadarizacin de la variable aleatoria normal :

Definicin La distribucin de probabilidad de una variable aleatoria normal con media cero y varianza 1 se llama distribucin normal estndar. Funcin de Densidad Normal (0,1)

Grfico 6.

En la distribucin normal estndar se sabe que las reas se distribuyen de la siguiente manera: Funcin de Densidad Normal (0,1)

Manejo de tablas La tabla anexa representa las probabilidades o reas bajo la curva normal calculadas hasta los valores partculares de inters (Transformados). Al

observar la tabla se observa que todos los valores deben registrarse primero con hasta dos lugares decimales. Por ejemplo, para leer el rea de probabilidad bajo la curva hasta , podemos recorrer hacia abajo la columna Z de la (en dcimas). As pues, nos

tabla hasta que ubiquemos el valor de inters detenemos en la fila

. A continuacin, leemos esta fila hasta que

intersecamos la columna que contiene el lugar de centsimas del valor ( ). Por tanto, en el cuerpo de la tabla, la probabilidad tabulada para z=1.57 corresponde a la interseccin de la fila z=1.5 con la columna z=0.07 y es 0.9418.

Teorema de Chebyshev. Si una variable aleatoria tiene una varianza o desviacin estndar pequea, esperaramos que la mayora de los valores se agrupan alrededor de la media. Por lo tanto, la probabilidad de que una variable aleatoria tome un valor dentro de cierto intervalo alrededor de la media es mayor que para una variable aleatoria similar con una desviacin estndar mayor si pensamos en la probabilidad en trminos de una rea, esperaramos una distribucin continua con un valor grande de que indique una variabilidad mayor y, por lo tanto, esperaramos que el rea este extendida. Sin embargo, una desviacin estndar pequea debera tener la mayor parte de su rea cercana a . Podemos argumentar lo mismo para una distribucin discreta. En el histograma de probabilidad. El rea se extiende mucho ms que. Lo cual indica una distribucin mas variable de mediciones o resultados el matemtico ruso P. L. Chebyschev (18211894) descubri que la fraccin de rea entre cualesquiera dos valores simtricos alrededor de la media esta relacionada con la desviacin estndar. Como el rea bajo una curva de distribucin de probabilidad, o de un histograma de probabilidad, suma 1, el rea entre cualesquiera dos nmeros es la probabilidad de que la variable aleatoria tome un valor entre estos nmeros. El siguiente teorema, debido a Chebyshev da una estimacin conservadora de la probabi8lidad de que una variable aleatoria tome un valor dentro de desviaciones estndar de su media para cualquier numero real proporcionaremos la demostracin solo para el caso continuo y se deja el caso discreto como ejercicio. Teorema de Chebyshev: La probabilidad de que cualquier variable aleatoria X, tome un valor dentro de la desviaciones estndar de la media es al menos 1 1 / 2. Es decir P ( - < X < + ) 1 12. Prueba: por nuestra definicin anterior de la varianza de X escribimos 2 = E [ (X - )2] = - (x + )2 (x) dx = - - k (x + )2 (x) dx + - k + k (x + )2 (x) dx + + k (x + )2 (x) dx - - k (x + )2 (x) dx + + k (x + )2 (x) dx

Ya que la segunda de las tres integrales es no negativa as como | x - | k , para cualquier x + k o x - k tenemos que (x - )2 k2 2 en ambas integrales restantes se sigue que 2 - - k k2 2 (x) dx + + k k2 2 (x) dx Y que - - k (x) dx + + k (x) dx 1_2. De aqu P ( - < X < + ) = - k + k (x) dx 1 1_2. Por lo cual queda establecido el teorema. Para k = 2 el teorema establece que la variable aleatoria x tiene una probabilidad de al menos 1 1 /22 = 3/4 de caer dentro de dos desviaciones estndar de la media, es decir tres cuartos o mas de las observaciones de cualquier distribucin yacen en el intervalo una 2 . De manera similar, el teorema que al menos ocho novenos de las observaciones de cualquier distribucin caen en el intervalo 3 . El teorema de Chebyshev tiene una valides para cualquier distribucin de observaciones y, por esta razn los resultados son generalmente dbiles el valor que el teorema proporciona es solo un limite inferior. Es decir, sabemos que la probabilidad de una variable aleatoria que cae dentro de dos desviaciones estndar de la media no puede ser menor que 3/4, pero nunca sabemos cuanto podra ser en realidad nicamente cuando se conoce la distribucin de probabilidad podemos determinar probabilidades exactas. Por esta razn llmanos al teorema resultado de distribucin libre cuando se supongan distribuciones especficas. El uso del teorema de Chebyshev se restringe a situaciones donde se desconoce la forma de la distribucin. EJEMPLO: 1.- Una variable aleatoria X tiene una media = 8 una varianza 2 = 9, y distribucin de probabilidad desconocida. Encuentre a) P (4 < X < 20). b) P (| X - 8 | 6). Solucin a) P (4 < X < 20) = P[ 8 (4) (3) < X < 8 + (4) (3) ] 15/14 b) P (| X - 8 | 6) = 1 P (| X - 8 | < 6) = 1 P (- 6 < X - 8 < 6) = 1 P [8 (2) (3) < X < 8 + (2) (3)] 8 < 6) .

Distribucin T de Student En la generalidad de los casos, no disponemos de la desviacin standard de la poblacin, sino de una estimacin calculada a partir de una muestra extrada de la misma y por lo tanto no podemos calcular Z. En estos casos calculamos el estadstico T:

con

donde S es la desviacin standard muestral, calculada con n-1 grados de libertad. Ntese que utilizamos S, la Desviacin Standard de una Muestra, en lugar de m, la Desviacin Standard de la Poblacin. El estadstico T tiene una distribucin que se denomina distribucin T de Student, que est tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calcul la desviacin standard. La distribucin T tiene en cuenta la incertidumbre en la estimacin de la desviacin standard de la poblacin, porque en realidad la tabla de T contiene las distribuciones de probabilidades para distintos grados de libertad.

La distribucin T es mas ancha que la distribucin normal tipificada Para un nmero de grados de libertad pequeo. Cuando los grados de libertad tienden a infinito, la distribucin T tiende a coincidir con la distribucin normal standard. Es decir, en la medida que aumentemos el nmero de observaciones de la muestra, la desviacin standard calculada estar mas prxima a la desviacin standard de la poblacin y entonces la distribucin T correspondiente se acerca a la distribucin normal standard. El uso de la distribucin T presupone que la poblacin con que estamos trabajando tiene una distribucin normal.

Distribucion X2(CHI-CUADRADA) En algunos casos se necesita probar si una variable o unos datos siguen determinada distribucin de probabilidad, un mtodo para hacer esta prueba es el de bondad de ajuste o chi-cuadrado. La informacin debe estar presentada en un cuadro de distribucin de frecuencias. Sea m el nmero de clases y nj el nmero de observaciones en cada clase (frecuencias observadas). Se trata de comparar los valores o frecuencias observadas (nj ) con las frecuencias que habra en cada grupo o clase o sea el valor esperado (ej ) si se cumple la hiptesis nula (H0 ). Las diferencias entre lo observado y lo esperado dan las discrepancias entre la teora y la realidad. Si no hay diferencias, la realidad coincidir perfectamente con la teora y por el contrario, si las diferencias son grandes indica que la realidad y la teora no se parecen. Los pasos a seguir son: Hiptesis H0 : La variable tiene distribucin X con tales parmetros H1 : La variable no tiene la distribucin X

Estadistica de Trabajo

(3.15) nj : frecuencia observada en la muestra ej : frecuencia esperada segn la distribucin terica n: tamao de la muestra Nota. El nmero de observaciones esperadas en cada clase debe ser mayor o igual a 5, es decir, ej 5. Si esto no ocurre se unen las clases adyacentes hasta cumplir el requisito. Al unir las clases se disminuirn los grados de libertad de la chi-cuadrado.

La regla de decisin se observa en la figura 3.20.

Figura 3.20 Regla de decisin: prueba bondad de ajuste

DISTRIBUCIN F DE FISHER Considerando dos muestras aleatorias independientes, de tamao n1 y n2, extradas de una poblacin normal, el estadstico F ser DEFINICIN Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por sus correspondientes grados de libertad. CARACTERISTICAS

Una variable con distribucin F es siempre positiva por lo tanto su campo de variacin es 0 " F " " La distribucin de la variable es asimtrica, pero su asimetra disminuye cuando aumentan los grados de libertad del numerador y denominador. Hay una distribucin F por cada par de grados de libertad. Parmetros: Grados de libertad asociados al numerador y denominador

Cmo se deduce una distribucin F?

Extraiga k pares de muestras aleatorias independientes de tamao n < 30.

Calcule para cada par el cociente de variancias que proporciona un valor de F. Graficar los valores de F de los k pares de muestras.

Distribucin F para diferentes grados de libertad

Bibliografia.http://html.rincondelvago.com/distribuciones-de-probabilidad_1.html http://www.virtual.unal.edu.co/unvPortal/courses/searchCoursesByName.do http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/docs_curso/cont enido.html

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

1.-Muestreo probabilstico Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos: El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y dicha probabilidad no es nula para ningn elemento. Los mtodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la poblacin. (En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la poblacin.)

Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos:


Muestreo aleatorio simple Muestreo estratificado Muestreo sistemtico Muestreo polietpico o por conglomerados

Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada individuo de la poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamao de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande. Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k= N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k. El riesgo este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos. Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede

estratificar, por ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la poblacin. (Tamao geogrfico, sexos, edades,...). La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin Simple: A cada estrato le corresponde igual nmero de elementos mustrales. Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato. Afijacin Optima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin. Muestreo aleatorio por conglomerados: Los mtodos presentados hasta ahora estn pensados para seleccionar directamente los elementos de la poblacin, es decir, que las unidades mustrales son los elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por reas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos.

2.-ESTIMACIN PUNTUAL Si a partir de las observaciones de una muestra se calcula un solo valor como estimacin de un parmetro de la poblacin desconocido, el procedimientose denomina estimacin puntual. Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de matemticas que notaremos . Sea X la variable aleatoria que indica la nota obtenida por cada estudiante. Tomamos una muestra de tamao n y denotamos la nota media de la muestra. Si al tomar una muestra de 100 estudiantes obtenemos que la media es 62, este nmero lo tomaramos como estimativo de . Decimos que 62 es una estimacin puntual de .

Un estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de los datos muestrales obtener valores aproximados del parmetro . escribimos =T .

Para indicar que T es un estimador del parmetro

Con esto queremos decir que empleamos la expresin dada mediante T para obtener valores prximos al valor del parmetro. Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el nmero de observaciones al azar se hace suficientemente grande, stas proporcionaran un valor que casi sera semejante al parmetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendr que trabajar con unas cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor forma posible, se necesita identificar las estadsticas que sean buenos estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadstica es un buen estimador: Insesgamiento, eficiencia,consistencia y suficiencia. PROPIEDADES DE UN ESTIMADOR Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrtico medio. Sea T un estimador del parmetro . El error cuadrtico medio de T,

denotado ECM(T), se define como el valor esperado de (T- )2 . ECM(T) = E[(T- )2] Cul es la informacin que nos proporciona el error cuadrtico medio? Nos referimos al promedio de los cuadrados de las observaciones. Si ste es pequeo, debemos aceptar que hay una tendencia para que los valores (T- ) sean pequeos, y as lo ser tambin la diferencia (T- ), lo que quiere decir que T tiende a producir respuestas numricas prximas al parmetro . El poder que tenga T para producir valores prximos a depende de dos condiciones bsicas. Una es la fuerza o intensidad con la que tiende a dar esos valores(insesgamiento) y la otra es la fuerza que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Esta dos condiciones matemticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parmetro , ECM(T) = V[T] [ -E(T)]2

Demostracin: ECM(T) = E[(T- )2] = E[T2 - 2 T +


2 2

] = E(T2)-E(2 T)+E(
2

) = E(T2) -2 E(T) + E(

) = E(T2) [E(T)]2 + [E(T)]2 - 2 E(T) +


2

= (E(T2) [E(T)]2) + ([E(T)]2- 2 E(T)

) = V(T) + [

- E(T)]2.

De esta expresin deducimos que el error cuadrtico medio sera pequeo en la medida que lo sea su varianza y lo mismo ocurra con [ -E(T)]2, es decir -E(T).

El valor pequeo de la varianza quiere decir que T presenta poca variabilidad; el hecho de que -E(T) sea pequeo quiere decir que E(T) tiende al valor a medida que el experimento se repite, lo que indica que T tiende a dar valores prximos al parmetro. La diferencia -E(T) se llama sesgo del estimador.

Estudiaremos un ejemplo que nos muestra como las dos propiedades anteriores pueden no ser suficientes paradeterminar el mejor estimador: Ejemplo: Sea X1, X2, ..., Xn una muestra aleatoria de una poblacin de media

desconocida y varianza =81. Consideremos T1= yT2= como estimadores de la media, si obtenemos el error cuadrtico medio para el primer estimador utilizando el teorema anterior obtenemos haciendo lo mismo para

el segundo estimador obtenemos

Supongamos que tenemos que escoger uno de los dos estimadores. Para ello debemos tomar aquel que tenga menor error cuadrtico medio. Trabajando con las frmulas podemos observar que va a depender del valor de la media. En este ejemplo observamos que para escoger el mejor estimador tendramos que saber cul es el verdadero valor de la media poblacional. Pero nosotros pretendemos es contar con criterios que garanticen una buena seleccin del estimador, sin importar el valor particular del parmetro objeto de estudio. Para precisar estos criterios estudiaremos el error cuadrtico medio en sus partes y as iniciamos el estudio de la diferencia - E(T).

Se dice que una estadstica T es un estimador insesgado de E(T)= para cualquier valor de .

, si se cumple que

Volviendo al ejemplo anterior tendramos que la media muestral es un estimador insesgado de la media de la poblacin mientras queT2 no lo es. Tambin podemos decir que un estimador insesgadoes aquel que tiene sesgo igual a cero. TEOREMA: Sea X1, X2, ..., Xn una muestra aleatoria de cierta distribucin de media varianza a)T1= . Entonces: . . y

es un estimador insesgado de

b)T2=S2 es un estimador insesgado de

La propiedad de insesgamiento nos garantiza que las estimaciones que hagamos con el estimador se encuentran alrededor del parmetro en cuestin, de esto podemos deducir la siguienteREGLA DE PROCEDIMIENTO: REGLA 1 : Si tenemos T1 y T2 estimadores del parmetro insesgado, entonces escoja el insesgado. y uno de ellos es

Continuando con el ejemplo escogeramos la media muestral como mejor estimador de la media. Los siguientes grficos ilustran el significado de estimador insesgado y estimador sesgado

Una vez que tenemos dos estimadores con el mismo sesgo deberamos tener otra regla que nos permita elegir uno en lugar del otro, as llegamos a la SEGUNDA REGLA DE PROCEDIMIENTO : REGLA 2 : Si tenemos T1 y T2 estimadores del parmetro entonces escoja el de menor varianza. ambos insesgado,

Tenemos que tener en cuenta otras propiedades de los estimadores consistencia y eficiencia. La consistencia se refiere al comportamiento de un estimador, a medida que la muestra se va tomando de un tamao mayor. T es un estimador consistente para n tiende a infinito. , si se cumple que , cuando

Es decir un estimador es consistente si a medida que aumenta el tamao de la muestra, la probabilidad de que se acerque al parmetro va siendo mayor. Un estimador T del parmetro es suficiente cuando es capaz de sustraer de la muestra toda la informacin que sta contengaacerca del parmetro.

3.-ESTIMACIN POR INTERVALOS DE CONFIANZA. Nos proponemos determinar dos nmeros entre los cuales se halla el parmetro estudiado con cierta certeza. El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del estimador. Ejemplo Tratamos de obtener un intervalo de confianza para la media de una poblacin normal. Sabemos que si X sigue una normal de media y varianza entonces la media muestral sigue una normal de la misma media y de varianza la varianza poblacional partida por n, tamao de la muestra. Vamos a determinar a y b tales que P[a< <b]=095.

Para calcular estos valores es necesario estandarizar X:

= 095.

Por lo tanto

= 095.

En realidad hay infinitos pares de nmeros para los que se cumple la ecuacin anterior. De stos vamos a escoger el par de nmeros que se hallan situados simtricamente respecto de cero en la distribucin normal. Llegamos a que

A partir de estas ecuaciones obtenemos a =

yb=

Con lo que obtendramos

O lo que es lo mismo

El

intervalo .

se

llama intervalo

(aleatorio)

de

confianza para

A partir de los datos muestrales podemos determinar el valor de y obtenemos as un intervalo numrico. El valor 196 se debe a que pedamos una probabilidad de 095. Para indicar el intervalo para cualquier valor de

probabilidad podemos utilizar la expresin

. Expresin que

puede simplificarse

, se llama longitud del intervalo. Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede incluido en dicho intervalo. El nivel de confianza de un intervalo es una probabilidad(expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parmetro .

En el ejemplo el nivel de confianza es del 95%.En general el nivel de confianza se expresa en la forma 100(1- )%. (1- )=095. El valor representa la probabilidad de que el parmetro quede fuera del intervalo y en este caso es 0 5. Esta situacin la representaremos en el siguiente grfico:

Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza dado. Este valor se llama coeficiente de confiabilidad y se denota: NORMAL DISTRIBUCIN T JI CUADRADO DISTRIBUCIN F

Si queremos un intervalo con un nivel de confianza de 100(1- )%, en la tabla correspondiente buscaremos un valor de variable para el que el rea de cola superior(tambin inferior) sea del 100(1- /2)% ya que la porcin de rea que no ser cubierta por el intervalo debe tener una medida de tamao y se toma como norma general de procedimientoque se reparta en partes iguales entre las dos colas. Los tres conceptos bsicos que encierra un intervalo quedan resumidos en la expresin general para un intervalo de confianza: ESTIMADOR Ejemplo: Sea X la variable aleatoria que se utiliza para designar el peso de un pasajero de avin y que interesa conocer , el peso medio de todos los pasajeros. Para ello tomamos una muestra de 36 pasajeros y obtenemos una media muestral de 160 libras. Supongamos que la distribucin de los pasajeros sea normal con desviacin estndar 36. Calcula el intervalo del 95% de confianza.. (COEF. DE CONF.) . (ERROR ESTNDAR)

El intervalo est dado por la expresin y obtenemos 160 8].

, reemplazamos los valores

(196).(30/6). Por lo tanto el intervalo pedido es: [1502,169

Si nos hubieran pedido un intervalo del 90% de confianza tendramos 160 645).(30/6). Y el intervalo pedido es [15178,16823].

(1

Podramos construir tambin un intervalo de confianza del 99% obteniendo 160 (2575).(30/6). Y el intervalo sera [14713,17288]. Al observar los intervalos podemos notar que a medida que se aumenta el nivel de confianza la longitud del intervalo tambin aumenta como podemos ver en la figura.

Tenemos las siguientes propiedades sobre la longitud del intervalo: PROPIEDAD 1. Para un tamao de muestra y una varianza dada a medida que aumenta el nivel de confianza tambin lo hace la longitud del intervalo PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamao de la muestra aumenta la longitud del intervalo disminuye. Estas propiedades se deducen de la expresin de la longitud del intervalo L=

. Como podemos ver si la varianza se considera fija la frmula est sujeta a dos nmeros cuyas acciones se contraponen en cuanto a la longitud, el nivel de confianza y el tamao de la muestra.. Para que un intervalo sea tomado en cuenta con algn inters, el nivel de confianza debe ser alto. Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilsticay otra prctica. Veamos cmo son en el caso de la media: Desde un punto de vista de la probabilidad se dice: En el muestreo aleatorio simple de una poblacin normal de media y varianza conocida, el

100(1-

)% de todos los intervalos de la forma .

incluir la media

desconocida

Aplicando esto al ejemplo anterior podemos decir que de 100 muestras de tamao 36 que escojamos de los pasajeros del avin, 95 de ellas(aproximadamente) producirn intervalos que contendrn el verdadero peso promedio . O lo que es lo mismo, de 100 intervalos obtenidos por la frmula anterior 95 de ellos contendrn el verdadero valor del parmetro. De la interpretacin probabilstica se desprende la prctica que se establece as: Si se realiza un muestreo aleatorio simple en una poblacin normal con media y varianza conocida , se tiene el 100(1)% de confianza de que el

intervalo particular desconocido

contendr el

verdadero valor del parmetro

En el ejemplo diremos que tenemos una confianza o certeza del 95% de que el verdadero peso promedio de los pasajeros del avin est entre 1502 y 1698 libras. MEDIA POBLACIN NORMAL VARIANZA CONOCIDA O VARIANZA DESCONOCIDA Y N>30 POBLACIN NORMAL VARIANZA DESCONOCIDA Y N<30 DIFERENCIA POBLACIONES NORMALES INDEPENDIEN TES. EJERCICIO 3 EJERCICIO 2 EJERCICIO 1

VARIANZAS CONOCIDAS. DE MEDIAS POBLACIONES NORMALES INDEPENDIEN TES. VARIANZAS IGUALES DESCONOCIDA S SE RECOMIENDA PROPORCI EL USO DE N ESTA FRMULA EN MUESTRAS DE TAMAO GRANDE DIFERENCIA DE PROPORCIO NES SE RECOMIENDA EL USO DE ESTA FRMULA EN MUESTRAS DE TAMAO GRANDE POBLACIONES NORMALES EJERCICIO 5 EJERCICIO 4

EJERCICIO 6

VARIANZA

EJERCICIO 7 EJERCICIO 8 ;

COCIENTE MUESTRAS DE INDEPENDIEN VARIANZAS TES DE POBLACIONES NORMALES

b=

5.-Pruebas de hiptesis Generalidades e importancia de los ensayos de hiptesis.Un ensayo de hiptesis se puede utilizar para tomar una decisin respecto a una afirmacin hecha sobre el valor de uno o ms parmetros poblacionales, sobre la forma especfica de la distribucin de una determinada caracterstica, sobre la independencia (o correlacin) de distintas variables, sobre mejoras introducidas (por ej. en tratamientos o procesos), etc. El uso y formulacin correcta de las hiptesis le permiten al investigador poner a prueba aspectos de la realidad, disminuyendo la distorsin que pudieran producir sus propios deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablemente correctas o incorrectas sin que interfieran los valores o creencias del individuo. En principio se establece una hiptesis nula (H0) y se analiza si la informacin estadstica obtenida es suficiente o no para rechazarla. Por otro lado, se define la hiptesis alternativa (H1), que sera la afirmacin a aceptar cuando la H0 es rechazada. El resultado del test puede ser rechazar H0 en favor de H1 o no rechazar H0 (tambin puede no hacerse nada y pedir ms datos antes de decidir).

Hipotesis nula o Hipotesis alterna Una hiptesis estadstica es una proposicin o supuesto sobre los parmetros de una o ms poblaciones. Suponga que se tiene inters en la rapidez de combustin de un agente propulsor slido utilizado en los sistemas de salida de emergencia para la tripulacin de aeronaves. El inters se centra sobre la rapidez de combustin promedio. De manera especfica, el inters recae en decir si la rapidez de combustin promedio es o no 50 cm/s. Esto puede expresarse de manera formal como Ho; H1; = 50 cm/s 50 cm/s = 50 cm/s, se conoce como hiptesis nula, mientras que H1; 50 cm/s, recibe el nombre de hiptesis

La proposicin Ho; la proposicin

alternativa. Puesto que la hiptesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, tambin se conoce como hiptesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una hiptesis alternativa unilateral, como en Ho; H1; < 50 cm/s H1; > 50 cm/s = 50 cm/s Ho; = 50 cm/s

Es importante recordar que las hiptesis siempre son proposiciones sobre la poblacin o distribucin bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parmetro de la poblacin especificado en la hiptesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hiptesis usualmente es determinar si ha cambiado el valor del parmetro. 2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hiptesis es verificar la teora o modelo. 3. Cuando el valor del parmetro proviene de consideraciones externas, tales como las especificaciones de diseo o ingeniera, o de obligaciones contractuales. En esta situacin, el objetivo usual de la prueba de hiptesis es probar el cumplimiento de las especificaciones.

Un procedimiento que conduce a una decisin sobre una hiptesis en particular recibe el nombre de prueba de hiptesis. Los procedimientos de prueba de hiptesis dependen del empleo de la informacin contenida en la muestra aleatoria de la poblacin de inters. Si esta informacin es consistente con la hiptesis, se concluye que sta es verdadera; sin embargo si esta informacin es inconsistente con la hiptesis, se concluye que esta es falsa. Debe hacerse hincapi en que la verdad o falsedad de una hiptesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la poblacin. Usualmente esto es imposible en muchas situaciones prcticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hiptesis teniendo en cuenta la probabilidad de llegar a una conclusin equivocada. La hiptesis nula, representada por Ho, es la afirmacin sobre una o ms caractersticas de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hiptesis alternativa, representada por H1, es la afirmacin contradictoria a Ho, y sta es la hiptesis del investigador. La hiptesis nula se rechaza en favor de la hiptesis alternativa, slo si la evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se contina creyendo en la validez de la hiptesis nula. Entonces, las dos conclusiones posibles de un anlisis por prueba de hiptesis son rechazar Ho o no rechazar Ho. Niveles de Significacin.Al contrastar una cierta hiptesis, la mxima probabilidad con la que estamos dispuesto a correr el riesgo de cometern error de tipo I, se llama nivel de significacin. Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan en nuestra eleccin. En la prctica, es frecuente un nivel de significacin de 0,05 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel de significacin 0,05 ( 5%) al disear una regla de decisin, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hiptesis cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisin correcta. En tal caso decimos que la hiptesis ha sido rechazada al nivel de significacin 0,05, lo cual quiere decir que tal hiptesis tiene una probabilidad 0,05 de ser falsa. Regla de decisin.-

Un regla de decisin indica las condiciones bajo las cuales se rechaza la hiptesis nula. Esta regla especifica la accin a tomar para cada resultado muestral posible. Errores de tipo I y de tipo II.Si rechazamos una hiptesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hiptesis que debiera ser rechazada, diremos que se cometi un error de tipo II. En ambos casos, se ha producido un juicio errneo. Para que las reglas de decisin (o no contraste de hiptesis) sean buenos, deben disearse de modo que minimicen los errores de la decisin; y no es una cuestin sencilla, porque para cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir acompaado de un crecimiento del otro tipo. En la prctica, un tipo de error puede ser ms grave que el otro, y debe alcanzarse un compromiso que disminuya el error ms grave. La nica forma de disminuir ambos a la vez es aumentar el tamao de la muestra que no siempre es posible.

Pruebas de Hiptesis para la media.El promedio aritmtico poblacional es un indicador muy importante, por lo tanto, frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado o ha disminudo. A travs de la prueba de hiptesis se determina si la media poblacional es significativamente mayor o menor que

algn valor supuesto. Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : =k k

- Prueba de hiptesis a una cola superior H0 : =k H0 : H1 : k >k

H1 : >k

- Prueba de hiptesis a una cola inferior H0 : =k H0 : k

H1 : < k

H1 : < k

En las distribuciones en el muestreo se vi que para el caso de la media, hay tres situaciones, por consiguiente la estadstica de trabajo a utilizar depende de los supuestos de la poblacin y del tamao de la muestra. Prueba de hiptesis para la media si la poblacin de donde se obtiene la muestra tiene distribucin normal con conocida. La estadstica de trabajo a usar corresponde a la expresin (1.6):

(3.1) Donde: (H0). es el valor que se est suponiendo en la hiptesis nula

REGLA DE DECISION - Si se ha planteado la hiptesis alternativa como: H1 : k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia

en la figura 3.1

Figura 3.1 Regla de decisin para una prueba de hiptesis a dos colas. y pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zx) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir:

- Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2

Figura 3.2 Regla de decisin para una prueba de hiptesis a una cola superior. pertenece a una distribucin normal estndar. Si el valor de

la estadstica de trabajo (Zx) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3

Figura 3.3 Regla de decisin para una prueba de hiptesis a una cola inferior. Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zx) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

EJEMPLO Un proceso manufacturero usado por una fbrica durante los ltimos aos da una produccin media de 100 unidades por hora con una desviacin estndar de 8 unidades. Se acaba de introducir en el mercado una nueva mquina para realizar ese tipo de producto. Aunque es muy cara comparada con la que est ahora en uso, si la media de produccin de la nueva mquina es de ms de 150 unidades por hora, su adopcin dara

bastantes beneficios. Para decidir si se debiera comprar la nueva mquina, a la gerencia de la fbrica se le permite hacer un ensayo durante 35 horas, hallndose un promedio de 160 unidades por hora. Con sta informacin qu decisin se debe tomar si se asume un nivel de confianza del 99 por ciento. Solucin . Segn el enunciado, solo se compra la mquina si la produccin es de mas de 150 unidades por hora, por lo tanto las hiptesis son: H0 : = 150

H1 : > 150 Para elegir la estadstica de trabajo se tiene en cuenta que se conoce la varianza poblacional, por lo tanto se usa la expresin 3.1

por el planteamiento de la hiptesis alternativa se trabaja a una cola superior. En la distribucin normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. como puede observarse en la figura 3.4, la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por lo tanto, se acepta que la produccin promedio por hora es superior a las 150 unidades y asumiendo un riesgo del 1 por ciento se puede comprar la nueva mquina.

Figura 3.4 Regla de desicin para una prueba de hiptesis a una cola inferior. Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n 30 de una poblacin con cualquier distribucin. La estadstica de trabajo a usar es la expresin (1.7):

REGLA DE DECISION Es la misma que en el caso anterior y depende en todo caso de la hiptesis alternativa. EJEMPLO La duracin promedio de las llantas producidas por una fbrica de llantas, segn experiencias registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duracin promedio de 45.050 kms. con una desviacin estndar de 3.070 kms. Solucin H0: H1 : = 46.050 46.050

Teniendo en cuenta que el tamao de la muestra es grande, como estadstica de trabajo se utiliza la expresin 3.2

Por la hiptesis alternativa, la regla de decisin es a dos colas. La tabla a utilizar es la de la distribucin normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores de Z son -1,96 y 1,96. Como puede observarse en la figura 3.5, el valor de la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95

por ciento se acepta que la duracin promedio de las llantas ha cambiado.

Figura 3.5 Regla de decisin para una prueba de hiptesis a dos colas Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n<30 . En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida. Si se utiliza la varianza sin corregir ( trabajo es la expresin (1.8): ) la estadstica de

(3.3) Si se utiliza la varianza corregida la estadstica de trabajo es la expresin (1.9):

(3.4) EJEMPLO En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria de doce (12) sobres de caf de una empacadora. Se encuentra que el peso promedio del contenido de caf de cada sobre es 15,97 grs. con una desviacin estndar de 0,15. La compaa empacadora afirma que el peso promedio mnimo del caf es de 16 grs. por sobre. Puede aceptarse sta

afirmacin si se asume un nivel de confianza del 90 por ciento? Solucin Se desea probar si el peso mnimo es de 16 grs., es decir mayor o igual a 16 grs., as que las hiiptesis adecuadas son: H0 : H1 : 16 < 16

Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la expresin 3.3 Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la expresin 3.3

Como lo indica la hiptesis alternativa, se trabaja a una cola inferior en la tabla de la distribucin t con 11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363 Como puede observarse (figura 3.6), la estadstica de trabajo (0,663) est ubicada en la zona de no rechazo de la hiptesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza que los empacadores de caf tienen la razn, por lo tanto se concluye que el peso promedio de los sobres de caf es mayor o igual a 16 grs.

Figura 3.6 Regla de decisin para una prueba de hiptesis a una

cola inferior

Pruebas de hiptesis para la proporcin.Frecuentemente se desea estimar la proporcin de elementos que tienen una caracterstica determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza informacin cualitativa y se est interesado en verificar un supuesto acerca de la proporcin poblacional de elementos que tienen determinada caracterstica, es til trabajar con la prueba de hiptesis para la proporcin. HIPTESIS Como en el caso de la media, se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : =k k

- Prueba de hiptesis a una cola superior H0 : =k H0 : H1 : k >k

H1 : > k

- Prueba de hiptesis a una cola inferior H0 : H1: =k <k H0 : H1 : k <k

Cuando se va a estimar una proporcin el tamao de la muestra (n) siempre debe ser mayor a 30, por lo tanto se tiene un solo caso. La estadstica de trabajo a utilizar es la expresin (1.13):

(3.5) REGLA DE DECISION Si se ha planteado la hiptesis alternativa como: H1: k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.1 y pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, vease figura 3.2 pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp ) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, vease figura 3.3 Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp ) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp > Z no se rechaza H0 . EJEMPLO Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que suministra a una fbrica guardan las formas especificadas. Un exmen de 200 de esas piezas revel que 160 de ellas no eran defectuosas. Pruebe si lo que

afirma el fabricante es cierto. Solucin H0 : H1 : 0,9 < 0,9

Para realizar una prueba de hiptesis para la proporcin se utiliza la expresin 3.5

Asumiendo una confiabilidad del 95 por ciento, correspondiente a Z en la distribucin normal es -1,64

el

valor

Como puede observarse en la figura 3.7, el valor de la estadstica de trabajo se encuentra en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye que la afirmacin del fabricante no es cierta.

Figura 3.7 Regla de decisin para una prueba de hiptesis a una cola inferior

Prueba de hiptesis para la varianza.Es frecuente que se desee comprobar si la variacin o dispersin de una variable ha tenido alguna modificacin, lo cual se hace con la prueba de hiptesis para la varianza. Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : =k k

- Prueba de hiptesis a una cola superior H0 : H1 : =k >k H0 : H1 : k >k

- Prueba de hiptesis a una cola inferior H0 : H1 : =k <k H1 : H1 : k <k

En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida. Si se utiliza la varianza sin corregir ( expresin (1.4): ) la estadstica de trabajo es la

(3.6)

Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):

(3.7) REGLA DE DECISION - Si se ha planteado la hiptesis alternativa como: H1 : k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.8

Figura 3.8 Regla de decisin para una prueba de hiptesis a dos colas y pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si <T< no se rechaza H0. - Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, vease figura 3.9

Figura 3.9 Regla de decisin para una prueba de hiptesis a una cola superior Z1- pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si T < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, vease figura 3.10

Figura 3.10 Regla de decisin para una prueba de hiptesis a una cola inferior Z pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si T >Z no se rechaza H0. EJEMPLO Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con una varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7

Con sta informacin pruebe si lo que se cree es cierto. Solucin Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto: H0 : H1 : = 0,2 > 0,2

Para realizar esta prueba de hiptesis se utiliza la expresin 3.6

Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.

Figura 3.11 Regla de decisin para una prueba de hiptesis a una cola superior

Prueba de hiptesis para la diferencia de medias.Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaos n 1 y n 2 , se puede comparar el comportamiento de dichas poblaciones a travs de los promedios. Hiptesis Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : = H0 : H1 : =k k

- Prueba de hiptesis a una cola superior H0 : H1 : = > H0 : H1 : k >k

- Prueba de hiptesis a una cola inferior H0 : H1 : = < H0 : H1 : k <k

La estadstica de trabajo depende de las caractersticas de las poblaciones y del tamao de las muestras. Prueba de hiptesis para la diferencia de medias, si las muestras se obtienen de poblaciones con distribucin normal, con varianzas poblacionales conocidas , la estadstica de trabajo es la expresin (1.10):

(3.9)

REGLA DE DECISION - Si se ha planteado la hiptesis alternativa como: H1 : > H1 : > k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.1 y pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir,

- Si se ha planteado la hiptesis alternativa como: H1 : > H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2 pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es menor que se acepta la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H<sub>1 . Es decir,

- Si se ha planteado la hiptesis alternativa como:

H1 : < H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3 Z pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir,

EJEMPLO Un constructor est considerando dos lugares alternativos para construir un centro comercial. Como los ingresos de los hogares de la comunidad son una consideracin importante en sta seleccin, desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la informacin de un censo realizado el ao anterior sabe que la desviacin estndar del ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400 Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la hiptesis con un nivel de confianza del 95 por ciento. Solucin Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o ms, por lo tanto: H0 : H1 : 1.500 < 1.500

El tamao de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la estadstica de trabajo a utilizar es la expresin 3.9

Para un nivel de confianza del 95 por ciento, en la tabla de la distribucin normal se tiene un valor de Z de -1,64. Como puede observarse en la figura 3.13, la estadstica de trabajo se ubica en la zona de aceptacin de la hiptesis nula; por

lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

Figura 3.13 Regla de decisin para una prueba de hiptesis a una cola inferior Prueba de hiptesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribuciones diferentes a la normal, pero n1 30 y n2 30 y varianzas poblacionales desconocidas , la estadstica de trabajo es igual al caso anterior, solo que se reemplaza la varianza poblacional por la muestral:

(3.10) REGLA DE DECISIN La regla de decisin es la misma que en caso anterior y en todo caso, depende de la hiptesis alternativa. EJEMPLO Una muestra de 80 alambres de acero producidos por la fbrica A presenta una resistencia promedio a la ruptura de 1.230 lbs . con una desviacin estndar de 120 lbs .. Una muestra de 100 alambres de acero producidos por la fbrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con una desviacin estndar de 90 lbs .. Con base en sta informacin pruebe si la resistencia promedio a la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres de acero de la marca B. Asuma un nivel de confianza del 99 por ciento. Solucin

H0 : A = B H1 : A > B El tamao de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la estadstica de trabajo a utilizar es la expresin 3.10

Con un nivel del confianza del 99 por ciento, en la tabla de la distribucin normal el valor de Z es 2,33. como puede observarse en la figura 3.14, la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de los alambres de la marca B.

Figura 3.14 Regla de decisin para una prueba de hiptesis a una cola superior Prueba de hiptesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribucin normal, con varianzas poblacionales iguales pero desconocidas y n1 <30 y n2 <30 , la estadstica de trabajo es la expresin (1.11):

(3.11) REGLA DE DECISIN

La regla de decisin es la misma que en los casos anteriores, pero los valores de la tabla se hallan en una distribucin t con (n1 +n2 -2) grados de libertad. Nota . Cuando se tienen muestras pequeas y se va a realizar una prueba de hiptesis para la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o diferentes, lo cual se hace con la prueba de hiptesis para el cociente de varianzas. Si las varianzas son iguales se aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4. EJEMPLO Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las bolsas de papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal efecto se tom una muestra aleatoria de 25 bolsas, midindose la cantidad de cera en cada lado de esas bolsas, obtenindose los siguientes resultados:

Con base en esta informacin cul es su conclusin?. Asuma un nivel de confianza del 90 por ciento. Solucin Con la informacin suministrada se obtienen los estimadores necesarios:

En consideracin a que el tamao de las muestras es pequeo, antes de realizar la prueba de hiptesis para la diferencia de medias, se debe probar si las varianzas poblacionales son iguales o diferentes. H0 : H1 : / / =1 1

Para la estadstica de trabajo se utiliza la expresin 3.8:

Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 24 grados de libertad en el numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es 0,505 y el valor de Z 0,95 es 1,98. como puede observarse en la figura 3.15, la estadstica de trabajo cae en la zona de no rechazo de la hiptesis nula, por consiguiente las varianzas poblacionales son iguales.

Como las varianzas poblacionales son iguales, para realizar la prueba de hiptesis para la diferencia de medias se usa la expresin 3.11 H0 : I E

H1 : I > E

Con una confiabilidad del 90 por ciento, en la tabla de la distribucin t con 48 grados de libertad, el valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadstica de trabajo se encuentra en la zona de no rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que la cantidad promedio de cera en el lado interno no es mayor que la cantidad promedio de cera en el lado externo.

Figura 3.16 Regla de decisin para una prueba de hiptesis a una cola superior

Pruebas de hiptesis para la diferencia de proporciones.Cuando se tienen dos poblaciones y se han tomado muestras aleatorias de tamaos n 1 y n 2, para observar una caracterstica o cualidad, se puede comparar el comportamiento de dicha caracterstica en las poblaciones a travs de la diferencia de proporciones. Hiptesis Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : 1 = 2 H0 : 1 - 2 = k

H1 : 1

2 H1 : 1 - 2

- Prueba de hiptesis a una cola superior H0 : 1 = 2 H0 : 1 - 2 k

H1 : 1 > 2 H1 : 1 - 2 > k

- Prueba de hiptesis a una cola inferior H0 : 1 = 2 H0 : 1 - 2 H1 : 1 < 2 H1 : 1 - 2 < k k

La estadstica de trabajo es la expresin 1.14:

(3.14) REGLA DE DECISION Como en los casos anteriores depende del tipo de hiptesis que se haya planteado. - Si se ha planteado la hiptesis alternativa como: H1 : 1 2 H1 : p 1 - p 2 k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.1 y pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Zp1-p2 ) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp1-p2 < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : 1 > 2 H1 : 1 - 2 > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2

pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp1-p2 < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : 1 < 2 H1 : 1 - 2 < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3 Z pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Zp1-p2) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .

Prueba de hiptesis para la relacin de varianzas.Si de dos poblaciones con distribucin normal se seleccionan dos muestras aleatorias independientes de tamaos n1 y n2 , se puede comparar la homogeneidad o variabilidad de dichas poblaciones a travs de una prueba de hiptesis para el cociente de varianzas. Cuando se planteen las hiptesis debe quedar en el numerador la poblacin cuya muestra tenga mayor varianza. Es decir que la poblacin 1 ser la que tenga mayor varianza muestral.

Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : = H0 : H1 : / / =1 1

- Prueba de hiptesis a una cola superior H0 : H1 : = > H0 : H1 : / / 1 >1

- Prueba de hiptesis a una cola inferior H0 : H1 : = < H0 : H1 : / / 1 <1

La estadstica de trabajo es la expresin (1.15)

(3.8) REGLA DE DECISION Si se ha planteado la hiptesis alternativa como: H1 : H1 : / 1 se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.8 y pertenecen a una distribucin F con (n1 -1) grado de libertad en el numerador y (n2-1) grado de libertad en el denominador. Si el valor de la estadstica de trabajo (T) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < T < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : > H1 : / > 1 , se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.9

Z 1- a pertenece a una distribucin F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de libertad en el denominador. Si el valor de la estadstica de trabajo (T) es menor que Z 1- a no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T < Z 1- a no se rechaza H o . - Si se ha planteado la hiptesis alternativa como: H1 : < H1 : / < 1 , se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.10 Z a pertenece a una distribucin F con (n1 -1) grado de libertad en el numerador y (n2 -1) grado de libertad en el denominador. Si el valor de la estadstica de trabajo (T) es mayor que Z a no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no se rechaza H0 . EJEMPLO Dos fuentes de materias primas estn siendo consideradas. Ambas fuentes parecen tener caractersticas similares, pero no se est seguro de su homogeneidad. Una muestra de 10 grupos de la fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una varianza de 195. Con base en sta informacin se puede concluir que la varianza de la fuente A es significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento. Solucin H0: H1 : A= A> B B

Con un nivel de confianza del 99 por ciento, en la tabla de la distribucin F con 9 grados de libertad en el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como puede observarse en la figura 3.12, el valor de la estadstica de trabajo est en la zona de no rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la variabilidad de las dos fuentes de materia prima es igual.

Figura 3.12 Regla de decisin para una prueba de Hiptesis a una cola superior

Ajuste de distribuciones de frecuencia a distribuciones de probabilidad. AJUSTE DE UNA SERIE DE DATOS A UNA DISTRIBUCIN BINOMIAL: Disponemos de una serie de k datos que toman los valores 0, 1, ... ,n. Para saber si estos datos siguen pueden aproximarse por una distribucin binomial: 1. Calculamos la media de los k datos y la igualamos a la Esperanza terica de la Binomial (n p). Despejamos de aqu el valor de p. 2. Calculamos los valores tericos de p (X = r), multiplicndolos por k para obtener los valores tericos de cada posible valor de la variable aleatoria en series de k datos. 3. Si la diferencia es "suficientemente pequea" aceptamos como buena la aproximacin Binomial, si no, la rechazamos. (nota: la fundamentacin estadstica que nos permitira decidir de manera objetiva si la diferencia entre los datos tericos y los reales es "suficientemente pequea" escapa de los objetivos de esta unidad didctica, con lo cual la decisin se deber tomar de manera subjetiva).

Estadistica no paramtrica.-

Las tcnicas estadsticas de estimacin de parmetros, intervalos de confianza y prueba de hiptesis son, en conjunto, denominadas ESTADSTICA PARAMTRICA y son aplicadas bsicamente a variables contnuas. Estas tcnicas se basan en especificar una forma de distribucin de la variable aleatoria y de los estadsticos derivados de los datos. En ESTADSTICA PARAMTRICA se asume que la poblacin de la cual la muestra es extrada es normal o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hiptesis sea vlida. Sin embargo, en un gran numero de casos no se puede determinar la distribucin original ni la distribucin de los estadsticos por lo que en realidad no tenemos parmetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama estadstica no paramtrica. Prueba de los Signos Se usa para hacer pruebas de hiptesis acerca de la mediana de una poblacin. Ho: La Mediana poblacional es igual a un valor dado. Ha: La mediana es menor (mayor distinta) del valor dado. La prueba estadstica est basada en la distribucin Binomial con probabilidad de xito p=, puesto que la probabilidad de que un dato sea mayor o menor que la mediana es . Para calcularla se determinan las diferencias de los datos con respecto al valor dado de la mediana y se cuentan los signos positivos y negativos. Si la hiptesis alterna es "menor que" y el nmero de diferencias positivas es mayor que el nmero de diferencias negativas entonces valor-p = P2 en caso contrario valor-p = P1 . Cuando la hiptesis alterna es de dos lados y el nmero de diferencias positivas son mayores que el nmero de diferencias negativas entonces el valor-p = 2P2, si hay menor nmero de diferenciaspositivas entonces valor-p=2P1 y si hay igual nmero de diferencias positivas y negativas entonces, valor-p=1. Si n>20 se puede usar aproximacin Normal a una Binomial con p = q = 0.5, para calcular los valores-p.

Prueba de Wilcoxon de los rangos con signo Esta prueba nos permite comparar nuestros datos con una mediana terica (por ejemplo un valor publicado en un artculo). Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2M0, ..., Xn-M0. Si la hiptesis nula fuera cierta estas diferencias se distribuiran de forma simtrica en torno a cero. Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignndoles su rango (nmero de orden). Si hubiera dos o ms diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hiptesis nula es cierta ambos estadsticos debern ser parecidos, mientras que si nuestros datos tienen a ser ms altos que la mediana M0, se reflejar en un valor mayor de R+, y al contrario si son ms bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequea para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande. Prueba de Wilcoxon para contrastar datos pareados El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y despus del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignndoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hiptesis nula es que esas diferencias proceden de una distribucin simtrica en torno a cero y si fuera cierta los valores deR+ y R- sern parecidos.

Prueba de Kruskal-Wallis La prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un mtodo no paramtrico para probar si un grupo de datos proviene de la misma poblacin. Intuitivamente, es idntico al ANOVA con los datos reemplazados por categoras. Es una extensin de la prueba de la U de MannWhitney para 3 o ms grupos. Ya que es una prueba no paramtrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposicin al tradicional ANOVA. S asume, bajo la hiptesis nula, que los datos vienen de la misma distribucin. Una forma comn en que se viola este supuesto es con datos heterocedsticos.

1. El estadstico donde:

est

dado

por:

ni es el nmero de observaciones en el grupo i rij es el rango (entre todas las observaciones) de la observacin j en el grupo i N es el nmero total de observaciones entre todos los grupos

, es el promedio de rij. el denominador de la expresin para K es

Note

que

exactamente 2. Se puede realizar una

. Luego correccin para los valores

. repetidos

dividiendo K por , donde G es el nmero de grupos de diferentes rangos repetidos, y ti es el nmero de observaciones repetidas dentro del grupo i que tiene observaciones repetidas para un determinado

valor. Esta correccin hace cambiar a K muy poco al menos que existan un gran nmero de observaciones repetidas. 3. Finalmente, el p-value es aproximado por . Si algn ni es pequeo ( < 5) la distribucin de K puede ser distinta de la chi-cuadrado.

Bibliografa.http://recursostic.educacion.es/descartes/web/materiales_didacticos/Distribucion _binomial/binomial.htm http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/capitulo_5/leccion_ 05_02.html http://www.est.uc3m.es/esp/nueva_docencia/colmenarejo/ciencias_actuariales/es tad_actuarial_I/doc_grupo15/archivos/Problemas3.pdf http://www.seh-lelha.org/noparame.htm

UNIDAD 4 ANLISIS DE LA REGRESIN

Terminologia de la regresin.Se conoce como anlisis de regresin multivariante al mtodo estadstico que permite establecer una relacin matemtica entre un conjunto de variables X1, X2 .. Xk (covariantes o factores) y una variable dependiente Y. Se utiliza fundamentalmente en estudios en los que no se puede controlar por diseo los valores de las variables independientes, como suele ocurrir en los estudios epidemiolgicos y observacionales. Los objetivos de un modelo de regresin puede ser dos:

Obtener una ecuacin que nos permita "predecir" el valor de Y una vez conocidos los valores de X1, X2 .. Xk. Se conocen como modelos predictivos. Cuantificar la relacin entre X1, X2 .. Xk y la variable Y con el fin de conocer o explicar mejor los mecanismos de esa relacin. Se trata de modelos explicativos, muy utilizados cuando se busca encontrar qu variables afectan a los valores de un parmetro fisiolgico, o cules son los posibles factores de riesgo que pueden influir en la probabilidad de que se desarrolle una patologa.

La disponibilidad y facilidad de uso del software que permite la construccin de modelos de regresin nos ha hecho olvidar que se trata de tcnicas complejas, que requieren un cierto conocimiento de la metodologa estadstica subyacente, por lo que nos encontramos con excesiva frecuencia una pobre utilizacin de las tcnicas de regresin y una peor descripcin de cmo se emplearon en cada caso concreto, e incluso una ausencia total de esa explicacin, y se comunica los resultados como si la propia ecuacin de regresin fuera sin ms un "artculo de fe" que no necesitara de una cuidadosa validacin. Un problema fundamental que se plantea a la hora de construir un modelo multivariante es qu factores X1, X2 .. Xk incluir en la ecuacin, de tal manera que estimemos el mejor modelo posible a partir de los datos de nuestro estudio. Para ello lo primero que habra que definir es qu entendemos por "mejor modelo". Si buscamos un modelo predictivo ser aqul que nos proporcione predicciones ms fiables, ms acertadas; mientras que si nuestro objetivo es construir un modelo explicativo, buscaremos que las estimaciones de los coeficientes de la ecuacin sean precisas, ya que a partir de ellas vamos a efectuar nuestras deducciones. Cumplidos esos objetivos es claro que otra caracterstica deseable de nuestro modelo es que sea lo ms sencillo posible.

Estimacin de parmetros Estimacin: El proceso de estimacin en inferencia estadstica puede ser descrito como el proceso de estimar un parmetro a partir del estadstico correspondiente, tal como usar una media muestral (Estadstico) para estimar la media poblacional, (parmetro). La estimacin de parmetros puede ser: Puntual o Por Punto. Por Intervalo.

Estimacin Puntual: Objetivo. Dar un valor numrico que aproxime en forma muy cercana al parmetro poblacional. La estimacin puntual de un parmetro de una poblacin es un solo valor numrico de un estadstico que corresponde a este parmetro. Un estadstico utilizado para aproximar a un parmetro de una poblacin se denomina Estimador del Parmetro. El nmero obtenido cuando se evala el estimador para una muestra particular, se denomina Estimacin del Parmetro. Sea X una variable aleatoria de inters con distribucin de probabilidad f (x). : Parmetro Desconocido.

: f (X1, X2, X3,,Xn)

m. a. de tamao n.

Estadstico.

Estimador.

Por ejemplo: =

es un posible estimador de .

: : Estimador puntual de , porque al evaluarlo para una muestra es concreto, da un solo numero o punto.

: Estimacin puntual de . Otros Parmetros de Inters:

P: Proporcin Poblacional (proporcin binomial). Proporcin de elementos con cierta caracterstica de inters en un universo dado.

= Estimador puntual de P.

X: N de elementos en la muestra con caracterstica de inters.

2 : Varianza Poblacional.

Estadstico: Estimador puntual de 2. : Desviacin estndar de una poblacin.

Estimador puntual de .

1 - 2: Diferencia de dos medias poblacionales.

Estimador puntual de 1 - 2.

Diferencia entre las medias de dos muestras aleatorias independientes. P1 P2

Estimador puntual para P1 P2 Diferencia entre dos proporciones mustrales, basadas en dos muestras aleatorias independientes.

Razn de dos varianzas poblacionales.

Estimador puntual de Sea X una variable aleatoria con media desconocida y varianza 2. X1, X2,, Xn m. a. de tamao n.

= f (X1, X2,, Xn)

Estimadores posibles para

Cul es el mejor? Antes de responder a esta pregunta debemos decidir que propiedades son deseables en un estimador puntual. Obviamente queremos que el estimador produzca estimaciones que puedan esperarse sean prximas en valor al parmetro que se esta estimando.

Prueba de hiptesis en la regresin lineal simple La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple. "Y es una funcin de X"

Y = f(X) Como Y depende de X, Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X) "Y est regresando por X" La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA. La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le utiliza para EXPLICAR Y. ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+e Donde: a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) e es el error SUPOSICIONES DE LA REGRESIN LINEAL 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la recta. 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes. ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. Elmtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como: a es el estimador de a Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de b , es el coeficiente de regresin Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin). Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Medicin de la adecuacin del modelo de regresin lineal simple.Anlisis residual. Prueba determinacin. Correlacin. Anlisis de Residuales Un residual i r es la diferencia entre el valor observado Yi y el valor estimado por la linea de regresin Yi , es decir, i Yi Yi r= . El residual puede ser considerado como el error aleatorio i e observado. Tambin se acostumbra usar el Residual estandarizado, el cual se obtiene al dividir elresidual entre la desviacin estndar del residual (siempre que hagamos anlisis de residuales debemos utilizar Residual estandarizado), y el Residual estudentizado "deleted", que es similar al anterior pero eliminando de los clculos la observacin cuyo residual se desea hallar. de falta de ajuste. Coeficiente de

El anlisis de residuales permite cotejar si las suposiciones del modelo de regresi n se cumplen. Se puede detectar: a) Si efectivamente la relacin entre las variables X e Y es lineal. b) Si hay normalidad de los errores. c) Si hay valores anormales en la distribucin de errores (Si se usa Residual estandarizado, cualquier observacin con un residual mayor de 2 o menor de 2 es considerado outlier) d) Si hay varianza constante (propiedad de Homocedasticidad) y e) Si hay independencia de los errores. El anlisis de residuales se puede llevar a cabo grficamente o en forma analtica. En este texto slo consideraremos un anlisis grfico, las cuales pueden obtenerse de dos maneras. La primera manera es escogiendo el botn Graphs de la ventana de dilogo Regression.

Prueba de falta de ajuste FALTA DE AJUSTE La falta de ajuste o prueba de la ``bondad de ajuste'' del modelo de regresin se expresa mediante las siguientes tres hiptesis equivalentes: (1 ) EL MODELO DE REGRESIN SIMPLE ES CORRECTO EL MODELO DE REGRESIN SIMPLE NO ES CORRECTO (2 ) NO HAY FALTA DE AJUSTE HAY FALTA DE AJUSTE (3 )

Qu se requiere para la aplicaci'n de esta prueba? Los siguientes supuestos sobre la variable error se han cumplido: La normalidad, independencia y homogeneidad de varianza Se tiene duda de: el ajuste a una linea recta Existan: varias observaciones de la variable repuesta para al menos un valor de .

Cal es la estadstica de prueba para probar la hiptesis de falta de ajuste? la estadstica de prueba es

que sigue una distribucin y

con

grados de libertad en el numerador

grados de libertad en el denominador

Suma cuadrados del error puro Donde:

de

Suma cuadrados

de

de la falta de ajuste

media de las respuestas en el valor respuesta observada

de

valor estimado de la respuesta para el valor de

en valor , Si el valor calculado de la estadstica es:

el

1. Significante . Esto indica que el modelo aparentemente es inadecuado. Entonces se debe intentar descubrir donde y como ocurre esta. 2. No significante . Esto indica que aparentemente no existe razn para dudar de la adecuacin del modelo bajo esta prueba y tanto los cuadrados medios de la falta de juste y el error puro pueden tomarse como estimados de .

La falta de ajuste suele utilizarse en diseo experimental cuando los niveles de factor de estudio son cuantitativos. Nota: Idealmente podemos encontrar que la prueba para falta de ajuste es no

significativa, y la hiptesis de significancia de la regresin es rechazada. Desafortunadamente esto no garantiza que el modelo ser satisfactorio como ecuacin de prediccin. Haga click en los nmeros para conocer sobre:

Modelo de regresin mltiple.En este captulo se estudiaran los modelos de regresin mltiple. Estos son similares a los modelos de regresin lineal simple, excepto que contienen ms trminos y pueden servir relaciones ms complejas que una lnea recta.incluyen ms de un trmino. Un modelo de regresin mltiple se expresa demanera general como

donde es la observacin de la variable aleatoria dependiente. son las observaciones de las variables fjas independientes.

son los llamados coeficientes de regresin. es la variable aleatoria error que se supone que tiene que los errores son no correlacionados. Algunos otro modelos como y y

Estos modelo se pueden expresar de la forma general de un modelo de de regresin multiple dada en modelo haciendo Ejemplo (tomado de Draper 1998. ejer D pag. 171) Seis ejecuciones fueron hechas a varias condiciones de saturacin transisomers . La respuesta, SCI, es listada abajo como y . y haciendo y . El modelo se puede expresar como el ,

. De igual manera el el modelo

para los

correspondientes niveles de

66. 0 43. 0 36. 0 23. 0 22. 0 14. 0 12. 0 7.6

38 41 34 35 31 34 29 32

47. 5 21. 3 36. 5 18. 0 29. 5 14. 2 21. 0 10. 0

El grfico para los datos del ejemplo es dado en la figura 1. Slo los modelos de regresin mltiple con dos variables independientes pueden ser graficados.

Figura 1. Diagrama de dispersin para los datos del ejemplo

Prueba de hiptesis de regresin lineal multiple Los ejemplos ejemplos 1 y 2 pueden ser probados con la estadstica de prueba dada por :

especficamente par el ejemplo

sera

y para el ejemplo

sera

Las hiptesis de los ejemplos

deben ser probados de otra manera. A

continuacin se presenta la manera general de probar una Hiptesis Lineal General. Prueba de la Hiptesis Lineal General Suponga que el modelo bajo consideracin es asumido correcto, es:

donde

es como

es

es

. Si

es no singular se puede

estimar a

La suma de cuadrados residual del modelo completo est dada por

Esta suma tiene

grados de libertad. La hiptesis lineal a ser probada es

Se tiene que representa ecuaciones, de las cuales solamente linealmente independientes. para poceder con la prueba haga lo siguiente: Paso 1. Exprese matricialmente la hiptesis para determinar la matriz funciones lineales de los parmetros Paso 2. Con las

son

y las

ecuaciones linealmente independientes, obtenga la solucin de parmetros. y as

los parmetros en trminos de los otros

Paso 3. Reemplace esas soluciones en el modelo original obtendr el modelo reducido

donde: es un vector de orden es la nueva matriz diseo de orden . mediante la parmetros a ser estimados, y es de

Paso 4. Estime el vector de parmetros del modelo reducido, expresin

Paso 5. Si es no singular, obtenga la suma de cuadrados residuales del modelo reducido como

con

grados de libertad. el modelo

Observe que: La porque en reducido se tienen menos parmetros que en el modelo completo

Paso 6. Obtenga la suma de cuadrados de la hiptesis nula. La diferencia entre las sumas de cuadrados del modelo reducido y el modelo completo, determinan la llamada Suma de cuadrados debida a la hiptesis nula o Esto es,

la cual tiene como grados de libertad: grados de libertad. Paso 7. Obtenga la estadstica de prueba. La estadstica de prueba para probar la hiptesis es dada por

la cual se distribuye . Si los errores son normalmente distribuidos e independientes, esta es una prueba exacta. Forma General de $H_{0} :C \beta=0$ De manera general estadstica es la Prueba Estadstica por

para

probar

vs.

la

prueba

Luego

, tiene una distribucin

PRUEBA DE LA SIGNIFICANCIA DE LA REGRESION La prueba de significancia de la regresin es una de la pruebas de hiptesis utilizadas para medir la bondad de ajuste del modelo. Esta prueba determina si existe una relacin lineal entre la variable respuesta regresoras y alguna de las variables

. La hiptesis estadstica adecuada es

Al rechazar la hiptesis nula se concluye que al menos una de las variables regresoras contribuye significativamente al modelo. La prueba estadstica utilizada es

La cual asumiendo que la hiptesis nula es cierta se distribuye de libertad en el numerador y

con

grados

grados de libertad en el denominador.

Se rechaza la hiptesis nula si el valor calculado de la estadstica de prueba es mayor que el valor terico de la distribucin Ejempl o La hiptesis es dada por .

La prueba estadstica utilizada es

Luego como el valor P=0,00 entonces se rechaza la hiptesis nula lo cual significa que al menos una de las variables regresoras significativamente al modelo. PRUEBA DE REGRESION LA SIGNIFICANCIA PARA CADA o contribuye DE LA

COEFICENTE

La prueba individual de un coeficiente de regresin puede se til para determinar si: Se incluyen otra variable regresora Se elimina una una o ms variables regresoras presentes en el modelo La adicin de variables regresoras en el modelo implica: La SC incremente La SC disminuya

pero se debe decidir si el incremento en la SC es tan significativo que justifique la inclusin de otra variable regresora en el modelo, ya que la inclusin de variables que no deberan ser incluidas puede aumentar la SC .

La hiptesis para probar la significancia dede cualquier coeficiente de regresin es

Si la hiptesis nula no es rechazada, es un indicador de que la variable regresora puede ser eliminada del modelo. La prueba estadstica para la hiptesis es

donde

es el elemento de la diagonal de la matriz

correspondiente

a . La prueba estadstica se distribuye error. La hiptesis nula se rechaza si:

con grados del libertad del

Importa nte 1. Esta prueba es una prueba marginal, es decir se est determinando la contribucin de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe apresurar en eliminar una variable regresora cuando la prueba no sea significativa. 2. Tambin se puede determinar la contribucin en la SC , de la variable

regresora dado que las otras variables regresoras estn presentes en el modelo, por medio del mtodo de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex) Ejemp lo

Los programas estadsticos producen una tabla para la prueba de cada coeficiente Estima Error do estndar CONSTAN -94,552 9,96343 TE X1 X2 2,8015 0,300978 5 T Valor p

0,000 9,4899 2 1 9,3081 0,000 6 2

1,0726 11,505 0,000 0,0932349 8 2 1

Los errores estndar de los parmetros son las races de los elementos de la diagonal de la matriz de varianza-covarianza del vector de parmetros estimados hallada en ejemplo de la

Leccin anterior La primera fila prueba la hiptesis

de la cual se concluye que el intercepto es significativamente diferente de cero. La segunda fila prueba la hiptesis

de la cual se concluye que el coeficiente de regresin diferente de cero y por tanto la variable modelo. La tercera fila prueba la hiptesis

es significativamente

contribuye significativamente al

de la cual se concluye que el coeficiente de regresin diferente de cero y por tanto la variable modelo.

es significativamente

contribuye significativamente al

EL COEFICIENTE DE DETERMINACION O ESTADISTICA R2 El coeficiente de determinacin o coeficiente de correlacin mltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresin y la variabilidad total, esto es:

algunas otras formas de presentar el coeficiente de determinacin son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostracin de .

El coeficiente de determinacin mltiple, es una generalizacin del valor de definida en la leccin de Rcuadrado definida para una lnea recta. Utilid ad Se utiliza para medir la reduccin en la variabilidad total de inclusin de las variables regresoras debido a la no

. Un valor grande de

necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de , ya sea que las variables contribuyan o no al grande sean malos en la

modelo. Es posible que modelos con valor de prediccin o estimacin. OBSERVACIO NES 1. mide la correlacin entre y y .

2. Si existe error puro, es imposible que manera en que podra dar datos en el cual 3. Si modelo 4. es , esto

alcance el valor de

. La nica

, sera que se tuviera un perfecto ajuste de los

, lo cual es un improbable evento en la prctica, es si . (suponiendo que el

ha sido ajustado), entonces

una medida de la utilidad de los trminos en el modelo diferentes de La estadstica 2 R ajustada Como alternativa al uso de como medida de la idoneidad de un modelo, es comn que se informe el coeficiente de determinacin mltiple ajustado, denotado por . esta dado por

Se observa que muestra

toma en cuenta ("ajusta por") tanto el tamao de la siempre es menor

como el nmero de parmetros del modelo.

que y lo que es ms importante , no puede "forzarce" hacia con slo agregar ms y ms variables independientes al modelo. Por ello, algunos analistas prefieren el valor ms conservador de medida de la idoneidad de un modelo. cuando deben elegir una

Tenga cuenta que:

en

La estadstica y son medidas descriptivas, y no debemos depender nicamente de sus valores para decidir si un modelo es til o no para predir la variable respuesta Ejemp lo Para los datos del ejemplo se tiene que

Lo cual significa que el modelo. Ahora el valor de es

de la variabilidad total es explicada por el

RESIDUALES Y SUS PROPIEDADES Definici n Si el modelo postulado es

y es no singular, el vector de residuales matricial como :

se puede escribir en forma

Donde la matriz es simtrica e idempotente Propieda des

es

llamada

matriz

"sombrero",

la

cual

Algunas propiedades del vector de residuales son: 1. El valor esperado del vector de residuales es el vector nulo, Demostracin: Utilizando el resultado obtenido en del vector de residuales como podemos determinar el valor esperado .

reemplazando el valor de

se tiene

2. La matriz de varianza-covarianza de

es definida como

Demostracin: Como el vector entonces

como

,y

, se sigue que

y la matriz de varianza-covarianza de

es definida como

y utilizando la equivalencia para el vector de residuales dada en

, tenemos

y como

cuando

, entonces

y como

es simtrica es idempotente entonces

Otra manera de obtener el anterior resultado es utilizando la equivalencia dada en

y utilizando

se tiene

Ahora

si

como

es simtrica es idempotente, entonces

Forma explicita (esconder)

3. El vector

se distribuye normal. ,entonces el vector de residuales

De la equivalencia obtenida en

es funcin del vector aleatorio error el cual se distribuye normal, por tanto el vector de residuales tambin se distribuir normal.

Otra manera es observar que el supuesto dado al modelo sobre la normalidad de las variables aleatorias error variables aleatorias del vector , implica la normalidad de las y como el vector de residuales es funcin es normal.

entonces se tiene que el vector

Luego el vector de residuales varianza covarianza

se distribuye normal con media cero y matriz de . Esto es,

4. Los residuales son correlacionados De la expresin dada en , y su forma explcita, se observa que si existe covarianza entre dos residuales diferentes, y as la correlacin entre el residual y es dada por

Tenga cuenta que:

en

Los residuales siempre estn correlacionados, aunque se asuma el supuesto de no correlacin de las variables aleatorias .

Bibliografia.http://www.vitutor.com/estadistica/inferencia/estimaciones.html http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml http://math.uprag.edu/residuales1.pdf http://www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_html/capitulo_ 6/leccion2/distrib-residuales.html

Anda mungkin juga menyukai