5 de diciembre
2011
Sixto Crdenas Tello.
ndice ..1 Introduccin2 Intervalos de Confianza...3 Intervalo de confianza para la media de una poblacin..3 Intervalo de confianza para una proporcin...6 Intervalo de confianza para la media.11 Intervalo de confianza para la desviacin tpica14 Docimasia de hiptesis..18 Cumplimiento de requisitos de similitud..18 Ejemplo de efecto confundido....19 Nivel de significacin......20 Etapas que deben cumplirse en una prueba de significancia...20 Determinacin de la regin de rechazo de la Ho..21 Diferencias estadsticas significativas....22 Conclusin...23 Bibliografa24
Introduccin.
La introduccin del presente informe de estadstica cuyo tema principal es Intervalos de confianza y Docimasia de Hipotesis es la siguiente
En el estudio de la estadstica actual es primordial las proyecciones y estimaciones de la poblacin ya que con esos estudios se puede estudiar numerosos parmetros que con informacin actual se puede observar un patrn y de ese patrn proyectar estados financieros, densidad demogrficas, mortalidad, natalidad, mortalidad infantil, etc. Para ese tema poblacional en la estadstica tradicional existen dos temas que son los intervalos de confianza y Docimasia de Hiptesis; las que nos ayudan a hacer estimaciones con un rango de confiabilidad y sin salirnos de los parmetros de errores y patrones establecidos.
La inferencia estadstica comprende dos partes principales de, a saber intervalos de confianza y la docimasia de hiptesis. En este informe estudiaremos estos temas con el objeto de desarrollar mtodos generales para la docimasia de hiptesis y de los intervalos de confianza y su aplicacin en algunos problemas corrientes. En la investigacin experimental se pretende simplemente estimar un parmetro puede que interese estimar el desarrollo econmico de un pas. Muchas veces, el objeto final de esa investigacin es la utilizacin de dicha estimacin; as ocurre cuando se quiere comparar la produccin de un nuevo producto con la correspondiente a un producto ya conocido a fin de recomendar dicha sustitucin para mejorar quizs las ventas y as reducir los gastos de produccin, por esa utilidad de saber datos proyectados confiables para tomar decisiones son tan importantes estos temas
Intervalos de Confinza. En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.1 El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error. Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente una distribucin normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshov. En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de . I.-Intervalo de confianza para la media de una poblacin
De
tpica se
pueden
tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:2 Pero adems, si el tamao de las muestras es lo suficientemente grande,3 la distribucin de medias muestrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin tpica dada por la siguiente expresin: . Esto se representa como
sigue:
Obsrvese que el intervalo de confianza viene dado por la media muestral producto del valor crtico Z / 2 por el error estndar .
el
Si no se conoce y n es grande (habitualmente se toma n 30):4 , donde s es la desviacin tpica de una muestra. Aproximaciones para el valor z / 2 para los niveles de confianza estndar son 1,96 para 1 = 95% y 2,576 para 1 = 99%. II.-Intervalo de confianza para una proporcin. El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de una muestra de tamao n, a un nivel de confianza del (1-)100% es:
En la demostracin de estas frmulas estn involucrados el Teorema Central del Lmite y la aproximacin de una binomial por una normal. III.- Intervalo de confianza para un promedio: Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco prctico. Si en el intervalo se reemplaza la desviacin estndar poblacional estndar muestral s, el intervalo de confianza toma la forma: por la desviacin
La cual es una buena aproximacin para el intervalo de confianza de 95% para con desconocido. Esta aproximacin es mejor en la medida que el tamao muestral sea grande. Cuando el tamao muestral es pequeo, el intervalo de confianza requiere utilizar la distribucin t de Student (con n-1 grados de libertad, siendo n el tamao de la muestra), en vez de la distribucin normal (por ejemplo, para un intervalo de 95% de confianza, los lmites del intervalo ya no sern construidos usando el valor 1,96).
Ejemplo: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresin (mayor puntaje significa mayor depresin). 2 11 14 16 19 5 11 15 16 19 6 13 15 17 19 8 13 16 17 19 8 14 16 17 19 9 14 16 18 19 9 14 16 18 19 10 14 16 18 20 11 14 16 19 20
Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribucin normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza. All se utilizo, por ejemplo, la notacin X1, X2,... ,Xn para una muestra aleatoria simple de la variable aleatoria X; es decir, cada Xi es una variable aleatoria con la misma distribucin que X. En este documento de ejercicios se utiliza la notacin x1, x2,..., xn para denotar una muestra de nmeros provenientes de la muestra terica anterior, por lo que ntese que, por ejemplo, es una cantidad aleatoria (un estadstico que depende de la muestra) mientras que es una cantidad numrica (un numero).
La nota de una prueba de aptitud sigue una distribucin normal con desviacin tpica 28,2. Una muestra aleatoria de nueve alumnos arroja los resultados siguientes: n=9
a) Hallar un intervalo de confianza al 90% para la media poblacional b) Razonar sin hacer clculos si la longitud de un intervalo al 95% ser menor, mayor o igual que la del obtenido en el apartado anterior
Identificamos la variable
X Nota (de un alumno) X ~ N(, =28,2) Se considera la muestra Muestra terica: X1, X2, ..., X9 (es decir, se van a tomar las notas de nueve alumnos) Muestra numrica: x1, x2, ..., x9 i=19 xi=1098 , i=19 xi 2=138148 Como podemos observar, no conocemos los valores xi de la muestra. A cambio nos dan informacin construida a partir de estos valores, que debe ser suficiente para hacer los clculos. Por tanto, tendremos que escribir nuestras expresiones de forma que aparezcan
Intervalo de confianza Para elegir la frmula adecuada con que calcular el intervalo de confianza, tenemos en cuenta que: El tamao muestral, n = 9, es pequeo, por lo que en ningn caso debemos pensar en la frmula para intervalos asintticos Adems, se sabe que la variable tiene una distribucin normal, por lo que pensamos en las expresiones para poblaciones normales Finalmente, como nos informan del valor de la desviacin tpica poblacional, no es necesario estimarla.
) Donde es el valor de la distribucin normal estndar que verifica ( , es decir, el valor tal que deja un rea igual a a su derecha (cola superior).
Como se pide utilizar un nivel de confianza del 90%, hacemos = (100-90)/100 = 0,1. El cuantil lo buscamos en la tabla de la distribucin normal estndar. Como la tabla nos informa de probabilidades de sucesos de la forma ( ) , el valor que deja una probabilidad 0,05 por encima de el es el que deja una probabilidad 0,95 por debajo de l, as que en la tabla en realidad buscamos el valor .
/2
=1,65.
Por el enunciado sabemos que =28,2 Por ultimo, n = 9 Finalmente, el intervalo buscado es
Es decir,
a) Longitud del intervalo de confianza Para responder a la pregunta se puede razonar diciendo que, fijos todos los parmetros menos la longitud del intervalo, si se quiere mayor certeza no queda ms remedio que ampliar el intervalo, es decir, aumentar su longitud. La manera rigurosa de justificar esto es recurriendo a la frmula del intervalo, que nos dice que su longitud es: ( ) ( )
Ahora, si y n permanecen fijos, para estudiar como varia L al cambiar basta ver como varia el cuantil. Al intervalo del 95% le correspondera:
= (100-95)/100 = 0,05 disminuye Ahora la cantidad debe dejar menos area (probabilidad) a su derecha aumenta Por tanto, de la expresin anterior se ve que L aumenta.
b) Tamao muestral
Ahora se vuelve al intervalo del apartado primero, del 90%, y se pregunta por el valor de n para un y una L dadas. De Tenemos que despejar n (el valor por el que nos preguntan) ( )
As que, ( ) =( ) = 866,0.
10
Ntese que el parmetro n, por su significado, debe ser un nmero natural; as que en este caso el tamao muestral mnimo es 866, pero si se hubiese obtenido en la operacin anterior un nmero con decimales, habra que redondearlo hacia arriba. No hace falta decir que si se toma un tamao mayor que 866 se obtienen tambin intervalos del 90% (de hecho con mayor precisin), pero en la prctica no suele interesar aumentar el tamao muestral ms de lo necesario, porque suele implicar ms gastos econmicos. Ejemplo 2 Se ha recogido una muestra aleatoria para prever la inflacin en el ao, en siete pases. Las previsiones han sido 1,5 2,1 1,9 2,3 2,5 3,2 3,0 (a) Utilizando estos datos, construye un intervalo de confianza al 99% para la media de la previsin de inflacin, en estos siete pases. Indica los supuestos que Necesitas hacer. (b) Construye un intervalo de confianza, tambin al 90%, para la desviacin tpica (c) Los expertos opinan que el intervalo de confianza calculado para la media es demasiado amplio, y desean que su longitud total sea de 1,2 puntos. Hallar el nivel de confianza para este nuevo intervalo
Identificamos la variable
X Previsin de la inflacin (de un pas) X~?
Se considera la muestra
Muestra terica: X1, X2, ..., X7 (es decir, se van a tomar las previsiones de inflacin en siete pases) Muestra numrica: x1, x2, ..., x7 1,5 2,1 1,9 2,3 2,5 3,2 3,0 En este ejercicio si conocemos los valores xi de la muestra.
11
Intervalos de Confianza y Docimasia de Hiptesis. Ahora consideremos la intervencin por intervalo de u. si nuestra muestra se selecciona de una poblacin normal, o a falta de esta, si n es suficientemente
grande, podremos establecer un intervalo de confianza para u al considerar la distribucin muestral de . De acuerdo con el teorema del lmite central podemos esperar que la distribucin muestral de este distribuida de forma aproximadamente normal con media y desviacin estndar . Al escribir /2 para el valor z por arriba del cual encontramos un area de . Para elegir la frmula adecuada con que calcular el intervalo de confianza, tenemos en cuenta que: El tamao muestral, n = 7, es pequeo, por lo que en ningn caso debemos pensar en la frmula para intervalos asintticos. Para el caso de pocos datos, en la asignatura solo hemos considerado intervalos para la media de poblaciones normales, as que es necesario suponer que X ~ N(, ). Obviamente, en la realidad habra que tener cierta certeza en que esta suposicin sea correcta, no se podra hacer sin justificacin Finalmente, no nos informan del valor de la desviacin tpica poblacional, por lo que es necesario estimarla mediante la cuasi desviacin tpica muestral (sabemos que para pocos datos se debe utilizar esta cantidad, no la desviacin tpica sin corregir). En resumen, concluimos que debemos utilizar la expresin
Donde ahora es el valor de la distribucin t de Student, con valor de parmetro n-1 = ) 7-1 = 6, tal que ( , es decir, el valor tal que deja un rea igual a a su derecha (cola superior). Vamos a calcular las cantidades que aparecen en la formula:
Como se pide utilizar un nivel de confianza del 99%, hacemos = (100-99)/100 = 0,01. El cuantil lo buscamos en la tabla de la distribucin t de Student. Como la tabla nos informa de probabilidades de sucesos de la forma ( ), el valor que deja una probabilidad 0,005 por encima de l es el que deja una probabilidad 0,995 por debajo de l, as que en la tabla en realidad buscamos el valor
12
As, el valor buscado es De la muestra calculamos que Por ultimo, n = 7 Finalmente, el intervalo buscado es ( )
Es decir,
13
( (
) )
Vamos a calcular las cantidades que aparecen en la formula: Hemos dicho que n = 7 Tambin hemos calculado que Como se pide utilizar un nivel de confianza del 90%, hacemos = (100-90)/100 = 0,1. Los valores y se calculan utilizando la tabla de la distribucin ji-cuadrado. Como esta tabla nos informa de probabilidades de sucesos de la forma ( ) , el valor de se lee directamente de la tabla, pero para hay que tener en cuenta que este valor deja una probabilidad /2 = 0,05 por encima de el y, por tanto, una probabilidad 0,95 por debajo; asi que en la tabla en realidad buscamos el valor
14
Es decir,
0,4
Nivel de confianza
1,1
Donde nos imponen el valor de L y nos piden el de . Pero tenemos que despejar primero .
Miramos la tabla
y vemos que /2 = 0,10, de donde = 0,20 y, por tanto, el nivel de confianza del nuevo intervalo es, en tanto
15
Por ciento: 100 - 0,20 100 = 100 20 = 80%. Ejemplo 3 La duracin media de prstamos en la biblioteca de una universidad en el curso pasado fue de veinte das. Se toma una muestra de cien libros este ano y se obtiene una media de dieciocho das con una desviacin estndar (no corregida) de ocho das. Construir un intervalo de confianza para la duracin media de prstamos en el curso pasado del 99%. Identificamos la variable X Duracin (de un prstamo) X~? Se considera la muestra Muestra terica: X1, X2, ..., X100 (es decir, se van a anotar las duraciones de cien prestamos) Muestra numrica: x1, x2, ..., x100 Como podemos observar, no conocemos los valores xi de la muestra. A cambio nos dan informacin construida a partir de estos valores, que debe ser suficiente para hacer los clculos. Tendremos que escribir nuestras expresiones de forma que aparezcan y . Intervalo de confianza Para elegir la frmula adecuada con que calcular el intervalo de confianza, tenemos en cuenta que: El tamao muestral, n = 100, es grande (>30), por lo que ya podemos utilizar la formula asinttica Adems, no se sabe si la variable tiene o no una distribucin normal; si la tuviese, podra aplicarse tambin la correspondiente formula, para el caso de varianza conocida, aunque dara un resultado similar al que vamos a obtener aqu (aunque un poco ms preciso si realmente haba normalidad) Nos informan del valor de las desviaciones tpicas mustrales de dos aos: la del ano anterior no debe interpretarse como la desviacin tpica poblacional, y la que vamos a utilizar es la del ano actual, obtenida con la misma muestra que la media muestral que nos dan. En resumen, concluimos que debemos utilizar la expresin asinttica ) , es
Donde es el valor de la distribucin normal estndar que verifica ( decir, el valor tal que deja un rea igual a a su derecha (cola superior).
16
Por lo que
En esta expresin se ve bien porque en el caso asinttico hay poca diferencia entre utilizar la desviacin tpica corregida o no corregida: el factor n/(n-1) toma un valor muy cercano a 1. Por ultimo, n = 100
17
Es decir,
DOCIMASIA DE HIPOTESIS
Definiciones Docimasia: ensayo o prueba Hiptesis: Proposicin que establece relacin entre los hechos Es una proposicin anunciada para responder tentativamente a un problema". Se refiere a la comparacin de los resultados obtenidos en dos o ms grupos sometidos a tratamientos diferentes. Se conoce con el nombre de Prueba de Significacin Estadstica. Cuando la investigacin comprueba diferencias, debemos pronunciarnos sobre la realidad de tales diferencias, puesto que el error de muestreo puede producir diferencias mustrales que no corresponden a diferencias reales entre las poblaciones originales. Este es el problema que resuelve la docimasia de hiptesis. Cumplimiento de requisitos de similitud Si los grupos difieren adems del factor que es motivo de investigacin, en otros atributos, no se podr establecer cul de ellos es el responsable de la diferencia observada. Por ello se requiere que exista. Los tratamientos ( factores cuya accin se investiga) han sido adjudicados aleatoriamente a las unidades de observacin Deben ser semejantes en ambos grupos las definiciones, los mtodos de medicin, condiciones de observacin, etc Si no es posible la asignacin aleatoria de los tratamientos a las unidades de observacin, slo es factible buscar un grupo de control tan parecido al grupo tratado como sea posible.
18
Supongamos que se observa una mayor tasa de curacin con A que con B. Si adems sucede que los casos tratados con A fueron menos graves que los del grupo de control => no podramos precisar que la diferencia se debe a mayor accin del tratamiento Por el contrario; si los casos tratados con A fueran ms graves y an a si este grupo tuviera una curacin ms alta que el grupo de control => la prueba de significacin podra llevarnos a aceptar la mejor accin de A Uno opcin para corregir este problema es separar los casos segn gravedad y comparar las dos drogas en los grupos de gravedad semejante
La aleatorizacin. Una de las formas de adjudicar en forma aleatoria a las unidades de observacin cada uno de los tratamientos es, utilizando una tabla de nmeros aleatorios. Ejemplo: se desea hacer un experimento para comparar el efecto de dos tratamientos y que se ha determinado que 10 pacientes con tratamiento A y 10 con tratamiento B. De una tabla de nmeros aleatorios se elegirn 10 nmeros entre 1 y 20 sin repetirlos, a estos se les adjudica el tratamiento A, a los restantes el tratamiento B El procedimiento parte con la definicin de dos hiptesis: H0 Hiptesis de nulidad => se plantea que las muestras provienen del mismo universo o de universos con iguales parmetros y p H1 Hiptesis alternativa => se plantea que las muestras provienen de universos diferentes
19
Hiptesis Alternativa ( H1) Los grupos difieren en las caractersticas (parmetro) en estudio. Por lo tanto, la diferencia observada en la investigacin es consecuencia efectiva entre los universos de origen Ejemplo de planteamiento de hiptesis. Un investigador estudia la virulencia de dos cepas microbiana (A y B) por inoculacin a dos grupos de animales, registrando la tasa de letalidad (% de muertes) en los animales inoculados Sea: PA = tasa de letalidad en universo de animales inoculados con cepa A PB = tasa de letalidad en universo de animales inoculados con cepa B H0 => PA = PB PA PB = 0 H1 => PA = PB PA PB = 0 2.- Nivel de significacin La decisin que se toma no es de certeza sino de probabilidad, luego est sometida a error. Se rechaza la hiptesis de nulidad si la prueba da un valor cuya probabilidad de ocurrencia, cae en la regin de rechazo de la Ho. El nivel de significacin es fijado por el investigador, siendo habitualmente de 5% ( =0.05) o de 1% (=0,01) El criterio para rechazar la Ho debe establecerse previamente al examen de los datos
20
La probabilidad de este error se designa por Esquema de las situaciones posibles...... Etapas que deben cumplirse en una prueba de significancia
3.- Determinacin de la regin de rechazo de la Ho La regin de rechazo consiste en un conjunto de valores posibles tan extremos que, cuando Ho es verdadera, es muy pequea la probabilidad () de que la muestra observada produzca un valor que est entre ellos La localizacin de la regin de rechazo depende de la naturaleza de H1 Si H1 indica la direccin predicha de la diferencia (H1: PA > PB) o (H1: PA<PB) => prueba unilateral. Si H1 no indica la direccin de la diferencia (H1: PA distinto PB) => prueba bilateral.
Ejemplo: Cuando un proceso de produccin de bolas funciona correctamente, el peso de las bolas sigue una distribucin normal con media 5 grs y desviacin estndar de 0,1 grs .Se
21
22
23
Del presente informe de estadstica cuyo tema principal es Intervalos de confianza y Docimasia de Hiptesis extrajimos de las siguientes fuentes:
Definicin de Intervalos de Confianza http://www.eswikipedia.org/intervalo-de-confianza Ejemplos de Intervalos de confianza Universidad Carlos III de Madrid Facultad de Ciencias Sociales y Jurdicas Departamento de Estadstica: C/ Madrid 126 28903 Getafe (Madrid) David Casado de Lucas: http://www.est.uc3m.es/dcasado/
Docimasia de Hiptesis
Texto: Probabilidades y Estadstica para ingenieros Autores: Ronald E. Walpole (Roanoke College) Raymond H. Myers (Virginia Polytechnic Institute) Sharon L. Myers (Radford University)
24