UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 1
DISTRIBUCION T STUDENT
En probabilidad y estadstica , de Student t -distribucin (o simplemente el t -distribucin ) es una familia de continuas distribuciones de probabilidad que surge al estimar la media de una distribucin normal poblacin en situaciones donde el tamao de la muestra es pequeo y la poblacin desviacin estndar es desconocida. Desempea un papel en una serie de anlisis estadsticos utilizados, incluyendo el Student t -test para evaluar la significacin estadstica de la diferencia entre dos muestras medios , la construccin de intervalos de confianza para la diferencia entre dos medias de poblacin, y en forma lineal anlisis de regresin . De Student t -distribucin tambin se plantea en el anlisis bayesiano de datos de una familia normal. Si tomamos k muestras de una distribucin normal con media desconocida fija y la varianza, y si se calcula la media de la muestra ymuestra de varianza para estos k muestras, entonces el t -distribucin (para k ) se puede definir como la distribucin de la ubicacin de los la media verdadera, con relacin a la media de la muestra y se divide por la desviacin estndar de la muestra, despus de multiplicar por el trmino normalizacin , donde n es el tamao de la muestra. De esta manera el t -distribucin se puede utilizar para estimar la probabilidad de que la media real se encuentra en cualquier intervalo dado. El t -distribucin es simtrica y en forma de campana, como la distribucin normal , pero tiene colas ms pesadas, lo que significa que es ms propenso a producir los valores que estn lejos de su media. Esto hace que sea til para la comprensin del comportamiento estadstico de ciertos tipos de proporciones de cantidades aleatorias, en el que la variacin en el denominador se amplifica y se puede producir valores perifricos cuando el denominador de la relacin cae cercana a cero. De Student t -distribucin es un caso especial de la distribucin hiperblica generalizada .
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 2
HISTORIA Y ETIMOLOGIA DE LA DISTRIBUCION T STUDENT
En estadstica, la distribucin t se deriva en primer lugar como una distribucin a posteriori en 1876 por Helmert y Lroth . En la literatura en idioma Ingls que lleva el nombre de William SealyGosset papel 's 1908 en Biometrika bajo el seudnimo de "Student". Gosset trabaj en la fbrica de cerveza Guinness en Dubln, Irlanda , y se interes por la problemas de muestras pequeas, por ejemplo de las propiedades qumicas de la cebada en tamaos de muestra puede ser tan bajo como el 3. Una de las versiones del origen del seudnimo es que el empleador de Gosset prohibi a los miembros de su personal de publicacin de artculos cientficos, as que tuvo que ocultar su identidad. Otra versin es que Guinness no quera que sus competidores para saber que estaban usando el t -test para probar la calidad de la materia prima. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 3 Papel de Gosset se refiere a la distribucin como la "distribucin de frecuencia de las desviaciones estndar de muestras extradas de una poblacin normal". Se hizo conocido a travs de la obra de Ronald A. Fisher , quien llam "la distribucin de Student", la distribucin y se refiri al valor t .
FUNCIN DE DENSIDAD DE PROBABILIDAD
En la teora de la probabilidad, la funcin de densidad de probabilidad, funcin de densidad, o, simplemente, densidad de una variable aleatoria continua describe la probabilidad relativa segn la cual dicha variable aleatoria tomar determinado valor. La probabilidad de que la variable aleatoria caiga en una regin especfica del espacio de posibilidades estar dada por la integral de la densidad de esta variable entre uno y otro lmite de dicha regin. La funcin de densidad de probabilidad (FDP o PDF en ingls) es no-negativa a lo largo de todo su dominio y su integral sobre todo el espacio es de valor unitario. Una funcin de densidad de probabilidad caracteriza el comportamiento probable de una poblacin en tanto especifica la posibilidad relativa de que una variable aleatoria continua X tome un valor cercano a x. Una variable aleatoria X tiene densidad f, siendo f una funcin no-negativa integrable de Lebesgue, si:
Por lo tanto, si F es la funcin de distribucin acumulativa de X, entonces:
y (si f es continua en x)
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 4
Intuitivamente, puede considerarse f(x) dx como la probabilidad de X de caer en el intervalo infinitesimal [x, x + dx]. Se define como el cociente entre la probabilidad de X de tomar un valor en el intervalo [x, x + dx] y dx, siendo dx un infinitsimo. La mayora de las funciones de densidad de probabilidad requieren uno o ms parmetros para especificarlas totalmente. Recprocamente respecto de la definicin ya desarrollada, pueden hacerse las siguientes consideraciones. La probabilidad de que una variable aleatoria continua X quede ubicada entre los valores a y b est dada por el desenvolvimiento en el intervalo de la FDP; de los valores comprendidos en el rango entre a y b.
La FDP es la derivada (cuando existe) de la funcin de distribucin:
As, si F es la funcin de distribucin acumulativa de X, entonces:
y (si f es continua en x)
Descripcin Intuitiva-Prctica En situaciones prcticas, la FDP utilizada se elige entre un nmero relativamente pequeo de FDP comunes, y la labor estadstica principal consiste en estimar sus parmetros. Por lo tanto, a los efectos del registro, es necesario saber qu FDP se ha utilizado e indicarlo en la documentacin de evaluacin de la incertidumbre.
La definicin formal de la funcin de densidad requiere de conceptos de la teora de la UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 5 medida. Si una variable aleatoria X sigue una funcin de probabilidad X*P su densidad con respecto a una medida de referencia es la derivada de RadonNikodym
Una variable aleatoria continua X con valores en un espacio de medida (habitualmente Rn con conjuntos Borel como subconuntos mensurables), tiene como distribucin de probabilidad, la medida XP en : la densidad de X con respecto a la medida de referencia sobre es la derivada de RadonNikodym.
Siendo f/; toda funcin medible con la siguiente propiedad:
para todo conjunto medible . Es decir, es una funcin con la propiedad de que...
...para cada conjunto medible A. Funciones de Distribucin de Probabilidad
A diferencia de la probabilidad, una fdp puede tomar valores mayores que uno. Por ejemplo, la distribucin uniforme continua en el intervalo [0, ] tiene una densidad de probabilidad f(x) = 2 para 0 x y f(x) = 0 fuera de tal intervalo. Hay que advertir que la funcin de densidad no es propiamente nica: dos funciones distintas pueden representar la misma distribucin de probabilidad si slo difieren en un conjunto de medida nulo. Adems, puede haber distribuciones de probabilidad que carezcan de funcin de densidad. Esto ocurre cuando, sin ser discretas, no le asignan probabilidad positiva a algunos puntos UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 6 indivisuales presentan conjuntos de medida nula. Esto sucede con la distribucin de Cantor cuando se toma la de Lebesgue como medida de referencia. Cuando, como ocurre normalmente en las aplicaciones, X es una variable aleatoria real y es la medida de Lebesgue, la funcin de densidad es una funcin tal que
De modo que si F es la funcin de distribucin de X, entonces
y
Intuitivamente, se puede pensar que (x) dx es la probabilidad de que X asuma valores en el intervalo infinitesimal [x, x + dx]. Propiedades De las propiedades de la funcin de densidad se siguen las siguientes propiedades de la fdp (a veces visto como pdf del ingls): para toda . El rea total encerrada bajo la curva es igual a 1:
La probabilidad de que tome un valor en el intervalo es el rea bajo la curva de la funcin de densidad en ese intervalo o lo que es lo mismo, la integral definida en dicho intervalo. La grfica f(x) se conoce a veces como curva de densidad.
Algunas FDP estn declaradas en rangos de a , como la de la distribucin normal. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 7 FUNCIN DE DISTRIBUCIN
En la Teora de la Probabilidad y en Estadsticas, una funcin de distribucin acumulada (fda) describe la probabilidad de que una variable aleatoria real X sujeta a cierta ley de distribucin de probabilidad, se site en la zona de valores menores o iguales a x. Intuitivamente, asumiendo la funcin f como la ley de distribucin de probabilidad, la fda sera la funcin con la recta real como dominio, con imagen del rea hasta aqu de la funcin f, siendo aqu el valor x para la variable aleatoria real X. La fda asocia a cada valor x, la probabilidad del evento: "la variable X toma valores menores o iguales a x". Las Funciones de Distribucin Acumulativa se emplean tambin para especificar la distribucin de variables aleatorias multivariantes. Para cada nmero real x, una fda est dada por la siguiente definicin: En lenguaje matemtico En Espaol
Una funcin de nombre "F" le asigna a cada valor real x, el de la probabilidad de que una variable aleatoria X asuma un valor inferior o igual a x. La probabilidad de que X se site en un intervalo ]a, b] (abierto en a y cerrado en b) es F(b) F(a) si a b.
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 8 La fda de una probabilidad dfinida sobre el espacio borliano es la foncin que a todo real le asocia
ACUMULADA Y DISTRIBUIDA Es convencin usar una F mayscula para una fda, en contraste con la f minscula usada para una Funcin de Densidad de Probabilidad y/o para una Funcin de Probabilidad. La funcin distribucin puede obtenerse a partir de la funcin de probabilidad respectiva. La fda en el caso de una variable aleatoria X discreta, puede establecerse como:
Para una variable aleatoria X contnua, fda surge como:
Debe observarse que una definicin del tipo "menor o igual", '' podra sustiturse por estrictamente "menor" '<'. Esto producira una funcin diferente, pero cualquiera de las funciones F puede deducirse a partir de la otra f. Tambin se podra cambiar por una determinada por mayor (>) en lugar de "menor" '<' y deducir las propiedades de esta nueva funcin. Slo es preciso ajustar las formulaciones y definiciones a lo pretendido en cada caso. En pases de lengua inglesa, una convencin es usar una desigualdad de este tipo en lugar de una desigualdad estricta (<), por ejemplo. Ejemplos Como ejemplo, se supone que X est uniformemente distribuida en el intervalo unitario [0, 1]. En ese caso una fda est dada por: F(x) = 0, si x < 0; F(x) = x, si 0 x 1; UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 9 F(x) = 1, si x > 1. Para otro ejemplo, suponiendo que X toma slo los valores 0 y 1, con igual probabilidad (X sigue una distribucin de Bernoulli con p = 1/2). Entonces una fda est dada por F(x) = 0, si x < 0; F(x) = 1/2, si 0 x < 1; F(x) = 1, si x 1.
Notacin Cuando hay ms de una variable aleatoria y se vuelve necesrio explicitar una diferencia entre las funciones, se representa una fda de la variable aleatoria X por . Funcin de Distribucin Acumulada Inversa (Funcin Cuantil) La funcin cuantil de una variable aleatoria (o de una ley de probabilidad) es la inversa de su acumulada. Si la FDA F es estrictamente creciente y continua, su inversa est definida es el nico nmero real tal que .
Slo en tales casos queda as definida la funcin de distribucin inversa o funcin cuantil. Pero una funcin de distribucin se mantiene constante en todo intervalo en el cual la variable aleatoria no puede tomar valores. Es por esto que se introduce la siguiente definicin. Lamentablemente, la distribucin carece, en general, de inversa. Se puede definir, para , la inversa generalizada de la funcin distribucin:
Sea una variable aleatoria con valores en y su funcin de distribucin. Se llama funcin cuantil de a la funcin de en , denotada por , que a UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 10 hace corresponder: . La inversa de la pda se denomina funcin cuantil. La inversa de la pda puede emplearse para trasladar resultados obtenidos para la distribucin uniforme a otras distribuciones.
Propiedades tiles de la inversa de pda 1. es no-decreciente 2. 3. 4. si y slo si 5. Si tiene una distribucin entonces, est distribuida como . Esto se emplea en para la generacin aleatoria de nmeros con el mtodo de muestreo de transformada inversa. 6. Si es una coleccin de variables independentes aleatoriamente distribuidas -definida en el mismo espacio muestral, entonces existen variables aleatorias tales que est distribuida como y como probabilidad 1 para todo . Ejemplo 1: La mediana es . Ejemplo 2: Sea . Se denominar al 95avo percentil. Por convencin, podemos decidir que es el menor de los valores posibles de y es el mayor; pueden ser eventualmente infinitos. Propiedades Si X es una variable aleatoria discreta, entonces se la obtiene de los valores x1, x2, ... con probabilidad p1, p2 etc., y una fda de X ser discontnua en los puntos xi y constante entre ellos. Si una fda F de X es contnua, entonces X es una variable aleatoria contnua; si se dice de F que es absolutamente contnua, entonces existe una funcin Integral de Lebesgue f(x) tal que UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 11
para todos los nmeros reales a y b. (La primera de las dos igualdades no sera correcta en general si no se hubiera dicho que una distribucin es contnua. La continuidad de la distribucin implica que P(X = a) = P(X = b) = 0, de modo que una diferencia entre "<" y "" deja de ser importante en este contexto.) una funcin f es igual a la derivada de F (casi en toda parte), y es llamada Funcin de densidad de probabilidad de la distribucin de X. Para cualquier funcin de distribucin , debe ser:
es no decreciente (creciente o constante):
es contnua a la derecha:
, con , y Se cumplen las siguientes propiedades, que permitem tratar con los diferentes tipos de desigualdades, y que se aplican a funciones de distribucin de variables aleatorias discretas:
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 12
En caso de las variables aleatorias contnuas, valen las siguientes propiedades: es contnua en todos los puntos (en caso de las variables aleatorias discretas era slo contnua a la derecha)
La Prueba de Kolmogrov-Smirnov est basada en funciones de distribucin acumulada y puede ser usada para ver si dos distribuiciones empricas son diferentes o si una distribucin emprica es diferente de una distribucin ideal.
Muy relacionada con la prueba de Kuiper, la cual es til si el domnio de la distribucin es cclico como por ejemplo en das de la semana. Por ejemplo podemos usar el test de Kuiper para ver si el nmero de tornados vara durante el ao o si las ventas de un producto oscilan da a da o por da del mes.
Construccin de la distribucin t student La distribucin t student se construye como la relacin entre dos variables entre una normal y la raz de una gi cuadrado cada una independientes entre si . De modo preciso llamamos una distribucin t student con n grados de libertad
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 13 tiende a una normal con media cero y desviacin tpica 1 en el caso que aumentan lo grados de libertad para n mayor a 30 .
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 14 GRADOS DE LIBERTAD Para definir grados de libertad se har referencia a la varianza maestral:
Esta frmula est basada en n-1 grados de libertad. Esta terminologa resulta del hecho de que si bien s 2 est basada en n cantidades stas suman cero, as que especificar los valores de cualquier n-1 de las cantidades determina el valor restante. INTERVALOS DE CONFIANZA
Concepto de Intervalo de Confianza. En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con una probabilidad determinada. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 15 La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%. Para construir un intervalo de confianza, se puede comprobar que la distribucin Normal Estndar cumple 1: P(-1.96 < z < 1.96) = 0.95 (lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribucin N( , ), entonces el 95% de las veces se cumple:
Despejando en la ecuacin se tiene:
El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido. Intervalo de confianza para un promedio: Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco prctico. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 16 Si en el intervalo se reemplaza la desviacin estndar poblacional por la desviacin estndar muestral s, el intervalo de confianza toma la forma:
La cual es una buena aproximacin para el intervalo de confianza de 95% para con desconocido. Esta aproximacin es mejor en la medida que el tamao muestral sea grande. Cuando el tamao muestral es pequeo, el intervalo de confianza requiere utilizar la distribucin t de Student (con n-1 grados de libertad, siendo n el tamao de la muestra), en vez de la distribucin normal (por ejemplo, para un intervalo de 95% de confianza, los lmites del intervalo ya no sern construidos usando el valor 1,96). Ejemplo: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresin (mayor puntaje significa mayor depresin). 2 5 6 8 8 9 9 10 11 11 11 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 16 16 16 17 17 18 18 18 19 19 19 19 19 19 19 19 20 20
Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribucin normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:
Luego, el intervalo de confianza para es (13,2 , 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%. Uso de Intervalos de Confianza para verificar Hiptesis. Los intervalos de confianza permiten verificar hiptesis planteadas respecto a parmetros poblacionales. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 17 Por ejemplo, supongamos que se plantea la hiptesis de que el promedio de peso de nacimiento de cierta poblacin es igual a la media nacional de 3250 gramos. Al tomar una muestra de 30 recin nacidos de la poblacin en estudio, se obtuvo: = 2930 s= 450 n= 30 Al construir un intervalo de 95% de confianza para la media poblacional, se obtiene:
Luego, el peso de nacimiento vara entre 2769 y 3091 gramos, con una confianza de 95%. Como el intervalo no incluye el valor =3250 gramos planteado en la hiptesis, entonces esta es rechazada con confianza 95% (o un valor p menor a 0,5).
INTERPOLACIN LINEAL Cuando el valor de x es de mayor precisin que los contenidos en la tabla, el mtodo de calcular la probabilidad es empleando interpolacin lineal.
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 18
La expresin:
nos permite calcular la probabilidad para los valores no contenidos en la tabla. Esta expresin siempre aade un cierto error, al sustituir la funcin y = f(x) por la recta que pasa por dos puntos conocidos y = r(x), por eso es conveniente que los puntos x1 y x2 estn lo ms prximos posible. EJEMPLO Calcular la probabilidad acumulada a la izquierda de 0,87 de una variable t Student de 10 grados de libertad:
el valor 0,87 no viene en la tabla, pero los valores 0,85 y 0,90 s:
segn la expresin:
sustituyendo los valores numricos, tenemos:
operando:
esto es:
dando como resultado:
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 19 que es la solucin al problema planteado:
LECTURA DE TABLA T STUDENT La mayora de los libros de texto de estadstica lista t tablas de distribucin. Hoy en da, la mejor manera a una crtica totalmente precisa t valor o una probabilidad acumulativa es la funcin estadstica aplicado en hojas de clculo (Excel de Office, OpenOfficeCalc, etc), o una pgina web interactiva de clculo. Las funciones de hoja de clculo relevantes son DISTR.T y DISTR.T.INV, mientras que las pginas de clculo en lnea ahorran problemas como las posiciones de los parmetros o los nombres de las funciones. Por ejemplo, un Mediawiki pgina apoyado por Rextensin puede dar fcilmente el resultado interactivo de valores crticos o la probabilidad acumulada, incluso para no central t -distribucin. En la siguiente tabla se muestran algunos valores seleccionados para t -distribuciones con grados de libertad para un intervalo de una cara o de dos caras regiones crticas. Para ver un ejemplo de cmo leer esta tabla, toma la cuarta fila, que comienza con 4, lo que significa , el nmero de grados de libertad, es 4 (y si se trata, como el anterior, con n valores con una suma fija , n = 5).Tomar la quinta entrada, en la columna 95% de un solo lado (90% para las dos caras ). El valor de entrada que es "2,132". A continuacin, la probabilidad de que T es menor que 2,132 es 95% o Pr (- < T <2,132) = 0.95; o significar que Pr (-2,132 < T <2,132) = 0,9. Esto se puede calcular por la simetra de la distribucin, Pr ( T <-2.132) = 1 - Pr ( T > -2.132) = 1 - 0,95 = 0,05; y entonces Pr (-2,132 < T <2.132) = 1 - 2 (0,05) = 0,9. Tenga en cuenta que la ltima fila tambin da puntos crticos: a t -distribucin con un nmero infinito de grados de libertad es una distribucin normal. La primera columna es el nmero de grados de libertad. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 20
El nmero al principio de cada fila en la tabla anterior es que ha sido definido anteriormente como n - 1. El porcentaje a lo largo de la parte superior es de 100% (1 - ). Los nmeros en el cuerpo principal de la tabla son t , . Si una cantidad T se distribuye de la distribucin t de Student con grados de libertad, entonces hay una probabilidad de 1 - que T ser menor que t , . (Calculado como para una prueba de una cola o de un solo lado, en contraposicin a una prueba de dos colas .) Por ejemplo, dada una muestra con una varianza de la muestra 2 y la media de la muestra de 10, tomada de un conjunto de muestra de 11 (10 grados de libertad), utilizando la frmula UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 21
Podemos determinar que al 90% de confianza, tenemos una media real se encuentra por debajo
(En otras palabras, en promedio, 90% de las veces en las que un umbral superior se calcula por este mtodo, este umbral superior excede la media verdadera.) Y, todava en el 90% de confianza, tenemos un cierto significa tumbado sobre
(En otras palabras, en promedio, 90% de las veces en las que un umbral inferior es calculado por este mtodo, este umbral inferior se encuentra por debajo de la media verdadera.) As que al 80% de confianza (calculado 1-2 (1-90 %) = 80%), tenemos una verdadera media situada en el intervalo
Esto se expresa generalmente en notacin intervalo de, por ejemplo, para este caso, en el 80% de confianza de la media real se encuentra dentro del intervalo [9.41490, 10.58510]. (En otras palabras, en promedio, 80% de las veces que los umbrales superior e inferior se calculan por este mtodo, la media real es a la vez por debajo del umbral superior y por encima del umbral inferior. Esto no es lo mismo que decir que no hay una probabilidad del 80% que la media real se sita entre un determinado par de umbrales superiores e inferiores que se han calculado por este mtodo-vase intervalo de confianza y la falacia del fiscal ).
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 22 USOS En la inferencia estadstica frequentist De Student t -distribucin se presenta en una variedad de problemas de estimacin estadstica cuando el objetivo es estimar un parmetro desconocido, tal como un valor medio, en un entorno en el que los datos se observan con aditivos errores . Si (como en casi todo el trabajo estadstica prctica) la poblacin desviacin estndar de estos errores es desconocida y tiene que ser estimada a partir de los datos, el t -distribucin se utiliza a menudo para tener en cuenta la incertidumbre adicional que resulta de esta estimacin. En la mayora de estos problemas, si se conoce la desviacin estndar de los errores, una distribucin normal se utiliza en lugar de la t -distribucin. Los intervalos de confianza y pruebas de hiptesis son dos procedimientos estadsticos en los que los cuantiles de la distribucin muestral de un estadstico en particular (por ejemplo, lapuntuacin estndar se requieren). En cualquier situacin en la que esta estadstica es una funcin lineal de los datos , dividido por la estimacin habitual de la desviacin estndar, la cantidad resultante se puede cambiar de escala y centrado para seguir Estudiante de t - distribucin. Los anlisis estadsticos relacionados con los medios, medios ponderados y los coeficientes de regresin, llevan a las estadsticas que tienen esta forma. Muy a menudo, los problemas del libro de texto tratar la desviacin estndar de la poblacin como si se supiera y as evitar la necesidad de utilizar el Student t -distribucin. Estos problemas son generalmente de dos tipos: (1) aquellos en los que el tamao de la muestra es tan grande que se puede tratar una estimacin basada en datos de la varianza como si fuera cierta, y (2) aquellos que ilustran el razonamiento matemtico, en el que el problema de la estimacin de la desviacin estndar se ignora temporalmente porque ese no es el punto de que el autor o el instructor est explicando a continuacin.
Prueba de hiptesis sobre la media de una distribucion normal, varianza desconocida Una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el tamao muestral es UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 23 demasiado pequeo como para que el estadstico en el que est basada la inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica en lugar del valor real. Es utilizado en anlisis discriminante. Entre los usos ms frecuentes de las pruebas t se encuentran: El test de locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida normalmente tiene un valor especificado en una hiptesis nula. El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como pruebas t- desapareadas o de muestras independientes, debido a que tienen su aplicacin ms tpica cuando las unidades estadsticas que definen a ambas muestras que estn siendo comparadas no se superponen. El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas. El test para comprobar si la pendiente de una regresin lineal difiere estadsticamente de cero. HIPOTESIS ESTADISTICA: es una afirmacin o conjetura que se hace sobre una o ms caractersticas de la poblacin. CONTRASTE DE HIPOTESIS: es un procedimiento estadstico mediante el cual se investiga la aceptacin o rechazo de una afirmacin acerca de una o unas caractersticas de una poblacin estadstica, partiendo de una muestra representativa. ERRORES: -ERROR TIPO I: es el error que se comete cuando se toma la decisin de rechazar la hiptesis nula siendo verdadera. -ERROS TIPO II: es el error que se comete cuando se toma la decisin de aceptar la hiptesis nula siendo falsa. UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 24 ESTADIGRAFO DE CONTRASTE: es una variable aleatoria, que sigue una determinada distribucin terica, y que nos va a permitir decidir si los valores muestrales difieren en gran medida de los valores tericos. REGIN CRTICA: es el conjunto de valores de estadgrafo de contraste que nos lleva a la decisin de rechazar la hiptesis nula. REGIN DE ACEPTACIN: es el conjunto de valores de estadgrafo de contraste que nos lleva a la decisin de aceptar la hiptesis nula. Pruebas t para dos muestras apareadas y desapareadas Las pruebas-t de dos muestras para probar la diferencia en las medias pueden ser desapareadas o en parejas. Las pruebas t pareadas son una forma de bloqueo estadstico, y poseen un mayor poder estadstico que las pruebas no apareadas cuando las unidades apareadas son similares con respecto a los "factores de ruido" que son independientes de la pertenencia a los dos grupos que se comparan [cita requerida]. En un contexto diferente, las pruebas-t apareadas pueden utilizarse para reducir los efectos de los factores de confusin en un estudio observacional. Desapareada Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos grupos de muestras aleatorias, independientes e idnticamente distribuidas a partir de las dos poblaciones a ser comparadas. Por ejemplo, supngase que estamos evaluando el efecto de un tratamiento mdico, y reclutamos a 100 sujetos para el estudio. Luego elegimos aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control. En este caso, obtenemos dos muestras independientes y podramos utilizar la forma desapareada de la prueba t. La eleccin aleatoria no es esencial en este caso, si contactamos a 100 personas por telfono y obtenemos la edad y gnero de cada una, y luego se utiliza una prueba t bimuestral para ver en que forma la media de edades difiere por gnero, esto tambin sera una prueba t de muestras independientes, a pesar de que los datos son observacionales. Apareada Las pruebas t de muestras dependientes o apareadas, consisten tpicamente en una muestra de pares de valores con similares unidades estadsticas, o un grupo de unidades que han sido evaluadas en dos ocasiones diferentes (una prueba t de mediciones repetitivas). Un ejemplo tpico de prueba t para mediciones repetitivas sera por ejemplo que los sujetos sean evaluados antes y despus de un tratamiento. Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra desapareada que luego es utilizada para formar una muestra apareada, utilizando para ello variables adicionales que fueron medidas conjuntamente con la variable de inters.8 UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 25 La valoracin de la coincidencia se lleva a cabo mediante la identificacin de pares de valores que consisten en una observacin de cada una de las dos muestras, donde las observaciones del par son similares en trminos de otras variables medidas. Este enfoque se utiliza a menudo en los estudios observacionales para reducir o eliminar los efectos de los factores de confusin. Prueba t para muestra nica En esta prueba se evala la hiptesis nula de que la media de la poblacin estudiada es igual a un valor especificado 0, se hace uso del estadstico:
Donde es la media muestral, s es la desviacin estndar muestral y n es el tamao de la muestra. Los grados de libertad utilizados en esta prueba se corresponden al valor n 1. Z-test T-test H0: = 0 ( conocida) H0: = 0 ( desconocida)
Z-test (supuesta H0 cierta) T-test (supuesta H0 cierta) Zexp ~ N(0, 1) Texp ~ t de Student con n 1 grados de libertad
EJERCICIOS DE PROBABILIDADEES DISTRIBUCION T STUDENT
1. Si n=15 calcule la probabilidad siguiente: P(t>0.258) Solucin: El primer paso es calcular los grados de libertad, trabajamos con la formula Grados de libertad = n 1
Entonces seria : 15 -1 = 14 El valor que buscamos esta en la lnea 14 dentro de la tabla, el valor de probabilidad es 0.258, UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 26 una vez encontrado el valor en la columna superior vemos que el valor de insignificancia es 0.40
Respuesta : 0.40
2. Si n=16 calcule la siguiente probabilidad: P(-0-86<t<0) Solucin El primer paso es calcular los grados de libertad, trabajamos con la formula Grados de libertad = n 1
Entonces seria : 16-1 = 15 El valor que buscamos esta en la lnea 6 dentro de la tabla, el valor de probabilidad es -0.86 pero como el rea es de la izquierda es negativo lo consideraremos como positivo , luego buscamos el valor de insignificancia el cual es 0.20 que se encuentra arriba en la columna de la tabla
Respuesta : Para resolver el problema restamos el valor medio del universo total que es 1 entonces seria 0.5 0.5 0.20 = 0.30
3. Si n=12 calcule la siguiente probabilidad: P(-0.876<t<1.796) Solucin El primer paso es calcular los grados de libertad, trabajamos con la formula Grados de libertad = n 1
Entonces seria : 12-1 = 11 El valor que buscamos esta en la lnea 11 dentro de la tabla, en este caso buscaremos -0.876 pero lo tomaremos como positivo para poder ubicarla en la tabla y 1.796, luego ubicamos el nivel de insignificancia que vienen a ser 0.20 y 0.05 respectivamente Respuesta : Como nos piden un universo entre el intervalo de T que nosotros calculamos hasta los limites del intervalo, entonces debemos restarle los valoes de insignificancia a nuestro universo entonces: 1 0.20 0.05 = 0.75
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 27 4
5
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 28
6 El Instituto Elctrico Edison publica cifras del nmero anual de Kilowatt-hora que gastan varios aparatos electrodomsticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora al ao. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al ao con una desviacin estndar de11.9 kilowatt-hora, esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la poblacin de kilowatt-hora es normal. Solucin: Datos: = 46 kilowatt-hora s= 11.9 kilowatt-hora = 42 kilowatt-hora n = 12 = 0.05 Ensayo de hiptesis Ho; = 46 kilowatt-hora H1; < 46 kilowatt-hora
Regla de decisin: Si tR -1.796 No se rechaza Ho Si tR < -1.796 Se rechaza Ho Clculos: UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 29
Justificacin y decisin: Como 1.16 > -1.796, por lo tanto no se rechaza Ho y se concluye con un nivel de significancia del 0.05 que el nmero promedio de kilowwatt-hora que gastan al ao las aspiradoras no es significativamente menor que 46. Solucin utilizando otro mtodo:
Regla de decisin: Si 39.83 No se Rechaza Ho Si < 39.83 Se rechaza Ho Como la = 42 y este valor no es menor que 39.83 por lo tanto no se rechaza Ho. Se puede aprovechar este ejemplo para calcular el valor de P , como el valor de t calculada es de 1.16, se busca en la tabla y se ve que el area a la izquierda de este valor es de 0.135 con 11 grados de libertad, por lo tanto no se rechaza Ho., ya que sera un valor alto para un nivel de significancia.
UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 30 7 Un artculo publicado en la revista MaterialsEngineering describe los resultados de pruebas de resistencia a la adhesin de 22 especmenes de aleacin U-700. La carga para la que cada especmen falla es la siguiente en MPa: 19.8 18.5 17.6 16.7 15.8 15.4 14.1 13.6 11.9 11.4 11.4 8.8 7.5 15.4 15.4 19.5 14.9 12.7 11.9 11.4 10.1 7.9 Sugieren los datos que la carga promedio de falla es mayor que 10Mpa? Supngase que la carga donde se presenta la falla tiene una distribucin normal, y utilcese = 0.05. Calcule el valor de P. Solucin: Datos: = 10 s = 3.55 = 13.71 n = 22 = 0.05 Ensayo de hiptesis Ho; = 10 H1; > 10 UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 31
Regla de decisin: Si tR 1.721 no se rechaza Ho. Si tR> 1.721 se rechaza Ho. Clculos:
Justificacin y decisin. Como 4.90 >1.721 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la carga de falla promedio es mayor que 10Mpa. Existe otra manera de resolver este ejercicio, tomando la decisin en base al estadstico real, en este caso la media de la muestra. De la frmula de la distribucin muestral de medias se despeja la media de la muestra:
Regla de decisin: Si 11.30 No se rechaza Ho Si > 11.30 Se rechaza Ho Como la media de la muestral es de 13.71 MPa y UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 32 es mayor al valor de la media muestral lmite de 11.30 por lo tanto se rechaza Ho y se llega a la misma conclusin. Para calcular el valor de P se va a la tabla y se busca en 21 grados de libertad el valor de t = 4.90. Se obseva que el valor mayor de t que se encuentra en la tabla con 21 grados de libertad es de 3.819 el cual le corresponde un rea a la derecha de 0.0005, por lo que para el valor de 4.90 el valor de P es practicamente cero, y esto apoya la decisin de rechazar Ho. 8 La camaleon motors tiene que hacer pruebas de choque con sus coches para determinar el coste medio de reparacin tras una colison a 20 kilometros por hora. Resulta muy caro asi que deciden probar con solo 5 coches camaleones . Los datps de los desperfectos en dlares son 150 400 720 500 y 930 Dnde podemos situar la media con una confianza del 95% ? Media muestral = 540 s = 299 dolares
9 Se desea obtener un intervalo de confianza al 99% para el tiempo medio requerido para realizar un trabajo. Una muestra aleatoria de 16 mediciones produce una media y una desviacin estndar de 13 y 5.6 minutos respectivamente. n= 16 X=13 minutos UNIVERSIDAD NACIONAL JOSE FAUSTINO SANCHEZ CARRION
LABORATORIO DE QUIMICA ORGANICA I Pgina 33 S= 5.6 minutos t=2.947 =132.947(5.6/16) =134.12 1=17.12 minutos 2=8.88 minutos 10 Calcular la probabilidad acumulada a la izquierda de 0.93 de una variable t-student de 7 grados de libertad: P(t7<0.93) El valor 0.93 no viene en la tabla, pero tomamos los valores enteros cercanos 0.90 y 0.95 si: P(t7<0.90) =0.801 P(t7<0.95)=0.813