Anda di halaman 1dari 14

REPORTE EQUIPO 2.

ESTADISTICA INFERENCIAL
22 de septiembre del 2016
Presentan:
Delgado Díaz Alondra
Flores Román Leslie Zareth
Mateos Castro Roxane Vianey
Ocampo Fitz Anyeli
Valladares Arroyo Julio Cesar

Objetivo:
Conocer y aplicar los fundamentos de la estadística inferencial enfocados en la
construcción e interpretación de intervalos de confianza para la media y la
proporción, así como el análisis de regresión lineal simple con el fin de solucionar
problemas enfocados a mejorar la calidad de los productos o procesos.
Resumen:
El cálculo de intervalos de confianza para la estimación de parámetros son técnicas
que nos permiten hacer declaraciones sobre que valores podemos esperar de un
parámetro. Dicho intervalo depende de: la estimación de la muestra, el tamaño de
la muestra y la probabilidad o nivel de confianza. Se puede decir que un intervalo
de confianza es un rango de valores (calculado en una muestra) en el cual se
encuentra el verdadero valor del parámetro, con una probabilidad (nivel de
confianza) determinada. El análisis de regresión involucra el estudio la relación entre
dos variables. En el presente reporte se darán a conocer los fundamentos de los
intervalos de confianza y del análisis de regresión simple.

INTERVALOS DE CONFIANZA PARA UNA MEDIA Y PARA UN PROPORCION.


1. Inferencia estadística, estimación puntual y por intervalo.
2. Estimación por intervalo.
3. Intervalo de confianza para una media (fórmulas)
3.1 Ejemplo práctico enfocado a controlar o mejorar la calidad de productos.
4. Interpretación de un intervalo.
5. Intervalo para una proporción (fórmulas)
5.1 Ejemplo práctico enfocado a controlar o mejorar la calidad de productos.

REGRESION LINEAL SIMPLE


1. Introducción: regresión lineal. Variables X y Y.
2. Formulas, Recta de regresión.
3. Ejemplo Mínimos Cuadrados.
INFERENCIA ESTADISTICA
“El proceso de usar la estadística para llegar a una conclusión sobre algún aspecto
de la población se denomina inferencia estadística.” (Levine, 2006)
“La inferencia estadística tiene como objetivo establecer las características de una
población o proceso con base en la información contenida en una muestra. La
inferencia se divide en estimación y prueba de hipótesis, y se apoya en cantidades
o estadísticos calculados de las observaciones de la muestra.
Las distribuciones de probabilidad que más se emplean en intervalos de confianza
y pruebas de hipótesis son las distribuciones: normal, T de student, y f.
Un aspecto clave en la interpretación y uso de cualquier estadístico es que es una
variable aleatoria, ya que su valor depende de los elementos que son seleccionados
en la muestra y, por lo tanto, varía de una muestra a otra.” (Gutiérrez, 2009)
“Un proceso industrial está sometido a una serie de factores de carácter aleatorio
que hacen imposible fabricar dos productos exactamente iguales. Dicho de otra
manera, las características del producto fabricado no son uniformes y presentan
una variabilidad. Esta variabilidad es claramente indeseable y el objetivo ha de ser
reducirla lo más posible o al menos mantenerla dentro de unos límites.” (Ruiz, 2006)
¿Por qué hay variación en los resultados?

Porque está afectado por factores que varían.

 Mano de obra
 Maquinas
 Material
 Método
 Mantenimiento

“La estadística inferencial nos permite estimar características desconocidas como


la media de la población o la proporción de la población.
INTERVALO DE CONFIANZA EN UNA MEDIA
“Es un rango de valores, derivado de los estadísticos de la muestra, que
posiblemente incluya el valor de un parámetro de población desconocido.
Debido a su naturaleza aleatoria, es poco probable que dos muestras de una
población en particular generen intervalos de confianza idénticos.” (Gutiérrez, 2009)
Si se trata de encontrar dos números L y U, tales que el parámetro µ se encuentre
entre ellos con una probabilidad de 1 – α. Esto es,
P (L ≤ µ ≥ U) =1 – α

Para  CONOCIDA
𝜎
𝑥̅ ± Z
√𝑛
𝜎 𝜎
𝑥̅ - Z ≤ µ ≤ 𝑥̅ + Z
√𝑛 √𝑛

Donde Z = valor correspondiente a un área acumulativa de 1 − α/2 de la distribución


normal estandarizada, esto es, una probabilidad de la cola superior de α/2.
“Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza
para la distribución. El 95% de confianza corresponde a un valor α de 0.05. El valor
crítico Z correspondiente al área acumulativa de 0.9750 es 1.96 porque hay 0.025
en la cola superior de la distribución y el área acumulativa menor a Z = 1.96 es
0.975. NOTA: Hay un valor crítico diferente para cada nivel de confianza 1 − α.”
(Levine, 2006)
Ejemplo: Estimación de la media de la longitud del papel con un 95% de confianza
“Un fabricante de papel para computadora tiene un proceso de producción que
opera continuamente a lo largo del turno completo. Se espera que el papel tenga
una media de longitud de 11 pulgadas y una desviación estándar de 0.02 pulgadas.
A intervalos periódicos, se selecciona una muestra para determinar si la media de
longitud del papel es igual a 11 pulgadas o para ver si algo ha salido mal durante el
proceso que haya cambiado la longitud del papel que se fabrica. Usted selecciona
una muestra aleatoria de 100 hojas; la media de longitud del papel es de 10.998
pulgadas. Construya una estimación del intervalo de confianza del 95% para la
media poblacional de la longitud del papel.
Solución Se emplea la ecuación.
Con Z = 1.96 para un 95% de confianza,

𝜎
𝑥̅ ± Z
√𝑛
𝜎 𝜎
𝑥̅ - Z ≤ µ ≤ 𝑥̅ + Z
√𝑛 √𝑛

𝜎 0.02
𝑥̅ ± Z = 10.998 ± (1.96)
√𝑛 √100
= 10.998 ± 0.00392
= 10.99408 ≤ µ ≤ 11.00192
Así, con un 95% de confianza, usted concluye que la media poblacional está entre
10.99408 y 11.00192 pulgadas. Como el intervalo incluye al 11, valor que indica que
el proceso de producción funciona adecuadamente, no hay razón para creer que
algo está mal con el proceso de fabricación.” (Levine, 2006)
Para  DESCONOCIDA

Fórmula:
𝑠
𝑥̅ ± tn-1
√𝑛
𝑠 𝑠
𝑥̅ – tn-1 ≤ µ ≤ 𝑥̅ + tn-1
√𝑛 √𝑛
Ejemplo:
Un fabricante de llantas desea investigar la durabilidad de sus productos. Una
muestra de 10 llantas que recorrieron 50 000 millas reveló una media muestral de
0.32 pulgadas de cuerda restante con una desviación estándar de 0.09 pulgadas.
Construya un intervalo de confianza de 95% de la media poblacional. ¿Sería
razonable que el fabricante concluyera que después de 50 000 millas la cantidad
media poblacional de cuerda restante es de 0.30 pulgadas?}
Para comenzar, se supone que la distribución de la población es normal. En este
caso no hay muchas evidencias, pero tal vez la suposición sea razonable. No se
conoce la desviación estándar de la población, pero sí la desviación estándar de la
muestra, que es de 0.09 pulgadas.
Se aplica la fórmula anterior.

De acuerdo con la información dada, 𝑥̅ = 0.32 s = 0.09 y n= 10. Para hallar el valor
de t, utilice la tabla de distribución de t.
El primer paso para localizar t consiste es desplazarse a lo largo de las columnas
identificadas como “Intervalos de confianza” hasta el nivel de confianza que se
requiere. En este caso, desea el nivel de confianza de 95%, así que vaya a la
columna con el encabezamiento “95%”. La columna del margen izquierdo se
identifica como “gl”. Estas palabras se refieren al número de grados de libertad, esto
es, el número de observaciones incluidas en la muestra menos el número de
muestras, el cual se escribe n= 1. En este caso es de 10 -1 = 9.
En el caso de un nivel de confianza de 95% y 9 grados de libertad, seleccione la fila
0.05
con 9 grados de libertad. Con t α/2= 1-0.9 5= = .025
2

El valor de t es 2.262.
𝑠 𝑠
𝑥̅ – tn-1 ≤ µ ≤ 𝑥̅ + tn-1
√𝑛 √𝑛
0.09 0.09
= 0.32 – 2.262
√10
≤ µ ≤ 0.32 + 2.262 √10

= 0.32 ± 0.064
= 0.256 ≤ µ ≤ 0.384
Interpretación de un intervalo
“En general, la correcta interpretación de un intervalo de confianza es de la siguiente
manera: si se obtuvieran 100 muestras independientes de la misma población o
proceso, cada una dc tamaño n y para cada muestra se calculará el intervalo de
confianza a 95% para el mismo parámetro, entonces se espera que 95 de los 100
intervalos contengan el verdadero valor de dicho parámetro.
La longitud del intervalo de confianza es una medida de la precisión de la
estimación; por ello, es deseable que la longitud de los intervalos sea pequeña. Pero
esta longitud depende de tres aspectos de la varianza de la población, que
dependerá de los datos; del tamaño de muestra y por último del nivel de confianza
de la estimación. En particular, la persona decide este último aspecto cuando hace
el estudio. Mientras que la amplitud del intervalo en una aplicación específica se
reduce conforme se incrementa el tamaño de la muestra.” (Gutiérrez, 2009)
INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN
Existen muchos problemas en los cuales debemos obtener ya sea proporciones,
probabilidades, porcentajes, o índices (también llamadas tasas), por ejemplo; la
probabilidad de que un automóvil detenido en una inspección tendrá las luces
descompuestas, o el porcentaje de alumnos con coeficiente intelectual arriba de
115, o incluso el índice o tasa de mortalidad que provoca una enfermedad así como
también podemos enfocarnos hacia la calidad etc.
Cuando hacemos un test de hipótesis decidimos sobre un valor hipotético del
parámetro.
• ¿Qué proporción de artículos defectuosos genera la máquina A?
• ¿Qué proporción de empresas automotrices tienen mala administración?
“La estimación puntual para µ es la proporción de la muestra, p = X/n, donde n es
el tamaño de la muestra y X es el número de elementos en la muestra que tienen la
característica de interés. La ecuación siguiente define la estimación del intervalo de
confianza para la proporción de la población.” (Levine, 2006)
Utilizamos el hecho que para valores grandes de n la distribución binomial puede
obtenerse aproximadamente con una distribución normal es decir que la variable
aleatoria.

𝑝(1 − 𝑝)
𝑝±𝑍√
𝑛

𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
𝑝−𝑍√ ≤ µ ≤ 𝑝+𝑍√
𝑛 𝑛

Donde:
𝑋 número de elementos con característica
p= proporción de la muestra = =
𝑛 tamaño de la muestra

µ= proporción de la población
Z= valor crítico para la distribución normal estandarizada.
Donde Z α/2 es el valor de una distribución Normal estándar que deja a su derecha una
probabilidad de α/2 para un intervalo de confianza de (1 − α) · 100 %.
n= tamaño de la muestra
Suponiendo que tanto X como n – X son mayores que 5.
Ejemplo: estimación de la proporción de periódicos defectuosos impresos

“El editor de un periódico desea estimar la proporción de periódicos impresos con


algún defecto, tal como borraduras en exceso, disposición errónea de las hojas,
páginas faltantes o duplicadas. Se selecciona una muestra aleatoria de 200
periódicos, 35 de ellos contienen algún tipo de defecto. Realice e interprete un
intervalo de confianza del 90% para la proporción de periódicos impresos durante
el día que tienen defectos.” (Levine, 2006)
Solución Se emplea la ecuación
𝑝(1 − 𝑝)
𝑝±𝑍√
𝑛

𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
𝑝−𝑍√ ≤ µ ≤ 𝑝+𝑍√
𝑛 𝑛

𝑋 35
𝑝= = = 0.175 𝑦 𝑐𝑜𝑛 𝑢𝑛 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 90%
𝑛 200
1- α = 1- .90 = .10
Z α/2 = .10/2 = 0.05
1-.05 = .95 (se busca el valor en la tabla de Z)

Aunque hay dos valores que se


encuentran a la misma distancia de
0.95 se suele hacer un promedio de los
valores de Z = 1.64 + 1.65= 3.29/2
=1.645
Z= 1.645

𝑝(1 − 𝑝)
𝑝±𝑍√
𝑛

(0.175)(1−0.175)
= 0.175 ± (1.645) √
200

= 0.175 ± (1.645) (0.0269)


= 0.175 ± 0.0442
0.1308 ≤ µ ≤ 0.2192

Se concluye con un 90% de confianza que entre el 13.08 y el 21.92% de los


periódicos impresos en el día tienen algún defecto.
REGRESION LINEAL

“Modelos predictivos o de regresión: la representación de la relación entre dos (o


más) variables a través de un modelo formal supone contar con una expresión
lógico-matemática que, aparte de resumir cómo es esa relación, va a permitir
realizar predicciones de los valores que tomará una de las dos variables (la que se
asuma como variable de respuesta, dependiente, criterio o Y) a partir de los valores
de la otra (la que se asuma como variable explicativa, independiente, predictora o
X).” (Losilla, 2005)

“El análisis de regresión permite desarrollar un modelo para predecir los valores de
una variable numérica con base en los valores de una o más variables diferentes.
En el análisis de regresión, la variable dependiente es la variable que se desea
predecir. Las variables utilizadas para hacer una predicción son las variables
independientes. Además de predecir los valores de la variable dependiente, el
análisis de regresión también permite identificar el tipo de relación matemática que
existe entre la variable dependiente y la independiente, para cuantificar el efecto
que los cambios en la variable independiente tienen sobre la variable dependiente,
así como para identificar las observaciones inusuales.” (Levine, 2006)

En general interesa:
 Investigar si existe una asociación entre las dos variables testeando la
hipótesis de independencia estadística.
 Estudiar la fuerza de la asociación, a través de una medida de asociación
denominada coeficiente de correlación.
 Estudiar la forma de la relación. Usando los datos propondremos un modelo
para la relación y a partir de ella será posible predecir el valor de una variable
a partir de la otra.
Ecuación. Regresión Lineal Simple

Dos características importantes de una ecuación lineal:


• La independencia de la recta
• La localización de la recta en algún punto Una ecuación lineal tiene la forma:

Con esta expresión se hace referencia al proceso matemático que sirve para ajustar
una línea recta a través de un conjunto de datos bivariables asentados en una
gráfica de dispersión. Dicha línea se conoce como línea de regresión simple. El
primer paso es recoger datos experimentales correspondientes a n individuos con
información de dos variables cuantitativas: una de ellas se considera variable
explicativa (Variable x) y la otra se considera variable respuesta (Variable y).

Mínimos cuadrados

“Método para estimar los parámetros de las distribuciones de probabilidad que se


basa en ajustar un modelo de regresión lineal simple a los datos graficados en el
correspondiente papel de probabilidad.” (Gutiérrez, 2009)

“Principio de los mínimos cuadrados. Determina una ecuación de regresión al


minimizar la suma de los cuadrados de las distancias verticales entre los valores
reales de Y y los valores pronosticados de Y” (Lind, 2012)

𝑦̂ = a + bx

Donde 𝑦̂ = valor calculado de la variable que debe predecirse (denominada


variable dependiente).
a = ordenada.
b = pendiente de la recta de regresión (o la tasa de cambio en y para los cambios
en y para los cambios dados en x).
x = variable independiente (que en este caso es tiempo).
∑xy − n𝑥̅ 𝑦̅
𝑏=
∑𝑥 2 − 𝑛𝑥̅ 2

Donde:
b: pendiente de la recta de regresión.
∑: signo de suma.
x: valores conocidos de variable independiente.
y: valores conocidos de la variable dependiente
𝑥̅ : promedio de valor de las x
𝑦̅:: promedio de las y
n: número de datos puntuales u observaciones

Calculamos la ordenada a como sigue:


̅ + (−𝒃) 𝒙
a=𝒚 ̅

Graficas:
Ejemplo
A continuación se muestra la demanda de energía eléctrica en N.Y. Edison durante
el periodo de 1997 a 2003, en megawatts. Pronostique la demanda para 2004
ajustando una recta de tendencia a estos datos.

Año Demanda de energía Año Demanda de energía


Eléctrica Eléctrica
1997 74 2001 105
19998 79 2002 142
1999 80 2003 122
2000 90

Con una serie de datos en función del tiempo podemos minimizar los calculas
transformando los valores de x (tiempo) en números más sencillos. En este caso
podemos designar 1997 como año 1, 1998 como año 2, etcétera.

Año Periodo Demanda de energía


(x) eléctrica (y) 𝒙𝟐 XY
1997 1 74 1 74
1998 2 79 4 158
1999 3 80 9 240
2000 4 90 16 360
2001 5 105 25 525
2002 6 142 36 852
2003 7 122 49 854
∑X=28 ∑Y=692 ∑X= 140 ∑XY=3063

∑x ∑y
x̅ = = 28
7
=4 y̅ = = 692
7
= 98.86
n n

∑ xy−nx̅y
̅ 3063−(7)(4)(98.86) 295
b= = = = 10.54
∑ x2 −nx̅2 140−(7)(4 2 ) 28

a = y̅ − bx̅ = 98.86 – 10.54(4) = 56.70

Así, la ecuación de mínimos cuadrados para la tendencia es 𝑦̂=56.70+10.54x. Para


proyectar la demanda en 2004, primero denotamos el año 2004 en el nuevo
sistema de códigos como x= 8

Demanda en 2004= 56.70+10.54 (8)

= 141.02 o 141 megawatts.


(Heizer, 2009)
Fuentes de referencia.

 Levine, D., Krehbiel, T. & Berenson, M. (2006). Estadística para


administración. Cuarta edición. México: PEARSON EDUCACIÓN.
 Ruiz, A. (2006). ¿Por qué varían los procesos? En control estadístico de
procesos (pp. 5 y 6). Madrid: Universidad Pontificia.
 De La Vara, R. & Gutiérrez, H. (2009). Control Estadístico de Calidad y Seis
Sigma. Segunda edición. México: The McGraw-Hill.
 Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F. y Ato, M. (2005). Del
contraste de hipótesis al modelado estadístico. Documenta Universitaria.
[www.edicionsapeticio.com]
 Lind, D., Marchal, W. & Wathen, S. (2012). Estadística aplicada a los
negocios y la economía decimoquinta edición. México: McGraw-
hill/Interamericana editores.
 Heizer, J. & Render, H. (2009). Principios de Administración de operaciones.
7ma edición. México; Prentice Hall
FORMULARIO
Para  CONOCIDA
𝜎
𝑥̅ ± Z
√𝑛
𝜎 𝜎
𝑥̅ - Z ≤ µ ≤ 𝑥̅ + Z
√𝑛 √𝑛

Para  DESCONOCIDA
𝑠
𝑥̅ ± tn-1
√𝑛
𝑠 𝑠
𝑥̅ – tn-1 ≤ µ ≤ 𝑥̅ + tn-1
√𝑛 √𝑛

Para proporciones

𝑝(1 − 𝑝)
𝑝±𝑍√
𝑛

𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
𝑝−𝑍√ ≤ µ ≤ 𝑝+𝑍√
𝑛 𝑛

Donde:
𝑋 número de elementos con característica
p= proporción de la muestra = =
𝑛 tamaño de la muestra

Mínimos cuadrados:

𝑦̂ = a + bx

∑xy − n𝑥̅ 𝑦̅
𝑏=
∑𝑥 2 − 𝑛𝑥̅ 2

̅ + (−𝒃) 𝒙
a=𝒚 ̅