Medidas de tendencia central Medidas de Dispersin Media y Varianza de una Muestra Muestreo Aleatorio
Generalidades La Distribucin Normal La Distribucin Normal Estndar La Distribucin T de Student Distribucin de Promedios Muestrales Distribucin binomial Distribucin de Poisson
Herramientas para contrastar hiptesis Regin crtica. Tipos de errores Contraste de medias. Contraste de diferencia de medias Comprobacin de la normalidad de una muestra.
Control de proceso Control Estadstico de Proceso (C.E.P.) Grficos C.E.P. Generalidades Variables y atributos Eficacia estadstica de los grficos de control Subgrupos racionales Ventajas de los grficos de control
o o o
Introduccin. Grficos de control ( , R) Grfico basado en estudio inicial Grficos basados en valores standar Grficos de control para valores individuales Grficos de control de media mvil (desgaste de herramientas) Recogida de datos e interpretacin Establecimiento de lmites del Proceso Lneas generales para el diseo del grafico ( , R) Interpretacin de los grficos ( , R) Eficacia de los grficos ( , R) Grficos de control ( , S) Grficos de control de sumas acumuladas (CUSUM) Otros grficos de control Grfico de control de media mvil Grficos de Control Multidimensional
Introduccin Anlisis de la capacidad del proceso Anlisis de la capacidad del proceso usando histogramas
o o o o
Introduccin Grfico p para porcentajes defectuosos Operativa del grfico de control p Diseo del grfico p Grfico np para unidades defectuosas Grficos C para tamao de muestra constante Anlisis de defectos Grfico U
En todos estos casos, el resultado del experimento no se puede predecir con absoluta certeza. Hay varios resultados posibles cada vez que se realiza la experiencia. Para cada experimento del tipo que estamos considerando, se define el Espacio Muestral como el conjunto de todos los resultados posibles que pueden producirse al realizar el experimento. Los espacios muestrales respectivos son: S1 = {1,2,3,4,5,6} S2 = {cccc, xccc, cxcc, ccxc, cccx, xxcc, xcxc, xccx, cxcx, ccxx, xxxc, xxcx, cxxx, xcxx, xxxx} S3 = {1,2,3,, N} ; N mximo de artculos producidos en 24 horas. Un Suceso, respecto a un espacio muestral S asociado con determinado experimento, es un subconjunto de resultados del espacio muestral. El conjunto vaco, el formado por un solo elemento y el formado por todos los elementos del espacio muestral son tambin sucesos. Vemos entonces que, dado un experimento aleatorio cualquiera, hay un espacio muestral asociado cuyos elementos son todos los resultados que se pueden obtener de la experiencia. Un subgrupo o subconjunto de resultados es un suceso. Ahora, cmo podemos saber si la posibilidad de que ocurra un suceso es grande o pequea? Por ejemplo, si arrojamos un dado, cmo podemos calcular la probabilidad de que salga un 2 ?. Para esto necesitamos un nmero asociado con cada suceso, al cual se lo denomina probabilidad del suceso. Entonces, la probabilidad P de un suceso es un nmero entre 0 y 1, que nos dice en que medida es posible que ocurra el suceso. Si la probabilidad es 1 significa que el suceso ocurrir con toda certeza. Si la probabilidad es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con la misma probabilidad. Probabilidad 0 quiere decir que el suceso es imposible que ocurra. Cmo podemos calcular la Probabilidad de un suceso?
La respuesta a esta pregunta no siempre es sencilla y depende del experimento y de su espacio muestral asociado. Hay casos simples en los que el clculo es relativamente sencillo. En primer trmino, supondremos que se trata de un experimento cuyo espacio muestral es finito y tiene un nmero pequeo de resultados posibles.
Cada dato numrico es un elemento de la poblacin o universo. Una Muestra es un subconjunto pequeo de observaciones extradas de un universo o poblacin.
La Estadstica trabaja con poblaciones de datos y con muestras extradas de las mismas. Los conceptos de poblacin y muestra a veces resultan ambiguos en su aplicacin prctica.
Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo mdico en el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad. Alguien podra referirse al universo o poblacin censada teniendo in mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en trminos estadsticos, nos referimos a poblaciones o universos de datos. Por ejemplo, el conjunto de todas las mediciones de altura (De los habitantes de la ciudad) es un conjunto de datos y por lo tanto constituye un universo o poblacin de datos desde el punto de vista estadstico. Otro universo o poblacin de datos son los pesos medidos (De los habitantes de la ciudad). Pero la poblacin de habitantes, es decir, las personas que habitan la ciudad no son la poblacin a la que nos estamos refiriendo desde el punto de vista estadstico. Cuando el laboratorio efecta algn ensayo en la muestra y obtiene un resultado numrico, dicho dato podra ser analizado desde el punto de vista estadstico.
Estos datos son una muestra de 20 observaciones del universo o poblacin formado por los salarios de todos los operarios de la industria textil del pas. Aunque el encuestador no disponga de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y por lo tanto podemos hablar de un universo o poblacin cuyos elementos son los salarios de los operarios de la industria textil en el pas. Adems, esa poblacin de datos es seguramente diferente de la poblacin de salarios de los operarios de la industria textil inglesa o brasilea (Usando una misma moneda de referencia). Qu representa una Poblacin de datos? El anlisis estadstico de una poblacin o universo de datos tiene como objetivo final descubrir las caractersticas y propiedades de aquello que gener los datos. Por ejemplo, se tiene una poblacin de escolares (Poblacin fsica, poblacin humana) y se les mide la altura. El conjunto de datos de altura constituye una poblacin o universo estadstico.
El anlisis de estos datos de altura (Universo estadstico) sirve para caracterizar y estudiar a la poblacin de estudiantes (Que no es una Poblacin estadstica). Supongamos que un instituto dedicado a estudios econmicos ha realizado una encuesta de ingresos en el pas. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la poblacin fsica, a la poblacin real del pas, desde un punto de vista econmico.
Un ingeniero controla un proceso industrial, que genera a diario muchos lotes de un producto (Poblacin de lotes). Para cada lote se mide una caracterstica de calidad, obtenindose una gran cantidad de resultados numricos (Poblacin de datos). El ingeniero realiza esta tarea porque a travs de los datos numricos obtenidos se puede evaluar el comportamiento del proceso, que es lo que realmente le interesa.
10
Es importante destacar que detrs de un universo o poblacin de datos se encuentra una poblacin fsica subyacente, formada por elementos de la realidad que nos rodea, de la cual, a travs de algn tipo de medicin, se obtuvieron los datos numricos. Es esa poblacin fsica subyacente (Elementos de la realidad, seres humanos, lotes de material, etc.) la que deseamos estudiar y caracterizar por medio del anlisis estadstico de los datos obtenidos. La poblacin estadstica est representando, entonces, una poblacin fsica o natural formada por elementos de la realidad, con respecto a una caracterstica o propiedad de esa poblacin fsica. Es muy importante, al utilizar mtodos estadsticos, no confundir la poblacin fsica, formada por elementos de la realidad que estamos estudiando, con la poblacin o universo de datos generados a partir de la primera. De aqu en adelante, cuando utilicemos los trminos poblacin o universo sin otro adjetivo nos estaremos refiriendo a poblacin o universo de datos numricos (Tambin llamados observaciones, mediciones o valores).
La Distribucin de Frecuencias
Vimos que una Poblacin o Universo de datos es un conjunto muy grande de nmeros. Estos nmeros pueden estar en un gran listado o puede ser un conjunto hipottico, es decir, podemos imaginar los nmeros pero no los tenemos realmente. Una gran tabla de nmeros ordenados al azar prcticamente no nos muestra informacin acerca de la poblacin de datos. Suponiendo que disponemos de los datos del universo, cmo podemos clasificar y ordenar los nmeros para obtener ms informacin acerca de ese universo de datos?. Una forma sera escribir los nmeros desde el menor hasta el mayor y colocar encima de cada uno tantas cruces o cuadraditos como veces que figure repetido en la poblacin.
11
La representacin grfica nos permite ver informacin que antes no apareca tan evidente. Por ejemplo, sin hacer ningn clculo nos damos cuenta donde est aproximadamente el promedio de la poblacin. Tambin nos muestra cuales son los valores mximo y mnimo de la poblacin, es decir, el rango o recorrido.
En el caso anterior, los datos de la poblacin son nmeros enteros. Cuando los nmeros no son enteros o cuando tenemos un nmero muy grande de datos, se divide el rango total en subintervalos y se cuenta el nmero de valores que cae dentro de cada subintervalo. Vamos a suponer, ahora, que tenemos una cierta poblacin de N = 500 datos, por ejemplo el peso de varones adultos de 40 aos. Una manera de caracterizar esta poblacin es construir una distribucin de frecuencias o grfico de frecuencias. Para ello seguimos los pasos siguientes: 1) Tomamos nota del valor mximo y el valor mnimo de la serie de datos que estamos considerando. 2) Subdividimos el intervalo entre el mximo y el mnimo en algn nmero de intervalos (15 20) mas pequeos iguales entre s. 3) Contamos el nmero de datos que encontramos dentro de cada intervalo (Frecuencia). Por ejemplo, supongamos que en el intervalo i hay ni observaciones (S*ni = N). 4)Para construir el grfico, colocamos en el eje de abcisas (Horizontal) los intervalos y levantamos en cada intervalo un rectngulo de altura proporcional al nmero ni de datos dentro del mismo. Si hacemos el rea del rectngulo levantado sobre el intervalo i-simo igual a la frecuencia relativa ni/N, el rea total bajo el histograma ser igual a la unidad:
12
Esta distribucin de frecuencias nos muestra si hay resultados que son ms frecuentes que otros; si los valores estn ubicados alrededor de un valor central, si estn muy dispersos o poco dispersos. Podemos observar que fraccin de todas las mediciones cae por ejemplo, entre 70 y 80 Kg. Si elegimos una persona del grupo y la pesamos, el resultado es un dato que pertenece a la poblacin de datos representada en el grfico. Decimos, entonces, que estamos extrayendo un dato de la poblacin de datos. Pero hay distintas maneras de elegir la persona, es decir, distintas maneras de realizar la extraccin del dato. Si nos paramos frente al grupo y elegimos una persona, estaremos seleccionando al ms gordo, al ms flaco o al ms alto (y por lo tanto pesa ms que otros), de acuerdo a criterios subjetivos que no podemos evitar. En cambio, si escribimos los nombres de todas las personas en una etiqueta, metemos todas las etiquetas en una caja y luego le pedimos a alguien que retire una etiqueta, la seleccin no estar influida por nuestra subjetividad. En este caso, decimos que la extraccin es aleatoria. Una extraccin aleatoria es aquella en que cada miembro de la poblacin tiene la misma posibilidad de ser elegido.
13
Este importante parmetro nos permite efectuar comparaciones entre distintas poblaciones. Por ejemplo, si tuviramos una poblacin formada por mediciones del peso de mujeres de 30 aos, otra de peso de varones de 40 aos y una tercera de peso de nios de 8 aos, es indudable que los promedios van a ser diferentes. El promedio, entonces, nos est diciendo que las tres poblaciones son diferentes y tambin en que medida difieren. Ahora, si tuviramos una poblacin de varones con peso promedio 70 Kg. y otra poblacin de varones con el mismo promedio, se puede afirmar que ambas poblaciones son equivalentes? Para responder esta pregunta necesitamos tener medidas de la dispersin de la poblacin de datos. Medidas de Dispersin La otra caracterstica muy importante de una poblacin es el grado de dispersin de las observaciones. No es lo mismo si en nuestra poblacin encontramos que todos los valores estn entre 75 y 90 Kg. que si estn entre 60 y 105 Kg., aunque el promedio sea el mismo. Es necesario agregar alguna idea de la dispersin de los valores. Una manera es a travs del Rango de las observaciones, es decir, el valor Mximo y el valor Mnimo de los datos de la poblacin. Entonces, una descripcin mas realista acerca de los seres humanos sera decir que pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos valores son supuestos). Una manera ms precisa de dar idea de la dispersin de valores de una poblacin es a travs de la Varianza o su raz cuadrada, que es la Desviacin Estndar.
14
El promedio de estas observaciones es: = 163, 2 cm Si a cada una de las observaciones le restamos el promedio, obtenemos los Residuos:
Los residuos tambin nos dan una idea de la dispersin de las observaciones individuales alrededor del promedio. Si el valor absoluto (El valor numrico sin el signo) de los residuos es grande, es porque los valores estn muy dispersos. Si el valor absoluto de los residuos es pequeo, significa que las observaciones individuales estn muy cerca del promedio, y por lo tanto, hay poca dispersin. Pero nosotros necesitamos un slo nmero que nos provea informacin acerca de la dispersin de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se cancelaran entre s, con lo cual perdemos la informacin acerca de la dispersin. Entonces, los elevamos al cuadrado:
Si ahora sumamos los residuos elevados al cuadrado, tenemos un nmero donde se condensa toda la informacin de la dispersin de la poblacin:
Este nmero, la suma de cuadrados, es dependiente del nmero de datos N, y por lo tanto no nos sirve para comparar poblaciones con distinto nmero de observaciones. Pero si dividimos la suma de cuadrados por N, tenemos un nmero que es independiente del nmero de observaciones, que se denomina Varianza:
15
Las frmulas anteriores son las que se aplican al clculo de la varianza y desviacin estndar de una poblacin de datos. Mas adelante veremos que las frmulas a aplicar en el caso de una muestra son ligeramente diferentes. La varianza es un nmero que nos permite comparar poblaciones. Cuando la dispersin de las observaciones es grande (Datos que se alejan mucho por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el promedio) ser grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la varianza. Tambin se utiliza la raz cuadrada de la varianza:
Por lo tanto:
La desviacin estndar o desviacin tpica tiene las mismas unidades que la variable con la que estamos trabajando, en nuestro caso el centmetro. Tanto la varianza como la desviacin estndar nos permiten comparar el grado de dispersin de distintas poblaciones.
16
para la Varianza
s para la Desviacin Estndar muestral El clculo de la varianza y la desviacin estndar de una muestra de n observaciones se realiza con una frmula levemente diferente que la ya vista para la varianza y desviacin estndar de una poblacin:
En lugar de dividir por n, el nmero total de observaciones en la muestra, dividimos por n - 1. Este valor, n - 1, son los Grados de Libertad de la muestra. En general, cuando tenemos una muestra de n observaciones, se dice que la misma tiene n - 1 grados de libertad. La media, varianza y desviacin estndar de una muestra, en general, no van a coincidir con los mismos parmetros de la poblacin de la cual se extrajo la muestra (Aunque usemos la misma frmula para calcular la varianza muestral y poblacional). Si extraemos n muestras de una poblacin, vamos a obtener n promedios muestrales distintos del promedio de la poblacin y n varianzas muestrales distintas de la varianza de la poblacin. Esto se debe a que una poblacin o universo tienen un nmero muy grande de datos, mientras que una muestra son slo algunos pocos datos extrados de ese universo. Cuando sacamos una segunda, tercera,... etc. muestras, los datos extrados no tienen por que ser los mismos que en la primer muestra. Por lo tanto, el promedio y la varianza de las muestras van a ser distintos para las distintas muestras, y distintos de la media y la varianza de la poblacin de la cual se extrajeron las muestras. Muestreo Aleatorio En general, no es posible disponer de todas las observaciones de un universo o poblacin, ya sea porque es un universo hipottico o porque la disposicin de todos los datos resulta una tarea excesiva para nuestras posibilidades. Normalmente se dispone de una muestra de datos extrados de un universo, y lo que se pretende es estimar (Conocer de manera aproximada) los parmetros del universo por medio de clculos realizados sobre la muestra. En este sentido decimos que la media muestral es una estimacin de la media del universo, y que la varianza y desviacin estndar mustrales son estimaciones de la varianza y desviacin estndar poblacionales respectivamente. Veamos algunos ejemplos. Supongamos que un partido poltico necesita averiguar la cantidad de personas que estn dispuestas a votar por su candidato. Entonces, encarga a una empresa la realizacin de una encuesta un da previo a las elecciones. El encargado de la encuesta podra pensar en consultar la intencin de voto de toda la poblacin de votantes (Mas de 40 millones en Espaa). Esto, obviamente, es una tarea excesiva que por distintas razones no se puede realizar. Entonces, el camino que resta es tomar una muestra representativa de esa poblacin de personas y consultar la intencin de voto en esa muestra. Los resultados que se obtengan son solamente una estimacin del resultado que se hubiera obtenido si la consulta se hubiera efectuado sobre toda la poblacin de votantes.
17
El promedio de la poblacin es 4. Supongamos que queremos obtener una muestra de 5 elementos de esa poblacin. Hay varias formas de hacerlo. Supongamos que puedo ver los nmeros y elijo 2, 2, 2, 2 y 5. El promedio de estos 5 nmeros extrados de la poblacin es 2,6 que difiere sustancialmente del promedio de la poblacin Es evidente que dicha muestra no es representativa de la poblacin de la que fue extrada. No se mantiene la misma proporcin de cada nmero que existe en la poblacin. Una muestra de 5 elementos en la que hay la misma proporcin de cada dgito debera tener 3 dos, 1 cinco y 1 nueve, y su promedio es 4, el mismo de la poblacin: En una poblacin de muchos datos, no es posible obtener una muestra eligiendo cada elemento para que figure en la misma proporcin que en la poblacin, porque para ello deberamos disponer de todos los datos de la misma, y en ese caso no sera necesario sacar una muestra. Si a cada elemento de la poblacin se le da la misma oportunidad de ser elegido, entonces se supone que cada nmero estar en la muestra en un nmero proporcional a la cantidad de veces que est en la poblacin. Por ejemplo, el 2 va a estar en la muestra mas veces que el 5, porque en la poblacin hay 6 dos y slo 2 cincos.
Si introducimos las diez bolas en una bolsa y las mezclamos suficientemente, la probabilidad que tiene una bola individual de ser extrada es la misma para cualquiera de las bolas.
En esas condiciones, si extraemos cinco bolas sucesivas, mezclndolas previamente en cada oportunidad, es razonable pensar que vamos a sacar el 2 en ms oportunidades que el 5 el 9.Esta forma de obtener la muestra es lo que se conoce como Muestreo Aleatorio.
El muestreo aleatorio no garantiza que la muestra va a ser representativa de la poblacin, pero al eliminar toda influencia externa en el acto de extraer un elemento de la poblacin, la proporcin de
18
19
Si continuamos este proceso, con intervalos cada vez mas estrechos y numerosos, los altibajos en el grfico de la distribucin de frecuencias tienden a desaparecer. En el lmite, el ancho del intervalo tiende a cero y la poblacin puede representarse por una distribucin de probabilidad continua.
Cuando, para representar esta distribucin de probabilidad continua se utiliza una funcin matemtica, esta se denomina Funcin de Densidad de Probabilidad.
La forma de la curva en el grfico de la funcin de distribucin es caracterstica de la poblacin de observaciones asociada con la misma, y depende de variables internas del proceso que gener los datos de la poblacin. Existen distintas funciones de distribucin tericas, cada una de las cuales est basada en un modelo de comportamiento del proceso que gener el universo de observaciones.
La aplicacin de una de estas distribuciones tericas a una poblacin particular est justificada si las hiptesis (suposiciones) del modelo de comportamiento del proceso que gener la poblacin se cumplen. Dicho de otro modo, si conocemos el proceso, es decir, el conjunto de fenmenos que dieron lugar a nuestra poblacin de mediciones u observaciones, y adems estamos seguros de que el mismo se ajusta a un modelo de comportamiento determinado, entonces podemos decir que la distribucin de probabilidades de nuestra poblacin es la que corresponde al modelo. En la prctica, se sabe que ciertos procesos y fenmenos generan resultados numricos cuya distribucin de probabilidades se puede ajustar a determinados modelos tericos. Por ejemplo, el nmero de partculas alfa emitidas por un material radiactivo sigue una distribucin de Poisson. Existen muchas otras distribuciones tericas, como la Binomial, la Exponencial, la de Weisbull, etc. Cada una de ellas tiene su propio campo de aplicacin, que se sostiene en un determinado comportamiento de los fenmenos, y al aplicarla se est haciendo en forma implcita la suposicin de que se cumplen las suposiciones del modelo subyacente.
20
Una distribucin muy importante es la Distribucin Normal o de Gauss. La ecuacin matemtica de la funcin de Gauss es la siguiente:
La distribucin normal es una curva con forma de campana, con eje de simetra en el punto correspondiente al promedio del universo . La distancia entre el eje de simetra de la campana y el punto de inflexin de la curva es igual a , la desviacin estndar de la poblacin. El rea total debajo de la curva es igual a 1. El rea debajo de la curva comprendida entre - y + es aproximadamente igual a 0,68 del rea total; entre - 2 y + 2 es aproximadamente igual a 0,95 del rea total: Es importante ver que los nicos parmetros necesarios para dibujar el grfico de la distribucin normal son y (Media y desviacin estndar de la poblacin). Con estos dos parmetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su ancho (Determinado por la desviacin estndar). Cuando nos encontramos con una poblacin de observaciones, si podemos afirmar que la distribucin correspondiente es normal, slo hace falta estimar la media y la desviacin estndar para tener toda la informacin necesaria acerca de dicha poblacin. La Distribucin Normal Estndar Podemos escribir la frmula de la distribucin normal de la siguiente manera:
con Esta es la frmula de la Distribucin Normal Estndar o Tipificada. Como podemos observar, en ella hay un slo parmetro, Z, que incluye al promedio y la desviacin estndar de la poblacin. Esta funcin est tabulada. Al calcular Z, lo que estamos haciendo, en realidad, es un cambio de variable por el cual movemos la campana de Gauss centrndola en el 0 del eje X, y modificamos el ancho para que la desviacin estndar sea 1.
21
Cuando queremos calcular las probabilidades para una poblacin real, calculamos Z y entramos en la tabla de la funcin normal estndar.
La Distribucin T de Student
En la generalidad de los casos, no disponemos de la desviacin estndar de la poblacin, sino de una estimacin calculada a partir de una muestra extrada de la misma y por lo tanto no podemos calcular Z.
con
Donde S es la desviacin estndar muestral, calculada con n-1 grados de libertad. Ntese que utilizamos S, la Desviacin Estndar de una Muestra, en lugar de , la Desviacin Estndar de la Poblacin. El estadstico T tiene una distribucin que se denomina distribucin T de Student, que est tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calcul la desviacin estndar. La distribucin T tiene en cuenta la incertidumbre en la estimacin de la desviacin estndar de la poblacin, porque en realidad la tabla de T contiene las distribuciones de probabilidades para distintos grados de libertad.
22
La distribucin de medias muestrales est situada en el mismo lugar (alrededor de la misma media) que la distribucin original, pero es mucho mas estrecha, porque su varianza es la dcima parte de la varianza original. La distribucin original de observaciones representada por el bombo blanco se denomina comnmente distribucin madre o base. Al construir la poblacin de promedios muestrales, realizbamos extracciones de 10 bolas blancas despus de dar vueltas al bombo. Es decir, que estbamos realizando un muestreo aleatorio de la poblacin madre, porque cada una de las bolas blancas tena la misma posibilidad de ser elegida para integrar la muestra. Aunque la poblacin original no sea de distribucin normal, si el muestreo es aleatorio, la poblacin de promedios muestrales se aproximar a la normalidad, es decir, ser casi de distribucin normal.
23
En general, en los problemas que se presentan habitualmente, existe una poblacin de observaciones cualesquiera, de la cual tomamos una muestra aleatoria, por medio de la cual intentamos conocer todo lo que sea posible acerca de la poblacin de la cual fue extrada. El promedio de la muestra de n elementos pertenece a la distribucin de promedios muestrales de la poblacin original. Es decir, que el promedio de la muestra que obtuvimos es uno de los muchos promedios muestrales que se distribuyen alrededor de m con desviacin estndar. Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una distribucin de promedios con desviacin estndar mas pequea, por lo cual, el promedio de la muestra estar mas cerca del promedio del universo. Es por esto que es razonable pensar que el promedio de la muestra es una estimacin del promedio del universo.
Distribucin binomial
Una persona arroja un dado apostando con otra a que saca un as (un 1). La probabilidad de sacar el as es igual a:
Es decir que la probabilidad que tiene de acertar es 17 % aproximadamente. Ahora, supongamos que la persona arroja 5 dados iguales a la vez. Cul es la probabilidad de que saque 0, 1, 2, 3... unos?. Cuando realizamos una experiencia individual donde el resultado debe ser slo uno de dos posibles: acierto/fallo, cara/cruz, etc. decimos que es un ensayo de Bernouilli. Es tan probable sacar 1 2 ases como sacar 5 ases?. A priori parecera que no. En nuestro caso, cada vez que arrojamos un dado podemos definir nuestro experimento registrando slo dos resultados posibles: Cada acto individual de arrojar un dado es independiente de los otros y las probabilidades de obtener un as o de no obtener ninguno, son, respectivamente:
24
Nos falta calcular las probabilidades intermedias, es decir la probabilidad de obtener 1, 2, 3...ases. Es posible calcular todas estas probabilidades con una frmula binomial. Cul es la probabilidad de sacar un As al arrojar cinco dados? Por ejemplo, una forma es que salga un As en el primer dado. La probabilidad de sacar 1 As en el primer dado y no sacar As en los otros cuatro es:
Pero hay 5 formas diferentes de obtener 1 As en cinco dados arrojados: que se obtenga en el 1 de los dados, o en el 2 o en el 3 o en el 4 o en el 5. Por lo tanto, la probabilidad de sacar 1 As al arrojar 5 dados es:
Cmo podemos generalizar el clculo de las distintas formas de obtener 1 As, 2 Ases, etc. en cinco dados arrojados? La respuesta la dan los nmeros combinatorios:
; donde : m! = 1*2*3**m y n! = 1*2*3**n son el factorial de m y de n respectivamente. La expresin representa el nmero de combinaciones de m elementos tomados de n en n (agrupados de n en n). Por ejemplo, si tenemos las 5 letras A, B, C, D y E, y queremos saber cuantas son todas las combinaciones posibles agrupndolas de a tres en cualquier orden: ABC, ADC,...etc., tenemos:
25
, donde p+q = 1 Los trminos de la suma son las probabilidades P(y), que determinan la distribucin de probabilidades de la variable aleatoria y, la cual es una variable discreta (toma los valores 0, 1, 2, ...etc.). Aplicando la frmula al caso de 5 dados:
Las probabilidades de no sacar ningn As o de sacar uno, dos, tres, cuatro o cinco, son :
; la varianza es:
En la experiencia de arrojar 5 dados: Cmo interpretamos este resultado? Si bien el promedio resulta un valor fraccionario, nos est diciendo que al arrojar los cinco dados estaremos ms cerca de sacar 1 As que de sacar 2 o ms ases. De una manera ms rigurosa, ese valor nos dice que si se repitiera la experiencia muchas veces, el promedio del nmero de ases que se obtendra en todos los experimentos sera igual a 0.83
26
Volvamos, ahora a nuestro jugador. Supongamos que arroja 5 dados y apuesta a que va a sacar 3 o ms ases, cul es la probabilidad que tiene de ganar? Esta probabilidad es la suma de los trminos del binomio para 3, 4 y 5 aciertos (ases), es decir:
Distribucin de Poisson
Para entender la Distribucin de Poisson, vamos analizar un ejemplo detenidamente. Supongamos que se tiene una tabla rectangular de madera, de 1 metro por 1 metro, pintada con un recubrimiento sobre cuya superficie se presentan aleatoriamente pequeos defectos. Estos defectos podran ser por ejemplo partculas muy pequeas de pigmento que no fueron bien molidas al fabricar la pintura. Se desea calcular la probabilidad de que aparezcan estos defectos y para ello podramos subdividir la superficie en zonas rectangulares mas pequeas y de igual tamao:
Tenemos la superficie dividida en 4 zonas rectangulares de igual tamao. Observamos que en algunas zonas aparece un defecto superficial y en otras no. Vamos a hacer las siguientes suposiciones: En cada zona slo puede aparecer 1 defecto.
27
Pero sabemos que en realidad en cada zona podran aparecer ms de 1 defecto. Esto hace inexacto nuestro clculo. Podramos hacer el clculo ms exacto si subdividimos las zonas:
Dividimos cada zona en 4 y ahora tenemos 16 zonas. La probabilidad de tener 1 defecto en una zona es p/16 con lo que podemos entonces calcular la probabilidad de tener 0, 1, 2, 3, ...., 16 defectos en el rea total:
An as podran aparecer ms defectos por zona, por lo que si dividimos nuevamente cada zona en 4 tendramos 64 zonas y ahora la probabilidad de tener 1 defecto en una zona sera p/64 La probabilidad de tener 0, 1, 2, 3, ....., 64 defectos en la superficie total sera:
28
Y nuevamente el promedio de defectos en la superficie es p. Lo que estamos haciendo es ir aumentando n al mismo tiempo que disminuye p en igual proporcin y de ese modo, el promedio de defectos en la superficie total n.p se mantiene constante. Como vimos, al suponer que en cada subzona slo puede haber 1 defecto o ningn defecto estamos cometiendo un error. Este error se hace cada vez menor, porque a medida que subdividimos el rea total se hace menos probable que en una subzona aparezca ms de un defecto. Si continuamos subdividiendo el rea indefinidamente, la frmula binomial nos dar la probabilidad de obtener 0, 1, 2, 3, ... n defectos, con n tendiendo a infinito. En el lmite, la frmula Binomial tiende a la frmula de Poisson:
donde x es la variable aleatoria y el parmetro de la distribucin de Poisson. En el lmite, el producto de n por p, , es igual al parmetro de la distribucin: El nmero de defectos x en la superficie total es una variable aleatoria discreta que puede tomar valores 0, 1, 2, 3, 4, ... y cuya distribucin de probabilidades se conoce como Distribucin de Poisson.
Se puede observar que la curva de la funcin de Poisson es asimtrica, como la binomial. El promedio y la varianza de esta variable aleatoria son iguales al parmetro de la distribucin:
29
La distribucin de Poisson tiene una propiedad cuyas consecuencias son muy importantes para el Control Estadstico de Procesos. Supongamos que se tienen m variables aleatorias de Poisson:
Esto es muy importante porque podemos imaginar el producto fabricado por un proceso (Una licuadora, una computadora, un televisor, etc.) como una superficie en la que se pueden producir mltiples defectos, y donde el nmero de cada tipo de defecto es una variable aleatoria de Poisson. Entonces, la propiedad mencionada nos permite tratar la suma de todos los tipos de defectos como una variable aleatoria de Poisson. Esto se utiliza para el control del Nmero de Defectos en un producto (Grficos C). Supongamos ahora que tenemos un gran lote de artefactos, por ejemplo licuadoras. Tomamos una muestra de m = 5 unidades y medimos el nmero total de defectos en las 5 unidades. Si obtuvimos x1, x2, x3, ... xm defectos en cada unidad, el nmero total de defectos ser:
y es una variable aleatoria discreta que puede tomar valores 0, 1/m, 2/m, 3/m, ... etc. Cul es la varianza de y?
30
La varianza de xi es cualquiera que sea el sub ndice i, porque todas las xi tienen la misma distribucin; por lo tanto:
Este es un importante resultado que se utilizar para calcular la varianza en los Grficos U.
31
Y, a partir de ah, decidir si, con los datos que poseemos de la muestra, tenemos caracterizada a la poblacin. Herramientas para contrastar hiptesis Los dos tipos de distribuciones ms importantes, aunque no nicos, para el contraste de hiptesis, son las distribuciones Normal y T-Student, que hemos visto en el captulo anterior. El contraste de hiptesis es un conjunto de reglas que nos permiten decidir cul de entre dos hiptesis debe ser aceptada como cierta en base a los resultados obtenidos en una observacin muestral. Se conocen como hiptesis nula (Ho) e hiptesis alternativa (Ha). La hiptesis nula puede mantenerse mientras los datos no indiquen su falsedad; la hiptesis nula nunca se puede afirmar, solo podremos aceptarla o rechazarla. Por lo tanto trataremos de decidir si la informacin muestral que poseemos est en consonancia con H o, o bien nos permite rechazar esa creencia con lo que aceptaremos Ha. Podemos distinguir entre dos tipos de hiptesis: Paramtricas que se refieren a conjeturas sobre el parmetro de una distribucin. No paramtricas que responden a afirmaciones acerca de la naturaleza de la distribucin.
Regin crtica. Tipos de errores En la prctica el Contraste de Hiptesis consiste en estudiar si un estadstico que es funcin de las observaciones de la muestra est dentro de una regin llamada de aceptacin, o se encuentra en la regin de rechazo o regin crtica, de tal forma que si el estadstico se encuentra en la regin de aceptacin se aceptar la hiptesis nula y si cae en la regin de rechazo se rechazar dicha hiptesis. El estadstico muestral es un fenmeno aleatorio, por lo que pudiera pasar que aunque la H o fuera cierta, el estadstico se encontrara en la regin de rechazo, en esta situacin estaramos cometiendo un Error de Tipo I (). Otra posible situacin sera encontrar el estadstico en la regin
32
Ejemplo 1. Un laboratorio farmacutico afirma que el antiinflamatorio fabricado por ellos elimina la inflamacin en 14 minutos en los casos corrientes. Con el objeto de comprobar estadsticamente esta afirmacin, eligimos al azar 18 pacientes con inflamaciones varias y tomamos como variable de respuesta el tiempo transcurrido entre la administracin del antiinflamatorio y el momento en que desaparece la inflamacin. Adems, nos dicen que la variable tiempo transcurrido entre la administracin del antiinflamatorio y el momento en que desaparece la inflamacin sigue una distribucin normal de media 14 y desviacin 7. El tiempo medio de respuesta de la muestra fue de 19 minutos. Se pide comprobar la afirmacin del laboratorio a un nivel de significacin de 0.05. Solucin. Primero consideremos los datos que tenemos. X = 19, = 14, = 7, n = 18 Planteemos ahora las hiptesis de este test. Queremos contrastar la hiptesis nula a partir de la afirmacin de la empresa que dice que la inflamacin desaparece en 14 minutos; as pues, tendremos: Hiptesis nula Ho : = 14 La hiptesis alternativa ser el caso desfavorable, en esta ocasin para la empresa, y puede escribirse: Hiptesis alternativa Ha : > 14
33
Con lo que podemos observar que el estadstico se sita en la regin crtica y ,por lo tanto no sigue el criterio de aceptacin de la hiptesis nula. De ese modo, rechazaramos la hiptesis Ho de que = 14 y concluimos que a un nivel 0.05 el tiempo medio de eliminar la inflamacin por este antiinflamatorio es superior a 14 minutos.
Si las desviaciones de las poblaciones son desconocidas y slo conocemos las desviaciones muestrales, tendremos que considerar la distribucin t de Student en vez de la normal. Ejemplo 2. Se conocen los datos de dos muestras de dos poblaciones, que son los siguientes:
Se pide contrastar estadsticamente si hay diferencia entre las dos poblaciones, a un nivel de significacin del 0.05.
34
Aunque el estadstico que correspondera a este test es el asociado a una distribucin T-Student, por ser las desviaciones de las poblaciones desconocidas, como el tamao de las muestras es elevado y sabemos que una distribucin T-Student con muchos grados de libertad se aproximaba mucho a una Normal, utilizaremos el siguiente estadstico:
Estadstico con distribucin N(0,1) Con los datos de la poblacin y de la muestra, calculamos el estadstico, aceptando, por ahora, la hiptesis nula (m1 = m2), y observemos en que regin se sita el estadstico.
Como podemos ver, el estadstico se sita en la regin de aceptacin de la hiptesis nula, con lo que aceptaramos la Ho (1 = 2), y podramos concluir que, a un nivel de significacin de 0.05, las dos poblaciones se pueden considerar iguales estadsticamente. Comprobacin de la normalidad de una muestra. Muchas pruebas estadsticas estn basadas en el supuesto de que el universo del que se saca la muestra est normalmente distribuido. Por tanto, es prudente cuando sea posible, comprobar este supuesto de normalidad. Son varios los procedimientos disponibles para realizar la prueba. El 2 mtodo ms utilizado es la prueba X . 2 Una prueba X es aquella que compara un conjunto de frecuencias de muestras con el conjunto de frecuencias que cabra esperar basadas en alguna hiptesis. Si los dos grupos se comparan bien, la hiptesis se rechaza. Como la distribucin en la cual se basa la decisin de aceptar o rechazar 2 2 se funda en la distribucin X , esta prueba se denomina prueba X . Se puede utilizar para comprobar la adecuacin de cualquier curva de frecuencia. En nuestro caso la hiptesis es que la distribucin de frecuencias sigue una distribucin Normal La formulacin precisa de una prueba X es la siguiente; supongamos que F1, F2,, Fk sean las frecuencias de muestra de k clases y f1, f2, ; fk las frecuencias que se esperaran con base en la
2
35
tendern a formar una distribucin X , de parmetro v. Al aplicar una prueba X para determinar la normalidad de una distribucin, las frecuencias reales de un histograma se comparan con las frecuencias tericas obtenidas, suponiendo que el universo est normalmente distribuido. Se adapta la curva normal dndole las mismas medias y desviacin estandar del histograma de la muestra. Las frecuencias tericas y reales se comparan en la forma 2 que se describe mediante la frmula anterior, y la tabla X se utiliza entrando con v = k-3, siendo k el nmero de intervalos elegidos en el diagrama de frecuencias. El proceso de adaptacin impone a continuacin las tres condiciones siguientes:
2
Utilizando la nomenclatura usada en estadstica matemtica, decimos que estas tres condiciones ocasionan una prdida de tres grados de libertad.
36
Las actuaciones sobre la produccin estn orientadas al pasado, porque la misma implica la deteccin de productos ya producidos que no se ajustan a las especificaciones.
37
Este tipo de control puede implementarse mediante sistemas de control automtico digital (caso ms habitual) o mediante grficos de control. En lo sucesivo nos referiremos nicamente al Control Estadstico del Proceso.
38
En el lugar de salida de las piezas, hay un operario que cada 30 minutos toma una, la pesa en una balanza y registra la observacin. Supongamos que estos datos se registran en un grfico de lneas en funcin del tiempo:
39
Observamos una lnea quebrada irregular, que nos muestra las fluctuaciones del peso de las piezas a lo largo del tiempo. Esta es la fluctuacin esperable y natural del proceso. Los valores se mueven alrededor de un valor central (El promedio de los datos), la mayor parte del tiempo cerca del mismo. Pero en algn momento puede ocurrir que aparezca uno o ms valores demasiado alejados del promedio. Cmo podemos distinguir si esto se produce por la fluctuacin natural del proceso o porque el mismo ya no est funcionando bien? El control estadstico de procesos provee la respuesta a la anterior pregunta y a continuacin veremos como lo hace. Todo proceso de fabricacin funciona bajo ciertas condiciones o variables que son establecidas por las personas que lo manejan para lograr una produccin satisfactoria.
Cada uno de estos factores est sujeto a variaciones que realizan aportes ms o menos significativos a la fluctuacin de las caractersticas del producto, durante el proceso de fabricacin. Los responsables del funcionamiento del proceso de fabricacin fijan los valores de algunas de estas variables, que se denominan variables controlables. Por ejemplo, en el caso de la inyectora se fija la temperatura de fusin del plstico, la velocidad de trabajo, la presin del pistn, la materia prima que se utiliza (Proveedor del plstico), etc.
40
41
Antes de pasar a la segunda etapa, se verifica si el proceso est ajustado. En caso contrario, se retorna a la primera etapa. En la 1 etapa se recogen unas 100-200 mediciones, con las cuales se calcula el promedio y la desviacin estndar:
Luego se calculan los Lmites de Control de la siguiente manera: Lmite inferior = X - 3,09s ; Lmite superior = X+ 3,09s Estos lmites surgen de la hiptesis de que la distribucin de las observaciones es normal. En general se utilizan lmites de 2 sigmas de 3 sigmas alrededor del promedio. En la distribucin normal, el intervalo de 3,09 sigmas alrededor del promedio corresponde a una probabilidad de 0,998.
Se construye un grfico de prueba y se traza una lnea recta a lo largo del eje de ordenadas (Eje X), a la altura del promedio (Valor central de las observaciones) y otras dos lneas rectas a la altura de los lmites de control. En el grfico de prueba se representan los puntos correspondientes a las observaciones con las que se calcularon los lmites de control y se analiza detenidamente para verificar si est de acuerdo con la hiptesis de que la variabilidad del proceso se debe slo a un sistema de causas aleatorias o si, por el contrario, existen causas asignables de variacin. Esto se puede establecer porque cuando la fluctuacin de las mediciones se debe a un sistema constante de causas aleatorias la distribucin de las observaciones es normal: Cuando las observaciones sucesivas tienen una distribucin normal, la mayor parte de los puntos se sita muy cerca del promedio, algunos pocos se alejan algo ms y prcticamente no hay
42
Si slo hay pocos puntos fuera de control (2 3), estos se eliminan, se recalculan la media, desviacin estndar y lmites de control con los restantes, y se construye un nuevo grfico de prueba. Cuando las observaciones no siguen un patrn aleatorio, indicando la existencia de causas asignables, se hace necesario investigar para descubrirlas y eliminarlas. Una vez hecho esto, se debern recoger nuevas observaciones y calcular nuevos lmites de control de prueba, comenzando otra vez con la primera etapa. En la 2 etapa, las nuevas observaciones que van surgiendo del proceso se representan en el grfico, y se controlan verificando que estn dentro de los lmites, y que no se produzcan patrones no aleatorios. Como hemos visto, el 99,8 % de las observaciones deben estar dentro de los lmites de 3,09 sigmas alrededor de la media. Esto significa que slo una observacin en 500 puede estar por causas aleatorias fuera de los lmites de control. Cuando se encuentra ms de un punto en 500 fuera de los lmites de control, significa que el sistema de causas aleatorias que provocaba la variabilidad habitual de las observaciones ha sido alterado por la aparicin de una causa asignable que es necesario descubrir y eliminar. En ese caso, el supervisor del proceso debe detener la marcha del mismo e investigar con los que operan el proceso hasta descubrir la(s) causas que desviaron al proceso de su comportamiento habitual. Una vez eliminadas las causas del problema, se puede continuar con la produccin normal. Estos lmites de control se escogen de forma que si el proceso est bajo control, prcticamente todos los puntos del grfico estarn contenidos entre dichos lmites. En tanto los puntos estn dentro de los lmites no ser precisa ninguna accin correctora porque se supone que el proceso est balo control. Sin embargo, un punto fuera de los lmites de control se interpreta como una
43
Variables y atributos
Los grficos de control se clasifican en dos tipos: Variables y Atributos. Si la caracterstica de calidad puede medirse y expresarse como un nmero la llamamos variable. En tales casos es conveniente describir la caracterstica de calidad con una medida de tendencia central y una medida de dispersin mediante los llamados grficos de control por variables, que veremos en el captulo 7. Los grficos X son los ms ampliamente utilizados para controlar la tendencia central mientras que los grficos de rango (recorrido) y de desviacin tpica se utilizan para controlar la dispersin. Muchas caractersticas cualitativas no se miden en una escala cuantitativa. En estos casos, juzgaremos si una unidad de producto es o no conforme si posee ciertos atributos o contando el nmero de defectos que aparecen en cada unidad de producto. Los grficos de control para estas caractersticas se denominan grficos de control por atributos, que veremos en otro de los captulos. Eficacia estadstica de los grficos de control El objetivo bsico de un grfico de control es detectar, de la forma ms rpida posible, cambios en el proceso. Cuando un punto cae fuera de los lmites de control decimos que el proceso est fuera de control, que existe una causa asignable. Realmente, como en cualquier contraste de hiptesis estadstico existe una probabilidad de dictaminar una situacin fuera de control cuando el proceso est
44
Como se observa en la curva ARL, si no hay descentrado (d =0), tambin hay puntos fuera de lmites (falsas seales o error tipo I) Curva caracterstica. Da la probabilidad de que el siguiente punto caiga dentro de tos lmites de control para un cambio en el proceso de magnitud determinada. Para disear un grfico de control con una eficiencia estadstica determinada fijaremos: A) Separacin de lmites de control. Cuanto ms alejados estn uno de otro el error tipo I ser menor y aumentar el tipo II B) Tamao de la muestra. Al aumentar el tamao de la muestra el error tipo II disminuye Subgrupos racionales El concepto de subgrupo racional es una idea fundamental para el uso de grficos de control debida a Shewhart. De acuerdo con este concepto, la muestra (subgrupo racional) debe tomarse de tal forma que si la causa asignable est presente, la probabilidad de aparicin de diferencias significativas dentro de los subgrupos se minimice. Dicho de otra forma, los subgrupos deben elegirse de forma que tengan la mxima probabilidad de que las mediciones realizadas en cada subgrupo sean semejantes y la mxima probabilidad de que los subgrupos se diferencien entre si. El principal esfuerzo ha de centrarse en garantizar que las unidades de cada subgrupo se producen, esencialmente, bajo las mismas condiciones. Cuando los grficos de control se aplican a los procesos de produccin, el orden de produccin ser una base lgica para el agrupamiento en subgrupos racionales. An cuando se respete el orden de produccin es posible formar subgrupos errneamente. Los subgrupos se realizan agrupando las mediciones de tal modo que haya la mxima variabilidad entre subgrupos y la mnima variabilidad dentro de cada subgrupo. Por ejemplo, si se toman unas
45
Supongamos una fbrica que produce piezas cilndricas para la industria automotriz. La caracterstica de calidad que se desea controlar es el dimetro de las piezas. Existen dos caminos para formar subgrupos racionales. Una de ellas es retirar varias piezas juntas a intervalos regulares, por ejemplo cada hora.
Este mtodo se utiliza cuando el propsito fundamental del grfico de control es detectar cambios de nivel del proceso. La otra forma es retirar piezas individuales a lo largo del intervalo de tiempo correspondiente al subgrupo. ... etc
Este mtodo se utiliza sobre todo cuando los grficos se emplean para tomar decisiones respecto de la aceptacin de todas las unidades producidas desde la ltima muestra. Por cualquiera de los dos caminos, obtenemos grupos de igual nmero de mediciones. Si tomamos muestras segn el primer mtodo en un proceso que puede cambiar a una situacin de fuera de control y volver de nuevo dentro de control en el perodo comprendido entre muestras, entonces, no detectaramos la produccin defectuosa, por lo que sera mas adecuado utilizar el segundo mtodo. Hacemos notar, sin embargo, que cuando se forman subgrupos de esta segunda forma, los grficos de control para la dispersin (rango y sigmas) requieren una cuidadosa interpretacin ya que es posible la aparicin de puntos fuera de control an cuando no existan cambios en la variabilidad del proceso. Existen otras bases para formar subgrupos racionales: Diferentes mquinas, distintos trabajadores, etc. A veces, por ejemplo, ser preciso realizar un grfico de control para cada mquina.
46
Los grficos X-R se utilizan cuando la caracterstica de calidad que se desea controlar es una variable continua. A.- Grfico de la media Supongamos que una variable est normalmente distribuida con media y desviacin tpica y que ambas son conocidas. Si X1, X2, ... son mediciones de una muestra de tamao n, la media muestral, dada por :
47
est normalmente distribuida con media y desviacin tpica probabilidad de que cualquier media muestral caiga en el intervalo
. Adems, la
es 1 - , siendo el error tipo I o Nivel de significacin (probabilidad de decir que el proceso se ha descorregido cuando en realidad el proceso sigue la distribucin N( , )),
Por consiguiente, si y son conocidos la expresin anterior puede utilizarse para determinar los lmites de control de la media muestral. Habitualmente usaremos los lmites 3 reemplazando Z/2 por 3. Si la media muestral cae fuera de estos lmites, esto indicar que la media del proceso no permanece en . Hemos supuesto que la distribucin original era normal. Si no lo fuera, los anteriores resultados seran tambin aproximadamente vlidos por aplicacin del teorema central del lmite. En la prctica no conocemos ni , por consiguiente, debemos estimarlas a partir de muestras previas obtenidas del proceso cuando se cree que ste est bajo control. Esta estimacin debe basase como mnimo en 20 o 25 muestras.
Supongamos que disponemos de (m) muestras, cada una de ellas con (n) observaciones. Tpicamente, n ser pequeo 4 5. En esa situacin, el mejor estimador de la media del proceso ser
se utilizar como valor de la lnea central del grfico. Para construir los lmites de control, necesitamos un estimador de la desviacin tpica s. Podemos estimar s a partir de los rangos o de las desviaciones tpicas de las (m) muestras. De momento, haremos la estimacin a partir de los rangos. Si X1, X2,..., Xn, son mediciones de una muestra de tamao n, el rango de la muestra es R =Xmax - Xmin. La variable aleatoria W = R/s sigue una distribucin conocida denominada distribucin del rango
48
la mejor estima de s ser Cuando el tamao de la muestra es pequeo: n = 4 5 el mtodo de estimar a partir del rango da casi tan buen resultado como estimarla a partir de la varianza muestral. Sin embargo, para valores de n, digamos no mayores de 10, pierde rpidamente eficiencia ya que ignora toda la informacin comprendida entre Xmax y Xmin. Si usamos X como estimador de m y del grfico de medias quedaran: como estimador de s entonces los lmites de control
Za/2 lo obtendramos de las tablas de Distribucin Normal (Tabla I), una vez elegido a (error tipo I). Normalmente Za/2 = 3 (a = 0,0027), en este caso la cantidad calculo de los lmites de control da: esta tabulada y el
Grficos basados en un estudio inicial A.- Grfico de la media B.- Grfico del recorrido
Hemos visto que el rango muestral est relacionado con la desviacin tpica del proceso. Por consiguiente, la variabilidad del proceso puede controlarse representando los valores sucesivos del rango muestral que constituyen el grfico del rango (R). Los parmetros de (R) pueden determinarse con facilidad, la lnea central ser . Para determinar los lmites de control necesitamos estimar R. Suponiendo que la variable sigue una distribucin normal, R puede encontrarse a partir de la distribucin del rango relativo W = R/. Al ser la desviacin tpica de W = d3, la desviacin tpica de R ser estimamos por R/d2 con lo que parmetros del grfico de control sern: . Como es desconocida la
49
Si hacemos
resulta :
Las constantes D3 y D4 estn tabuladas para diferentes valores de D (Tabla IV). Podemos calcular los lmites del grfico del recorrido especificando el error I () y utilizando la tabla de la distribucin del rango relativo, calcular W (que depende del tamao de la muestra) y calcular luego el lmite superior de control
Cuando se inicia el control estadstico y las muestras previas son utilizadas para construir los grficos, R, los primeros lmites de control calculados suelen considerarse como valores de prueba. A continuacin, las medias y los rangos son representados en los grficos y se investigan aquellos puntos situados fuera de control. Si se descubren causas asignables, los puntos se descartan y se calculan nuevos lmites de prueba. El procedimiento se repite hasta que todos los puntos se siten dentro de control. la muestra inicial no debe reducirse por debajo de aproximadamente 20 muestras. El concepto del subgrupo racional juega un importante papel en el uso de los grficos (X, R). El grfico X realiza el seguimiento del nivel medio de calidad del proceso. Por consiguiente, las muestras deben seleccionarse de forma que se maximice la probabilidad de diferencia entre medias muestrales. Otra forma de expresar lo anterior es que el grfico X hace el seguimiento de variabilidad del proceso a lo largo del tiempo mientras que el grfico del rango R mide la variabilidad dentro de la muestra (variabilidad instantnea en un momento dado). La estima de la desviacin tpica del proceso, utilizada para calcular los lmites de control se calcula a partir de la variabilidad dentro de cada muestra y por consiguiente refleja solamente la variabilidad dentro de la muestra. No es correcto estimar basndose en
50
Vemos que las muestras 6, 18 y 19 caen fuera de lmites. Rechazadas dichas muestras los nuevos lmites quedaran:
51
La muestra 21 tiene un recorrida (0.032) mayor que LS por lo que la eliminamos. Con las muestras 6, 18, 19 y 21 eliminadas calculamos de nuevo los lmites:
Para la media
Para el recorrido
La muestra 11 queda fuera de lmites por lo que eliminndola, lo nuevos limites quedarn:
De recorridos muestrales
Como vemos no hay medias muestrales ni recorridos muestrales que se salgan de stos lmites. Estos ltimos quedan como definitivos.
52
Donde es el error tipo I elegido. Normalmente Z/2 = 3 ( = 0,0027), la cantidad en la tabla I, por lo que los parmetros quedarn : ,que solo depende de n, esta tabulada
Para construir el grfico R con un valor estndar , tendremos en cuenta los valores tabulados d2 y d3 que son, respectivamente, el valor central y la desviacin tpica de la distribucin del rango relativo W = R/. Por consiguiente, (utilizando el criterio 3 R) los parmetros sern :
Si definimos un error tipo I determinado, utilizamos las tablas de la distribucin del rango relativo para calcular los lmites. La utilizacin de los grficos basados en valores estndar debe ejercerse con cuidado ya que puede ser que estos valores no sean realmente aplicables al proceso y que, en consecuencia, resulten muchos puntos fuera de control. Si el proceso est en realidad bajo control para una media y una desviacin tpica diferentes podemos gastar un esfuerzo considerable en buscar causas asignables inexistentes. En aquellos procesos en los que la caracterstica cualitativa se controle mediante ajustes de la mquina este tipo de grficos suele dar buenos resultados para conseguir los objetivos propuestos. Ejemplo.- Supongamos que una especificacin seala que debemos fabricar un material granular de dimetro exterior 10,8 0,2 mm y que nos aceptan alrededor de 5.5% de granos defectuosos.
53
El colectivo debe seguir una Distribucin Normal de media 10,8 y = 0,1 (si queremos dejar cuando el proceso est centrado un 4% (<5,5) de granos defectuosos. Para elegir el grfico de control de medias muestrales: Elijo (Probabilidad de detectar un cambio en el proceso cuando en realidad no se ha producido, error tipo 1). = 2. 7o/oo (criterio 3). Elijo n (tamao de la muestra). Con el tamao de la muestra controlo el error tipo II (Probabilidad de no detectar cambios en el proceso cuando los hay). Ver curvas caractersticas y ARL en el punto. 2.2.2. Normalmente n = 5. Para elegir el grfico de control del recorrido: Elijo el error tipo I, por ejemplo = 2. 7o/oo. luego 1- = 0,9975. En la tabla de la distribucin del rango relativo (tablas II y III), para n = 5 obtengo y = 5,25, luego LSC = 5,25 x 0,1 = 0,52
54
Los datos deben ser recogidos en el grfico de control de la forma acostumbrada, mientras el proceso marcha bajo condiciones normales de produccin, anotando cualesquiera acontecimientos o cambios que puedan afectar al proceso. Una vez recogidos suficientes datos que abarquen por lo menos un ciclo completo del proceso (es decir el perodo entre cambios de herramienta o solucin), ser necesario identificar cualesquiera causas especiales de cambios en el proceso, aparte de la tendencia prevista, mediante la bsqueda de pautas inusuales en el grfico con los lmites diagonales situados a una distancia de la lnea de tendencia (lnea de regresin). encima de la lnea de tendencia y debajo
55
56
57
58
La figura 3-a presenta una pauta de tipo cclico. Esta pauta en el grfico Xpuede ser debida a cambios en el ambiente tales como temperatura; fatiga del operario, rotacin de trabajadores y/o mquinas, fluctuaciones en el voltaje o en la presin. etc. Los grficos A tambin suelen indicar pautas originadas por los programas de mantenimiento, la fatiga del operario. La figura 3-b indica una mezcla de dos o ms colectivos. En este caso, los puntos tienden a caer fuera o ligeramente fuera de los limites de control. A veces, esta pauta aparece por sobrecontrol cuando los operadores ajustan frecuentemente el proceso respondiendo a variaciones aleatorias ms que a la aparicin de causas sistemticas.
La figura 3-c indica un cambio en el nivel del proceso. Estos cambios pueden producirse tras la introduccin de nuevos operarios, o tras cambios en las mquinas, materias primas o en la motivacin de los operadores. A veces, se nota incluso mejora tras la simple introduccin del programa de implantacin del C.E.P. por la motivacin ejercida sobre los operadores. La figura 3-d indica una tendencia, que es un movimiento continuo en una sola direccin. Las tendencias son debidas usualmente al deterioro gradual de las herramientas u otros componentes crticos del proceso.
59
A) calculo de las curvas caractersticas y ARL del grfico - Curva caracterstica Suponemos la desviacin tpica conocida y constante. Si la meda cambia desde el valor objetivo o hasta otro valor 1 = o + K. ,la probabilidad de no detectar el cambio en la primera muestra que se tome ser:
con :
por lo cual :
60
Normalmente se elige = 0,0027 (Error tipo I) Z /2 = 3. Esta curva (Probabilidad de que el siguiente punto caiga dentro de los lmites de control en funcin del Descentrado del proceso) viene representada (con = 0,0027), para distintos tamaos de muestra (n) en la figura C.
Curva ARL La probabilidad de no detectar el cambio en la 1 muestra es 1- . La de no detectarlo en la 2 k-1 es (1- ). La probabilidad de no detectarlo en la muestra K ser: (1- ). Esta es una distribucin geomtrica de media 1/(1- ).
61
Conocida la curva caracterstica, la construccin de la ARL es inmediata ya que: Descentrado del proceso K Curva caractrstica Probabilidad de no detectar el cambio en la siguiente muestra
B) Clculo de las curvas caractersticas y ARL del grfico RCurva caracterstica. Hay que utilizar la distribucin del rango relativo. La probabilidad de que una muestra caiga dentro de los lmites de control ser: para un determinado (error tipo 1) y dando valores a (variacin en la dispersin del proceso) obtenemos tos valores de .
62
63
Grficos de control ( , S) Cuando crece el tamao de muestra (n = 10 a12) el mtodo del rango para estimar pierde eficiencia. En este caso es mejor reemplazar los grficos ( cada subgrupo la media y la desviacin tpica S. Aunque, , R) por los ( X, S) y calcular para
es un estimador centrado de S no lo es respecto de , ya que realmente estima C4 ya que E(s) = C4 ; C4 es una constante que depende del tamao de muestra. Por otra parte la desviacin tpica de S es
64
Y poniendo :
tendremos :
Los parmetros B5, B6 estn en la tabla IV Si no se conoce , lo estimaremos de los datos pasados. A partir de (m) subgrupos obtenemos :
Siendo
un estimador centrado de .
Y poniendo :
tendremos :
Y poniendo :
65
Si suponemos que o es el objetivo para la media del proceso, el grfico de sumas acumuladas se formar representando la cantidad muestra. respecto al nmero de orden (m) de la
Por combinar la informacin de varias muestras, los grficos de sumas acumuladas son ms efectivos que los grficos de Shewhart para detectar pequeos cambios. Son particularmente eficaces cuando el tamao de muestra es n = 1 y, por consiguiente, adecuados para su utilizacin cuando la tecnologa permite inspeccionar y medir cada unidad producida usando a la vez un microordenador en el puesto de trabajo. Si el proceso se mantiene bajo control en el objetivo o , la suma acumulable variar aleatoriamente respecto del valor cero. Sin embargo, si la media asciende a 1 > o se apreciar una tendencia ascendente en la suma acumulada Sm. Por el contrario, si la media se desplaza a 2 < o se apreciara una tendencia decreciente en Sm. Por consiguiente, una tendencia determinada (positiva o negativa) se considerar como una evidencia de que la media del proceso se ha desplazado debido a la presencia de alguna causa asignable que hay que investigar y eliminar. Existen dos criterios para establecer formalmente que el proceso est fuera de control. Uno de ellos es un procedimiento grfico: La mscara V propuesta por Barnhard en 1959 y otro es un procedimiento numrico muy adecuado para establecer en conjuncin con un microordenador. Aqu veremos este segundo procedimiento. En cada toma de muestra hay que calcular los 2 valores siguientes :
66
Si utilizamos las muestras de tamao 5 del ejemplo anterior y queremos detectar desplazamientos de la meda del orden de obtenemos , elegimos h = 5 y f = 0,5 con lo que
67
Para controlar la variabilidad dentro de las muestras se pueden utilizar los grficos de Shewart del recorrido o de la desviacin tpica, en conjuncin con el CUSUM de medias. No obstante tambin es posible disear una carta de control CUSUM especficamente por los grficos de recorridos o de desviaciones tpicas. La forma de realizarlos es muy similar al CUSUM de medias. Los parmetros h y f con sus curvas ARL del CUSUM para recorridos o desviaciones tpicas estn recogidos en la norma britnica BS 5703.
TABLA 2.3 Valores de h y f recomendados para detectar un desplazamiento de la media de magnitud (*)
68
69
70
El procedimiento de control consistir en calcular con cada nuevo valor de la nueva Mt y llevarla al grfico con lmites de control dados por (II) concluyendo que el proceso est fuera de control si se exceden los puntos del grfico. En general, la magnitud del cambio a detectar y la amplitud de W estn inversamente relacionados: La deteccin de un cambio pequeo se garantiza mejor con una muestra de tamao elevado. El uso simultaneo de y Mt puede dar buenos resultados. En este caso, habr situacin de fuera
de control cuando , Mt , o ambos caigan fuera de los lmites de control respectivos. La media mvil es tambin muy adecuada para usar cuando el tamao de muestra es n = 1. Grficos de Control Multidimensional Existen muchas situaciones en las que es necesario el control simultneo de dos o ms caractersticas de calidad. Por ejemplo supongamos una pieza con un dimetro interior y otro exterior que juntos determinen la conformidad de la pieza. Podramos aplicar los grficos de control habituales a las caractersticas y considerar que el proceso est bajo control solamente cuando ambas medias equivalente a que el punto estuvieran dentro de los respectivos lmites de control, esto es caiga dentro del rea rayada en la figura.
Controlar ambas caractersticas independientemente puede ser engaoso. La probabilidad de que excedan sus lmites de control 3 es 0,0027, sin embargo la probabilidad de que ambas variables excedan los limites cuando el proceso est bajo control es (0,0027)x(0,0027) = 0,00000729 que es muy inferior a 0,0027. Es decir, el error de tipo I es muy diferente de los de los grficos individuales. Esta distorsin se incrementa cuando aumenta el nmero de variables. Si existen P caractersticas independientes y se elabora un grfico X para cada una con error de p tipo I = , el error de tipo I conjunto es = 1- (1- ) y la probabilidad de que las P medias caigan
71
al menos de una de las dos caractersticas est fuera de control. es el percentil de la distribucin de Hotelling que deja una cola a la derecha de valor .
Representando en secuencia los valores resultantes de la ecuacin anterior para cada muestra, como si se tratase de un grfico de control, podemos investigar pautas y otras tendencias no aleatorias del grfico.
La mayora de los paquetes de software de control de Calidad permiten analizar con facilidad estos grficos multidimensionales referidos a dos ms variables.
72
73
n = Tamao de la muestra
74
75
Para analizar el comportamiento del proceso, se toman muestras de producto fabricado y se realizan ensayos para determinar el valor de una caracterstica de calidad seleccionada previamente. Desde el punto de vista del control estadstico, es conveniente incluir la etapa de muestreo y ensayo dentro del proceso mismo. Conceptualmente debemos considerar que cualquier variacin en las condiciones de un proceso (Modificacin en el equipo, cambio de materias primas, etc.) da lugar a otro proceso, diferente del anterior. El primer paso para aplicar una tcnica estadstica es definir la caracterstica de calidad que se va a medir en el producto fabricado. Desde el punto de vista estadstico, esta caracterstica de calidad constituye una variable aleatoria, porque an despus de realizar una serie de mediciones, el valor que se obtendra en la siguiente medicin no puede predecirse por clculo. El conjunto de todos los resultados de mediciones que pueden obtenerse es nuestro universo o poblacin. Cualquier subconjunto de mediciones extrado del universo constituye una muestra. Con respecto al concepto de universo o poblacin, cuando se aplica a resultados de mediciones en un proceso, es necesario puntualizar lo siguiente: La poblacin o universo de resultados es el conjunto de datos que se obtuvieron hasta ese momento mas aquellos que se obtendran si el proceso continuara funcionando siempre bajo las mismas condiciones. Esto se conoce como Universo Hipottico de mediciones de la caracterstica de calidad. Antes de aplicar cualquier tcnica estadstica, es necesario establecer algunas hiptesis bajo las cuales se va a desarrollar el anlisis. En primer lugar, vamos a suponer que la caracterstica de calidad (Variable aleatoria) es continua y de distribucin normal. En segundo lugar, consideraremos que el proceso est bajo control estadstico, es decir que la variabilidad se debe solamente a un sistema constante de causas aleatorias (No intervienen causas asignables). Al realizar una sucesin de mediciones de la caracterstica de calidad sobre muestras del producto fabricado, encontramos que los valores fluctan alrededor de un valor central. Esto es lo que llamamos la fluctuacin natural y esperable del proceso. Esta variacin de la caracterstica de
76
Este es el histograma de una muestra y por lo tanto es slo una estimacin del verdadero histograma del universo. Si representamos en las abscisas los Lmites de Especificacin del producto, podemos ver grficamente si el proceso tiene aptitud (Capacidad) para fabricar dicho producto.
77
Las tcnicas estadsticas son tiles a lo largo de todo el ciclo productivo incluyendo: Actividades previas a la fabricacin, cuantificacin de la variabilidad del proceso, comparacin de la variabilidad con las especificaciones y la reduccin de la variabilidad. Al conjunto de estas actividades se le denomina anlisis en la capacidad del proceso. Definiremos el anlisis de capacidad, como el estudio de ingeniera encaminado a estimar la capacidad del proceso. La capacidad del proceso puede estimarse definiendo la forma de la distribucin que sigue la variable en estudio y dando una medida del valor central (media) y de la dispersin (sigma). La capacidad del proceso se refiere a su uniformidad, la variabilidad es una medida de la uniformidad. Existen dos formas de variabilidad, la variabilidad inherente, existente en un momento dado, tambin llamada variabilidad instantnea y la variabilidad a lo largo del tiempo. Como medida de la capacidad de un proceso es costumbre tomar un intervalo de 6 u 8 en la distribucin de la caracterstica en estudio. La figura adjunta muestra un proceso para el que la distribucin es Normal con media y desviacin tpica . Los lmites naturales de tolerancia inferior y superior del proceso caen en el intervalo - 3. -:- + 3. . Para la distribucin Normal los lmites de tolerancia incluyen el 99,75% de los valores de la variable. Dicho de otra forma, slo el 0,27% de los valores caen fuera de los lmites naturales de tolerancia. Si la distribucin no es Normal, el porcentaje de valores fuera de los lmites 3 puede desviarse sensiblemente del 0,27% citado.
78
donde LSE y LIE son, respectivamente, el Lmite Superior y el lmite inferior de Especificacin Si el proceso tiene capacidad para fabricar el producto, entonces C p > 1. En general se exige Cp> 1.30 para mayor seguridad.
79
Cp tiene el inconveniente de que para poder aplicarlo, el centro de gravedad del rango de especificaciones debe coincidir con la tendencia central de las mediciones del proceso. Cuando esto no ocurre se emplea el Cpk:
Donde:
En el grfico podemos observar que una buena parte del producto est por encima del Lmite Superior de Especificacin (LSE). An as resulta Cp > 1, indicando errneamente que el proceso tiene capacidad suficiente. En este caso se debe usar el segundo coeficiente que muestra claramente que el proceso no tiene capacidad suficiente (Cpk < 1), tal como se puede observar en el grfico.
80
donde :
siendo :
El uso de un histograma para analizar la capacidad de un proceso tiene la ventaja de que se puede apreciar la forma de la distribucin, con lo cual se puede confirmar o rechazar la hiptesis de que la misma es normal. Pero el problema es que no se puede detectar la presencia de patrones no aleatorios, con lo cual no es posible confirmar o rechazar la hiptesis de que el proceso est bajo control estadstico. Si el proceso no est bajo control estadstico los resultados del anlisis de la capacidad de proceso no sern vlidos y pueden llevar a conclusiones equivocadas. Anlisis de la capacidad del proceso usando grficos de control Los histogramas y otros mtodos de anlisis tales como los grficos de probabilidad indican como vara el proceso pero no muestran, necesariamente, la capacidad potencial del proceso ya que ste puede estar en situacin de fuera de control o presentar pautas que si se eliminaran reduciran la variabilidad de la caracterstica en estudio. Los grficos de control son muy tiles en este sentido y deben ser considerados la tcnica principal en los anlisis de capacidad. En los anlisis de capacidad pueden usarse los grficos de control por variables y los grficos de control por atributos aunque son preferibles los primeros por la mayor informacin que suministran. Los grficos X, R permiten estimar la variabilidad instantnea (capacidad del proceso a corto plazo) y la variabilidad a lo largo del tiempo(capacidad del proceso a largo plazo). La variabilidad instantanea viene dada por s = R/d2 , donde d2 es un valor tabulado en funcin del tamao de muestra n. No debe estimarse la capacidad del proceso a corto plazo cuando se presenta una situacin fuera de control ya que previamente habra que encontrar las causas asignables y poner el proceso bajo control. Cuando se utilizan grficos X-R, en el grfico de X se representan los promedios de subgrupos, es decir, promedios muestrales. No debe confundirse la desviacin estndar del proceso con la desviacin estndar de los promedios muestrales. Si la desviacin estndar del proceso es s y cada subgrupo tiene m mediciones, la desviacin estndar entre subgrupos es:
81
82
La fraccin muestral no conforme se define como el cociente entre el nmero de unidades no conformes en la muestra x y el tamao de la misma p = x/n. El valor medio y la varianza de p sern respectivamente :
83
como consecuencia de la relacin p = x/n Operativa del grfico de control p La base estadstica para definir los lmites de control es comn con los restantes grficos de Shewhart: Si W es un estadstico que describe una determinada caracterstica de 2 calidad siendow y w su media y su varianza, los lmites de control se definen como :
K es la distancia de los lmites de control a la lnea central expresada como un mltiplo de sw. Habitualmente escogeremos K = 3. Supongamos que conocemos o se especifica la fraccin p no conforme de un proceso de produccin. Entonces los limites de control resultan:
La operativa consiste en tomar sucesivas muestras de n unidades, contar dentro de cada muestra el nmero de unidades no conformes y calcular = D/n llevando este valor al grfico. En tanto permanezca dentro de los lmites de control y la secuencia de puntos no seale ninguna pauta distinta a la que puede surgir por mero azar, diremos que el proceso est bajo control al nivel p de fraccin no conforme. Si por el contrario, observamos algn punto fuera de control o un patrn inusual diremos que la fraccin defectuosa ha cambiado a un nivel diferente y que el proceso est fuera de control. Cuando se desconoce p, debe estimarse a partir de los datos. El procedimiento a seguir es seleccionar m muestras preliminares, cada una de tamao n. Como norma general, m estar comprendido entre 20 y 25. Si Di es el nmero de unidades defectuosas en la muestra i, calcularemos la fraccin defectuosa en la muestra como estas fracciones, ; i = 1, 2... .n y la media de
Frecuentemente se utiliza solo el lmite superior. Estos lmites de control se consideran como limites de prueba y sirven para determinar si el proceso estaba bajo control cuando las m muestras iniciales fueron seleccionadas. Si todos los puntos caen dentro de los lmites de control y no se observa ninguna pauta anormal dictaminaremos que el proceso estaba bajo control a la toma de las m muestras y los lmites de prueba sern validos para controlar la produccin actual y la futura. Los lmites de control para la produccin actual deben basarse en datos obtenidos de una situacin estable. Por ello, cuando alguno de los puntos iniciales est fuera de control se hace necesario
84
En nuestro ejemplo, p = 0,01, = 0,05-0,01 = 0,04 y con K=3 n = 56 Los lmites 3 son los que se usan con ms frecuencia aunque pueden adaptarse otros ms sensibles a costa de exponerse a situaciones ms frecuentes de falsa alarma. A veces, suelen usarse limites ms estrechos (por ejemplo 2) dentro de una situacin de urgencia para mejorar la calidad de un proceso. Estos lmites deben utilizarse con precaucin porque las
85
La variable aleatoria nmero de defectuosos es una variable aleatoria discreta, porque puede tomar un nmero finito de valores, o infinito numerable. Los grficos np se utilizan para controlar el nmero de defectuosos en una muestra. Para controlar este proceso, un inspector se coloca al final de la lnea de produccin y cada hora retira una muestra de n=50 tornillos (por ejemplo), comprueba cada uno con la rosca y anota el nmero de defectuosos.
Este resultado se anota en un grfico hora por hora denominado grfico np. Si se tomara del proceso un slo tornillo Cul es la probabilidad de que sea defectuoso? Imaginando la poblacin de tornillos que podra fabricar el proceso trabajando siempre en las mismas condiciones, una cierta proporcin p de estos seran defectuosos. Entonces, la
86
En cada muestra, la fraccin de defectuosos es Di/n, siendo Di el nmero de elementos defectuosos en la muestra i, y n el nmero de elementos en la muestra i A partir de la tabla podemos calcular p como promedio de las fracciones de defectuosos en las muestras:
Con esto podemos calcular los Lmites de Control para el grfico np:
87
grietas en el plstico
Antena defectuosa
Botn defectuoso.
Etc.
Los defectos pueden ser de diferentes tipos y se cuenta el total de todos estos defectos en la unidad inspeccionada. Obtenemos un resultado que es el Nmero de Defectos por unidad de inspeccin. A medida que el proceso genera las unidades (Telfonos mviles), retiramos una unidad a intervalos regulares y contamos el nmero total de defectos. En cada unidad podemos encontrar:? 0 defectos 1 defecto
2 defectos
...
88
Los resultados obtenidos al contar el Nmero de Defectos en unidades de inspeccin tomadas a intervalos regulares constituyen una variable aleatoria discreta, porque puede tomar los valores discretos 0, 1, 2, ... n. Esta variable aleatoria tiene una distribucin de Poisson:
Los grficos C se utilizan para controlar el nmero de defectos en una muestra del producto o unidad de inspeccin. Para controlar este proceso, un inspector se coloca al final de la lnea de produccin y cada cierto intervalo retira una unidad de inspeccin , verifica y anota el nmero total de defectos. Este resultado se anota en un grfico denominado grfico C. De acuerdo a la Distribucin de Poisson, si denominamos C al parmetro de la funcin de distribucin, el promedio de la poblacin es C y la varianza tambin es C. Una unidad defectuosa puede tener uno o ms defectos. Sin embargo, es posible que una unidad de producto tenga varios defectos y que no sea clasificada como defectuosa debido a la naturaleza poco importante del defecto. Existen en la prctica muchas situaciones en las que es preferible trabajar con el nmero de defectos que con el porcentaje o el nmero de unidades defectuosas. Por ejemplo, el nmero de soldaduras defectuosas en un tubo de conduccin de gas, el nmero de defectos funcionales es un dispositivo electrnico, etc. Se pueden efectuar grficos de control para el nmero total de defectos por unidad de producto o para el nmero de defectos en la muestra. Estos grficos de control se basan en la distribucin de Posson que exige un nmero de puntos donde potencialmente podra producirse el defecto infinitamente grande, as como que la probabilidad de que el defecto aparezca en un determinado punto sea muy pequea y constante. La unidad de inspeccin debe ser la misma en cada muestra. Es decir cada unidad de inspeccin debe representar siempre una probabilidad igual de que se produzcan los defectos. En la mayor parte de las situaciones prcticas, estas condiciones no se satisfacen exactamente. El nmero de oportunidades (puntos) para los defectos suele ser finito y la probabilidad de aparicin de defectos puede no ser constante. Si las desviaciones respecto de la situacin ideal no son importantes, puede usarse el modelo de Poisson. Existen, sin embargo, casos en los que las desviaciones
89
donde x es el nmero de defectos en la unidad de inspeccin y C es el parmetro de la distribucin, Sabemos que la media y la varianza de la distribucin de Poisson son ambas iguales a C. En consecuencia, los lmites de control 3 sigma para el nmero de defectos sern:
Hay que tener en cuenta que la probabilidad de producir una falsa alarma por situarse el punto por encima del lmite de control superior es diferente que la de situarse por debajo del lmite inferior (colas superior e inferior diferentes). Si no se conoce el parmetro c, debe estimarse a partir de una muestra preliminar de unidades de inspeccin. El valor obtenido en la estimacin, O sustituir al valor O en los lmites arriba indicados. Anlisis de defectos Los datos sobre defectos aportan siempre mayor informacin que los relativos a unidades defectuosas ya que habitualmente existen diversos tipos de defectos. Al analizar por conteo la frecuencia de cada tipo de defecto observamos que, en muchas ocasiones, los resultados estn acordes con la distribucin de PARETO y que un pequeo nmero de defectos es causa de la mayor parte de los problemas. Si somos capaces de eliminar las causas de unos pocos tipos de defectos, habremos conseguido una drstica mejora en la calidad. Grfico u Supongamos que se est controlando el nmero de defectos en un proceso de ensamblado de licuadoras y se define una unidad de inspeccin de 5 licuadoras. En este caso es posible trabajar con un grfico C, como ya hemos visto. Pero tal vez se desea controlar el promedio de defectos por cada licuadora (unidad de produccin) en lugar del total de defectos para las 5 licuadoras (unidad de inspeccin):
90
siendo ni la cantidad de Defectos por Unidad de Inspeccin y m el nmero de Unidades de Produccin en la Unidad de Inspeccin. En nuestro ejemplo, si encontramos ni defectos en la unidad de inspeccin (5 licuadoras), la cantidad promedio de defectos por licuadora ser Se debe tener en cuenta que x es una nueva variable aleatoria discreta que toma valores 0, 1/m, 2/m, etc., y cuya distribucin de probabilidades se puede calcular a partir de la Distribucin de Poisson. Como en el caso de los grficos C, en una primera etapa se toman N unidades de inspeccin (ms de 25 30) a intervalos regulares. Se cuenta en cada unidad de inspeccin el Nmero de Defectos y se registra. Luego se divide el Nmero de Defectos de cada unidad de inspeccin porm (Nmero de unidades de produccin en cada unidad de inspeccin). En nuestro ejemplo (m = 5) la Tabla quedara as:
Entonces, a partir de la tabla podemos calcular el parmetro U, como promedio del Nmero de Defectos por licuadora, y la Desviacin Estndar:
; siendo : ni la cantidad de Defectos por Unidad de Inspeccin, m el Nmero de Unidades de Produccin en la Unidad de Inspeccin y N el Nmero de Unidades de Inspeccin Con esto podemos calcular los Lmites de Control para el grfico U:
91
DISTRIBUCIN BINOMIAL Probabilidad de r o menos sucesos en n intentos, donde p es la ocurrencia de cada intento.
92
93
94
95