INDICE
1 .- INTRODUCCIÓN A LA PROBABILIDAD
o Población estadística
o La Distribución de Frecuencias
o Generalidades
o La Distribución Normal
o La Distribución Normal Standard
o La Distribución T de Student
o Distribución de Promedios Muestrales
o Distribución binomial
o Distribución de Poisson
6 .- CONTROL DE PROCESO
o Control de proceso
o Control Estadístico de Proceso (C.E.P.)
o Gráficos C.E.P. Generalidades
o Variables y atributos
o Eficacia estadística de los gráficos de control
o Subgrupos racionales
o Ventajas de los gráficos de control
o Introducción.
o Gráficos de control ( , R)
Gráfico basado en estudio inicial
Gráficos basados en valores standar
Gráficos de control para valores individuales
Gráficos de control de media móvil (desgaste de herramientas)
Recogida de datos e interpretación
Establecimiento de límites del Proceso
Líneas generales para el diseño del grafico ( , R)
Interpretación de los gráficos ( , R)
Eficacia de los gráficos ( , R)
o Gráficos de control ( , S)
o Gráficos de control de sumas acumuladas (CUSUM)
o Introducción
o Introducción
Este fenómeno puede ser, por ejemplo, la caída de un objeto desde cierta altura, y en este caso
utilizamos un modelo que es la Ley de Gravedad.
En ningún caso se debe confundir modelo con realidad. Un modelo es sólo una representación de
la realidad, utilizado para estudiar y analizar dicha realidad.
Hay modelos matemáticos que nos permiten obtener un resultado numérico preciso, por ejemplo,
que la velocidad de un automóvil es de 175,5 Km/Hora. O que la corriente eléctrica que circula
por un cable es de 5,7 Amperios. Este tipo de modelos matemáticos se denominan
Determinísticos.
Existen también fenómenos que necesitan otro tipo de modelos matemáticos, denominados no
determinísticos, probabilísticos o estocásticos.
Por ejemplo, supongamos que se ha previsto la realización de unas pruebas balísticas para las
que se necesita saber la cantidad de lluvia que va a caer en un próximo periodo de tiempo, antes
de decidir la forma de llevar a cabo los ensayos. El Técnico responsable podrá informarse en el
servicio meteorológico en relación con la presión barométrica, la temperatura, velocidad del viento
y otros datos meteorológicos, sin embargo, no hay una ecuación que con todos esos datos le
permita calcular de forma precisa los milímetros de lluvia que van a caer durante el periodo de
tiempo que le interesa.
De la misma forma, ningún operador puede calcular cuanto va a subir la Bolsa, ni siquiera si va a
subir o bajar, aún cuando tenga a su alcance todas las variables económicas disponibles.
Este tipo de fenómenos no admiten un modelo determinístico, sino un modelo probabilístico, que
como resultado nos dice la probabilidad de que llueva una cierta cantidad, o la probabilidad de
que la Bolsa suba un cierto porcentaje. El resultado no es un valor determinado, sino la
probabilidad de un valor.
Veamos algunos ejemplos de fenómenos para los cuales es apropiado utilizar un modelo
probabilístico:
Experimento 1:
Se lanza un dado y se anota el número
que aparece en la cara superior.
Experimento 2:
Se arroja una moneda cuatro veces y
se anota la sucesión de caras y cruces
obtenidas.
Experimento 3:
Se fabrican artículos en una línea de producción y se cuenta el número de
artículos defectuosos producidos en 24 horas.
En todos estos casos, el resultado del experimento no se puede predecir con absoluta certeza.
Hay varios resultados posibles cada vez que se realiza la experiencia.
Para cada experimento del tipo que estamos considerando, se define el Espacio Muestral como el
conjunto de todos los resultados posibles que pueden producirse al realizar el experimento.
Vemos entonces que, dado un experimento aleatorio cualquiera, hay un espacio muestral
asociado cuyos elementos son todos los resultados que se pueden obtener de la experiencia. Un
subgrupo o subconjunto de resultados es un suceso. Ahora, ¿cómo podemos saber si la
posibilidad de que ocurra un suceso es grande o pequeña? Por ejemplo, si arrojamos un dado,
¿cómo podemos calcular la probabilidad de que salga un 2 ?. Para esto necesitamos un número
asociado con cada suceso, al cual se lo denomina probabilidad del suceso. Entonces, la
probabilidad P de un suceso es un número entre 0 y 1, que nos dice en que medida es posible
que ocurra el suceso. Si la probabilidad es 1 significa que el suceso ocurrirá con toda certeza. Si
la probabilidad es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con la misma
probabilidad. Probabilidad 0 quiere decir que el suceso es imposible que ocurra. ¿Cómo podemos
calcular la Probabilidad de un suceso?
La respuesta a esta pregunta no
siempre es sencilla y depende del
experimento y de su espacio muestral
asociado. Hay casos simples en los que
el cálculo es relativamente sencillo. En
primer término, supondremos que se
trata de un experimento cuyo espacio
muestral es finito y tiene un número
pequeño de resultados posibles.
En segundo término, supondremos que todos los resultados que integran el espacio muestral
(sucesos elementales) tienen la misma probabilidad de ocurrir.
Con estas dos hipótesis, la fórmula para calcular la probabilidad es muy sencilla. Supongamos
que se trata de un experimento cualquiera cuyo espacio muestral S tiene N elementos (N
resultados posibles). Deseamos calcular la probabilidad de un suceso H (Un subconjunto H del
espacio muestral S) que tiene m elementos. De acuerdo a lo dicho previamente, el número N
tiene que ser pequeño y la probabilidad de cada suceso elemental tiene que ser la misma.
Supongamos que se arroja un dado sobre una mesa y apostamos a que salga un número igual o
menor que 4. Sabemos que son igualmente posibles los números: {1, 2, 3, 4, 5 y 6} (Espacio
muestral con 6 elementos).
Pero los números favorables a nuestra apuesta son: {1, 2, 3 y 4} (Suceso con 4 elementos).
Entonces, la probabilidad de que ganemos es P = 4/6 = 0,666…
Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o sea aproximadamente del 67
%).
Si apostamos a un sólo número (sacar un As), la probabilidad de ganar sería P = 1/6 = 0,1666…
Repitiendo, la probabilidad es un número entre 0 y 1, que nos dice en que medida es posible que
ocurra un suceso.
----------------------------------------------------------------------------------------------------------------------------------
CAPITULO 2.- CONCEPTOS ESTADÍSTICOS FUNDAMENTALES
Población estadística.
Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo médico en
el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad.
Alguien podría referirse al universo o población censada teniendo in mente el conjunto de los
habitantes de la ciudad. Pero cuando hablamos en términos estadísticos, nos referimos a
poblaciones o universos de datos.
Por ejemplo, el conjunto de todas las mediciones de altura (De los habitantes de la ciudad) es un
conjunto de datos y por lo tanto constituye un universo o población de datos desde el punto de
vista estadístico. Otro universo o población de datos son los pesos medidos (De los habitantes de
la ciudad). Pero la población de habitantes, es decir, las personas que habitan la ciudad no son la
población a la que nos estamos refiriendo desde el punto de vista estadístico.
Cuando el laboratorio efectúa algún ensayo en la muestra y obtiene un resultado numérico, dicho
dato podría ser analizado desde el punto de vista estadístico.
Vamos a suponer hipotéticamente que el técnico continúa
sacando otras muestras del producto, hasta agotar el lote y
cada una es ensayada en el laboratorio, que nos da los
resultados.
Como teníamos 10 toneladas de producto y las muestras son aproximadamente de 100 gramos,
el técnico seguramente extraerá alrededor de 100000 muestras y el laboratorio nos entregará
alrededor de 100000 resultados. Este conjunto de datos numéricos es nuestro universo o
población de datos.
Si tomamos al azar 10 de esos resultados, podemos decir que tenemos una muestra de 10
elementos de ese universo o población. No debemos confundir esta muestra (Desde el punto de
vista estadístico) con la muestra de material que extrajo el técnico para ser analizada en el
laboratorio.
Ahora bien, nuestro universo o población de datos a veces no existe en la realidad, sino que es
un concepto o abstracción que utilizamos para referirnos al universo o población que
hipotéticamente podría existir.
Veamos el ejemplo anterior. Supongamos que el técnico toma solamente 5 muestras y las envía
para analizar al laboratorio. El laboratorio nos enviará sólo 5 resultados, y nosotros diremos que
tenemos una muestra de datos extraída del universo o población de datos total. Y estamos
pensando en el universo o población que tendríamos si se hubieran extraído y analizado las
100000 muestras de material.
Muchas veces resulta difícil imaginarse cual es el universo del cual extrajimos los datos.
Supongamos que tenemos una máquina que produce piezas de plástico en serie y un técnico
toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5 resultados, es
decir una muestra de 5 elementos. ¿Cuál es el universo al cual pertenece esa muestra de datos?.
Estos datos son una muestra de 20 observaciones del universo o población formado por los
salarios de todos los operarios de la industria textil del país. Aunque el encuestador no disponga
de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y por
lo tanto podemos hablar de un universo o población cuyos elementos son los salarios de los
operarios de la industria textil en el país. Además, esa población de datos es seguramente
diferente de la población de salarios de los operarios de la industria textil inglesa o brasileña
(Usando una misma moneda de referencia).
¿Qué representa una Población de datos? El análisis estadístico de una población o universo de
datos tiene como objetivo final descubrir las características y propiedades de aquello que generó
los datos. Por ejemplo, se tiene una población de escolares (Población física, población humana)
y se les mide la altura. El conjunto de datos de altura constituye una población o universo
estadístico.
Un ingeniero controla un proceso industrial, que genera a diario muchos lotes de un producto
(Población de lotes). Para cada lote se mide una característica de calidad, obteniéndose una gran
cantidad de resultados numéricos (Población de datos).
El ingeniero realiza esta tarea porque a través de los datos numéricos obtenidos se puede evaluar
el comportamiento del proceso, que es lo que realmente le interesa.
La población estadística está representando, entonces, una población física o natural formada por
elementos de la realidad, con respecto a una característica o propiedad de esa población física.
Es muy importante, al utilizar métodos estadísticos, no confundir la población física, formada por
elementos de la realidad que estamos estudiando, con la población o universo de datos
generados a partir de la primera. De aquí en adelante, cuando utilicemos los términos población o
universo sin otro adjetivo nos estaremos refiriendo a población o universo de datos numéricos
(También llamados observaciones, mediciones o valores).
La Distribución de Frecuencias
Vimos que una Población o Universo de datos es un conjunto muy grande de números. Estos
números pueden estar en un gran listado o puede ser un conjunto hipotético, es decir, podemos
imaginar los números pero no los tenemos realmente. Una gran tabla de números ordenados al
azar prácticamente no nos muestra información acerca de la población de datos. Suponiendo que
disponemos de los datos del universo, ¿cómo podemos clasificar y ordenar los números para
obtener más información acerca de ese universo de datos?.
Una forma sería escribir los números desde el menor hasta el mayor y colocar encima de cada
uno tantas cruces o cuadraditos como veces que figure repetido en la población.
El número de veces que aparece repetido cada dato es la frecuencia de dicho valor. La
representación gráfica que hemos visto se denomina Distribución de Frecuencias de la población.
En el caso anterior, los datos de la población son números enteros. Cuando los números no son
enteros o cuando tenemos un número muy grande de datos, se divide el rango total en
subintervalos y se cuenta el número de valores que cae dentro de cada subintervalo.
Vamos a suponer, ahora, que tenemos una cierta población de N = 500 datos, por ejemplo el
peso de varones adultos de 40 años. Una manera de caracterizar esta población es construir una
distribución de frecuencias o gráfico de frecuencias. Para ello seguimos los pasos siguientes:
1) Tomamos nota del valor máximo y el valor mínimo de la serie de datos que estamos
considerando.
2) Subdividimos el intervalo entre el máximo y el mínimo en algún número de intervalos (15 ó 20)
mas pequeños iguales entre sí.
3) Contamos el número de datos que encontramos dentro de cada intervalo (Frecuencia). Por
ejemplo, supongamos que en el intervalo i hay ni observaciones (S*ni = N).
4)Para construir el gráfico, colocamos en el eje de abcisas (Horizontal) los intervalos y
levantamos en cada intervalo un rectángulo de altura proporcional al número ni de datos dentro
del mismo.
Si hacemos el área del rectángulo levantado sobre el intervalo i-ésimo igual a la frecuencia
relativa ni/N, el área total bajo el histograma será igual a la unidad:
Esta distribución de frecuencias nos muestra si hay resultados que son mas frecuentes que otros;
si los valores están ubicados alrededor de un valor central, si están muy dispersos o poco
dispersos. Podemos observar que fracción de todas las mediciones cae por ejemplo, entre 70 y
80 Kg.
Si elegimos una persona del grupo y la pesamos, el resultado es un dato que pertenece a la
población de datos representada en el gráfico. Decimos, entonces, que estamos extrayendo un
dato de la población de datos. Pero hay distintas maneras de elegir la persona, es decir, distintas
maneras de realizar la extracción del dato.
Si nos paramos frente al grupo y elegimos una persona, estaremos seleccionando al más gordo,
al más flaco o al más alto (y por lo tanto pesa más que otros), de acuerdo a criterios subjetivos
que no podemos evitar. En cambio, si escribimos los nombres de todas las personas en una
etiqueta, metemos todas las etiquetas en una caja y luego le pedimos a alguien que retire una
etiqueta, la selección no estará influida por nuestra subjetividad. En este caso, decimos que la
extracción es aleatoria.
Una extracción aleatoria es aquella en que cada miembro de la población tiene la misma
posibilidad de ser elegido.
-------------------------------------------------------------------------------------------------------------------------------
CAPÍTULO 3.- METRICA EN EL ESPACIO ESTADISTICO
Una característica importante de cualquier población es su posición, es decir, donde está situada
con respecto al eje de abscisas (Eje horizontal). En nuestro caso, es importante saber si los datos
se agrupan alrededor de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una manera de obtener un
dato numérico que nos dé idea de la posición de nuestra población es calcular el Promedio o
Media de todas las observaciones:
Este importante parámetro nos permite efectuar comparaciones entre distintas poblaciones. Por
ejemplo, si tuviéramos una población formada por mediciones del peso de mujeres de 30 años,
otra de peso de varones de 40 años y una tercera de peso de niños de 8 años, es indudable que
los promedios van a ser diferentes. El promedio, entonces, nos está diciendo que las tres
poblaciones son diferentes y también en que medida difieren.
Ahora, si tuviéramos una población de varones con peso promedio 70 Kg. y otra población de
varones con el mismo promedio, ¿se puede afirmar que ambas poblaciones son equivalentes?
Para responder esta pregunta necesitamos tener medidas de la dispersión de la población de
datos.
Medidas de Dispersión
Una manera es a través del Rango de las observaciones, es decir, el valor Máximo y el valor
Mínimo de los datos de la población. Entonces, una descripción mas realista acerca de los seres
humanos sería decir que pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos
valores son supuestos).
Una manera más precisa de dar idea de la dispersión de valores de una población es a través de
la Varianza o su raíz cuadrada, que es la Desviación Standard.
165 ; 163 ; 171 ; 156 ; 162 ; 159 ; 162 ; 168 : 159 ; 167
Los residuos también nos dan una idea de la dispersión de las observaciones individuales
alrededor del promedio. Si el valor absoluto (El valor numérico sin el signo) de los residuos es
grande, es porque los valores están muy dispersos. Si el valor absoluto de los residuos es
pequeño, significa que las observaciones individuales están muy cerca del promedio, y por lo
tanto, hay poca dispersión.
Pero nosotros necesitamos un sólo número que nos provea información acerca de la dispersión
de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se
cancelarían entre sí, con lo cual perdemos la información acerca de la dispersión. Entonces, los
elevamos al cuadrado:
Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde se condensa
toda la información de la dispersión de la población:
Este número, la suma de cuadrados, es dependiente del número de datos N, y por lo tanto no nos
sirve para comparar poblaciones con distinto número de observaciones.
Pero si dividimos la suma de cuadrados por N, tenemos un número que es independiente del
número de observaciones, que se denomina Varianza:
En nuestro caso:
Las fórmulas anteriores son las que se aplican al cálculo de la varianza y desviación standard de
una población de datos. Mas adelante veremos que las fórmulas a aplicar en el caso de una
muestra son ligeramente diferentes. La varianza es un número que nos permite comparar
poblaciones. Cuando la dispersión de las observaciones es grande (Datos que se alejan mucho
por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el
promedio) será grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la
varianza.
La desviación standard o desviación típica tiene las mismas unidades que la variable con la que
estamos trabajando, en nuestro caso el centímetro. Tanto la varianza como la desviación
standard nos permiten comparar el grado de dispersión de distintas poblaciones.
Hasta ahora hemos visto como se calcula la media o promedio de una población y también como
se calcula la varianza y la desviación standard de una población o universo de observaciones.
Cuando tenemos una muestra (Subconjunto de algunos datos extraídos de una población),
también podemos calcular su media, su varianza y su desviación standard. Es muy importante
distinguir entre la media, varianza y desviación standard poblacional, de la media, varianza y
desviación standard muestral.
para la Media
s2 para la Varianza
En lugar de dividir por n, el número total de observaciones en la muestra, dividimos por n - 1. Este
valor, n - 1, son los Grados de Libertad de la muestra. En general, cuando tenemos una muestra
de n observaciones, se dice que la misma tiene n - 1 grados de libertad.
La media, varianza y desviación standard de una muestra, en general, no van a coincidir con los
mismos parámetros de la población de la cual se extrajo la muestra (Aunque usemos la misma
fórmula para calcular la varianza muestral y poblacional). Si extraemos n muestras de una
población, vamos a obtener n promedios muestrales distintos del promedio de la población y n
varianzas muestrales distintas de la varianza de la población. Esto se debe a que una población o
universo tienen un número muy grande de datos, mientras que una muestra son sólo algunos
pocos datos extraídos de ese universo. Cuando sacamos una segunda, tercera, ... etc. muestras,
los datos extraídos no tienen por que ser los mismos que en la primer muestra. Por lo tanto, el
promedio y la varianza de las muestras van a ser distintos para las distintas muestras, y distintos
de la media y la varianza de la población de la cual se extrajeron las muestras.
Muestreo Aleatorio
Veamos algunos ejemplos. Supongamos que un partido político necesita averiguar la cantidad de
personas que están dispuestas a votar por su candidato. Entonces, encarga a una empresa la
realización de una encuesta un día previo a las elecciones. El encargado de la encuesta podría
pensar en consultar la intención de voto de toda la población de votantes (Mas de 40 millones en
España). Esto, obviamente, es una tarea excesiva que por distintas razones no se puede realizar.
Entonces, el camino que resta es tomar una muestra representativa de esa población de
personas y consultar la intención de voto en esa muestra. Los resultados que se obtengan son
solamente una estimación del resultado que se hubiera obtenido si la consulta se hubiera
efectuado sobre toda la población de votantes.
Para tratar de entenderlo, vamos a trabajar con una población de muy pocos datos. Supongamos
que nuestra población son 10 bolas con los siguientes números 2, 5 y 9 y una frecuencia según la
tabla adjunta:
En una población de muchos datos, no es posible obtener una muestra eligiendo cada elemento
para que figure en la misma proporción que en la población, porque para ello deberíamos
disponer de todos los datos de la misma, y en ese caso no sería necesario sacar una muestra. Si
a cada elemento de la población se le da la misma oportunidad de ser elegido, entonces se
supone que cada número estará en la muestra en un número proporcional a la cantidad de veces
que está en la población. Por ejemplo, el 2 va a estar en la muestra mas veces que el 5, porque
en la población hay 6 dos y sólo 2 cincos.
Si introducimos las diez bolas
en una bolsa y las mezclamos
suficientemente, la
probabilidad que tiene una
bola individual de ser extraída
es la misma para cualquiera
de las bolas.
La aplicación de una de estas distribuciones teóricas a una población particular está justificada si
las hipótesis (suposiciones) del modelo de comportamiento del proceso que generó la población
se cumplen. Dicho de otro modo, si conocemos el proceso, es decir, el conjunto de fenómenos
que dieron lugar a nuestra población de mediciones u observaciones, y además estamos seguros
de que el mismo se ajusta a un modelo de comportamiento determinado, entonces podemos decir
que la distribución de probabilidades de nuestra población es la que corresponde al modelo.
En la práctica, se sabe que ciertos procesos y fenómenos generan resultados numéricos cuya
distribución de probabilidades se puede ajustar a determinados modelos teóricos. Por ejemplo, el
número de partículas alfa emitidas por un material radiactivo sigue una distribución de Poisson.
Existen muchas otras distribuciones teóricas, como la Binomial, la Exponencial, la de Weisbull,
etc. Cada una de ellas tiene su propio campo de aplicación, que se sostiene en un determinado
comportamiento de los fenómenos, y al aplicarla se está haciendo en forma implícita la suposición
de que se cumplen las suposiciones del modelo subyacente.
La Distribución Normal
Una distribución muy
importante es la Distribución
Normal o de Gauss.
La ecuación matemática de la
función de Gauss es la
siguiente:
La distribución normal es una curva con forma de campana, con eje de simetría en el punto
correspondiente al promedio del universo μ. La distancia entre el eje de simetría de la campana y
el punto de inflexión de la curva es igual a σ, la desviación standard de la población.
El área total debajo de la curva es igual a 1. El área debajo de la curva comprendida entre μ - σ y
μ + σ es aproximadamente igual a 0,68 del área total; entre μ - 2σ y μ + 2σ es aproximadamente
igual a 0,95 del área total:
Es importante ver que los únicos parámetros necesarios para dibujar el gráfico de la distribución
normal son y (Media y desviación standard de la población). Con estos dos parámetros sabemos
donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su ancho
(Determinado por la desviación standard).
Cuando nos encontramos con una población de observaciones, si podemos afirmar que la
distribución correspondiente es normal, sólo hace falta estimar la media y la desviación standard
para tener toda la información necesaria acerca de dicha población.
con
Cuando queremos calcular las probabilidades para una población real, calculamos Z y entramos
en la tabla de la función normal estandard.
La Distribución T de Student
con
El estadístico T tiene una distribución que se denomina distribución T de Student, que está
tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calculó la desviación
standard. La distribución T tiene en cuenta la incertidumbre en la estimación de la desviación
standard de la población, porque en realidad la tabla de T contiene las distribuciones de
probabilidades para distintos grados de libertad.
La distribución T es mas ancha que la distribución normal tipificada Para un número de grados de
libertad pequeño. Cuando los grados de libertad tienden a infinito, la distribución T tiende a
coincidir con la distribución normal standard. Es decir, en la medida que aumentemos el número
de observaciones de la muestra, la desviación standard calculada estará mas próxima a la
desviación standard de la población y entonces la distribución T correspondiente se acerca a la
distribución normal standard. El uso de la distribución T presupone que la población con que
estamos trabajando tiene una distribución normal.
Para comprender que significa distribución de promedios muestrales, vamos a suponer que
realizamos un experimento con bombos como los usados en la lotería. Colocamos un número
muy grande de bolas blancas en un bombo blanco, en cada una de las cuales figura un dato X.
Este bombo representa la población de observaciones X, y tiene media m y varianza s2.
Supongamos que a continuación hacemos los siguiente:
1) Tomamos una muestra de n=10 bolas blancas.
Una persona arroja un dado apostando con otra a que saca un as (un 1). La probabilidad de sacar
el as es igual a:
Cuando realizamos una experiencia individual donde el resultado debe ser sólo uno de dos
posibles: acierto/fallo, cara/cruz, etc. decimos que es un ensayo de Bernouilli.
Cada acto individual de arrojar un dado es independiente de los otros y las probabilidades de
obtener un as o de no obtener ninguno, son, respectivamente :
Por lo que, cuando arrojamos 5
dados, la probabilidad de obtener
5 ases es:
Pero hay 5 formas diferentes de obtener 1 As en cinco dados arrojados: que se obtenga en el 1º
de los dado, o en el 2º o en el 3º o en el 4º o en el 5º.
Por ejemplo, si tenemos las 5 letras A, B, C, D y E, y queremos saber cuantas son todas las
combinaciones posibles agrupándolas de a tres en cualquier orden: ABC, ADC,...etc., tenemos :
, donde p+q = 1
Los términos de la suma son las probabilidades P(y), que determinan la distribución de
probabilidades de la variable aleatoria y, la cual es una variable discreta (toma los valores 0, 1, 2,
...etc.). Aplicando la fórmula al caso de 5 dados:
Las probabilidades de no sacar ningún As o de sacar uno, dos, tres, cuatro o cinco, son :
¿Cómo interpretamos este resultado? Si bien el promedio resulta un valor fraccionario, nos está
diciendo que al arrojar los cinco dados estaremos más cerca de sacar 1 As que de sacar 2 o más
ases. De una manera más rigurosa, ese valor nos dice que si se repitiera la experiencia muchas
veces, el promedio del número de ases que se obtendría en todos los experimentos sería igual a
0.83
Volvamos, ahora a nuestro jugador. Supongamos que arroja 5 dados y apuesta a que va a sacar
3 o más ases, ¿cuál es la probabilidad que tiene de ganar?
Esta probabilidad es la suma de los términos del binomio para 3, 4 y 5 aciertos (ases), es decir:
Distribución de Poisson
Pero sabemos que en realidad en cada zona podrían aparecer más de 1 defecto. Esto hace
inexacto nuestro cálculo. Podríamos hacer el cálculo más exacto si subdividimos las zonas:
Dividimos cada zona en 4 y ahora tenemos 16 zonas. La probabilidad de tener 1 defecto en una
zona es p/16 con lo que podemos entonces calcular la probabilidad de tener 0, 1, 2, 3, ...., 16
defectos en el área total:
Aún así podrían aparecer más defectos por zona, por lo que si dividimos nuevamente cada zona
en 4 tendríamos 64 zonas y ahora la probabilidad de tener 1 defecto en una zona sería p/64
El número de defectos x en la superficie total es una variable aleatoria discreta que puede tomar
valores 0, 1, 2, 3, 4, ... y cuya distribución de probabilidades se conoce como Distribución de
Poisson.
Esto es muy importante porque podemos imaginar el producto fabricado por un proceso (Una
licuadora, una computadora, un televisor, etc.) como una superficie en la que se pueden producir
múltiples defectos, y donde el número de cada tipo de defecto es una variable aleatoria de
Poisson. Entonces, la propiedad mencionada nos permite tratar la suma de todos los tipos de
defectos como una variable aleatoria de Poisson. Esto se utiliza para el control del Número de
Defectos en un producto (Gráficos C).
Supongamos ahora que tenemos un gran lote de artefactos, por ejemplo licuadoras. Tomamos
una muestra de m = 5 unidades y medimos el número total de defectos en las 5 unidades. Si
obtuvimos x1, x2, x3, ... xm defectos en cada unidad, el número total de defectos será:
y es una variable aleatoria discreta que puede tomar valores 0, 1/m, 2/m, 3/m, ... etc. ¿Cuál es la
varianza de y?
La varianza de xi es λ cualquiera que sea el subindice i, porque todas las xi tienen la misma
distribución; por lo tanto:
Este es un importante resultado que se utilizará para calcular la varianza en los Gráficos U.
CAPÍTULO 5.- TEST DE HIPÓTESIS
Y, a partir de ahí, decidir si, con los datos que poseemos de la muestra, tenemos caracterizada a
la población.
Los dos tipos de distribuciones más importantes, aunque no únicos, para el contraste de
hipótesis, son las distribuciones Normal y T-Student, que hemos visto en el capítulo anterior.
El contraste de hipótesis es un conjunto de reglas que nos permiten decidir cuál de entre dos
hipótesis debe ser aceptada como cierta en base a los resultados obtenidos en una observación
muestral. Se conocen como hipótesis nula (Ho) e hipótesis alternativa (Ha).
La hipótesis nula puede mantenerse mientras los datos no indiquen su falsedad; la hipótesis nula
nunca se puede afirmar , solo podremos aceptarla o rechazarla. Por lo tanto trataremos de decidir
si la información muestral que poseemos está en consonancia con Ho, o bien nos permite
rechazar esa creencia con lo que aceptaremos Ha.
El estadístico muestral es un fenómeno aleatorio, por lo que pudiera pasar que aunque la H o fuera
cierta, el estadístico se encontrara en la región de rechazo, en esta situación estaríamos
cometiendo un Error de Tipo I (α). Otra posible situación sería encontrar el estadístico en la región
de aceptación siendo la Ho falsa, con lo que cometeríamos un Error Tipo II (β). La forma de
minimizar este problema es empleando muestras de tamaño grande. Generalmente se procede
fijando una probabilidad de error α. Al valor α se le denomina nivel de significación y
habitualmente es del 5%.
Contraste de medias
Con relación al contraste de medias, suelen emplearse dos tipos de pruebas, los tests unilaterales
o los tests bilaterales, que tienen, respectivamente, las siguientes estructuras.
Ejemplo 1. Un laboratorio farmacéutico afirma que el antiinflamatorio fabricado por ellos elimina
la inflamación en 14 minutos en los casos corrientes.
Con el objeto de comprobar estadísticamente esta afirmación, eligimos al azar 18 pacientes con
inflamaciones varias y tomamos como variable de respuesta el tiempo transcurrido entre la
administración del antiinflamatorio y el momento en que desaparece la inflamación. Además, nos
dicen que la variable tiempo transcurrido entre la administración del antiinflamatorio y el momento
en que desaparece la inflamación sigue una distribución normal de media 14 y desviación 7. El
tiempo medio de respuesta de la muestra fue de 19 minutos.
Se pide comprobar la afirmación del laboratorio a un nivel de significación de 0.05.
Solución.
X = 19, μ = 14, σ = 7, n = 18
Planteemos ahora las hipótesis de este test. Queremos contrastar la hipótesis nula a partir de la
afirmación de la empresa que dice que la inflamación desaparece en 14 minutos; así pues,
tendremos:
Hipótesis nula → Ho : μ = 14
La hipótesis alternativa será el caso desfavorable, en esta ocasión para la empresa, y puede
escribirse:
Hipótesis alternativa → Ha : μ> 14
Procederemos aceptando de entrada la hipótesis nula (m = 14), calculando el estadístico y
observando si se sitúa en la región crítica. Si así sucediera, rechazaríamos la creencia inicial de
aceptación de la hipótesis nula.
Sean X1 y X2 dos medias muestrales de dos poblaciones. Los tamaños de cada una de estas
muestras son n1 y n2 respectivamente. Queremos observar si la diferencia entre las medias es
significativa o no, es decir, comprobar si podemos aceptar que μ 1 = μ2.
Tenemos:
Si las desviaciones de las poblaciones son desconocidas y sólo conocemos las desviaciones
muestrales, tendremos que considerar la distribución t de Student en vez de la normal.
Ejemplo 2. Se conocen los datos de dos muestras de dos poblaciones, que son los siguientes:
Se pide contrastar estadísticamente si hay diferencia entre las dos poblaciones, a un nivel de
significación del 0.05.
Las dos poblaciones siguen una distribución Normal N(μ1, σ1) y N(μ2, σ2)
Solución.
Sabemos que las distribuciones de las dos poblaciones son Normales, pero desconocemos el
valor de su desviación, sólo conocemos el valor de la desviación típica de las muestras. Por
ahora, planteemos las hipótesis:
Aunque el estadístico que correspondería a este test es el asociado a una distribución T-Student,
por ser las desviaciones de las poblaciones desconocidas, como el tamaño de las muestras es
elevado y sabemos que una distribución T-Student con muchos grados de libertad se aproximaba
mucho a una Normal, utilizaremos el siguiente estadístico:
Como podemos ver, el estadístico se sitúa en la región de aceptación de la hipótesis nula, con lo
que aceptaríamos la Ho (μ1 = μ2), y podríamos concluir que, a un nivel de significación de 0.05, las
dos poblaciones se pueden considerar iguales estadísticamente.
Muchas pruebas estadísticas están basadas en el supuesto de que el universo del que se saca la
muestra está normalmente distribuido. Por tanto, es prudente cuando sea posible, comprobar este
supuesto de normalidad. Son varios los procedimientos disponibles para realizar la prueba. El
método más utilizado es la prueba X2.
Una prueba X2 es aquella que compara un conjunto de frecuencias de muestras con el conjunto
de frecuencias que cabría esperar basadas en alguna hipótesis. Si los dos grupos se comparan
bien, la hipótesis se rechaza. Como la distribución en la cual se basa la decisión de aceptar o
rechazar se funda en la distribución X2, esta prueba se denomina prueba X2. Se puede utilizar
para comprobar la adecuación de cualquier curva de frecuencia. En nuestro caso la hipótesis es
que la distribución de frecuencias sigue una distribución Normal
La formulación precisa de una prueba X2 es la siguiente; supongamos que F1, F2,…, Fk sean las
frecuencias de muestra de k clases y f1, f2, …; fk las frecuencias que se esperarían con base en la
hipótesis de normalidad.
Al aplicar una prueba X2 para determinar la normalidad de una distribución, las frecuencias reales
de un histograma se comparan con las frecuencias teóricas obtenidas, suponiendo que el
universo está normalmente distribuido. Se “adapta” la curva normal dándole las mismas medias y
desviación estandar del histograma de la muestra. Las frecuencias teóricas y reales se comparan
en la forma que se describe mediante la fórmula anterior, y la tabla X2 se utiliza entrando con v =
k-3, siendo k el número de intervalos elegidos en el diagrama de frecuencias.
Utilizando la nomenclatura usada en estadística matemática, decimos que estas tres condiciones
ocasionan una pérdida de tres “grados de libertad”.
----------------------------------------------------------------------------------------------------------------------------------
CAPÍTULO 6.- MANUAL DE CONTROL ESTADÍSTICO DE PROCESOS
Introducción
Proceso
Por proceso entendemos la combinación global de personas, equipo,
materiales utilizados, métodos y medio ambiente, que colaboran en la
producción. El comportamiento real del proceso -la calidad de la producción y
su eficacia productiva- dependen de la forma en que se diseñó y construyó, y
de la forma en que es administrado. El sistema de control del proceso sólo es
útil si contribuye a mejorar dicho comportamiento.
Información Sobre el Comportamiento
El proceso de producción incluye no solo los productos producidos, sino
también los “estados” intermedios que definen el estado operativo del
proceso tales como temperaturas, duración de los ciclos, etc. Si esta
información se recopila e interpreta correctamente, podrá indicar si son
necesarias medidas para corregir el proceso o la producción que se acaba de
obtener. No obstante, si no se toman las medidas adecuadas y oportunas,
todo el trabajo de recogida de información será un trabajo perdido.
Actuación Sobre el Proceso
Las actuaciones sobre el proceso están orientadas al futuro, ya que se toman
en caso necesario para impedir que éste se deteriore. Estas medidas pueden
consistir en la modificación de las operaciones (por ejemplo, instrucciones de
operarios, cambios en los materiales de entrada, etc) o en los elementos
básicos del proceso mismo (por ejemplo, el equipo -que puede necesitar
mantenimiento, o el diseño del proceso en su conjunto- que puede ser
sensible a los cambios de temperatura o de humedad del taller). Debe
llevarse un control sobre el efecto de estas medidas, realizándose ulteriores
análisis y tomando las medidas que se estimen necesarias.
Actuación sobre la Producción
Este tipo de control puede implementarse mediante sistemas de control automático digital (caso
más habitual) o mediante gráficos de control.
El CEP es una herramienta estadística que se utiliza en el puesto de trabajo para conseguir el
producto adecuado y a la primera. Los gráficos de control constituyen el procedimiento básico del
C.E.P. Con dicho procedimiento se pretende cubrir 3 objetivos
- Reducción de la variación
Por el contrario, existen otras causas de variabilidad que pueden estar, ocasionalmente,
presentes y que actuarán sobre el proceso. Estas causas se derivan, fundamentalmente, de tres
fuentes:
Alcanzar un estado de control estadístico de proceso puede requerir un gran esfuerzo pero es
sólo el primer paso. Una vez alcanzado, podremos utilizar la información de dicho control como
base para estudiar el efecto de cambios planificados en el proceso de producción con el objetivo
de mejorar la calidad del mismo. La Operación Evolutiva es un tipo de Diseño de Experimentos en
línea (aplicado al proceso productivo) que sirve como herramienta para acercarnos a las
condiciones óptimas de funcionamiento del proceso.
Los gráficos de control o cartas de control son una importante herramienta utilizada en control de
calidad de procesos. Básicamente, una Carta de Control es un gráfico en el cual se representan
los valores de algún tipo de medición realizada durante el funcionamiento de un proceso continuo,
y que sirve para controlar dicho proceso. Vamos a tratar de entenderlo con un ejemplo.
Supongamos que tenemos una máquina de inyección que produce piezas de plástico, por
ejemplo de PVC. Una característica de calidad importante es el peso de la pieza de plástico,
porque indica la cantidad de PVC que la máquina inyectó en la matriz. Si la cantidad de PVC es
poca la pieza de plástico será deficiente; si la cantidad es excesiva, la producción se encarece
porque se consume más materia prima.
En el lugar de salida de las piezas, hay un operario que cada 30 minutos toma una, la pesa en
una balanza y registra la observación.
Supongamos que estos datos se registran en un gráfico de líneas en función del tiempo:
Observamos una línea quebrada irregular, que nos muestra las fluctuaciones del peso de las
piezas a lo largo del tiempo. Esta es la fluctuación esperable y natural del proceso. Los valores se
mueven alrededor de un valor central (El promedio de los datos), la mayor parte del tiempo cerca
del mismo. Pero en algún momento puede ocurrir que aparezca uno o más valores demasiado
alejados del promedio.
¿Cómo podemos distinguir si esto se produce por la fluctuación natural del proceso o porque el
mismo ya no está funcionando bien?
Todo proceso de fabricación funciona bajo ciertas condiciones o variables que son establecidas
por las personas que lo manejan para lograr una producción satisfactoria.
Cada uno de estos factores está sujeto a variaciones que realizan aportes más o menos
significativos a la fluctuación de las características del producto, durante el proceso de
fabricación. Los responsables del funcionamiento del proceso de fabricación fijan los valores de
algunas de estas variables, que se denominan variables controlables. Por ejemplo, en el caso de
la inyectora se fija la temperatura de fusión del plástico, la velocidad de trabajo, la presión del
pistón, la materia prima que se utiliza (Proveedor del plástico), etc.
Un proceso de fabricación es una suma compleja de eventos grandes y pequeños. Hay una gran
cantidad de variables que sería imposible o muy difícil controlar. Estas se denominan variables no
controlables. Por ejemplo, pequeñas variaciones de calidad del plástico, pequeños cambios en la
velocidad del pistón, ligeras fluctuaciones de la corriente eléctrica que alimenta la máquina, etc.
Los efectos que producen las variables no controlables son aleatorios. Además, la contribución de
cada una de dichas variables a la variabilidad total es cuantitativamente pequeña. Son las
variables no controlables las responsables de la variabilidad de las características de calidad del
producto.
Los cambios en las variables controlables se denominan Causas Asignables de variación del
proceso, porque es posible identificarlas. Las fluctuaciones al azar de la variables no controlables
se denominan Causas No Asignables de variación del proceso, porque no son pasibles de ser
identificadas. Causas Asignables: Son causas que pueden ser identificadas y que conviene
descubrir y eliminar, por ejemplo, una falla de la máquina por desgaste de una pieza, un cambio
muy notorio en la calidad del plástico, etc. Estas causas provocan que el proceso no funcione
como se desea y por lo tanto es necesario eliminar la causa, y retornar el proceso a un
funcionamiento correcto.
Causas No Asignables: Son una multitud de causas no identificadas, ya sea por falta de medios
técnicos o porque no es económico hacerlo, cada una de las cuales ejerce un pequeño efecto en
la variación total. Son inherentes al proceso mismo y no pueden ser reducidas o eliminadas a
menos que se modifique el proceso.
Cuando el proceso trabaja afectado solamente por un sistema constante de variables aleatorias
no controlables (Causas no asignables) se dice que está funcionando bajo Control Estadístico.
Cuando, además de las causas no asignables, aparece una o varias causas asignables, se dice
que el proceso está fuera de control.
El uso del control estadístico de procesos implica algunas hipótesis que describiremos a
continuación:
La puesta en marcha de un programa de control estadístico para un proceso implica dos etapas:
Antes de pasar a la segunda etapa, se verifica si el proceso está ajustado. En caso contrario, se
retorna a la primera etapa. En la 1ª etapa se recogen unas 100-200 mediciones, con las cuales se
calcula el promedio y la desviación standard:
En el gráfico de prueba se representan los puntos correspondientes a las observaciones con las
que se calcularon los límites de control y se analiza detenidamente para verificar si está de
acuerdo con la hipótesis de que la variabilidad del proceso se debe sólo a un sistema de causas
aleatorias o si, por el contrario, existen causas asignables de variación. Esto se puede establecer
porque cuando la fluctuación de las mediciones se debe a un sistema constante de causas
aleatorias la distribución de las observaciones es normal:
Cuando las observaciones sucesivas tienen una distribución normal, la mayor parte de los puntos
se sitúa muy cerca del promedio, algunos pocos se alejan algo más y prácticamente no hay
ninguno en las zonas más alejadas.
Es difícil decir como es el gráfico de un conjunto de puntos que siguen un patrón aleatorio de
distribución normal, pero sí es fácil darse cuenta cuando no lo es. Veremos algunos ejemplos de
patrones No Aleatorios en el capítulo 7.
Si sólo hay pocos puntos fuera de control (2 ó 3), estos se eliminan, se recalculan la media,
desviación standard y límites de control con los restantes, y se construye un nuevo gráfico de
prueba. Cuando las observaciones no siguen un patrón aleatorio, indicando la existencia de
causas asignables, se hace necesario investigar para descubrirlas y eliminarlas. Una vez hecho
esto, se deberán recoger nuevas observaciones y calcular nuevos límites de control de prueba,
comenzando otra vez con la primera etapa.
En la 2ª etapa, las nuevas observaciones que van surgiendo del proceso se representan en el
gráfico, y se controlan verificando que estén dentro de los límites, y que no se produzcan
patrones no aleatorios.
Como hemos visto, el 99,8 % de las observaciones deben estar dentro de los límites de 3,09
sigmas alrededor de la media. Esto significa que sólo una observación en 500 puede estar por
causas aleatorias fuera de los límites de control. Cuando se encuentra más de un punto en 500
fuera de los límites de control, significa que el sistema de causas aleatorias que provocaba la
variabilidad habitual de las observaciones ha sido alterado por la aparición de una causa
asignable que es necesario descubrir y eliminar. En ese caso, el supervisor del proceso debe
detener la marcha del mismo e investigar con los que operan el proceso hasta descubrir la(s)
causas que desviaron al proceso de su comportamiento habitual. Una vez eliminadas las causas
del problema, se puede continuar con la producción normal.
Estos límites de control se escogen de forma que si el proceso está bajo control, prácticamente
todos los puntos del gráfico estarán contenidos entre dichos límites. En tanto los puntos estén
dentro de los limites no será precisa ninguna acción correctora porque se supone que el proceso
esté balo control. Sin embargo, un punto fuera de los límites de control se interpreta como una
evidencia de que el proceso está fuera de control debiendo investigarse la naturaleza de la causa
o causas asignables presentes a fin de eliminarlas, adoptando la oportuna medida correctora.
Si el proceso está bajo control, además de situarse los puntos dentro de los límites de control,
todos los puntos del gráfico presentarán una posición originada por el azar sin la presencia de
patrones especiales de variabilidad.
IMPORTANTE : No hay que confundir los límites de control con los límites de tolerancia.
Los límites de tolerancia son los
valores de una determinada
característica que separan valores
correctos e incorrectos de la misma
(fijados normalmente por el proyectista
para que el producto funcione
adecuadamente)
Cuando un proceso (que suponemos sigue una distribución Normal) se desplaza respecto a sus
valores nominales o aumenta su dispersión, genera más elementos defectuosos (más elementos
fuera de los límites de tolerancia).
Variables y atributos
Los gráficos X son los más ampliamente utilizados para controlar la tendencia central mientras
que los gráficos de rango (recorrido) y de desviación típica se utilizan para controlar la dispersión.
Muchas características cualitativas no se miden en una escala cuantitativa. En estos casos,
juzgaremos si una unidad de producto es o no conforme si posee ciertos atributos o contando el
número de defectos que aparecen en cada unidad de producto. Los gráficos de control para estas
características se denominan gráficos de control por atributos, que veremos en otro de los
capítulos.
El objetivo básico de un gráfico de control es detectar, de la forma más rápida posible, cambios
en el proceso.
Cuando un punto cae fuera de los límites de control decimos que el proceso está fuera de control,
que existe una causa asignable. Realmente, como en cualquier contraste de hipótesis estadístico
existe una probabilidad de dictaminar una situación fuera de control cuando el proceso está
realmente bajo control (error tipo I) así como una probabilidad de (error tipo II) de decir que el
proceso está bajo control (puntos entre límites de control) cuando realmente el proceso está fuera
de control. Al diseñar el gráfico tenemos presente estos dos errores, que determinan la eficacia
estadística del mismo. Dicha eficacia viene recogida en dos curvas:
Curva ARL (Longitud de racha media). Indica el número medio de muestras necesario para
detectar un cambio en el proceso de magnitud determinada.
Es la principal característica del gráfico ya que nos mide la rapidez de respuesta del mismo.
Como se observa en la curva ARL, si no hay descentrado (d =0), también hay puntos fuera de
límites (falsas señales o error tipo I)
Curva característica. Da la probabilidad de que el siguiente punto caiga dentro de tos límites de
control para un cambio en el proceso de magnitud determinada.
Para diseñar un gráfico de control con una eficiencia estadística determinada fijaremos:
A) Separación de límites de control. Cuanto más alejados estén uno de otro
el error tipo I será menor y aumentará el tipo II
B) Tamaño de la muestra. Al aumentar el tamaño de la muestra el error tipo II
disminuye
Subgrupos racionales
El concepto de subgrupo racional es una idea fundamental para el uso de gráficos de control
debida a Shewhart. De acuerdo con este concepto, la muestra (subgrupo racional) debe tomarse
de tal forma que si la causa asignable está presente, la probabilidad de aparición de diferencias
significativas dentro de los subgrupos se minimice.
Dicho de otra forma, los subgrupos deben elegirse de forma que tengan la máxima probabilidad
de que las mediciones realizadas en cada subgrupo sean semejantes y la máxima probabilidad
de que los subgrupos se diferencien entre si. El principal esfuerzo ha de centrarse en garantizar
que las unidades de cada subgrupo se producen, esencialmente, bajo las mismas condiciones.
Cuando los gráficos de control se aplican a los procesos de producción, el orden de producción
será una base lógica para el agrupamiento en subgrupos racionales. Aún cuando se respete el
orden de producción es posible formar subgrupos erróneamente.
Los subgrupos se realizan agrupando las mediciones de tal modo que haya la máxima
variabilidad entre subgrupos y la mínima variabilidad dentro de cada subgrupo. Por ejemplo, si se
toman unas observaciones de una muestra al final de un turno y las restantes al comienzo de!
siguiente, entonces podrían no ser detectados algunos cambios.
Este método se utiliza cuando el propósito fundamental del gráfico de control es detectar cambios
de nivel del proceso.
La otra forma es retirar piezas individuales a lo largo del intervalo de tiempo correspondiente al
subgrupo.
... etc
Este método se utiliza sobre todo cuando los gráficos se emplean para tomar decisiones respecto
de la aceptación de todas las unidades producidas desde la última muestra.
Por cualquiera de los dos caminos, obtenemos grupos de igual número de mediciones.
Si tomamos muestras según el primer método en un proceso que puede cambiar a una situación
de fuera de control y volver de nuevo dentro de control en el período comprendido entre
muestras, entonces, no detectaríamos la producción defectuosa, por lo que sería mas adecuado
utilizar el segundo método.
Hacemos notar, sin embargo, que cuando se forman subgrupos de esta segunda forma, los
gráficos de control para la dispersión (rango y sigmas) requieren una cuidadosa interpretación ya
que es posible la aparición de puntos fuera de control aún cuando no existan cambios en la
variabilidad del proceso.
Existen otras bases para formar subgrupos racionales: Diferentes máquinas, distintos
trabajadores, etc. A veces, por ejemplo, será preciso realizar un gráfico de control para cada
máquina.
----------------------------------------------------------------------------------------------------------------------------------
CAPÍTULO 7.- GRAFICOS DE CONTROL POR VARIABLES
Introducción. Gráficos basado en un estudio inicial
Los gráficos X-R se utilizan cuando la característica de calidad que se desea controlar es una
variable continua.
Supongamos que una variable está normalmente distribuida con media μ y desviación típica σ y
que ambas son conocidas. Si X1, X2, ... son mediciones de una muestra de tamaño n, la media
muestral, dada por :
Supongamos que disponemos de (m) muestras, cada una de ellas con (n) observaciones.
Típicamente, n será pequeño 4 ó 5. En esa situación, el mejor estimador de la media del proceso
será
La variable aleatoria W = R/s sigue una distribución conocida denominada distribución del rango
relativo. Los parámetros de esta distribución son función del tamaño de muestra (n). La media de
W es (d2) y la desviación típica (d3). En consecuencia, un estimador de s es R/d2. Los valores de
d2 están tabulados (Tablas II y III). Si
Za/2 lo obtendríamos de las tablas de Distribución Normal (Tabla I), una vez elegido a (error tipo I).
Hemos visto que el rango muestral está relacionado con la desviación típica del proceso. Por
consiguiente, la variabilidad del proceso puede controlarse representando los valores sucesivos
del rango muestral que constituyen el gráfico del rango (R).
Los parámetros de (R) pueden determinarse con facilidad, la línea central será . Para
determinar los límites de control necesitamos estimar σR. Suponiendo que la variable sigue una
distribución normal, σR puede encontrarse a partir de la distribución del rango relativo W = R/σ. Al
ser la desviación típica de W = d3, la desviación típica de R será . Como σ es
desconocida la estimamos por R/d2 con lo que . Considerando los límites habituales
“3 sigma” los parámetros del gráfico de control serán:
Si hacemos
resulta :
Podemos calcular los límites del gráfico del recorrido especificando el error I (α) y utilizando la
tabla de la distribución del rango relativo, calcular W α (que depende del tamaño de la muestra) y
calcular luego el límite superior de control
Cuando se inicia el control estadístico y las muestras previas son utilizadas para construir los
gráficos,X, R, los primeros límites de control calculados suelen considerarse como valores de
prueba. A continuación, las medias y los rangos son representados en los gráficos y se investigan
aquellos puntos situados fuera de control. Si se descubren causas asignables, los puntos se
descartan y se calculan nuevos límites de prueba. El procedimiento se repite hasta que todos los
puntos se sitúen dentro de control. la muestra inicial no debe reducirse por debajo de
aproximadamente 20 muestras.
El concepto del subgrupo racional juega un importante papel en el uso de los gráficos (X, R). El
gráfico Xrealiza el seguimiento del nivel medio de calidad del proceso. Por consiguiente, las
muestras deben seleccionarse de forma que se maximice la probabilidad de diferencia entre
medias muestrales. Otra forma de expresar lo anterior es que el gráfico X hace el seguimiento de
variabilidad del proceso a lo largo del tiempo mientras que el gráfico del rango R mide la
variabilidad dentro de la muestra (variabilidad instantánea en un momento dado).
La estima de la desviación típica del proceso, utilizada para calcular los límites de control se
calcula a partir de la variabilidad dentro de cada muestra y por consiguiente refleja solamente la
variabilidad dentro de la muestra. No es correcto estimar σ basándose en
que sobreestimaría σ por combinar la variabilidad entre muestras con la variabilidad dentro de la
muestra.
Ejemplo:
En una fabricación se desea controlar el peso de unos cartuchos de calibre 55, pero no se
conocen la media ni la dispersión del proceso. Durante varios días en que la producción se estimó
bajo control se obtuvieron 25 muestras de 5 unidades (los valores no son reales)
La muestra 21 tiene un recorrida (0.032) mayor que LS por lo que la eliminamos. Con las
muestras 6, 18, 19 y 21 eliminadas calculamos de nuevo los límites:
Para la media
Para el recorrido
La muestra 11 queda fuera de límites por lo que eliminándola, lo nuevos limites quedarán:
De recorridos muestrales
Como vemos no hay medias muestrales ni recorridos muestrales que se salgan de éstos líimites.
Estos últimos quedan como definitivos.
Para construir el gráfico R con un valor estándar σ, tendremos en cuenta los valores tabulados d2
y d3 que son, respectivamente, el valor central y la desviación típica de la distribución del rango
relativo W = R/σ. Por consiguiente, (utilizando el criterio 3 σR) los parámetros serán :
Si definimos un error tipo I determinado, utilizamos las tablas de la distribución del rango relativo
para calcular los límites.
La utilización de los gráficos basados en valores estándar debe ejercerse con cuidado ya que
puede ser que estos valores no sean realmente aplicables al proceso y que, en consecuencia,
resulten muchos puntos fuera de control.
Si el proceso está en realidad bajo control para una media y una desviación típica diferentes
podemos gastar un esfuerzo considerable en buscar causas asignables inexistentes. En aquellos
procesos en los que la característica cualitativa se controle mediante ajustes de la máquina este
tipo de gráficos suele dar buenos resultados para conseguir los objetivos propuestos.
Ejemplo.- Supongamos que una especificación señala que debemos fabricar un material granular
de diámetro exterior 10,8 ± 0,2 mm y que nos aceptan alrededor de 5.5% de granos defectuosos.
El colectivo debe seguir una Distribución Normal de media
10,8 y σ = 0,1 (si queremos dejar cuando el proceso está
centrado un 4% (<5,5) de granos defectuosos.
Existen muchas situaciones en las que el tamaño de muestra utilizado para el control del proceso
es n = 1. Esto ocurre con frecuencia cuando la inspección está automatizada y se mide cada
unidad producida. También se utiliza cuando el ratio de producción es demasiado bajo para
esperar a tomar una decisión hasta tener muestras de tamaño n > 1. También, por ejemplo, en
procesos químicos en los que las medidas sucesivas que pudieran hacerse sobre muestras
tomadas en un corto intervalo de tiempo solo difieren por razón del error experimental del análisis.
Para estimar la variabilidad del proceso se puede utilizar el recorrido entre dos observaciones
sucesivas. También es posible establecer un gráfico de control para el recorrido móvil de dos
observaciones sucesivas.
Para poder utilizar el gráfico de control como indicador de cuándo deben hacerse los cambios del
proceso, ahora es necesario calcular el movimiento promedio de la media observada. El proceso
debe marchar en condiciones de trabajo normales durante varios ciclos del proceso. El
movimiento de la media correspondiente a cada ciclo, se calcula de la siguiente forma:
movimiento de media = observado - observado
Entonces se calcula el Movimiento Promedio de la Media como promedio de estos valores.
Posteriormente se pueden trazar los límites sobre el gráfico de control de la siguiente manera:
= X +(0,5) x Movimiento promedio de media +
= X - (0,5) x Movimiento promedio de media -
LCI y LCS son establecidos como para un gráfico de control basado en valores standard.
Si el gráfico X se quiere utilizar para detectar cambios relativamente grandes (del orden de 2σ)
son suficientemente efectivos tamaños de muestra n = 4 a 6. Si lo que deseamos es detectar
cambios más pequeños puede ser necesario aumentar el tamaño de muestra hasta n = 15 ó 25.
Cuando se toman muestras pequeñas existe menor riesgo de que el cambio se produzca en el
curso de la toma de muestra. Si el cambio tiene lugar durante el desmuestre la media muestral no
reflejará debidamente el cambio por estar influida por las restantes observaciones. De ahí un
argumento para utilizar un tamaño de muestra tan pequeño como sea posible pero que a la vez
sea suficiente para detectar un cambio de la magnitud requerida.
Por ser, casi siempre, limitados los recursos que pueden emplearse en el desmuestre, las
estrategias posibles consistirán en tomar pequeñas muestras a intervalos cortos o grandes
muestras de menor frecuencia. No se puede dar una regla general para todos los casos, aunque
la tendencia en la práctica industrial es la de tomar pequeñas y frecuentes muestras. La
percepción más generalizada es que si el intervalo entre desmuestres es demasiado grande
puede producirse un porcentaje elevado de producto defectuoso antes de que se detecte el
cambio en el proceso. Desde el punto de vista económico, sí el coste asociado con la producción
de unidades defectuosas es elevado es también mejor tomar muestras pequeñas y frecuentes
que muestras de mayor tamaño más espaciadas.
El uso de límites de control “3σ” en los gráficos X ,R es la práctica más ampliamente extendida.
Existen, sin embargo, situaciones en las que es conveniente adoptar otros criterios.
Por ejemplo, si las falsas alarmas (errores de tipo II son muy costosas de investigar puede ser
mejor utilizar límites de control a “4σ”. Por el contrario, si para un determinado proceso las
señales de fuera de control son rápida y fácilmente investigadas puede ser mejor colocar los
límites de control a “2σ”.
Una vez desarrolladas las técnicas para el cálculo de los gráficos de control conviene establecer
unas pautas generales tendentes a ayudar a la "lectura de los gráficos", con vistas a obtener el
máximo provecho de ellos.
a) Generales
Los gráficos de control pueden indicar una situación fuera de control aún sin existir puntos fuera
de los límites de control cuando los puntos representados sigan pautas distintas al
comportamiento aleatorio. En algunos casos estas pautas pueden utilizarse para realizar
modificaciones que reduzcan la variabilidad del proceso (objetivo básico del C.E.P.)
Para interpretar pautas en el gráfico X es preciso antes asegurarse de que el gráfico R está bajo
control. Lo primero será, pues, eliminar las causas asignables correspondientes al gráfico R. Esto,
en muchos casos, eliminará automáticamente las pautas del gráficoX .
Normalmente sólo interesan los puntos fuera de los intervalos. Estos deberán marcarse o
destacarse (por ejemplo, con un círculo rojo). Los puntos que estén muy cerca de las líneas de
control conviene marcarlos con un semicírculo (rojo, cuando están fuera y negro cuando caen
dentro.
No es conveniente dedicar demasiada atención al movimiento de los puntos dentro de los límites
de control, excepto en los casos de “sesgo” y “tendencia” que veremos mas adelante.
Se considera, también, que hay anomalía en el proceso cuando varios puntos caen al mismo lado
de la línea central:
10 de 11 puntos consecutivos
12 de 14 puntos consecutivos
Cuando los puntos caen masivamente entorno a la línea central (sobrestabilidad), deben
analizarse las causas (pues suponen una mejora) para intentar hacerlas permanentes.
Los cambios de turnos (operarios), de materias primas, etc. pueden dar lugar a “periodicidades”
(ciclos).
Cuando hay “grandes-fluctuaciones” en los puntos, suele deberse al mal manejo o falta de
entrenamiento o interés del operario u operarios.
En todos los casos en los que un punto cae fuera de los límites de control (superior o inferior), hay
que comprobar antes de cualquier acción:
Frecuentemente, pueden detectarse cambios anormales del proceso antes de que este se salga
de los límites de control. Estos cambios son advertidos por un “Sesgo” en el gráfico, como ocurre
en el caso de que 7 o más puntos sucesivos caigan en el lado superior de la línea central, sin
salirse de los límites.
Cuando el “sesgo” esté por debajo de la línea central R, esto indica MENOR variabilidad en el
proceso, lo que es indicador de una mejora, que debe ser estudiada para intentar hacerla
permanente.
A título orientativo un 60% de los puntos deben caer en el 1/3 central, un 40% en los 2/3 restantes
aproximadamente. Si no es así, conviene “recalcular de nuevo los límites de control”.
Cada vez que un punto salga de los límites de control, y se detecte y corrija la causa, deberían
“recalcularse” los límites de control. En cualquier caso estos deberían recalcularse cada 5-6
meses. En los nuevos cálculos deben suprimirse los datos que están fuera de límites de control,
siempre y cuando se hayan determinado y eliminado las causas.
Cuando los R están bajo control la “variabilidad” del proceso está controlada, por lo que el
proceso es estable, y puede pasar a analizarse el Gráfico X.
Al igual que en los Gráficos R, existe “sesgo” cuando hay 7 o más puntos seguidos a un mismo
lado de la línea de X.
Igual que en los gráficos R, el reparto de puntos aproximado debe ser 60% 1/3 central, 40% 2/3
restantes.
El recálculo de los límites de control debe hacerse a la vez que el de R, y siguiendo los mismos
criterios.
La figura 3-a presenta
una pauta de tipo cíclico.
La figura 3-b indica una mezcla de dos o más colectivos. En este caso, los puntos tienden a caer
fuera o ligeramente fuera de los limites de control. A veces, esta pauta aparece por “sobrecontrol”
cuando los operadores ajustan frecuentemente el proceso respondiendo a variaciones aleatorias
más que a la aparición de causas sistemáticas.
Finalmente, indicamos que las pautas deben considerarse observando a la vez los gráficos , R. Si
la distribución original es normal, los gráficos , R evolucionarán de forma independiente. Cualquier
correlación entre ambos gráficos señalará que la distribución no es normal sino sesgada.
La eficacia de estos gráficos se describe a través de las curvas ARL (Longitud de racha media) y
curva característica.
- Curva característica
con :
por lo cual :
Normalmente se elige α = 0,0027 (Error tipo I) Z α/2 = 3. Esta curva (Probabilidad de que el
siguiente punto caiga dentro de los límites de control en función del Descentrado del proceso)
viene representada (con α = 0,0027), para distintos tamaños de muestra (n) en la figura C.
Curva ARL
Descentrado Curva
Curva ARL
del proceso caractrística
β 1/(1-β)
K Probabilidad de no detectar el cambio en la Número medio de muestras para detectar el
siguiente muestra cambio
Hay que utilizar la distribución del rango relativo. La probabilidad de que una muestra caiga dentro
de los límites de control será:
para un α determinado (error tipo 1) y dando valores a α (variación en la dispersión del proceso)
obtenemos tos valores de β.
Aunque,
Con esta información ya podemos establecer los límites de control con criterio “3σ ”:
Y poniendo :
tendremos :
Los parámetros B5, B6 están en la tabla IV
Y poniendo :
tendremos :
Y poniendo :
tendremos :
Los gráficos de control que hemos visto hasta ahora se conocen como gráficos de Shewhart. Un
punto débil de los gráficos de Shewhart es que solo se utiliza la información contenida en la última
muestra representada e ignora la información dada por el conjunto de muestras. Es cierto que la
incorporación de límites de atención y el estudio de pautas trata de mejorar la sensibilidad del
gráfico Shewhart utilizando más el conjunto de la información pero a costa de complicar algo el
gráfico reduciendo la sencillez de la Interpretación
Si suponemos que μo es el objetivo para la media del proceso, el gráfico de sumas acumuladas
se formará representando la cantidad respecto al número de orden (m) de la
muestra.
Por combinar la información de varias muestras, los gráficos de sumas acumuladas son más
efectivos que los gráficos de Shewhart para detectar pequeños cambios. Son particularmente
eficaces cuando el tamaño de muestra es n = 1 y, por consiguiente, adecuados para su utilización
cuando la tecnología permite inspeccionar y medir cada unidad producida usando a la vez un
microordenador en el puesto de trabajo.
Existen dos criterios para establecer formalmente que el proceso está fuera de control. Uno de
ellos es un procedimiento gráfico: La máscara V propuesta por Barnhard en 1959 y otro es un
procedimiento numérico muy adecuado para establecer en conjunción con un microordenador.
Aquí veremos este segundo procedimiento.
donde:
es la media muestral en la toma i-ésima.
μo es el valor objetivo (media centrada)
F es un parámetro de la carta de control que normalmente vale δo/2 siendo δo
el cambio que queremos detectar con prontitud.
, siendo normalmente f = 0,5 ya que queremos detectar normalmente
cambios del orden de (n es el tamaño muestral).Como veremos más adelante, F se puede
seleccionar también en algún juego de cartas ARL.
Cuando algún valor Si ó Ti cumple que Si > H ó Ti < -H (H elegido de acuerdo a la curva ARL que
nos interese siendo h normalmente 5) el proceso se considera fuera de control. Si Si se
hace negativo o se pone a 0, de igual forma si T i se hace positivo o se pone a 0.
Las curvas ARL de los gráficos CUSUM, se calculan a partir de los parámetros del grafico, h y f (y
del tamaño de la muestra, que está implícito en el desplazamiento) utilizando cadenas de Markov.
En la tabla 2.3 se dan valores de h y f más comunes en función del desplazamiento de la media a
detectar y sus curvas ARL.
Ejemplo CUSUM
Consideremos el peso de cartuchos de certa fabricación sigue siendo una distribución Normal
(ver ejemplo anterior) de media 1,3917 y desviación típica 0,005. Valores que resultaban cuando
el proceso estaba bajo control.
Si utilizamos las muestras de tamaño 5 del ejemplo anterior y queremos detectar
desplazamientos de la medía del orden de , elejimos h = 5 y f = 0,5 con
lo que obtenemos
En el sexto subgrupo Ti <-0,01 por lo tanto es un punto fuera de control y deberíamos corregir el
proceso.
Para controlar la variabilidad dentro de las muestras se pueden utilizar los gráficos de Shewart del
recorrido o de la desviación típica, en conjunción con el CUSUM de medias.
No obstante también es posible diseñar una carta de control CUSUM específicamente por los
gráficos de recorridos o de desviaciones típicas. La forma de realizarlos es muy similar al CUSUM
de medias. Los parámetros h y f con sus curvas ARL del CUSUM para recorridos o desviaciones
típicas están recogidos en la norma británica BS 5703.
TABLA 2.3
Los gráficos de control de media móvil son también muy efectivos para detectar pequeños
cambios en el proceso, Como los CUSUM, estos gráficos son muy adecuados para implantar en
procesos automatizados.
Es decir, en cada momento t se elimina la muestra vieja y se sustituye por la más reciente.
La varianza de Mt, es :
El uso simultaneo de y Mt puede dar buenos resultados. En este caso, habrá situación de
fuera de control cuando , Mt , o ambos caigan fuera de los límites de control respectivos. La
media móvil es también muy adecuada para usar cuando el tamaño de muestra es n = 1.
Existen muchas situaciones en las que es necesario el control simultáneo de dos o más
características de calidad. Por ejemplo supongamos una pieza con un diámetro interior y otro
exterior que juntos determinen la conformidad de la pieza. Podríamos aplicar los gráficos de
control habituales a las características y considerar que el proceso está bajo control solamente
cuando ambas medias estuvieran dentro de los respectivos límites de control, esto es
equivalente a que el punto caiga dentro del área rayada en la figura.
Si existen P características independientes y se elabora un gráfico X para cada una con error de
tipo I = α, el error de tipo I conjunto es σ‟ = 1- (1- α)p y la probabilidad de que las P medias caigan
dentro de sus respectivos límites (1- α)p. El problema se complica más todavía si existe
correlación entre las diferentes características (caso frecuente). Problemas como estos
constituyen el llamado control de calidad multidimensional y fueron estudiados inicialmente por
Hotelling .
Supongamos que existen dos característica cualitativas X1 y X2 que se distribuyen de acuerdo con
una distribución normal bivariada siendo X1 y X2 sus valores nominales, S12 y S22 sus varianzas y
S12 su covarianza (la covarianza mide el grado de dependencia entre X1 y X2). Si es la
media muestral calculada para un subgrupo de tamaño n, el estadístico :
T2α/2, n-1 es el percentil de la distribución de Hotelling que deja una cola a la derecha de valor α.
Representando en secuencia los valores resultantes de la ecuación anterior para cada muestra,
como si se tratase de un gráfico de control, podemos investigar pautas y otras tendencias no
aleatorias del gráfico.
La mayoría de los paquetes de software de control de Calidad permiten analizar con facilidad
estos gráficos multidimensionales referidos a dos ó más variables.
Obsérvese que en contraste con la tabla C estas probabilidades están acumuladas desde el extremo inferior
de la distribución.
n = Tamaño de la muestra
----------------------------------------------------------------------------------------------------------------------------------
CAPÍTULO 8.- CAPACIDAD DEL PROCESO
Introducción
El primer paso para aplicar una técnica estadística es definir la característica de calidad que se va
a medir en el producto fabricado. Desde el punto de vista estadístico, esta característica de
calidad constituye una variable aleatoria, porque aún después de realizar una serie de
mediciones, el valor que se obtendría en la siguiente medición no puede predecirse por cálculo.
El conjunto de todos los resultados de mediciones que pueden obtenerse es nuestro universo o
población. Cualquier subconjunto de mediciones extraído del universo constituye una muestra.
Con respecto al concepto de universo o población, cuando se aplica a resultados de mediciones
en un proceso, es necesario puntualizar lo siguiente: La población o universo de resultados es el
conjunto de datos que se obtuvieron hasta ese momento mas aquellos que se obtendrían si el
proceso continuara funcionando siempre bajo las mismas condiciones. Esto se conoce como
Universo Hipotético de mediciones de la característica de calidad.
Antes de aplicar cualquier técnica estadística, es necesario establecer algunas hipótesis bajo las
cuales se va a desarrollar el análisis. En primer lugar, vamos a suponer que la característica de
calidad (Variable aleatoria) es continua y de distribución normal. En segundo lugar,
consideraremos que el proceso está bajo control estadístico, es decir que la variabilidad se debe
solamente a un sistema constante de causas aleatorias (No intervienen causas asignables).
Los Límites de Especificación de un producto son fijados voluntariamente por el cliente, por el
fabricante o por alguna norma. Estos límites constituyen un requisito a cumplir por el producto y
no deben confundirse en ningún caso con los Límites de Control o con los Límites de Tolerancia
Natural del proceso.
Este es el histograma de una muestra y por lo tanto es sólo una estimación del verdadero
histograma del universo. Si representamos en las abscisas los Límites de Especificación del
producto, podemos ver gráficamente si el proceso tiene aptitud (Capacidad) para fabricar dicho
producto.
CAPÍTULO 8.- CAPACIDAD DEL PROCESO
Las técnicas estadísticas son útiles a lo largo de todo el ciclo productivo incluyendo: Actividades
previas a la fabricación, cuantificación de la variabilidad del proceso, comparación de la
variabilidad con las especificaciones y la reducción de la variabilidad. Al conjunto de estas
actividades se le denomina análisis en la capacidad del proceso.
Se pueden utilizar como medida de la capacidad otros criterios como por ejemplo que el 98% de
la producción entre en el intervalo de Tolerancia. En este caso utilizando las tablas de la
Distribución Normal (Tabla I) vemos que deben entrar como mínimo 2x2,33σ = 4,66 σ.
La distribución de frecuencias suele ser útil para estimar la capacidad del proceso. Se requieren,
por lo menos, entre 50/100 observaciones para realizar la estimación. Siempre que sea posible y
antes de comenzar la recogida de datos, deben seguirse los siguientes pasos:
a) Escoger adecuadamente la máquina o máquinas sobre las que va a
realizarse el estudio de forma que sean representativas del conjunto de
máquinas al que van a extenderse las conclusiones.
Para cuantificar la Capacidad de Proceso se utilizan coeficientes que permiten comparar el rango
de especificaciones con la fluctuación natural del proceso. Uno de ellos es C p:
donde LSE y LIE son, respectivamente, el Límite Superior y el límite inferior de Especificación
Si el proceso tiene capacidad para fabricar el producto, entonces C p > 1. En general se exige Cp >
1.30 para mayor seguridad.
Cp tiene el inconveniente de que para poder aplicarlo, el centro de gravedad del rango de
especificaciones debe coincidir con la tendencia central de las mediciones del proceso. Cuando
esto no ocurre se emplea el Cpk:
Donde:
En el gráfico podemos observar que una buena parte del producto está por encima del Límite
Superior de Especificación (LSE). Aún así resulta Cp > 1, indicando erróneamente que el proceso
tiene capacidad suficiente.
En este caso se debe usar el segundo coeficiente que muestra claramente que el proceso no
tiene capacidad suficiente (Cpk < 1), tal como se puede observar en el gráfico.
Un proceso suele decirse que es apto cuando Cp > 1 ó incluso Cp > 1,3 Modernamente, ha
comenzado a utilizarse :
donde :
siendo :
Los histogramas y otros métodos de análisis tales como los gráficos de probabilidad indican como
varía el proceso pero no muestran, necesariamente, la capacidad potencial del proceso ya que
éste puede estar en situación de fuera de control o presentar pautas que si se eliminaran
reducirían la variabilidad de la característica en estudio. Los gráficos de control son muy útiles en
este sentido y deben ser considerados la técnica principal en los análisis de capacidad.
En los análisis de capacidad pueden usarse los gráficos de control por variables y los gráficos de
control por atributos aunque son preferibles los primeros por la mayor información que
suministran.
Los gráficos X, R permiten estimar la variabilidad instantánea (capacidad del proceso a corto
plazo) y la variabilidad a lo largo del tiempo(capacidad del proceso a largo plazo). La variabilidad
instantanea viene dada por s = R/d2 , donde d2 es un valor tabulado en función del tamaño de
muestra n.
No debe estimarse la capacidad del proceso a corto plazo cuando se presenta una situación fuera
de control ya que previamente habría que encontrar las causas asignables y poner el proceso
bajo control.
Si se utiliza por error la desviación standard entre subgrupos para calcular los coeficientes de
capacidad del proceso, se obtendrán valores más altos que los que corresponden a la verdadera
capacidad del proceso.
-------------------------------------------------------------------------------------------------------------------------------------------------------
CAPÍTULO 9.- GRAFICOS DE CONTROL POR ATRIBUTOS
Introducción
La distribución binomial es la base estadística del gráfico de control por atributos. Supondremos
que el proceso está operando de forma estable y que la posibilidad de que una unidad de
producto sea defectuosa es constante y de valor p. También, supondremos que las unidades
producidas sucesivamente son independientes. Entonces, si tomamos una muestra de n
unidades, y llamamos x al número de unidades no conformes, la probabilidad de que x tome los
valores 0, 1, 2.... n vendrá determinada por la distribución binomial con parámetros n, p:
La base estadística para definir los límites de control es común con los restantes gráficos de
Shewhart: Si W es un estadístico que describe una determinada característica de calidad siendo
μw y σw2 su media y su varianza, los límites de control se definen como :
K es la distancia de los límites de control a la línea central expresada como un múltiplo de sw.
Habitualmente escogeremos K = 3.
La operativa consiste en tomar sucesivas muestras de n unidades, contar dentro de cada muestra
el número de unidades no conformes y calcular = D/n llevando este valor al gráfico. En tanto
permanezca dentro de los límites de control y la secuencia de puntos no señale ninguna pauta
distinta a la que puede surgir por mero azar, diremos que el proceso está bajo control al nivel p de
fracción no conforme. Si por el contrario, observamos algún punto fuera de control o un patrón
inusual diremos que la fracción defectuosa ha cambiado a un nivel diferente y que el proceso está
fuera de control.
Estos límites de control se consideran como limites de prueba y sirven para determinar si el
proceso estaba bajo control cuando las m muestras iniciales fueron seleccionadas. Si todos los
puntos caen dentro de los límites de control y no se observa ninguna pauta anormal
dictaminaremos que el proceso estaba bajo control a la toma de las m muestras y los límites de
prueba serán validos para controlar la producción actual y la futura.
Los límites de control para la producción actual deben basarse en datos obtenidos de una
situación estable. Por ello, cuando alguno de los puntos iniciales está fuera de control se hace
necesario revisar los límites de control. Esto se realiza examinando cada punto fuera de control y
buscando las causas asignables. Si se localiza la causa asignable se descarta el punto
correspondiente y se vuelven a calcular los límites de control con los puntos restantes. Puede
darse el caso que alguno de estos restantes puntos se encuentre ahora fuera de control respecto
de los nuevos límites ya que estos serán, normalmente, más estrechos que los iniciales.
Entonces, deben repetirse los pasos dados anteriormente hasta que todos los puntos se
encuentren dentro de control con lo que ya podremos adoptar los límites hasta entonces
provisionales como límites definitivos.
Si el gráfico de control se basa en un valor estandar conocido (un objetivo) para la fracción no
conforme p, entonces el cálculo de límites de prueba es, generalmente, innecesario aunque
deben tomarse ciertas precauciones en el sentido de comprobar si el proceso está bajo control a
un valor de p diferente dei indicado en el objetivo. Por ejemplo, supongamos que la Dirección
señala como valor objetivo p = 0,01 pero que el proceso se encuentra realmente bajo control a p
= 0,05.
El gráfico p tiene tres parámetros a especificar: Tamaño y frecuencia del desmuestre y distancia
entre límites de control.
Los subgrupos racionales pueden jugar también un papel importante en determinar la frecuencia
del desmuestre. Por ejemplo, si hay tres turnos y sospechamos que entre turnos puede variar el
nivel de calidad utilizaremos cada turno como un subgrupo sin mezclarlos para obtener una
fracción diaria no conforme. Si p es pequeño n deberá ser suficientemente grande para encontrar,
al menos una unidad defectuosa en la muestra.
Se ha sugerido que el tamaño de muestra debe ser lo bastante grande para tener una
probabilidad de aprox. 50% de detectar un cambio de una determinada magnitud. Por ejemplo,
supongamos que p = 0,01 y que queremos que la probabilidad de detectar un cambio a p = 0,05
sea del 50%. Suponiendo que aproximamos la distribución binomial respecto de la normal,
escogeremos de tal forma que el límite de Control Superior coincide con la fracción no conforme
en la situación de fuera de control. Si 6 es la magnitud del cambio del proceso, entonces n debe
satisfacer
Los límites 3σ son los que se usan con más frecuencia aunque pueden adaptarse otros más
sensibles a costa de exponerse a situaciones más frecuentes de falsa alarma.
A veces, suelen usarse limites más estrechos (por ejemplo 2σ) dentro de una situación de
urgencia para mejorar la calidad de un proceso. Estos límites deben utilizarse con precaución
porque las falsas alarmas destruyen la confianza de los operadores en los gráficos de control.
Hay que tener en cuenta que los límites de control estudiados se basan en la distribución binomial
que considera constante la proporción defectuosa “p‟ y que los valores sucesivos son
independientes. En procesos en los que las unidades no conformes están agrupadas o en los que
la probabilidad de producir una unidad defectuosa depende de que la anterior unidad producida
haya sido no defectuosa, no son aplicables este tipo de gráficos.
Deben examinarse con cuidado aquellos puntos situados por debajo del límite de control inferior.
Estos puntos no suelen ser lo que aparentemente indican: Una mejora en la calidad del proceso
por disminución de a sino que suelen originarse por errores en la inspección o por causa de
aparatos de medida mal calibrados. También puede deberse a que los operadores hayan
registrado datos ficticios para cubrir su responsabilidad.
Supongamos un proceso que fabrica tornillos. Una manera de ensayar cada tornillo sería probarlo
con una rosca calibrada.
El resultado de este ensayo sólo tiene dos posibles resultados:
Defectuoso - No Defectuoso (ó Conforme-No Conforme )
. Si el tornillo no entra en la rosca, se lo considera defectuoso o no
conforme.
Para controlar este proceso, se puede tomar una muestra de tornillos y contar el número de
defectuosos presentes en la muestra.
La variable aleatoria número de defectuosos es una variable aleatoria discreta, porque puede
tomar un número finito de valores, o infinito numerable. Los gráficos np se utilizan para controlar
el número de defectuosos en una muestra.
Para controlar este proceso, un inspector se coloca al final de la línea de producción y cada hora
retira una muestra de n=50 tornillos (por ejemplo), comprueba cada uno con la rosca y anota el
número de defectuosos.
Este resultado se anota en un gráfico hora por hora denominado gráfico np.
Si se tomara del proceso un sólo tornillo ¿Cuál es la probabilidad de que sea defectuoso?
Imaginando la población de tornillos que podría fabricar el proceso trabajando siempre en las
mismas condiciones, una cierta proporción p de estos serían defectuosos. Entonces, la
probabilidad de tomar un tornillo y que sea defectuoso es p.
Para construir los gráficos de control np, en una primera etapa se toman N muestras (más de 20 ó
25) a intervalos regulares, cada una con n tornillos. Se cuenta en cada muestra el Número de
Defectuosos y se registra. Se obtendría una Tabla como la siguiente:
En cada muestra, la fracción de defectuosos es Di/n, siendo Di el número de elementos
defectuosos en la muestra i, y n el número de elementos en la muestra i
A partir de la tabla podemos calcular p como promedio de las fracciones de defectuosos en las
muestras:
Con esto podemos calcular los Límites de Control para el gráfico np:
Para las personas con poco entrenamiento estadístico, este gráfico suele ser más fácil de
interpretar que el gráfico p. Frecuentemente se utiliza solo el límite superior.
En algunos procesos interesa medir la cantidad de defectos que presentan las unidades de
producto que se están fabricando. Por ejemplo, se fabrican teléfonos celulares y entonces se
toma uno de ellos y se cuenta el número total de defectos. Estos podrían ser:
Rayas en la superficie.
grietas en el plástico
Antena defectuosa
Botón defectuoso.
Etc.
Los defectos pueden ser de diferentes tipos y se cuenta el total de todos estos defectos en la
unidad inspeccionada. Obtenemos un resultado que es el Número de Defectos por unidad de
inspección.
A medida que el proceso genera las unidades (Teléfonos móviles), retiramos una unidad a
intervalos regulares y contamos el número total de defectos. En cada unidad podemos
encontrar:? 0 defectos
1 defecto
2 defectos
...
n defectos
Los gráficos C se utilizan para controlar el número de defectos en una muestra del producto o
unidad de inspección. Para controlar este proceso, un inspector se coloca al final de la línea de
producción y cada cierto intervalo retira una unidad de inspección , verifica y anota el número total
de defectos.
Una unidad defectuosa puede tener uno o más defectos. Sin embargo, es posible que una unidad
de producto tenga varios defectos y que no sea clasificada como defectuosa debido a la
naturaleza poco importante del defecto. Existen en la práctica muchas situaciones en las que es
preferible trabajar con el número de defectos que con el porcentaje o el número de unidades
defectuosas. Por ejemplo, el número de soldaduras defectuosas en un tubo de conducción de
gas, el número de defectos funcionales es un dispositivo electrónico, etc.
Se pueden efectuar gráficos de control para el número total de defectos por unidad de producto o
para el número de defectos en la muestra. Estos gráficos de control se basan en la distribución de
Poísson que exige un número de puntos donde potencialmente podría producirse el defecto
infinitamente grande, así como que la probabilidad de que el defecto aparezca en un determinado
punto sea muy pequeña y constante.
La unidad de inspección debe ser la misma en cada muestra. Es decir cada unidad de inspección
debe representar siempre una probabilidad igual de que se produzcan los defectos. En la mayor
parte de las situaciones prácticas, estas condiciones no se satisfacen exactamente. El número de
oportunidades (puntos) para los defectos suele ser finito y la probabilidad de aparición de
defectos puede no ser constante. Si las desviaciones respecto de la situación ideal no son
importantes, puede usarse el modelo de Poisson. Existen, sin embargo, casos en los que las
desviaciones respecto de las condiciones del modelo son considerables y en los que la utilización
de la distribución de Poisson es inadecuada.
Hay que tener en cuenta que la probabilidad de producir una falsa alarma por situarse el punto
por encima del límite de control superior es diferente que la de situarse por debajo del límite
inferior (colas superior e inferior diferentes). Si no se conoce el parámetro c, debe estimarse a
partir de una muestra preliminar de unidades de inspección. El valor obtenido en la estimación, O
sustituirá al valor O en los límites arriba indicados.
Análisis de defectos
Los datos sobre defectos aportan siempre mayor información que los relativos a unidades
defectuosas ya que habitualmente existen diversos tipos de defectos.
Al analizar por conteo la frecuencia de cada tipo de defecto observamos que, en muchas
ocasiones, los resultados están acordes con la distribución de PARETO y que un pequeño
número de defectos es causa de la mayor parte de los problemas. Si somos capaces de eliminar
las causas de unos pocos tipos de defectos, habremos conseguido una drástica mejora en la
calidad.
Gráfico “u”
Se debe tener en cuenta que x es una nueva variable aleatoria discreta que toma valores 0, 1/m,
2/m, …etc., y cuya distribución de probabilidades se puede calcular a partir de la Distribución de
Poisson.
Como en el caso de los gráficos C, en una primera etapa se toman N unidades de inspección
(más de 25 ó 30) a intervalos regulares. Se cuenta en cada unidad de inspección el Número de
Defectos y se registra. Luego se divide el Número de Defectos de cada unidad de inspección por
m (Número de unidades de producción en cada unidad de inspección).
Entonces, a partir de la tabla podemos calcular el parámetro U, como promedio del Número de
Defectos por licuadora, y la Desviación Standard:
Existen importantes razones para implantar los gráficos de control. Destacamos las siguientes:
a) Los gráficos de control son una técnica de eficacia probada para mejorar la productividad. La
adecuada implantación de un programa de C.E.P. reduce la repetición de las operaciones no
conformes y los rechazos por desechos que son uno de los principales enemigos de la
productividad. De esta reducción se deriva una disminución en los costes y un incremento de
producción de producto correcto
b) Los gráficos de control son eficaces en la prevención de defectos. El objetivo básico del gráfico
de control es detectar cualquier cambio en el proceso o en el producto. Siempre es más barato
hacer las cosas bien de entrada que escoger las unidades buenas dentro de un lote de malas y
buenas. Si no se posee un control eficaz, se estará pagando por fabricar producción no conforme.
c) Los gráficos de control previenen de ajustes innecesarios del proceso. El gráfico de control
distingue entre el “ruido de fondo” y una variación anormal. Si el operador ajusta el proceso
basándose en comprobaciones periódicas no relacionadas con la implantación sistemática de los
gráficos de control, a menudo reaccionará frente al ruido de fondo y realizará ajustes
innecesarios.
Gráficos CUSUM
a) Procesos en los que no puede obtenerse más que una medida por
muestra o donde las medidas repetidas solo difieren debido a errores
analíticos. Esto suele suceder en los procesos químicos.