Anda di halaman 1dari 5

UNIVERSIDAD NACIONAL FEDERICO VILLARREAL

FACULTAD DE CIENCIAS NATURALES Y MATEMATICA


ESCUELA PROFESIONAL DE MATEMÁTICA Y ESTADÍSTICA
ESPECIALIDAD: ESTADÍSTICA
*****

ESTADÍSTICA ROBUSTA
APUNTES DE APOYO ACADÉMICO
TEMA: AJUSTE LINEAL RESISTENTE

1. MÉTODO DE LOS 3 GRUPOS O DE TUKEY (1970)


Empleado cuando 𝑥 no está sujeto a error. Utiliza la mediana de Grupos de datos.
Pasos:
 Ordenar los pares (𝑥𝑖 , 𝑦𝑖 ), de modo que, 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 .
 Formar tres (3) grupos, cuyos tamaños serán:

GRUPO n=3k n=3k+1 n=3k+2


L k K k+1
M k k+1 k
R k K k+1
 Obtener la mediana para cada Grupo:
GRUPO 𝒙 𝒚
L 𝑥𝐿 𝑦𝐿
M 𝑥𝑀 𝑦𝑀
R 𝑥𝑅 𝑦𝑅

 Calcular la pendiente inicial:


𝑦𝑅 − 𝑦𝐿
𝑏0 =
𝑥𝑅 − 𝑥𝐿
 Calcular el intercepto inicial:
1
𝑎0 = {(𝑦𝐿 − 𝑏0 𝑥𝐿 ) + (𝑦𝑀 − 𝑏0 𝑥𝑀 ) + (𝑦𝑅 − 𝑏0 𝑥𝑅 )}
3
 Ajustar en términos de la pendiente y el valor central 𝑥 = 𝑥𝑀 :
𝑦̂ = 𝑎0∗ + 𝑏0 (𝑥 − 𝑥𝑀 )
donde,
1
𝑎0∗ = {[𝑦𝐿 − 𝑏0 (𝑥𝐿 − 𝑥𝑀 )] + 𝑦𝑀 + [𝑦𝑅 − 𝑏0 (𝑥𝑅 − 𝑥𝑀 )]}
3
 Calcular los residuales de la iteración inicial:
(0)
𝑟𝑖 = 𝑦𝑖 − [𝑎0∗ + 𝑏0 (𝑥𝑖 − 𝑥𝑀 )] , 𝑖 = 1,2, … , 𝑛

1/5
 Calcular la pendiente de la recta residual en la iteración (j+1)-ésima:
(𝑗) (𝑗)
𝑟 − 𝑟𝐿
𝛿𝑗+1 = 𝑅 , 𝑗 = 0,1,2, …
𝑥𝑅 − 𝑥𝐿
1 (𝑗) (𝑗) (𝑗)
𝛾𝑗+1 = {[𝑟𝐿 − 𝛿𝑗+1 (𝑥𝐿 − 𝑥𝑀 )] + 𝑟𝑀 + [𝑟𝑅 − 𝛿𝑗+1 (𝑥𝑅 − 𝑥𝑀 )]} , 𝑗 = 0,1,2, …
3

 Calcular los residuales de la iteración (j+1)-ésima:


(𝑗+1) (𝑗)
𝑟𝑖 = 𝑟𝑖 − [𝛾𝑗+1 + 𝛿𝑗+1 (𝑥𝑖 − 𝑥𝑀 )] , 𝑖 = ̅̅̅̅̅
1, 𝑛 , 𝑗 = 0,1,2, …
 Calcular el diferencia en la iteración j-ésima:
(𝑗) (𝑗)
∆𝑟(𝑏𝑗 ) = 𝑟𝑅 − 𝑟𝐿 , 𝑗 = 0,1,2, …
 Calcular la nueva pendiente e intercepto:

𝑏𝑗+1 = 𝑏𝑗 + 𝛿𝑗+1 ; 𝑎𝑗+1 = 𝑎𝑗∗ + 𝛾𝑗+1 , 𝑗 = 0,1,2, …
 Determinar el criterio de decisión:
𝑏𝑗+1 − 𝑏𝑗
| | . 100% < 1%
𝑏𝑗
Un criterio más exigente indicado por John Tukey, sugiere que el valor absoluto indicado sea
menor que 0.01%, en caso contrario, pasar a una nueva iteración.
 Por tanto, la Ecuación de la Recta Resistente 3G, será:
̂ = 𝒂∗𝒋 + 𝒃𝒋 (𝒙 − 𝒙𝑴 ) , 𝑗 = 1,2, … (𝑖𝑡𝑒𝑟𝑎𝑐𝑖𝑜𝑛𝑒𝑠)
𝑳𝟑𝑮 : 𝒚

NOTA:
Si ∆𝑟(𝑏) produce una oscilación en torno a cero (0), esto es, cambia de positivo a negativo o viceversa,
entonces, se debe utilizar la interpolación lineal para el ajuste de la pendiente 𝑏𝑗 de la recta, asumiendo
que se encuentra entre 𝑏𝑘 y 𝑏𝑘+1 , del siguiente modo:
𝑏𝑘+1 − 𝑏𝑘
𝑏𝑗 = 𝑏𝑘+1 − ∆𝑟(𝑏𝑘+1 ). [ ]
∆𝑟(𝑏𝑘+1) − ∆𝑟(𝑏𝑘 )

2. MÉTODO DE WALD (1940)


Empleado cuando 𝑥 e 𝑦 están sujetos a error. Utiliza el promedio de Grupos de datos.
Dado (𝑥𝑖 , 𝑦𝑖 ), siendo 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 , se forman dos (2) grupos.
Suponiendo que 𝑛 es par, calcular 𝑚 = 𝑛/2
Si, 𝑥𝑚 = 𝑥𝑚+1 , se descartan estos valores antes de formar los grupos
Si, 𝑛 es impar se descarta el valor central.
G1: (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑚 , 𝑦𝑚 ), y, G2: (𝑥𝑚+1 , 𝑦𝑚+1 ), (𝑥𝑚+2 , 𝑦𝑚+2 ), … , (𝑥𝑛 , 𝑦𝑛 )
∑𝑚+1 𝑛
𝑖=𝑛 𝑦𝑖 −∑𝑖=1 𝑦𝑖
Pendiente: 𝑏𝑊 = ∑𝑚+1 𝑛 ; Intercepto: 𝑎𝑊 = 𝑦̅ − 𝑏𝑊 𝑥̅
𝑖=𝑛 𝑥𝑖 −∑𝑖=1 𝑥𝑖

Por tanto, 𝑳𝑾 : 𝒚 = 𝒂𝑾 + 𝒃𝑾 𝒙

2/5
3. MÉTODO DE NAIR & SHRIVASTAVA (1942)
Empleado cuando 𝑥 no está sujeto a error. Utiliza el promedio de Grupos de datos.
Dado (𝑥𝑖 , 𝑦𝑖 ), siendo 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 , se forman tres (3) grupos, así:

GRUPO n=3k n=3k+1 n=3k+2


L k k k+1
M k k+1 k
U k K k+1

Calcular los promedios de los Grupos L y U:


1𝑛𝐿 𝑛𝐿1
GL: 𝑥̅𝐿 = 𝑛 ∑𝑖=1 𝑥𝑖 ; 𝑦̅𝐿 = 𝑛 ∑𝑖=1 𝑦𝑖
𝐿 𝐿
1 1
GU: 𝑥̅𝑈 = ∑𝑛 𝑥 ; 𝑦̅𝑈 = ∑𝑛 𝑦
𝑛𝑈 𝑖=𝑛−𝑛𝑈 +1 𝑖 𝑛𝑈 𝑖=𝑛−𝑛𝑈 +1 𝑖
𝑦̅𝑈 −𝑦̅𝐿
Pendiente: 𝑏𝑁𝑆 = 𝑥̅𝑈 −𝑥̅𝐿
; Intercepto: 𝑎𝑁𝑆 = 𝑦̅𝐿 − 𝑏𝑁𝑆 𝑥̅𝐿 = 𝑦̅𝑈 − 𝑏𝑁𝑆 𝑥̅𝑈

Por tanto, 𝑳𝑵𝑺 : 𝒚 = 𝒂𝑵𝑺 + 𝒃𝑵𝑺 𝒙

4. MÉTODO DE BARTLETT (1949)


Para lograr una mayor precisión que el método de Wald, Barlett introdujo de forma independiente la
modificación de usar tres grupos iguales. Como Nair & Shrivastava, usa la pendiente de la recta que
une (𝑥̅𝐿 , 𝑦̅𝐿 ) y (𝑥̅𝑈 , 𝑦̅𝑈 )
𝑦̅𝑈 − 𝑦̅𝐿
𝑏𝐵 =
𝑥̅𝑈 − 𝑥̅𝐿

Para el intercepto, sin embargo, se requiere que la línea pase por el punto (𝑥̅ , 𝑦̅):
𝑎 = 𝑦̅ − 𝑏𝐵 𝑥̅

Por lo tanto, el método de Barlett se diferencia del método de Wald solo al usar tres grupos en lugar
de dos.
Para una indicación de la precisión de su método, Bartlett examina el mismo caso especial que Nair y
Shrivastava, con valores igualmente espaciados de 𝑥, no sujetos a error. En estas situaciones, donde el
ajuste de mínimos cuadrados es apropiado, la eficiencia de 𝑏𝐵 , en relación con 𝑏𝐿𝑆 , es al menos 8/9,
mientras que la eficiencia de 𝑏𝑤 puede ser tan baja como 3/4.
Como parte de una exposición tutorial del método de BartIett, Gibson y Jowett (1957) investigan cómo
la asignación de puntos de datos a los tres grupos afecta la eficiencia de 𝑏𝐵 cuando los valores de 𝑥
provienen de cada una de las seis distribuciones. En lugar de trabajar con ejemplos de valores de 𝑥,
utilizan toda la distribución verdadera y obtienen las asignaciones óptimas que se muestran como
proporciones en la siguiente Tabla:

3/5
Localización Óptima en el Método de los Tres Grupos bajo Seis Distribuciones de x

Distribución 𝒏𝑳 /𝒏 𝒏𝑴 /𝒏 𝒏𝑼 /𝒏 Función de Densidad

1
Gaussiana 0.27 0.46 0.27 ( ) 𝑒𝑥𝑝(−𝑥 2 /2) −∞ < 𝑥 < ∞
√2𝜋

Rectangular 0.33 0.33 0.33 1/2 −1 < 𝑥 < 1

3
Forma Campana 0.31 0.38 0.31 4
(1 − 𝑥2) −1 < 𝑥 < 1

9 1
Forma “U” 0.39 0.22 0.39 ( + 𝑥4) −1 < 𝑥 < 1
10 4

Forma “J” 0.45 0.40 0.15 𝑒𝑥𝑝[−(𝑥 + 2)] −2 < 𝑥 < +∞

𝑥3
Sesgo 0.36 0.45 0.19 𝑒𝑥𝑝(−𝑥/2) 0 < 𝑥 < +∞
3! 24

El resultado para el uniforme es justo lo que esperaríamos de los cálculos de Nair y Shrivastava y de
Bartlett para valores x con espacios iguales. La regla para los gaussianos, que asigna el 27% de los datos
a cada uno de los grupos finales, coincide con la asignación óptima cuando se desea estimar el
coeficiente de correlación en una distribución gaussiana bivariable a partir de los recuentos de valores
de y positivos y negativos en los valores más bajos. y grupos superiores (Mosteller, 1946). Esta “regla
del 27%” también surge en otros contextos.
En general, las asignaciones óptimas para las cuatro distribuciones simétricas en la Tabla no difieren
mucho. Gibson y Jowett se enfoca en la distribución gaussiana y redondea las ubicaciones,
recomendando una proporción de 1: 2: 1

5. MÉTODO DE BROWN & MOOD (1951)


Como resultado de algunos procedimientos para establecer pruebas de hipótesis (principalmente en
situaciones de análisis de varianza) en términos de medianas, Brown y Mood (1951) describen un
método para estimar los coeficientes en modelos de regresión lineal. Consideran el problema general
que involucra varias variables explicativas, y Mood (1950, pp. 406.-408) ofrece el método para la
regresión lineal simple con más detalle. Más recientemente, Hogg (1975) ha generalizado la idea de
obtener "líneas de percentiles".

Para el modelo de regresión simple, Brown y Mood, empleado cuando 𝑥 e 𝑦 están sujetos a error,
primero dividen los datos en dos grupos utilizando la mediana de 𝑥, 𝑀𝑥.
Dado (𝑥𝑖 , 𝑦𝑖 ), siendo 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 , se forman dos (2) grupos, en términos de la mediana 𝑀𝑥 :
G1: 𝑥𝑖 ≤ 𝑀𝑥 ; G2: 𝑥𝑖 > 𝑀𝑥
Luego se seleccionan la pendiente ajustada 𝑏𝐵𝑀 y la intersección 𝑎𝐵𝑀 , para obtener una residual
mediano de cero en cada uno de los dos grupos:

𝑀𝑒𝑑𝑥𝑖≤𝑀𝑥 {𝑦𝑖 − 𝑎𝐵𝑀 − 𝑏𝐵𝑀 𝑥𝑖 } = 0 ; 𝑀𝑒𝑑𝑥𝑖>𝑀𝑥 {𝑦𝑖 − 𝑎𝐵𝑀 − 𝑏𝐵𝑀 𝑥𝑖 } = 0

4/5
(Incluir 𝑀𝑥 en el grupo de la izquierda es arbitrario; la presencia de dos o más valores de 𝑥 iguales a
Mx, podría significar que colocar 𝑀𝑥 en el grupo de la derecha, haría que los dos grupos tuvieran un
tamaño más o menos igual).
Para calcular 𝑏𝐵𝑀 , Mood sugiere un procedimiento iterativo similar al de los tres grupos, mientras que
el intercepto se obtiene como: 𝑎𝐵𝑀 = 𝑀𝑒𝑑{𝑦𝑖 − 𝑏𝐵𝑀 𝑥𝑖 }

Por tanto, 𝑳𝑩𝑴 : 𝒚 = 𝒂𝑩𝑴 + 𝒃𝑩𝑴 𝒙

Elaborado con fines académicos para la asignatura de Estadística Robusta, por Pedro M. Castro Ynfantes, Profesor
Asociado, Escuela Profesional de Matemática y Estadística, Facultad de Ciencias Naturales y Matemática, Universidad
Nacional Federico Villarreal. Lima. Perú. Octubre de 2018

5/5

Anda mungkin juga menyukai