Anda di halaman 1dari 16

Selección de Variables

y Modelizado Predictivo en R
IV Jornadas de Usuarios de R. CREAL Barcelona

A. Sanz, F. Antoñanzas,
E. Sodupe, M. J. Alı́a, R. Fernández

Grupo EDMANS. Universidad de La Rioja

15-16 de Noviembre de 2012


Selección de Variables en R
Caso de estudio en una HDGL

Índice General

1 Selección de Variables en R

2 Caso de estudio en una HDGL

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Selección de Variables y Predicción Numérica


en R

Objetivo 1: Determinar una serie de valores continuos


(numéricos) objetivo a partir de una sucesión de entradas
predeterminadas.

Objetivo 2: Seleccionar aquellas entradas que mejoren el


rendimiento y la precisión de los mencionados modelos
predictivos de regresión.

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Predicción Numérica en R

stats::lm función básica de regresión lineal,


stats::glm función de regresión lineal generalizada,
stats::nlm función de regresión no lineal.

RSNNS librerı́a ”Stuttgart Neural Network Simulator” con gran


diversidad de redes y de configuraciones,
AMORE librerı́a especializada en redes multilayer perceptron
(MLP) con varios criterios de ajuste: LMS, LMLS, TAO
A. Sanz y col. Selección de Variables en R
Selección de Variables en R
Caso de estudio en una HDGL

Selección de Variables en R

Ranking de variables
Filtro: Preprocesado independiente del predictor que permite
evaluar con un determinado criterio cada variable.

Selección de subconjunto de variables


Filtro: Selecciona el subconjunto como preprocesado sin
tener en cuenta el modelo del predictor.
Wrapper: Selecciona el subconjunto de acuerdo a la
capacidad predictiva del modelo (black box ).
Embedded : Selecciona durante el proceso de
entrenamiento del modelo basado en aprendizaje máquina.

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Wrapper basado en algoritmos genéticos

Multiples ejemplos de funciones de busqueda: AG, simulated


annealing, forward/backward/stepwise selection, etc.
caret
rfeIter función básica de selección recursiva.
rfe wrapper que combina la selección con remuestreo.

Algoritmos Genéticos (AG)


rgp y rgenoud librerı́as para optimización por AG.

Programar en R funciones de selección,


cruzamiento y mutación para GA codificado en
números reales.

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Esquema general del conjunto de scripts


programados

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Índice General

1 Selección de Variables en R

2 Caso de estudio en una HDGL

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Linea continua de galvanizado por inmersión


en caliente (HDGL)

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Visualización de la selección de variables


para THC3

100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ●

C ●

Mn ●
● ●

50

50
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49

100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●

Si S
● ● ●

50

50
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49

100

100
● ●
● ● ● ●
● ● ● ● ●

P ● ● ●

Al
● ● ● ●

50

50
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100

● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●

Cu ● ● ● ●

Ni
50

50
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ●

Cr Nb
● ●
● ● ● ●
50

50
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ●
● ● ●

V ● ●

Ti

50

50
● ● ● ● ● ● ● ● ● ●
● ● ● ●

● ● ● ●
● ● ● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ●
● ● ●

B ● ● ●

N
50

50
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
0

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●

● ● ● ●

ThickCoil WidthCoil
● ● ●
50

50

● ●
● ●
● ●
0

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●


TMPP1

TMPP2CNG
50

50

● ●
● ●
● ● ● ●
● ● ●
● ●
0

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
THC3 % Feature selection Last Gen.

with complexity function
VelMed
50

● ● ● ●●●
● ●

● THC3 % Feature selection Last Gen.


● ●
without complexity function
0

0 5 10 15 20 25 30 35 40 45 49

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Visualización de la evolución de los modelos


para THC3 0.055

Lowest validation RMSE


Lowest testing RMSE value
0.05
Root Mean Squared Error (RMSE)
0.045
0.04
0.035
0.03

G.0 G.5 G.10 G.15 G.20 G.25 G.30 G.35 G.40 G.45 G.50
Number of Generation

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Visualización de la selección de variables


para THC5

100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ●

C ● ● ●

Mn
● ● ●

50

50
● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49

100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●

Si
● ● ● ● ●

S
● ● ● ● ● ● ● ●

50

50
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49

100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ●

P ● ● ● ●

Al
● ●

50

50
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●

Cu ● ●

Ni

● ● ● ● ● ● ● ●
50

50
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●

Cr ● ● ● ● ●

Nb

● ● ● ● ●
50

50
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ●

V ●

Ti
50

50
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0

0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●

B ● ●

N
● ● ● ●
50

50
● ● ● ●
● ●

0

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ●

ThickCoil WidthCoil
● ●
50

50

● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
0

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ●
● ● ●

TMPP1 TMPP2CNG
● ● ● ●
50

50


● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ● ● ●
0

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 35 40 45 49 0 5 10 15 20 25 30 35 40 45 49
100

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

THC5 % Feature selection Last Gen.

● with complexity function
VelMed

50

● ●
● ●
● THC5
● % Feature selection Last Gen.
without complexity function
0

0 5 10 15 20 25 30 35 40 45 49

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Visualización de la evolución de los modelos


para THC5 0.065

Lowest validation RMSE


Lowest testing RMSE value
0.06
Root Mean Squared Error (RMSE)
0.055
0.05
0.045
0.04
0.035
0.03

G.0 G.5 G.10 G.15 G.20 G.25 G.30 G.35 G.40 G.45 G.50
Number of Generation

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Futuros trabajos

Trasladar R a la linea de galvanizado y analizar su


robustez.
Mejorar su uso con datos con mayor ruido.
Crear un paquete con la contribución: GAMORE

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Bibliografı́a

Martı́nez-de-Pisón, F.J., Alba-Elı́as, F., Castejón-Limas, M. &


González-Rodrı́guez, J.A. (2006). Improvement and optimisation of hot dip
galvanising line using neural networks and genetic algorithms.
Ironmaking and Steelmaking 33-4, 344-352.

Guyon, I. & Elisseeff, A. (2003). An introduction to variable and feature


selection. J. Mach. Learn. Res. 3. 1157-1182. 2003.

Castejón-Limas, M., Ordieres-Meré, J.B., Vergara, E.P., Martı́nez-de-Pisón, F.J.,


Pernı́a, A.V. & Alba, F. (2009) The AMORE package: A MORE flexible
neural network package. CRAN Repository.

A. Sanz y col. Selección de Variables en R


Selección de Variables en R
Caso de estudio en una HDGL

Selección de Var. y Modelizado Pred. en R

THANK YOU VERY MUCH

FOR YOUR ATTENTION

Questions?

A. Sanz y col. Selección de Variables en R

Anda mungkin juga menyukai