Anda di halaman 1dari 45

AnlisisDiscriminante

SantiagodelaFuenteFernndez
AnlisisDiscriminante

SantiagodelaFuenteFernndez
AnlisisDiscriminante
ANLISISDISCRIMINANTE

ElAnlisisDiscriminanteesunatcnicaestadsticamultivariantecuyafinalidadesanalizarsiexisten
diferenciassignificativasentregruposdeobjetosrespectoaunconjuntodevariablesmedidassobre
losmismospara,enelcasodequeexistan,explicarenqusentidosedanyfacilitarprocedimientos
declasificacinsistemticadenuevasobservacionesdeorigendesconocidoenunodelosgrupos
analizados.

Sepuedepredecirsiunaempresavaaentrarenbancarrota?
Esposiblepredecirconantelacinsiunclientequesolicitaunprstamoaunbancovaaserun
clientemoroso?
Existediscriminacinporrazonesdesexooderazaenunaempresaoenuncolegio?

ElAnlisisDiscriminantesepuedeconsiderarcomounanlisisderegresindondelavariable
dependienteescategricaytienecomocategoraslaetiquetadecadaunodelosgrupos,mientras
quelasvariablesindependientessoncontinuasydeterminanaqugrupospertenecenlosobjetos.

Sepretendeencontrarrelacioneslinealesentrelasvariablescontinuasquemejordiscriminenen
losgruposdadosalosobjetos.

Construirunaregladedecisinqueasigneunobjetonuevoconunciertogradoderiesgo,cuya
clasificacinpreviasedesconoce,aunodelosgruposprefijados.

Paraefectuarelanlisisesnecesarioconsiderarunaseriedesupuestos:

(a) Setieneunavariablecategricayelrestodevariablessondeintervalooderaznyson
independientesrespectodeella.

(b) Senecesitanalmenosdosgrupos,yparacadagruposenecesitandosomscasos.

(c) Elnmerodevariablesdiscriminantesdebesermenorqueelnmerodeobjetosmenos2,es
decir, (x 1 , x 2 ,L, x p ) donde p < (n 2) siendonnmerodeobjetos.

(d) Ningunavariablediscriminantepuedesercombinacinlinealdeotrasvariablesdiscriminantes.

(e) Elnmeromximodefuncionesdiscriminanteseselmnimo[nmerodevariables,nmerode
gruposmenos1]conqgrupos, (q 1) funcionesdiscriminantes.

(f) Lasmatricesdecovarianzasdentrodecadagrupodebendeseraproximadamenteiguales.

(g) Lasvariablescontinuasdebenseguirunadistribucinnormalmultivariante.

SantiagodelaFuenteFernndez 1
AnlisisDiscriminante
MODELOMATEMTICO

Partiendodeqgruposdondeseasignanaunaseriedeobjetosydepvariablesmedidassobre
ellos (x 1 , x 2 ,L, x p ) ,setratadeobtenerparacadaobjetounaseriedepuntuacionesqueindicanel
grupoalquepertenecen (y 1 , y 2 ,L, y m ) ,demodoqueseanfuncioneslinealesde (x 1 , x 2 ,L, x p ) :

y1 = w11 x1 + w12 x 2 + L + w1p xp + w10



LLLLLLLLLLLLL m = mn[ q 1, p ]
y = w x + w x + L + w x + w
m m1 1 m2 2 mp p 10

talesquediscriminenoseparenlomximoposiblealosqgrupos.

Estascombinacioneslinealesdelaspvariablesdebenmaximizarlavarianzaentrelosgruposy
minimizarlavarianzadentrodelosgrupos.

DESCOMPOSICINDELAVARIANZA:Lavariabilidadtotaldelamuestrasepuededescomponeren
variabilidaddentrodelosgruposyentrelosgrupos.Paraello,separte:

1 n
Cov(x j , x j' ) = (x ij x j ) (x ij' x j' )
n i=1
sepuedeconsiderarlamediadelavariable x j encadaunodelosgrupos (I1 , I2 ,L, Iq ) ,esdecir,
1
xk j =
nk
x
iIk
ij para k = 1,L, q .

Deestaforma,lamediatotaldelavariable x j sepuedeexpresarcomofuncindelasmediasdentro
decadagrupo: nk x k j = x ij
iIk

1 n 1 q 1 q q
nk
conlocual, x j =
n i=1
x ij =
n k=1 iI
x ij =
n k=1
n x
k kj =
k =1 n
xk j
k

1 q
As, Cov(x j , x j' ) = (x ij x j ) (x ij' x j' )
n k=1 iI k

(x ij x j ) = (x ij xk j ) + (xk j x j )

Poniendoencadaunodelostrminos: seobtiene,
(x i j' x j' ) = (x i j' xk j' ) + (xk j' x j' )

1 q 1 q q
nk
Cov(x j , x j' ) =
n k=1 iI
(x ij x j ) (x ij'
x j'
) =
n k=1 iI
(x ij x kj ) (x i j' x k j' ) +
k =1 n
(x k j x j ) (x k j' x j' ) =
k k

cov arianza total cov arianza dentro grupos cov arianza entre grupos MATRICIALMENTE
678 6474 8 678 6474 8
= v (x j , x j' ) + f (x j , x j' ) a t (x j , x j' ) = v (x j , x j' ) + f (x j , x j' ) T = V +F

Lacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentregrupos.

SantiagodelaFuenteFernndez 2
AnlisisDiscriminante
EXTRACCINFUNCIONESDISCRIMINANTES

LaideabsicadelAnlisisDiscriminanteconsisteenextraerapartirde (x 1 , x 2 ,L, x p ) variables


observadasenkgrupos,mfunciones (y 1 , y 2 ,L, y m ) deformaque:

yi = wi1 x1 + wi2 x2 + L + wip xp + wi0 donde m = mn( q 1, p ) ,talesque corre(y i , y j ) = 0 i j

Silasvariables (x 1 , x 2 ,L, x p ) estntipificadas,lasfunciones ( yi = wi1 x1 + wi2 x 2 + L + wip xp ) para


(i = 1,L, m) sedenominandiscriminantescannicas.

Lasfunciones (y 1 , y 2 ,L, y m ) seextraendemodoque:

y 1 sealacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayordiscriminacin


posibleentrelosgrupos.

y 2 sealacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayordiscriminacin


posibleentrelosgrupos,despusde y 1 ,talque corre(y 1 , y 2 ) = 0

Engeneral, y i eslacombinacinlinealde (x 1 , x 2 ,L, x p ) queproporcionalamayor


discriminacinposibleentrelosgrupos,despusde y i1 ,talque corre(y i , y j ) = 0 para
j = 1,L, (i 1)

MATRICIALMENTE:Sebuscaunafuncinlinealde (x 1 , x 2 ,L, x p ) : Y = w' X

SesabequeLacovarianzatotalesigualalacovarianzadentrodelosgruposmslacovarianzaentre
MATRICIALM ENTE
6474 8
grupos: T = F + V .

Demodoque, Var(y) = w' T w = w'F w + w' V w

) Semaximizalavariabilidadentrelosgruposparadiscriminarlosmejor,esdecir,semaximizala
w'F w
varianzaentregruposenrelacinconeltotaldelavarianza: mx
w' T w
w'F w
Considerandolafuncin f(w) = seobservaqueesunafuncinhomognea,esdecir,
w' T w
w'F w
f(w) = f( w) R .Elhechodequeseahomogneaimplicaquecalcular mx equivale
w' T w
acalcular mx [w'F w] talque w' T w = 1

ComoeselesquemahabitualdelosmultiplicadoresdeLagrange,sedefine:

L
L = w'F w (w' T w 1) = 2F w 2 T w = 0 F w = T w (T 1F) w = w
w

Enconsecuencia,elautovectorasociadoalaprimerafuncindiscriminanteloesdelamatriz (T 1F) ,
queengeneralnoessimtrica.
SantiagodelaFuenteFernndez 3
AnlisisDiscriminante

Como F w = T w ,setiene w'F w = w' T w =

Portanto,tomandoelvectorasociadoalmximoautovalorseobtendrlafuncinquerecogeel
mximopoderdiscriminante.

Elautovalorasociadoalafuncindiscriminanteindicalaproporcindevarianzatotalexplicadapor
lasmfuncionesdiscriminantesquerecogelavariable y i

Paraobtenermsfuncionesdiscriminantessesiguensacandolosautovectoresdelamatriz
w'2 w'2X = Y2

(T 1F) asociadosalosautovaloreselegidosenordendecreciente: LLLLLLL
w' w' X = Y
m m m

m = mn(q 1, p ) .Estosvectoressonlinealmenteindependientesydanlugarafunciones
incorreladasentres.

m
Lasumadetodoslosautovalores i eslaproporcindevarianzatotalquequedaexplicada,ose
i=1

conserva,alconsiderarslolosejesofuncionesdiscriminantes.

Comoconsecuencia,elporcentajeexplicadoporlavariable y i deltotaldevarianzaexplicadaporlas
funciones (y 1 , y 2 ,L, y m ) es:

i
m
100%

i=1
i

ANLISISDISCRIMINANTE:OBJETO

Clasificarlasobservacionesdelamuestraengrupos,apartirdelainformacin
suministradaporunconjuntodevariables.

Unconjuntodevariables Unavariablecategrica
explicativasocriterio sealandolosgrupos

Variablesclasificadoras Variabledependiente

SantiagodelaFuenteFernndez 4
AnlisisDiscriminante

ANLISISDISCRIMINANTE(A.D.):CRITERIODECLASIFICACIN

Hiptesis:Lasdistribucionesslosediferencianporsulocalizacin(igualformayvarianza)

Setratademinimizarloserroresdeclasificacin
Sixi<CseclasificaenelgrupoI
Sixi>CseclasificaenelgrupoII
XI + XII
ElpuntoCsedenominapuntodecortediscriminante: C =
2

SantiagodelaFuenteFernndez 5
AnlisisDiscriminante

SantiagodelaFuenteFernndez 6
AnlisisDiscriminante
ENFOQUESDEANLISIS

Basadoenlaobtencindefuncionesdiscriminantesdeclculosimilaralasecuacionesde
regresinlinealmltiple.Consisteenconseguir,apartirdelasvariablesexplicativas,unas
funcioneslinealesdestasconcapacidadparaclasificaraotrosindividuos.Acadanuevocasose
aplicandichasecuacionesylafuncindemayorvalordefineelgrupoalquepertenece.

Basadoentcnicasdecorrelacincannicaydecomponentesprincipales(AnlisisFactorial)
denominadoAnlisisDiscriminanteCannico.

CLASIFICACINENDOSGRUPOS

SeestudialaaplicacindelAnlisisDiscriminante(AD)alaclasificacindeindividuosenelcaso
dequesepuedanasignarsolamenteadosgruposapartirdekvariablesdiscriminadoras.

Fisherresuelveelproblemamediantesufuncindiscriminante: D = w1 X1 + w2 X2 + L + wk Xk

Laspuntuacionesdiscriminantessonlosvaloresqueseobtienenaldarvaloresa
(X1 , X2 ,L , Xk ) enlaecuacinanterior.

Setratadeobtenerloscoeficientesdeponderacin w j

SiseconsideranNobservacionesLafuncindiscriminante Di = w1 X1i + w2 X2i + L + wk Xki para


i = 1,L , N .
(Di ) eslapuntuacindiscriminantecorrespondientealaobservacinisima.

D1 X11 X21 L Xk1 w1



D2 X12 X22 L Xk 2 w2
Lafuncindiscriminanteenformamatricial: = M
M M M

D X X L X
N 1N 2N kN wk

Expresandoelmodeloenfuncindelasdesviacionesalamedia,resulta:

D1 d1 X11 X21 L Xk1 w1



D2 d2 X12 X22 L Xk2 w2
= M esdecir,
M M M

DN dN X1N X2N L XkN wk

d = X w (funcindiscriminanteendiferencias)

Lavariabilidaddelafuncindiscriminante(sumadecuadradosdelasdesviacionesdelas
variablesdiscriminantesconrespectoasumedia)seexpresa:

Sumadecuadradosexplicadaporestafuncin: d' d = w' X' X w

X' X esunamatrizsimtricaqueexpresalasdesviacionescuadrticasconrespectoalamediade
lasvariables(sumadecuadradostotal).

SantiagodelaFuenteFernndez 7
AnlisisDiscriminante
SepuededescomponerensumadecuadradosentregruposFysumadecuadradosdentrodelos
gruposV:

T = X' X (matrizdesumadecuadradosyproductos
cruzados(varianzascovarianzas)paraelconjuntode T = X' X = F + V
observaciones.

conlocual, d' d = w' X' X w = w' (F + V) w = w' F w + w' V w

Losejesdiscriminantesvienendadosporlosvectorespropiosasociadosalosvalorespropiosde
lamatriz (V 1 F) ordenadosdemayoramenor.

Laspuntuacionesdiscriminantessecorrespondenconlosvaloresobtenidosalproyectarcada
puntodelespaciokdimensionaldelasvariablesoriginalessobreelejediscriminante.

w' F w separacin entre grupos


Loscoeficienteswseobtienen: Mx = =
w' V w separacin dentro grupos

CLASIFICACIN

Seobtienenlaspuntuacionesdiscriminantesdiparacadaobservacin,introduciendolos
correspondientesvaloresdelaskvariablesenlafuncindiscriminante.

Seaplicaelcriteriodeclasificacin:

di<C(diC<0)pertenecealgrupoI
di>C(diC>0)pertenecealgrupoII

Otrocamino:funcionesdiscriminantesparacadagruposeclasificalaobservacinen
elgrupoenquelafuncincorrespondientearrojamayorvalor.

HIPTESIS

Lasvariablessonindependientesysedistribuyennormalmenteproblemasenla
estimacin.

Lasmatricesdelasvarianzasycovarianzassonigualesentodoslosgruposafectaala
clasificacin.

Nomulticolinealidadentrelasvariablesclasificadoras.

Lasrelacionessonlineales.

Noexistenvaloresanmalos(outliers).

SantiagodelaFuenteFernndez 8
AnlisisDiscriminante
CENTROIDESPARACADAGRUPO(GRUPOI,GRUPOII)

X1 I X1II

X2 I X2 II
XI = XII = LossubndicesIyIIindicanaqugrupopertenecelavariable.
M M

Xk I Xk II

DI = w1 X1 I + w2 X2 I + L + wk Xk I

PARACADAGRUPO
D = w X + w X +L+ w X
II 1 1 II 2 2 II k k II

Si Di < C se clasifica al individuo i en el grupo I


CRITERIOPARACLASIFICAR

AUNINDIVIDUO Si D > C se clasifica al individuo i en el grupo II
i

DI + DII
C:puntodecortediscriminante C =
2

ENGENERAL:

{DC = w 1 X1 + w2 X2 + L + wk XK C }seclasificadependiendosi (D C) espositivoonegativo.

INFERENCIASYCLCULODEPROBABILIDADES

LaobtencindelafuncindiscriminantelarealizFisheraplicandounenfoquepuramente
descriptivo.Cuandoenelanlisisdiscriminantesedeseanabordarcuestionesdecarcterinferencial
yotrosrelativosalmodelopoblacionalserequierelaformulacinpreviadehiptesisestadsticas.

Lascuestionesdetipoinferencialserefierenadiversoscontrastesdesignificacinsobreelmodelo,
ascomocontrastesutilizadosenelprocesodeseleccindevariablescuandoelnmerodestases
muygrandeynoseconoceapriorilasvariablesquesonrelevantesenelanlisis.
Porotraparte,elclculodeprobabilidaddepertenenciaaungruporequierequepreviamentese
hayapostuladoalgnmodeloprobabilsticodelapoblacin.

Lashiptesisestadsticasqueseadoptan,anlogasalaspostuladasenelanlisismultivariantedela
varianza,serefierentantoalapoblacincomoalprocesodeobtencindelamuestra.

) Lashiptesisestadsticassobrelapoblacin:

(a) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).

(b) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.

Lashiptesisimplicanque x g N(g , )

SantiagodelaFuenteFernndez 9
AnlisisDiscriminante
) Lashiptesissobreelprocesodeobtencindelamuestra:Facilitanlarealizacindelprocesode
inferenciaapartirdelainformacindisponible:<<Sesuponequesehaextradounamuestra
aleatoriamultivarianteindependienteencadaunodelosGgrupos>>.

Bajolashiptesiscitadas,lafuncindiscriminanteobtenidaporFisheresptima.Lahiptesis
x g N(g , ) exigequelasvariablesclasificadorassiganunadistribucinnormal.Sinembargo,no
serarazonablepostularesthiptesisrespectoavariablescategricas,utilizadasfrecuentementeen
elanlisisdiscriminantecomovariablesclasificadoras.Sealarque,cuandoseutilizanvariablesde
estetipo,lafuncindiscriminantelinealdeFishernotieneelcarcterdeptima.

Contrastesdesignificacinyevaluacindelabondaddeajuste

Conloscontrastesdesignificacinqueserealizanenelanlisisdiscriminantecondosgrupossetrata
dedarrespuestaatrestiposdecuestionesdiferentes:

(a) Secumplelahiptesisdehomocedasticidaddelmodelo?
(b) Secumplenlashiptesisdenormalidad?
(c) Difierensignificativamentelasmediaspoblacionalesdelosdosgrupos?

Paraelcontrastedehomocedasticidad(silamatrizdecovarianzaseslamismaparalosdistintos
grupos)seutilizaelestadsticodeBarlettBox:

K
(ng 1) / 2 Enelnumeradoraparecenlosdeterminantesdelasestimaciones
S
g =1
g
delamatrizdecovarianzasparacadagrupo.
M= (n K) / 2 Eneldenominador,eldeterminantedelaestimacinglobaldela
S
matrizdecovarianzas.

Cuandoelnumeradorseamuysuperioraldenominador,serindicativodequeexiste
heteroscedasticidad(noexistehomogeneidadentrelasmatricesdecovarianzasdecadagrupo).

G G

Vg Vg
g =1
(n
g =1
g 1) Sg
donde: Sg = S = = Kvariables
ng 1 nG nG

LamatrizSgesunaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag,
S esunaestimacindelamatrizdecovarianzasglobal.

) LarespuestaalapreguntaDifierensignificativamentelasmediaspoblacionalesdelosdos
grupos?esdecisivaparalarealizacindelanlisisdiscriminante.Encasodequelarespuesta
fueranegativacareceradeinterscontinuarconelanlisis,yaquesignificaraquelasvariables
introducidasnotienencapacidaddiscriminantesignificativa.
H0 : 1 = 2
Lashiptesisnulayalternativaparadarrespuestaalacuestin,enelcasodedosgrupos
H1: 1 2

ElcontrastedelahiptesissepuederealizarespecficamentemedianteelestadsticoT2deHotelling:

nn V +V
T2 = (y1 y2 )' S 1 (y1 y2 ) 1 2 donde S = 1 2
n1 + n2 n1 + n2 2

SantiagodelaFuenteFernndez 10
AnlisisDiscriminante
Lamatriz S esunestimadorinsesgadodelamatrizdecovarianzaspoblacional,obtenidobajoel
supuestodequelamatrizdecovarianzaspoblacionaleslamismaenlosdosgrupos.

Bajolahiptesisnula,elestadsticoT2deHotellingsedistribuye:

n +n K 1 T2
1 2 FK , n1 +n2 K1
K n1 + n2 2

Existenotrosestadsticospararealizarelcontraste,diseadosparaelcasogeneraldeGgrupos,tales
comoelestadsticodeRaooelestadsticoVdeBarlett(estosdosltimosestadsticosestn
construidosapartirdeladeWilks).

Enelcasodequeserechacelahiptesisnula H0 : 1 = 2 ,sepuedeaplicarelanlisisunivariantede
lavarianzaparacontrastarlahiptesisdeigualdaddemediasparacadaunadelasvariables
clasificadorasporseparado.

Comomedidadeevaluacindelabondaddeajusteseutilizaelcoeficienteetacuadrado (2 ) ,que
eselcoeficientededeterminacinobtenidoalrealizarlaregresinentrelavariabledicotmica,que
indicalapertenenciaalgrupo,ylaspuntuacionesdiscriminantes.Alarazcuadradodeeste
coeficienteseledenominacorrelacincannica.


= (correlacincannica)
1+

w1' F w1 separacin entre grupos


ratioqueseobtienealmaximizar Mx = '
=
w1 V w1 separacin dentro grupos

Clculodeprobabilidadesdepertenenciaaunapoblacin

D = w 1 X 1 + w 2 X 2 + L + wk X k
Lasfuncionesdiscriminantesdeltipo clasificanalosdiferentes
D C = w1 X 1 + w 2 X 2 + L + wk X k C
individuosenunouotrogrupo,peronoofrecenmsinformacinacercadelosindividuos
investigados.

Enmuchasocasionesesconvenientetenerinformacincomplementariaalaspuntuaciones
discriminantes.Sibienconestaspuntuacionessepuedeclasificaracadaindividuo,tambines
interesantedisponerdeinformacinsobrelaprobabilidaddesupertenenciaacadagrupo,puescon
estedatosepuederealizaranlisismsmatizados,eincluirotrasinformacionestalescomola
informacinapriorioloscostesqueimplicaunainformacinerrnea.

Pararealizarestetipodeclculossesuelenasumirlashiptesisestadsticassobrelapoblacin:

(c) Lamatrizdecovarianzasdetodoslosgruposesiguala(hiptesisdehomocedasticidad).

(d) Cadaunodelosgrupostieneunadistribucinnormalmultivariante.

Lashiptesisimplicanque x g N(g , ) ,considerandoademsqueseconocenlosparmetros


poblacionales.

SantiagodelaFuenteFernndez 11
AnlisisDiscriminante
Elclculodeprobabilidadesserealizaenelcontextodelateoradeladecisin,quepermiteteneren
cuentalaprobabilidaddepertenenciaaungrupo,comoloscostesdeunaclasificacinerrnea.

LaclasificacindelosindividuosserealizautilizandoelteoremadeBayes.Laaplicacindelteorema
deBayespermiteelclculodelasprobabilidadesaposterioriapartirdeestasprobabilidadesapriori
ydelainformacinmuestralcontenidaenlaspuntuacionesdiscriminantes.

EnelcasogeneraldeGgrupos,elteoremadeBayesestablecequelaprobabilidadaposterioride
pertenenciaaungrupogconunapuntuacindiscriminanteD,conprobabilidadesapriori g es:

g Prob (D / g)
Prob (g / D) = G

Prob (D / i)
i=1
i

Laprobabilidadcondicionada Prob (D / g) seobtienecalculandolaprobabilidaddelapuntuacin


observadasuponiendolapertenenciaaungrupog.
G
Dadoqueeldenominador i Prob (D / i) esunaconstante,seutilizatambinlaformaequivalente:
i=1

Prob (g / D) g Prob (D / g) proporcionalidad

Laclasificacindecadaindividuosepuederealizarmediantelacomparacindelasprobabilidadesa
posteriori.As,seasignarunindividuoalgrupoparaelcualseamayorsuprobabilidadaposteriori.

Sepresentaelclculodeprobabilidadesenelcasodedosgrupos,deformaqueseafcilmente
generalizablealcasodeGgrupos.

Elclculodeprobabilidadesserealizabajotressupuestosdiferentes:(a)Clculodeprobabilidades
sininformacinapriori.(b)Clculodeprobabilidadesconinformacinapriori.(c)Clculode
probabilidadesconinformacinaprioriconsiderandoloscostes.

) Clculodeprobabilidadesaposteriorisininformacinapriori

Enelclculodeestasprobabilidadesseconsideraquenoexisteconocimientopreviodelas
probabilidadesdepertenenciaacadagrupo.Cuandonoexistedichainformacin,seadoptael
supuestodequelaprobabilidaddepertenenciaaambosgruposeslamisma,esdecir,seadoptael
supuestodeque I = II .Estoimplicaqueestasprobabilidadesapriorinoafectanalosclculosde
lasprobabilidadesaposteriori.

Bajolashiptesisestadsticassobrelapoblacin,laprobabilidaddepertenenciaacadagrupo,dada
lapuntuacindiscriminanteobtenida,vienedadaporlaexpresin:

F
eg
Prob (g / D) = g = I,II FI y FII sonlasfuncionesdefinidas.
eFI + eFII

Unindividuoseclasificaenelgrupoparaelquelaprobabilidadseamayor.Estecriterioimplicaque
unindividuoseclasificarenelgrupoIsi FI > FII

Aplicandolafrmuladeprobabilidadaposteriorisellegaalosmismosresultadosqueaplicandola
D +D
frmuladiscriminantedeFisher.EstoimplicaqueelpuntodecorteCeselmismo: C = I II .
2
SantiagodelaFuenteFernndez 12
AnlisisDiscriminante
) Clculodeprobabilidadesaposterioriconinformacinapriori

Enocasionessedisponedeinformacindelaprobabilidadapriorisobrepertenenciadeunindividuo
acadaunodelosgrupos.Porejemplo,sepuedetenerinformacindequelosprstamosfallidos
suponenun10%deltotaldelosprstamosconcedidosalolargodecincoaos.Paratenerencuenta
estetipodeinformacinseintroducenprobabilidadesapriorienelanlisis.

Cuandoseutilizanprobabilidadesapriorilosindividuosseclasificanenelgrupoparaelquela
probabilidadaposterioriseamayor.

F
I e g
Prob (g / D) = g = I,II FI y FII sonlasfuncionesdefinidas.
I eFI + II eFII

Conestecriterio,unindividuoseclasificaenelgrupoIsi: FI ln I > FII ln II .

LaaplicacinimplicaqueelpuntodecortediscriminanteCvendrdadoporlaexpresin:

DI + DII
Cp = ln II
2 I

Laratiodeprobabilidadesaprioridebeestablecersedeformaqueelpuntodecortesedesplace
haciaelgrupoconmenorprobabilidadapriori.Aldesplazarseelpuntodecortedeestaforma,se
tenderaclasificarunaproporcinmenordeindividuosenelgrupoconmenorprobabilidadapriori.

) Clculodeprobabilidadesaposterioriconinformacinaprioriyconsiderandocostes

Hastaahoranosehaconsideradoelcostequeunaclasificacinerrneapuedetener.Enmuchas
ocasioneselcostedeclasificacinerrneapuedediferirparacadaunodelosgrupos.Porejemplo,
enlaconcesindeprstamos,clasificarcomofallidoaunclientecumplidoryclasificarcomo
cumplidoraunfallido,noeslomismoparalaentidadbancaria.Enlaprimeradelasposibilidades,el
costeparaelbancoesdejardepercibirlosinteresesdelprstamoylaposibleprdidadeuncliente
queenrealidadescumplidor.Porelcontrario,enlasegundaposibilidadelcosteparaelbancoesla
prdidadelacantidadprestada,yaqueelclienteclasificadocomocumplidoresrealmentefallido.En
principio,ybajoelcriteriodeunaprudenteadministracinfinanciera,parecequeelsegundotipode
costeessuperioralprimero.

Cuandoseintroducencostesdeclasificacinnopuedehablarseyadeclculodeprobabilidadesa
posteriori.Noobstantesepuedeobteneruncriterioparaclasificarminimizandoelcostetotalde
clasificacinerrnea.Estetotalvienedadoporlaexpresin:

I Prob (II / I) Coste (II / I) + II Prob (I / II) Coste (I / II)

Cadaprobabilidadseencuentramultiplicadaporelcosteenqueseincurre.Alminimizarla
expresin,bajolashiptesisestadsticassobrelapoblacin,elpuntodecortediscriminante Cp , c se
obtieneconlaexpresin:

DI + DII Coste(I / II)


Cp , c = ln II
2 I Coste(II / I)

SantiagodelaFuenteFernndez 13
AnlisisDiscriminante
Enlosdesarrollosanterioressehasupuestoquelasprobabilidadessonconocidas.Enlaprctica,se
utilizanestadsticosmuestralesensulugar.Elempleodeestadsticosmuestralestienecomo
consecuenciaquesesubestimelaprobabilidaddeclasificacinerrnea,cometindoseporlotanto
sesgossistemticosenlaclasificacin.Paradisminuirestossesgossehanpropuesto,entreotros,dos
procedimientosalternativos.

Unprocedimientoconsisteendividirlamuestratotalendossubmuestras,utilizandolaprimera
muestraparaestimarlafuncindiscriminante,mientrasquelasegundaseutilizaparasu
validacin.As,lapotenciadiscriminantedelafuncinvendrdeterminadaporelporcentajede
individuosclasificadosenestasegundamuestra.

ElsegundoprocedimientoconsisteenexcluirunindividuodelgrupoI,calcularlafuncin
discriminante,yclasificardespusalindividuoquesehaexcluido.Haciendolomismoconel
restodeindividuosdelgrupoI,seestimalaProb(II/I)conelporcentajedeindividuosquehan
sidoclasificadosenelgrupoII.ProcediendoanlogamenteconlosindividuosdelgrupoII,se
estimalaProb(I/II).Aestesegundoprocedimientoseleconoceconladenominacinjacknife.

SeadjuntaunatablaresumendelEjercicio1,dondeseacompaalaspuntuaciones
discriminantesparalos16clientes.

Grupo Patrimonio Deuda Puntuacin Grupo


Cliente
pertenencia Neto Pendiente discriminante clasificado
1 I 1,3 4,1 5,9957 I
2 I 3,7 6,9 6,1213 I
3 I 5 3 1,141 I
4 I 5,9 6,5 3,4715 I
5 I 7,1 5,4 1,2043 I
6 I 4 2,7 1,8964 I
7 I 7,9 7,6 2,4267 I
8 I 5,1 3,8 1,7831 I
9 II 5,2 1 0,93 II
10 II 9,8 4,2 2,7086 II
11 II 9 4,8 1,3214 II
12 II 12 2 7,036 II
13 II 6,3 5,2 1,8459 I
14 II 8,7 1,1 4,4593 II
15 II 11,1 4,1 4,1473 II
16 II 9,9 1,6 5,2353 II

Enlatablasiguiente(resultadosdelaclasificacin)sereflejaelresumendelaclasificacindelatabla
dearriba.Avecesseutilizaenelanlisisdiscriminantelaexpresindematrizdeconfusinpara
referirsealatablasiguiente:

SantiagodelaFuenteFernndez 14
AnlisisDiscriminante
Enlatablaquesiguesehancalculadolasprobabilidadesaposteriori(sinincorporarinformacina
prioriniconsiderargastos)depertenenciaacadagrupoutilizandolafrmula:
F
eg
Prob (g / D) = FI FII g = I,II
e +e
Comopuedeobservarse,lasprobabilidadesdepertenenciaalpropiogruposonelevadas,exceptoen
elclientecumplidor13queseclasificaerrneamenteenelgrupodefallidosyqueporaadidura
tieneunaprobabilidadmuybaja(0,1367)depertenenciaalgrupodeloscumplidores.
Fallidos NoFallidos
Cliente Prob(I/D) Prob(II/D) Cliente Prob(I/D) Prob(II/D)
1 0,9975 0,0025 9 0,2826 0,7174
2 0,9978 0,0022 10 0,0622 0,9378
3 0,7575 0,2425 11 0,2100 0,7900
4 0,9698 0,0302 12 0,0009 0,9991
5 0,7687 0,2313 13 0,1367 0,8633
6 0,8693 0,1307 14 0,0114 0,9886
7 0,9185 0,0815 15 0,0155 0,9845
8 0,8558 0,1442 16 0,0053 0,9947

Comosegundaaplicacin,serealizalaclasificacinincorporandoinformacinapriori.

DI + DII
Paraclasificaralosclientessevaautilizarelpuntodecorte Cp = ln II
2 I

Siseestableceque 1 = 0,10 y 2 = 0,90 ,elvalorqueseobtiene:

0,518 + 6,522 0,9


Cp = ln = 3,520 2,1972 = 1,323
2 0,1

conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 1,323

resultando:
Grupo Patrimonio Deuda Puntuacin Grupo
Cliente
pertenencia Neto Pendiente discriminante clasificado
1 I 1,3 4,1 3,7987 I
2 I 3,7 6,9 3,9243 I
3 I 5 3 1,056 I
4 I 5,9 6,5 1,2745 I
5 I 7,1 5,4 0,9927 I
6 I 4 2,7 0,3006 I
7 I 7,9 7,6 0,2297 I
8 I 5,1 3,8 0,4139 I
9 II 5,2 1 3,127 II
10 II 9,8 4,2 4,9056 II
11 II 9 4,8 3,5184 II
12 II 12 2 9,233 II
13 II 6,3 5,2 0,3511 I
14 II 8,7 1,1 6,6563 II
15 II 11,1 4,1 6,3443 II
16 II 9,9 1,6 7,4323 II

SantiagodelaFuenteFernndez 15
AnlisisDiscriminante
Losclientes3,5,6y8,queantesestabanclasificadoscomofallidos,seclasificanahoracomo
cumplidores,yaquesupuntuacindiscriminantehapasadodenegativaapositiva.Lomismoocurre
conelcliente13queanteriormenteestabaclasificadoerrneamentecomofallidocuandoera
cumplidor.

Ahorasecalculaelpuntodecorteteniendoencuentalainformacinapriorieincorporando
tambinloscostesdelaclasificacinerrnea.Comorespectoalcoste,seadoptaelcriteriode
clasificarcomocumplidoraunclientefallidoes20vecessuperioralcostedeclasificarcomofallidoa
Coste (II / I)
unclientecumplidor.Esdecir,seestableceque,laratio: = 20
Coste (I / II)

Elpuntodecortediscriminanteser:

DI + DII Coste(I / II) 0,518 + 6,522 0,9


Cp , c = ln II = ln = 4 ,319
2 I Coste(II / I) 2 0,1.20

Laincorporacindeloscosteshadeterminadoqueelnuevopuntodecortediscriminante Cp , c est
situadoaladerechadelpuntoC,adiferenciadeloqueocurracuandosolamentesetenanen
cuentalasprobabilidadesapriori.

conloquelafuncindiscriminantedeFisherser:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 4 ,319

resultando:
Grupo Patrimonio Deuda Puntuacin Grupo
Cliente
pertenencia Neto Pendiente discriminante clasificado
1 I 1,3 4,1 6,7947 I
2 I 3,7 6,9 6,9203 I
3 I 5 3 1,94 I
4 I 5,9 6,5 4,2705 I
5 I 7,1 5,4 2,0033 I
6 I 4 2,7 2,6954 I
7 I 7,9 7,6 3,2257 I
8 I 5,1 3,8 2,5821 I
9 II 5,2 1 0,131 II
10 II 9,8 4,2 1,9096 II
11 II 9 4,8 0,5224 II
12 II 12 2 6,237 II
13 II 6,3 5,2 2,6449 I
14 II 8,7 1,1 3,6603 II
15 II 11,1 4,1 3,3483 II
16 II 9,9 1,6 4,4363 II

Secompruebaquenoalteralaclasificacindeningnclienterespectoalautilizacindelpuntode
corteinicialC.Esdecir,laincorporacindeloscostesdeclasificacinerrneahacompensado,mso
menos,lamenorprobabilidadapriorideserunclientefallido.

SantiagodelaFuenteFernndez 16
AnlisisDiscriminante
CLASIFICACINENMSDEDOSGRUPOS:ANLISISDISCRIMINANTEMLTIPLE

Nmeromximodeejesdiscriminantes mn(G 1, k) ,dondeGeselnmerodecategoras.Se


obtienen (G 1) ejesdiscriminantessielnmerodevariablesexplicativasesmayoroigualque
(G 1) generalmente,estehechosuelesercierto.

Cadaunadelasfuncionesdiscriminantes Di seobtienecomofuncinlinealdelaskvariables
explicativas: Di = wi1 X1 + wi2 X2 + L + wik Xk i = 1,L , G 1

Los (G 1) ejesvienendefinidosrespectivamenteporlosvectores (w1 , w2 ,L , wG1 )

w11 w21 wG1, 1



w12 w22 wG1, 2
w1 = , w2 = , LL , wG1 =
M M M

w w wG1, k
1k 2k

Paralaobtencindelprimerejediscriminantesemaximizalaratiovariabilidadentregruposentre
variabilidaddentrogrupos,esdecir:

w1' F w1 separacin entre grupos


Mx 1 = '
= (criterioobtencindelprimerejediscriminante)
w1 V w1 separacin dentro grupos

1
Derivandolaratioeigualandoacero: = 0 ,conlocual:
w1

1 2F w1 (w1' V w1 ) 2 V w1 (w1' F w1 )
= =0 2F w1 (w1' V w1 ) 2 V w1 (w'1 F w1 ) = 0
w1 (w1' V w1 ) 2

2 F w1 (w'1 F w1 )
operandoconlaexpresin,resulta: =1 = 1 a F w1 = V w1 1
2 V w1 (w1' V w1 )

siendo,portanto, 1 w1 = V 1 F w1

Laobtencindelvector w1 resultaunproblemadeclculodeunvectorcaractersticoasociadoala
matriznosimtrica (V 1 F) .Delasracescaractersticasqueseobtienenalresolverlaecuacin
[ w 1 ]
= V 1 F w1 seretienelamayor,yaque 1 eslaratioquesepretendemaximizary w1 esel
1

vectorcaractersticoasociadoadicharazcaracterstica.

w1' F w1
Como 1 eslaratio ' medirelpoderdiscriminantedelprimerejediscriminante.Elresto
w1 V w1
delosejesdiscriminantessonotrosvectorescaractersticosdelamatriz (V 1 F) ,ordenadossegnel
ordendecrecientedelasracescaractersticas.As,elsegundoejediscriminantetendrmenorpoder
discriminantequeelprimero,peromsquecualquieradelosrestantes.

Puestoquelamatriz (V 1 F) noessimtrica,engeneral,estoimplicarquelosejesdiscriminantesno
sernortogonales,esdecir,nosernperpendicularesentres.

SantiagodelaFuenteFernndez 17
AnlisisDiscriminante
Contrastesdesignificacin

Enelanlisisdiscriminantemltipleseplanteancontrastesespecficosparadeterminarsicadauno
delosvalores i esestadsticamentesignificativo,esdecir,paradeterminarsicadaunodelos
valores i contribuyeonoaladiscriminacinentrelosdiferentesgrupos.

EstetipodecontrastesserealizaapartirdelestadsticoVdeBarlett.ElestadsticoVesunafuncin
deladeWilksyseaproximaaunachicuadrado,tieneintersenelanlisisdiscriminanteporsu
descomponibilidad.

K + G K var iables categricas


EstadsticoVdeBarlett: V = n 1 (ln ) V K2 (G1)
2 G grupos

Esteestadsticoseutilizaenelanlisis H0 : 1 = 2 = L = G

multivarianteparacontrastarlashiptesis H1 : No todas las g son iguales

) Enelanlisismultivariantedelavarianzaconunfactorsecontrastaestahiptesispara
determinarsielfactor(variablecategricaconGgrupos)explicalavariabilidaddelvectorde
variablesdependientesdeformasignificativa.
) Enelanlisisdiscriminantemltiplelahiptesisacontrastarsiguesiendolamisma,aunquelos
papelessehaninvertido.Ahoraserealizaelcontrasteparatratardedarrespuestaalapregunta:
LasKvariablesclasificadorascontribuyensignificativamenteadiscriminarentrelosGgrupos?

Sinoserechazalahiptesisnulacitada,nosedeberacontinuarelanlisis,puestoquelasvariables
clasificadorasutilizadasenlainvestigacinnotienenningnpoderdiscriminantesignificativo.

Paraexaminarelpoderdiscriminantedecadaunodelosejesqueseconstruyenenelanlisis
discriminante,sedescomponeelestadsticoVenproductosapartirdeladescomposicindela
deWilks.Deacuerdoconsudefinicin,elrecprocodesepuededescomponer:

1 T 1
= = V T = V 1 T = V 1 T = V 1 (F + V) = I + V 1 F
V

teniendoencuentaqueeldeterminantedeunamatrizesigualalproductodesusraces
caractersticas,seobtieneque:

1
= I + V 1 F = (1 + 1 ) (1 + 2 ) L (1 + G1 )

sustituyendoenelestadsticoVdeBarlett,seobtienelaexpresinalternativadelestadstico:

K + G G1
EstadsticoVdeBarlett: V = n 1
2
ln(1 + )
g=1
g

Siserechazalahiptesisnula,significaquealmenorunodelosejesdiscriminanteses
estadsticamentesignificativo.Estoimplicaasuvezqueelprimerejediscriminantees
estadsticamentesignificativo,debidoaqueesprecisamenteelquetienemayorpoder
discriminante.

Encasodequeseaceptelahiptesisdequeelprimerejediscriminanteessignificativo,sepasaa
contrastarlasignificacinconjuntadelrestodelosejesdiscriminantes,utilizandoelestadstico:

SantiagodelaFuenteFernndez 18
AnlisisDiscriminante
K + G G1
V = n 1
2
ln(1 + )
g =2
g

Deformageneral,sepuedeestablecerlaexpresindecontrastacinsecuencialmedianteel
estadstico:

K + G G1
EstadsticoVdeBarlett: Vj = n 1
2
ln(1 + )
g = j+1
g donde j = 0, 1, 2,L , G 2

As,enelprocesosecuencialsevaneliminandodelestadsticoVlasracescaractersticasquevan
resultandosignificativas,deteniendoelprocesocuandoseaceptelahiptesisnuladeno
significatividaddelosejesdiscriminantesquequedenporcontrastar.

SantiagodelaFuenteFernndez 19
AnlisisDiscriminante
PRSTAMOSRIESGO

Cuandounaentidadfinancieraconcedeunprstamopersonalaunclienteseenfrentaaladoble
posibilidaddequeseareintegradoodequenolosea.Enesteltimocasoelprstamoser
finalmenteclasificadocomofallido.Obviamente,silaentidadfinancieraconocieradeantemanoque
unapersonavaaresultarfallidanoleconcederaelprstamoenningncaso.Enestalnea,puede
utilizarlainformacinexistenteenlaentidadsobreprstamosconcedidosenelpasadoparala
concesindeprstamosfuturosdeformaqueseevite,oalmenos,sereduzcalaposibilidadde
concederprstamosquedespusfueranfallidos.

Enlosarchivosdelaentidadfinancieraexisteinformacindelascaractersticasdelaspersonasalas
queseleshaconcedidounprstamo,yaqueelclienteenelmomentodesolicitarelprstamoha
facilitadodatosacercadecuestionestalescomoingresos,edad,sexo,situacinfamiliar,antigedad
enelpuestodetrabajo,rgimendetenenciadelavivienda,etc.Esmuyposiblequelosclientes
cumplidorestenganunascaractersticasdistintasalosclientesfallidos.

Utilizandoestascaractersticassetratadeestablecerunasfuncionesqueclasifiquenloms
correctamenteposiblealosclientesalosqueseleshaconcedidounprstamoencumplidoresy
fallidos(finalidadexplicativa).Posteriormente,estasfuncionesseemplearn,enelcasodequese
hayarealizadoadecuadamentedichaclasificacin,paradeterminarsiseconcedenonolos
prstamosfuturosafuturossolicitantes(finalidadpredictiva).

ANLISISDISCRIMINANTECONSPSS

Latablaadjuntacontieneinformacinde16clientesdeunaentidadfinancieraalosqueseles
concediunprstamo.Pasados3aosdesdelaconcesindelprstamo,delos16clientes,haba8
quefueronclasificadoscomofallidos(grupo1)mientrasquelosotros8clientesfueroncumplidores
(grupo2),yaquereintegraronelprstamo.
Paracadaunodelos16clientessedisponedeinformacinsobreX1='supatrimonioneto'y
X2='susdeudaspendientes',enelmomentodelasolicitud.Conestainformacinsepretende
construirunafuncindiscriminantequesepare/diferencielomsposiblealosdosgruposyque
permitaclasificar,conlosmenoreserroresposibles,alosdistintosclientesenlosdosgrupos.

Cliente Prstamo PatrimonioNeto DeudaPendiente


1 1 1,3 4,1
2 1 3,7 6,9
3 1 5,0 3,0
4 1 5,9 6,5
5 1 7,1 5,4
6 1 4,0 2,7
7 1 7,9 7,6
8 1 5,1 3,8
9 2 5,2 1,0
10 2 9,8 4,2
11 2 9,0 4,8
12 2 12,0 2,0
13 2 6,3 5,2
14 2 8,7 1,1
15 2 11,1 4,1
16 2 9,9 1,6

SantiagodelaFuenteFernndez 20
AnlisisDiscriminante
Eldirectordelaentidadfinancieratienedosnuevassolicitudesdeunprstamoinstantneo.El
primersolicitantedisponedeunpatrimonionetode10,1,conunasdeudaspendientesde6,8.Para
elsegundosolicitantelosvaloresdeestasvariablesson9,7y2,2respectivamente.Qudecisin
debetomar?
(Nota.Lasunidadesmonetariasseexpresanen100.000euros)

ParahacerunAnlisisDiscriminante,seseleccionasucesivamentedelmenprincipal:
AnalizarClasificarDiscriminante

Enprimerlugar,hayqueelegirculeslaVariabledeAgrupacin,esdecir,quvariablejuegael
papeldevariablecategricadependientecuyascategorasdefinenlosposiblesgruposde
pertenenciadelosindividuos.Enestecaso,lavariableesPrstamo.Adems,enelbotnconel
nombreDefinirRango,esnecesarioespecificarculessonlosvaloresMnimoyMximodeesta
variable.Seintroducenlosvalorescorrespondientes:Mnimo:1yMximo:2.

Lasotrasdosvariables,X1='Patrimonio_Neto'yX2='Deuda_Pendiente',seeligencomovariables
independientes,cuyosvaloresseutilizanparaconstruirlafuncindiscriminante.Estasvariables
puedenintroducirseenelmodelosimultneamenteoporetapas

SPSSofreceenlosdistintosbotonesactivadosdelcuadrodedilogo:'Seleccionar','Estadsticos',
'Clasificar','Guardar'.Elbotn'Mtodo'sloseactivasipreviamentesehaelegidoIntroducirlas
variablesconunMtodoporpasos.

Seleccionar:Permitereducirelanlisisaunsubgrupodelamuestratotal,subgrupoquevendr
definidoporunavariabledeseleccin.Estenoeselcaso,noseeligeestaopcin.

ESTADSTICOSUTILIZADOS:

FdeSnedecor:Secomparaparacadavariablelasdesviacionesdelasmediasdecadaunodelos
gruposalamediatotal,entrelasdesviacionesalamediadentrodecadagrupo.

SiFesgrandeparacadavariable,entonceslasmediasdecadagrupoestnmuyseparadasy
lavariablediscriminabien.

SiFespequeaparacadavariable,lavariablediscriminapoco,yaquehabrpoca
homogeneidadenlosgruposystosestarnmuyprximos.

SantiagodelaFuenteFernndez 21
AnlisisDiscriminante
deWilks:Seconsideranlasvariablesdemodoindividual,laeselcocienteentrelasumade
cuadradosdentrodelosgruposylasumadecuadradostotal(sindistinguirgrupos).Esto
equivalealasdesviacionesalamediadentrodecadagrupo,entrelasdesviacionesalamedia
totalsindistinguirgrupos.

Siespequeolavariablediscriminamucho:lavariabilidadtotalsedebealasdiferencias
entregrupos,noalasdiferenciasdentrodegrupos.

VARIABLESORIGINALESQUESECONSIDERAN:Laideadelanlisisdiscriminanteesconstruir
funcioneslinealesdelasvariablesoriginalesquediscriminenentrelosdistintosgrupos.Sinembargo,
notodaslasvariablesdiscriminandelamismaformaotienenlosmismosvaloresdelaFde
SnedecorodeladeWilks.Porello,alahoradeconstruirlasfuncioneslineales,noesnecesario
incluiratodaslasvariablesinicialesenlafuncin.

ComocriteriogeneralparaseleccionarunavariableseemplealaseleccindelvalordeladeWilks
o,demodoequivalente,delvalordesuFasociada.

Seutilizanfundamentalmentedosmtodosdeseleccindevariables:elmtododirecto(Introducir
independientesjuntas)yelmtodostepwise(Usarmtododeseleccinporpasos).Enelmtodo
directoseconsiderantodaslasvariablesoriginalesqueverifiquenuncriteriodeseleccin.

Elmtodostepwisefuncionaconvariospasos:

(a) Seincluyeenelanlisislavariablequetengaelmayorvalorrealaceptableparaelcriteriode
seleccinodeentrada.

(b) Seevalaelcriteriodeseleccinparalasvariablesnoseleccionadas.Lavariablequepresentael
valormsaltoparaelcriterioseselecciona(siemprequeseencuentredentrodeunlmite).

(c) Seexaminanlasvariablesseleccionadassegnuncriteriodesalidayseexaminantambinlas
variablesnoseleccionadas,paraversicumplenelcriteriodeentrada.Seexcluyenoseincluyen
variablessegncumplanloscriteriosdeentradaysalida.

(d) Serepiteelprocesohastaqueningunavariablemspuedaserseleccionadaoeliminada.

Ademsdetodoloexpuesto,enelSPSSseconsideraunnmeromximodepasos,dadoqueuna
variablepuedeserincluidayeliminadaenmsdeunaocasin.Setomaeldobledelnmerode
variablesoriginalescomonmeromximodepasosdelmtodostepwise.

EnSPSSseconsideratambinparacadavariablelatoleranciaasociada:Sedefineparaunconjunto
depvariables, Ri coeficientedecorrelacinmltiple,queexpresaelporcentajedevariabilidadde
lavariable (x i i = 1,L ,p) recogidaporelrestode (p 1) variables. R2i coeficientededeterminacin.
Latoleranciasedefinecomo (1 R2i ) .Cuantomayorsealatoleranciadeunavariable,ms
informacinindependientedelrestodevariablesrecoger.

Deestemodo,sienunaiteracindadadelprocedimientostepwiselavariableseleccionadaverifica
quesutoleranciaconrespectoalasvariablesyaincluidasenlafuncindiscriminanteesmuy
pequeaentonceslavariablenoseincluyeendichaetapa.As,seevitalaredundanciade
informacin.

SantiagodelaFuenteFernndez 22
AnlisisDiscriminante

Laopcin[Estadsticos]seencuentradivididaentres
grandesreas:Descriptivos,Coeficientesdelafunciny
Matrices.

DESCRIPTIVOS:

Medias:Proporcionaelvectordemedias(loscentroides)ydesviacionestpicasdecadavariable
paracadagrupo.

UnivarianteANOVA:Contrastaigualdaddemediasentrelosgruposparacadavariable.

MdeBox:Contrastalahiptesisnuladequelasmatricesdevarianzascovarianzaspoblacionales
sonigualesenlosdistintosgrupos.

COEFICIENTESDELAFUNCIN:

DeFisher:CoeficientesdelafuncindeclasificacinbajoNormalidad

Notipificados:CoeficientesdelafuncindiscriminantecannicadeFisher'centrados'

MATRICES:

Covarianzadegruposseparados:Proporcionalamatrizdevarianzasycovarianzasdecadagrupo,es
decir,lasmatricesS1yS2,donde:


(X(i1k) X1(k) )2 (X X1(k ) )(X(i2k) X2(k ) )
nk nk

(k )
i1
Sk = nk i=1 i=1 k = 1,2
(X(k ) X (k) )(X(k) X (k) ) (Xi2 X2 )
nk

(k ) (k ) 2
i1 1 i2 2
i=1 i=1

Covarianzaintragrupos:Proporcionalamatrizdevarianzasycovarianzas'combinada',obtenida
comomediaponderadadelasdosanteriores,esdecir:

(n1 1) S1 + (n2 1) S2
S =
n1 + n2 2

CovarianzaTotal:Proporcionalamatrizdevarianzasycovarianzasde(X1,X2)paratodoslos
n1+n2=16individuosdelapoblacin,sindistincindegrupo.

COMPROBACINSUPUESTOSPARAMTRICOS:Lafuncindiscriminanteminimizalaprobabilidadde
equivocarsealclasificaralosindividuosencadagrupo.Paraello,lasvariablesoriginalessedeben
distribuircomounanormalmultivarianteylasmatricesdecovarianzasdebendeserigualesentodos
losgrupos.Enlaprcticaesunatcnicarobustayfuncionabienaunquelasdosrestricciones
anterioresnoseverifiquen.

SantiagodelaFuenteFernndez 23
AnlisisDiscriminante
Siunconjuntodevariablessedistribuyecomounanormalmultivariante,entoncescualquier
combinacinlinealdeellassedistribuyecomounanormalmultivariante.Porello,sialgunade
lasvariablesoriginalesnosedistribuyecomounanormal,entoncesesseguroquetodaslas
variablesconjuntamentenosedistribuirncomounanormalmultivariante.

Lasegundarestriccinseocupadelaigualdadentrelasmatricesdecovarianzasdelosgrupos.
Paracomprobaresto,sepuedeutilizarlaPruebaMdeBox,quetienecomohiptesisnulaque
lasmatricesdecovarianzassoniguales.Sebasaenelclculodelosdeterminantesdelas
matricesdecovarianzasdecadagrupo.ElvalorobtenidoseaproximaporunaFdeSnedecor.Si
elp_valor<0,05serechazalaigualdadentrelasmatricesdecovarianzas.

EltestdeMdeBoxessensiblealafaltadenormalidadmultivariante,esdecir,matricesiguales
puedenaparecercomosignificativamentediferentessinoexistenormalidad.Porotraparte,si
lasmuestrassongrandes,pierdeefectividad(esmsfcilrechazarlahiptesisnula).

Enestecaso,sedejanlasopcionesquevienen
pordefectoenSPSS.

LambdadeWilks:Estadsticoquemideelpoderdiscriminantedeunconjuntodevariables

V V 1
= = = min(q1, p) (01)
T V +F
(1 + I) i=1

Cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.

Estadsticosasociados:FdeRao;2deBarlett(testssobrelasdiferenciasdemediasenambos
grupos)

i
Laisimacorrelacincannicavienedadapor: CRi =
1 + i

Mide,entrminosrelativos,elpoderdiscriminantedelaisimafuncindiscriminante,yaque
eselporcentajedelavariacintotalendichafuncinqueesexplicadaporladiferenciaentre
losgrupos, 0 CRi 1 ,cuantomscercade1estsuvalor,mayoreslapotenciadiscriminante
delaisimafuncindiscriminante.

SantiagodelaFuenteFernndez 24
AnlisisDiscriminante

Unaopcininteresanteenlaopcin
[Clasificacin]eslade'Reemplazarlos
valoresperdidosconlamedia'.Enmsde
unainvestigacin,poralgnmotivoenla
basededatoshayvaloresperdidos,ypara
queestosnoafectenlosresultadosfinales,
existestaopcindereemplazo,quese
recomiendautilizar.

PROBABILIDADESPREVIAS:

Sonlasprobabilidadesaprioriparacadagrupo.Enestecasoseranp1=p(perteneceralgrupo1),
p2=p(perteneceralgrupo2).Estosvaloresseutilizan,porejemplo,enlaregladeclasificacindela
mximaverosimilitudbajoelsupuestodenormalidad.

Todoslosgruposiguales:p1=p(perteneceralgrupo1)=p2=p(perteneceralgrupo2)=

USARMATRIZDECOVARIANZA:

Intragrupos:Deestamaneraseespecificaquecuandoseobtenganlosautovectoresdelamatriz
(V 1 F) ,quesonprecisamenteloscoeficientesdelasdistintasfuncionesdiscriminantes,seutilicela
restriccinaSa=1,utilizandolamatrizdevarianzasentregrupos'combinada'S.

MOSTRAR:

Resultadosparacadacaso:Muestraelprocesodeclasificacinpasoapasoparacadaunodelos16
individuosdelapoblacin,conlasprobabilidadesaposterioriparacadaunodeellos,calculadasa
partirdelaspuntuacionesdiscriminantes.

Tabladeresumen:Proporcionalamatrizdeconfusin,esdecirlamatrizdeclasificacinparalos
propios16individuosdelamuestraparalosqueconocemosdeantemanosuadscripcin.

Clasificacindejandounofuera:Proporcionalamatrizdeclasificacinperoobtenidaconelmtodo
Jacknife,queobtiene,engeneralunaestimacindelaproporcindeclasificacioneserrneasms
fiable.

GRFICOS:

Gruposcombinados:Representalaspuntuacionesdiscriminantesovaloresdela(s)funcion(es)
discriminante(s),paralos16individuosdelamuestra(8decadagrupo)todosjuntosenungrfico,
juntoconsuscentroides.
Comoslohayunafuncindiscriminanteestegrficonosehace(siseselecciona,luegonoaparece).

Gruposseparados:Representaungrficocomoelanteriorperoparacadagrupo.
Enestecaso,representaraenelprimergrficonicamentelos8individuosdelgrupo1yenel
segundoslolos8delgrupo2.

Mapaterritorial:Conunanicafuncindiscriminantenolohace.

SantiagodelaFuenteFernndez 25
AnlisisDiscriminante

Sisedeseaqueelanlisissea'Guardado'se
procedeadarunclicenelbotndelaopcin
[Anlisisdiscriminante].

ElVisorderesultadosdeSPSSmuestra:

Semuestranlosestadsticosdescriptivos:mediaydesviacintpicatotalde(X1,X2)sobrelos
n=n1+n2=16individuosyparalosdosgrupos:Mediaydesviacintpicade(X1,X2)paralosn1=8
clientesdelgrupo1,ymediaydesviacintpicade(X1,X2)paralosn2=8clientesdelgrupo2.

Seobservaqueelpuntodecortediscriminantedelosdosgruposparalavariable
X1='Patrimonio_Neto'seencuentraenelvalor7:

X1 , I + X1, II 5+9
X1, I = 5 X1, II = 9 C1 = = =7
2 2
Elpuntodecortesetomacomoreferenciaparaclasificaraunindividuoenunouotrogrupo(fallido,
cumplidores):SielPatrimonio_Netoesmenorque7seclasificaalclientecomofallido(grupo1),
mientrasqueseclasificacomocumplidor(grupo2)sielPatrimonio_Netoesmayorqueesacifra.

Porotraparte,elpuntodecortediscriminantedelosdosgruposparalavariableX2=
'Deuda_Pendiente'delosdosgruposser:

X2 , I + X2 , II 5+3
X2 , I = 5 X2 , II = 3 C1 = = =4
2 2
Silasdeudaspendientessonmayoresque4seclasificaalclientecomofallido(grupo1),mientras
queseclasificacomocumplidor(grupo2)silasdeudaspendientessonmenoresqueesacifra.

Loscontrastesdeigualdaddemedias
entrelosdosgruposparacadavariable
(enamboscasosserechazalahiptesis
nula,p_valor<0,05,esdecir,losdos
grupos,enmediasondiferentes).

SantiagodelaFuenteFernndez 26
AnlisisDiscriminante
LainformacindeestatabladeANOVAsunivariadossueleutilizarsecomopruebapreliminarpara
detectarsilosgruposdifierenenlasvariablesdeclasificacinseleccionadas;sinembargo,hayque
considerarqueunavariablenosignificativaanivelunivariantepodraaportarinformacin
discriminativaanivelmultivariante.

Lasalidadelamatrizdecovarianzasproporciona:

4 ,289 1,824 5,240 0,177 8,713 1,199


S1 = , S2 = , S total =
1,824 3,474 0,177 3,043 1,199 4 ,108

Porotraparte,lamediaponderadade S1 y S2 debedecoincidirconlamatriz'intragrupos
combinada',denominadaS.Esdecir,debeverificarseque:

4 ,764 1,001 (n1 1) S1 + (n2 1) S2 7 4 ,289 1,824 7 5,240 0,177


S = = = 1,824 3,474 + 14 0,177 3,043
1,001 3,259 n1 + n2 2 14

AparecedespuslaPruebadeBoxparaelcontrastedelahiptesisnuladeigualdaddelasmatrices
devarianzascovarianzaspoblacionales.Unodelossupuestosdelanlisisdiscriminanteesquetodos
losgruposprocedendelamismapoblaciny,msconcretamente,quelasmatricesdevarianzas
covarianzaspoblacionalescorrespondientesacadagruposonigualesentres.

g
ElestadsticoMdeBoxtomalaforma: M = (n g) log S (nj 1) log S j
j=1

DondeSeslamatrizdevarianzascovarianzascombinada, S j eslamatrizdevarianzascovarianzas
delgrupojsimo,neselnmerototaldecasosygelnmerodegrupos.ElestadsticoMcarecede
distribucinmuestralconocida,peropuedetransformarseenunestadsticoFeinterpretarsecomo
tal(muchosinvestigadorescriticanesteestadsticoporserdemasiadosensibleapequeas
desviacionesdelanormalidadmultivarianteyatamaosmuestralesgrandes,tendiendoaser
conservador).

SantiagodelaFuenteFernndez 27
AnlisisDiscriminante
Seobservaquelaprimeratablaofreceloslogaritmosdelosdeterminantesdetodaslasmatrices
utilizadasenelclculodelestadsticoM.Dadoqueelestadsticoesmultivariante,latablapermite
comprobarqugrupos(cuandohaymsdedos)difierenms.

Latabla(Resultadosdelaprueba)ofrecelapruebaMdeBoxysutransformacinenunestadsticoF.
Elresultadodelapruebahacequenoserechacelaigualdaddematricesdevarianzascovarianzas
(Sig=0,849>0,05),concluyendoquelosdosgrupostienenlamismamatrizdevarianzascovarianzas
(nohayungrupomsvariablequeotro).

Acontinuacinaparecenlosresultadosdelanlisisdiscriminante(estadsticosporpasos):

Lasvariablessonintroducidas/eliminadasdelmodeloenlamedidaenquetenganasociadoun
menorvalordelestadsticodeWilks.

Comohayg=2gruposyp=2variables,slohayq=min(k,g1)=1funcindiscriminante,o
equivalentemente,lamatriz (V 1 F) tienerangoq=min(k,g1)=1yslohayunautovalordistintode
cero,1=1,716,queeselqueapareceenlatabla.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.Sisuvaloresgrande,la
funcindiscriminarmucho.

SantiagodelaFuenteFernndez 28
AnlisisDiscriminante

1 1,716
Adems,sereflejaelcoeficienteetaocorrelacincannica: = = = 0,795
1 + 1 1 + 1,716

Lascorrelacionescannicas,midenlasdesviacionesdelaspuntuacionesdiscriminantesentregrupos
respectoalasdesviacionestotalessindistinguirgrupos.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yenconsecuencia,lafuncindiscriminar
mucho.

1 1
ElestadsticodelcontrastedesignificacinglobalLambdadeWilks: = = = 0,368
1 + 1 1 + 1,716

queconducearechazarlahiptesisnuladeigualdaddemedias[pvalor=0,02<0,05],loqueindica
laconvenienciadeextraeruna(lanicaposible)funcindiscriminante,oloqueeslomismo,que
dichafuncinseasignificativa.

Interpretacindelasfuncionesdiscriminantes:alavistadelosvaloresde(X1,y),y(X2,y),parece
quelavariablequemscontribuyealadiscriminacinesX1='Patrimonio_Neto'

COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados,estoscoeficientesaparecencuandosetipificanoestandarizancadaunadelas
variablesclasificadorasparaquetenganmedia0ydesviacintpica1.Deestaformaseevitanlos
problemasdeescalaquepudieranexistirentrelasvariablesy,consecuentemente,lamagnitudde
loscoeficientesestandarizadossonunindicadordelaimportanciaquetienecadavariableenel
clculodelafuncindiscriminante.Enestalnea,seobservaquelavariablePatrimonio_Neto(X1)
tieneunainfluenciaqueescasiun50%superioralaejercidaporlavariableDeuda_Pendiente(X2).

MATRIZDEESTRUCTURA:Esconvenienteconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(fallidos,cumplidores).Una
formademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecadauna
delasvariablesylafuncindiscriminante.Estaesprecisamentelainformacinquesedaenlatabla
(Matrizdeestructura),enestecaso,lacorrelacindelafuncindiscriminanteconlavariable
Patrimonio_Neto(0,748)esmayorenvalorabsolutoqueconlavariableDeuda_Pendiente(0,452).
Lascomparacionesdebenhacersesiempreenvalorabsoluto.EnelprogramaSPSSlasvariables
aparecenordenadasdeacuerdoconelvalorabsolutodeloscoeficientesdecorrelacin.

LosCoeficientesdelasfuncionesdiscriminantescannicasdeFisherson:
SantiagodelaFuenteFernndez 29
AnlisisDiscriminante

Enlatablaapareceinformacindeloscoeficientesdelafuncindiscriminantecannicano
estandarizados.Loscoeficientesdeestafuncinsonestrictamenteproporcionalesaloscoeficientes
delafuncindiscriminantedeFisher (D C) .Enestecaso,elfactordeproporcionalidades0,408;
estoes,cadacoeficienteesiguala0,408multiplicadoporelcoeficientedelafuncindiscriminante
deFisher.Estoscoeficientesnoestandarizadosseobtienenutilizandolaregladenormalizacinde
w' V w = 1 ,aspues,setomacomonormaeldenominadordelavariacindentrodelosgrupos:

w' F w var iacin entre grupos


Loscoeficienteswseobtienen: Mx = =
w' V w var iacin dentro grupos

Centroidesdecadagrupo(mediadelafuncindiscriminanteencadagrupo):

Conlosresultadosobtenidos,elpuntodecorte
discriminanteserelpuntomediodelasfuncionesenlos
D + D 1,225 + 1,225
centroidesdelosgrupos: C = 1 2 = =0
2 2

Estadsticosdeclasificacin:

Probabilidadesaprioridepertenenciaalos
grupos(sesuponep1=p2=1/2)

Coeficientesdelafuncindeclasificacin:Aqusemuestranloscoeficientesdelasfuncionesde
clasificacinqueseobtendranbajoelsupuestodeNormalidadbivariantepara(X1,X2)enambas
poblaciones,utilizandoelcriteriodelamximaverosimilitudyprobabilidades(p1=p2=1/2)apriori
iguales.

Lasfuncionesdeclasificacinson:

FI = 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876




F = 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente 9,396
II

SantiagodelaFuenteFernndez 30
AnlisisDiscriminante
1 ' 1
Paraelgrupo1,lafuncindeclasificacinesdelaforma: dI (x) = x1' S 1 x x1 S x1 + ln(p1 )
2

Loscentrosdegravedadocentroidesdelos Matrizintragrupo
dosgrupossern: combinada:

X1, I 5 X1, II 9 4 ,764 1,001


xI = = xII = = S=
X2 , I 5 X2 , II 3 1,001 3,259

1 1
4 ,764 1,001 X 1 1 4 ,764 1,001 5
dI (x) = [5 5] X 2 [5 5] 1,001 3,259 5 + ln(0,5) =
1,001 3,259 2

X
1 444 X2
644 47 8 644 47 444 8
= 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente 5,876

1 ' 1
Paraelgrupo2,lafuncindeclasificacinesdelaforma: dII (x) = x2' S 1 x x2 S x2 + ln (p2 )
2

1 1
4 ,764 1,001 X1 1 4 ,764 1,001 9
dII (x) = [9 3] X 2 [9 3] 1,001 3,259 3 + ln(0,5) =
1,001 3,259 2

X
1 444 X2
644 47 8 644 47 444 8
= 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente 9,396

Cadasujetoserasignadoalgrupoenelqueobtengaunmayorvalordeestasfunciones.

LafuncindiscriminantedeFisher [D C = FII FI ]:

D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520

ElprogramaSPSSnoofrecelafuncindiscriminantedeFisher.

SantiagodelaFuenteFernndez 31
AnlisisDiscriminante
Estadsticosporcasos:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,las
distanciasdeMahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesa
posterioriobtenidasapartirdeesasdistancias.

Enestecasosolosehaencontradouncasomalclasificadosegnlafuncinlinealdiscriminante,se
tratadelgrupo2(caso13enlatabladeestadsticosdeclasificacin)quehasidoincluido
errneamentedentrodelgrupo1.

Comopuedeverselos
doscentrosdegravedad
equidistandelarecta
delimitadora.

Eldirectordelaentidadfinancieraclasificaalasdossolicitudesdeprstamos.Paraello,basta
sustituir,enlafuncindiscriminantedeFisher,losvaloresdePatrimonio_Netoy
Deuda_Pendiente:
D C = 1,035.Patrimonio _ Neto 0,932.Deuda _ Pendiente 3,520

Primersolicitante: D C = 1,035.(10,1) 0,932.(6,8) 3,520 = 0,5959


Segundosolicitante: D C = 1,035.(9,7) 0,932. (2,2) 3,520 = 4 ,469

Comolapuntuacinespositivaenamboscasos,seclasificanalosdossolicitantesenelgrupodelos
cumplidores,sibienhayquehacernotarqueelsegundosolicitantetieneunapuntuacin
discriminantemuchomselevada.
SantiagodelaFuenteFernndez 32
AnlisisDiscriminante
CRITERIOSALTERNATIVOSDECLASIFICACIN:Existenotrosmuchoscriteriosdeclasificacin.
Entreellos,destacarelanlisisderegresinylaaplicacindeladistanciadeMahalanobis.A
continuacinseindicansusrasgosbsicos,ascomosurelacinconelanlisisdiscriminantede
Fisher.

ANLISISDEREGRESIN:Larelacinentreelanlisisdiscriminanteyelanlisisderegresines
muyestrecha.Siserealizaunaajustepormnimoscuadrados,tomandocomovariable
dependientelavariabledicotmicaquedefinelapertenenciaaunouotrogrupoycomo
variablesexplicativasalasvariablesclasificadoras,seobtienenunoscoeficientesquetienenuna
estrictaproporcionalidadconloscoeficientesdelafuncindiscriminantedeFisher,

Apartirdelcoeficientededeterminacin,quesecalculaenelanlisisderegresin,sepuede
pasarconfacilidadaladistanciadeMahalanobisentrelosdoscentroidesdelosdosgrupos.

DISTANCIADEMAHALANOBIS(1936):Esunageneralizacindeladistanciaeucldea,quetiene
encuentalamatrizdecovarianzasintragrupos.ElcuadradodeladistanciadeMahalanobis
(DM2ij ) entrelosgruposiyjenunespaciodepdimensiones,siendo (Vw ) lamatrizdecovarianzas
intragrupos,vienedefinidadeforma: DM2ij = (x i x j )' Vw1 (x i x j )

dondelosvectores x i y x j representandospuntosenelespaciopdimensional.Enla
terminologausualparadesignarestadistanciaseprescindedelaM(introducidaparaevitar
confusionesconlaspuntuacionesdiscriminantesalasquesehadesignadoporD).

Elcuadradodeladistanciaeucldea d2ij entrelospuntos (i, j) vienedadoporlaexpresin:


p
d2ij = (xi x j ) (x i x j ) = (Xih X jh ) 2
h=1

LadistanciaeucldeaeselcasoparticulardeladistanciadeMahalanobisenlaque (Vw = I) .Es


decir,ladistanciaeucldeanotieneencuentaladispersindelasvariablesylasrelaciones
existentesentreellas,mientrasqueenladistanciadeMahalanobissquesedescuentanestos
factoresalintroducirenlaexpresin DM2ij = (x i x j )' Vw1 (x i x j ) lainversadelamatrizde
covarianzasintragrupos.

ConelcriteriodeMahalanobis,aplicando DM2ij = (x i x j )' Vw1 (x i x j ) ,secalculaladistanciaentre


cadapuntoylosdoscentroides.
DMi2, I = (x i xI )' Vw1 (x i xI )

As,paraelpuntoisimoseobtienenestasdosdistancias:
DM2 = (x x )' V 1 (x x )
i , II i II w i II

Laaplicacindeestecriterioconsisteenasignarcadaindividuoalgrupoparaelqueladistancia
deMahalanobisesmenor.

LadistanciadeMahalanobisclasificaalosindividuosexactamenteigualquelohacelafuncin
discriminantedeFisher.Ladiferenciaentreunoyotrotipodeprocedimientoesque,mientrasla
distanciadeMahalanobissecalculaenelespaciodelasvariablesoriginales,enelcriteriode
Fishersesintetizantodaslasvariablesenlafuncindiscriminante,queeslautilizadapara
realizarlaclasificacin.

SantiagodelaFuenteFernndez 33
AnlisisDiscriminante
Enelfichero(prestamoriesgo.sav)sehanguardadolascolumnas:Dis_1(Grupopronosticado
paraelanlisis1),Dis1_1(Puntuacindiscriminantedelafuncin1paraelanlisis1),Dis1_2
(Probabilidadesdepertenenciaalgrupo1paraelanlisis1)yDis2_2(Probabilidadesde
pertenenciaalgrupo2paraelanlisis1)

SantiagodelaFuenteFernndez 34
AnlisisDiscriminante
CONCESINPRSTAMOSRIESGO

Unbancorealizaunestudioconelobjetivodeidentificarconlamayorprecisinposibleaquellas
solicitudesdeprstamosqueprobablementepuedanllegaraconvertirseenmorososofallidosenel
casoqueseconcedieran.Paraello,disponedelainformacinreflejadaenlatablaadjunta,relativaa
25clientesyalasvariablesqueseanalizan:

) Cumplimiento:Gradodecumplimientodelclienteenelreintegrodelprstamo.Tomaelvalor1
sielclienteescumplidor,2siesmorosoy3siesfallido.
) Ingresos:Ingresosanualesdelcliente,enmilesdeeuros.
) PatrimonioNeto:Patrimonionetodelclienteenmilesdeeuros.
) Vivienda:Variabledicotmicaquetomaelvalor1sielclienteespropietario;0encasocontrario.
) Casado:Variabledicotmicaquetomaelvalor1siestcasado;0enotrocaso.
) ContratoTrabajo:Variabledicotmicaquetomaelvalor1sielclienteesasalariadoconcontrato
fijo;0enotrocaso.

Cliente Cumplimiento Ingresos Patrimonioneto Vivienda Casado Contratotrabajo


1 1 32,7 336 1 1 0
2 1 18,6 204 1 0 1
3 1 24,6 138 0 1 1
4 1 37,2 270 1 0 1
5 1 23,7 114 1 1 1
6 1 7,5 132 1 1 1
7 1 29,4 90 0 1 1
8 1 53,4 228 1 1 1
9 1 20,1 324 0 1 1
10 1 31,2 480 1 1 0
11 1 17,1 108 1 1 1
12 1 39 132 1 1 1
13 1 45,6 216 1 1 1
14 2 26,1 234 1 1 0
15 2 8,1 48 0 1 1
16 2 12,6 114 0 0 1
17 2 8,7 150 1 0 1
18 2 38,4 24 0 1 1
19 2 22,8 114 1 1 0
20 2 14,7 60 0 1 1
21 3 19,8 42 0 1 0
22 3 5,1 72 0 1 0
23 3 7,2 30 1 1 1
24 3 11,1 36 1 0 0
25 3 15,9 150 0 0 0

SetratadeunAnlisisdiscriminantemltiple,yaqueelbancohaclasificadoalosclientesentres
grandesgrupos,habrqueconstruirfuncionesdiscriminantesquepermitanclasificar,conlos
menoreserroresposibles,alosclientesenlosdiferentesgrupos.Siseobtienenbuenosresultados,
estasfuncionesdiscriminantessepodrnutilizarparaanalizarsiseconcedeunprstamoonoaun
futuroclientepeticionario.

SantiagodelaFuenteFernndez 35
AnlisisDiscriminante

SeseleccionaCumplimientocomovariablede
agrupacin(cuyorangoes1y3)ylasotrascinco
variablescomoindependientes.

Elmtododeinclusinporpasos.

SantiagodelaFuenteFernndez 36
AnlisisDiscriminante

ElVisorderesultadosdeSPSSmuestra:

Lasmediasdelascinco
variablesintroducidascomo
independientesenelanlisis
sonmayoresenlacategorade
cumplidoresqueenlasotras
categoras.
As,losclientescumplidores,en
relacinconlosotrosdos
grupos(morosos,fallidos),
tienenmayoresingresos,un
mayorpatrimonio,son
propietariosdelaviviendaque
habitanestncasadosyson
asalariadosconcontratofijo.

LasANOVAsindicanquenoseobservan
diferenciassignificativasentreloscumplidores,
morososyfallidos,encuantoalhechodeser
propietarioonodelavivienda(Vivienda)yel
estarcasadoono(Casado).

Enconsecuencia,lasvariables(Vivienda)y(Casado)nodeberantenerunagraninfluenciaalahora
declasificaralosclientesenunouotrogrupo.Obsrvesequeenamboscasos,p_valor>0,05,se
aceptalahiptesisnula,esdecir,losgruposenmediasoniguales.

EnlasiguientetablaseobservaelcontrastedelaPruebadeBoxparadeterminarsiesaceptableono
lahiptesisdehomocedasticidad.Primeroapareceellogaritmodeldeterminantedelasmatricesde
V
covarianzasdelosresiduosdecadacelda,calculadassegnlaexpresin Sg = g (lamatrizSges
ng 1
unaestimacindelamatrizdecovarianzascorrespondientealaceldagsimag),ylamatrizde

SantiagodelaFuenteFernndez 37
AnlisisDiscriminante
G G

V (n
g =1
g
g =1
g 1) Sg
covarianzasglobal,calculadasegnlaexpresin S = = (donde S esunaestimacin
nG nG
delamatrizdecovarianzasglobal),ascomoelrangodecadaunadeestasmatrices.

Lasmatricessondeorden5x5,yaqueexistencincovariablesclasificadoras.

Silasmatricessonnosingulares(tieneninversa)surangodebedeser5.Seobserva,enestecaso,
quelamatrizcorrespondientealgrupo3(clientefallido)nosecalculaporqueexistenmuypocos
casosparasernosingular,enefectosepuedeobservarqueelnmerodeindividuosquepertenecen
algrupo3(clientesfallidos)esjustamente5yconestetamaolamatrizdecovarianzasdelos
residuosesnecesariamentesingular.

Debidoaquelamatrizdelgrupo3(fallidos)essingular,SPSScontrastalaigualdaddelasmatricesde
covarianzaspoblacionalesenlosgrupos1y2,respectivamente,clientecumplidoresymorosos,
estimandolamatrizdecovarianzasglobalconlosdatosdeestosdosgrupos.Elniveldesignificacin
crticoqueseobtieneenestecontrastees0,048,conloqueseaceptalahiptesisnulaparaunnivel
designificacindel1%(0,048>0,01),peronoparaunniveldel5%(0,048<0,05,rechazndosela
hiptesisnula).

EnlatabladeLambdadeWilksseaplicaelcontrastedesignificacinparaelconjuntodelosdosejes
discriminantes.ElcontrasteVdeBarlettqueseaplicaes:

K + G G1
Vj = n 1
2
ln(1 + )
g= j+1
g donde j = 0, 1

K + G

V0 = n 1 [ln(1 + 1 ) + ln(1 + 2 )] = 25 1 2 + 3 [ln(1 + 2,264) + ln(1 + 0,043)] = 26,343
2 2

Losgradosdelibertaddelachicuadradoson K (G 1) = 2 (3 1) = 4 yelniveldesignificacincrticoes
0,000<0,05rechazando,portanto,lahiptesisnula,loquesignificaquealmenosunodelosejes
discriminantesessignificativo,esdecir,elprimerejediscriminanteessignificativo(eselquetiene
SantiagodelaFuenteFernndez 38
AnlisisDiscriminante
mayorpoderdiscriminante).Advirtasequesinoserechazalahiptesisnulanodeberacontinuarel
anlisis.

ObsrvesequesecumplelarelacinentrelalandadeWilksylasracescaractersticas(autovalores):

1 1
= = = 0,294
(1 + 1 ) (1 + 2 ) (1 + 2,264) (1 + 0,043)

Unavezdeterminadalasignificatividaddelprimerejediscriminante,secontrastalasignificatividad
delosrestantes,enestecaso,delsegundoejediscriminante.Elcontrasteaaplicareselsiguiente:

K + G

V1 = n 1 [ln(1 + 2 )] = 25 1 2 + 3 [ln(1 + 0,043)] = 0,909
2 2

Losgradosdelibertaddelachicuadradoson (K 1)(G 1 1) = (2 1)(3 1 1) = 1 (enelanlisisno


entran3variablesclasificadoras)yelniveldesignificacincrticoes0,340>0,05,aceptandola
hiptesisnula,loquesignificaqueelsegundoejediscriminantenoessignificativamentedistintode
0paracualquieradelosnivelesdesignificacinusuales.

LarelacinentrelalandadeWilks(obtenidadespusdeexcluirlaprimerafuncindiscriminante)y
lasegundarazcaracterstica(segundoautovalor)eslasiguiente:

1 1
1 = = = 0,959
(1 + 2 ) (1 + 0,043)

Comoinformacincomplementaria,secalculalacorrelacincannicadecadafuncindiscriminante
conlavariablecategricaquedefinelosgrupos,obtenindose:

1 2,264 1 0,043
1 = = = 0,833 2 = = = 0,203
1 + 1 1 + 2,264 1 + 1 1 + 0,043

Losresultadosobtenidosconfirmanquelacapacidadexplicativadelasegundafuncindiscriminante
esmuyinferioralaprimera.Unaconfirmacinfinaldeestaconclusinesqueelporcentajede
varianzaexplicadaconlaprimerafuncindiscriminanteesdel98,1%,mientrasquelavarianza
explicadaconlasegundafuncindiscriminanteesdel1,9%.Conloqueaefectosprcticossepodra
prescindirdelasegundafuncindiscriminante,sinqueafectasedeformaimportantealos
resultadosdelaclasificacin.

SantiagodelaFuenteFernndez 39
AnlisisDiscriminante
COEFICIENTESESTANDARIZADOS:Aparecenloscoeficientesdelafuncindiscriminantecannica
estandarizados(media0ydesviacintpica1),deestaformaseevitanlosproblemasdeescalaque
pudieranexistirentrelasvariablesy,enconsecuencia,lamagnituddeloscoeficientes
estandarizadossonunindicadordelaimportanciaquetieneestavariableenelclculodelafuncin
discriminante.

MATRIZDEESTRUCTURA:Convieneconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(cumplidor,moroso,fallido).
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Conunasteriscoseindicaelcoeficientemsgrande
(envalorabsoluto)quetienecadavariable.
As,lavariableCasadotienensumayorcoeficienteconlafuncindiscriminante1,mientrasquelas
variablesContrato_TrabajoeIngresoslotienenconlafuncindiscriminante2.

Aparecenlaspuntuacionesdeloscentroidesdelosgrupos(Patrimonio_Neto,Contrato_Trabajo)con
respectoalasfuncionesdiscriminantes(convienedarsecuentaqueenestecasonohayunpuntode
cortediscriminante,pueselconjuntodedatosseencuentraseparadoentresgrupos).

Ahorafaltacalcularelvalordetresfuncionesdeclasificacin,yseclasificaracadaindividuoen
aqulgrupocuyafuncindiscriminanteresultetomarelmayorvalor.

Deestaforma,lasfuncionesdeclasificacinson:

FI = 0,063.Patrimonio _ Neto + 13,721. Contrato _ Trabajo 13,590 (cliente cumplidor)

FII = 0,039 .Patrimonio _ Neto + 9,604 . Contrato _ Trabajo 6,607 (cliente moroso)
F = 0,018 .Patrimonio _ Neto + 3,662. Contrato _ Trabajo 2,051 (cliente fallido)
III

Parasuaplicacin,secalculalapuntuacindecadaindividuoencadaunodelosgrupos,utilizando
lasfuncionesclasificadoras.Finalmente,unindividuoseclasificaenelgrupoenelquehaalcanzado
lapuntuacinmselevada.

Elmapaterritorialsirveparavercmoquedanlaclasificacinenfuncindelasdosfunciones
linealesdiscriminantes:

SantiagodelaFuenteFernndez 40
AnlisisDiscriminante

Elmapaterritorialdelimita,enelplanodelasdosfuncionesdiscriminantes(noestandarizadas),las
reasqueseasignanacadagrupo.Elreasituadaenlapartederechadelafuncindiscriminante1
eslacorrespondientealgrupo1,mientrasqueelreadelaizquierdacorrespondealgrupo3.Se
clasificanenelgrupo2losindividuosconpuntuacionesdiscriminantescannicassituadasenel
tringulodelapartecentral.
LasalidadeSPSSrecogeelclculodeprobabilidadesaposteriori,puntuacionesdiscriminantesy
resultadosdelaclasificacin.Enestecaso,noaparecelacolumnaetiquetadacon(valoresfaltantes)
dondesereflejacasosoindividuosparalosquenosedisponedeinformacincompleta.Aparecela
columnaGruporealdepertenenciayGrupopronosticado,quecuandoaparececonunasterisco
reflejaqueelindividuoaquecorrespondaseleclasificadeformaerrnea.

Lascolumnassiguientessonrelativasalclculodeprobabilidades.Lasprobabilidadesaposteriori
P(G/D)secalculanparacadagrupoconlafrmula:

g grupo
F
I e g
Prob (g / D) = g = I, II (extendidaatresvariables)
I e + II e i probabilid ad a priori
FI FII

SantiagodelaFuenteFernndez 41
AnlisisDiscriminante

ConestecriterioseclasificaaunindividuoenelgrupoIsi: FI ln I > FII ln II .


LaaplicacindeestecriterioimplicaqueelpuntodecortediscriminanteCpvienedefinidopor:

DI + DII
Puntodecorteconinformacinapriori: Cp = ln II
2 I

EnlasalidadelSPSSseindicalaprobabilidadaposteriorimsaltaconindicacinalgrupoaque
correspondeylasegundaprobabilidadmsaltaconindicacindelgrupo.Juntoalaprobabilidad
msaltaaparecelaprobabilidaddelapuntuacindiscriminanteP(D/G),quenotieneinters
especialenelanlisis.

Lasdosltimascolumnasserefierenalaspuntuacionesdiscriminantes.Cadaunadeellas
correspondeaunafuncindiscriminante.EnSPSSestaspuntuacionessecalculanutilizandolos
coeficientesdelasfuncionesdiscriminantescannicasnoestandarizadas.

Estadsticosporcaso:Paracadacaso,semuestranlaspuntuacionesdiscriminantes,lasdistanciasde
Mahalanobisdedichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesaposteriori
obtenidasapartirdeesasdistancias.

Seobservaquehayseiscasosmalclasificados,comprobndosecomolasprobabilidadesde
pertenenciasonmayoresparalapertenenciaalgrupomayor,ytambinquelaspuntuaciones
discriminantessonlasquesitanacadacasoenelmapaterritorial.

Losresultadosdelainvestigacinsonsatisfactorios,yaquecontieneunporcentajeelevadode
clientesclasificadossatisfactoriamente(76%),sibienpreocupaelcasodeunclientemoroso(cliente
17)quehasidocalificadocomocumplidor.Estetipodeerrordeclasificacintienemucha
importancia,elbancosepreocupasobretodoqueunclientemorosoofallidopuedaserconsiderado
comocumplidor,pueselcostedeunaclasificacinerrneadeestetipoeselevadoparalaentidad.

SantiagodelaFuenteFernndez 42
AnlisisDiscriminante

SantiagodelaFuenteFernndez 43