Articol KBO 2016 Raluca

METODE KERNEL PENTRU CLASIFICAREA DATELOR
Abstract: n ultimele decenii, evoluia exponenial a colectrii datelor n baze de date macroeconomice
n format digital a determinat o cretere uria a acestora ca volum. Ca o consecin, organizarea
automat i clasificarea datelor macroeconomice indicatoriale prezint o importan practic deosebit.
Diversele tehnici de categorizare a datelor sunt folosite pentru a clasifica numeroasele date
macroeconomice n funcie de clasele crora acestea le aparin.
Deoarece construcia manual a unor clasificatori este dificil i consumatoare de timp, se prefer
clasificatori ce nva din exemple de antrenare, proces care alctuiete clasificarea de tip supervizat.
O variant de rezolvare a problemei clasificrii datelor este aceea prin care se utilizeaz metodele de tip
kernel. Aceste metode reprezint o clas de algoritmi folosii n analiza i clasificarea automat a
informaiilor. Majoritatea algoritmilor din aceast categorie se axeaz pe soluionarea unor probleme de
optimizare convex i calculul de valori proprii. Acetia sunt eficieni din punctul de vedere al timpului
de calcul i sunt foarte stabili din punct de vedere statistic.
Shawe-Taylor, J. i Cristianini, N. au demostrat c acest tip de abordare n domeniul clasificrii datelor
este robust i eficient n ceea ce privete detectarea modelelor stabile existente ntr-o mulime finit de
date. n acest sens, se va efectua modular ncorporarea datelor ntr-un spaiu n care se pot determina
anumite relaii liniare.
Introducere
Clasificarea definete o procedur algoritmic care atribuie unui obiect primit drept
valoare de intrare (input), o categorie dintr-un set de categorii date. Un exemplu este
apartenena unei ri la una dintre cele dou clase crora le poate aparine pe baza datelor
indicatoriale macroeconomice ce o caracterizeaz: ar prosper - ar non-prosper
sau determinarea deciziei economice optime pe baza caracteristicilor observate la nivel
indicatorial macroeconomic.
Cel mai cunoscut i cel mai folosit algoritm din aceast categorie este clasificatorul
SVM (support vector machine). SVM-urile sunt clasificatori care au cel mai nalt grad de
dezvoltare avnd rezultate excelente att la nivel teoretic, ct i la nivel empiric.
Un algoritm care implementeaz o problem de clasificare poart denumirea de
clasificator. De asemenea, clasificator este o noiune folosit pentru a denumi o funcie
matematic implementat de un algoritm de clasificare, ce transform/mapeaz datele de
intrare (inputs) ntr-o anumit clas. Mulimea datelor de intrare este alctuit din
instane/obiecte care sunt grupate n categorii/clase. O instan este descris printr-un
vector de caracteristici ale instanei/obiectului. De cele mai multe ori se ntmpl ca datele
ordinale i nominale s fie grupate mpreun; la fel i n cazul valorilor ntregi i reale. Mai
mult, exist algoritmi care funcioneaz cu date nominale i necesit discretizarea valorilor
ntregi sau reale n grupuri. Clasificarea se refer n mod uzual la o procedur supervizat
care este o procedur care clasific noi instane, nvnd dintr-un set de antrenare cu
instane ce au fost corect categorizate.
Procedura corespondent nesupervizat se numete clusterizare (clustering) i
const n gruparea datelor n clase folosind o msur de similaritate, de cele mai multe ori
folosindu-se calculul de distane ntre instane/obiecte, acestea din urm fiind reprezentate
sub form de vectori ntr-un spaiu vectorial multidimensional.
Au fost efectuate diverse teste empirice pentru a compara clasificatorii ntre ei, cu
scopul de a determina un clasificator optim pentru o anumit problem, ns rmne nc n
stadiul n care alegerea i revine utilizatorului, fiind deocamdat o alegere subiectiv.
Clasificarea datelor macroeconomice
Categorizarea/clasificarea datelor macroeconomice reprezint aciunea automat de
a asigna date indicatoriale macroeconomice, unor clase predefinite. Acest mecanism poate
oferi o viziune conceptual asupra coleciilor de date macroeconomice i are importante
aplicaii n lumea real.
Cerina de clasificare a datelor indicatoriale macroeconomice poate fi: 1) clasificare
supervizat n cadrul creia sunt informaii cu privire la clasificarea corect a acestora i la
clasele crora le aparin i 2) clasificare nesupervizat (clusterizare) n cadrul creia
clasificarea se efectueaz doar pe baza similaritilor descoperite.
n ultimul timp, numrul datelor ce caracterizeaz indicatorii macroeconomici a
crescut extrem de mult ca volum i continu s creasc pe msur ce specialitii din
domeniul macroeconomic au nevoie s ia n considerare din ce n ce mai muli factori
reprezentai de indicatorii economici. Astfel c, organizarea automat i clasificarea datelor
care alctuiesc bazele de date indicatoriale macroeconomice prezint o importan practic
major.
Date fiind att costul ridicat al resurselor umane i/sau materiale pe care l implic
organizarea manual a datelor macroeconomice indicatoriale sau determinarea claselor
crora acestea aparin, ct i faptul c anumite clasificri de date macroeconomice sunt
efectiv imposibil de realizat ntr-un anumit interval de timp, se explic interesul crescnd
asupra gsirii unor metode din ce n ce mai eficiente de aplicat n domeniul clasificrii
datelor macroeconomice.
Teoria nvrii automate utilizeaz caracteristicile unui proces inductiv care
construiete un clasificator de date automat prin nvarea dintr-un set de date clasificate
apriori. Avantajele pe care le comport aceast abordare sunt acurateea, reducerea
considerabil a efortului prin prisma faptului c nu este necesar nici o intervenie din
exterior sau din partea specialitilor din domeniu, nici pentru construcia clasificatorului i
nici pentru adaptarea acestuia.
Funciile kernel pentru clasificarea datelor
Funciile kernel pe care le putem apela pentru a efectua o clasificare a datelor
returneaz similaritile existente ntre obiecte. Metodele kernel se bazeaz pe lucrul cu o
matrice, matricea kernel, ce conine similaritile existente ntre obiectele mulimii de date
considerate. Prin urmare, metodele kernel nu opereaz cu datele n mod direct.
Funciile kernel sunt utilizate pentru extensia neliniar a metodelor liniare, acest
lucru realizndu-se n cazul n care dac un algoritm este scris n termenii produselor
scalare, atunci se poate schimba matricea de produse scalare cu o funcie sau cu o matrice
arbitrar pozitiv semidefinit, iar aceast funcie sau matrice s conin produsele scalare
ale datelor n spaiul determinat de caracteristicile datelor (feature space). Ca urmare, va fi
obinut o extensie neliniar a algoritmului.
Metodele kernel au ca obiectiv nvarea din date, iar acest tip de metode au
urmtoarele avantaje:
- se bazeaz pe un fundament teoretico-matematic extrem de riguros att prin
definirea funciilor kernel, ct i a spaiului kernel, folosind teoreme de caracterizare a
funciilor kernel i teoreme privind gradul de pstrare a proprietilor statistice a
metodelor;
- sunt un instrument care poate fi folosit n domenii variate, iar aceast versatilitate
se datoreaz capacitii de a nva datele care sunt reprezentate fie vectorial, fie n alt mod
dect vectorial;
- poate soluiona eficient problemele de clasificare a datelor utilizate n domenii
variate precum bioinformatica, clasificarea documentelor, informatica macroeconomic,
regsirea informaiei i procesarea imaginilor;
- au o trstur comun, o particularitate ce definete toate metodele de acest tip i
anume, analiza tiparelor neliniare din cadrul unei mulimi de date (Shawe-Taylor,
Cristianini, 2004).
Conform Shawe-Taylor, Cristianini (2004) i Hofmann et al. (2008) se pot reda att
definiiile metodelor kernel, ct i principalele caracteristici ale metodelor de clasificare a
datelor bazate pe funcii kernel dup cum urmeaz:
1. Metodele kernel sunt definite pe baza a dou componente: a) o funcie
care scufund spaiul de intrare ntr-un spaiu care poate fi de dimensiune mai mare i
care mpreun cu produsul scalar notat cu F, denumit spaiul caracteristicilor i b) un
algoritm de clasificare sau de regresie utilizat pentru detectarea n spaiul caracteristicilor F
a funciilor ablon liniare ce sunt reprezentate sub form de produse scalare ntre punctele
spaiului caracteristicilor.
2. Funcia kernel k este funcia care, satisface relaia
k(x,z) = (x),(z), oricare ar fi x i z , (1)
iar este o funcie definit pe spaiul cu valori n spaiul caracteristicilor F, cu

produs scalar:
: (x) F. (2)
Pentru ca o funcie kernel s devin un candidat potrivit pentru rezolvarea unei

probleme de clasificare, ea trebuie s satisfac dou proprieti de baz (Shawe-Taylor,
Cristianini, 2004):
funcia kernel trebuie s fie o msur de similaritate potrivit problemei i
domeniului n care se dorete rezolvarea acesteia;
evaluarea funciei kernel trebuie s conin un timp computaional semnificativ
mai sczut dect timpul aferent calculului explicit al produselor scalare dintre vectorii de
caracteristici definii de .
O trstur comun a metodelor kernel este capacitatea de analiz a datelor ntr-un
spaiu al caracteristicilor definit de o funcie kernel de complexitate mai ridicat,
comparativ cu spaiul iniial al datelor, pornind numai de la informaii legate de produsele
scalare efectuate ntre datele iniiale, furnizate prin matricea kernel.
Metodele kernel au fost reintroduse n anii 1990 mpreun cu SVM-urile i sunt
funcii liniare, iar n spaiile multidimensionale sunt echivalente cu funciile neliniare din
spaiul intrrilor. Referitor la aceste metode, analiza statistic arat c marginea extins
poate rezolva problema dimensionalitii datelor, ceea ce a dus la utilizarea metodelor
kernel n multe alte domenii, iar algoritmii sunt implementai astfel nct se efectueaz
calculul produselor scalare dintre vectori (Shawe-Taylor, 2014).
Prin folosirea funciilor kernel se asigur modul de a fi descoperite conexiunile
neliniare pe baza unor algoritmi liniari aplicai ntr-un spaiu al caracteristicilor convenabil
ales.
Acest tip de abordare face ca proiectarea algoritmului s nu mai depind de
proprietile spaiului caracteristicilor, iar acest lucru produce o cretere a flexibilitii
metodei i este corespunztoare att unor algoritmi de nvare automat, ct i proiectrii
funciilor kernel mult mai adaptabili n cadrul analizei datelor. Rezult c, indiferent de
algoritmul utilizat, proprietile teoretice ale unei funcii kernel date, rmn aceleai.
Teorema de caracterizare a funciilor kernel
Teorema de caracterizare a funciilor kernel: O funcie : , care este
continu sau are domeniul de definiie o mulime finit, poate fi descompus ntr-o
transformare de caracteristici sub forma (, ) = (), (), n cadrul unui spaiu
Hilbert, F, aplicat ambelor argumente, urmat de evaluarea produsului scalar din F dac i
numai dac aceast transformare satisface proprietatea de a fi semi-definit pozitiv finit
(Shawe-Taylor, Cristianini, 2004).
Concluzii
Metoda de tip kernel poate fi combinat cu o funcie de tip kernel facnd astfel
posibil implementarea i reutilizarea algoritmului ntr-un spaiu multidimensional prin
intermediul proprietii de modularitate.
Modularitatea reprezint posibilitatea de a se lucra cu orice funcie de tip kernel,
ceea ce rezult n aplicabilitatea unui algoritm pentru orice tip de date din orice domeniu,
inclusiv din domeniul macroeconomic.
Abordarea de tip kernel a problemei de clasificare a datelor conduce la posibilitatea
de a combina module diferite pentru a obine n final sisteme complexe de clasificare a
datelor.
n literatura de specialitate a statisticii i a nvrii automate, reprezentnd o
consecin a studierii i cercetrilor continue n domeniul identificrii relaiilor de tip liniar
ce exist n cadrul datelor, precum i ca urmare a elaborrii unor algoritmi robuti, n
cadrul metodei kernel se utilizeaz o funcie kernel, aceast funcie oferind o formul
computaional simplificat prin care se eficientizeaz reprezentarea modelelor liniare n
spaii multidimensionale. n acest fel, se asigur un grad ridicat de reprezentabilitate a
datelor.
Bibliografie
1. Shawe-Taylor J., Cristianini N. - Kernel Methods for Pattern Analysis, Cambridge University
Press, 2004.
2. Shawe-Taylor, J., Kernel Methods for Pattern Analysis, Machine Learning Tutorial Imperial
College, February 2014.
3. tefan R.M. - A Comparison of Data Classification Methods, International Conference
Emerging Markets Queries in Finance and Business, Tg. Mure, 24-27 October 2012,
Procedia Economics and Finance Elsevier, 2012.
4. tefan R.M., erban M. - Linear Discriminant Analysis for Data Classification, Arad
Academic Days 22nd Edition, Applied Computer Science Communications, Universitatea
de Vest Vasile Goldi, May 2012.
5. tefan R.M., erban M. - Tehnici de instruire SVM pentru rezolvarea problemelor de
clasificare a datelor, Conferina Economic Naional Echilibre i dezechilibre ale
pieei romneti n perioada actual, 8 mai 2012, Universitatea Spiru Haret; 2012.
6. tefan R.M. - Designining an Algorithmic Model for Notional Assertive Computing for
Supervised Database with Applications in Macroeconomics, Publicat n Journal of
Economics and Technologies Knowledge, No. 4, April 2015, ISSN 2360-5499, 2015.
7. tefan R.M. - Configurarea algoritmilor de instruire i a criteriilor de optimalitate n
analiza discriminant a datelor, Publicat n Revista pentru Dezvoltarea Bazat pe
Cunoatere, Vol. 1, Nr. 3, Mai 2015, pag. 98-103, ISSN 2393-2112, 2015.

Articol KBO 2016 Raluca

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Articol KBO 2016 Raluca

Diunggah oleh

Hak Cipta:

Format Tersedia

METODE KERNEL PENTRU CLASIFICAREA DATELOR

k(x,z) = (x),(z), oricare ar fi x i z , (1)

iar este o funcie definit pe spaiul cu valori n spaiul caracteristicilor F, cu

Pentru ca o funcie kernel s devin un candidat potrivit pentru rezolvarea unei

Anda mungkin juga menyukai