Abstract: n ultimele decenii, evoluia exponenial a colectrii datelor n baze de date macroeconomice
n format digital a determinat o cretere uria a acestora ca volum. Ca o consecin, organizarea
automat i clasificarea datelor macroeconomice indicatoriale prezint o importan practic deosebit.
Diversele tehnici de categorizare a datelor sunt folosite pentru a clasifica numeroasele date
macroeconomice n funcie de clasele crora acestea le aparin.
Deoarece construcia manual a unor clasificatori este dificil i consumatoare de timp, se prefer
clasificatori ce nva din exemple de antrenare, proces care alctuiete clasificarea de tip supervizat.
O variant de rezolvare a problemei clasificrii datelor este aceea prin care se utilizeaz metodele de tip
kernel. Aceste metode reprezint o clas de algoritmi folosii n analiza i clasificarea automat a
informaiilor. Majoritatea algoritmilor din aceast categorie se axeaz pe soluionarea unor probleme de
optimizare convex i calculul de valori proprii. Acetia sunt eficieni din punctul de vedere al timpului
de calcul i sunt foarte stabili din punct de vedere statistic.
Shawe-Taylor, J. i Cristianini, N. au demostrat c acest tip de abordare n domeniul clasificrii datelor
este robust i eficient n ceea ce privete detectarea modelelor stabile existente ntr-o mulime finit de
date. n acest sens, se va efectua modular ncorporarea datelor ntr-un spaiu n care se pot determina
anumite relaii liniare.
Introducere
Clasificarea definete o procedur algoritmic care atribuie unui obiect primit drept
valoare de intrare (input), o categorie dintr-un set de categorii date. Un exemplu este
apartenena unei ri la una dintre cele dou clase crora le poate aparine pe baza datelor
indicatoriale macroeconomice ce o caracterizeaz: ar prosper - ar non-prosper
sau determinarea deciziei economice optime pe baza caracteristicilor observate la nivel
indicatorial macroeconomic.
Cel mai cunoscut i cel mai folosit algoritm din aceast categorie este clasificatorul
SVM (support vector machine). SVM-urile sunt clasificatori care au cel mai nalt grad de
dezvoltare avnd rezultate excelente att la nivel teoretic, ct i la nivel empiric.
Un algoritm care implementeaz o problem de clasificare poart denumirea de
clasificator. De asemenea, clasificator este o noiune folosit pentru a denumi o funcie
matematic implementat de un algoritm de clasificare, ce transform/mapeaz datele de
intrare (inputs) ntr-o anumit clas. Mulimea datelor de intrare este alctuit din
instane/obiecte care sunt grupate n categorii/clase. O instan este descris printr-un
vector de caracteristici ale instanei/obiectului. De cele mai multe ori se ntmpl ca datele
ordinale i nominale s fie grupate mpreun; la fel i n cazul valorilor ntregi i reale. Mai
mult, exist algoritmi care funcioneaz cu date nominale i necesit discretizarea valorilor
ntregi sau reale n grupuri. Clasificarea se refer n mod uzual la o procedur supervizat
care este o procedur care clasific noi instane, nvnd dintr-un set de antrenare cu
instane ce au fost corect categorizate.
Procedura corespondent nesupervizat se numete clusterizare (clustering) i
const n gruparea datelor n clase folosind o msur de similaritate, de cele mai multe ori
folosindu-se calculul de distane ntre instane/obiecte, acestea din urm fiind reprezentate
sub form de vectori ntr-un spaiu vectorial multidimensional.
Au fost efectuate diverse teste empirice pentru a compara clasificatorii ntre ei, cu
scopul de a determina un clasificator optim pentru o anumit problem, ns rmne nc n
stadiul n care alegerea i revine utilizatorului, fiind deocamdat o alegere subiectiv.
Clasificarea datelor macroeconomice
Categorizarea/clasificarea datelor macroeconomice reprezint aciunea automat de
a asigna date indicatoriale macroeconomice, unor clase predefinite. Acest mecanism poate
oferi o viziune conceptual asupra coleciilor de date macroeconomice i are importante
aplicaii n lumea real.
Cerina de clasificare a datelor indicatoriale macroeconomice poate fi: 1) clasificare
supervizat n cadrul creia sunt informaii cu privire la clasificarea corect a acestora i la
clasele crora le aparin i 2) clasificare nesupervizat (clusterizare) n cadrul creia
clasificarea se efectueaz doar pe baza similaritilor descoperite.
n ultimul timp, numrul datelor ce caracterizeaz indicatorii macroeconomici a
crescut extrem de mult ca volum i continu s creasc pe msur ce specialitii din
domeniul macroeconomic au nevoie s ia n considerare din ce n ce mai muli factori
reprezentai de indicatorii economici. Astfel c, organizarea automat i clasificarea datelor
care alctuiesc bazele de date indicatoriale macroeconomice prezint o importan practic
major.
Date fiind att costul ridicat al resurselor umane i/sau materiale pe care l implic
organizarea manual a datelor macroeconomice indicatoriale sau determinarea claselor
crora acestea aparin, ct i faptul c anumite clasificri de date macroeconomice sunt
efectiv imposibil de realizat ntr-un anumit interval de timp, se explic interesul crescnd
asupra gsirii unor metode din ce n ce mai eficiente de aplicat n domeniul clasificrii
datelor macroeconomice.
Teoria nvrii automate utilizeaz caracteristicile unui proces inductiv care
construiete un clasificator de date automat prin nvarea dintr-un set de date clasificate
apriori. Avantajele pe care le comport aceast abordare sunt acurateea, reducerea
considerabil a efortului prin prisma faptului c nu este necesar nici o intervenie din
exterior sau din partea specialitilor din domeniu, nici pentru construcia clasificatorului i
nici pentru adaptarea acestuia.
Funciile kernel pentru clasificarea datelor
Funciile kernel pe care le putem apela pentru a efectua o clasificare a datelor
returneaz similaritile existente ntre obiecte. Metodele kernel se bazeaz pe lucrul cu o
matrice, matricea kernel, ce conine similaritile existente ntre obiectele mulimii de date
considerate. Prin urmare, metodele kernel nu opereaz cu datele n mod direct.
Funciile kernel sunt utilizate pentru extensia neliniar a metodelor liniare, acest
lucru realizndu-se n cazul n care dac un algoritm este scris n termenii produselor
scalare, atunci se poate schimba matricea de produse scalare cu o funcie sau cu o matrice
arbitrar pozitiv semidefinit, iar aceast funcie sau matrice s conin produsele scalare
ale datelor n spaiul determinat de caracteristicile datelor (feature space). Ca urmare, va fi
obinut o extensie neliniar a algoritmului.
Metodele kernel au ca obiectiv nvarea din date, iar acest tip de metode au
urmtoarele avantaje:
- se bazeaz pe un fundament teoretico-matematic extrem de riguros att prin
definirea funciilor kernel, ct i a spaiului kernel, folosind teoreme de caracterizare a
funciilor kernel i teoreme privind gradul de pstrare a proprietilor statistice a
metodelor;
- sunt un instrument care poate fi folosit n domenii variate, iar aceast versatilitate
se datoreaz capacitii de a nva datele care sunt reprezentate fie vectorial, fie n alt mod
dect vectorial;
- poate soluiona eficient problemele de clasificare a datelor utilizate n domenii
variate precum bioinformatica, clasificarea documentelor, informatica macroeconomic,
regsirea informaiei i procesarea imaginilor;
- au o trstur comun, o particularitate ce definete toate metodele de acest tip i
anume, analiza tiparelor neliniare din cadrul unei mulimi de date (Shawe-Taylor,
Cristianini, 2004).
Conform Shawe-Taylor, Cristianini (2004) i Hofmann et al. (2008) se pot reda att
definiiile metodelor kernel, ct i principalele caracteristici ale metodelor de clasificare a
datelor bazate pe funcii kernel dup cum urmeaz:
1. Metodele kernel sunt definite pe baza a dou componente: a) o funcie
care scufund spaiul de intrare ntr-un spaiu care poate fi de dimensiune mai mare i
care mpreun cu produsul scalar notat cu F, denumit spaiul caracteristicilor i b) un
algoritm de clasificare sau de regresie utilizat pentru detectarea n spaiul caracteristicilor F
a funciilor ablon liniare ce sunt reprezentate sub form de produse scalare ntre punctele
spaiului caracteristicilor.
2. Funcia kernel k este funcia care, satisface relaia
: (x) F. (2)