Anda di halaman 1dari 15

PANEVROPSKI UNIVERZITET APEIRON FAKULTET INFORMACIONIH TEHNOLOGIJA

PREDMET PROJEKTOVANJE INFORMACIONIH SISTEMA

Data Mining
(seminarski rad)

Predmetni nastavnik Prof. DR Branko Latinovi

Student

Nenad Cvijanovi
Index br. 2-10/RPI

S A D R A J
Uvod ............................................................................................................................................................. 3 DEFINICIJA ................................................................................................................................................. 4 Upotreba Data Mining-a ............................................................................................................................ 7 DM MODELI ................................................................................................................................................ 9 1. 2. 3. 4. 5. 6. Clustering..................................................................................................................................... 9 Neuronske mree ....................................................................................................................... 9 Fuzzy logika .............................................................................................................................. 10 Memorisko zasnovano prosuivanje, MBR .......................................................................... 10 Stablo odluivanja .................................................................................................................... 11 Analiza pijane torbe ............................................................................................................... 11

Integracija DM sa DW .............................................................................................................................. 12 Tipovi DM-a ............................................................................................................................................... 13 LITERATURA............................................................................................................................................ 15

Uvod
Data mining je nova tehnologija koja se koristi u istraivanju trita i otkrivanju potencijalnih klijenata. To je metoda pretraivanja podataka koja se naglo razvila zahvaljujui razvoju raunarske tehnologije jer je tek razvitkom brzih raunarskih sistema postalo mogue efikasno pretraivati velike koliine nagomilanih informacija. Zahvaljujui rudarenju podataka, skupovi podataka se pretvaraju u strukturirane informacije i znanje i na taj nain su korisniji i vredniji za istraivanje.

DEFINICIJA
Rudarenje podataka (eng. data mining) bismo mogli definirati kao pronalaenje zakonitosti u podacima. Ti podaci mogu biti organizirani u baze podataka, ali isto tako to mogu biti i tekstualni podaci, nestrukturirani podaci proizali iz Web-a, ili pak podaci organizirane u vremenske serije. Zakonitosti pronalazimo primjenom metoda koje svoje korijene vuku iz razliitih podruja kao to su primjerice statistika, matematika, baze podataka, teorija informacija, teorija vjerojatnosti i umjetna inteligencija. Ovo je vrlo mlado podruje, te postoji niz metodolokih pristupa problematici, kao i preferencije primjena metoda koje naginju ka odreenom podruju ovis no o autorima koji obrauju tu problematiku. Preferencija metoda uglavnom ovisi i o podruju primjene, tako primjerice analize temeljene na rudarenju podacima koje se primjenjuju u kriminalistici i telekomunikacijama vie naginju ka koritenju "link analiza" za razliku od nekih drugih podruja primjene Isto tako ne treba zanemariti vrlo ivu trenutnu znanstvenu aktivnost na ovom podrucju, te produkciju itavog niza novih metoda od kojih e se neke u budunosti zasigurno popularizirati kao standardne metode rudarenja podataka. Sa jedne strane istraivanja u ovom podruju usmjerena su ka traenju metoda za rjeavanje specificnih problema, a sa druge strane kao rezultati istraivanja nude se nova metodoloka rjeenja poboljanja postojeih metoda. Interesantno je to to su u velikom broju sluajeva neiscrpni izvor inspiracije za znanstvena istraivanja u ovom podruju radovi matematiara iz ranijih razdoblja, od 16. stoljea nadalje. Ti radovi uglavnom su se bazirali na procesiranju velikog broja podataka da bi se dolo do rjeenja. Takva rjeenja su prezentirana na deklarativnoj razini kao ideja, te se nije ulazilo u dublju razradu ideje zbog fizike nemogunosti procesuiranja velike koliine podataka u ranijim razdobljima. Fokus interesa tadanjih znanstvenika je bio upravo izbjegavanje procesiranja velike koliine podataka, te pronalaenje elegantnijih metoda kojima bi se izbjegla takva vrsta aktivnosti. Pojedine metode koje se deklariraju kao metode rudarenja podataka razvijene su u svojim rudimentarnim oblicima u jo u sedamdesetim i osamdesetim godinama dvadesetog stoljea. Tek je polovica devedesetih godina dvadesetog stoljea donijela sintagmu rudarenje podataka (eng. data mining) koja objedinjava skup metoda i postupaka koje za cilj imaju otkrivanje zakonitosti u masi podataka.

S obzirom na interdisciplinarnost ovog podruja vrlo je teko povuci jasnu granicu i deklarirati pojedine metode kao iskljuive metode rudarenja podataka.

Vrlo velik broj koritenih metoda nedvojbeno pripadaju u podruje statistike poput primjerice metoda uzorkovanja, ali u lancu rudarenja podataka mogu biti vrlo znaajna karika prilikom analize podataka. To nikako nije nedostatak ovog podrucja vec prednost, posebice ako iz niza disciplina izaberemo one metode i postupke koje nas mogu dovesti do cilja u procesu analize. Usprkos svemu tome, ipak moemo govoriti o opeprihvaenom skupu metoda koje se u strunoj literaturi deklariraju kao metode rudarenja podataka. Kao to je vec spomenuto izvori podataka mogu biti klasine tradicionalne baze podataka te primjena metoda rudarenja podataka nad tako formatiranim podacima spada u podruje tradicionalnog rudarenja podataka. U novije vrijeme izdvajaju se podpodruja s obzirom na izvore podataka kao to je to rudarenje Weba, rudarenje teksta, te analiza vremenskih serija. Osnovni razlog izdvajanja ovih podruja proizlazi iz cinjenice to podaci nisu strukturirani u relacijske tablice, ve su nestrukturirani, ili pak strukturirani na temelju specificnog formata. Bez obzira na izvore podataka neizbjean proces u metodici otkrivanja znanja je ienje podataka. U ovoj etapi cilj je profiltrirati podatke od neistoa. Pri tome moramo voditi racuna o analize eventualnih ekstremnih vrijednosti (eng. outliers), koji ponekad nisu um u podac ima, vec vrlo vrijedan podatak koji moe biti presudan u otkrivanju zakonitosti. Ako govorimo o sustavima poslovne inteligencije tada rudarenje podataka moe biti podrano skladitima podataka. U praksi se esto puta pojavljuje sluaj nepostojanja skladi ta podataka, tako da se nakon ienja podataka direktno ulazi u proces pretprocesiranja podataka bez posredovanja skladita podataka. Koritenje skladita podataka u procesima rudarenja podataka svodi se na koritenje dimenzija u kockama koje se mogu iskoristiti sa ciljem pretprocesiranja podataka koji nakon toga ulaze u analitike metode rudarenja podataka. Rudarenje podataka producira modele i otkriveno znanje, te ono ulazi u proces testiranja pouzdanosti. U sluaju nezadovoljavajuih rezultata, ponovo se ulazi u iterativni proces obrade, to odgovara spiralom pristupu razvoju sustava i modela rudarenja podataka. Ako skladitenje podataka promatramo kroz prizmu rudarenja podataka, tada je jedna od glavnih znaajki i prednosti koritenja skladita podataka prilikom rudarenja podataka uteda vremena. Naime skladita podataka mogu u vrlo kratkom roku selektirati odreene skupine podataka, koje su ve proiene, tako da analitiar tedi vrijeme u tom segmentu ako se oslanja na skladita podataka. Iako ovakav sustav tedi vrijeme, u praksi se esto puta ukazuje potreba za direktnim pristupom izvornim podacima zbog specifinosti obrada.

Podruja gdje se rudarenje podataka moe uspjeno primjenjivati su primjerice ekonomija, mehanika, medicina, genetika, mikrobiologija, , farmaceutika, ekonomija, telematika . Generalno gledajui rudarenje podataka je primjenjivo u svim onim podrucjima gdje raspolaemo sa velikom masom podataka iz domene tog podruja i na osnovu tih podataka elimo otkriti odredene pravilnosti, veze i zakonitosti. Tako primjerice kod istraivanja djelovanja novog lijeka, na osnovu prikupljenih podataka moemo otkrivati koji su to kritini faktori, odnosno koje su karakteristike ljudi ko d kojih je taj lijek djelovao, a koje su karakteristike ljudi kod kojih taj lijek nije izazvao eljeni ucinak. Naravno, da bi takve vrste analiza bile uspjene potrebno je stvoriti kritinu masu obiljeja nad kojima se provodi analiza. Tako primjerice u skladu sa spomenutim primjerom vrlo znaajan faktor djelotvornosti lijeka moe biti uvjetovan dobi, ili pak preboljelost neke bolesti u prolosti. S obzirom na to da postoji itav niz faktora koji mogu utjecati na ishod nekog dogaaja, zadatak rudarenja podataka je otkriti najznaajnije faktore i njihove karakteristike s obzirom na ciljana stanja. Ukratko, bez obzira na podruje primjene, dobro iskoritene metode rudarenja podataka sposobne su otkriti zakonitosti iz velike mase podataka, pri emu podruje pr imjene dolazi u drugi plan. Ekspert iz domicilnog podruja uz pomoc analitiara tumai i interpretira otkrivene zakonitosti. Snaga primjene metoda rudarenja podataka takoder proizlazi iz injenice to je rudarenje podataka neovisno o podruju primjene, jer se naglasak stavlja na podatke a ne na podrucje provodenja analiza.

Upotreba Data Mining-a


Upotreba DM je vrlo rairena kako u privatnom tako i u drutvenom sektoru. U zapadno evropskim zemljama banke, osiguravajue kue,zdravstveni sektor te PIO esto koriste DM kako bi smanjili trokove potstakli istraivanje te poveali prodaju. Pa tako npr banke I osiguravajue kue koriste DM kako bi sprijeili prevare u ovom sektoru te DM pomae u procesu upravljanja rizikom.Podaci o klijentima su bili prikupljani tokom godina te analizom tih podataka moe se predvidjeti da li kod pojedinog klijenta postoji vei ili manji rizik za plasiranje sredstava. Zdravstveni sektor koristi DM kako bi prdvidio efikasnost nekog modela ljeenja.Telefonske kompanije mogu lako da predvide na osnovu prikupljenih podataka tko e od klijenata ostati vjeran kompaniji a tko e prei u drugu kompaniju. U drutvenom sektoru DM se takodje koristi za spreavanje prevara ali se DM koristi i za unapreenje te mjerenje postignua raznih programa. Mnogo je primjera kako se moe kvalitetno iskoristiti DM ali ja u navesti jedan po meni najinteresantniji naime Amerika agencija za vazdunu plovidbu je metodom DM uspjela da prepozna obrasce nastajanja greaka te ih ispravi I time sauva mnoge ljudske ivote tako to su analizirali podatke o padovima aviona. Na naim prostorima se DM koristi najvie u marketinkim agencijama koje su usmjerene ka pojedinanom kupcu (CRM).I to sledei primjeri:

direktni marketing npr., katalozi i ponude razliitih artikala se alju kupcima za koje postoji najvea vjerojatnost odaziva; izradu profila kupaca utvruje se uzorak ponaanja kupaca da bi mu se kasnije poslala prilagoena ponuda. segmentaciju utvrivanje grupa kupaca s jednakim karakteristika (uzorkom ponaanja) istraivanje povezanosti prodaje razliitih proizvoda analiza kupovne koare to se moe npr. upotrijebiti za rasporeivanje artikala na policama. stimulacija kupovine drugih artikala istog poduzea, odnosno vee koliine istih artikala, to moe nadoknaditi pridobivanje novih kupaca. zadravanje kupaca ovo je puno jeftinije od pridobivanja novih kupaca.

Za primjer moemo uzeti slanje reklamnih materijala te njihov odaziv na te kataloge.Postoje 2 mogunosti kome emo kataloge uputiti, hoemo li ih izabrati nasumino ili uz pomo metode DM.

Postotak odaziva 100 90 80 70 60 50 40 30 20 10 10 20 30 40 50 60 70 80 90 100 postotak primatelja reklamnog materijala

-----

odabir uz pomo DM ________ nasumino odabrani

slika 1 Poveanje odaziva upotrebom DM

Puna linija pokazuje odaziv kod nasuminog izbora primatelja reklamnog materijala te je onda linearna jer se od 10 000 poslanih kataloga bilo 2000 odaziva. Crtkana linija pokazuje mogui odaziv ako su primatelji odabrani procesom DM. To znai da od 5000 primatelja, odazvalo bi se njih 1800. Znai, posljedica DM su nii trokovi, jer je potrebno slati manje podataka za isti uinak. Takoer razvijaju se rudarenja Weba (analiza podataka o posjeti Web stranica i analiza putova kojim posjetitelji dolaze do portala s podatcima) i rudarenje tekstova (analiziraju se tekstovi i unutar njih trae uzorci i pravila koji se koriste pri kategorizaciji lanaka po podrujima, otkrivanju autorstva i sl.)

DM MODELI
DM se moe podjeliti u nekoliko modela: Clustering Neuronske mree Fuzzy logika Memorijsko zasnovano prosuivanje (MBR) Stablo odluivanja Analiza pijane torbe

1. Clustering Clustering je tehnika grupisanja i omoguava grupisanje podataka koji su slini. Grupisanja jest ustvari razvrstavanje jedinki u skupine u kojima je postignuta njihova najvea slinost (segmentacija kupaca: podatci o starosti, zanimanju, dosadanjoj kupnji). Pri podjeli u grupe potrebno je zadovoljiti dva osnovna kriterija: svaka grupa predstavlja homogen skup: primjeri koji pripadaju istoj grupi su medjusobno slini; o svaka grupa mora se razlikovati od ostalih grupa, t.j. primjeri koji pripadaju odredjenoj grupi znaajno se razlikuju od primjera koji pripadaju ostalim grupama. Zavisno od konkretne metode, grupe mogu biti definisane na razliit nain: o o o o identificirane grupe mogu biti ekskluzivne, tako da svaki primjer pripada iskljuivo jednoj od grupa; grupe se mogu preklapati; primjer moe istovremeno pripadati nekolicini grupa; grupe mogu biti definirane probabilistiki: u tom sluaju primjer pripada svakoj od grupa s odredjenom vjerojatnosti grupe mogu biti hijerarhijski strukturirane, sa grubom podjelom primjera na najviem nivou, koji se potom moe finije strukturirati na niim nivoima. o

2. Neuronske mree One su zamiljene su da djeluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi poinje uenjem mree pomou podataka za koje je poznata vrijednost koju elimo prognozirati. Nakon toga naueno znanje se provjerava. Postupak uenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajui. U osnovi ovaj DB model se svodi na sledee neuronskoj mrei se daju odreeni podaci za koje se zna izlazna vrijednost. Na osnovu ovih podataka neuronska mrea prepoznaje obrasce podataka.Zatim se na osnovu obrazaca pretrauje gomila podataka kako bi se nali ovi obrasci. Najlake za objasniti sutinu neuronske mree je kroz sledei primjer:Kompanija koja se bavi davanjem kreditnih kartica raspolae sa mnotvom podataka koje je teko analizirati kako bi se prepoznale mogue prevare. Kompanija zna da je do 3 000 prijava za karticu 100 pokuaj prevare neuronska mrea analizira ova dva podatka te na osnovu njih dolazi do obrasca po kome se mogu prepoznati prevare.

Ovaj obrazacse zatim koristi kako bi se ispitali svi podaci kod kompanije i otkrili podaci koji sadre ovaj obrazac. Neuronske mree su pogodne za prepoznavanje finih, skrivenih i novootkrivenih ema odnosa u kompleksnim podacima kao i za interpretaciju i razumevanje nekompletnih ulaznih podataka.

3. Fuzzy logika ta je fuzzy logika? Da bi odgovorili na ovo pitanje, uporediemo ovaj pristup sa konvencijalnom logikom. Osnove klasine logike je uvrstio jo u antikoj Grkoj poznati filozof Aristotel. Ova logika se zasniva na jasnim i precizno utvenim pravilima, a poiva na teoriji skupova. Neki element moe da pripada nekom skupu ili da ne pripada. Skupovi imaju jasno odreene granice. Tako su ovakvi skupovi, pa sa njima i logika, nazvani engleskom rei crisp, koja ima znaenje jasan, bistar. Fuzzy (/fzi/) je engleska re koja bi mogla da se prevede kao maglovito, nejasno, mutno. U fuzzy logici nije precizno definisana pripadnost jednog elementa odreenom skupu, ve se pripadnost meri u, recimo, procentima. Ove mere pripadnosti, skalirane, mogu da uzimaju vrednosti od 0 do1. Uzmimo kao primer dane u nedelji i napravimo dva skupa. Skupradnih dana i skup vikend. U crisp logici bi se u skupu radnih dana nali: ponedeljak, utorak, sreda, etvrtak i petak a u skupu vikend dana: subota i nedelja. Tj. pripadnost elementa nekom skupu bi se izrazila brojem 1 a nepripadanje brojem 0. Meutim u fuzzy zakljuivanju bi situacija bila neto drugaija. Petak, kao dan koji je delom radni dan a delom poetak vikenda bio bi negde na granici ova dva skupa. Tj. njegova pripadnost prvom, skupu radnih dana bi se izraavala, recimo brojem 0,75 dok bi pripadnost drugom, skupu vikend dana bila cifra 0,25. Slino bi bilo i za nedelju kao dan koji jeste vikend ali ne sasvim, celim svojim trajanjem, jer ipak se nedelja uvee doivljava kao priprema za novu radnu nedelju odnosno mnogi ljudi e ga okarakterisati kao ne sasvim vikend dan, jer posle njega dolazi ponedeljak. Vidimo da je ova logika jako bliska ljudskoj percepciji o mnogim stvarima u ivotu. Mnoge sline situacije koje nisu jasno razdvojene, koje su meavina vie stvari su svakodnevno prisutne oko nas. Ovde smo na prilino nestabilnom terenu, jer relevantnim postaje subjektivno miljenje o nekoj stvari. ak i kulturoloko naslee ili generacijske razlike imaju uticaja. Ali to je i poenta. Da li je desetogodinjak koji sebe smatra visokim stvarno i visok? Ovde smo predstavili domen u kome jasna da ne (tano netano) logika vie nije upotrebljiva. U fuzzy logici istinitost svakog tvrenja se meri u procentima.. 4. Memorisko zasnovano prosuivanje, MBR Memory Based Reasoning je tehnika DM koja se koristi za predvianje i klasifik aciju.Ova tehnika je slina tehnici neuronskih mrea s tom razlikom to MBR trai sline podatke odnosno

ne trai obrazac podataka.Na primjer ukuoliko doktor ima pacijenta sa vie simptoma on e na osnovu iskustva sa slinim pacijentima dati dijagnozu.

5. Stablo odluivanja Decision Tree je popularan metod za klasifikaciju i odluivanje.Koritenje serije pitanja i pravila za kategorizaciju podataka mogu se predvidjeti ishodi.Stablo odluivanja predstavlja tehniku odluivanja koja se temelji na odnosima izmeu strategije i stanja a koriste se za reavanje sloenih problema finansija, marketinga, uvoenja novih proizvoda i slino.Na sledeoj slici je primer stabla odluivanja kod analize rizika poslovanja.

Stablo odluivanja se zasniva na 4 osnovne varijable: 1. kostur stabla odluivanja,koji pomou grafikona pokazuje strategije, mogue posledice svake strategije i identifikovano stanje 2. verovatnoa razliitih posledica izabrane strategije 3. uslovna vrednost (trokovi) pripadajue posledice 4. oekivana vrednost za pripadajue plaanje ili trokove

6. Analiza pijane torbe Market Basket Analysis (MBA) se esto naziva i grupisanje po slinosti.Koristi se za pronalaenje grupe artikala koji se najee zajedno dogaaju u jednoj transakciji. Analiza pijane torbe se bazira na teoriji da je vea vjerovatnoa da e te kupiti proizvod A ako ste kupili proizvod B. Ova DM model se iroko upotrebljava u samoposlugama i trnim centrima a u principu se radi o sledeoj situaciji: Kupac koji se odlui da kupi Pivo esto se odluuje da uz

Pivo kupi i ips. Ovaj podatak predstavlja menaderima vanu informaciju jer e uz Pivo izloiti i ips.Ovaj model se primjenjuje kako bi se usporedili podaci o vie razliitih lokacija te o navikama kupaca na razliitim lokacijama.analize se mogu vriti po vie kriterija pa tako i na osnovu lokacije trnog centera, dana u sedmici kada se vri kupovina, doba godine itd.

Integracija DM sa DW
Postoji vie razloga za ovu integraciju.Prvi razlog je da DM alati zahtevaju postojanje preienih i integrisanih podataka.Tradicionalni DM alati bi iz tih razloga prvo izvrili transfer podatataka (moda i stotine MB) a nakon zavrenog rada esto se javlja potreba za bovim podacima to znai da bi se ceo proces trebao ponoviti.Drugi razlog za integraciju DM alata sa DW jeste poboljani korisniki interfejs.Stariji DM alati su zahtevali angaovanje niza strunjaka da bi se postigli zadovoljavajui rezultati.Danas svaki poznavalac SQL jezika moe koristiti mogunosti DM a trei razlog su performanse sistema i mogunost proirivanja koju obezbeuje DW. Da bi smo mogli da bolje upotrebimo podatke koji se nalaze u DW neophodno je izabrati odgovarajui DM model. Neke od modela sam ve naveo tako da o njima neu pisati u ovom dijelu rada. Napomenut u samo da DM je skup metoda koje analizirajui date podatke trai uzorke u njima te relacije i pravila meu njima i time dobijamo kvalitetniju informaciju.Odvajajui se od DW , koji ima jedinstven pristup podacima, DM daje rezultate koji pokazuju povezanos i unutranju zavisnost tih podataka.Ove povezanosti se baziraju na matematikim i statistikim relacijama.

Podaci nekog istraivanja se nalaze u bazama podataka.pored ovih podataka koriste se i drugi dostupni izvori kako bi se dopunile postojee baze. Poslje sakupljanja podataka vri se selekcija podataka za analizu te se primjenjuje jedan od DM modela. Dobijamo uzorke podataka na kojima se bazira novo steeno znanje.

Tipovi DM-a
Po optoj funkcionalnosti DM moe biti: o o deskriptivan DM prediktivan DM

Deskriptivan DM model pomae u razumjevanju procesa ili ponaanja koje jeopisano podacima.Prediktivan model je jednaina ili skup pravila koji omoguava predikciju zavisne varijable ili atributa na osnovu skupa nezavisnih varijabli.Zavisno od prirode problema odnosno podatka biramo najprikladniji oblik modela.

ZAKLJUAK
U ovom seminarskom sam otvorio veliku temu koja se sve vise koristi u ivotu i u radu. Tehnika Data Mining se koristi toliko u zivotu koristi I u svim segmentima ivota a mi toga nismo ni svjesni npr. kada god uemo u trni centar inie nam se kao da smo sami to sve postavili na svoje mjesto I kao da nam je sve na dohvat ruke. Radei na ovom radu poblie sam upoznao osnovne stvari vezane za ovu tematiku ali sam doao do zakljuka da je ovo jedna od perspektivnijih oblasti u informatici.

LITERATURA
http://www.albionresearch.com/data_mining/market_basket.php http://www.chicagobigroup.com/business_intelligence_white_papers/business_intelligence_ data_mining_techniques.pdf http://en.wikipedia.org/wiki/Market_basket_analysis http://www.doiserbia.nbs.bg.ac.yu/img/doi/0354-0243/2005/0354-02430501125S.pdf http://perun.im.ns.ac.yu/radovanovic/dmsem/completed/2006/VizualizacijaKartonaNaucnihR adnika.pdf http://dms.irb.hr/tutorial/hr_tut_clustering_short.php Radi Gordana,Upravljanje poslovnim informacionim sistemima

Anda mungkin juga menyukai