Mengenai Data Mining

inside:DataMining
ApaituDataMiningPendahuluanPerkembangandatamining(DM)yangpesattidakdapatlepasdari
perkembanganteknologiinformasiyangmemungkinkandatadalamjumlahbesarterakumulasi.Sebagaicontoh,
tokoswalayanmerekamsetiappenjualanbarangdenganmemakaialatPOS(pointofsales).Databasedata
penjualantsb.bisamencapaibeberapaGBsetiapharinyauntuksebuahjaringantokoswalayanberskalanasional.
Perkembanganinternetjugapunyaandilcukupbesardalamakumulasidata.Tetapipertumbuhanyangpesatdari
akumulasidataitutelahmenciptakankondisiyangseringdisebutsebagairichofdatabutpoorofinformation
karenadatayangterkumpulitutidakdapatdigunakanuntukaplikasiyangberguna.Tidakjarangkumpulandataitu
dibiarkanbegitusajaseakanakankuburandata(datatombs).InvestasiyangbesardibidangITuntuk
mengumpulkandataberskalabesariniperludijustifikasidengandidapatnyanilaitambahdarikumpulandata
ini.Kebutuhandariduniabisnisyanginginmemperolehnilaitambahdaridatayangtelahmerekakumpulkantelah
mendorongpenerapanteknikteknikanalisadatadariberbagaibidangsepertistatistik,kecerdasanbuatandsb
padadataberskalabesaritu.Ternyatapenerapanpadadataberskalabesarmemberikantantangantantangan
baruyangakhirnyamemunculkanmetodologibaruyangdisebutdataminingini.Bermuladaripenerapandidunia
bisnis,sekaranginidataminingjugaditerapkanpadabidangbidanglainyangmemerlukananalisadataberskala
besarsepertibioinformasidanpertahanannegara.Dalamtulisanini,penulismencobamemperkenalkandata
miningdenganmembandingkannyadenganbidangilmuyangsudahada,danjugamemberikanbeberapailustrasi
tentangteknikteknikyangumumdipakaididatamining,
Definisi
Adabeberapadefinisidaridataminingyangdikenaldibukubukuteksdatamining.Diantaranyaadalah:
Dataminingadalahserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandataberupa
pengetahuanyangselamainitidakdiketahuisecaramanual.
Dataminingadalahanalisaotomatisdaridatayangberjumlahbesarataukompleksdengantujuanuntuk
menemukanpolaataukecenderunganyangpentingyangbiasanyatidakdisadarikeberadaannya
Menarikuntukdiingatbahwakataminingsendiriberartiusahauntukmendapatkansedikitbarangberhargadari
sejumlahbesarmaterialdasar.Daridefinisidefinisiitu,dapatdilihatadabeberapafaktoryangmendefinisikandata
mining:
1.dataminingadalahprosesotomatisterhadapdatayangdikumpulkandimasalalu
2.objekdaridataminingadalahdatayangberjumlahbesarataukompleks
3.tujuandaridataminingadalahmenemukanhubunganhubunganataupolapolayangmungkinmemberikan
indikasiyangbermanfaat
SejarahDataminingbukanlahsuatubidangyangsamasekalibaru.Salahsatukesulitanuntukmendefinisikandata
miningadalahkenyataanbahwadataminingmewarisibanyakaspekdanteknikdaribidangbidangilmuyang
sudahmapanterlebihdulu.Gambar1menunjukkanbahwadataminingmemilikiakaryangpanjangdaribidang
ilmusepertikecerdasanbuatan(artificialintelligent),machinelearning,statistic,databasedanjugainformation
retrieval.Beberapateknikyangseringdisebutsebutdalamliteraturdataminingseperticlassification,neural
network,geneticalgorithmdll.sudahlamadikenaldiduniakecerdasanbuatan.Statistikmemberikankontribusi
padadataminingdenganteknikteknikuntukmenyeleksidatadanevaluasihasildataminingselainteknikteknik
dataminingseperticlustering.Yangmembedakanpersepsiterhadapdataminingadalahperkembanganteknik
teknikdatamininguntukaplikasipadadatabaseskalabesar.Sebelumpopulernyadatamining,teknikteknik
tersebutpadaumunyaditerapkanuntukdataskalakecilsaja.Selainitubeberapateknikdaribidangdatabaseuntuk
transformasidatajugamerupakanbagianintegraldariprosesdatamining.Akhirakhiriniadabeberapabidangilmu
sepertiinformationretrievalyangjugaterlibatdalamprosesdatamininguntukmengekstraksumberdatabagidata
miningdarisumbersumbersepertiteksdanwebsite.Walaupundataminingmemilikisumberdaribeberapabidang
ilmu,dataminingberbedadalambeberapaaspekdibandingkandenganbidangilmusepertiberikut:
statistik:modelstatistikdipersiapkanolehparaahlistatistik,sedangkandataminingmengembangkanstatistik
untukmenanganidataberjumlahbesarsecaraotomatis
expertsystem(sistemcerdas):modelpadaexpertsystemdibuatberupaaturanaturanberdasarpada
pengalamanpengalamanparaahli
datawarehouse(DWH):seringterjadikerancuanantaradataminingdandatawarehousekarenakeduanya
seringdipakaibersamaan.Padaumumnyadatawarehouselebihmerujukpadatempatuntukmenyimpandata
yangterkonsolidasisedangkandataminingbisadianggapsebagaiperkakasuntukmenganalisaotomatisnilai
daridataitu
OLAP:sepertidatawarehouse,OLAPjugaseringdibahasbersamadatamining.TetapiOLAPmemilikitujuanuntuk
memastikanhipotesayangsudahdiformulasikanterlebihduluolehpenggunanya.Kemampuankitadalam
memperolehdanmengolahdatatelahmeningkatsecaradrastisbelakanganini.Banyakfaktoryangmempengaruhi
peningkatandataini,diantaranyakomputerisasidalambisnis,pemerintahandanjugailmiah.Semakintingginya
kapasitasmediapenyimpanandenganhargayangrelatifterjangkausertameluasnyapenggunaankameradigital,
alatalatpublik,penggunaanbarcodedalamprosestransaksiprodukmenjadikandatatumbuhsecaraekplosif
dalamberbagaibidang.Selainitu,perkembanganjaringaninternetsebagaisaranainformasiglobalmenjadikan
penumpukandatainisemakintakterkendali.Pertumbuhandatayangekplosifitudisimpandalamdatabase
databasesementarayangbersifatoperasional.Denganberjalannyawaktu,databsetersebutmenjadigudangdata
ataulebihdikenaldengandatawarehouse.Didalamdatawarehouseinitersimpanbanyaksekalidatayangtelah
direkapsetiapharinya.Melaluidatadatainilahterdapatinformasiyangharusdigaliuntukmenunjangprosesbisnis
yangadadalammenjalankanvisimisiperusahaan.Dibutuhkansuatuteknikuntukmenggaliinformasiyangterdapat
padadatawarehousetersebut.Lahirlahdatamining,yaitusuatuteknikuntukmengekstrasisuatupoladaridata.
Dataminingditerapkandenganparadigmauntukmelihatinformasiyangtersembunyi.Prosespencarianini
dilakukansecaraotomatisterhadappoladalamdatadenganjumlahbesardenganmenggunakanteknikteknik
sepertiklasifikasi,clustering,dll.Dataminingadalahsuatumultidisiplinilmuyangkompleksdanberirisandengan
ilmulainsepertistatistika,database,informationretrieval,machinelearning,patternrecognition,algoritmadanilmu
lainnya.Menurutparaahli,dataminingmerupakansebuahanalisadariobservasidatadalamjumlahbesaruntuk
menemukanhubunganyangtidakdiketahuisebelumnyadanmetodebaruuntukmeringkasdataagarmudah
dipahamisertakegunaannyauntukpemilikdata(DavidHand,2001).Dataminingdikenaljugadenganistilah
KnowledgeDiscoveryfromData(KDD)Dataminingmerupakansuatutahapandalampenemuanpengetahuandan
menjadicoreprosesdarisuatujumlahdatayangbesar,tahapantahapantersebutyaitu:Gambar1.Datamining
sebagaitahapandalampenemuanpengetahuan(JiaweiHan,2006)
1.Datacleaning,untukmembersihkandatadarinoisedatadandatayangtidakkonsiten
2.Dataintegration,megkombinasikan/mengintegrasikanbeberapasumberdata
3.Dataselection,mengambildatadatayangrelevandaridatabaseuntukdianalisis
4.Datatransformation,mentransformasikandatasummaryataupunoperasiagregasi
5.Datamining,merupakanprosesyangesensialdimanametodedigunakanuntukmengekstrakpoladatayang
tersembunyi
6.Patternevaluation,untukmengidentifikasipolasehinggamereperesentasikanpengetahuanberdasarkannilai
nilaiyangmenarik
7.Knowledgepresentation,dimanateknikrepresentasidanvisualisaidatadigunakanuntukmempresentasikan
pengetahuanyangdiadapatkepadauser
ApaituDataMining?
SecarasingkatDataMiningadalahsebuahprosespenggalianpoladaridata,dalampenjabaranyanglebih
luasDataminingadalahsebuahprosesdaripencariankorelasiyangbaru,poladantrendyang
memberikaninformasi,dengancaramenyaringdatadalamkuantitasyangbesar,menggunakanteknologi
polapengenalanyangserupadenganteknikstatistikdanteknikmatematika.
Dataminingsemakinmenjadihalyangsangatpentingdalammengubahdatamenjadiinformasi.Tidakseperti
statistikyangmenggunakansampelpopulasisebagaidatanya,dataminingmembutuhkandatayang
besar,semakinbesar,prosesmenambanganakansemakinefektifmenemukanpolapolatertentu.Dimana
DataMiningdigunakan?Dataminingdigunakandibanyaktempat,danbidangpenerapannyajugadapatbermacam
macam,misalnya:
militermenggunakandatamininguntukmempelajariapasajayangmenjadifatorutamadalamketepatan
sasaranpengeboman
Agenintelejendapatmengaplikasikandataminingdalammenangkapdanmemilahinformasiinformasiyang
sesuaidenganapayangingindipelajari
Spesialiskeamananjaringandapatmemanfaatkandatamininguntukmelihatpaketdatamanayangberpotensi
memicuancaman
Analiskartukreditdapatmenggunakandataminingdalammemilahcalonnasabahkartukredityangberpotensi
melakukankreditmacet.
Pelakuretaildapatmenggunakandatamininguntukmelihatkarakteristikdanperilakupembelinya,sehingga
dapatselalumenjualprodukyangdiinginkanolehcustomer.
Walaupunmetodedantoolsyangdigunakanuntukdataminingdapatdiaplikasikanpadabanyakhal,sayaakan
lebihmemberikanpendekatandarisudutpandangbisnis.Beberapapertanyaanumumberkaitandenganbisnis
dapatdijawabdenganmenggunakanDataMining,termasukdiantaranyaadalah:
1.Darisekianbanyakdaftarcaloncustomer,kirakiramanayangakanbenarbenarmenjadicustomer
baru?Kitadapatmenggunakanteknikklasifikasi(misal:LogisticRegression,ClassificationTrees,ataumetode
lainnya)untukmengenaliindividuyangmempunyakemiripanfaktordengancustomerterbaikyangkitamiliki.
faktorinidapatberupafaktordemografi,faktorusia,faktorkelaspendapatan,ataufaktorlainnya.
2.Customermanayangkirakiraberpotensiuntukmelakukankejahatanpenipuan?,kitadapat
menggunakanmetodeklasisfikasiuntukmengenaliaplikasikartukredityangberpotensitinggidalamketerlibatan
kejahatanpenipuan,sertamemberikanperhatianlebihkepadamerekamerekayangmasukdalamklasifikasi
tersebut.
3.Mengenalicalonnasabahmanayangmungkinakanmenunggakpembayaranpersonalloan?,kitadapat
menggunakanteknikklasifikasidalammengidentifikasimereka(ataudenganmetodelogisticregressiondalam
menentukannilaiyangakanmenjadipatokandalammengidentifikasicalonpenunggak)
4.Mengenalipelangganmanayangkirakiraberpotensiakanmengabaikantagihanberlangganan
(telepon,majalah,danlainnya)?.sekalilagi,kitadapatmenggunakanteknikklasifikasiuntuk
mengidentifikasikanmereka(logisticregressiondapatdigunakanuntukmenetapkannilai"probabilityofleaving")
AsalMulaDataMining
DataMiningsangatdipengaruhiolehpertemuanstatistikdanmachinelearning(atauyangjugadikenal
denganartificialintelligence/kecerdasanbuatan).
Beragamteknikyangdigunakanuntukmengeksplorasidatadanmembangunmodel,sebenarnyatelahadasejak
lamadidalamstatistikasepertilinearregression,logisticregression,discriminantanalysis,danprincipalcomponent
analysis.{akansayatambahkankemudian}Kenapaadabanyakmetodeyangberbedabeda?Adabanyakmetode
padadatamining,andamungkinbertanyakenapaadabanyakmetodeklasifikasidanprediksi,danmetode
manayangterbaik?
Masingmasingmetodememilikikelebihandankekurangan,metodeyangcocokbergantungkepada
beberapafaktor,sepertiukurandaridataset,tipedaripolayangsudahadadalamdata,apakahdatacocok
denganasumsidarimetodeyangditetapkan,seberapabanyaknoisedalamdata,danapatujuankhususdari
analisa.Gunakanmetodeyangtepat,tidakperlumenghantamnyamukdenganmenggunakanmeriam:).
TerminologidannotasipadadataminingKarenadataminingberasaldaripertemuanantarastatistikdan
machinelearning,parapraktisiseringmenggunakanbeberapaistilahuntukmengacukepadahalyang
sama.sebagaicontoh,machinelearningmenggunakanistilahtargetvariableatauoutputvariableuntukvariabel
yangsedangdiprediksi,tapiparapenggunastatistikmenyebutnyadengandependentvariableatauthe
response.Berikutiniadalahrangkumandariistilahyangbiasadigunakan:
AlgorithmMengacukepadaprosedurspesifikyangdigunakanuntukmenerapkansebuahteknikkhususdari
datamining,seperti:clasificationtree,discriminantanalysis,dll.
AtributeLihatkePredictor
CaselihatkeObservation
ConfidenceConfidencemempunyaiartikhususdidalamAssociationRule,misalnyadidalampernyataan
"ApabilaAdanBdibeli,makaCjugadibeli"maka,ConfidenceadalahkondisikemungkinanCjugadibeliapabila
AdanBdibeli.Confidencejugamemilikiartiyanglebihluasdidalamstatistik(ConfidenceInterval),mengenai
derajatdarikesalahandidalamsebuahestimasiyangdihasilkandaripemilihansebuahsamplesebagailawan
darisamplelainnya.
DependentVariablelihatResponse
EstiationLihatPrediction
FeatureLihatPredictor
HoldoutSampleAdalahsebuahsampledaridatayangtidakdigunakandidalamfittingsebuahmodel,
digunakanuntukmenilaiperformadarimodeltersebut.
InputVariableLihatPredictor
ModelMengacukepadasebuahalgoritmayangditerakankepadasebuahdataset,lengkapdengansettingnya
(beberapaalgoritmamempunyaiparameteryangdapatdisesuaikanolehuser)
ObservationAdalahsebuahunitdarianalisisdimanasebuahpengukurandiambil(misaltransaksidari
customer)jugadikenalsebagaicase,record,patternataurow(setiaprowseringkalimerepresentasikansebuah
recordsetiapkolomadalahsatuvariabel).
OutcomeVariableLihatResponse
OutputVariableLihatResponse
PatternAdalahsebuahseperangkatpengukuranpadasebuahobservasiataupengamatan.(misal:tinggi,
berat,danumurdariseseorang)
PredictionBerartiramalandalamsebuahnilaiyangdidapatdarioutputvariabelyangterusmenerus(Juga
dikenalsebagaiestimation).
PredictorBiasanyadinotasikandenganXjugadisebutdenganFeature,InputVariable,IndependentVariable,
ataudariperspektifdatabase,predictordisebutdenganfield.
RecordLihatobservation
ResponseBiasanyadinotasikandenganY,adalahvariabelyangsedangdiramalkanpadasupervisedlearning
jugadikenaldengandependentvariable,outputvariable,targetvariable,atauoutcomevariable.
Scoremengacukepadavalueatauclassyangdiprediksi.Scoringnewdataberartimenggunakansebuah
modelyangdibangundengantrainingdatauntukmemprediksioutputvaluedidatayangbaru.
SuccessClassAdalahsebuahclassofinterestpadasebuahhasilbinary(misal:purchaserdidalamoutcome
purchase/nopurchase)
SupervisedlearningMengacukepadaprosesdalampenyediaanalgoritma(logisticregression,regression
tree,dll)denganrecorddidalamsebuahoutputvariableofinterestyangdiketahuidanalgoritmabelajar
bagaimanamemprediksinilaidenganrecordbarudimanaoutputnyatidakdiketahui.
TestData(atauTestSet)Mengacukepadaporsidaridatayangdigunakanhanyapadaakhirdari
pembangunanmodeldanprosesseleksiuntukmenaksirseberapabagusfinalmodelpadapenambahandata.T
TrainingData(atauTrainingSet)Mengacukepadaporsidaridatayangdigunakanuntukmencocokan
sebuahmodel.
UnsupervisedLearningMengacukepadaanalisatentanganalisismanayangmelakukanpercobaanuntuk
mempelajarisesuatudaridatadaripadamencarinilaioutputnya.
Validationdata(atauvalidationset)Mengacukepadaporsidaridatayangdigunakanuntukmenilai
seberapabaikmodelitucocok,untukmenyesuaikanbeberapamodel,danuntukmemilihmodelterbaikdari
modelmodelyangpernahdicoba.
VariableSegalapengukuranpadarecord,termasukvariableinput(X)danvariableOutput(Y).
Mungkinmembosankanmembacateoridasarnyaya?:)iknowit,tapiiniadalahpondasidariapayangakan
sayaterustuliskan,tujuanakhirnyaadalahmembangunsebuahBusinessIntelligencedengan
menggunakanMicrosoftExcel(+beberapaplugin)danMicrosoftAccess(kalauadawaktulebih,sayaakan
tambahkansentuhansharepointdisini),kenapamenggunakanduatoolsini?padahalkandiSQLServer2005
keatassudahadafiturBusinessIntelligence?mudahlagimenggunakannya.Jawabannya,yangpertamaada
padaharganya,tidaksemuaorangatauperusahaanmampumembelilisensiMicrosoftSQL2005keatas,dan
tidaksemuaorangbisadengancepatmenggunakannya,hargamicrosoftofficerelatiflebihmurahdibanding
microsoftSQLServer(memangsayaakuiadakesenjanganluarbiasadalamfiturnya),tapikembalilagibahwakita
akanfokuskepadafiturbusinessintelligence,danuntukUsahaKecilMenengah(UKM),KeluargaMicrosoft
Officeadalahsenjatayangtepat.hargaterjangkaudanmudahdalammenggunakannya.TheMostCost
EffectiveSolution.AlasankeduaadalahWorkingEnvironmentyangfamiliar,ketikasayatanyakan,siapayang
tidakbisamenggunakanmicrosoftexcel?sayarasasetiaporangyangmenggunakanmicrosoftofficedalam
perjalananhidupnyapastibisamenggunakanmicrosoftexcel.iniyangakankitagalilebihdalamlagi.
MicrosoftOfficesejatinyaadalahtoolsyangluarbiasa,tapitidakbanyakorangmauuntuk
mengeksplorasinya.kebanyakanpenggunahanyamenggunakanmicrosoftwordsebagaipenggantimesinketik,
menggunakanmicrosoftexcelhanyasebagaipenggantikalkulator,MicrosoftOutlookhanyasebagaialatuntuk
mengirimdanmenerimaemail,dll.
sayaberharapbisaterusberbagiilmudanpengalamansayadalamIndustriRetaildenganmenggunakanproduk
MicrosoftOfficesecaraoptimal.DataMiningmerupakandisiplinilmuyangkinisedanghotdimanamana.Dipakaidi
industriperbankansampaimikrobiologi.Dataminingmerupakangabungandaristatistika,machinelearning,
databasedanvisualisasi.Adatigapilardatamining:data,teknikdataminingdanmodelling.Jadiharusadadata
sebagaibahanuntukdiolah.Danyangpentingkemampuanpemodelan.Bagaimanamodelyangkitapilihuntuk
menyelesaikanproblemyangkitahadapi.Aapakahklstering,klasifikasiatauprediksi.Setelahituharusadateknik
dataminingyangkitakuasaiuntukmenyelesaikanmodelyangkitapunyai.Tugasutamadataminingadalah:
Klastering,klasifikasi,prediksi,analisispolaberurutandanasosiasi.Masingmasingtugasmempunyaitoolyang
berbeda.Klasteringmemerlukankmeans,hirarchicalclusteringataufuzzycmeans.Klasifikasimemerlukananalisis
diskriminan,decisiontree,neuralnetworksatausuppurvectormachines.Sedangkanprediksimemerlukanregresi,
supportvectorregresi,neuralnetworks.Sebelumkitabisamenerapkanteknikmanayangakanditerapkan,kita
harusmemahamidulukasusapayangkitahadapi.Setelahituperludilakukandatapreprocessingsebelumbisa
digunakansebagaiinputuntukteknikdataminingyangdipilih.Denganmeningkatnyatransaksiyangdisimpan
dengansistembasisdatasekarangini,makadibutuhkanprosesuntukmenanganidatatersebut.Prosesuntuk
menanganidatatersebutdikenaldenganKnowledgeDiscoveryinDatabases(KDD).DataMiningadalahkegiatan
untukmenemukaninformasiataupengetahuanyangbergunasecaraotomatisdaridatayangjumlahnyabesar.
DataMiningmerupakansalahsatuprosesdarikeseluruhanprosesyangadapadaKnowledgeDiscoveryin
Databases(KDD).KDDsendirimerupakansekumpulanprosesuntukmenemukanpengetahuanyangbermanfaat
daridata.KDDterdiridariserangkaianlangkahperubahan,termasukdatapreprocessingdanjugapostprocessing.
Datapreprocessingmerupakanlangkahuntukmengubahdatamentahmenjadiformatyangsesuaiuntuktahap
analisisberikutnya.Selainitudatapreprocessingjugadigunakanuntukmembantudalampengenalanatributdan
datasegmenyangrelevandengantaskdatamining.Datapreprocessingkemungkinanakanmembutuhkanwaktu
yangsangatlama,halinidikarenakandatayangmentahkemungkinandisimpandenganformatdandatabaseyang
berbeda.PostprocessingmeliputisemuaoperasiyangharusdilakukanagarhasildariDataMiningdapatdiakses
danlebihmudahuntukdiinterpretasikanolehparaanalis.Teknikvisualisasijugadapatdigunakanuntuk
mempermudahparaanalisuntukmenggalidanmemahamikegunaandaridatamining.Kumpulanprosesdalam
KDDmeliputi:pembersihandata(datacleaning),integrasidata(dataintegration),pemilihandata(dataselection),
transformasidata(datatransformation),penambangandata(datamining),evaluasipola(patternevaluation),dan
presentasipengetahuan(knowledgepresentation).Berdasarkandefinisiiniterlihatbahwadatamininghanya
merupakansalahsatuprosesdarikeseluruhanprosesyangadapadaKDD,tetapimerupakanprosesyangsangat
pentingdalamusahamenemukanpolapolayangbergunadarisejumlahdatayangbesar(datatersebutbisa
disimpandalambasisdata,datawarehouse,ataumediapenyimpananinformasilainnya).DataMiningTaskPada
umumnya,dataminingtaskdibagimenjadiduakategoriyangpenting,yaitu:1.PredictivetasksTujuandaritaskini
adalahuntukmemprediksinilaisebuahatributyangpentingberdasarkannilaidariatributyanglainnya.Atributyang
diprediksibiasanyadikenalsebagaitargetataudependentvariable,sedangkanatributyangdigunakanuntuk
melakukanprediksidikenaldenganexplanatoryatauindependentvariable.2.DescriptivetaskTujuandaritaskini
adalahuntukmenghasilkanpola(correlations,trends,clusters,trajecttoriesdananomalies)yangmerangkum
keterhubungandalamdata.Darigambardiatas,datayangadadapatdigunakansebagaiintidaridataminingtask.
Dataminingtasktersebutantaralain:1)PredictiveModellingPredictiveModellingdigunakanuntukmembangun
sebuahmodeluntuktargetvariablesebagaifungsidariexplanatoryvariable.Explanatoryvariabledalamhalini
merupakansemuaatributyangdigunakanuntukmelakukanprediksi,sedangkantargetvariablemerupakanatribut
yangakandiprediksinilainya.Predictivemodelingtaskdibagimenjadiduatipeyaitu:Classificationdigunakanuntuk
memprediksinilaidaritargetvariableyangdiscrete(diskret)danregressiondigunakanuntukmemprediksinilaidari
targetvariableyangcontinu(berkelanjutan).2)AssociationAnalysis
Associationanalysisdigunakanuntukmenemukanaturanassociationyangmemperlihatkankondisikondisinilai
atributyangseringmunculsecarabersamaandalamsebuahhimpunandata.
3)ClusterAnalysisTidaksepertiklasifikasiyangmenganalisakelasdataobyekyangmengandunglabel.Clustering
menganalisaobjekdatatanpamemeriksakelaslabelyangdiketahui.Labellabelkelasdilibatkandidalamdata
training.Karenabelumdiketahuisebelumnya.Clusteringmerupakanprosespengelompokkansekumpulanobjek
yangsangatmirip.4)AnomalyDetectionAnomalyDetectionmerupakanmetodependeteksiansuatudatadimana
tujuannyaadalahmenemukanobjekyangberbedadarisebagianbesarobjeklain.Anomalydapatdideteksi
denganmenggunakanujistatistikyangmenerapkanmodeldistribusiatauprobabilitasuntuk
data.PendahuluanManusiatelahsecaramanualmengekstrakpoladaridataselamaberabadabad,tetapi
meningkatnyavolumedatayangdizamanmoderntelahmenyerukanpendekatanyanglebihotomatis.Metode
awaluntukmengidentifikasipolapoladalamdatatermasukBayesteorema(1700)danAnalisisRegresi(1800).
Proliferasi,dimanamanadanmeningkatkankekuatanteknologikomputertelahmeningkatpengumpulandatadan
penyimpanan.Sepertikumpulandatatelahtumbuhdalamukurandankompleksitas,tanganlangsunganalisisdata
telahsemakintelahditambahdengantidaklangsung,pemrosesandataotomatis.Initelahdibantuolehpenemuan
penemuanlaindalamilmukomputer,sepertijaringansaraf,Clustering,Geneticalgorithms(1950),Keputusan
pohon(1960)danDukunganmesinvektor(1980).Diperlukansebuahmetodesebagaipenerapanpengumpulan
datayangdapatmenampung,menganalisissecaraakuratdatayangbagitubesar,metodetersebuthinggasaatini
dikenalsebagaiDataMining.DataMiningadalahserangkaianprosesuntukmenggalinilaitambahdarisuatu
kumpulandataberupapengetahuanyangselamainitidakdiketahuisecaramanual.Patutdiingatbahwakatamining
sendiriberartiusahauntukmendapatkansedikitbarangberhargadarisejumlahbesarmaterialdasar.Karenaitu
DMsebenarnyamemilikiakaryangpanjangdaribidangilmusepertikecerdasanbuatan(artificialintelligent),
machinelearning,statistikdandatabase.Dataminingadalahprosesmenerapkanmetodeiniuntukdatadengan
maksuduntukmengungkappolapolatersembunyi.DenganartilainDataminingadalahprosesuntukpenggalian
polapoladaridata.Dataminingmenjadialatyangsemakinpentinguntukmengubahdatatersebutmenjadi
informasi.Haliniseringdigunakandalamberbagaipraktekprofil,sepertipemasaran,pengawasan,penipuan
deteksidanpenemuanilmiah.Telahdigunakanselamabertahuntahunolehbisnis,ilmuwandanpemerintahuntuk
menyaringvolumedataseperticatatanperjalananpenumpangpenerbangan,datasensusdansupermarket
scannerdatauntukmenghasilkanlaporanrisetpasar.Alasanutamauntukmenggunakandataminingadalahuntuk
membantudalamanalisiskoleksipengamatanperilaku.Datatersebutrentanterhadapcollinearitykarenadiketahui
keterkaitan.Faktayangtakterelakkandataminingadalahbahwasubset/setdatayangdianalisismungkintidak
mewakiliseluruhdomain,dankarenanyatidakbolehberisicontohcontohhubungankritistertentudanperilaku
yangadadibagianlaindaridomain.Untukmengatasimasalahsemacamini,analisisdapatditambah
menggunakanberbasispercobaandanpendekatanlain,sepertiChoiceModellinguntukdatayangdihasilkan
manusia.Dalamsituasiini,yangmelekatdapatberupakorelasidikontroluntuk,ataudihapussamasekali,selama
konstruksidesaineksperimental.BeberapateknikyangseringdisebutsebutdalamliteraturDataMiningdalam
penerapannyaantaralain:clustering,classification,associationrulemining,neuralnetwork,geneticalgorithmdan
lainlain.YangmembedakanpersepsiterhadapDataMiningadalahperkembanganteknikteknikDataMininguntuk
aplikasi1padadatabaseskalabesar.SebelumpopulernyaDataMining,tekniktekniktersebuthanyadapat
dipakaiuntukdataskalakecilsaja.ProsesDataMiningTahapTahapDataMining.KarenaDataMiningadalahsuatu
rangkaianproses,DataMiningdapatdibagimenjadibeberapatahap:1.Pembersihandata(untukmembuangdata
yangtidakkonsistendannoise)2.Integrasidata(penggabungandatadaribeberapasumber)3.Transformasidata
(datadiubahmenjadibentukyangsesuaiuntukdimining)4.AplikasiteknikDataMining5.Evaluasipolayang
ditemukan(untukmenemukanyangmenarik/bernilai)6.Presentasipengetahuan(denganteknikvisualisasi)Tahap
tahaptsb.bersifatinteraktifdimanapemakaiterlibatlangsungataudenganperantaraanknowledgebase.Teknik
DataMiningBerikutbeberapajenisteknikDataMiningyangpalingpopulerdikenaldandigunakan:1.Association
RuleMiningAssociationruleminingadalahteknikmininguntukmenemukanaturanassosiatifantarasuatu
kombinasiitem.Pentingtidaknyasuatuaturanassosiatifdapatdiketahuidenganduaparameter,supportyaitu
persentasekombinasiitemtsb.dalamdatabasedanconfidenceyaitukuatnyahubunganantaritemdalamaturan
assosiatif.AlgoritmayangpalingpopulerdikenalsebagaiAprioridenganparadigmagenerateandtest,yaitu
pembuatankandidatkombinasiitemyangmungkinberdasaraturantertentulaludiujiapakahkombinasiitemtsb
memenuhisyaratsupportminimum.Kombinasiitemyangmemenuhisyarattsb.disebutfrequentitemset,yang
nantinyadipakaiuntukmembuataturanaturanyangmemenuhisyaratconfidenceminimum.Algoritmabaruyang
lebihefisienbernamaFPTree.2.ClassificationClassificationadalahprosesuntukmenemukanmodelataufungsi
yangmenjelaskanataumembedakankonsepataukelasdata,dengantujuanuntukdapatmemperkirakankelas
darisuatuobjekyanglabelnyatidakdiketahui.Modelitusendiribisaberupaaturanjikamaka,berupadecision
tree,formulamatematisatauneuralnetwork.Decisiontreeadalahsalahsatumetodeclassificationyangpaling
populerkarenamudahuntukdiinterpretasiolehmanusia.Disinisetiappercabanganmenyatakankondisiyangharus
dipenuhidantiapujungpohonmenyatakankelasdata.AlgoritmadecisiontreeyangpalingterkenaladalahC4.5,
tetapiakhirakhirinitelahdikembangkanalgoritmayangmampumenanganidataskalabesaryangtidakdapat
ditampungdimainmemorysepertiRainForest.MetodemetodeclassificationyanglainadalahBayesian,neural
network,geneticalgorithm,fuzzy,casebasedreasoning,danknearestneighbor.Prosesclassificationbiasanya
dibagimenjadiduafase:learningdantest.Padafaselearning,sebagiandatayangtelahdiketahuikelasdatanya
diumpankanuntukmembentukmodelperkiraan.Kemudianpadafasetestmodelyangsudahterbentukdiuji
dengansebagiandatalainnyauntukmengetahuiakurasidarimodeltsb.Bilaakurasinyamencukupimodelinidapat
dipakaiuntukprediksikelasdatayangbelumdiketahui.3.ClusteringBerbedadenganassociationruleminingdan
classificationdimanakelasdatatelahditentukansebelumnya,clusteringmelakukanpengelompokandatatanpa
berdasarkankelasdatatertentu.Bahkanclusteringdapatdipakaiuntukmemberikanlabelpadakelasdatayang
belumdiketahuiitu.Karenaituclusteringseringdigolongkansebagaimetodeunsupervisedlearning.Prinsipdari
clusteringadalahmemaksimalkankesamaanantaranggotasatukelasdanmeminimumkankesamaanantar
kelas/cluster.Clusteringdapatdilakukanpadadatayanmemilikibeberapaatributyangdipetakansebagairuang
multidimensi.Banyakalgoritmaclusteringmemerlukanfungsijarakuntukmengukurkemiripanantardata,
diperlukanjugametodeuntuknormalisasibermacamatributyangdimilikidata.Beberapakategorialgoritma
clusteringyangbanyakdikenaladalahmetodepartisidimanapemakaiharusmenentukanjumlahkpartisiyang
diinginkanlalusetiapdataditesuntukdimasukkanpadasalahsatupartisi,metodelainyangtelahlamadikenal
adalahmetodehierarkiyangterbagidualagi:bottomupyangmenggabungkanclusterkecilmenjadiclusterlebih
besardantopdownyangmemecahclusterbesarmenjadiclusteryanglebihkecil.Kelemahan3metodeiniadalah
bilabilasalahsatupenggabungan/pemecahandilakukanpadatempatyangsalah,tidakdapatdidapatkancluster
yangoptimal.Pendekatanyangbanyakdiambiladalahmenggabungkanmetodehierarkidenganmetodeclustering
lainnyasepertiyangdilakukanolehChameleon.Akhirakhirinidikembangkanjugametodeberdasarkepadatan
data,yaitujumlahdatayangadadisekitarsuatudatayangsudahteridentifikasidalamsuatucluster.Bilajumlah
datadalamjangkauantertentulebihbesardarinilaiambangbatas,datadatatsbdimasukkandalamcluster.
Kelebihanmetodeiniadalahbentukclusteryanglebihfleksibel.Algoritmayangterkenaladalah
DBSCAN.Implementasi(Penerapan)Dalambidangapasajadataminingdapatditerapkan?Berikutbeberapacontoh
bidangpenerapandatamining:Analisapasardanmanajemen.Solusiyangdapatdiselesaikandengandatamining,
diantaranya:Menembaktargetpasar,Melihatpolabelipemakaidariwaktukewaktu,CrossMarketanalysis,Profil
Customer,IdentifikasikebutuhanCustomer,MenilailoyalitasCustomer,InformasiSummary.AnalisaPerusahaan
danManajemenresiko.Solusiyangdapatdiselesaikandengandatamining,diantaranya:Perencanaankeuangan
danEvaluasiaset,Perencanaansumberdaya(ResourcePlanning),Persaingan(Competition).
Telekomunikasi.Sebuahperusahaantelekomunikasimenerapkandatamininguntukmelihatdarijutaantransaksi
yangmasuk,transaksimanasajakahyangmasihharusditanganisecaramanual.Keuangan.FinancialCrimes
EnforcementNetworkdiAmerikaSerikatbarubaruinimenggunakandatamininguntukmenambangtrilyunandari
berbagaisubyeksepertiproperty,rekeningbankdantransaksikeuanganlainnyauntukmendeteksitransaksi
transaksikeuanganyangmencurigakan(sepertimoneylaundry).Asuransi.AustralianHealthInsurance
Commisionmenggunakandatamininguntukmengidentifikasilayanankesehatanyangsebenarnyatidakperlu
tetapitetapdilakukanolehpesertaasuransi.Olahraga.IBMAdvancedScoutmenggunakandatamininguntuk
menganalisisstatistikpermainanNBA(jumlahshotsblocked,assistsdanfouls)dalamrangkamencapaikeunggulan
bersaing(competitiveadvantage)untuktimNewYorkKnicksdanMiamiHeat.Astronomi.JetPropulsionLaboratory
(JPL)diPasadena,CaliforniadanPalomarObservatoryberhasilmenemukan22quasardenganbantuandata
mining.Halinimerupakansalahsatukesuksesanpenerapandataminingdibidangastronomidanilmuruang
angkasa.InternetWebsurfaidIBMSurfAidmenggunakanalgoritmadatamininguntukmendataakseshalaman
Webkhususnyayangberkaitandenganpemasarangunamelihatprilakudanminatcustomersertamelihatke
efektifanpemasaranmelaluiWeb.Contohkasuspenerapan:Implementasidataminingdenganteknik
ClusteringuntukmelakukanCompetitiveIntelligenceperusahaan.Pembangunanperangkatlunakdatamining
denganmetodeclusteringmenggunakanalgoritmahirarkidivisiveuntukpengelompokancustomerdalamstudi
kasusini,fungsifungsiyangdipakaiadalahfungsiuntukmenentukantitiktitikpusatyangbergunasebagaipusat
pusatkelompokcustomer.

Mengenai Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Mengenai Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

inside:DataMining

Anda mungkin juga menyukai