Anda di halaman 1dari 10

inside:DataMining

ApaituDataMiningPendahuluanPerkembangandatamining(DM)yangpesattidakdapatlepasdari
perkembanganteknologiinformasiyangmemungkinkandatadalamjumlahbesarterakumulasi.Sebagaicontoh,
tokoswalayanmerekamsetiappenjualanbarangdenganmemakaialatPOS(pointofsales).Databasedata
penjualantsb.bisamencapaibeberapaGBsetiapharinyauntuksebuahjaringantokoswalayanberskalanasional.
Perkembanganinternetjugapunyaandilcukupbesardalamakumulasidata.Tetapipertumbuhanyangpesatdari
akumulasidataitutelahmenciptakankondisiyangseringdisebutsebagairichofdatabutpoorofinformation
karenadatayangterkumpulitutidakdapatdigunakanuntukaplikasiyangberguna.Tidakjarangkumpulandataitu
dibiarkanbegitusajaseakanakankuburandata(datatombs).InvestasiyangbesardibidangITuntuk
mengumpulkandataberskalabesariniperludijustifikasidengandidapatnyanilaitambahdarikumpulandata
ini.Kebutuhandariduniabisnisyanginginmemperolehnilaitambahdaridatayangtelahmerekakumpulkantelah
mendorongpenerapanteknikteknikanalisadatadariberbagaibidangsepertistatistik,kecerdasanbuatandsb
padadataberskalabesaritu.Ternyatapenerapanpadadataberskalabesarmemberikantantangantantangan
baruyangakhirnyamemunculkanmetodologibaruyangdisebutdataminingini.Bermuladaripenerapandidunia
bisnis,sekaranginidataminingjugaditerapkanpadabidangbidanglainyangmemerlukananalisadataberskala
besarsepertibioinformasidanpertahanannegara.Dalamtulisanini,penulismencobamemperkenalkandata
miningdenganmembandingkannyadenganbidangilmuyangsudahada,danjugamemberikanbeberapailustrasi
tentangteknikteknikyangumumdipakaididatamining,
Definisi
Adabeberapadefinisidaridataminingyangdikenaldibukubukuteksdatamining.Diantaranyaadalah:
Dataminingadalahserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandataberupa
pengetahuanyangselamainitidakdiketahuisecaramanual.
Dataminingadalahanalisaotomatisdaridatayangberjumlahbesarataukompleksdengantujuanuntuk
menemukanpolaataukecenderunganyangpentingyangbiasanyatidakdisadarikeberadaannya
Menarikuntukdiingatbahwakataminingsendiriberartiusahauntukmendapatkansedikitbarangberhargadari
sejumlahbesarmaterialdasar.Daridefinisidefinisiitu,dapatdilihatadabeberapafaktoryangmendefinisikandata
mining:
1.dataminingadalahprosesotomatisterhadapdatayangdikumpulkandimasalalu
2.objekdaridataminingadalahdatayangberjumlahbesarataukompleks
3.tujuandaridataminingadalahmenemukanhubunganhubunganataupolapolayangmungkinmemberikan
indikasiyangbermanfaat
SejarahDataminingbukanlahsuatubidangyangsamasekalibaru.Salahsatukesulitanuntukmendefinisikandata
miningadalahkenyataanbahwadataminingmewarisibanyakaspekdanteknikdaribidangbidangilmuyang
sudahmapanterlebihdulu.Gambar1menunjukkanbahwadataminingmemilikiakaryangpanjangdaribidang
ilmusepertikecerdasanbuatan(artificialintelligent),machinelearning,statistic,databasedanjugainformation
retrieval.Beberapateknikyangseringdisebutsebutdalamliteraturdataminingseperticlassification,neural

network,geneticalgorithmdll.sudahlamadikenaldiduniakecerdasanbuatan.Statistikmemberikankontribusi
padadataminingdenganteknikteknikuntukmenyeleksidatadanevaluasihasildataminingselainteknikteknik
dataminingseperticlustering.Yangmembedakanpersepsiterhadapdataminingadalahperkembanganteknik
teknikdatamininguntukaplikasipadadatabaseskalabesar.Sebelumpopulernyadatamining,teknikteknik
tersebutpadaumunyaditerapkanuntukdataskalakecilsaja.Selainitubeberapateknikdaribidangdatabaseuntuk
transformasidatajugamerupakanbagianintegraldariprosesdatamining.Akhirakhiriniadabeberapabidangilmu
sepertiinformationretrievalyangjugaterlibatdalamprosesdatamininguntukmengekstraksumberdatabagidata
miningdarisumbersumbersepertiteksdanwebsite.Walaupundataminingmemilikisumberdaribeberapabidang
ilmu,dataminingberbedadalambeberapaaspekdibandingkandenganbidangilmusepertiberikut:
statistik:modelstatistikdipersiapkanolehparaahlistatistik,sedangkandataminingmengembangkanstatistik
untukmenanganidataberjumlahbesarsecaraotomatis
expertsystem(sistemcerdas):modelpadaexpertsystemdibuatberupaaturanaturanberdasarpada
pengalamanpengalamanparaahli
datawarehouse(DWH):seringterjadikerancuanantaradataminingdandatawarehousekarenakeduanya
seringdipakaibersamaan.Padaumumnyadatawarehouselebihmerujukpadatempatuntukmenyimpandata
yangterkonsolidasisedangkandataminingbisadianggapsebagaiperkakasuntukmenganalisaotomatisnilai
daridataitu
OLAP:sepertidatawarehouse,OLAPjugaseringdibahasbersamadatamining.TetapiOLAPmemilikitujuanuntuk
memastikanhipotesayangsudahdiformulasikanterlebihduluolehpenggunanya.Kemampuankitadalam
memperolehdanmengolahdatatelahmeningkatsecaradrastisbelakanganini.Banyakfaktoryangmempengaruhi
peningkatandataini,diantaranyakomputerisasidalambisnis,pemerintahandanjugailmiah.Semakintingginya
kapasitasmediapenyimpanandenganhargayangrelatifterjangkausertameluasnyapenggunaankameradigital,
alatalatpublik,penggunaanbarcodedalamprosestransaksiprodukmenjadikandatatumbuhsecaraekplosif
dalamberbagaibidang.Selainitu,perkembanganjaringaninternetsebagaisaranainformasiglobalmenjadikan
penumpukandatainisemakintakterkendali.Pertumbuhandatayangekplosifitudisimpandalamdatabase
databasesementarayangbersifatoperasional.Denganberjalannyawaktu,databsetersebutmenjadigudangdata
ataulebihdikenaldengandatawarehouse.Didalamdatawarehouseinitersimpanbanyaksekalidatayangtelah
direkapsetiapharinya.Melaluidatadatainilahterdapatinformasiyangharusdigaliuntukmenunjangprosesbisnis
yangadadalammenjalankanvisimisiperusahaan.Dibutuhkansuatuteknikuntukmenggaliinformasiyangterdapat
padadatawarehousetersebut.Lahirlahdatamining,yaitusuatuteknikuntukmengekstrasisuatupoladaridata.
Dataminingditerapkandenganparadigmauntukmelihatinformasiyangtersembunyi.Prosespencarianini
dilakukansecaraotomatisterhadappoladalamdatadenganjumlahbesardenganmenggunakanteknikteknik
sepertiklasifikasi,clustering,dll.Dataminingadalahsuatumultidisiplinilmuyangkompleksdanberirisandengan
ilmulainsepertistatistika,database,informationretrieval,machinelearning,patternrecognition,algoritmadanilmu
lainnya.Menurutparaahli,dataminingmerupakansebuahanalisadariobservasidatadalamjumlahbesaruntuk
menemukanhubunganyangtidakdiketahuisebelumnyadanmetodebaruuntukmeringkasdataagarmudah
dipahamisertakegunaannyauntukpemilikdata(DavidHand,2001).Dataminingdikenaljugadenganistilah
KnowledgeDiscoveryfromData(KDD)Dataminingmerupakansuatutahapandalampenemuanpengetahuandan
menjadicoreprosesdarisuatujumlahdatayangbesar,tahapantahapantersebutyaitu:Gambar1.Datamining
sebagaitahapandalampenemuanpengetahuan(JiaweiHan,2006)

1.Datacleaning,untukmembersihkandatadarinoisedatadandatayangtidakkonsiten
2.Dataintegration,megkombinasikan/mengintegrasikanbeberapasumberdata
3.Dataselection,mengambildatadatayangrelevandaridatabaseuntukdianalisis
4.Datatransformation,mentransformasikandatasummaryataupunoperasiagregasi
5.Datamining,merupakanprosesyangesensialdimanametodedigunakanuntukmengekstrakpoladatayang
tersembunyi
6.Patternevaluation,untukmengidentifikasipolasehinggamereperesentasikanpengetahuanberdasarkannilai
nilaiyangmenarik
7.Knowledgepresentation,dimanateknikrepresentasidanvisualisaidatadigunakanuntukmempresentasikan
pengetahuanyangdiadapatkepadauser
ApaituDataMining?
SecarasingkatDataMiningadalahsebuahprosespenggalianpoladaridata,dalampenjabaranyanglebih
luasDataminingadalahsebuahprosesdaripencariankorelasiyangbaru,poladantrendyang
memberikaninformasi,dengancaramenyaringdatadalamkuantitasyangbesar,menggunakanteknologi
polapengenalanyangserupadenganteknikstatistikdanteknikmatematika.
Dataminingsemakinmenjadihalyangsangatpentingdalammengubahdatamenjadiinformasi.Tidakseperti
statistikyangmenggunakansampelpopulasisebagaidatanya,dataminingmembutuhkandatayang
besar,semakinbesar,prosesmenambanganakansemakinefektifmenemukanpolapolatertentu.Dimana
DataMiningdigunakan?Dataminingdigunakandibanyaktempat,danbidangpenerapannyajugadapatbermacam
macam,misalnya:
militermenggunakandatamininguntukmempelajariapasajayangmenjadifatorutamadalamketepatan
sasaranpengeboman
Agenintelejendapatmengaplikasikandataminingdalammenangkapdanmemilahinformasiinformasiyang
sesuaidenganapayangingindipelajari
Spesialiskeamananjaringandapatmemanfaatkandatamininguntukmelihatpaketdatamanayangberpotensi
memicuancaman
Analiskartukreditdapatmenggunakandataminingdalammemilahcalonnasabahkartukredityangberpotensi
melakukankreditmacet.
Pelakuretaildapatmenggunakandatamininguntukmelihatkarakteristikdanperilakupembelinya,sehingga
dapatselalumenjualprodukyangdiinginkanolehcustomer.
Walaupunmetodedantoolsyangdigunakanuntukdataminingdapatdiaplikasikanpadabanyakhal,sayaakan
lebihmemberikanpendekatandarisudutpandangbisnis.Beberapapertanyaanumumberkaitandenganbisnis
dapatdijawabdenganmenggunakanDataMining,termasukdiantaranyaadalah:
1.Darisekianbanyakdaftarcaloncustomer,kirakiramanayangakanbenarbenarmenjadicustomer
baru?Kitadapatmenggunakanteknikklasifikasi(misal:LogisticRegression,ClassificationTrees,ataumetode

lainnya)untukmengenaliindividuyangmempunyakemiripanfaktordengancustomerterbaikyangkitamiliki.
faktorinidapatberupafaktordemografi,faktorusia,faktorkelaspendapatan,ataufaktorlainnya.
2.Customermanayangkirakiraberpotensiuntukmelakukankejahatanpenipuan?,kitadapat
menggunakanmetodeklasisfikasiuntukmengenaliaplikasikartukredityangberpotensitinggidalamketerlibatan
kejahatanpenipuan,sertamemberikanperhatianlebihkepadamerekamerekayangmasukdalamklasifikasi
tersebut.
3.Mengenalicalonnasabahmanayangmungkinakanmenunggakpembayaranpersonalloan?,kitadapat
menggunakanteknikklasifikasidalammengidentifikasimereka(ataudenganmetodelogisticregressiondalam
menentukannilaiyangakanmenjadipatokandalammengidentifikasicalonpenunggak)
4.Mengenalipelangganmanayangkirakiraberpotensiakanmengabaikantagihanberlangganan
(telepon,majalah,danlainnya)?.sekalilagi,kitadapatmenggunakanteknikklasifikasiuntuk
mengidentifikasikanmereka(logisticregressiondapatdigunakanuntukmenetapkannilai"probabilityofleaving")
AsalMulaDataMining
DataMiningsangatdipengaruhiolehpertemuanstatistikdanmachinelearning(atauyangjugadikenal
denganartificialintelligence/kecerdasanbuatan).
Beragamteknikyangdigunakanuntukmengeksplorasidatadanmembangunmodel,sebenarnyatelahadasejak
lamadidalamstatistikasepertilinearregression,logisticregression,discriminantanalysis,danprincipalcomponent
analysis.{akansayatambahkankemudian}Kenapaadabanyakmetodeyangberbedabeda?Adabanyakmetode
padadatamining,andamungkinbertanyakenapaadabanyakmetodeklasifikasidanprediksi,danmetode
manayangterbaik?
Masingmasingmetodememilikikelebihandankekurangan,metodeyangcocokbergantungkepada
beberapafaktor,sepertiukurandaridataset,tipedaripolayangsudahadadalamdata,apakahdatacocok
denganasumsidarimetodeyangditetapkan,seberapabanyaknoisedalamdata,danapatujuankhususdari
analisa.Gunakanmetodeyangtepat,tidakperlumenghantamnyamukdenganmenggunakanmeriam:).
TerminologidannotasipadadataminingKarenadataminingberasaldaripertemuanantarastatistikdan
machinelearning,parapraktisiseringmenggunakanbeberapaistilahuntukmengacukepadahalyang
sama.sebagaicontoh,machinelearningmenggunakanistilahtargetvariableatauoutputvariableuntukvariabel
yangsedangdiprediksi,tapiparapenggunastatistikmenyebutnyadengandependentvariableatauthe
response.Berikutiniadalahrangkumandariistilahyangbiasadigunakan:
AlgorithmMengacukepadaprosedurspesifikyangdigunakanuntukmenerapkansebuahteknikkhususdari
datamining,seperti:clasificationtree,discriminantanalysis,dll.
AtributeLihatkePredictor
CaselihatkeObservation
ConfidenceConfidencemempunyaiartikhususdidalamAssociationRule,misalnyadidalampernyataan
"ApabilaAdanBdibeli,makaCjugadibeli"maka,ConfidenceadalahkondisikemungkinanCjugadibeliapabila
AdanBdibeli.Confidencejugamemilikiartiyanglebihluasdidalamstatistik(ConfidenceInterval),mengenai
derajatdarikesalahandidalamsebuahestimasiyangdihasilkandaripemilihansebuahsamplesebagailawan
darisamplelainnya.
DependentVariablelihatResponse

EstiationLihatPrediction
FeatureLihatPredictor
HoldoutSampleAdalahsebuahsampledaridatayangtidakdigunakandidalamfittingsebuahmodel,
digunakanuntukmenilaiperformadarimodeltersebut.
InputVariableLihatPredictor
ModelMengacukepadasebuahalgoritmayangditerakankepadasebuahdataset,lengkapdengansettingnya
(beberapaalgoritmamempunyaiparameteryangdapatdisesuaikanolehuser)
ObservationAdalahsebuahunitdarianalisisdimanasebuahpengukurandiambil(misaltransaksidari
customer)jugadikenalsebagaicase,record,patternataurow(setiaprowseringkalimerepresentasikansebuah
recordsetiapkolomadalahsatuvariabel).
OutcomeVariableLihatResponse
OutputVariableLihatResponse
PatternAdalahsebuahseperangkatpengukuranpadasebuahobservasiataupengamatan.(misal:tinggi,
berat,danumurdariseseorang)
PredictionBerartiramalandalamsebuahnilaiyangdidapatdarioutputvariabelyangterusmenerus(Juga
dikenalsebagaiestimation).
PredictorBiasanyadinotasikandenganXjugadisebutdenganFeature,InputVariable,IndependentVariable,
ataudariperspektifdatabase,predictordisebutdenganfield.
RecordLihatobservation
ResponseBiasanyadinotasikandenganY,adalahvariabelyangsedangdiramalkanpadasupervisedlearning
jugadikenaldengandependentvariable,outputvariable,targetvariable,atauoutcomevariable.
Scoremengacukepadavalueatauclassyangdiprediksi.Scoringnewdataberartimenggunakansebuah
modelyangdibangundengantrainingdatauntukmemprediksioutputvaluedidatayangbaru.
SuccessClassAdalahsebuahclassofinterestpadasebuahhasilbinary(misal:purchaserdidalamoutcome
purchase/nopurchase)
SupervisedlearningMengacukepadaprosesdalampenyediaanalgoritma(logisticregression,regression
tree,dll)denganrecorddidalamsebuahoutputvariableofinterestyangdiketahuidanalgoritmabelajar
bagaimanamemprediksinilaidenganrecordbarudimanaoutputnyatidakdiketahui.
TestData(atauTestSet)Mengacukepadaporsidaridatayangdigunakanhanyapadaakhirdari
pembangunanmodeldanprosesseleksiuntukmenaksirseberapabagusfinalmodelpadapenambahandata.T
TrainingData(atauTrainingSet)Mengacukepadaporsidaridatayangdigunakanuntukmencocokan
sebuahmodel.
UnsupervisedLearningMengacukepadaanalisatentanganalisismanayangmelakukanpercobaanuntuk
mempelajarisesuatudaridatadaripadamencarinilaioutputnya.
Validationdata(atauvalidationset)Mengacukepadaporsidaridatayangdigunakanuntukmenilai
seberapabaikmodelitucocok,untukmenyesuaikanbeberapamodel,danuntukmemilihmodelterbaikdari
modelmodelyangpernahdicoba.
VariableSegalapengukuranpadarecord,termasukvariableinput(X)danvariableOutput(Y).
Mungkinmembosankanmembacateoridasarnyaya?:)iknowit,tapiiniadalahpondasidariapayangakan
sayaterustuliskan,tujuanakhirnyaadalahmembangunsebuahBusinessIntelligencedengan

menggunakanMicrosoftExcel(+beberapaplugin)danMicrosoftAccess(kalauadawaktulebih,sayaakan
tambahkansentuhansharepointdisini),kenapamenggunakanduatoolsini?padahalkandiSQLServer2005
keatassudahadafiturBusinessIntelligence?mudahlagimenggunakannya.Jawabannya,yangpertamaada
padaharganya,tidaksemuaorangatauperusahaanmampumembelilisensiMicrosoftSQL2005keatas,dan
tidaksemuaorangbisadengancepatmenggunakannya,hargamicrosoftofficerelatiflebihmurahdibanding
microsoftSQLServer(memangsayaakuiadakesenjanganluarbiasadalamfiturnya),tapikembalilagibahwakita
akanfokuskepadafiturbusinessintelligence,danuntukUsahaKecilMenengah(UKM),KeluargaMicrosoft
Officeadalahsenjatayangtepat.hargaterjangkaudanmudahdalammenggunakannya.TheMostCost
EffectiveSolution.AlasankeduaadalahWorkingEnvironmentyangfamiliar,ketikasayatanyakan,siapayang
tidakbisamenggunakanmicrosoftexcel?sayarasasetiaporangyangmenggunakanmicrosoftofficedalam
perjalananhidupnyapastibisamenggunakanmicrosoftexcel.iniyangakankitagalilebihdalamlagi.
MicrosoftOfficesejatinyaadalahtoolsyangluarbiasa,tapitidakbanyakorangmauuntuk
mengeksplorasinya.kebanyakanpenggunahanyamenggunakanmicrosoftwordsebagaipenggantimesinketik,
menggunakanmicrosoftexcelhanyasebagaipenggantikalkulator,MicrosoftOutlookhanyasebagaialatuntuk
mengirimdanmenerimaemail,dll.
sayaberharapbisaterusberbagiilmudanpengalamansayadalamIndustriRetaildenganmenggunakanproduk
MicrosoftOfficesecaraoptimal.DataMiningmerupakandisiplinilmuyangkinisedanghotdimanamana.Dipakaidi
industriperbankansampaimikrobiologi.Dataminingmerupakangabungandaristatistika,machinelearning,
databasedanvisualisasi.Adatigapilardatamining:data,teknikdataminingdanmodelling.Jadiharusadadata
sebagaibahanuntukdiolah.Danyangpentingkemampuanpemodelan.Bagaimanamodelyangkitapilihuntuk
menyelesaikanproblemyangkitahadapi.Aapakahklstering,klasifikasiatauprediksi.Setelahituharusadateknik
dataminingyangkitakuasaiuntukmenyelesaikanmodelyangkitapunyai.Tugasutamadataminingadalah:
Klastering,klasifikasi,prediksi,analisispolaberurutandanasosiasi.Masingmasingtugasmempunyaitoolyang
berbeda.Klasteringmemerlukankmeans,hirarchicalclusteringataufuzzycmeans.Klasifikasimemerlukananalisis
diskriminan,decisiontree,neuralnetworksatausuppurvectormachines.Sedangkanprediksimemerlukanregresi,
supportvectorregresi,neuralnetworks.Sebelumkitabisamenerapkanteknikmanayangakanditerapkan,kita
harusmemahamidulukasusapayangkitahadapi.Setelahituperludilakukandatapreprocessingsebelumbisa
digunakansebagaiinputuntukteknikdataminingyangdipilih.Denganmeningkatnyatransaksiyangdisimpan
dengansistembasisdatasekarangini,makadibutuhkanprosesuntukmenanganidatatersebut.Prosesuntuk
menanganidatatersebutdikenaldenganKnowledgeDiscoveryinDatabases(KDD).DataMiningadalahkegiatan
untukmenemukaninformasiataupengetahuanyangbergunasecaraotomatisdaridatayangjumlahnyabesar.
DataMiningmerupakansalahsatuprosesdarikeseluruhanprosesyangadapadaKnowledgeDiscoveryin
Databases(KDD).KDDsendirimerupakansekumpulanprosesuntukmenemukanpengetahuanyangbermanfaat
daridata.KDDterdiridariserangkaianlangkahperubahan,termasukdatapreprocessingdanjugapostprocessing.
Datapreprocessingmerupakanlangkahuntukmengubahdatamentahmenjadiformatyangsesuaiuntuktahap
analisisberikutnya.Selainitudatapreprocessingjugadigunakanuntukmembantudalampengenalanatributdan
datasegmenyangrelevandengantaskdatamining.Datapreprocessingkemungkinanakanmembutuhkanwaktu
yangsangatlama,halinidikarenakandatayangmentahkemungkinandisimpandenganformatdandatabaseyang
berbeda.PostprocessingmeliputisemuaoperasiyangharusdilakukanagarhasildariDataMiningdapatdiakses
danlebihmudahuntukdiinterpretasikanolehparaanalis.Teknikvisualisasijugadapatdigunakanuntuk

mempermudahparaanalisuntukmenggalidanmemahamikegunaandaridatamining.Kumpulanprosesdalam
KDDmeliputi:pembersihandata(datacleaning),integrasidata(dataintegration),pemilihandata(dataselection),
transformasidata(datatransformation),penambangandata(datamining),evaluasipola(patternevaluation),dan
presentasipengetahuan(knowledgepresentation).Berdasarkandefinisiiniterlihatbahwadatamininghanya
merupakansalahsatuprosesdarikeseluruhanprosesyangadapadaKDD,tetapimerupakanprosesyangsangat
pentingdalamusahamenemukanpolapolayangbergunadarisejumlahdatayangbesar(datatersebutbisa
disimpandalambasisdata,datawarehouse,ataumediapenyimpananinformasilainnya).DataMiningTaskPada
umumnya,dataminingtaskdibagimenjadiduakategoriyangpenting,yaitu:1.PredictivetasksTujuandaritaskini
adalahuntukmemprediksinilaisebuahatributyangpentingberdasarkannilaidariatributyanglainnya.Atributyang
diprediksibiasanyadikenalsebagaitargetataudependentvariable,sedangkanatributyangdigunakanuntuk
melakukanprediksidikenaldenganexplanatoryatauindependentvariable.2.DescriptivetaskTujuandaritaskini
adalahuntukmenghasilkanpola(correlations,trends,clusters,trajecttoriesdananomalies)yangmerangkum
keterhubungandalamdata.Darigambardiatas,datayangadadapatdigunakansebagaiintidaridataminingtask.
Dataminingtasktersebutantaralain:1)PredictiveModellingPredictiveModellingdigunakanuntukmembangun
sebuahmodeluntuktargetvariablesebagaifungsidariexplanatoryvariable.Explanatoryvariabledalamhalini
merupakansemuaatributyangdigunakanuntukmelakukanprediksi,sedangkantargetvariablemerupakanatribut
yangakandiprediksinilainya.Predictivemodelingtaskdibagimenjadiduatipeyaitu:Classificationdigunakanuntuk
memprediksinilaidaritargetvariableyangdiscrete(diskret)danregressiondigunakanuntukmemprediksinilaidari
targetvariableyangcontinu(berkelanjutan).2)AssociationAnalysis
Associationanalysisdigunakanuntukmenemukanaturanassociationyangmemperlihatkankondisikondisinilai
atributyangseringmunculsecarabersamaandalamsebuahhimpunandata.
3)ClusterAnalysisTidaksepertiklasifikasiyangmenganalisakelasdataobyekyangmengandunglabel.Clustering
menganalisaobjekdatatanpamemeriksakelaslabelyangdiketahui.Labellabelkelasdilibatkandidalamdata
training.Karenabelumdiketahuisebelumnya.Clusteringmerupakanprosespengelompokkansekumpulanobjek
yangsangatmirip.4)AnomalyDetectionAnomalyDetectionmerupakanmetodependeteksiansuatudatadimana
tujuannyaadalahmenemukanobjekyangberbedadarisebagianbesarobjeklain.Anomalydapatdideteksi
denganmenggunakanujistatistikyangmenerapkanmodeldistribusiatauprobabilitasuntuk
data.PendahuluanManusiatelahsecaramanualmengekstrakpoladaridataselamaberabadabad,tetapi
meningkatnyavolumedatayangdizamanmoderntelahmenyerukanpendekatanyanglebihotomatis.Metode
awaluntukmengidentifikasipolapoladalamdatatermasukBayesteorema(1700)danAnalisisRegresi(1800).
Proliferasi,dimanamanadanmeningkatkankekuatanteknologikomputertelahmeningkatpengumpulandatadan
penyimpanan.Sepertikumpulandatatelahtumbuhdalamukurandankompleksitas,tanganlangsunganalisisdata
telahsemakintelahditambahdengantidaklangsung,pemrosesandataotomatis.Initelahdibantuolehpenemuan
penemuanlaindalamilmukomputer,sepertijaringansaraf,Clustering,Geneticalgorithms(1950),Keputusan
pohon(1960)danDukunganmesinvektor(1980).Diperlukansebuahmetodesebagaipenerapanpengumpulan
datayangdapatmenampung,menganalisissecaraakuratdatayangbagitubesar,metodetersebuthinggasaatini
dikenalsebagaiDataMining.DataMiningadalahserangkaianprosesuntukmenggalinilaitambahdarisuatu
kumpulandataberupapengetahuanyangselamainitidakdiketahuisecaramanual.Patutdiingatbahwakatamining
sendiriberartiusahauntukmendapatkansedikitbarangberhargadarisejumlahbesarmaterialdasar.Karenaitu
DMsebenarnyamemilikiakaryangpanjangdaribidangilmusepertikecerdasanbuatan(artificialintelligent),

machinelearning,statistikdandatabase.Dataminingadalahprosesmenerapkanmetodeiniuntukdatadengan
maksuduntukmengungkappolapolatersembunyi.DenganartilainDataminingadalahprosesuntukpenggalian
polapoladaridata.Dataminingmenjadialatyangsemakinpentinguntukmengubahdatatersebutmenjadi
informasi.Haliniseringdigunakandalamberbagaipraktekprofil,sepertipemasaran,pengawasan,penipuan
deteksidanpenemuanilmiah.Telahdigunakanselamabertahuntahunolehbisnis,ilmuwandanpemerintahuntuk
menyaringvolumedataseperticatatanperjalananpenumpangpenerbangan,datasensusdansupermarket
scannerdatauntukmenghasilkanlaporanrisetpasar.Alasanutamauntukmenggunakandataminingadalahuntuk
membantudalamanalisiskoleksipengamatanperilaku.Datatersebutrentanterhadapcollinearitykarenadiketahui
keterkaitan.Faktayangtakterelakkandataminingadalahbahwasubset/setdatayangdianalisismungkintidak
mewakiliseluruhdomain,dankarenanyatidakbolehberisicontohcontohhubungankritistertentudanperilaku
yangadadibagianlaindaridomain.Untukmengatasimasalahsemacamini,analisisdapatditambah
menggunakanberbasispercobaandanpendekatanlain,sepertiChoiceModellinguntukdatayangdihasilkan
manusia.Dalamsituasiini,yangmelekatdapatberupakorelasidikontroluntuk,ataudihapussamasekali,selama
konstruksidesaineksperimental.BeberapateknikyangseringdisebutsebutdalamliteraturDataMiningdalam
penerapannyaantaralain:clustering,classification,associationrulemining,neuralnetwork,geneticalgorithmdan
lainlain.YangmembedakanpersepsiterhadapDataMiningadalahperkembanganteknikteknikDataMininguntuk
aplikasi1padadatabaseskalabesar.SebelumpopulernyaDataMining,tekniktekniktersebuthanyadapat
dipakaiuntukdataskalakecilsaja.ProsesDataMiningTahapTahapDataMining.KarenaDataMiningadalahsuatu
rangkaianproses,DataMiningdapatdibagimenjadibeberapatahap:1.Pembersihandata(untukmembuangdata
yangtidakkonsistendannoise)2.Integrasidata(penggabungandatadaribeberapasumber)3.Transformasidata
(datadiubahmenjadibentukyangsesuaiuntukdimining)4.AplikasiteknikDataMining5.Evaluasipolayang
ditemukan(untukmenemukanyangmenarik/bernilai)6.Presentasipengetahuan(denganteknikvisualisasi)Tahap
tahaptsb.bersifatinteraktifdimanapemakaiterlibatlangsungataudenganperantaraanknowledgebase.Teknik
DataMiningBerikutbeberapajenisteknikDataMiningyangpalingpopulerdikenaldandigunakan:1.Association
RuleMiningAssociationruleminingadalahteknikmininguntukmenemukanaturanassosiatifantarasuatu
kombinasiitem.Pentingtidaknyasuatuaturanassosiatifdapatdiketahuidenganduaparameter,supportyaitu
persentasekombinasiitemtsb.dalamdatabasedanconfidenceyaitukuatnyahubunganantaritemdalamaturan
assosiatif.AlgoritmayangpalingpopulerdikenalsebagaiAprioridenganparadigmagenerateandtest,yaitu
pembuatankandidatkombinasiitemyangmungkinberdasaraturantertentulaludiujiapakahkombinasiitemtsb
memenuhisyaratsupportminimum.Kombinasiitemyangmemenuhisyarattsb.disebutfrequentitemset,yang
nantinyadipakaiuntukmembuataturanaturanyangmemenuhisyaratconfidenceminimum.Algoritmabaruyang
lebihefisienbernamaFPTree.2.ClassificationClassificationadalahprosesuntukmenemukanmodelataufungsi
yangmenjelaskanataumembedakankonsepataukelasdata,dengantujuanuntukdapatmemperkirakankelas
darisuatuobjekyanglabelnyatidakdiketahui.Modelitusendiribisaberupaaturanjikamaka,berupadecision
tree,formulamatematisatauneuralnetwork.Decisiontreeadalahsalahsatumetodeclassificationyangpaling
populerkarenamudahuntukdiinterpretasiolehmanusia.Disinisetiappercabanganmenyatakankondisiyangharus
dipenuhidantiapujungpohonmenyatakankelasdata.AlgoritmadecisiontreeyangpalingterkenaladalahC4.5,
tetapiakhirakhirinitelahdikembangkanalgoritmayangmampumenanganidataskalabesaryangtidakdapat
ditampungdimainmemorysepertiRainForest.MetodemetodeclassificationyanglainadalahBayesian,neural
network,geneticalgorithm,fuzzy,casebasedreasoning,danknearestneighbor.Prosesclassificationbiasanya
dibagimenjadiduafase:learningdantest.Padafaselearning,sebagiandatayangtelahdiketahuikelasdatanya

diumpankanuntukmembentukmodelperkiraan.Kemudianpadafasetestmodelyangsudahterbentukdiuji
dengansebagiandatalainnyauntukmengetahuiakurasidarimodeltsb.Bilaakurasinyamencukupimodelinidapat
dipakaiuntukprediksikelasdatayangbelumdiketahui.3.ClusteringBerbedadenganassociationruleminingdan
classificationdimanakelasdatatelahditentukansebelumnya,clusteringmelakukanpengelompokandatatanpa
berdasarkankelasdatatertentu.Bahkanclusteringdapatdipakaiuntukmemberikanlabelpadakelasdatayang
belumdiketahuiitu.Karenaituclusteringseringdigolongkansebagaimetodeunsupervisedlearning.Prinsipdari
clusteringadalahmemaksimalkankesamaanantaranggotasatukelasdanmeminimumkankesamaanantar
kelas/cluster.Clusteringdapatdilakukanpadadatayanmemilikibeberapaatributyangdipetakansebagairuang
multidimensi.Banyakalgoritmaclusteringmemerlukanfungsijarakuntukmengukurkemiripanantardata,
diperlukanjugametodeuntuknormalisasibermacamatributyangdimilikidata.Beberapakategorialgoritma
clusteringyangbanyakdikenaladalahmetodepartisidimanapemakaiharusmenentukanjumlahkpartisiyang
diinginkanlalusetiapdataditesuntukdimasukkanpadasalahsatupartisi,metodelainyangtelahlamadikenal
adalahmetodehierarkiyangterbagidualagi:bottomupyangmenggabungkanclusterkecilmenjadiclusterlebih
besardantopdownyangmemecahclusterbesarmenjadiclusteryanglebihkecil.Kelemahan3metodeiniadalah
bilabilasalahsatupenggabungan/pemecahandilakukanpadatempatyangsalah,tidakdapatdidapatkancluster
yangoptimal.Pendekatanyangbanyakdiambiladalahmenggabungkanmetodehierarkidenganmetodeclustering
lainnyasepertiyangdilakukanolehChameleon.Akhirakhirinidikembangkanjugametodeberdasarkepadatan
data,yaitujumlahdatayangadadisekitarsuatudatayangsudahteridentifikasidalamsuatucluster.Bilajumlah
datadalamjangkauantertentulebihbesardarinilaiambangbatas,datadatatsbdimasukkandalamcluster.
Kelebihanmetodeiniadalahbentukclusteryanglebihfleksibel.Algoritmayangterkenaladalah
DBSCAN.Implementasi(Penerapan)Dalambidangapasajadataminingdapatditerapkan?Berikutbeberapacontoh
bidangpenerapandatamining:Analisapasardanmanajemen.Solusiyangdapatdiselesaikandengandatamining,
diantaranya:Menembaktargetpasar,Melihatpolabelipemakaidariwaktukewaktu,CrossMarketanalysis,Profil
Customer,IdentifikasikebutuhanCustomer,MenilailoyalitasCustomer,InformasiSummary.AnalisaPerusahaan
danManajemenresiko.Solusiyangdapatdiselesaikandengandatamining,diantaranya:Perencanaankeuangan
danEvaluasiaset,Perencanaansumberdaya(ResourcePlanning),Persaingan(Competition).
Telekomunikasi.Sebuahperusahaantelekomunikasimenerapkandatamininguntukmelihatdarijutaantransaksi
yangmasuk,transaksimanasajakahyangmasihharusditanganisecaramanual.Keuangan.FinancialCrimes
EnforcementNetworkdiAmerikaSerikatbarubaruinimenggunakandatamininguntukmenambangtrilyunandari
berbagaisubyeksepertiproperty,rekeningbankdantransaksikeuanganlainnyauntukmendeteksitransaksi
transaksikeuanganyangmencurigakan(sepertimoneylaundry).Asuransi.AustralianHealthInsurance
Commisionmenggunakandatamininguntukmengidentifikasilayanankesehatanyangsebenarnyatidakperlu
tetapitetapdilakukanolehpesertaasuransi.Olahraga.IBMAdvancedScoutmenggunakandatamininguntuk
menganalisisstatistikpermainanNBA(jumlahshotsblocked,assistsdanfouls)dalamrangkamencapaikeunggulan
bersaing(competitiveadvantage)untuktimNewYorkKnicksdanMiamiHeat.Astronomi.JetPropulsionLaboratory
(JPL)diPasadena,CaliforniadanPalomarObservatoryberhasilmenemukan22quasardenganbantuandata
mining.Halinimerupakansalahsatukesuksesanpenerapandataminingdibidangastronomidanilmuruang
angkasa.InternetWebsurfaidIBMSurfAidmenggunakanalgoritmadatamininguntukmendataakseshalaman
Webkhususnyayangberkaitandenganpemasarangunamelihatprilakudanminatcustomersertamelihatke
efektifanpemasaranmelaluiWeb.Contohkasuspenerapan:Implementasidataminingdenganteknik
ClusteringuntukmelakukanCompetitiveIntelligenceperusahaan.Pembangunanperangkatlunakdatamining

denganmetodeclusteringmenggunakanalgoritmahirarkidivisiveuntukpengelompokancustomerdalamstudi
kasusini,fungsifungsiyangdipakaiadalahfungsiuntukmenentukantitiktitikpusatyangbergunasebagaipusat
pusatkelompokcustomer.

Anda mungkin juga menyukai