Ihsan
NIM : 1514620003
Sesi :1
KONSEPDATA MINING
Manusiamemproduksiberagamdatayangjumlahdanukurannyasangatbesar.Data
tersebutmulaitumbuhkarenaadanyatsunamidatayangdimulaisejakweb
2.0. Agar data-data tersebut dapat memiliki makna dan bernilai, maka data
harusdiolahmenjadipengetahuan.Denganpengetahuantersebutmanusiadapatmelaku
kan estimasi dan prediksi apa yang terjadi di depan, melakukan analisistentang
asosiasi, korelasi, dan pengelompokkan antar data dan atribut,
membantupengambilankeputusan dan pembuatan kebijakan.
Alurprosesdatamining:Data–Informasi–Pengetahuan
1. Data:faktayangterekamdantidakmembawaarti
2. Informasi:rekap,rangkuman,penjelasandanstatistikdaridata
3. Pengetahuan:pola,rumus,aturanataumodelyangmunculdaridata
Melaluipengetahuantersebut,dapatdibuatkebijakanuntukmemperbaikisistemyangt
elah berlaku.
Contoh:PrediksiKelulusanMahasiswa
Sisteminformasiakademiksistemprediksikelulusanmahasiswa
Sistem pencatatanpemilusistemprediksihasilpemilu
Sistemlaporankekayaanpejabatsistemprediksikoruptor
Sistem pencatatan kredit sistem penentu kelayakan
kreditPerusahaanpengelolapengetahuan:
Uber,perusahaanarmada taksiterbesartapitidakmemilikikendaraan
Google,perusahaanmediaterbesar tapitidakmemilikikonten
Alibab,retailerterbesar tapitidak memilikitoko
Airbnb,perusahaanpenyediaakomodasiterbesar
tetapitidakmemilikiakomodasisendiri
SejarahDataMining
Sebelum1600:EmpiricalScience.Disebutempiriticalkarenabentuknyatidakk
asat mata
1600-1950: Theoretical Science. Disebut theoritical karena
dapatdibuktikansecaramatematis atau eksperimen
1950-
1990:ComputationalScience,seluruhdisiplinilmubergerakkekomputasi.
Padatahun ini lahir banyakmodel komputasi.
1990-sekarang: Data Science, kultur manusia menghasilkan data
besar,kemampuan komputer untuk mengolah data besar, datangnya data
miningsebagaiarus utama science.
DataMining TasksandRoles
1. Datasource:paper,files,webdocuments,scientificexperiments,databasesyste
ms(dilakukan olehbagianIT/DBA)
2. Dataprocessing,dataintegration,datawarehouse
3. Dataexploration:statisticalsummary,metadata,anddescription(dilakukanDat
aScientist)
4. Datamining:information discoveryandmodeling
5. Datapresentation:visualizationtechniques(dilakukanolehBussinessAnalyst)
6. DecisionMaking(dilakukan olehEndUser)
Masalah-MasalahdiDataMining
1. Databesar
2. Atributdatabanyak
3. Datakompleksdanberanekaragam
4. Penerapannyabaru
PeranUtamaDataMining(Larose,2005)
1. Estimasi,misal estimasi
waktupengirimanpizza,estimasiperformansiCPU.Metodeyangdigunakanse
pertiLinearRegression(LR),NeuralNetwork(NN), dan sebagainya.
2. Forecasting,misalforecastinghargasaham,nilaitukaruang,tingkatinflasi,dans
ebagainya.
3. Klasifikasi,misalklasifikasikelulusanmahasiswa,sentimenanalisis,kebankru
tanperusahaan.Metode yangdigunakansepertiDecisionTree.
4. Klastering,misalklusteringbungairis,jenispelanggan,tingkatkemiskinan.Met
ode yangdigunakansepertiK-Means,K-Medoids,dansebagainya.
5. Asosiasi, misal aturan asosiasi pembelian barang. Metode yang
digunakanseperti FP-Growth.
MetodeLearningAlgoritma DataMining
1. SupervisedLearning
- Pembelajarandengan guru,datasetmemilikitarget/label/kelas
- Sebagianbesaralgoritma dataminingadalahsupervisedlearning
- Algoritmamelakukanprosesbelajarberdasarkannilaidarivariabeltargetyan
gterasosiasi dengannilai darivariabel prediktor
2. Semi-supervisedLearning
- Menggunakan data dengan label dan tidak berlabel sekaligus
dalamprosespembelajarannya
- Datayangmemilikikelasdigunakanuntukmembentukmodel(pengetahuan)
,datatanpalabeldigunakanuntukmembuatbatasanantarakelas
3. UnsupervisedLearning
- Variabel(atribut)yangmenjaditarget/label/kelastidakditentukan
- Algoritmadataminingmencaripola darisemuavariabel(atribut)
- Algoritmaclusteringadalahalgoritmaunsupervisedlearning