Anda di halaman 1dari 39

DATA MINING

Dr. Alwis Nazir, M.Kom


Teknik Informatika FST
UIN Suska Riau - 2018
Business Objective
Determination (#1)
Mendefinisikan permasalahan atau tantangan bisnis dengan
jelas. Hal ini merupakan aspek yang sangat esensial dalam
setiap proyek data mining.
(Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal
-- tahapan ini cenderung diabaikan! dan jarang disebut)
Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is
the data, please mine it.". Tetapi jika mining dilakukan dan
pengetahuan diperoleh, bagaimana dapat diketahui bahwa
solusi tersebut benar-benar dibutuhkan?

2
Business Objective
Determination (#2)
Contoh sasaran bisnis:
Mengembangkan suatu strategi marketing untuk
mempertahankan loyalitas customer di Jawa Tengah dan
Jawa Timur untuk produk soft drink dengan brand dan
ukuran tertentu (200ml dalam kotak alumunium) selama
bulan Nopember, Desember dan Januari yang akan datang.
Perusahaan akan menggunakan kombinasi dari berbagai
strategi marketing (mixed marketing), yang salah satunya
adalah direct mail campaign kepada customer yang
tampaknya "mudah rusak" loyalitasnya.

3
Business Objective
Determination (#3)
Pertanyaan kuncinya :

Rumah mana yang akan dikirimi surat supaya usaha


ini berhasil?

4
Business Objective
Determination (#4)
Dampak pada keseluruhan proses KDD:
– Data Selection: dipilih customers yang membeli produk
soft drink 200 ml dalam kotak alumunium di Jawa Tengah
dan Jawa Timur.
– Data Transformation: customers yang membeli produk
soft drink 200 ml dalam kotak alumunium disorting dalam 10
kategori, yang masing-masing membedakan tingkat
loyalitasnya : membeli produk tersebut 0-10%, 11-20%, ..... ,
81-90%, 91-100% sepanjang waktu pembeliannya.
Selanjutnya data inilah yang akan dibawa ke tahap data
mining.

5
Data Cleaning
Data pada dunia nyata cenderung incomplete (tidak lengkap),
noisy (terganggu, memuat penyimpangan), dan inconsistent
(tidak konsisten).
Rutin-rutin data cleaning mencoba untuk:
– menangani missing values (nilai-nilai yang hilang)
– smoothing (menghaluskan) data yang ber-noise, jika outliers
(data-data di luar umumnya)
– teridentifikasimemperbaiki inkonsistensi data.

6
Penanganan Missing Values (#1)
1. Abaikan recordnya
Kurang efektif saat terdapat beberapa atribut yang memiliki
missing values.
Juga saat persentase missing values harus dipertimbangkan.
2. Masukkan nilai yang hilang secara manual
Secara umum pendekatan ini sangat menyita waktu dan tidak
dapat dikerjakan dengan mudah pada large data sets dengan
missing values dalam jumlah besar.
3. Gunakan konstanta umum untuk mengganti nilai yang hilang
Ganti semua nilai-nilai atribut yang hilang dengan konstanta yang
sama, seperti label "unknown" or nilai -tak terhingga.
Meskipun metode ini mudah, tidak dianjurkan untuk digunakan,
"unknown" dapat dianggap suatu attribute value.

7
Penanganan Missing Values (#2)
4. Gunakan rata-rata nilai atribut untuk mengganti nilai yang
hilang
◦ Misalkan pendapatan rata-rata dari customer All Electronics adalah
$28,000. Gunakan nilai ini untuk mengganti nilai pendapatan yang
kosong.
5. Gunakan rata-rata nilai atribut dari semua sample yang
berada pada kelas yang sama
◦ Sebagai contoh, jika customer dikelompokkan berdasar tingkat resiko
kreditnya, ganti nilai yang hilang dengan rata-rata nilai pendapatan dari
semua customer pada tingkat resiko kredit yang sama.
6. Gunakan nilai yang "paling mungkin" untuk digantikan pada
nilai yang hilang
◦ Dapat diperoleh melalui regresi, atau beberapa metode inferensi seperti
formula Bayes atau induksi decision tree.

8
Penanganan Missing Values (#3)
Contoh Penerapan (Pendekatan ke-6, terakhir)

Gunakan atribut customer yang lain dari semua sample


dalampembentukan sebuah decision tree untuk mengetahui
nilai pendapatan customer yang hilang. Metode ini merupakan
suatu strategi yang terkenal. Jika dibandingkan dengan metode
lainnya, metode ini menggunakan informasi (tepatnya
pengetahuan) dari data itu sendiri untuk mengetahui nilai-nilai
yang hilang. Dengan memperhatikan nilai-nilai dari atribut
yang lain dalam mengestimasi nilai yang hilang, memberikan
kemungkinan yang sangat besar dimana hubungan antara suatu
nilai yang hilang dengan nilai atribut-atribut lainnya tetap
terjaga

9
Penanganan Noisy Data (#1)
“Apa yang dimaksud noise ?“

Noise adalah kesalahan yang terjadi secara random atau


karena variasi yang terjadi dalam pengukuran variabel.

Solusi:
Dengan smoothing (penghalusan data).

10
Penanganan Noisy Data (#2)
Beberapa pendekatan Smoothing:

– Binning
– Clustering
– Regression

11
Binning (#1)
Metode-metode binning menghaluskan nilai pada data yang
terurut dengan "berkonsultasi" dengan data "tetangganya",
yaitu nilai-nilai di sekitarnya.
Nilai-nilai yang terurut didistribusikan ke dalam sejumlah
"buckets" atau bins.
Penghalusan data secara lokal.
Pada contoh ini, data pertama kali diurutkan, dan kemudian
dipartisi ke dalam bins dengan kedalaman yang sama, misal 3
(setiap bin berisi tiga nilai).
Binning juga digunakan sebagai suatu teknik diskretisasi.

12
Binning (#2)
Contoh 1:

– Data untuk variabel harga yang terurut (dalam dollar): 4,


8, 15, 21, 21, 24, 25, 28, 34
– Pertama kali data dipartisi dalam bin-bin dengan
equidepth 3 (kedalaman yang sama):
• Bin 1 : 4, 8, 15
• Bin 2 : 21, 21, 24
• Bin 3 : 25, 28, 34

13
Binning (#3)
Smoothing dengan bin-means (nilai rata-rata):
– Bin 1 : 9, 9, 9
– Bin 2 : 22, 22, 22
– Bin 3 : 29, 29, 29

Smoothing dengan bin-median (nilai tengah):


– Bin 1 : 8, 8, 8
– Bin 2 : 21, 21, 21
– Bin 3 : 28, 28, 28

14
Binning (#4)
Smoothing dengan bin-boundaries (nilai-nilai batas):
– Bin 1 : 4, 4, 15
{8 menjadi 4 karena lebih dekat ke 4 daripada ke 8}
– Bin 2 : 21, 21, 24
{21 menjadi 21 karena malahan nilainya sama}
– Bin 3 : 25, 25, 34
{28 menjadi 25 karena lebih dekat ke 25 daripada ke 34}

15
Binning (#5)
Contoh 2:

Data untuk variabel harga yang terurut (dalam dollar):

4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34.

Lakukan binning dengan ukuran bin=4 melalui


bin-means, binmedian, dan bin-boundaries.

16
Clustering
Data Outliers (di luar nilai yang wajar) dapat dideteksi
dengan clustering yang mengelompokkan nilai-nilai yang
sama dalam sebuah group (cluster)
Secara intuitif, nilai yang berada di luar semua cluster yang
terbentuk, dapat dipertimbangkan sebagai outliers.

17
Regression
Smoothing dapat dilakukan dengan fitting
(mengepaskan) data pada sebuah function
yang diperoleh dengan perhitungan regresi.
– Regresi Linier melibatkan penemuan garis “terbaik”
untuk
mencocokan dua variabel, sehingga satu variabel dapat
digunakan untuk meramalkan yang lain.
– Mulitiple Regresi Linier adalah perluasan dari regresi
linear,
dimana lebih dari dua variabel dilibatkan dan data
disesuaikan
pada permukaan multi dimensi.

18
Penanganan Inconsistent Data
Beberapa data yang tidak konsisten dapat diperbaiki secara
manual dengan menggunakan referensi-referensi eksternal.
– Contoh: Kesalahan-kesalahan yang dibuat pada data entry dapat
diperbaiki dengan melakukan pelacakan pada kertas.
Mungkin juga terdapat inkonsistensi yang disebabkan oleh
integrasi data, dimana atribut-atribut yang diberikan ternyata
memiliki nama-nama yang berbeda karena berasal dari
database-database yang berbeda.
Redundancy (perulangan) atribut juga mungkin terjadi.

19
Data Integration (Integrasi Data)
Sering terjadi tugas analisis melibatkan integrasi data,
yaitu penggabungan data dari beberapa data stores ke
dalam sebuah tempat penyimpanan data seperti data
cube atau warehousing.
Sumber-sumber data dapat berupa multiple database, data
cubes, atau flat files.

20
Beberapa Issues dalam Integrasi
Data (#1)
Entity Identification Problem
– Bagaimana seorang data analis atau komputer dapat yakin
bahwa customer_id dalam sebuah database dan cust_number
dalam database lain sebenarnya menunjuk pada entity yang
sama?
– Database dan data warehouse biasanya mempunyai metadata –
data tentang data. Metadata dapat digunakan untuk
membantu menghindari kesalahan kesalahan dalam integrasi.

21
Beberapa Issues dalam Integrasi
Data (#2)
Redudancy (Perulangan)
– Beberapa perulangan dapat dideteksi dengan
correlation analysis (analisa korelasi).
Contoh: Saat diberikan dua buah atribut, dapat diukur
berapa kuat sebuah atribut berpengaruh pada atribut
lainnya.

22
Beberapa Issues dalam Integrasi
Data (#3)
Detection and Resolution of Data Value Conflicts
(Deteksi dan Penyelesaian Konflik data)
– Sebagai contoh, untuk entiti yang sama, nilai-nilai atribut dari
beberapa sumber yang berbeda dapat berbeda. Hal ini dapat
menyebabkan perbedaan dalam skala representasi.
– Sebuah atribut weight dapat disimpan dalam unit metric pada
satu sistem dan unit British imperial pada sistem lainnya. Gram
vs. Ounce.
– Harga hotel diukur melalui sistem mata uang yang berbeda,
termasuk juga pelayanan yang berbeda (seperti free breakfast)
dan pajak.

23
Model Data Mining
Prediction Methods
Menggunakan beberapa variabel untuk
memprediksi sesuatu atau suatu nilai yang akan
datang.

Description Methods
Mendapatkan pola penafsiran (human-
interpretable patterns) untuk menjelaskan data.

24
Data Mining

Prediktif Deskriptif

Klasifikasi Klastering
Decision tree Summarization
Analisis Time series Aturan Asosiasi
Regresi (Assosiation Rule)
Prediksi Sequence Discovery
Jaringan syaraf tiruan

25
Klasifikasi
❑ Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan
konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek
yang labelnya tidak diketahui
❑ Contoh : Mendeteksi Penipuan
❑ Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit.
◦ Pendekatan :
● Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut
account holder
● Kapan cutomer melakukan pembelian, Dengan cara apa customer
membayar, sebarapa sering customer membayar secara tepat waktu, dll
● Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang
curang atau yang baik. Ini sebagai atribut klass ( the class attribute.)
● Pelajari model untuk class transaksi
● Gunakan model ini untuk mendetekdi kecurangan dengan meneliti
transaksi kartu kredit pada account.

26
Decision tree (Pohon keputusan)
❑ Salah satu model klasifikasi yang mudah di
interpretasikan
❑ Contoh : identifikasi pembeli komputer ( dari decision
tree di bawah ini ternyata salah satu kelompok yang
potensial adalah orang yang berusia < 30 dan pelajar

age
<=30 31-40 >40

yes
Credit
studen rating
no yes excelent fair

no yes no yes

27
Regression

❑ Digunakan untuk memetakan data dengan prediksi


atribut bernilai real
❑ Contoh:
◦ Memprediksi jumlah penjualan produk baru pada
advertising expenditure.
◦ Memprediksi kecepatan memutar (wind velocities)
pada fungsi temperatur, tekanan udara , dll

28
Neural Network (Jaringan syaraf tiruan)
❑ Jaringan syaraf buatan di mulai dengan layer input, dimana tiap
simpul berkorespondensi dengan variabel prediktor.
❑ Simpul- simpul input ini terhubung kebeberapa simpul dalam
hidden layer.
❑ Dan simpul dalam hidden layer dapat terhubung ke simpul
lain dalam hidden layer atau ke output layer.
❑ Output layer terdiri dari satu atau beberapa variable respon

3
1

4 6

2 output

input 5
Hidden layer
29
Outliers
Outliers adalah data yang menyimpang terlalu
jauh dari data yang lainnya dalam suatu
rangkaian data. Adanya data outliers ini akan
membuat analisis terhadap serangkaian data
menjadi bias, atau tidak mencerminkan
fenomena yang sebenarnya. Istilah outliers juga
sering dikaitkan dengan nilai esktrem, baik
ekstrem besar maupun ekstrem kecil.

30
Uang saku per bulan empat mahasiswa :
Mahasiswa pertama Rp. 500 ribu
Mahasiswa kedua Rp. 600 ribu
Mahasiswa ketiga Rp. 700 ribu
Mahasiswa keempat Rp. 5 juta
Rata-ratanya adalah sebesar
(500 ribu + 600 ribu + 700 ribu + 5 juta)/4 =
6,8 juta/4 = 1,7 juta.
Tiga mahasiswa yang lain tentunya keberatan jika dinyatakan
bahwa rata-rata uang saku mereka adalah Rp. 1,7 juta per bulan
karena jauh sekali dari nilai yang sebenarnya.

31
Data ekstrim tersebut muncul karena berbagai
kemungkinan:
1) kesalahan prosedur dalam memasukkan data atau
mengkoding,
2) karena keadaan yang benar-benar khusus, seperti
pandangan responden terhadap sesuatu yang
menyimpang,
3) karena ada sesuatu alasan yang tidak diketahui
penyebabnya oleh peneliti,
4) muncul dalam range nilai yang ada, tetapi bila
dikombinasi dengan variabel lain menjadi ekstrim
(disebut multi variat outliers).

32
Contoh kasus outlier pada penjualan kue kering yang
dikemas dalam kemasan toples Pada tahun 2011. Setiap
bulan, rata-rata penjualan kue kering mencapai 300-400
toples. namun di bulan September, penjualan kue kering
mencapai 704 toples.
No. Bulan Penjualan Toples
1 Januari 367
2 Februari 341
3 Maret 390
4 April 381
5 Mei 400
6 Juni 345
7 Juli 321
8 Agustus 360
9 September 704
10 Oktober 300
11 November 312
12 Desember 320
33
Dari data penjualan diatas, dapat diidentifikasi outlier
dengan 2 metode, yaitu :
1. Metode Grafis

Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan
outlier sangat bergantng pada judgement peneliti, karena hanya
mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan
berpengalaman dalam menginterpretasikan plot grafis tersebut.

34
2. Teknik Statistik
Dengan mempergunakan nilai kuartil dan
jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah
urutan data menjadi empat bagian.
Jangkauan (IQR, Interquartile Range) didefinisikan
sebagai selisih kuartil 1 terhadap kuartil 3, atau
IQR = Q3 – Q1.
Outliers dapat ditentukan yaitu nilai yang kurang
dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih
dari 1.5*IQR terhadap kuartil 3.

35
Plotting dengan R untuk melihat outliers

36
Outliers
Minimal ada 3 macam cara atau pendekatan yang dapat
digunakan dalam memperlakukan sebuah data yang tidak
normal:
1. Mengurangi jumlah data, yaitu data-data yang dinilai
ekstim (outlier),
2. Melakukan transformasi data ke dalam bentuk: Logaritma,
Ln, Kuadrat, Akar Kuadrat, dan lain-lain…,
3. Merubah jenis uji menjadi jenis uji non-parametrik yang
sesuai, mengingat jenis uji non-parametrik tidak
mempersyaratkan sebuah data harus normal.

37
Mengurangi jumlah data, yaitu data-data yang
dinilai ekstim (outlier),
Kurangi 5% data dari total data :
2,5% bagian atas
2,5% bagian bawah
Data disortir dulu secara ascending baru kemudian
dihapus data sejumlah 2,5% dari nilai paling atas dan
2,5% dari nilai paling rendah

38
TUGAS 2
Lakukan perhitungan outliers untuk penjualan
toples dengan mempergunakan teknik statistik.
Untuk panduan, silahkan dilihat pada :
http://id.wikihow.com/Mendeteksi-Outlier-(Pencila
n)

39

Anda mungkin juga menyukai