Anda di halaman 1dari 50

Data Mining I

Bussiness Intelligent
proses perubahan data menjadi
informasi dan dari kumpulan informasi
yang ada akan diambil polanya menjadi
pengetahuan

Data Mining - definisi


Istilah yang digunakan untuk menguraikan
penemuan pengetahuan dalam database
Data mining menggunakan teknik statistik,
matematika, kecerdasan buatan dan machine
learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai
database besar

Data Mining-definisi (lanj)


Analisis otomatis dari data yang berjumlah
besar atau kompleks dengan tujuan
menemukan pola atau kecenderungan yang
penting yang biasanya tidka disadari
keberadaannya. (pramudiono, 2006)
Analisis dari peninjauan kumpulan data untuk
menemukan hubungan yang tidak diduga dan
meringkas data dengan cara yang berbeda
dengan sebelumnya yang dapat dipahamidan
bermanfaat bagi pemilik data (Larose, 2005)

Data Mining-definisi (lanj)


Data Mining ~ Knowledge Discovery ~
pattern recognition

Faktor perlunya Data Mining


Pertumbuhan data yang cepat
Penyimpanan data dalam data warehouse,
sehingga seluruh perusahaan memiliki akses
ke dalam DB yang handal
Peningkatan akses data melalui web dan
intranet
Tekanan kompetisi bisnis
Ketersediaan teknologi
Perkembangan komputasi yang sangat maju
dan pesat dan kapasitas media simpan

Hal penting terkait data mining


Proses otomatisasi terhadap data yang
sudah ada
Data yang akan diproses berupa data
yang sangat besar
Tujuan data mining mendapatkan
hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat

Fungsi data mining

Fungsi deskripsi (description)


Fungsi estimasi (estimation) Fungsi minor
Fungsi prediksi (prediction)
Fungsi klasifikasi (classification)
Fungsi pengelompokan (clustering)Fungsi major
Fungsi asosiasi (association)

Data mining-Deskripsi
Sebagai kasus akan diberi suatu data
nilai UAS matakuliah Datawarehouse
kelas pagi dan malam

Data Mining-deskripsi (lanj)


Ketika diberi kumpulan data kita sukar
menangkap arti kumpulan data tersebut
sehingga data harus dirangkum
sedemikian rupa agar berbicara
sehingga kita memiliki gambaran
mengenai kumpulan data tersebut
Bayangkan bila datanya adalah ribuan
bahkan jutaan data. jutaan angka

Data Mining-deskripsi (lanj)


Diperlukan suatu cara untuk
menggambarkan sekumpulan data
secara ringkas
deskripsi
Metode Statistika

Data Mining-deskripsi (lanj)

Terdapat beberapa cara untuk memberikan


gambaran secara ringkas.
1. Deskripsi grafis mendeskripsikan data
dalam bentuk gambar
a. diagram titik
b. histogram
2. Deskripsi lokasi memberikan informasi
mengenai data pada posisi tempat tertentu

Data mining-deskripsi (lanj)


3. Deskripsi keberagaman
meski deskripsi lokasi sudah
memberikan gambaran tentang lokasi
pusat data (mean, median, modus) kita
masih belum memiliki gambaran atas
keberagaman data.

Data mining-deskripsi(lanj)
Sebagai gambaran akan kita lihat studi
kasus nilai UAS MK datawarehouse
Nilai UAS terdiri dari 2 kelas yaitu kelas
pagi dan malam
Kelas pagi ditampilkan pada tabel
berikut

Data mining-deskripsi(lanj)

Data mining-deskripsi(lanj)
Mengapa kita perlu memproses data di
atas?
Apakah data di tabel tersebut
memberikan arti bagi kita?
Bagaimana kita mengetahui makna
sekumpulan data di atas?
Bagaimana bila data di atas berjumlah
ribuan bahkan jutaan data?

Data mining-deskripsi grafis


Mendeskripsikan data dalam bentuk
visual
a picture paints a thousand words
Berupa diagram titik dan histogram

Data mining-deskripsi grafis(lanj)


Diagram titik
setiap data digambarkan sebagai
sebuah titik (dot)
Misal nilai kelas pagi digambarkan tiitik
penuh sementara kelas malam
digambarkan titik dengan lubang tengah

Data mining-deskripsi grafis(lanj)


Diagram histogram
Misalnya kita mempunyai data nilai UAS
kelas pagi

Data mining-deskripsi grafis(lanj)


Langkah pertama dalam membuat histogram
adalah membuat beberapa interval dalam hal
ini misalnya membuat interval sesuai dengan
klasifikasi nilai
80 100
=A
68 - 79.99 = B
67.99 56 = C
55.9 46 = D
45 0
=E

Data mining-deskripsi grafis(lanj)


Langkah kedua adalah menghitung
seberapa banyak data yang menjadi
anggota tiap interval
Langkah ketiga, membuat histogram
berdasarkan data di atas

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)


Pengetahuan apa yang diperoleh?
Dengan melihat batang-batang
tersebut kita dapat melihat lokasi
kecenderungan mengumpulnya data
dari batang tertinggi. Histogram yang
menunjukkan data yang merata
menunjukkan keberagaman data
beragam dan menyebar

Data mining-deskripsi lokasi


Meskipun deskripsi grafis sudah
menggambarkan karakteristik data,
sifatnya masih terlalu kasar dan kurang
praktis untuk dilakukan. Kita
memerlukan angka yang cukup
mewakili data dan diperoleh secara
praktis daripada grafis.

Data mining-deskripsi lokasi(lanj)


1. Rata-rata (Mean)
membuat menjadi rata. Rumus mean
adalah jumlah semua data dibagi
dengan banyaknya data

Data mining-deskripsi lokasi(lanj)


Melihat kasus nilai UAS
kelas PAGI dan MALAM
maka bisa dilihat masingmasing mean nilai UAS
tersebut

Data mining-deskripsi lokasi(lanj)


Rata-rata / mean

Pengetahuan apa yang bisa diperoleh?


Dengan mudah bisa kita katakan bahwa
PADA UMUMNYA nilai kelas malam memiliki
nilai 70.3 dan kelas pagi 66.33. Nilai rata-rata
kelas malam lebih tinggi daripada kelas pagi.
Mengapa?

Data mining-deskripsi lokasi(lanj)


Median / nilai tengah
Dengan median, kita mencari nilai di tengah.
Langkah pertama adalah mengurutkannya.
Data asli: 85 65 55 75 65 55 55 70 70 60 65 80 95 75 85
Data urut: 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95
Karena data kita ganjil (15) maka nilai tengahnya
adalah 70
Bila banyaknya data genap maka pertengahan data
dijumlahkan kemudian dibagi 2

Data mining-deskripsi lokasi(lanj)


Pengetahuan apa yang dapat diperoleh?
Bila kita mengurutkan data nilai dari yang
terendah sampai ke tertinggi maka
ditengahnya adalah 70.
Keuntungan menggunakan median adalah
tidak terpengaruh nilai ekstrim. Bila ratarata/mean akan terpengaruh nilai ekstrim.
Contohnya?

Data mining-deskripsi lokasi(lanj)


Modus nilai yang paling banyak muncul.
Data nilai : 55 55 55 60 65 65 65 70 70 75 75 80 85
85 95
Nilai yang menjadi modus adalah 55 3x dan 65
3x
Pengetahuan apa yang muncul?
Nilai mahasiswa UAS pagi banyak yang memperoleh
55 dan 65
Modus mencerminkan lokasi kecenderungan
berkumpulnya sebagian besar data dibanding yang
lain.

Data mining-deskripsi lokasi(lanj)


Contoh: sebuah perusahaan
menyatakan bahwa gaji rata-rata
perusahaan XYZ adalah Rp. 10 juta.
Kenyataann 90 karyawan digaji Rp. 1
Juta, dan hanya 10 karyawan yang
digaji Rp. 100 juta.
Dibandingkan rata-rata, informasi yang
lebih tidak menyesatkan dan berguna
adalah bahwa sebagian besar / modus
karyawan digaji sekitar Rp. 1 juta

Data mining-deskripsi lokasi(lanj)


Kuartil : membagi seluruh data menjadi
empat bagian dan mencari nilai di tiap
seperempat bagian/kuartil tersebut.
55 55 55 60 65 65 65 70 70 75 75 80 85 85
95
Pengetahuan apa yang bisa diperoleh?
Bila kita mengurutkan data nilai UAS pagi
kemudian urutan kita bagi empat maka akan
diperoleh angka 55, 62.5, 70, 77.5, 95

Data mining-deskripsi lokasi(lanj)


Persentil : pembagian data dengan 100
bagian
55 55 55 60 65 65 65 70 70 75 75 80 85 85
95

Data mining-deskripsi lokasi(lanj)


Pengetahuan yang diperoleh:
Bila kita mengurutkan data nilai UAS
kelas pagi dari yang terendah sampai
tertinggi akan diperoleh angka tersebut

Data mining-deskripsi
keberagaman
Deskripsi lokasi sudah memberikan
gambaran tentang lokasi pusat data
(rata-rata, modus, median) tetapi kita
belum memiliki keberagaman data.
Data I 6, 6, 7, 7, 7, 8, 8
mean = 7, median = 7, modus = 7
Data II 0, 1, 3, 7, 7, 12,19
mean = 7, median = 7, modus = 7

Data mining-deskripsi keberagaman


Mean, median dan modus nya sama
apakah data di atas sama?
Data di atas tidak sama karena
persebarannya beda. Pada data I
cenderung berkumpul di 7, sementara
data II beragam dan menyebar.
Tiga ukuran untuk melihat
keberagaman yaitu range, varians dan
standar deviasi

Data mining-deskripsi keberagaman


1. Rentang
menyatakan besarnya rentang jarak antara
data terkecil dengan data terbesar. Rentang
yang besar menandakan bahwa data relatif
beragam dan sebaliknya
Contoh:
Data I 6, 6, 7, 7, 7, 8, 8
Data II 0, 1, 3, 7, 7, 12,19
range data I 8 6 = 2
range data II 19 0 = 19

Data mining-deskripsi keberagaman


Pengetahuan apa yang kita peroleh?
Kelompok data II memiliki data lebih
beragam dengan range yang lebar.
Tetapi karena ukuran yang diambil nilai
min dan max maka kurang terlihat juga
keberagaman data nya

Data mining-deskripsi keberagaman


Contoh 2: memodifikasi contoh 1
Data I 6, 15, 15, 16, 16, 16, 25
Data II 0, 1, 3, 7, 7, 12,19
Meski range nya sama, data I masih
relatif lebih seragam/kurang beragam
dibanding data II

Data mining-deskripsi keberagaman


2. Varians dan standar deviasi
Range tidak dapat dijadikan pijakan yang
kokoh untuk menilai keberagaman data.
Oleh karena itu ukuran varians yang
menggunakan prinsip pencarian jarak
antara setiap data dengan pusatnya
(mean) sering digunakan.

Data mining-deskripsi keberagaman


Setiap data observasi dikurangi dengan
rata-rata seluruh data.
Setiap hasl pengurangan dikuadratkan
kemudian semuanya dijumlahkan. Hasil
penjumlahan dibagi dengan (n-1),
dengan n menyatakan banyaknya data.

Data mining-deskripsi keberagaman


Bila data I dan II di olah dengan varians
(Data ke n mean)2
dan standar deviasi maka

Jumlah
(Data ke n mean)2/banyaknya data

Data mining-deskripsi keberagaman


Berdasarkan varians nya Pengetahuan
apa yang diperoleh?
Data pada kelompok II berjarak relatif
lebih jauh dengan pusatnya (dalam hal
ini rata-ratanya) sehingga variansinya
lebih besar. Dengan kata lain data pada
kelompok II lebih beragam dibanding
data I

Data mining-deskripsi keberagaman


Standar deviasinya adalah 5.5 dan 6.7
Pengetahuan apakah yang bisa digali?
Data pada kelompok II lebih beragam
dibanding kelompok I.

penutup
Kegunaan fungsi deskripsi
Berbagai cara menjalankan fungsi
deskripsi
Ukuran yang digunakan dalam caracara deskripsi
Ilmu yang digunakan dalam data mining

Pertanyaan?

tugas
Berikut adalah catatan temperatur tertinggi tiap
jam dalam sebuah lemari pendingin:
4.2; 4.7; 4.7; 5.0; 3.8; 3.6; 3.0; 5.1; 3.1; 3.8; 4.8;
4.0; 5.2; 4.3; 2.8; 2.0; 2.8; 3.3; 4.8 dan 5.0
Gambar dan interpretasikan dengan histogram
Hitung mean, median, modus
Hitung range , varians dan standar deviasi nya
Tugas tulis tangan di kertas folio bergaris

catatan
Dalam ilmu statistik standar deviasi digunakan untuk membandingkan penyebaran
atau penyimpangan data dua kelompok atau lebih. Apabila standar deviasi
suatu data tersebut kecil maka hal tersebut menunjukkan data-data tersebut
berkumpul disekitar rata-rata hitungnya, dan jika standar deviasinya besar hal
tersebut menunjukkan penyebaran yang besar dari nilai rata-rata hitungnya.
Salah satu penerapan standar deviasi ini misalnya dalam bidang ekonomi. Standar
deviasi dapat digunakan untuk menghitung perbandingan pertumbuhan ekonomi
suatu negara, misalnya mengukur pertumbungan ekonomi negara-negara
ASEAN. Dalam kurun waktu lima tahun terakhir misalnya, standar deviasi
pertumbuhan ekonomi Negara Singapura adalah 0.55, Malaysia sebesar 0.87,
Indonesia sebesar 1.03, dan Thailand sebesar 1.01.
Dari hasil penghitungan tersebut dapat diketahui dan dianalisis mengenai
pertumbuhan ekonomi Indonesia yang memiliki standar deviasi lebih besar
dibanding 3 Negara ASEAN lainnya, hal ini mengindikasikan pertumbuhan
ekonomi Indonesia yang lebih fluktuatif dan ketidakmenentuan dibandingkan 3
negara laiinya.

Anda mungkin juga menyukai