DataMiningI p121

Data Mining I
Bussiness Intelligent
proses perubahan data menjadi
informasi dan dari kumpulan informasi
yang ada akan diambil polanya menjadi
pengetahuan
Data Mining - definisi

Istilah yang digunakan untuk menguraikan
penemuan pengetahuan dalam database
Data mining menggunakan teknik statistik,
matematika, kecerdasan buatan dan machine
learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai
database besar
Data Mining-definisi (lanj)

Analisis otomatis dari data yang berjumlah
besar atau kompleks dengan tujuan
menemukan pola atau kecenderungan yang
penting yang biasanya tidka disadari
keberadaannya. (pramudiono, 2006)
Analisis dari peninjauan kumpulan data untuk
menemukan hubungan yang tidak diduga dan
meringkas data dengan cara yang berbeda
dengan sebelumnya yang dapat dipahamidan
bermanfaat bagi pemilik data (Larose, 2005)
Data Mining-definisi (lanj)

Data Mining ~ Knowledge Discovery ~
pattern recognition
Faktor perlunya Data Mining

Pertumbuhan data yang cepat
Penyimpanan data dalam data warehouse,
sehingga seluruh perusahaan memiliki akses
ke dalam DB yang handal
Peningkatan akses data melalui web dan
intranet
Tekanan kompetisi bisnis
Ketersediaan teknologi
Perkembangan komputasi yang sangat maju
dan pesat dan kapasitas media simpan
Hal penting terkait data mining

Proses otomatisasi terhadap data yang
sudah ada
Data yang akan diproses berupa data
yang sangat besar
Tujuan data mining mendapatkan
hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat
Fungsi data mining
Fungsi deskripsi (description)

Fungsi estimasi (estimation) Fungsi minor
Fungsi prediksi (prediction)
Fungsi klasifikasi (classification)
Fungsi pengelompokan (clustering)Fungsi major
Fungsi asosiasi (association)
Data mining-Deskripsi
Sebagai kasus akan diberi suatu data
nilai UAS matakuliah Datawarehouse
kelas pagi dan malam
Data Mining-deskripsi (lanj)

Ketika diberi kumpulan data kita sukar
menangkap arti kumpulan data tersebut
sehingga data harus dirangkum
sedemikian rupa agar berbicara
sehingga kita memiliki gambaran
mengenai kumpulan data tersebut
Bayangkan bila datanya adalah ribuan
bahkan jutaan data. jutaan angka

Diperlukan suatu cara untuk
menggambarkan sekumpulan data
secara ringkas
deskripsi
Metode Statistika
Terdapat beberapa cara untuk memberikan

gambaran secara ringkas.
1. Deskripsi grafis mendeskripsikan data
dalam bentuk gambar
a. diagram titik
b. histogram
2. Deskripsi lokasi memberikan informasi
mengenai data pada posisi tempat tertentu
Data mining-deskripsi (lanj)

3. Deskripsi keberagaman
meski deskripsi lokasi sudah
memberikan gambaran tentang lokasi
pusat data (mean, median, modus) kita
masih belum memiliki gambaran atas
keberagaman data.
Data mining-deskripsi(lanj)
Sebagai gambaran akan kita lihat studi
kasus nilai UAS MK datawarehouse
Nilai UAS terdiri dari 2 kelas yaitu kelas
pagi dan malam
Kelas pagi ditampilkan pada tabel
berikut
Mengapa kita perlu memproses data di
atas?
Apakah data di tabel tersebut
memberikan arti bagi kita?
Bagaimana kita mengetahui makna
sekumpulan data di atas?
Bagaimana bila data di atas berjumlah
ribuan bahkan jutaan data?
Data mining-deskripsi grafis

Mendeskripsikan data dalam bentuk
visual
a picture paints a thousand words
Berupa diagram titik dan histogram
Data mining-deskripsi grafis(lanj)

Diagram titik
setiap data digambarkan sebagai
sebuah titik (dot)
Misal nilai kelas pagi digambarkan tiitik
penuh sementara kelas malam
digambarkan titik dengan lubang tengah

Diagram histogram
Misalnya kita mempunyai data nilai UAS
kelas pagi

Langkah pertama dalam membuat histogram
adalah membuat beberapa interval dalam hal
ini misalnya membuat interval sesuai dengan
klasifikasi nilai
80 100
=A
68 - 79.99 = B
67.99 56 = C
55.9 46 = D
45 0
=E

Langkah kedua adalah menghitung
seberapa banyak data yang menjadi
anggota tiap interval
Langkah ketiga, membuat histogram
berdasarkan data di atas

Pengetahuan apa yang diperoleh?
Dengan melihat batang-batang
tersebut kita dapat melihat lokasi
kecenderungan mengumpulnya data
dari batang tertinggi. Histogram yang
menunjukkan data yang merata
menunjukkan keberagaman data
beragam dan menyebar
Data mining-deskripsi lokasi

Meskipun deskripsi grafis sudah
menggambarkan karakteristik data,
sifatnya masih terlalu kasar dan kurang
praktis untuk dilakukan. Kita
memerlukan angka yang cukup
mewakili data dan diperoleh secara
praktis daripada grafis.
Data mining-deskripsi lokasi(lanj)

1. Rata-rata (Mean)
membuat menjadi rata. Rumus mean
adalah jumlah semua data dibagi
dengan banyaknya data

Melihat kasus nilai UAS
kelas PAGI dan MALAM
maka bisa dilihat masingmasing mean nilai UAS
tersebut

Rata-rata / mean
Pengetahuan apa yang bisa diperoleh?

Dengan mudah bisa kita katakan bahwa
PADA UMUMNYA nilai kelas malam memiliki
nilai 70.3 dan kelas pagi 66.33. Nilai rata-rata
kelas malam lebih tinggi daripada kelas pagi.
Mengapa?

Median / nilai tengah
Dengan median, kita mencari nilai di tengah.
Langkah pertama adalah mengurutkannya.
Data asli: 85 65 55 75 65 55 55 70 70 60 65 80 95 75 85
Data urut: 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95
Karena data kita ganjil (15) maka nilai tengahnya
adalah 70
Bila banyaknya data genap maka pertengahan data
dijumlahkan kemudian dibagi 2

Pengetahuan apa yang dapat diperoleh?
Bila kita mengurutkan data nilai dari yang
terendah sampai ke tertinggi maka
ditengahnya adalah 70.
Keuntungan menggunakan median adalah
tidak terpengaruh nilai ekstrim. Bila ratarata/mean akan terpengaruh nilai ekstrim.
Contohnya?

Modus nilai yang paling banyak muncul.
Data nilai : 55 55 55 60 65 65 65 70 70 75 75 80 85
85 95
Nilai yang menjadi modus adalah 55 3x dan 65
3x
Pengetahuan apa yang muncul?
Nilai mahasiswa UAS pagi banyak yang memperoleh
55 dan 65
Modus mencerminkan lokasi kecenderungan
berkumpulnya sebagian besar data dibanding yang
lain.

Contoh: sebuah perusahaan
menyatakan bahwa gaji rata-rata
perusahaan XYZ adalah Rp. 10 juta.
Kenyataann 90 karyawan digaji Rp. 1
Juta, dan hanya 10 karyawan yang
digaji Rp. 100 juta.
Dibandingkan rata-rata, informasi yang
lebih tidak menyesatkan dan berguna
adalah bahwa sebagian besar / modus
karyawan digaji sekitar Rp. 1 juta

Kuartil : membagi seluruh data menjadi
empat bagian dan mencari nilai di tiap
seperempat bagian/kuartil tersebut.
55 55 55 60 65 65 65 70 70 75 75 80 85 85
95
Pengetahuan apa yang bisa diperoleh?
Bila kita mengurutkan data nilai UAS pagi
kemudian urutan kita bagi empat maka akan
diperoleh angka 55, 62.5, 70, 77.5, 95

Persentil : pembagian data dengan 100
bagian
55 55 55 60 65 65 65 70 70 75 75 80 85 85
95

Pengetahuan yang diperoleh:
Bila kita mengurutkan data nilai UAS
kelas pagi dari yang terendah sampai
tertinggi akan diperoleh angka tersebut
Data mining-deskripsi
keberagaman
Deskripsi lokasi sudah memberikan
gambaran tentang lokasi pusat data
(rata-rata, modus, median) tetapi kita
belum memiliki keberagaman data.
Data I 6, 6, 7, 7, 7, 8, 8
mean = 7, median = 7, modus = 7
Data II 0, 1, 3, 7, 7, 12,19
mean = 7, median = 7, modus = 7
Data mining-deskripsi keberagaman

Mean, median dan modus nya sama
apakah data di atas sama?
Data di atas tidak sama karena
persebarannya beda. Pada data I
cenderung berkumpul di 7, sementara
data II beragam dan menyebar.
Tiga ukuran untuk melihat
keberagaman yaitu range, varians dan
standar deviasi

1. Rentang
menyatakan besarnya rentang jarak antara
data terkecil dengan data terbesar. Rentang
yang besar menandakan bahwa data relatif
beragam dan sebaliknya
Contoh:
Data I 6, 6, 7, 7, 7, 8, 8
Data II 0, 1, 3, 7, 7, 12,19
range data I 8 6 = 2
range data II 19 0 = 19

Pengetahuan apa yang kita peroleh?
Kelompok data II memiliki data lebih
beragam dengan range yang lebar.
Tetapi karena ukuran yang diambil nilai
min dan max maka kurang terlihat juga
keberagaman data nya

Contoh 2: memodifikasi contoh 1
Data I 6, 15, 15, 16, 16, 16, 25
Data II 0, 1, 3, 7, 7, 12,19
Meski range nya sama, data I masih
relatif lebih seragam/kurang beragam
dibanding data II

2. Varians dan standar deviasi
Range tidak dapat dijadikan pijakan yang
kokoh untuk menilai keberagaman data.
Oleh karena itu ukuran varians yang
menggunakan prinsip pencarian jarak
antara setiap data dengan pusatnya
(mean) sering digunakan.

Setiap data observasi dikurangi dengan
rata-rata seluruh data.
Setiap hasl pengurangan dikuadratkan
kemudian semuanya dijumlahkan. Hasil
penjumlahan dibagi dengan (n-1),
dengan n menyatakan banyaknya data.

Bila data I dan II di olah dengan varians
(Data ke n mean)2
dan standar deviasi maka
Jumlah
(Data ke n mean)2/banyaknya data

Berdasarkan varians nya Pengetahuan
apa yang diperoleh?
Data pada kelompok II berjarak relatif
lebih jauh dengan pusatnya (dalam hal
ini rata-ratanya) sehingga variansinya
lebih besar. Dengan kata lain data pada
kelompok II lebih beragam dibanding
data I

Standar deviasinya adalah 5.5 dan 6.7
Pengetahuan apakah yang bisa digali?
Data pada kelompok II lebih beragam
dibanding kelompok I.
penutup
Kegunaan fungsi deskripsi
Berbagai cara menjalankan fungsi
deskripsi
Ukuran yang digunakan dalam caracara deskripsi
Ilmu yang digunakan dalam data mining
Pertanyaan?
tugas
Berikut adalah catatan temperatur tertinggi tiap
jam dalam sebuah lemari pendingin:
4.2; 4.7; 4.7; 5.0; 3.8; 3.6; 3.0; 5.1; 3.1; 3.8; 4.8;
4.0; 5.2; 4.3; 2.8; 2.0; 2.8; 3.3; 4.8 dan 5.0
Gambar dan interpretasikan dengan histogram
Hitung mean, median, modus
Hitung range , varians dan standar deviasi nya
Tugas tulis tangan di kertas folio bergaris
catatan
Dalam ilmu statistik standar deviasi digunakan untuk membandingkan penyebaran
atau penyimpangan data dua kelompok atau lebih. Apabila standar deviasi
suatu data tersebut kecil maka hal tersebut menunjukkan data-data tersebut
berkumpul disekitar rata-rata hitungnya, dan jika standar deviasinya besar hal
tersebut menunjukkan penyebaran yang besar dari nilai rata-rata hitungnya.
Salah satu penerapan standar deviasi ini misalnya dalam bidang ekonomi. Standar
deviasi dapat digunakan untuk menghitung perbandingan pertumbuhan ekonomi
suatu negara, misalnya mengukur pertumbungan ekonomi negara-negara
ASEAN. Dalam kurun waktu lima tahun terakhir misalnya, standar deviasi
pertumbuhan ekonomi Negara Singapura adalah 0.55, Malaysia sebesar 0.87,
Indonesia sebesar 1.03, dan Thailand sebesar 1.01.
Dari hasil penghitungan tersebut dapat diketahui dan dianalisis mengenai
pertumbuhan ekonomi Indonesia yang memiliki standar deviasi lebih besar
dibanding 3 Negara ASEAN lainnya, hal ini mengindikasikan pertumbuhan
ekonomi Indonesia yang lebih fluktuatif dan ketidakmenentuan dibandingkan 3
negara laiinya.

DataMiningI p121

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

DataMiningI p121

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining I

Data Mining - definisi

Data Mining-definisi (lanj)

Data Mining-definisi (lanj)

Faktor perlunya Data Mining

Hal penting terkait data mining

Fungsi data mining

Fungsi deskripsi (description)

Data Mining-deskripsi (lanj)

Data Mining-deskripsi (lanj)

Data Mining-deskripsi (lanj)

Terdapat beberapa cara untuk memberikan

Data mining-deskripsi (lanj)

Data mining-deskripsi grafis

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi grafis(lanj)

Data mining-deskripsi lokasi

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Pengetahuan apa yang bisa diperoleh?

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi lokasi(lanj)

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Data mining-deskripsi keberagaman

Anda mungkin juga menyukai