Anda di halaman 1dari 14

LAPORAN DATA MINING

INFLASI BULANAN PER KABUPATEN


DENGAN ALGORITMA CLUSTERING - WEKA

Oleh :

April Yanto 3311411030


Irfan Sandi Nugroho 3311411018
Selly Melinda 3311401081

Disusun untuk Tugas Besar mata kuliah DATA MINING

PROGRAM STUDI TEKNIK INFORMATIKA


POLITEKNIK NEGERI BATAM
BATAM 2016

BAB 1 PEDAHULUAN

1.1 Latar Belakang


Data mining adalah suatu konsep yang digunakan untuk menemukan pengetahuan yang
tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang
menggunakan

teknik

statistik,

matematika,

kecerdasan

buatan,

dan

machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial


dan berguna yang tersimpan di dalam database besar. Data mining adalah bagian dari proses
KDD ( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti
pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil. KDD secara
umum juga dikenal sebagai pangkalan data.
Teknik data mining secara garis besar dapat dibagi dalam dua kelompok: verifikasi dan
discovery. Metode verifikasi umumnya meliputi teknik-teknik statistik seperti goodness of
fit, dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan
model deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan menggunakan
hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan
penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi
pola-pola atau hubungan antar data dan memberikan cara untuk mengeksplorasi karakteristik
data yang diselidiki (Dunham, 2003).

1.2 Tujuan
Tujuan dari laporan ini adalah untuk meningkatkan pemahaman kepada mahasiswa
terhadap ilmu Data Mining dan aplikasi Weka agar mahasiswa dapat mengolah data dengan
metode yang digunakan.

1.3 Data yang digunakan


Data yang digunakan adalah data yang kami dapat dari situs www.data.go.id , data
tersebut merupakan data Inflasi Bulanan per Kabupaten data ini diambil dari tahun 1979
sampai 1983. Data ini merupakan data yang dikumpulkan oleh Badan Pusat Statistik ( BPS )
yang merupakan lembaga pemerintah non departemen di Indonesia yang mempunyai fungsi
pokok sebagai penyedia data statistic dasar, baik untuk pemerintah maupun untuk masyarakat
umum, secara nasional maupun regional.

BAB 2 LANDASAN TEORI

2.1 Pengertian Data Mining


Data mining merupakan salah satu proses eksplorasi dan analisis data yang memiliki
banyak metode dengan kegunaan masing-masing. Data mining merupakan gabungan dari
berbagai bidang ilmu, antara lain basis data, information retrieval, statistika, machine
learning dan sebagainya. Data mining dapat diterapkan di berbagai bidang, seperti bisnis,
kesehatan, asuransi, pemasaran dan perbankan. Data mining merupakan cara untuk
menemukan informasi yang tersembunyi dalam sebuah basis data dan merupakan bagian dari
proses Knowledge Discovery in Database (KDD) untuk menemukan informasi dan pola yang
berguna dalam data. Kumpulan proses tersebut meliputi : pembersihan data (data cleaning),
integrasi data (data integration), pemilihan data (data selection), transformasi data (data
transformation),data mining, evaluasi pola (pattern evaluation), knowledge presentation.
Data Mining (DM), sering juga disebut knowledge discovery in database (KDD), adalah
kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan,
pola atau hubungan dalam set data berukuran besar [9]. Keluaran data mining ini bisa
dipakai untuk memperbaiki pengambilan keputusan di masa depan. Data mining merupakan
gabungan teori dan heuristik, fokus pada seluruh proses penemuan knowledge/pola termasuk
data cleaning, learning, dan visualisasi dari hasilnya. Karena DM adalah suatu rangkaian
proses, tahap-tahap data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di
bawah ini:

Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Integrasi data (penggabungan data dari beberapa sumber)
Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Aplikasi teknik DM
Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
Presentasi pengetahuan (dengan teknik visualisasi)

2.2 Definisi Clustering


Clustering juga dikenal sebagai unsupervised learning yang membagi data menjadi
kelompok-kelompok atau clusters berdasarkan suatu kemiripan atribut-atribut diantara data
tersebut. Karakteristik tiap cluster tidak ditentukan sebelumnya, melainkan tercermin dari
kemiripan data yang terkelompok di dalamnya. Beberapa teknik clustering dalam data
mining meliputi : skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda,
menangani data yang mengandung noise, mampu menangani dimensionalitas yang tinggi,
dan dapat diterjemahkan dengan mudah.
2.3 Metode Clustering
Terdapat beberapa metode clustering.Masing-masing metode bergantung pada tipe data dan
tujuan clustering tersebut. Dua metode clustering yang kita ketahui diantaranya:
a. Hierarchical clustering
Mengelompokkan data ke dalam pohon cluster (dendogram) dimana objek yang mirip
akan diletakkan pada hirarki yang berdekatan dan objek yang tidak mirip diletakkan
pada hirarki yang berjauhan. Terdapat 2 teknik dalam pembentukan pohon cluster :
1. Agglomerative Dengan strategi bottom-up, dimulai dengan menempatkan tiap
objek pada cluster masing-masing, kemudian menggabungkan cluster-cluster
yang atomik tersebut menjadi cluster yang lebih besar, hingga semua objek
berada dalam 1 cluster atau sampai kondisi akhir telah terpenuhi.
2. Divisive Dengan strategi top-down, dimulai dengan menempatkan seluruh
objek pada 1 cluster, kemudian membaginya menjadi cluster-cluster yang
lebih kecil hingga tiap objek membentuk sebuah cluster atau sampai kondisi
akhir terpenuhi.
b. Partitional clustering

Mengelompokkan objek dengan membagi data ke dalam cluster-cluster yang ada,


sejumlah k partisi. Dimana k merupakan banyaknya cluster yang berasal dari inputan
user.
2.4 Algoritma K-Means
K-means merupakan salah satu algoritma clustering [1].Tujuan algoritma ini yaitu untuk
membagi data menjadi beberapa kelompok. Algoritma ini menerima masukan berupa data
tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan
berupa vector (-x-1 , y1) , (-x-2 , y2) , , (-x-i , yi), di mana xi merupakan data dari suatu
data pelatihan dan yi merupakan label kelas untuk xi. Pada algoritma pembelajaran ini,
komputer mengelompokkan sendiri data-data yang menjadi masukannya tanpa mengetahui
terlebih dulu target kelasnya. Pembelajaran ini termasuk dalam unsupervised learning.
Masukan yang diterima adalah data atau objek dan k buah kelompok (cluster) yang
diinginkan. Algoritma ini akan mengelompokkan data atau objek ke dalam k buah kelompok
tersebut. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster
tersebut.
2.5 Kelebihan dan Kekurangan K-Means
Ada beberapa kelebihan pada algoritma k-means, yaitu:
a. Mudah untuk diimplementasikan dan dijalankan.
b. Waktu yang dibutuhkan untuk menjalankan pembelajaran ini relatif cepat.
c. Mudah untuk diadaptasi.
Algoritma k-means memiliki beberapa kelebihan, namun ada kekurangannya juga.
Kekurangan dari algoritma tersebut yaitu :
a. Sebelum algoritma dijalankan, k buah titik diinisialisasi secara random sehingga
pengelompokkan data yang dihasilkan dapat berbeda-beda. Jika nilai random untuk
inisialisasi kurang baik, maka pengelompokkan yang dihasilkan pun menjadi kurang
optimal.

b. Dapat terjebak dalam masalah yang disebut curse of dimensionality. Hal ini dapat
terjadi jika data pelatihan memiliki dimensi yang sangat tinggi (Contoh jika data
pelatihan terdiri dari 2 atribut maka dimensinya adalah 2 dimensi. Namun jika ada 20
atribut, maka akan ada 20 dimensi). Salah satu cara kerja algoritma ini adalah
mencari jarak terdekat antara k buah titik dengan titik lainnya. Jika mencari jarak
antar titik pada 2 dimensi, masih mudah dilakukan. Namun bagaimana mencari jarak
antar titik jika terdapat 20 dimensi. Hal ini akan menjadi sulit.
c. Jika hanya terdapat beberapa titik sampel data, maka cukup mudah untuk menghitung
dan mencari titik terdekat dengan k titik yang diinisialisasi secara random. Namun
jika terdapat banyak sekali titik data (misalnya satu milyar buah data), maka
perhitungan dan pencarian titik terdekat akan membutuhkan waktu yang lama.

BAB 3 PEMBAHASAN

Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Pertanyaannya
adalah mengapa data perlu di bersihkan sebelum diproses ?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik, penyebabnya antara lain :

Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.


Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.

Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse
memerlukan integrasi kualitas data yang konsisten.
Teknik atau metode yang digunakan dalam data preprocessing, diantaranya:

Data cleaning
Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa
data yang tidak konsisten.
Data integrasi
Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam
penyimpanan data yang sesuai.
Data transformasi
Normalisasi dan pengumpulan data sehingga menjadi sama.
Data reduksi
Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan
hasil analitis yang sama.
Data diskretisasi
Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data
numerik.

Dari data yang kita dapat dari website www.data.go.id setelah kita masukan kedalam aplikasi
WEKA, maka pada tab prepocess akan terlihat seperti berikut,

Setelah itu data kita proses untuk di clustering dengan metode k-means, dengan jumlah cluster 2

Setelah data di cluster dengan metode k-means, maka kita bisa melihat cluster dengan visual
yang tersedia di aplikasi

Setelah selesai di cluster kita bisa menyimpan hasil cluster kita, dan melihat kembali dalam
bentuk table, seperti berikut

BAB 4 KESIMPULAN DAN SARAN

4.1 Kesimpulan
Berdasarkan dari penelitian yang telah dilaksanakan dan sudah diuraikan dalam penerapan
data mining dari data inflasi dan indeks harga konsumen, maka penulis dapat menarik
kesimpulan sebagai berikut :
1. Penerapan data mining dengan teknik clustering dan algoritma K-Means yang
dilakukan menghasilkan sebuah informasi mengenai data inflasi bulanan per
kabupaten.
2. Informasi mengenai data inflasi bulanan

per kabupaten yang dihasilkan dari

penerapan data mining yang dilakukan.


3. Semakin kecil batasan nilai data inflasi yang ditentukan maka semakin sedikit pula
pola/aturan yang dapat dihasilkan dan waktu yang diperlukan lebih sedikit.
4. Perhitungan yang dilakukan secara teoritis dan aplikatif menghasilkan nilai data
inflasi dan indeks harga konsumen (IHK) yang ditentukan. Waktu yang diperlukan
untuk pemrosesan tergantung pada spesifikasi komputer, jumlah data yang diolah
dan jumlah item yang terlibat sehingga perumusan yang tepat untuk perhitungan
waktu belum dapat ditentukan.
4.2 Saran
Berdasarkan kesimpulan yang telah diuraikan diatas, maka ada beberapa saran yang ingin
disampaikan yaitu:
1. Pada penelitian selanjutnya dapat mencoba menggunakan dataset yang berbeda dan
dengan jumlah data yang lebih beragam lagi serta periode waktu yang lebih lama
sehingga nilai data transaksi penjualan yang dihasilkan menghasilkan tingkat akurasi
yang lebih tinggi.

2. Pada penelitian selanjutnya dapat mencoba menggunakan teknik, algoritma dan


aplikasi data mining yang berbeda sehingga dapat menghasilkan informasi yang
pariatif.
3. Selain penerapan secara teoritis dan aplikatif, pada penelitian berikutnya dapat
dicoba untuk membuat suatu aplikasi.

DAFTAR PUSTAKA

www.scribd.com .
www.data.go.id .

Haryanto, 2012. Teknik Data Mining Untuk Mendapatkan Informasi Dari Keluaran

Perangkat Jaringan. Jakarta : Binus University.


www.wikipedia.com
www.andyku.wordpress.com
www.gsbipb.com
www.erdisusanto.com
www.weka.wikispaces.com

Anda mungkin juga menyukai