Anda di halaman 1dari 17

PROPOSAL

PENERAPAN RAPID MINER DENGAN K-MEANS


CLUSTERING DALAM PREDIKSI JURUSAN KULIAH
PADA SISWA SMA
BAB I
PENDAHULUAN

1.1 Latar Belakang


Bagi beberapa siswa yang sudah memasuki tingkat pendidikan tinggi,
dalam memilih jurusan merupakan sebuah tantangan. Ada yang dilema antara
dua pilihan dan Bahkan ada yang masih ragu menentukan dari satu pilihan yang
dipilihnya. Sementara itu jurusan kuliah sangatlah banyak pilihan-nya sehingga
harus mempertimbangkan dengan matang agar tidak menyesal kemudian hari.
Jurusan kuliah merupakan fondasi untuk melewati langkah selanjutnya. Agar bisa
mengembangkan potensi diri maka haruslah memilih jurusan yang tepat untuk
masa depan.
Menurut saya faktor yang paling mempengaruhi sulitnya memilih jurusan
kuliah adalah kesulitan untuk menilai diri sendiri. Karena manusia itu pada
dasarnya adalah mahluk sosial, yang membutuhkan pengakuan dan validasi dari
sesamanya membuat diri kita meragukan beberapa kemampuan yang dimiliki.
Diera globalisasi yang kian semarak dibicarakan sekarang ini, teknologi
memegang peranan penting yang tentunya tidak terlepas kaitannya dengan
teknologi komunikasi. Kemampuan komputer dalam mengingat dan menyimpan
informasi dapat dimanfaatkan tanpa harus bergantung kepada hambatan seperti
yang dimiliki manusia.dengan menyimpan informasi dan sehimpunan penalaran
yang memadai memungkinkan komputer memberikan kesimpulan atau
mengambil keputusan yang berkualitas. Salah satu cabang ilmu komputer yang
mendukung hal tersebut adalah data mining.
Data mining adalah proses yang digunakan oleh perusahaan atau
lembaga untuk mengubah data mentah menjadi informasi yang berguna. dengan
menggunakan perangkat lunak untuk mencari pola dalam kumpulan data yang
besar. Dan memiliki salah satu fungsi yaitu “predictive” atau prediksi merupakan
sebuah fungsi bagaimana sebuah proses nantinya akan menemukan pola
tertentu dari suatu data. Pola-pola tersebut dapat diketahui dari berbagai
variable-variable yang ada pada data.
Melanjutkan kajian dalam penelitian ini diterapkan sistem K-means
Clustering, merupakan teknik untuk mengklasifikasikan data berdasarkan kriteria
masing-masing data. Dengan cara menghitung jarak terdekat dari suatu data ke
sebuah titik centroid. Yang mampu memberikan solusi dengan mengelompokkan
jurusan kuliah yang tepat menurut data-data nilai-nilai siswa.
2.1 Rumusan Masalah
Berdasarkan penjelasan diatas, Maka merumuskan masalah-
masalah sebagai berikut:
1. Bagaimanakah memprediksi jurusan kuliah menggunakan rapid
miner?
2. Bagaimanakah algoritma k-means clustering bekerja dalam
memprediksi jurusan kuliah?
3. Bagaimanakah rapid miner dapat bermanfaat bagi siswa?
4. Bagaimanakah agar memilih jurusan kuliah lebih mudah?

3.1 Manfaat

1. Diharapkan Akan membantu siswa agar lebih mudah dalam


memilih jurusan perkuliahan.

2. Diharapkan agar guru selalu adil dalam memberi penilaian


kepada siswa karena itu bisa mempengaruhi masa depan siswa
yaitu dalam memilih jurusan kuliah.

3. Secara peraktis penelitian ini diharapkan dapat mampu


memberikan tambahan informasi tentang proses meng-cluster
data menggunakan software rapid maner.

4. Sebagai modal dasar untuk membuat karya tulis dimasa yang


akan datang.
BAB II
KAJIAN PUSTAKA
Pada Bab II ini akan dipaparkan mengenai landasan teori yang
mendukung penelitian yang dilakukan oleh penulis. Dalam bab ini akan dijelaskan
pengertian dan metode yang akan digunakan oleh penulis

1.2 Data Mining


a) Pengertian Data Mining
Data mining adalah suatu proses pengerukan atau pengumpulan
informasi penting dari suatu data yang besar. Proses data mining
seringkali menggunakan metode statistika, matematika,hingga
memanfaatkan teknologi artificial intelligence.
b) Data mining Menurut para ahli
1) Turban
Data mining adalah proses yang menggunakan data
statistik, matematika, kecerdasan buatan, machine
learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait
dari berbagai database besar (Turban, 2005).
2) Larose
Data mining bisa disebut knowlwdge discovery
adalah proses pengambilan pola pada data yang akan
diproses lalu output tersebut berupa informasi yang sangat
penting. Terdapat beberapa istilah lain yang memiliki
makna sama dengan data mining, yaitu knowledge
diskovery in database (KDD), interaksi pengetahuan
(Knowledge extraction), analisa data atau pola
(data/pattern analysis), kecerdasan bisnis ( Business
Intelligence) dan data archaeology dan data dreding
(Larose, 2005).
3) Pramudiono
Pengertian data mining adalah analisa yang
dilakukan secara automatic (otomatis) pada data yang
berjumlah besar dan kompleks dengan tujuan untuk
mendapatkan kecendrungan atau pola penting yang
keberadaannya biasanya tidak disadari.
c) Sejarah data mining
Pada tahun 1990-an, istilah “Data Mining” diperkenalkan, tetapi
data mining adalah evolusi dari sektor dengan sejarah yang luas.
Teknik awal untuk mengidentifikasi pola dalam data termasuk
teorema bayes (1700-an), dan evolusi regresi (1800-an). Generasi
dan kekuatan ilmu komputer yang terus berkembang telah
meningkatkan pengumpulan, penyimpanan, dan menipulasi data
karena kumpulan data memiliki ukuran dan tingkat kompleksitas
yang luas. Investigasi data langsung secara eksplisit telah
ditingkatkan secara progresif dengan pemrosesan data tidak
langsung dan otomatis, dan penemuan ilmu komputer lainnya
seperti jaringan saraf, pengelompokan, algoritma genetika (1950-
an), pohon keputusan (1960-an), dan mesin vektor pendukung
(1990-an).

Data selection Data integration

Data cleaning Data Mining Steps


decision

Data transformation Pattern evaluation

Data mining
Asal data mining ditelusuri kembali ke tiga garis keluarga: statistik
klasik, kecerdasan buatan, dan pembelajaran mesin.
 Statistik Klasik
Adalah dasar dari sebagian besar teknologi dimana data
mining dibangun, seperti analisis regresi, deviasi standar,
distribusi standar, varian standar, analisis diskriminatif, analisis
cluster, dan interval trust. Semua ini digunakan untuk
menganilisis data dan koneksis data.
 Kecerdasan Buatan
AI atau artificial intelligence didasarkan pada heuristik dan
bukan statistik. Ia mencoba menerapkan pemikiran manusia
seperti pemrosesan ke masalah statistik. Konsep AI tertentu
diadopsi oleh beberapa produksi komersial kelas atas, seperti
modul pengoptimalan kueri unuk sistem relational database
management system (RDBMS).
 Pembelajaran Mesin
Pembelajaran mesin atau disebut sebagai machine
learning adalah kombinasi dari statistik dan AI. Machine learning
dapat dianggap sebagai evolusi AI karena menggabungkan
heuristik AI dengan analisis statistik yang kompleks.
Pembelajaran mesin menggunakan statistik untuk konsep dasar
dan menambahkan lebih banyak heuristik dan algoritma AI untuk
mencapai targetnya.
d) Fungsi Data Mining
Data mining memiliki banyak sekali fungsi, untuk fungsi utamanya
sendiri yaitu ada dua: yaitu fungsi descriptive dan fungsi predictive.
Untuk fungsi lainnya akan dibahas dibawah.
 Deskriptive
Fungsi deskripsi dalam data mining adalah sebuah fungsi
untuk memahami lebih jauh tentang data yang diamati. Dengan
melakukan sebuah proses diharap bisa mengetahui perilaku dari
sebuah data tersebut. Data tersebut itulah yang nantinya dapat
digunakan untuk mengetahui karakteristik dari data yang
dimaksud. Dengan menggunakan fungsi descriptive data mining,
maka nantinya bisa menemukan pola tertentu yang tersembunyi
dalam sebuah data. Dengan kata lain jika pola yang berulang dan
bernilai itulah karakteristik sebuah data bisa diketahui.
 Predictive
Fungsi ini merupakan sebuah fungsi bagaimana sebuah proses
nantinya akan menemukan pola tertentu dari suatu data. Pola-pola
tersebut dapat diketahui dari berbagai variable-variable yang ada pada
data.
Ketika sudah menemukan pola, maka pola yang didapatkan
tersebut bisa digunakan untuk mem prediksi variable lain yang belum
diketahui nilai ataupun jenisnya. Karena itulah fungsi satu ini dikatakan
sebagai fungsi prediksi sama halnya dengan melakukan prediktive
analisis. Fungsi ini juga bisa digunakan untuk meprediksi sebuah variable
tertentu yang tidak ada dalam suatu data.
Sehingga fungsi ini memudahkan dan menguntungkan bagi
siapapun yang memerlukan prediksi yang akurat untuk membuat hal
penting tersebut menjadi lebih baik.
Fungsi data mining yang lainnya yaitu:
 Multi dimensional concept description, karakteristik dan
diskriminasi, atau berfungsi untuk menggeneralisasikan
meringkas, dan membedakan karakteristik data, dll.
 Frequnt patterns, association, correlation.
 Classification and prediction.
Membangun model(fungsi) yang menggambarkan dan
membedakan kelas atau konsep untuk prediski masa depan,
misalnya, mengklasifikasikan negara berdasarkan (iklim), atau
mengklasifikasikan mobil berdasarkan (jarak tempuh gas).
 Cluster analysis, membuat data grup untuk membentuk kelas
baru. Misalnya memaksimalkan kesamaan intra-kelas &
meminimalkan kesamaan antar kelas.
 Outlier analysis, objek data yang tidak sesuai dengan prilaku
umum dari data, berguna dalam mendeteksi penipuan, analisis
peristiwa langka.
 Trend and evolution analysis, trend dan penyimpangan:
misalnya analisis regresi atau mining penambangan pola
berurutan: misalnya, kamera digital, atau analisis periodisitas
dan analisis berbasis kesamaan.
 Other pattern-directed or statistical analysis
e) Metode Data Mining
Dalam melakukan pengumpulan informasi tentunya terdapat metode,
metode tersebut akan membantu dalam proses menemukan data. Data mining
akan menyediakan perencanaan dari ide hingga implementasi akhir.
 Analisa masalah (analyzing the problem) data asal atau data
sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi
kriteria data mining, kualitas kelimpahan data adalah faktor utama
untuk memutuskan apakah data tersebut cocok dan tersedia sebagai
tambahan, hasil yang diharapkan dari dampak data mining harus dengan
hati-hati dimengerti dan dipastikan bahwa data yang diperlukan
membawa informasi yang bisa di ekstrak.
 Mengekstrak dan membersihkan data (extracting dan cleaning
the data) data pertama kali diekstrak dari data aslinya, seperti dari OLTP
basis data, text file, microsoft acces database, dan bahkan dari
spreadsheet, lalu data tersebut diletakkan dalam data warehouse yang
mempunyai struktur yang sesuai dengan data model secara khas.
Data transformation serice (DTS) dioakai untuk mengekstrak
dan membersihkan data dari tidakkonsistennya dan tidak kompatibelnya
dengan format yang sesuai.
 Validasi data (validating the data) sekali data telah diekstrak dan
dibersihkan, ini adalah latihan yang bagus untuk menelusuri model yang
telah kita ciptakan bahwa semua data yang ada adalah data sekarang
dan tetap.
 Membuat dan melatih model (creating and training the model)
ketika algoritma diterapkan pada model, struktur telah dibangun
Hal ini sangatlah penting pada saat ini untuk melihat data yang
telah dibangun untuk memastikan bahwa data tersebut mempunyai
fakta didalam data sumber.
 Query data dari model data mining (querying the model data)
ketika model yang telah cocok diciptakan dan dibangun, data yang telah
dibuat tersedia untuk mendukung keputusan.
Hal ini biasanya melibatkan penulisan front end query aplikasi
dengan program aplikasi /suatu program basis data.
 Evaluasi validitas dari mining model ( maintaining the validity of
the data mining model ) setelah model data mining terkumpul, lewat
beberapa waktu, karakteristik data awal seperti granularitas dan
validitas mungkin berubah. Karena model data mining dapat terus
berubah. Karena model data mining dapat terus berubah seiring
perkembangan waktu.

f) Proses Data Mining


Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan
atau informasi yang telah diolah, yang didapatkan sebagai hasil dari tahapan-
tahapan berikut:
1. Data cleaning juga dikenal sebagai data cleansing, ini adalah sebuah
fase dimana data-data tidak lengkap, mengandung error dan tidak
konsisten dibuang dari koleksi data, sehingga data yang telah bersih
relevan dapat digunakan untuk diproses ulang untuk penggalian
pengetahuan (discovery knowledge).
2. Data integration, pada tahap ini terjadi integrasi data, dimana sumber-
sumber data yang berulang ( multiple data ) file-file yang berulang
(multiple file), dapat dikombinasikan dan digabungkan kedalam suatu
sumber.
3. Selection, pada langka ini, data yang relevan terhadap analisis dapat
dipilih dan diterima dari koleksi data yang ada.
4. Data transformation, juga dikenal sebagai data consolidation. Pada
tahap ini, dimana data-data yang telah dipilih, ditransformasikan
kedalam bentuk-bentuk yang cocok untuk prosedur penggalian.
5. Data mining, tahap ini adalah tahap yang penting dengan menggunakan
teknik-teknik yang diaplikasikan untuk mengestrak pola-pola potensial
yang berguna.
6. Pattern evaluation, pada tahap ini, pola-pola menarik dengan jelas
mempresentasikan pengetahuan telah diidentifikasi berdasarkan
measure yang telah diberikan.
7. Knowledge representaion, ini merupakan tahap terakhir dimana
pengetahuan yang telah ditemukan secara visual ditampilkan kepada
user, tahap penting ini menggunakan teknik visualisasi untuk
membantu user dalam mengerti dan menginterpresentasikan hasil dari
tada mining.
g) Teknik dalam proses penambangan data
Terdapat berbagai macam teknik yang digunakn dalam proses
penambangan data, apa saja teknik yang digunakan dalam proses data
mining ?
 Predictive modeling, terdapat dua teknik yaitu
classification dan value prediction.
 Database segmentation, melakukan partisi database
menjadi sejumlah segmen,cluster, atau record yang sama
 Link analysis, sebuah teknik untuk membuat hubungan
antara record yang individu atau sekumpulan record dalam
database.
 Deviation detection, sebuah teknik untuk
mengidentifikasikan sebuah deviasi dari ekspektasi yang
sudah diketahui sebelumnya.
 Nearest neighbour, yaitu teknik yang memprediksi
pengelompokkan , teknik yang tertua yang digunakan
dalam data mining
 Clustering, merupakan teknik untuk mengklasifikasikan
data berdasarkan kriteria masing-masing data.
 Decision tree, merupakan teknik generasi selanjutnya,
dimana teknik ini adalah sebuah prediktif yang dapat
teknik ini adalah sebuah model prediktif yang dapat
digambarkan seperti pohon, setiap node yang terdapat
dalam struktur pohon tersebut mewakili sebuah
pertanyaan yang digunakan untuk menggolongkan data.
2.2 Algoritma K-means Clustering

Adalah suatu metode penganalisaan data atau metode data


mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang melakukan
pengelompokan data dengan sistem partisi.

Terdapat dua jenis data clustering yang sering dipergunakan


dalam proses pengelompokkan data yaitu hierarchical dan non-
hierarchical, dan k-means merupakan salah satu metode data clustering
non-hierarchical atau partitional clustering.

Gambar partitional clustering

Metode k-means clustering berusaha mengelompokkan data yang


ada kedalam beberapa kelompok, dimana data didalam suatu kelompok
mempunyai karaktistik yang sama satu sama lainnya dan mempunyai
karakteristik yang berbeda dengan data yang ada didalam kelompok
yang lain.
Gambar hierarki clustering

Dengan kata lain, metode k-means clustering bertujuan untuk


meminimalisasikan objektif function yang diset dalam proses clustering
dengan cara meminimalkan variasi antar data yang ada di dalam suatu
cluster dan memastikan variasi dengan data yang ada di cluster lainnya.
Data clustering menggunakan metode k-means clustering ini secara
umum dilakukan dengan algoritma dasar sebagai berikut:
1. Tentukan jumlah cluster
2. Alokasikan data kedalam cluster secara random
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centoid/ rata-rata terdekat.
5. Kembali ke-step 3, apabila masih ada data yang berpindah cluster atau
apabila perubahan nilai centroid, ada yang di atas nilai threshold yang
ditentukan atau apabila perubahan nilai pada objektive function yang
digunakan diatas nilai threshold yang ditentukan.

 karakteristik K-MEANS
1. K-means sangat cepat dalam proses clustering
2. K-means sangat sensitif pada pembangkitan centriod awaal
secara random
3. Memungkinkan suatu cluster tidak mempunyai anggota
4. Hasil clusterring dengan k-means bersifat tidak unik (selalu
berubah-ubah) terkadang baik, terkadang jelek
5. K-means sangat sulit untuk mencapai global optimum
Memperhatikan input dalam algoritma k-means, dapat dikatakan bahwa
algoritma ini hanya mengolah data kuantitatif atau numerik. Sebuah basis data tidak
mungkin hanya berisi satu macam tipe data saja, akan tetapi beragam tipe. Sebuah basis
data dapat berisi data-data dengan tipe sebagai berikut : binary, nominal, oridinal,
interval dan ratio. Berbagai macam atribut dalam basis data yang berbeda tipe disebut
data multi variate. Tipe data seperti nominal dan oridinal harus diolah terlebih dahulu
menjadi data numerik, sehingga dapat diberlakukan algoritma k-means dalam
pembetukan clusternya.
3.2 Rapid Miner
Produk-produk perangkat lunak gratis (freeware) dan bersifat open source yang
demikian banyak jumlahnya, telah memudahkan kita dalam melakukan proses
pengolahan dan analisis data mining, Rapid Miner menurupakan salah satu solusi
yang dapat kita gunakan, keberadaan rapid miner yang berupa freeware dan dapat
dijalankan berbagai sistem operasi tidak hanya menguntungkan penyedia aplikasi
tidak perlu mengeluarkan biaya untuk lisensi perangkat lunak, tetapi juga
memudahkan pengembang maupun calon pengembang dalam mempelajari dan
mencoba sendiri fitur-fitur yang ada.
Rapid miner merupakan sebuah solusi untuk melakukan analisis terhadap data
mining, text mining dan analisis prediktif, rapid miner menggunakan berbagai
teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna
sehingga dapat membuat suatu keputusan yang paling baik.
Rapid miner sebelumnya bernama YALE ( Yet Another Learning Environment ),
diamana versi awalnya mulai di kembangkan pada tahun 2001 oleh Ralf Klinkenberg,
Ingo Mierswa, dan Simon Fischer di artificial intellignce unit dari univercity of
dortmund. Rapid miner didistribusikan dibawah lisensi AGPL (GNU Affero General
Republic License ) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan
menggunakan rapid miner dilebih dari 40 negara. Rapid miner sebagai software
open source untuk data mining tidak perlu diragunak lagi karena software ini sudah
terkemuka didunia. Rapid miner menempati peringkat pertama sebagai software
data mining pada polling oleh Kdnuggets, sebuah portal data minng pada tahun
2010-2011.

Beberapa fitur rapid miner antara lain:


1. Banyaknya algoritma data mining, seperti desision tree dan self-
organization map.
2. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram.
Tree chart dan 3D scatter plots.
3. Banyaknya variasi plugin seperti text plugin untuk melakukan analisis teks
4. Menyediakan prosedur data mining dan machine learning termasuk : ETL
(extraction, transmation, loading) data preprocessing, visualisasi,
modeling dan evaluasi.
5. Proses data mining tersusun atas operator-operator yang nenstable,
dideskripsikan dengan XML, dan dibuat dengan GUI
6. Mengintegrasikan proyek data mining WEKA, dan statistika R.

Anda mungkin juga menyukai