Anda di halaman 1dari 5

Data Mining FUNGSI PREDIKSI/ FORECASTING

A.     Data Mining
Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat
memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik
analisis data yang tradisional tidak dapat digunakan untuk mengektrak informasi dari
data yang sangat besar. Untuk itu diperlukan suatu metoda baru yang dapat
menjawab kebutuhan tersebut. Data mining merupakan teknologi yang
menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk
memproses data dengan volume besar.

Definisi Data mining
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Kata mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar Data mining merupakan proses pencarian pola dan relasi-relasi
yang tersembunyi dalam sejumlah data yang besar dengan tujuan untuk melakukan
klasifikasi, estimasi, prediksi, association rule, clustering, deskripsi dan visualisasi.
Secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama,
yaitu.      
Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data
dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive
mining adalah clustering, association, dan sequential mining. 
Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan
beberapa variabel lain di masa depan. Salah satu teknik yang terdapat
dalam predictive mining adalah klasifikasi.
Secara sederhana  data mining bisa dikatakan sebagai proses menyaring atau
"menambang" pengetahuan dari sejumlah data yang besar. Istilah lain untuk data
mining adalah Knowledge Discovery in Database atau KDD. Walaupun sebenarnya data
mining sendiri adalah bagian dari tahapan proses dalam KDD

Knowledge Discovery in Database (KDD)

A. Definisi
KDD adalah keseluruhan proses untuk mengkonversi data mentah
menjadi suatu pengetahuan yang bermanfaat
Gambar 1. Proses KDD

B. Proses KDD
Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
A. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan
digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis
data operasional.
B. Pre-processing/ Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data
yang

inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak


(tipografi).
Selain itu dilakukan proses enrichment, yaitu proses "memperkaya" data yang
sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,
seperti data atau informasi eksternal.
C. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses Data mining. Proses coding dalam KDD merupakan
proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari
dalam basis data, sebagai contoh yaitu jika pada WEKA, mengubah bentuk save as
data dari Microsoft Excel Worksheet menjadi CSV (Comma Delimited) sebelum
melakukan proses ke data mining.
D. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam  data mining sangat bervariasi. Pemilihan metode atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
E. Interpretation/ Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini
merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesa yang ada sebelumnya.

B. Manfaat Data Mining


Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut
pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial,
pemanfaatan dataming dapat digunakan dalam menangani meledaknya volume data.
Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai
teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi
yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data
mining tidak hanya digunakan untuk menangani persoalan menumpuknya
data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang
penting (warehousing). Data mining juga diperlukan untuk menyelesaikan
permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya:
·         Bagaimana mengetahui hilangnya pelanggan karena pesaing
·         Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan
karakteristik
·         Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk
lain.
·         Bagaimana memprediski tingkat penjualan
·         Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
·         Bagaimana memprediksi prilaku bisnis di masa yang akan dating Dari sudut
pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis
serta menyimpan data yang bersifat real time dan sangat besar, misalnya:
·         Remote sensor yang ditempatkan pada suatu satelitP
·         Telescope yang digunakan untuk memindai langit
·         Simulasi saintifik yang membangkitkan data dalam ukuran terabytes
FUNGSI PREDIKSI/ FORECASTING

A.     Pengertian Prediksi/Forecasting
Proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan
data. Prediksi menggunakan beberapa variabel atatu field-field basis data untuk
memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum
diketahui saat ini.

B.      Algoritma Naive Bayes


Bayesian classification adalah pengklasifikasian statistik yang dapat digunakan
untuk memprediski probabilitas keanggotaan suatu class. Bayesian classification
didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan
decesion tree dan neural network. Bayesian classification terbukti memiliki akurasai
dan kecepatan yang tinggi saat diaplikasikan ke dalam database dengan data yang
besar. (Kusrini,2009).
Teorema Bayes memiliki bentuk umum sebagai berikut :

X                    = Data dengan class yang belum diketahui


H                   = Hipotesis data X merupakan suatu class spesifik
P(H|X)   =Probabilitas hipotesis H berdasarkan kondisi x (posteriori   prob.)
P(H)               = Probabilitas hipotesis H (prior prob.)
P(X|H)           = Probabilitas X berdasarkan kondisi tersebut
P(X)               = Probabilitas dari X

D.    Penelitian Bidang Prediksi Lama Studi


Setiap mahasiswa mempunyai lama studi yang bisa sama ataupun berbeda dengan
mahasiswa lain dengan berbagai faktor penyebab. Seperti penelitian yang dilakukan
oleh Nuqson Masykur Huda, dalam penelitiannya aplikasi data mining unutk
menampilkan tingkat kelulusan mahasiswa dengan studi kasus FMIPA Universitas
Diponegoro menyebutkan bahwa data proses masuk, asal sekolah, kota asal dan
program studi menjadi pertimbangan dalam menghitung tingkat kelulusan. Nuqson
dalam penelitiannya menggunakan metoda associasion rule serta algoritma apriori.
Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut dicari
nilai support dan confidence nya sehingga akan diperoleh faktor mana yang paling
berperan atau paling mempunyai pengarauh yang cukup besar berkaitan dengan
tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief Meinanda dkk, dalam penelitiannya tentang
prediksi masa studi sarjana dengan artificial neural network menyebutkan bahwa
masa studi seorang sarjana dipengaruhi oleh IPK, jumlah matakuliah yang diambil,
jumah matakuliah yang mengulang, jumlah matakuliah tertentu. Metoda penelitian
yang digunakan merupakan adopsi dari CRISP-DM atau Cross-Idustry Standard Process
for Data Mining, dimana di dalamnya terdapat enam fase yaitu Businnes
Understanding,Data Understanding, Data Preparation, Modeling,
Evaluation dan Deployment. Dalam. Setelah memahami masalahnya kemudian
melakukan processing data dengan membuat cross-tabulation, koreksi data
yang misclasification , mising value maupun outlier.
1. Melakukan studi kepustakaan terhadap berbagai referensi yang berkaitan dengan
penelitian yang dilakukan. Topik-topik yang dikaji antara lain meliputi : database,
data mining, klasifikasi, dan beberapa algoritma lain yang mungkin dapat digunakan,
serta perangkat lunak yang digunakan untuk proses mining.
2. Menyiapkan data-data yang dibutuhkan, yaitu data berkaitan dengan identitas pribadi
dari mahasiswa dan nilai matakuliah yang telah ditempuh oleh mahasiswa hingga
mencapai 146 sks dan telah dinyatakan lulus. Data nilai matakuliah yang telah
ditempuh hanya diambil sampai dengan semester IV dan kemudian dihitung indeks
prestasinya (IPK) secara kumulatif sampai dengan semester IV.. Data ini nantinnya
merupakan data training dan testing. Mendapatkan tahun lulus dari setiap mahasiswa
yang telah lulus tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau
tidak.
3. Mengolah data yang telah disiapkan menggunakan beberapa perangkat lunak bantu
seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan data dan mining data yang telah dilakukan
untuk memghasilkan informasi mengenai prediksi lama studi dari mahasiswa maupun
informasi lain yang dapat digunakan sebagai bahan analisa untuk pengambilan
keputusan.

KESIMPULAN

Berdasarkan dari percobaan yang telah dilakukan maka dapat diambil beberapa
kesimpulan sebagai berikut :

1. Lama masa studi atau dalam hal ini yaitu ketepatan masa studi setiap mahasiswa
dapat diprediksi berdasarkan faktor-faktor yang berkaitan dengan latar belakang
sekolah sebelumnya dan data akademik serta pribadi saat berada di perguruan tinggi.

2. Fungsi prediksi dengan memanfaatkan teknik data mining menggunakan algoritma


naive bayes telah dapat dibuat dan digunakan untuk memprediksi (menenutkan kelas)
dari masa studi atau ketepatan masa studi dari mahasiswa dengan data training dan
data testing yang telah diperoleh.

3. Tingkat kesalahan dari fungsi klasifikasi yang digunakan untuk prediksi masih berkisar
pada 20% hingga 34% yang hal ini dimungkinkan dapat dipengaruhi oleh jumlah data
training maupun testing yang digunakan serta tingkat konsisten data yang digunakan.

Anda mungkin juga menyukai