3.1 Manfaat
Data mining
Asal data mining ditelusuri kembali ke tiga garis keluarga: statistik
klasik, kecerdasan buatan, dan pembelajaran mesin.
Statistik Klasik
Adalah dasar dari sebagian besar teknologi dimana data
mining dibangun, seperti analisis regresi, deviasi standar,
distribusi standar, varian standar, analisis diskriminatif, analisis
cluster, dan interval trust. Semua ini digunakan untuk
menganilisis data dan koneksis data.
Kecerdasan Buatan
AI atau artificial intelligence didasarkan pada heuristik dan
bukan statistik. Ia mencoba menerapkan pemikiran manusia
seperti pemrosesan ke masalah statistik. Konsep AI tertentu
diadopsi oleh beberapa produksi komersial kelas atas, seperti
modul pengoptimalan kueri unuk sistem relational database
management system (RDBMS).
Pembelajaran Mesin
Pembelajaran mesin atau disebut sebagai machine
learning adalah kombinasi dari statistik dan AI. Machine learning
dapat dianggap sebagai evolusi AI karena menggabungkan
heuristik AI dengan analisis statistik yang kompleks.
Pembelajaran mesin menggunakan statistik untuk konsep dasar
dan menambahkan lebih banyak heuristik dan algoritma AI untuk
mencapai targetnya.
d) Fungsi Data Mining
Data mining memiliki banyak sekali fungsi, untuk fungsi utamanya
sendiri yaitu ada dua: yaitu fungsi descriptive dan fungsi predictive.
Untuk fungsi lainnya akan dibahas dibawah.
Deskriptive
Fungsi deskripsi dalam data mining adalah sebuah fungsi
untuk memahami lebih jauh tentang data yang diamati. Dengan
melakukan sebuah proses diharap bisa mengetahui perilaku dari
sebuah data tersebut. Data tersebut itulah yang nantinya dapat
digunakan untuk mengetahui karakteristik dari data yang
dimaksud. Dengan menggunakan fungsi descriptive data mining,
maka nantinya bisa menemukan pola tertentu yang tersembunyi
dalam sebuah data. Dengan kata lain jika pola yang berulang dan
bernilai itulah karakteristik sebuah data bisa diketahui.
Predictive
Fungsi ini merupakan sebuah fungsi bagaimana sebuah proses
nantinya akan menemukan pola tertentu dari suatu data. Pola-pola
tersebut dapat diketahui dari berbagai variable-variable yang ada pada
data.
Ketika sudah menemukan pola, maka pola yang didapatkan
tersebut bisa digunakan untuk mem prediksi variable lain yang belum
diketahui nilai ataupun jenisnya. Karena itulah fungsi satu ini dikatakan
sebagai fungsi prediksi sama halnya dengan melakukan prediktive
analisis. Fungsi ini juga bisa digunakan untuk meprediksi sebuah variable
tertentu yang tidak ada dalam suatu data.
Sehingga fungsi ini memudahkan dan menguntungkan bagi
siapapun yang memerlukan prediksi yang akurat untuk membuat hal
penting tersebut menjadi lebih baik.
Fungsi data mining yang lainnya yaitu:
Multi dimensional concept description, karakteristik dan
diskriminasi, atau berfungsi untuk menggeneralisasikan
meringkas, dan membedakan karakteristik data, dll.
Frequnt patterns, association, correlation.
Classification and prediction.
Membangun model(fungsi) yang menggambarkan dan
membedakan kelas atau konsep untuk prediski masa depan,
misalnya, mengklasifikasikan negara berdasarkan (iklim), atau
mengklasifikasikan mobil berdasarkan (jarak tempuh gas).
Cluster analysis, membuat data grup untuk membentuk kelas
baru. Misalnya memaksimalkan kesamaan intra-kelas &
meminimalkan kesamaan antar kelas.
Outlier analysis, objek data yang tidak sesuai dengan prilaku
umum dari data, berguna dalam mendeteksi penipuan, analisis
peristiwa langka.
Trend and evolution analysis, trend dan penyimpangan:
misalnya analisis regresi atau mining penambangan pola
berurutan: misalnya, kamera digital, atau analisis periodisitas
dan analisis berbasis kesamaan.
Other pattern-directed or statistical analysis
e) Metode Data Mining
Dalam melakukan pengumpulan informasi tentunya terdapat metode,
metode tersebut akan membantu dalam proses menemukan data. Data mining
akan menyediakan perencanaan dari ide hingga implementasi akhir.
Analisa masalah (analyzing the problem) data asal atau data
sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi
kriteria data mining, kualitas kelimpahan data adalah faktor utama
untuk memutuskan apakah data tersebut cocok dan tersedia sebagai
tambahan, hasil yang diharapkan dari dampak data mining harus dengan
hati-hati dimengerti dan dipastikan bahwa data yang diperlukan
membawa informasi yang bisa di ekstrak.
Mengekstrak dan membersihkan data (extracting dan cleaning
the data) data pertama kali diekstrak dari data aslinya, seperti dari OLTP
basis data, text file, microsoft acces database, dan bahkan dari
spreadsheet, lalu data tersebut diletakkan dalam data warehouse yang
mempunyai struktur yang sesuai dengan data model secara khas.
Data transformation serice (DTS) dioakai untuk mengekstrak
dan membersihkan data dari tidakkonsistennya dan tidak kompatibelnya
dengan format yang sesuai.
Validasi data (validating the data) sekali data telah diekstrak dan
dibersihkan, ini adalah latihan yang bagus untuk menelusuri model yang
telah kita ciptakan bahwa semua data yang ada adalah data sekarang
dan tetap.
Membuat dan melatih model (creating and training the model)
ketika algoritma diterapkan pada model, struktur telah dibangun
Hal ini sangatlah penting pada saat ini untuk melihat data yang
telah dibangun untuk memastikan bahwa data tersebut mempunyai
fakta didalam data sumber.
Query data dari model data mining (querying the model data)
ketika model yang telah cocok diciptakan dan dibangun, data yang telah
dibuat tersedia untuk mendukung keputusan.
Hal ini biasanya melibatkan penulisan front end query aplikasi
dengan program aplikasi /suatu program basis data.
Evaluasi validitas dari mining model ( maintaining the validity of
the data mining model ) setelah model data mining terkumpul, lewat
beberapa waktu, karakteristik data awal seperti granularitas dan
validitas mungkin berubah. Karena model data mining dapat terus
berubah. Karena model data mining dapat terus berubah seiring
perkembangan waktu.
karakteristik K-MEANS
1. K-means sangat cepat dalam proses clustering
2. K-means sangat sensitif pada pembangkitan centriod awaal
secara random
3. Memungkinkan suatu cluster tidak mempunyai anggota
4. Hasil clusterring dengan k-means bersifat tidak unik (selalu
berubah-ubah) terkadang baik, terkadang jelek
5. K-means sangat sulit untuk mencapai global optimum
Memperhatikan input dalam algoritma k-means, dapat dikatakan bahwa
algoritma ini hanya mengolah data kuantitatif atau numerik. Sebuah basis data tidak
mungkin hanya berisi satu macam tipe data saja, akan tetapi beragam tipe. Sebuah basis
data dapat berisi data-data dengan tipe sebagai berikut : binary, nominal, oridinal,
interval dan ratio. Berbagai macam atribut dalam basis data yang berbeda tipe disebut
data multi variate. Tipe data seperti nominal dan oridinal harus diolah terlebih dahulu
menjadi data numerik, sehingga dapat diberlakukan algoritma k-means dalam
pembetukan clusternya.
3.2 Rapid Miner
Produk-produk perangkat lunak gratis (freeware) dan bersifat open source yang
demikian banyak jumlahnya, telah memudahkan kita dalam melakukan proses
pengolahan dan analisis data mining, Rapid Miner menurupakan salah satu solusi
yang dapat kita gunakan, keberadaan rapid miner yang berupa freeware dan dapat
dijalankan berbagai sistem operasi tidak hanya menguntungkan penyedia aplikasi
tidak perlu mengeluarkan biaya untuk lisensi perangkat lunak, tetapi juga
memudahkan pengembang maupun calon pengembang dalam mempelajari dan
mencoba sendiri fitur-fitur yang ada.
Rapid miner merupakan sebuah solusi untuk melakukan analisis terhadap data
mining, text mining dan analisis prediktif, rapid miner menggunakan berbagai
teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna
sehingga dapat membuat suatu keputusan yang paling baik.
Rapid miner sebelumnya bernama YALE ( Yet Another Learning Environment ),
diamana versi awalnya mulai di kembangkan pada tahun 2001 oleh Ralf Klinkenberg,
Ingo Mierswa, dan Simon Fischer di artificial intellignce unit dari univercity of
dortmund. Rapid miner didistribusikan dibawah lisensi AGPL (GNU Affero General
Republic License ) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan
menggunakan rapid miner dilebih dari 40 negara. Rapid miner sebagai software
open source untuk data mining tidak perlu diragunak lagi karena software ini sudah
terkemuka didunia. Rapid miner menempati peringkat pertama sebagai software
data mining pada polling oleh Kdnuggets, sebuah portal data minng pada tahun
2010-2011.