Anda di halaman 1dari 3

ADITYO DWIRAHMAWAN - 165150400111003

 Cari informasi suatu penerapan data mining yang telah dikemasn menjadi produk perangkat
lunak. Uraikan penjelasan mengenai data mining task dari produk tersebut!

Penerapan Data Mining pada penjualan produk minuman di PT.Pepsi Cola Indobeverages menggunakan
metode Clustering. Metode yang digunakan dalam penerapan ini adalah pengelompokan (Clustering)
dimana metode tersebut mengidentifikasi objek yang memiliki kesamaan karakteristik tertentu, dan
kemudian menggunakan karakteristik tersebut sebagai “Vektor Karakteristik” atau “Centroid”. Hasilnya
adalah dapat berupa perangkat lunak yang dapat mempermudah menganalisis sejumlah data yang
besarguna membantu memberikan informasi berharga sebagai gambaran dasar pengambilan keputusan
perusahaan dan dapat mengurangi penumpukan data yang kurang dimanfaatkan sebelumnya.

Penerapan Data Mining untuk Klasifikasi Prediksi Penyakit ISPA (Infeksi Saluran Pernapasan Akut) dengan
Algoritma Decision Tree (Aline Embun Pramadhani, Universitas Ahmad Dahlan, 2014). Metode klasifikasi
decision tree (ID3) adalah pohon keputusan yang memperlihatkan faktor-faktor kemungkinan atau
probabilitas yang akan mempengaruhi alternatif-alternatif keputusan tersebut. Disertai dengan estimasi
hasil akhir yang akan didapat bila kita mengambil keputusan tersebut. Klasifikasi pada penelitian disini
bertujuan untuk membentuk suatu model pohon keputusan untuk memprediksi pasien dan melihat
variabel yang paling mempengaruhi penyakit pasien dengan kategori ISPA. Hasi dari penelitian ini berupa
perangkat lunak baru tentang penerapan data mining untuk klasifikasi prediksi penyakit ISPA
menggunakan algoritma decission tree. Perangkat lunak yang dihasilkan mampu menerapkan proses data
mining untuk mengklasifikasikan penyakit ISPA dengan berbagai atribut berdasarkan atribut yang paling
berpengaruh sampai ke atribut yang paling tidak berpengaruh.

Penerapan Data Mining berdasarkan Asosiasi menggunakan Algoritma Apriori dalam penentuan pola
belanja Kitchen Appliances (Cahyani Budihartanti, STMIKNM, 2013). Association Rule merupakan studi
tentang “apa bersama apa” yang pada awalnya merupakan studi tentang database transaksi pelanggan
untuk menemukan kebiasaan suatu produk dibeli bersama dengan produk apa. Maka aturan asosiasi juga
sering disebut dengan market basket analysis. Sedangkan Algoritma Apriori bertujuan untk menemukan
frequent itemset yang dijalankan oleh sekumpulan data. pada iterasi ke-k, akan ditemukan semua itemset
yang memiliki k item. Yang disebut dengan k-itemset.

Metode regression mirip dengan metode classification. Yang membedakan adalah metode regression
tidak bisa mencari pola yang dijabarkan sebagai class (kelas). Metode ini bertujuan untuk mencari pola
dan menentukan sebuah nilai numerik. Sebuah teknik linier Line-fitting sederhana adalah sebuah contoh
dari regression. Dimana hasilnya adalah sebuah fungsi untuk menentukan hasil berdasarkan nilai dari
input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak
hanya input berupa numerik. Teknik paling populer yang digunakan untuk regression adalah Linier
Regression dan Logistic Regression. Teknik lain yang didukung oleh SQL Server Data Mining adalah
Regression Trees (bagian dari algoritma Microsoft Decession Trees) dan Neueral Network. Regression
juga digunakan untuk memecahkan banyak problem bisnis. Contohnya untuk memperkirakan metode
distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan
temperatur, tekanan udara, dan kelembaban.
ADITYO DWIRAHMAWAN - 165150400111003

 Cari informasi mengenai perangkat lunak yang merupakan tools untuk melakukan data mining.
Uraikan penjelasan mengenai data mining task yang didukung oleh tools tersebut!

1. Rstudio
R studio merupakan integrated development environment (IDE) dari bahasa pemrograman R yang
merupakan bahasa pemrograman standar untuk pengembangan perangkat lunak statistik. Pengguna
R studio dituntut harus menggunakan baris kode untuk melakukan analisis sangat berbeda dengan
Orange dan Weka yang hanya butuh klik-klik saja. RStudio merupakan integrated development
environment (IDE) khusus bagi bahasa pemrograman R. Software ini menyediakan R console, code
editor dengan syntax highlighting, code completion dan direct execution, environment, history,
connections, dan fitur-fitur tambahan lainnya seperti file manager, packages manager, help, plot
viewer, hingga project versioning menggunakan git. RStudio sebenarnya memiliki dua versi, yaitu
open source (gratis) dan commercial edition (berbayar). RStudio juga tidak hanya terbatas dalam
bentuk aplikasi dekstop, melainkan terdapat versi RStudio Server, yaitu RStudio yang dapat diakses
melalui browser yang terhubung dengan suatu jaringan komputer.

R sangat baik dan mudah digunakan dalam visualisasi data. Ada banyak sekali packages yang
mendukung R untuk membangun visualisasi menarik, seperti GGPLOT2 untuk membuat grafik, lattice
untuk menampilkan hubungan varibel, dan rCharts untuk menerbitkan visualisasi Java Script dengan
R.

Fungsi dasar pada Rstudio:


 Visualisasi data: grafik titik, grafik garis, histogram maupun pie chart
 Manipulasi data: mencari sample, stack
 Antarmuka ke weka: menjalankan program weka pada R

Fungsi dan package Data Mining pada R :

 Clustering
o k-means: kmeans(), kmeansruns()10 I k-medoids: pam(), pamk()
o Hierarchical clustering: hclust(), agnes(), diana()
o DBSCAN: fpc
o BIRCH: birch

 Klasifikasi
o Decision trees: rpart, party
o Random forest: randomForest, extendedForest, party
o SVM: e1071, kernlab
o Neural networks: nnet, neuralnet, RSNNS
o Performance evaluation: ROCR

 Assosisasi
o Association rules : apriori(), eclat() in package arules
o Sequential patterns : arulesSequence
o Visualisation of associations : arulesViz

 Sequential Pattern : arulesSequences


ADITYO DWIRAHMAWAN - 165150400111003

 Time Series
o Time series decomposition: decomp(), decompose(), arima(), stl()
o Time series forecasting: forecast
o Time Series Clustering: TSclust
o Dynamic Time Warping (DTW): dtw
 Statistik
o Statistika dasar : rata-rata, varian, median;
o Grafik statis : scatter-plot, peta, histogram; dan
o Distribusi peluang : beta, binomial.

2. RapidMiner
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner
adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi.
RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada
pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500
operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi.
RapidMiner merupakan software yang berdiri sendiri untuk analisis data dan sebagai mesin data mining
yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java
sehingga dapat bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi
awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of
Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL (GNU
Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan
mengunakan RapidMiner di lebih dari 40 negara. RapidMiner sebagai software open source untuk data
mining tidak perlu diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner menempati
peringkat pertama
sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini
akan menghasilkan file XML )Extensible Markup Language) yang mendefenisikan proses analitis
keingginan pengguna untuk diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk
menjalankan
analis secara otomatis.
RapidMiner memiliki beberapa sifat sebagai berikut:
· Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.
· Proses penemuan pengetahuan dimodelkan sebagai operator trees
· Representasi XML internal untuk memastikan format standar pertukaran data.
· Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.
· Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.
· Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program lain.
Beberapa Fitur dari RapidMiner, antara lain:
· Banyaknya algoritma data mining, seperti decision treee dan self-organization map.
· Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter
plots.
· Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis teks.
· Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction,
transformation,

Anda mungkin juga menyukai