NIM : 12221939
2. Sebutkan dan jelaskan klasifikasi metode yang ada dalam Data Mining yang digunakan
dalam pemecahan masalah dan pencarian pengetahuan baru?
1. Classification
Classification adalah metode yang paling umum pada data mining. Persoalan bisnis
seperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification. Classification adalah tindakan untuk memberikan kelompok pada
setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute. Metode ini butuh untuk menemukan sebuah model yang dapat
menjelaskan class attribute itu sebagai fungsi dari input attribute.
Clustering
2. Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Gambar dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi
dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
3. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan histori data yang telah ada. Contohnya Ketika melakukan
Estimasi Pembiayaan pada saat pembangunan sebuah Hotel baru pada Kota yang
berbeda
4. Association
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang
khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-
produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang
membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data
pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan
kebiasaan apa yang terjadi guna kepentingan cross-selling
5. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan
Algoritma Data Mining hasilnya untuk memberikan sejumlah aturan. Salah satu
contoh yang mudah dan popular adalah dengan Decision tree yaitu salah satu metode
klasifikasi yang paling populer karena mudah untuk interpretasi seperti Algoritma
C4.5, ID3
6. Metode Regression
Hal mirip dengan metode Classification, yang membedakannya adalah metode
regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).
Metoda regression bertujuan untuk mencari pola dan menentukan sebuah nilai
numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression,
dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai
dari input.
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori,
jadi tidak hanya input berupa numerik.
Teknik paling populer yang digunakan untuk regression adalah linear regression dan
logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah
Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural
Network.
Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk
memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.
5. Forecasting
Forecasting juga adalah metode data mining yang sangat penting. Contohnya
digunakan untuk menjawab pertanyaan seperti berikut:
• Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,
disimbolkan sebagai MSFT) pada keesokan hari?
• Sebanyak apa penjualan produk tertentu pada bulan depan?
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.
Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian teknik Forecasting ini
akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,
dan noise pada data.
7. Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang
disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian:
A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada
kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai
sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
Pertama-tama Seorang pelanggan membeli computer kemudian membeli speaker
dan akhirnya membeli sebuah webcam.
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama
berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-
series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang
khas.
3. a. Apa itu Supervised Learning / Pembelajaran yang Diawasi?
Metode yang diawasi adalah metode yang mencoba untuk menemukan hubungan
antara atribut input (kadang disebut variabel independen) dan atribut target (kadang
disebut sebagai variabel dependen). Hubungan yang ditemukan direpresentasikan
dalam struktur yang disebut sebagai model.
Biasanya, model mendeskripsikan dan menjelaskan fenomena, yang tersembunyi di
dalam dataset dan dapat digunakan untuk memprediksi nilai atribut target dengan
mengetahui nilai atribut input. Metode yang diawasi dapat diimplementasikan dalam
berbagai domain seperti pemasaran, keuangan, dan manufaktur.
Berguna untuk membedakan antara dua model utama yang diawasi: model klasifikasi
(pengklasifikasi) dan Model Regresi. Model regresi memetakan ruang input ke dalam
domain nilai riil.
Misalnya, seorang regressor dapat memprediksi permintaan untuk produk tertentu
berdasarkan karakteristiknya. Di sisi lain, pengklasifikasi memetakan ruang input ke
dalam kelas yang telah ditentukan sebelumnya. Misalnya, pengklasifikasi dapat
digunakan untuk mengklasifikasikan konsumen hipotek sebagai baik (membayar penuh
hipotek tepat waktu) dan buruk (pembayaran tertunda).