Anda di halaman 1dari 5

TUGAS 1 DATA MINING

Nama : Kukuh Puji Hariyadi

NIM : 12221939

1. Jelaskan konsep singkat Definisi dari Data Mining.

Secara umum Data Mining terbagi atas 2(dua) kata yaitu:


Data : Kumpulan Fakta yang terekam atau sebuah entitas yang tidak memiliki arti dan
selama ini terabaikan.
Mining : yaitu proses Penambangan
Menurut Larose (2005), ada beberapa istilah lain yang mempunyai makna yang sama
dengan apa itu data mining, yaitu Knowledge Discovery in Databases (KDD), Knowledge
Extraction atau ekstraksi pengetahuan, Data/Pattern Analysis, Business Intelligence dan
Data Archeology serta Data Dredging.
Kemampuan penggalian data dalam mencari informasi bisnis yang berharga dari basis
data yang besar, dapat dianalogikan dengan penambangan logam mulia dari lahan
sumbernya.
Oleh karena itulah, teknologi ini biasa digunakan untuk:
• Prediksi trend dan sifat-sifat bisnis; Dimana data mining disini mengotomatisasi
proses pencarian informasi pemprediksi di dalam basis data yang besar.
• Penemuan pola-pola; Disini data mining menyapu basis data, lalu mengidentifikasi
pola-pola yang sebelumnya tersembunyi di dalam sapuan tersebut.
• Membuat keputusan penting; Data mining berguna untuk membuat sebuah
keputusan yang penting atau kritis, terutama didalam strategi.
Data Mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik
dari pembelajaran mesin, pengenalan pola, statistic,database, dan visualisasi
untuk penanganan permasalahan pengambilan informasi dari database yang besar.

2. Sebutkan dan jelaskan klasifikasi metode yang ada dalam Data Mining yang digunakan
dalam pemecahan masalah dan pencarian pengetahuan baru?

1. Classification
Classification adalah metode yang paling umum pada data mining. Persoalan bisnis
seperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification. Classification adalah tindakan untuk memberikan kelompok pada
setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute. Metode ini butuh untuk menemukan sebuah model yang dapat
menjelaskan class attribute itu sebagai fungsi dari input attribute.
Clustering
2. Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Gambar dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi
dua atribut, yaitu Age (Umur) dan Income (Pendapatan).

Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment


berdasarkan kedua atribut ini.

Cluster 1 berisi populasi berusia muda dengan pendapatan rendah


Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh
atribut input diperlakukan sama.

Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian


pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul
(batasan dari segmentasi ini telah stabil).

3. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan histori data yang telah ada. Contohnya Ketika melakukan
Estimasi Pembiayaan pada saat pembangunan sebuah Hotel baru pada Kota yang
berbeda
4. Association
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang
khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-
produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang
membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data
pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan
kebiasaan apa yang terjadi guna kepentingan cross-selling

5. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan
Algoritma Data Mining hasilnya untuk memberikan sejumlah aturan. Salah satu
contoh yang mudah dan popular adalah dengan Decision tree yaitu salah satu metode
klasifikasi yang paling populer karena mudah untuk interpretasi seperti Algoritma
C4.5, ID3

6. Metode Regression
Hal mirip dengan metode Classification, yang membedakannya adalah metode
regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).
Metoda regression bertujuan untuk mencari pola dan menentukan sebuah nilai
numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression,
dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai
dari input.
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori,
jadi tidak hanya input berupa numerik.
Teknik paling populer yang digunakan untuk regression adalah linear regression dan
logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah
Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural
Network.
Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk
memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.

5. Forecasting
Forecasting juga adalah metode data mining yang sangat penting. Contohnya
digunakan untuk menjawab pertanyaan seperti berikut:
• Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,
disimbolkan sebagai MSFT) pada keesokan hari?
• Sebanyak apa penjualan produk tertentu pada bulan depan?
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.
Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian teknik Forecasting ini
akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,
dan noise pada data.

7. Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang
disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian:
A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada
kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai
sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
Pertama-tama Seorang pelanggan membeli computer kemudian membeli speaker
dan akhirnya membeli sebuah webcam.
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama
berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-
series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang
khas.
3. a. Apa itu Supervised Learning / Pembelajaran yang Diawasi?
Metode yang diawasi adalah metode yang mencoba untuk menemukan hubungan
antara atribut input (kadang disebut variabel independen) dan atribut target (kadang
disebut sebagai variabel dependen). Hubungan yang ditemukan direpresentasikan
dalam struktur yang disebut sebagai model.
Biasanya, model mendeskripsikan dan menjelaskan fenomena, yang tersembunyi di
dalam dataset dan dapat digunakan untuk memprediksi nilai atribut target dengan
mengetahui nilai atribut input. Metode yang diawasi dapat diimplementasikan dalam
berbagai domain seperti pemasaran, keuangan, dan manufaktur.
Berguna untuk membedakan antara dua model utama yang diawasi: model klasifikasi
(pengklasifikasi) dan Model Regresi. Model regresi memetakan ruang input ke dalam
domain nilai riil.
Misalnya, seorang regressor dapat memprediksi permintaan untuk produk tertentu
berdasarkan karakteristiknya. Di sisi lain, pengklasifikasi memetakan ruang input ke
dalam kelas yang telah ditentukan sebelumnya. Misalnya, pengklasifikasi dapat
digunakan untuk mengklasifikasikan konsumen hipotek sebagai baik (membayar penuh
hipotek tepat waktu) dan buruk (pembayaran tertunda).

3. b. Arti Unsupervised Learning :


Dalam pembelajaran tanpa pengawasan, kumpulan data disediakan tanpa label, dan
model mempelajari properti yang berguna dari struktur kumpulan data. Kami tidak
memberi tahu model apa yang harus dipelajari, tetapi membiarkannya menemukan pola
dan menarik kesimpulan dari data yang tidak berlabel.
Algoritme dalam pembelajaran tanpa pengawasan lebih sulit daripada pembelajaran
dengan pengawasan, karena kami memiliki sedikit atau tidak ada informasi tentang
data. Tugas pembelajaran tanpa pengawasan biasanya melibatkan pengelompokan
contoh serupa bersama-sama, pengurangan dimensi, dan estimasi kepadatan.
3.c. Reinforced Learning :
Pembelajaran penguatan (RL) adalah area pembelajaran mesin yang berkaitan dengan
bagaimana agen cerdas harus mengambil tindakan di lingkungan untuk memaksimalkan
gagasan tentang imbalan kumulatif. Pembelajaran penguatan adalah salah satu dari tiga
paradigma pembelajaran mesin dasar, di samping pembelajaran yang diawasi dan
pembelajaran yang tidak diawasi.
Pembelajaran penguatan berbeda dari pembelajaran terawasi karena tidak
membutuhkan pasangan input/output berlabel untuk disajikan, dan tidak membutuhkan
tindakan sub-optimal untuk dikoreksi secara eksplisit. Alih-alih, fokusnya adalah
menemukan keseimbangan antara eksplorasi (wilayah yang belum dipetakan) dan
eksploitasi (pengetahuan saat ini).
Lingkungan biasanya dinyatakan dalam bentuk proses keputusan Markov (MDP), karena
banyak algoritme pembelajaran penguatan untuk konteks ini menggunakan teknik
pemrograman dinamis. Perbedaan utama antara metode pemrograman dinamis klasik
dan algoritma pembelajaran penguatan adalah bahwa yang terakhir tidak menganggap
pengetahuan tentang model matematika yang tepat dari MDP dan mereka menargetkan
MDP besar di mana metode yang tepat menjadi tidak layak.

Anda mungkin juga menyukai