Data Mining 1

Tugas data mining 1
1. Jelaskan apa yang dimaksud dengan data mining?

2. Jelaskan Kenapa data mining digunakan?
3. Jelaskan Alasan Perusahaan Menggunakan data mining?
4. Sebutkan nama lain dari data mining?
5. Jelaskan fungsidari data mining?
6. Jelaskan algoritma dari data mining?
7. Sebutkan tahapan tahapan dari proses KDD menurut Cabena?
8. Apa yang menjadi Isu data selection?
9. Jelaskan apa itu data transformation?
10. Sebutkan ha saat data preprosesing?
Tugas data mining 1
1. Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang
selama ini tidak diketahui secara manual dari suatu database dengan melakukan penggalian
pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih
berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau
menarik dari data yang terdapat dalam basisdata.
2. Karena data mining merupakan suatu proses penambangan data dalam jumlah data yang sangat
besar dengan menggunakan metode statistika, matematika, hingga memanfaatkan teknologi
artificial intelligence terkini.
Menurut para ahli (Efraim Turban, dkk 2005) Tujuan dari penambangan data ini untuk.
mengekstraksi serta mengidentifikasi suatu data demi informasi tertentu yang berhubungan dengan
suatu database besar atau big data.
3. Karena Informasi dalam data-data perlu diolah dan dianalisa untuk dapat dijadikan acuan dalam
pengambilan keputusan. Maka dari itu banyak perusahaan yang menggunakan konsep data
mining untuk kepentingan bisnis. Dalam dunia bisnis yang semakin hari semakin berkembang,
konsep data sangat diperlukan untuk membantu perusahaan dalam meningkatkan peforma atau
kinerja dari sebuh perusahaan. Maka dapat kita simpulkan bahwa data mining menjadi sangat
penting sejak teknologi informasi yang berkembang dengan begitu pesat.
4. Istilah lain Dari data mining adalah (knowledge discovery in databases (KDD))
5. Fungsi Data Mining
6. Data mining mempunyai fungsi yang penting untuk membantu mendapatkan informasi yang
berguna serta meningkatkan pengetahuan bagi pengguna. Pada dasarnya, data mining
mempunyai empat fungsi dasar yaitu:
1. Fungsi Prediksi (prediction).
Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk
memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.
2. Fungsi Deskripsi (description).
Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.
3. Fungsi Klasifikasi (classification).
Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk
menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk
mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa
depan.
4. Fungsi Asosiasi (association).
Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari
sekumpulan data.
7. Berikut ini adalah hasilnya (Nomor tidak menunjukkan peringkatnya):
1. C 4.5
Pohon Keputusan (Decision Tree) merupakan metode klasifikasi dan prediksi yang sangat kuat dan
terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang
merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Aturan ini juga
dapat diekspresikan dalam bentuk bahasa basis data seperti SQL untuk mencari record pada kategori
tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Karena pohon
keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan ini sangat bagus
sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari
beberapa teknik lain(J R Quinlan, 1993).
2. K-Means
K-means merupakan salah satu metode clustering non hirarki yang berusaha mempartisi data yang ada
ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data
yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang
mempunyai karateristik yang berbeda di kelompokan ke dalam cluster yang lain.
3. Support Vector Machines
SVM adalah metode machine learning yang bekerja atas prinsip Structural Risk Minimization (SRM)
dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input space. SVM
merupakan sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam
sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang
didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori
pembelajaran statistik.
4. Apriori
Algoritma apriori adalah sebuah algoritma pencarian pola yang sangat populer dalam teknik
penambangan data (datamining). Algoritma ini ditujukan untuk mencari kombinasi item-set yang
mempunyai suatu nilai keseringan tertentu sesuai kriteria atau filter yang diinginkan. Hasil dari algoritma
ini dapat digunakan untuk membantu dalam pengambilan keputusan pihak manajemen.
5. Expectation Maximisation Algorithm
Expectation Maximisation Algorithm (EM Algorithm) adalah algoritma yang sering digunakan untuk
menemukan nilai estimasi Maximum Likelihood (ML) dari parameter dalam sebuah model probabilistic,
dimana model juga tergantung pada latent variabel yang belum diketahui. Dalam algoritma ini, ada dua
hal yang dilakukan secara bergantian yaitu E step yang menghitung nilai ekspektasi dari likelihood
termasuk laten variabel seolah-olah seperti mereka ada, dan M step menghitung nilai estimasi ML dari
parameter dengan memaksimalkan nilai ekspektasi dari likelihood yang ditemukan pada E step.
6. PageRank
PageRank adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan situs web mana
yang lebih penting/populer. PageRank merupakan salah satu fitur utama mesin pencari Google dan
diciptakan oleh pendirinya, Larry Page dan Sergey Brin yang merupakan mahasiswa Ph.D. Universitas
Stanford.
7. k-Nearest Neighbors
K-Nearest Neighbor (KNN) adalah suatu metode yang menggunakan algoritmasupervised dimana hasil
dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada KNN. Tujuan dari
algoritma ini adalah mengklasifikasikan obyek baru bedasarkan atribut dan training sample. Algoritma
metode KNN sangatlah sederhana, bekerja berdasarkan jarak terpendek dariquery instance ke training
sample untuk menentukan KNN-nya. Training samplediproyeksikan ke ruang berdimensi banyak, dimana
masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian
berdasarkan klasifikasi training sample.
8. Naıve Bayes
Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan
oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan
pengalaman di masa sebelumnya sehingga dikenal sebagai teorema Bayes. Teorema tersebut
dikombinasikan dengan ”naive” dimana diasumsikan kondisi antar atribut saling bebas [1]. Pada sebuah
dataset, setiap baris/dokumen I diasumsikan sebagai vector dari nilai-nilai atribut <x1,x2,…,x3> dimana
tiap nilai-nilai menjadi peninjauan atribut Xi (iЄ[1,n])).
9. Classiﬁcation and Regression Trees
CART (Classification And Regression Trees) yaitu metode pohon regresi dan pohon klasifikasi. Jika
variabel dependen yang dimiliki bertipe kategorik maka CART menghasilkan pohon klasifikasi
(classification trees), sedangkan jika variabel dependen yang dimiliki bertipe kontinu atau numerik maka
CART menghasilkan pohon regresi (regression trees).
10. Adaboost
Model standard dari algoritma adaboost terdiri dari dua bagian, yaitu bagian offline training dan bagian
online recognizing. Bagian offline training adalah bagian proses pelatihan data yang tidak bekerja secara
realtime. Bagian ini meliputi penginputan sampel gambar positif dan sampel gambar negatif,
preprocessing, pelatihan data oleh algoritma adaboost sampai membangun detektor. Setelah detektor
terbentuk kita bisa melakukan pendeteksian secara realtime/online recognizing terhadap data
pengujian. Sebelum melakukan pendeteksian dengan algoritma adaboost, terlebih dahulu data
pengujian sudah harus mengalami preprocessing.
8. Sebutkan tahapan tahapan dari proses KDD menurut Cabena?
1. Penentuan sasaran bisnis ( business objective determination)
2. Persiapan data ( data preparation)
- data selection
- data processing
- data trtransformation
9. Isu data selection
- noisy data
-missing value
9. transformasi data adalah proses mengubah data dari satu format atau struktur ke format atau
struktur lain.
10. Pemrosesan data dapat melibatkan berbagai proses, termasuk:
-Validasi - Memastikan bahwa data yang diberikan adalah benar dan relevan.
-Sorting - "mengatur item dalam beberapa urutan dan / atau dalam set yang berbeda."
-Summarization - mengurangi data detail ke poin utamanya.
-Agregasi - menggabungkan beberapa bagian data.
-Analisis - "pengumpulan, organisasi , analisis, interpretasi, dan penyajian data."
-Pelaporan - daftar detail atau ringkasan data atau informasi yang dihitung.
-Klasifikasi - pemisahan data ke dalam berbagai kategori.

Data Mining 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas data mining 1

1. Jelaskan apa yang dimaksud dengan data mining?

Tugas data mining 1

3. Support Vector Machines

5. Expectation Maximisation Algorithm

9. Classiﬁcation and Regression Trees

-Summarization - mengurangi data detail ke poin utamanya.

-Agregasi - menggabungkan beberapa bagian data.

-Analisis - "pengumpulan, organisasi , analisis, interpretasi, dan penyajian data."

-Klasifikasi - pemisahan data ke dalam berbagai kategori.

Anda mungkin juga menyukai