Rangkuman Data Mining

RANGKUMAN PERTEMUAN 1 – 14 DATA MINING
Tugas Data Mining
Diajukan sebagai salah satu persyaratan untuk memenuhi Mata Kuliah Data
Mining
Oleh
Risalatul Khasanah NIM. B34180057
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS NAHDLATUL ULAMA SIDOARJO
2021
DAFTAR ISI
Daftar Isi................................................................................................................... i
Pertemuan-1 Pengertian ......................................................................................... 2
Pertemuan-2 Data Prepocessing............................................................................. 3
Pertemuan-3 Conditional Probability.................................................................... 4
Pertemuan-4 Multiplication Rules.......................................................................... 5
Pertemuan-5 Bayes Theorem.................................................................................... 6
Pertemuan-6 Logistic Regression Intuition........................................................... 7
Pertemuan-7 K-Nearest Neighbor.......................................................................... 9
Pertemuan-8 UTS..................................................................................................... 11
Pertemuan-9 Permutation....................................................................................... 12
Pertemuan-10 Combination.................................................................................... 13
Pertemuan-11 Support Vector Machine................................................................ 13
Pertemuan-12 Naïve Bayes...................................................................................... 18
Pertemuan-13 Desition Tree Classification........................................................... 19
Pertemuan-14 Artificial Neural Network.............................................................. 20
Pertemuan-15 Convolational Neural Network...................................................... 21

Pertemuan-1 : Pengertian
Application of Machine Learning
Pembelajaran mesin adalah cabang algoritma komputasi yang berkembang yang dirancang untuk
meniru kecerdasan manusia dengan belajar dari lingkungan sekitarnya. Mereka dianggap kuda
pekerja di era baru yang disebut data besar. Teknik berdasarkan pembelajaran mesin telah
berhasil diterapkan di berbagai bidang mulai dari pengenalan pola, visi komputer, teknik pesawat
ruang angkasa, keuangan, hiburan, dan biologi komputasi hingga aplikasi biomedis dan medis.
Lebih dari separuh pasien kanker menerima radiasi pengion (radioterapi) sebagai bagian dari
pengobatan mereka, dan ini merupakan modalitas pengobatan utama pada stadium lanjut
penyakit lokal. Radioterapi melibatkan serangkaian besar proses yang tidak hanya mencakup
periode dari konsultasi hingga pengobatan tetapi juga melampaui itu untuk memastikan bahwa
pasien telah menerima dosis radiasi yang ditentukan dan merespons dengan baik. Tingkat
kerumitan proses ini dapat bervariasi dan mungkin melibatkan beberapa tahap interaksi manusia-
mesin yang canggih dan pengambilan keputusan, yang secara alami akan mengundang
penggunaan algoritme pembelajaran mesin untuk mengoptimalkan dan mengotomatiskan proses
ini termasuk namun tidak terbatas pada jaminan kualitas fisika radiasi , perencanaan kontur dan
perawatan, radioterapi dengan panduan gambar, manajemen gerakan pernapasan, pemodelan
respons perawatan, dan prediksi hasil. Kemampuan algoritme pembelajaran mesin untuk belajar
dari konteks saat ini dan menggeneralisasi menjadi tugas-tugas yang tidak terlihat akan
memungkinkan peningkatan baik dalam keamanan dan kemanjuran praktik radioterapi yang
mengarah ke hasil yang lebih baik.
10 Aplikasi Pembelajaran Mesin Teratas :
Peringatan Lalu Lintas.
Media sosial.
Transportasi dan Komuter.
Rekomendasi Produk.
Asisten Pribadi Virtual.
Mobil Mengemudi Sendiri.
Penetapan Harga Dinamis.
Penerjemah Google.
2
Pertemuan-2 : Data Preprocessing
Adalah tugas untuk mengubah data dari formulir yang diberikan ke bentuk yang jauh lebih berguna dan
diinginkan, yaitu membuatnya lebih bermakna dan informatif. Dengan menggunakan algoritme
Pembelajaran Mesin, pemodelan matematika, dan pengetahuan statistic. Seluruh proses ini perlu
dilakukan dengan cara yang sangat terstruktur. Jadi, langkah-langkah untuk melakukannya adalah sebagai
berikut:
Persiapan :
Data yang dikumpulkan bisa dalam bentuk mentah yang tidak bisa langsung dimasukkan ke mesin. Jadi,
ini adalah proses mengumpulkan kumpulan data dari berbagai sumber, menganalisis kumpulan data ini,
dan kemudian membuat kumpulan data baru untuk diproses dan dieksplorasi lebih lanjut. Persiapan ini
dapat dilakukan secara manual atau dengan pendekatan otomatis. Data juga dapat disiapkan dalam bentuk
numerik juga yang akan mempercepat pembelajaran model.
Contoh: Suatu citra dapat diubah menjadi matriks dengan dimensi N X N, nilai setiap sel akan
menunjukkan piksel citra.
Memasukkan :
Sekarang data yang disiapkan bisa dalam bentuk yang mungkin tidak bisa dibaca mesin, sehingga untuk
mengubah data ini menjadi bentuk yang bisa dibaca, diperlukan beberapa algoritma konversi. Agar tugas
ini dapat dijalankan, diperlukan komputasi dan akurasi yang tinggi. Contoh: Data dapat dikumpulkan
melalui sumber-sumber seperti data MNIST Digit (gambar), komentar twitter, file audio, klip video.
Pengolahan:
Ini adalah tahap di mana algoritme dan teknik ML diperlukan untuk menjalankan instruksi yang diberikan
pada sejumlah besar data dengan akurasi dan komputasi yang optimal.
Keluaran:
Dalam tahap ini, hasil diperoleh mesin dengan cara yang berarti yang dapat disimpulkan dengan mudah
oleh pengguna. Keluaran bisa dalam bentuk laporan, grafik, video, dll
Penyimpanan:
Ini adalah langkah terakhir di mana keluaran yang diperoleh dan data model data dan semua informasi
yang berguna disimpan untuk penggunaan di masa mendatang.
Fitur
Dataset dapat dipandang sebagai kumpulan objek data, yang sering juga disebut sebagai catatan, titik,
vektor, pola, peristiwa, kasus, sampel, pengamatan, atau entitas.
3
Objek data digambarkan dengan sejumlah fitur, yang menangkap karakteristik dasar suatu objek, seperti
massa objek fisik atau waktu terjadinya suatu peristiwa, dll. Fitur sering disebut sebagai variabel,
karakteristik, bidang, atribut, atau dimensi.
Pertemuan-3 : Conditional Probability
Didefinisikan sebagai kemungkinan suatu peristiwa atau hasil yang terjadi, berdasarkan
terjadinya peristiwa atau hasil sebelumnya. Probabilitas bersyarat dihitung dengan mengalikan
probabilitas kejadian sebelumnya dengan probabilitas yang diperbarui dari kejadian bersyarat
atau sukses.
Sebagai contoh: Kelereng dalam tas
2 kelereng biru dan 3 kelereng merah ada di dalam tas.
Bagaimana kemungkinan mendapatkan kelereng biru?
Kesempatannya adalah 2 dari 5
Tapi setelah mengambil satu peluang berubah!
Jadi lain kali:
jika sebelumnya kita mendapatkan kelereng merah , maka peluang kelereng biru berikutnya
adalah 2 banding 4
jika sebelumnya kita mendapatkan kelereng biru , maka peluang kelereng biru berikutnya adalah
1 banding 4
Ini karena kami mengeluarkan kelereng dari tas.
4
Jadi kejadian selanjutnya bergantung pada apa yang terjadi pada kejadian sebelumnya, dan
disebut dependen .
Pertemuan-4 : Multiplication Rules
Addition Multiplication Rules
Aturan Penjumlahan: 𝑃 (𝐴∪𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵) −𝑃 (𝐴∩𝐵) Probabilitas peristiwa A atau peristiwa
B dapat ditemukan dengan menjumlahkan probabilitas peristiwa A dan B yang terpisah dan
menguranginya persimpangan mana pun dari dua peristiwa tersebut. Lebih intuitif, jika kita
mengambil luas dari Diagram Venn di bawah ini, kita akan menjumlahkan luas dari gambar A
dan B, dan mengurangkan satu area dengan nilai tumpang tindih, yang merepresentasikan
perpotongan A dan B.
Aturan Perkalian: P (A dan B) = 𝑃 (𝐴) ∗ 𝑃 (𝐵 | 𝐴) Probabilitas peristiwa A dan B terjadi dapat

diketahui dengan mengambil probabilitas peristiwa A terjadi dan mengalikannya dengan
probabilitas peristiwa B terjadi mengingat peristiwa A sudah terjadi. Jika peristiwa A dan B
independen, kalikan saja 𝑃 (𝐴) dengan 𝑃 (𝐵).
Contoh soal: sebuah tas berisi 6 kelereng hitam dan 4 kelereng biru. Dua kelereng ditarik dari
tas, tanpa diganti. Berapa probabilitas kedua kelereng itu berwarna biru?
probabilitas aturan perkalian
Langkah 1: Beri label peristiwa A dan B. Misalkan A adalah peristiwa di mana marmer 1
berwarna biru dan anggap B adalah peristiwa di mana marmer 2 berwarna biru.
Langkah 2: Hitung probabilitas A. Ada sepuluh kelereng di dalam tas, jadi kemungkinan
menggambar kelereng biru adalah 4/10.
Langkah 3: Hitung probabilitas B. Ada sembilan kelereng di dalam kantong, jadi probabilitas
memilih kelereng biru (P B |) A adalah 3/9.
Langkah 4: Kalikan Langkah 2 dan 3 bersama-sama: (4/10) * (3/9) = 2/15.
5
Pertemuan-5 : Teori Bayes
Formula di atas kita namakan Rumus A. Jika kita memiliki variabel kejadian bukan A ( )
maka formula yang digunakan adalah.
Kita namakan Rumus B untuk formula di atas.
Contoh Kit Uji Penyakit
Pada penyakit yang diderita oleh 0,1% populasi penduduk terdapat sebuat alat uji dengan
akurasi 99% mendeteksi penderita penyakit tersebut. Namun alat tersebut memiliki
kemungkinan 0,5% false positive, yaitu salah mendeteksi orang tidak sakit namun dideteksi
sakit. Jika seseorang dideteksi sakit oleh alat ini, sebenarnya berapa persen kemungkinan ia
benar-benar sakit?
Jawaban:
Kita menggunakan Rumus B untuk menyelesaikannya.

6
Cukup jelas, variabel telah disediakan oleh soal, yang mana peluang (hasil) positif adalah benar-
benar sakit, berapa yang dianggap positif namun tidak benar-benar sakit. Peluang tidak sakit
adalah
Pertemuan-6 : Logistic Regression Intuition
Regresi logistik adalah pendekatan yang sangat populer untuk memprediksi atau memahami
variabel biner (panas atau dingin, besar atau kecil, ini atau itu - Anda mengerti). Regresi logistik
termasuk dalam kategori klasifikasi pembelajaran mesin. Solusi untuk klasifikasi adalah regresi
logistik. Alih-alih memasang garis lurus atau bidang-hiper, model regresi logistik menggunakan
fungsi logistik untuk memeras keluaran persamaan linier antara 0 dan 1. Fungsi logistik
didefinisikan sebagai:
Dan terlihat seperti ini :
Langkah dari regresi linier ke regresi logistik cukup mudah. Dalam model regresi linier, kami
telah memodelkan hubungan antara hasil dan fitur dengan persamaan linier:
Untuk klasifikasi, kami lebih memilih probabilitas antara 0 dan 1, jadi kami menggabungkan sisi
kanan persamaan ke dalam fungsi logistik. Ini memaksa keluaran untuk mengasumsikan hanya
nilai antara 0 dan 1.
7
Mari kita lihat kembali contoh ukuran tumor. Tetapi alih-alih model regresi linier, kami
menggunakan model regresi logistik:
Klasifikasi bekerja lebih

baik dengan regresi
logistik dan kami dapat
menggunakan 0,5
sebagai ambang batas
dalam kedua kasus.
Dimasukkannya poin
tambahan tidak terlalu
mempengaruhi kurva
perkiraan.
8
Pertemuan-7 : K-Nearest Neighbor
K-nearest neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu
data berdasarkan data pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya
(nearest neighbors). Dengan k merupakan banyaknya tetangga terdekat.
Klasifikasi Terdekat (Nearest Neighbor Classification)
Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak yang telah
memuat titik-titik c data pembelajaran. Proses klasifikasi dilakukan dengan mencari titik c
terdekat dari c-baru (nearest neighbor). Teknik pencarian tetangga terdekat yang umum
dilakukan dengan menggunakan formula jarak euclidean. Berikut beberapa formula yang
digunakan dalam algoritma knn.
Perlu juga dicatat bahwa ketiga ukuran jarak hanya berlaku untuk variabel kontinu. Dalam
contoh variabel kategori, jarak Hamming harus digunakan. Ini juga mengangkat masalah
standarisasi variabel numerik antara 0 dan 1 ketika ada campuran variabel numerik dan
kategorikal dalam dataset.
9
Memilih nilai optimal untuk K paling baik dilakukan dengan terlebih dahulu memeriksa data.
Secara umum, nilai K yang besar lebih tepat karena mengurangi kebisingan secara keseluruhan
tetapi tidak ada jaminan. Validasi silang adalah cara lain untuk secara retrospektif menentukan
nilai K yang baik dengan menggunakan kumpulan data independen untuk memvalidasi nilai K.
Secara historis, K optimal untuk sebagian besar kumpulan data adalah antara 3-10. Itu
menghasilkan hasil yang jauh lebih baik daripada 1NN.
Contoh:
Simak data berikut mengenai credit default. Usia dan Pinjaman adalah dua variabel numerik
(prediktor) dan Default adalah targetnya.
Sekarang kita dapat menggunakan set pelatihan untuk mengklasifikasikan kasus yang tidak
diketahui (Usia = 48 dan Pinjaman = $ 142.000) menggunakan jarak Euclidean. Jika K = 1 maka
tetangga terdekat adalah kasus terakhir dalam set pelatihan dengan Default = Y.
D = Sqrt[(48-33)^2 + (142000-150000)^2] = 8000.01 >> Default=Y
10
Dengan K = 3, ada dua Default = Y dan satu Default = N dari tiga tetangga terdekat. Prediksi
untuk kasus yang tidak diketahui lagi-lagi Default = Y.
Jarak Standar
Salah satu kelemahan utama dalam menghitung ukuran jarak langsung dari set pelatihan adalah
dalam kasus di mana variabel memiliki skala pengukuran yang berbeda atau terdapat campuran
variabel numerik dan kategori. Misalnya, jika satu variabel didasarkan pada pendapatan tahunan
dalam dolar, dan variabel lainnya didasarkan pada usia dalam beberapa tahun, maka pendapatan
akan memiliki pengaruh yang jauh lebih tinggi pada jarak yang dihitung. Salah satu solusinya
adalah dengan membakukan set pelatihan seperti yang ditunjukkan di bawah ini.
Menggunakan jarak standar pada set pelatihan yang sama, kasus yang tidak diketahui
mengembalikan tetangga yang berbeda yang bukan merupakan pertanda baik dari ketahanan.
Pertemuan-8 : UTS
Jawaban UTS
1. Data Mining adalah disiplin ilmu yang mengolah data yang sangat besar dan diolah
menjadi satu rumus dan dimanfaatkan manusia untuk memprediksi kejadian kedepan dari
kehidupan manusia.
Fungsi untuk mengolah data besar yang sebelumnya tidak diketahui dan menjadi sebuah
pengetahuan yang ditujunya.
2. Perbedaan Data Mining dan Machine Learning
Data Mining kegiatan menemukan pengetahuan atau knnowledges dari suatu data yang
jumlahnya banyak, yang sebelumnya tidak diketahui.
Machine Learning merupakan cabang ilmu Kecerdasan Buatan. Khususnya yang
mempeljari tentang bagaimana computer mampu belajar dari data untuk meningkatkan
kecerdasannya.
11
3. Contoh implementasi Data Mining di Klinik
Jenis Umur Laki-laki Perempuan

Kelamin
Umur 6-12 30% 20%
13-18 50% 50%
19-22 64% 36%
23 keatas 50% 50%
Diagnos Thypus 40% 20%
a DBD 30% 50%
Diabetes 50% 30%
Kolestrol 20% 80%
Malaia 70% 20%
Dll 60% 30%
Dari data diatas, kita tau diagnosa penyakit terbanyak
Pertemuan-9 : Permutation
Adalah susunan atau urutan-urutan yang berbeda satu sama lain yang terbentuk dari sebagian
atau seluruh objek. Rumus permutasi adalah sebagai berikut.
Apabila terdapat unsur yang berbeda dan diambil n unsur, maka banyaknya susunan atau
permutasi yang berbeda dari n unsur tersebut merupakan P(n,n) = n! atau nPn = n!
Sebagai contoh:
Untuk menyambut suatu pertemuan delegasi negara yang dihadiri oleh lima negara. Panitia
kemudian akan memasang kelima bendera yang merupakan bendera dari lima negara yang hadir.
Banyak cara untuk panitia menyusun kelima bendera tersebut yaitu?
Jawab:
Dari kelima bendera yang ada, berarti kita peroleh n = 5, sehingga banyak susunan bendera yang
mungkin yakni:
5! = 5.4.3.2.1 = 120 cara.
12
Pertemuan-10 : Combination
Adalah kumpulan sebagian atau seluruh objek tanpa memperhatikan urutannya. Rumus
kombinasi adalah sebagai berikut.
Contoh :
Soal 1.
Terdapat 3 orang anak yang akan duduk bersama di satu bangku yang memanjang. Ada
berapakah cara mereka untuk duduk bersama pada bangku tersebut?
Jawab:
Ketiga anak akan duduk bersama, maka kita akan menggunakan rumus permutasi P(3,3)
P(3,3) = 3 = 2x2x1 = 6
Sehingga ketiga anak tersebut dapat duduk bersama dengan menggunakan 6 cara.
Soal 2.
Ada berapakan cara untuk menyusun dua huruf dari satu kata “HIDUP”?
Jawab:
Cara untuk menyusun 2 huruf dari 5 huruf, maka kita juga akan memakai rumus permutasi
P(5,2)
P(5,2) = (5!)/(5-2) =(5x4x3!)/(3)! = 5×4 =20
Sehingga cara menyusun dua huruf dari satu kata HIDUP ada sebanyak 20 cara.
Pertemuan-11 : Support Vector Machine
Support Vector Machine (SVM) merupakan salah satu metode dalam supervised learning yang
biasanya digunakan untuk klasifikasi (seperti Support Vector Classification) dan regresi
(Support Vector Regression). Dalam pemodelan klasifikasi, SVM memiliki konsep yang lebih
matang dan lebih jelas secara matematis dibandingkan dengan teknik-teknik klasifikasi lainnya.
SVM juga dapat mengatasi masalah klasifikasi dan regresi dengan linear maupun non linear.
13
SVM digunakan untuk mencari hyperplane terbaik dengan memaksimalkan jarak antar kelas.
Hyperplane adalah sebuah fungsi yang dapat digunakan untuk pemisah antar kelas. Dalam 2-D
fungsi yang digunakan untuk klasifikasi antar kelas disebut sebagai line whereas, fungsi yang
digunakan untuk klasifikasi antas kelas dalam 3-D disebut plane similarly, sedangan fungsi yang
digunakan untuk klasifikasi di dalam ruang kelas dimensi yang lebih tinggi di sebut hyperplane.
Gambar 1 Hyperplane yang memisahkan dua kelas positif (+1) dan negatif(-1)
Hyperplane yang ditemukan SVM diilustrasikan seperti Gambar 1 posisinya berada ditengah-
tengah antara dua kelas, artinya jarak antara hyperplane dengan objek-objek data berbeda dengan
kelas yang berdekatan (terluar) yang diberi tanda bulat kosong dan positif. Dalam SVM objek
data terluar yang paling dekat dengan hyperplane disebut support vector. Objek yang disebut
support vector paling sulit diklasifikasikan dikarenakan posisi yang hampir tumpang tindih
(overlap) dengan kelas lain. Mengingat sifatnya yang kritis, hanya support vector inilah yang
diperhitungkan untuk menemukan hyperplane yang paling optimal oleh SVM.
Tabel 1 Contoh Data
Dari contoh diatas, didapatkan plot contoh data yang dijelaskan pada Gambar 2.
14
Gambar 2 Plot Contoh Data
Pada Gambar 2 menjelaskan bahwa terdapat 2 kelas yang terdiri dari -1 ditunjukkan dengan
warna biru dan 1 ditunjukkan dengan warna orange. Pada masing-masing titik tersebut
digunakan untuk mencari pemisah antara data positif dan data negatif. Penyelesaian sebagai
berikut :
Diketahui :
Dengan syarat :
yi(xi . w +b) -1 ≥ 0, i = 1,2,3,….,n
yi(x1.w1 + x2.w2 + b) ≥ 1
sehingga ditemukan persamaan sebagai berikut:
1. (𝑤1 + 𝑤2 + 𝑏 ) ≥ 1 untuk y1 = 1, x1=1, x2=1

2. (−𝑤1 + 𝑤2 − 𝑏 ) ≥ 1 untuk y2 = -1, x1=1, x2=-1
3. (𝑤1 − 𝑤2 − 𝑏 ) ≥ 1 untuk y3 = -1, x1=-1, x2=1
4. (𝑤1 + 𝑤2 − 𝑏 ) ≥ 1 untuk y1 = -1, x1=-1, x2=-1
Berdasarkan persamaan diatas, maka didapatkan nilai dari setiap variabel. Dari persamaan 1 dan
2 didapatkan:
15
Persamaan 1 dan 3 didapatkan :
Menjumlahkan persamaan 1 dan 3:
Menjumlahkan persamaan 2 dan 3:
Berdasarkan hasil di atas didapatkan persamaan:
16
Gambar 3 Menemukan Hyperlane
Berdasarkan asumsi diatas berdasarkan asumsi bahwa kedua belah kelas terpisah secara
sempurna oleh hyperplane. Dua buah kelas tidak selalu terpisah secara sempurna. Hal tersebut
menyebabkan constraint pada persamaan 1 tidak terpenuhi, sehingga optimasi tidak terpenuhi
dilakukan. Untuk mengatasi masalah ini, SVM dirumuskan ulang dengan menggunakan teknik
soft margin. Soft margin dijelaskan dalam bentuk gambar pada Gambar 4.
Gambar 4 Soft Margin
Persamaan 3.5 dimodifikasi menggunakan soft margin dengan memasukkan variabel slack ξi (ξi
> 0) sebagai berikut:
17
Parameter C dipilih untuk mengontrol trade off antara margin dan error klasifikasi ξ atau nilai
kesalahan pada klasifikasi. Parameter C ditentukan dengan mencoba beberapa nilai dan
dievaluasi efeknya terhadap akurasi yang dicapai oleh SVM misalnya dengan cara Cross
Validation. Nilai C yang besar berarti akan memberikan penalti yang lebih besar terhadap error
klasifikasi tersebut.
Pada umumnya permasalahan data tidak dapat dipisahkan secara Linear dalam ruang input, soft
margin SVM tidak dapat menemukan pemisah dalam hyperplane sehingga tidak dapat memiliki
akurasi yang besar dan tidak menggeneralisasi dengan baik. Oleh karena itu, dibutuhkan kernel
untuk mentransformasikan data ke ruang dimensi yang lebih tinggi yang disebut ruang kernel
yang berguna untuk memisahkan data secara Linear. Secara umum, fungsi kernel yang sering
digunakan adalah kernel Linear, Polynomial dan Radial Basis Function (RBF).
Pertemuan-12 : Naïve Bayes
Adalah sebuah metoda klasifikasi yang berakar pada teorema Bayes . Metode
pengklasifikasian dg menggunakan metode probabilitas dan statistik yg dikemukakan
oleh ilmuwan Inggris Thomas Bayes , yaitu memprediksi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes .
Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan
independensi dari masing-masing kondisi / kejadian. Algoritma Naive Bayes Merupakan
pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas
keanggotaan suatu class. Bayesian Classification didasarkan pada teorema Bayes yang
memiliki kemampuan klasifikasi serupa decision tree dan neural network.
Rumus A :
P ( E∨H ) P(H)
P ( H| E )=
P( E)
Keterangan :
P(H|E) = Probabilitas hipotesis H jika diberikan evidence e.
P(E|H) = Probabilitas munculnya evidence E jika diketahui hipotesis H
P(H) = Probabilitas hipotesis H tanpa memandang
P(E) = Probabilitas ev.
18
Rumus B :
Contoh Kit Uji Penyakit metode Bayes
Pada penyakit yang diderita oleh 0,1% populasi penduduk terdapat sebuat alat uji
dengan akurasi 99% mendeteksi penderita penyakit tersebut. Namun alat tersebut
memiliki kemungkinan 0,5% false positive, yaitu salah mendeteksi orang tidak sakit
namun dideteksi sakit. Jika seseorang dideteksi sakit oleh alat ini, sebenarnya berapa
persen kemungkinan ia benar-benar sakit?
Jawaban:
Kita menggunakan Rumus B untuk menyelesaikannya.

Cukup jelas, variabel telah disediakan oleh soal, yang mana peluang (hasil) positif
adalah benar-benar sakit, berapa yang dianggap positif namun tidak benar-benar sakit.
Peluang tidak sakit adalah
Pertemuan-13 : Decision Tree Classification
Adalah representasi sederhana untuk mengklasifikasikan contoh. Ini adalah Pembelajaran Mesin
yang Diawasi di mana data terus menerus dibagi sesuai dengan parameter tertentu.
Decision Tree terdiri dari:
Nodes: Menguji nilai atribut tertentu.
Tepi / Cabang: Sesuai dengan hasil tes dan terhubung ke simpul atau daun berikutnya.
Node daun: Node terminal yang memprediksi hasil (mewakili label kelas atau distribusi
kelas).
19
Untuk memahami konsep Pohon Keputusan, perhatikan contoh di atas. Katakanlah Anda ingin
memprediksi apakah seseorang bugar atau tidak, mengingat informasi mereka seperti usia,
kebiasaan makan, aktivitas fisik, dll. Simpul keputusan adalah pertanyaan seperti 'Berapa
usianya?', 'Apakah dia berolahraga?', ' Apakah dia makan banyak pizza? Dan daunnya mewakili
hasil seperti 'fit', atau 'unfit'.
Pertemuan-14 : Artificial Neural Network
Sebuah perceptron (atau neuron) dapat dibayangkan sebagai Regresi Logistik. Jaringan
Syaraf Tiruan, atau JST, adalah sekelompok beberapa perceptron / neuron di setiap
lapisan. ANN juga dikenal sebagai jaringan Neural Feed-Forward karena input hanya
diproses ke arah depan:
Seperti yang Anda lihat di sini, ANN terdiri dari 3 lapisan - Input, Hidden dan Output.
Lapisan masukan menerima masukan, lapisan tersembunyi memproses masukan, dan lapisan
keluaran menghasilkan hasilnya. Pada dasarnya, setiap lapisan mencoba mempelajari bobot
tertentu.
Contoh Penerapan ANN pada Pemetaan Soal UN

Menurut Marimin dalam Indrawanto (Indrawanto dkk,2007) metode ANN memiliki karakteristik
yang menyerupai jaringan syaraf biologi dalam memproses informasi. Salah satu penerapan
ANN adalah untuk pemetaan data input dengan suatu pola yang diinginkan (Santoso,2004).
Parameter-parameter yang ada dalam pemetaan soal UN digunakan sebagai bagian dalam sistem
20
ANN yang dibangun. Dengan penggunaan ANN diharapkan memberi kemudahan bagi guru
dalam melakukan pemetaan soal UN dan hasil yang diperoleh relatif lebih akurat.
ANN sendiri telah banyak diaplikasikan dalam bidang komputer, teknik, ilmu murni,
perdagangan, financial dan lain-lain. Diantaranya adalah pengklasifikasian jenis tanah (Nafisah
dkk,2008), dalam penelitian ini digunakan metode ANN Backpropagation untuk mengenali pola
dalam pengklasifikasian jenis tanah ke dalam jenis gravel, sand, slit/ sloam, clay, heavy clay,
atau peat, dengan bantuan software Weka 3.5.7. Sedangkan Giri Daneswara dan Veronika S
Moertini (2004) dalam penelitiannya mengaplikasikan jaringan syaraf tiruan propagasi balik
untuk klasifikasi data, dan Harryanto (2006) meneliti tentang aplikasi cluster analysis
menggunakan self organizing maps (SOM) untuk analisa talenta pemain basket. Contoh aplikasi
yang lain adalah pengenalan daun untuk klasifikasi tanaman (Budi,2008), pemodelan multivariat
deret waktu sumber daya air (Ferianto, 2003), prakiraan harga minyak sawit (Salya, 2006),
prakiraan keuntungan saham (Zhang, 2004) dan prakiraan kebutuhan energi
(McMenamin,1998). Pada penelitian ini ANN digunakan untuk membangun sebuah model
pemetaan soal UN matematika secara mudah berdasarkan bank data hasil laporan UN yang
dikeluarkan oleh pusat penilaian pendidikan balitbang diknas dan BSNP.
Pertemuan-15 : Convolutional Neural Network
Jaringan Neural Konvolusional sangat mirip dengan Jaringan Neural biasa dari bab
sebelumnya: mereka terdiri dari neuron yang memiliki bobot dan bias yang dapat dipelajari.
Setiap neuron menerima beberapa masukan, melakukan perkalian titik dan secara opsional
mengikutinya dengan non-linearitas. Seluruh jaringan masih mengekspresikan satu fungsi skor
yang dapat dibedakan: dari piksel gambar mentah di satu sisi hingga skor kelas di sisi lain. Dan
mereka masih memiliki fungsi kerugian (mis.SVM / Softmax) pada lapisan terakhir (terhubung
penuh) dan semua tip / trik yang kami kembangkan untuk mempelajari Jaringan Neural biasa
masih berlaku.
Jadi apa yang berubah? Arsitektur ConvNet membuat asumsi eksplisit bahwa inputnya adalah
gambar, yang memungkinkan kita untuk mengenkode properti tertentu ke dalam arsitektur. Ini
kemudian membuat fungsi maju lebih efisien untuk diterapkan dan sangat mengurangi jumlah
parameter dalam jaringan.
Tinjauan Arsitektur
Ingat: Jaringan Neural Reguler. Seperti yang kita lihat di bab sebelumnya, Jaringan Neural
menerima input (vektor tunggal), dan mengubahnya melalui serangkaian lapisan tersembunyi.
Setiap lapisan tersembunyi terdiri dari satu set neuron, di mana setiap neuron terhubung
sepenuhnya ke semua neuron di lapisan sebelumnya, dan di mana neuron dalam satu lapisan
berfungsi sepenuhnya secara independen dan tidak berbagi koneksi apa pun. Lapisan terakhir
yang terhubung sepenuhnya disebut "lapisan keluaran" dan dalam pengaturan klasifikasi, lapisan
ini mewakili skor kelas.
21
Jaringan Neural Reguler tidak diskalakan dengan baik ke gambar penuh. Dalam CIFAR-10,
gambar hanya berukuran 32x32x3 (lebar 32, 32 tinggi, 3 saluran warna), jadi satu neuron yang
terhubung sepenuhnya di lapisan tersembunyi pertama Jaringan Neural biasa akan memiliki
bobot 32 * 32 * 3 = 3072 . Jumlah ini tampaknya masih dapat dikelola, tetapi yang jelas struktur
yang sepenuhnya terhubung ini tidak berskala ke gambar yang lebih besar. Misalnya, gambar
dengan ukuran yang lebih terhormat, mis. 200x200x3, akan menyebabkan neuron yang memiliki
bobot 200 * 200 * 3 = 120.000. Selain itu, kita hampir pasti ingin memiliki beberapa neuron
semacam itu, sehingga parameternya bertambah dengan cepat! Jelas, konektivitas penuh ini
boros dan sejumlah besar parameter akan dengan cepat menyebabkan overfitting.
Volume neuron 3D. Convolutional Neural Networks memanfaatkan fakta bahwa input terdiri
dari gambar dan membatasi arsitektur dengan cara yang lebih masuk akal. Secara khusus, tidak
seperti Jaringan Neural biasa, lapisan ConvNet memiliki neuron yang diatur dalam 3 dimensi:
lebar, tinggi, kedalaman. (Perhatikan bahwa kata kedalaman di sini mengacu pada dimensi ketiga
dari volume aktivasi, bukan pada kedalaman Jaringan Neural penuh, yang dapat mengacu pada
jumlah total lapisan dalam jaringan.) Misalnya, gambar masukan di CIFAR- 10 adalah volume
masukan aktivasi, dan volume memiliki dimensi 32x32x3 (masing-masing lebar, tinggi,
kedalaman). Seperti yang akan segera kita lihat, neuron dalam sebuah lapisan hanya akan
terhubung ke wilayah kecil dari lapisan sebelumnya, bukan semua neuron secara terhubung
sepenuhnya. Selain itu, lapisan keluaran akhir akan untuk CIFAR-10 memiliki dimensi 1x1x10,
karena pada akhir arsitektur ConvNet kita akan mengurangi gambar penuh menjadi satu vektor
skor kelas, disusun sepanjang dimensi kedalaman. Berikut adalah visualisasinya:
Kiri: Jaringan Neural 3 lapis biasa. Kanan: ConvNet mengatur neuronnya dalam tiga dimensi
(lebar, tinggi, kedalaman), seperti yang divisualisasikan di salah satu lapisan. Setiap lapisan
ConvNet mengubah volume masukan 3D menjadi volume keluaran 3D dari aktivasi neuron.
Dalam contoh ini, input layer merah menahan gambar, jadi lebar dan tingginya akan menjadi
dimensi gambar, dan kedalamannya adalah 3 (saluran Merah, Hijau, Biru).
22

Rangkuman Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Rangkuman Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

RANGKUMAN PERTEMUAN 1 – 14 DATA MINING

Tugas Data Mining

Risalatul Khasanah NIM. B34180057

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER

UNIVERSITAS NAHDLATUL ULAMA SIDOARJO

Pertemuan-1 Pengertian ......................................................................................... 2

Pertemuan-2 Data Prepocessing............................................................................. 3

Pertemuan-3 Conditional Probability.................................................................... 4

Pertemuan-4 Multiplication Rules.......................................................................... 5

Pertemuan-5 Bayes Theorem.................................................................................... 6

Pertemuan-6 Logistic Regression Intuition........................................................... 7

Pertemuan-7 K-Nearest Neighbor.......................................................................... 9

Pertemuan-11 Support Vector Machine................................................................ 13

Pertemuan-12 Naïve Bayes...................................................................................... 18

Pertemuan-13 Desition Tree Classification........................................................... 19

Pertemuan-14 Artificial Neural Network.............................................................. 20

Pertemuan-15 Convolational Neural Network...................................................... 21

Application of Machine Learning

10 Aplikasi Pembelajaran Mesin Teratas :

Peringatan Lalu Lintas.

Transportasi dan Komuter.

Asisten Pribadi Virtual.

Mobil Mengemudi Sendiri.

Penetapan Harga Dinamis.

Pertemuan-3 : Conditional Probability

Sebagai contoh: Kelereng dalam tas

2 kelereng biru dan 3 kelereng merah ada di dalam tas.

Bagaimana kemungkinan mendapatkan kelereng biru?

Kesempatannya adalah 2 dari 5

Tapi setelah mengambil satu peluang berubah!

Jadi lain kali:

Ini karena kami mengeluarkan kelereng dari tas.

Pertemuan-4 : Multiplication Rules

Addition Multiplication Rules

Aturan Perkalian: P (A dan B) = 𝑃 (𝐴) ∗ 𝑃 (𝐵 | 𝐴) Probabilitas peristiwa A dan B terjadi dapat

probabilitas aturan perkalian

Langkah 4: Kalikan Langkah 2 dan 3 bersama-sama: (4/10) * (3/9) = 2/15.

Kita namakan Rumus B untuk formula di atas.

Contoh Kit Uji Penyakit

Kita menggunakan Rumus B untuk menyelesaikannya.

Pertemuan-6 : Logistic Regression Intuition

Dan terlihat seperti ini :

Klasifikasi bekerja lebih

Klasifikasi Terdekat (Nearest Neighbor Classification)

D = Sqrt[(48-33)^2 + (142000-150000)^2] = 8000.01 >> Default=Y

Jenis Umur Laki-laki Perempuan

Banyak cara untuk panitia menyusun kelima bendera tersebut yaitu?

5! = 5.4.3.2.1 = 120 cara.

P(5,2) = (5!)/(5-2) =(5x4x3!)/(3)! = 5×4 =20

Pertemuan-11 : Support Vector Machine

Tabel 1 Contoh Data

yi(xi . w +b) -1 ≥ 0, i = 1,2,3,….,n

sehingga ditemukan persamaan sebagai berikut:

1. (𝑤1 + 𝑤2 + 𝑏 ) ≥ 1 untuk y1 = 1, x1=1, x2=1

Menjumlahkan persamaan 1 dan 3:

Menjumlahkan persamaan 2 dan 3:

Berdasarkan hasil di atas didapatkan persamaan:

Gambar 4 Soft Margin

Pertemuan-12 : Naïve Bayes

P(H|E) = Probabilitas hipotesis H jika diberikan evidence e.

P(E|H) = Probabilitas munculnya evidence E jika diketahui hipotesis H

P(H) = Probabilitas hipotesis H tanpa memandang

P(E) = Probabilitas ev.