DATA MINING
DISUSUN OLEH:
KELOMPOK 7
1. M SODIK MU’ARIF/12191676
2. REVALDO D. NANDA/12191683
3. AHMAD ASHARUL MUHTAR/12191665
i
KATA PENGANTAR
Puji syukur kehadirat allah SWT yang telah memberikan rahmat dan hidayahNya sehingga kami
dapat menyelesaikan tugas makalah yang berjudul {} ini tepat pada waktunya.
Adapun tujuan dari penulisan makalah ini adalah untuk memenuhi tugas bapak Herdisel
S,S.T.,S.Kom.,M.Cs selaku dosen pengampu dari mata kuiah Data Mining. Selain itu, makalah
ini bertujuan untuk menambah wawasan tentang Data mining bagi pembaca dan juga penulis.
Kami mengucapkan terimakasih kepada bapak Herdisel S,S.T.,S.Kom.,M.Cs selaku dosen Data
minng yang telah memberikan tugas ini sehingga dapat menambah pengetahuan dan wawasan
sesuai dengan bidang studi yang saya tekuni
Kami juga mengucapkan terimakasih kepada semua pihak yang telah membagi sebagia
pengetahuannya sehingga kami dapat menyelesaikan makalah ini.
Kami menyadari, makalah yang kami tulis ini masih jauh dari kata sempurna. Oleh karena itu,
kritik dan saran yang membangun akan kami nantikan demi kesempurnaan makalah ini.
ii
DAFTAR ISI
JUDUL ................................................................................................................................................... i
KATA PENGANTAR ........................................................................................................................ ii
iii
BAB I
PENDAHULUAN
A. Latar Belakang
Data mining merupakan salah satu cabang ilmu komputer yang banyak digunakan
dan dipelajari oleh ahli ilmu komputer dan programmer. Data mining merupakan sebuah
konsep yang diperuntukan untuk menemukan pengetahuan atau informasi berharga yang
bersembunyi di dalam database. Data mining merupakan proses semi otomatik yang
menerapkan matematika, teknik statistik, machine learning, dan kecedasan buatan untuk
menguraikan dan mengidetifikasi informasi pengetahuan potensial dan berguna yang
terkandung dalam database besar.
B. Rumusan Masalah
1. Apa itu Data mining?
2. Apa saja teknik-teknik dalam Data mining?
3. Apa itu teknik klasifikasi?
4. Apa itu Algoritma Decision Tree?
5. Bagaimana cara menghitung Algoritma Decision Tree ID3?
C. Tujuan
1. Mendeskripsikan apa itu Data mining
2. Mendeskripsikan teknik-teknik dalam Data mining
3. Mendeskripsikan teknik klasifikasi
4. Mendeskripsikan Algoritma Descision Tree
5. Mendeskripsikan cara menghitungAlgoritma Decision Tree ID3
1
BAB II
PEMBAHASAN
2
Definisi dan Konsep Data Mining
Secara umum Data Mining terdiri dari dua kata yaitu :
Data yaitu kumpulan fakta yang terekam atau sebuah entitas yang tidak memiliki
arti dan selama ini terabaikan
Mining yaitu proses penambangan
Sehingga Data Mining dapat diartikan sebagai proses penambangan yang
menghasikan sebuah output berupa pengetahuan.
Data Mining adalah sebuah proses pencarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining
digunakan untuk memeriksa database berukuran besar sebagai cara untuk menemukan
pola baru dan berguna.
Istilah lain yang sering dikaitkan dengan data mining diantaranya knowledge
discovery (mining) in databases (KDD), knowledge extracton, data / pattern analysis,
data archeology, data dredging, information harvesting, dan business intelligence.
Data mining adalah bagian integral dari knowledge discovery in databases (KDD).
3
Business Data
Understanding Understanding
Data
Data preparation
Deployment
Modeling
evaluation
Dalam CRISP-DM, sebuah proses data mining memiliki siklus hidup yang terdiri
dari enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Seperti
terlihat pada gambar di atas, fase berikutnya dalam urutan bergantung pada keluaran dari
fase sebelumnya. Fase-fase dalam CRISP-DM dapat dijelaskan sebagai berikut:
Fase Pemahaman Bisnis (Business Understanding Phase), yang terdiri dari tahapan:
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau
penelitia secara keseluruhan
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining
4
Fase Pemahaman Data (Data Understanding Phase), yang terdiri dari tahapan:
a. Mengumpulkan data
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan
pencarian pengetahuan awal
Fase Persiapan Data (Data Preparation Phase), yang terdiri dari tahapan:
a. Mempersiapkan data awal yang akan digunakan untuk keseluruhan fase berikutnya.
c. Jika diperlukan proses dapat kembali ke fase persiapan data untuk menjadikan data ke
dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu,
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk
mendapatkan kualitas dan efektivitas sebelum digunakan atau disebarkan.
5
b. Menetapkan model yang memenuhi tujuan pada fase awal Memasukan tidak terdapat
permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik
b. Contoh penyebaran misalkan pembuatan laporan dan penerapan proses data mining
secara parallel pada departemen lain.
a. Basis data, data warehouse atau tempat penyimpanan informasi lainnya. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan berdasarkan permintaan
pengguna.
b. Basis pengetahuan. Komponen ini merupakan domain knowledge yang . digunakan
untuk memandu pencarian atau mengevaluasi pola-poia yang dihasilkan.
c. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem
data mining. Komponen ini terdiri modulmodul fungsional data mining seperti
karakterisasi, asosiasi, klasifikasi, dan analrsis cluster.
d. Modul evaluasi pola. Komponen ini menggunakan ukuranukuran kemenarikan dan
berinteraksi dengan modul data mining dalam pencarian pola-pola menarik.
6
e. Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem
data mining.
Peran data mining secara umum dapat dibagi ke dalam dua kategori utama, yartu:
a. Predikuf. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari arnbut
tertentu berdasarkan pada nila: dari atribut-atribut lain
b. Deskriptif. Tugas deskripuf adalah untuk menurunkan pola-pola (korelasi, trend,
cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data.
Berdasarkan peran data mining dalam melakukan proses prediksi dan mendeskripsikan
data, tugas data mining dapat dibagi ke dalam empat kelompok utama, yaitu:
1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan hustori data yang telah ada.
2. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan.
3. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses
dimana hubungan asosiasi muncul pada setiap kejadian.
4. Klastering
Klastering merupakan pengelompokan data dan membentuk kelas objek-objek yang
memiliki kerniripan.
7
Secara garis besar terdapat 2 pendekatan untuk melakukan teknikteknik data mining di
atas, yaitu:
Jika dilacak dari akar kellmuwannya, Data Mining memiliki 4 buah bidang ilmu yang
mendasari yatu Statistik, Kecerdasan Buatan, Pengenalan Pola, dan Basis Data.
Statistik
Bidang ini merupakan akar paling tua, tanpa ada statistik maka data mining mungkin
tak ada. Dengan menggunakan Statistik Klasik ternyata data yang diolah dapat
diringkas dalam apa yang umum dikenal sebagai explanatory data analysis (EDA).
EDA berguna untuk mengidenufikasi hubungan sistematis antara variabel/fitur ketika
tidak ada cukup informasi alami yang dibawanya.
8
Visualisasi Data, lebih mengarah pada representasi informasi dalam bentuk
visual. Visualisasi data merupakan metode eksplorasi data yang atraktif,
teknik visualisasi yang paling umum yang dikenal adalah histogram semua
jenis (kolom, silinder, kerucut, piramida, batang, dan sebagainya), korak,
scatter, kontur, matriks, ikon dan sebagainya.
Untuk membuat aplikasi kecerdasan buatan ada 2 bagian utama yang sangat dibutuhkan:
Sedangkan kelebihan dari kecerdasan alami dibandingkan kecerdasan buatan antara lain:
9
Pengenalan Pola
Pola adalah entitas yang terdefinisi dan dapat diidentifikasi melalui ciri-cirinya (features). Ciri-
ciri tersebut digunakan untuk membedakan suatu pola dengan pola lainnya.
Terdapat dua pendekatan yang dilakukan dalam pengenalan pola: pendekatan secara statistik
dan pendekatan secara sintaktik atau structural.
Pendekatan ini menggunakan teori-teori ilmu peluang dan statistik. Ciri-dri yang dimiliki oleh
suatu pola ditentukan distribusi statistiknya. Sistem pengenalan pola dengan pendekatan
statistik ditunjukkan oleh diagram berikut.
Pola
preprocessing Feature Classification
extraction
pengenalan(recognition)
pelatihan(training)
Gambar 1.2 Sistem Pengenalan Pola dengan Pendekatan Statistik (Sumber Munir, 2004)
10
b. Pengenalan Pola secara Sintaktik
Pendekatan ini menggunakan teori bahasa formal. Ciri-ciri yang terdapat pada suatu pola
ditentukan primitif dan hubungan struktural antara primitif kemudian menyusun tata bahasanya.
Dari aturan produksi pada tata bahasa tersebut kita dapat menentukan kelompok pola. Gambar
berikut memperlihatkan sistem pengenalan pola dengan pendekatan sintaktik.
Pola
preprocessing Primitive Classification
extraction
pengenalan(recognition)
pelatihan(training)
Gambar 1.8 Sistem Pengenalan Pola dengan Pendekatan Sintaktik 4SumberMunir, 2004)
Basis Data terdiri dari kata basis dan data. Basis dapat diartikan sebagai markas atau gudang.
Sedangkan data adalah catatan atas kumpulan fakra dunia nyata yang mewakili objek seperti
manusia, barang, hewan, konsep, perisuwa dan sebagainya yang diwujudkan dalam bentuk huruf,
angka, simbol, gambar, teks, bunyi atau kombinasinya. Sebagai suatu kesatuan maka pengertian
basis data atau biasa disebut database adalah sebagai berikut:
a. Himpunan kelompok data yang saling terhubung dan diorganisasi sedemukian rupa supaya
kelak dapat dimanfaatkan kembali secara cepat dan mudah.
b. Kumpulan data dalam bentuk file/tabel/arsip yang saling berhubungan dan tersimpan
dalam media penyimpanan elektronis, untuk kemudahan dalam pengaturan, pemilahan,
pengelompokan dan pengorganisasian data sesuai tujuan.
11
Pendekatan basis data memberikan banyak keuntungan (kelebihan), antara lain:
Atribut Nominal
Nominal berarti “yang berkaitan dengan nama-nama.” Nilai-nilai atnbut nominal adalah simbol
atau nama-nama dari suatu benda. Setiap nilai merupakan semacam kategori, kode, atau status dan
sebagainya sehingga atribut nominal juga disebut sebagai kategorikal. Nilai-nilai di dalamnya
tidak memiliki urutan. Dalam ilmu komputer, nilai-nilai tersebut disebut juga dengan numerasi.
Atribut Biner
Sebuah atribut biner adalah atribut nominal yang hanya berisi dua jenis nilai saja: Oatau 1, di mana
O biasanya berarti bahwa atribut tidak ada, dan 1 berarti bahwa itu ada Contoh Jun adalah atnbut
yang nilainya hanya berisi 'ya' dan 'tidak'. Atribut biner disebut sebagai Boolean jika kedua status
berkaitan dengan true dan false.
Atribut Ordinal
12
Sebuah atribut ordinal adalah atribut dengan nilai-nilai yang memiliki urutan atau peringkat, tapi
besaran nilai-nilai yang berurutan tidak diketahui.
Atribut Numerik
Atnbut numerik adalah kuantitatif, artinya, nilai atribut itu bisa drukur, disajikan dalam bentuk
integer atau desimal. Atribut numenk bisa berupa interval-scaled (berskala intervai) atau ratio
scaled (berskala rasio).
Atribut Interval Scaled diukur dengan basis skala unit dengan Ukuran yang sama. Nilai nilai atribut
Interval-Scaled memiliki urutan dan bisa berupa positif, O, atau negatif. Dengan demikian, selain
bisa memberikan urutan nilai nilai, atribut tersebut memungkinkan kita untuk menghitung
perbedaan/selisih antara nilai-nilai itu.
b) Atribut Ratio-Scaled
Atnbut ratio-Scaled adalah atribut numerik dengan titik nol absolut. Artinya, jika sistem
pengukuran adalah menggunakan ratro-scaled, kita dapat menghitung perkalian atau perbandingan
antara suatu nilai dengan nilar yang lam. Selain itu, nilai-nilai tersebut juga bisa diurutkan, dihitung
perbedaan/selisihnya, bisa dihitung mean (rata-rata), median (nilai tengah), dan modus (yang
paling sering muncul).
Suatu atribut diskrit adalah atribut yang memiliki himpunan nilai-nilai yang berhingga (fintte) atau
nilai-nilas tak-hingga tetapi yang bisa dihitung (countably infinite), yang mungkin saja disajikan
dalam bentuk integer atau mungkin juga bukan integer.
Bila suatu atribut tidak diskrit, berarti atribut tersebut kontinu (continous). Istilah atribut numerik
dan atribut kontinu sering digunakan secara bergantian dalam literatur. (Hal ini dapat
membingungkan karena, dalam pengertian klasik, nilai-nilai kontinu adalah bilangan real,
13
sedangkan nilai numerik dapat berupa integer atau bilangan real ) Dalam praktiknya, nilai real
disajikan dalam bentuk angka-angka. Atribut kontinu biasanya disajikan sebagai vartabel floating
point (desimal).
1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan hustori data yang telah ada.
Contohnya melakukan estimasi tekanan darah sistolik pada pasien rumah sakit
berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan
dapat digunakan untuk memprediksi kasus baru lainnya.
2. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan.
Contoh pemanfaatannya misalnya pada bidang akademik terkait klasifikasi siswa yang
layak masuk kedalam kelas unggulan atau akselerasi di sekolah tertentu.
3. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses
dimana hubungan asosiasi muncul pada setiap kejadian.
Contoh pemanfaatan Algoritma Asosiasi yaitu pada Bidang Marketing ketika sebuah
Minimarket melakukan Tata letak produk yang dijual berdasarkan produk-produk
mana yang paling sering dibeli konsumen, selain itu seperti tata letak buku yang
dilakukan pustakawan di perpustakaan
4. Klastering
Klastering merupakan pengelompokan data dan membentuk kelas objek-objek yang
memiliki kerniripan.
14
Contoh klastering misalkan mendapatkan kelompok-kelompok konsumen untuk target
pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar
3. TEKNIK KLASIFIKASI
Dalam data mining beberapa teknik untuk melakukan pengkategorian data. Salah satu teknik
pengkategorian data adalah klasifikasi. Klasifikasi adalah suatu teknik untuk mengelompokkan
data berdasarkan ciri konsep atau kelas data, yang digunakan untuk kepentingan tertentu.
Klasifikasi merupakan salah satu dari 6 fungsi yang terdapat pada data mining. Enam fungsi dari
data mining menurut Larose (2005) adalah:
1. Fungsi Deskripsi
2. Fungsi Estimasi
3. Fungsi Prediksi
4. Fungsi Kasifikasi
5. Fungsi Pengiompokan
6. Fungsi Asosiasi
Menurut Berry dan Browne (2006), enam fungsi data mining dapat dikelompokkan menjadi 2
fungsi yaitu:
1. Fungsi minor atau fungsi tambahan. Yang termasuk dalam fungsi munor adalah deskripsi,
estimasi dan prediksi.
2. Fungsi mayor atau fungsi utama. Yang termasuk fungsi mayor kiasifikasi, pengklasteran,
dan asosiasi.
Teknik klasifikasi memerlukan data latih dalam pemrosesannya. Data latih (training data) juga
sering disebut dengan istilah data historis. Data latihan kemudian diproses dengan algoritma
klasifikasi. Hasil yang di dapatkan dengan klasifikasi adalah sebuah pengetahuan yang
biasanya direpresentasikan dengan pohon keputusan (decision tree).
15
4. ALGORITMA DECISION TREES
Algortima Decsion Trees masuk ke dalam penerapan data mining klasifikasi, Algoritma ini
mengonstruksi pohon keputusan dari sebuah data training yang berupa record-record dalam basis
data. algoritma ini terdiri dari kumpulan node simpul yg dihubungkan oleh cabang, cabagn tersebut
bergerak ke bawah dari root node dan berarkhir di leaf. Jenis algoritma decision trees yang banyak
digunakan adalah ID3,algoritma C4.5, dan algoritma CART.
Algoritma ID3(Iterative Dichotomiser 3) adalah salah satu algoritma klasifikasi yang paling dasar.
Algoritma ini bersifat greedy atau tamak, dimana pencarian dilakukan pada semua kemungkinan
decision tree (pohon kepurusan) yang terbentuk. Pohon keputusan memiliki sebuah node akar
(root), beberapa cabang. dan beberapa node daun (leaf). Pohon keputusan akan membentuk
cabang. Dimana seuap percabangan menyatakan suatu kondis: yang harus terpenuhi dan pada
setiap ujung pohon menyatakan kelas dari suatu data Pohon keputusan biasanya dibentuk dari tabel
data, dan kemudian pohon keputusan dimodelkan untuk diubah menjadi suatu aturan (rule).
Pohon keputusan terinspirasi dan sususan dan sebuah pohon. Pohon pasti memiliki akar, batang,
dan daun Begitula dengan arsitektur suatu pohon keputusan. Pohon keputusan memiliki node yang
merepresentasikan suatu akar (root) dan daun (leaf) Akar dihubungkan dengan daun
direpresentasikan dengan garis yang dianalogikan seperti cabang dari pohon itu sendin. Adapun
penjelasan dari masing-masing komponen pohon keputusan adalah sebaga berikut:
1. Node Akar (root node) berbeda dengan pohon yang sebenarnya root node atau node akar pada
pohon kepurusan terletak pada posisi paling atas. Pohon kepurusan hanya boleh memiliki sebuah
root node.
16
2. Node Percabangan (internal node) percabangan btasanya dimulai dari root node. Leave node
hanya boleh memliki sebuah ganis input
3. Node Daun (leaf node) merupakan node 2khir, yang hanya ini menandai label kelas pada suatu
pohoa keputusan.
Node akar
X1 X2
Node
a1
B
Y1 Y3
Y2
b1 b2
Z1 Z3
Z2 Node daun
c1 c3
c2
17
Langkah-langkah membuat pohon keputusan :
1. Langkah 1: Pohon keputusan dibuat dengan sebuah simpul yang merepresentasikan sampel
data yaitu dengan membuat simpul akar.
2. Langkah 2: Jika semua sampel berada dalam kelas yang sama maka simpul ini akan
menjadi daun dan dilabel menjadi kelas. Jika tidak, information gain akan digunakan untuk
memilih atribut terbaik dalam memisahkan data sampel menjadi kelas-kelas individu
3. Langkah 3: Cabang akan dibuat untuk setiap pilai pada atribut dan data sampel akan di
partisi lagi
4. Langkah 4: Jika sebuah atribut sudah digunakan dalam sebuah simpul, maka atribut ini
tidak akan digunakan lagi pada simpul anak-anaknya
5. Langkah 5: Proses tersebut akan berhenti jika sudah mencapai kondisi sebagai berikut,
Semua sampel pada simpul berada dalam satu kelas
Tidak ada atribut lainnya yang dapat digunakan untuk mempartisi sampel lebih
lanjut. Dalam hal ini akan diterapkan suara terbanyak, ini berarti mengubah sebuah
simpul menjadi daun dan melabe dengan kelas suara terbanyak.
Pada algoritma ini menggunakan konsep entropi. Dimana konsep ini digunakan untuk mengukur
seberapa baiknya sebuah node.
𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑗=1
Dimana:
k :Banyaknya partisi S
18
Entropi (S) = 0, jika semua contoh pada S berada dalam kelas yang sama.
Entropi (S) = 1, jika jumlah contoh positif dan jumlah contoh negatif dalam S adalah sama
0 < Entropi (S) < 1, jika jumlah contoh positif dan negative dan S tidak sama
Setelah mendapat nilai entropi, pemilihan atribut dilakukan dengan menghitung nilai information
gain terbesar. Untuk menghitung mulai information gain dapat menggunakan persamaan berikut:
𝑘
|𝑆𝑖 |
Gain (A) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ × Entropi(𝑆𝑖 )
|𝑆 |
𝑖=1
S :Himpunan kasus
A :Atribut
Algoritma ID3 menggunakan perhitungn entropy dan information gain untuk pemilihan atribut
menjadi node, berikut contohnya:
Data yang telah ada pada Tabel dibawah akan digunakan untuk membentuk pohon keputusan
dimana memiliku atribut-atribut seperti Cuaca, Suhu, Kelembaban, dan Berangin. Setiap atribut
memiliki nilai. Sedangkan kelasnya ada pada kolom Main yaitu kelas “Tidak” dan kelas “Ya”.
Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 “Ya” dan 4
“Tidak” pada kolom Main.
19
Kemudian hitung entropi dengan rumus :
𝑘
𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑗=1
10 10 4 4
Entropi (kelas) =(− (14) ∗ 𝑙𝑜𝑔2 (14)) + (− (14) ∗ 𝑙𝑜𝑔2 (14))=0.863120569
4 4 0 0
Entropi (berawan) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=0
4 4 1 1
Entropi (hujan) =(− (5) ∗ 𝑙𝑜𝑔2 (5)) + (− (5) ∗ 𝑙𝑜𝑔2 (5))=0.721928095
20
2 2 3 3
Entropi (cerah) =(− (5) ∗ 𝑙𝑜𝑔2 (5)) + (− (5) ∗ 𝑙𝑜𝑔2 (5))=0.970950594
4 4 0 0
Entropi (dingin) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=0
4 4 2 2
Entropi (panas) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=1
4 4 2 2
Entropi (sejuk) =(− ( ) ∗ 𝑙𝑜𝑔2 ( )) + (− ( ) ∗ 𝑙𝑜𝑔2 ( ))=0.918295834
6 6 6 6
3 3 4 4
Entropi (tinggi) =(− (7) ∗ 𝑙𝑜𝑔2 (7)) + (− (7) ∗ 𝑙𝑜𝑔2 (7))=0.985228136
7 7 0 0
Entropi (normal) =(− (7) ∗ 𝑙𝑜𝑔2 (7)) + (− (7) ∗ 𝑙𝑜𝑔2 (7))=0
6 6 2 2
Entropi (salah) =(− (8) ∗ 𝑙𝑜𝑔2 (4)) + (− (8) ∗ 𝑙𝑜𝑔2 (8))=0.811278124
2 2 4 4
Entropi (benar) =(− (6) ∗ 𝑙𝑜𝑔2 (6)) + (− (6) ∗ 𝑙𝑜𝑔2 (6))=0.918295834
21
Setelah mendapatkan nilai entropy, berikutnya hitung nilai information gain dari setiap variabel.
4 5 5
Gain (Cuaca) = 0.863120569 – ((14 ∗ 0) + (14 ∗ 0.721928095) + (14 ∗ 0.970950594 )) =
0.258521037
4 4 6
Gain (suhu) = 0.863120569 – (( ∗ 0) + ( ∗ 1) + ( ∗ 0.918295834 )) = 0.183850925
14 14 14
7 7
Gain (kelembaban) = 0.863120569 – (( ∗ 0.985228136) + ( ∗ 0)) = 0.370506501
14 14
8 6
Gain (berangin) = 0.863120569 – ((14 ∗ 0.811278124) + (14 ∗ 0.918295834)) = 0.005977711
Karena nilai gain terbesar adalah Gain (Kelembaban), maka atribut “Kelembaban” menjadi node akar
(root node).
Kemudian pada “Kelembaban” normal, memiliki 7 kasus dan semuanya memiliki jawaban Ya
(Sum(Total) / Sum(Ya) = 7/7 = 1). Dengan demikian “Kelembaban” normal menjadi daun atau
leaf.
kelembapan
tinggi normal
1.1
ya
?
22
Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebih
lanjut. Untuk mempermudah, Tabel dibawah difilter, dengan mengambil data yang memiliki
“Kelembaban” = Tinggi
Kemudian dihitung nilai entropi atribut “Kelembaban” Tinggi dan entropi setiap atribut serta
gainnya. Setelah itu tentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node
berikutnya.
23
Gain tertinggi yang didapat ada pada atribut “Cuaca”, dan Nilai yang dijadikan daun atau leaf
adalah Berawan dan Cerah. Jika divualisasi maka pohon keputusan tampak seperti Gambar
dibawah.
Untuk menganalisis node 1.1.2, lakukan lagi langkah-langkah yang sama seperti sebelumnya
hingga semua node beberntuk node leaf.
24
BAB III
PENUTUP
A. Kesimpulan
Data mining mempermudah dalam mencari informasi dari suatu database yang besar. Dengan
data mining kita dapat menemukan pola- pola baru dari suatu database. Data mining dapat di
manfaatkan dalam berbagai bidang seperti bidang pendidikan, kehatan, analisis market dan
masih banyak lagi.
25
B. Saran
Makalah yang kami buat jauh dari kata sempurna, oleh karena itu untuk menambah pemahaman
dan memberikan pengetahuan yang lebih banyak, alangkah lebih bijaksananya apabila pembaca
mencari referensi tambahan sebagai bahan acuan. Kritik dan saran juga selalu kami terima, karena
dengan kritik dan saranlah makalah ini menjadi jauh lebih sempurna.
DAFTAR PUSTAKA
Unknown,2021”Algorima ID3”.https://informatikalogi.com/algoritma-id3/
26