Anda di halaman 1dari 29

MAKALAH

DATA MINING

“METODE KLASIFIKASI DATA MINING DENGAN MENGGUNAKAN ALGORITMA


ID3”

DISUSUN OLEH:

KELOMPOK 7

1. M SODIK MU’ARIF/12191676
2. REVALDO D. NANDA/12191683
3. AHMAD ASHARUL MUHTAR/12191665

PROGRAM STUDI TEKNIK INFORMATIKA


SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN ILMU KOMPUTER
EL RAHMA
YOGYAKARTA
2020/2021

i
KATA PENGANTAR

Puji syukur kehadirat allah SWT yang telah memberikan rahmat dan hidayahNya sehingga kami
dapat menyelesaikan tugas makalah yang berjudul {} ini tepat pada waktunya.

Adapun tujuan dari penulisan makalah ini adalah untuk memenuhi tugas bapak Herdisel
S,S.T.,S.Kom.,M.Cs selaku dosen pengampu dari mata kuiah Data Mining. Selain itu, makalah
ini bertujuan untuk menambah wawasan tentang Data mining bagi pembaca dan juga penulis.

Kami mengucapkan terimakasih kepada bapak Herdisel S,S.T.,S.Kom.,M.Cs selaku dosen Data
minng yang telah memberikan tugas ini sehingga dapat menambah pengetahuan dan wawasan
sesuai dengan bidang studi yang saya tekuni

Kami juga mengucapkan terimakasih kepada semua pihak yang telah membagi sebagia
pengetahuannya sehingga kami dapat menyelesaikan makalah ini.

Kami menyadari, makalah yang kami tulis ini masih jauh dari kata sempurna. Oleh karena itu,
kritik dan saran yang membangun akan kami nantikan demi kesempurnaan makalah ini.

Yogyakarta, 22 April 2021

ii
DAFTAR ISI

JUDUL ................................................................................................................................................... i
KATA PENGANTAR ........................................................................................................................ ii

DAFTAR ISI....................................................................................................................................... iii


BAB I PENDAHULUAN
A…Latar Belakang ................................................................................................................................ 1
B…Rumusan Masalah........................................................................................................................... 1
C…Pembahasan ................................................................................................................................... 1
BAB II PEMBAHASAN
1…KONSEP DASAR DATA MINING ........................................................................................................ 2
2…TEKNIK-TEKNIK DALAM DATA MINING .......................................................................................... 14
3…TEKNIK KLASIFIKASI ....................................................................................................................... 15
4…ALGORITMA DECISION TREES ........................................................................................................ 16
5…ALGORITMA DECISION TREES ID3 .................................................................................................. 16
BAB III PENUTUP
A…KESIMPULAN ................................................................................................................................ 25
A…SARAN .......................................................................................................................................... 26
DAFTAR PUSTAKA ....................................................................................................................... 26

iii
BAB I

PENDAHULUAN

A. Latar Belakang
Data mining merupakan salah satu cabang ilmu komputer yang banyak digunakan
dan dipelajari oleh ahli ilmu komputer dan programmer. Data mining merupakan sebuah
konsep yang diperuntukan untuk menemukan pengetahuan atau informasi berharga yang
bersembunyi di dalam database. Data mining merupakan proses semi otomatik yang
menerapkan matematika, teknik statistik, machine learning, dan kecedasan buatan untuk
menguraikan dan mengidetifikasi informasi pengetahuan potensial dan berguna yang
terkandung dalam database besar.

B. Rumusan Masalah
1. Apa itu Data mining?
2. Apa saja teknik-teknik dalam Data mining?
3. Apa itu teknik klasifikasi?
4. Apa itu Algoritma Decision Tree?
5. Bagaimana cara menghitung Algoritma Decision Tree ID3?

C. Tujuan
1. Mendeskripsikan apa itu Data mining
2. Mendeskripsikan teknik-teknik dalam Data mining
3. Mendeskripsikan teknik klasifikasi
4. Mendeskripsikan Algoritma Descision Tree
5. Mendeskripsikan cara menghitungAlgoritma Decision Tree ID3

1
BAB II

PEMBAHASAN

1. KONSEP DASAR DATA MINING


A. Definisi Data Mining
Istilah Data mining sebenarnya mulai di kenal sejak tahun 1990, ketika pekerjaan
pemanfaatan data menjadi sesuatu yang di anggap penting dalam berbagai bidang,
mulai dari bidang akademik, bisnis, hingga bidang medis. Munculnya data mining
didasarkan pada jumlah data yang tersmpan dalam basis data semakin besar.
Perkembangan yang cepat dalam dalam teknologi pengumpulan dan penyimpanan data
telah memudahkan organisasi untuk mengumpulakan sejumlah data berukuran besar
sehingga menghasilkan gunungan data.
Ekstraksi informasi yang berguna dari basis data tersebut menjadi menjadi
pekerjaan yang cuku menantang. Seringkali alat dan teknik analisa tradisional tidak
dapat digunakan dalam mengekstraksi informasi dari data berukuran berat. Data
mining adalah teknologi yang merupakan campuran metode-metode analisis data
dengan algoritma-algoritma untuk memproses data dalam ukuran besar. Data mining
telah diaplikasikan dalam berbagai bidang, seperti dalam bidang bisnis dan kedokteran.
Dalam bidang bisnis, teknik data mining digunakan untuk mendukung cakupan
yang luas dari aplikasi-aplikasi bisnis intelegen seperti customer profiling, targeted
marketing, workflow management, storage layout, dan fraud detection. Teknik data
mining dapat digunakan untuk menjawab pertanyaan bisnis yang penting seperti
“Siapakah pelanggan yang akan paling banyak mendatangkan keuntungan?” dan
“Seperti apa perkiraan pendapatan perusahaan tahun depan?”. Dalam bidang
kedokteran, peneliti dalam bidang biomolekular dapat menggunakan teknik data
mining untuk menganalisa sejumlah data genomic yang sekarang ini banyak
dikumpulkan untuk menjelaskan struktur dan fungsi gen, memprediksi struktur protein
dan lain-lain.

2
Definisi dan Konsep Data Mining
Secara umum Data Mining terdiri dari dua kata yaitu :
 Data yaitu kumpulan fakta yang terekam atau sebuah entitas yang tidak memiliki
arti dan selama ini terabaikan
 Mining yaitu proses penambangan
 Sehingga Data Mining dapat diartikan sebagai proses penambangan yang
menghasikan sebuah output berupa pengetahuan.

Data Mining adalah sebuah proses pencarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining
digunakan untuk memeriksa database berukuran besar sebagai cara untuk menemukan
pola baru dan berguna.

Istilah lain yang sering dikaitkan dengan data mining diantaranya knowledge
discovery (mining) in databases (KDD), knowledge extracton, data / pattern analysis,
data archeology, data dredging, information harvesting, dan business intelligence.
Data mining adalah bagian integral dari knowledge discovery in databases (KDD).

Proses Data Mining

Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan


pada tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler, NCR, dan
SPPSS, menyediakan proses standar dari data mining sebagai strategi pemecahan
masalah secara umum dari bisnis maupun unit penelitian.

3
Business Data
Understanding Understanding

Data
Data preparation

Deployment
Modeling

evaluation

Gambar 1.1 CRIPS-DM

Dalam CRISP-DM, sebuah proses data mining memiliki siklus hidup yang terdiri
dari enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Seperti
terlihat pada gambar di atas, fase berikutnya dalam urutan bergantung pada keluaran dari
fase sebelumnya. Fase-fase dalam CRISP-DM dapat dijelaskan sebagai berikut:

Fase Pemahaman Bisnis (Business Understanding Phase), yang terdiri dari tahapan:

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau
penelitia secara keseluruhan

b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining

c. Menyiapkan strategi awal untuk mencapai tujuan

4
Fase Pemahaman Data (Data Understanding Phase), yang terdiri dari tahapan:

a. Mengumpulkan data

b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan
pencarian pengetahuan awal

c. Mengevaluasi kualitas data

Fase Persiapan Data (Data Preparation Phase), yang terdiri dari tahapan:

a. Mempersiapkan data awal yang akan digunakan untuk keseluruhan fase berikutnya.

b. Memilih variabel yang sesuai dan akan dianalisis

c. Melakukan perubahan pada beberapa variabel jika diperlukan

Fase Pemodelan (Modeling Phase), yang terdiri dari tahapan:

a. Mengaplikasikan teknik pemodelan yang sesuai

b. Melakukan kalibrasi aturan model untuk mengoptimalkan hasil

c. Jika diperlukan proses dapat kembali ke fase persiapan data untuk menjadikan data ke
dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu,

Fase Evaluasi (Evaluation Phase), yang terdiri dari tahapan:

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk
mendapatkan kualitas dan efektivitas sebelum digunakan atau disebarkan.

5
b. Menetapkan model yang memenuhi tujuan pada fase awal Memasukan tidak terdapat
permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik

d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining

Fase Penyebaran (Deployment Phase), yang terdiri dari tahapan:

a. Menggunakan model yang dihasilkan

b. Contoh penyebaran misalkan pembuatan laporan dan penerapan proses data mining
secara parallel pada departemen lain.

Arsitektur Data Mining

arsitektur sistem data mining memiliki komponen-komponen utama yaitu:

a. Basis data, data warehouse atau tempat penyimpanan informasi lainnya. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan berdasarkan permintaan
pengguna.
b. Basis pengetahuan. Komponen ini merupakan domain knowledge yang . digunakan
untuk memandu pencarian atau mengevaluasi pola-poia yang dihasilkan.
c. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem
data mining. Komponen ini terdiri modulmodul fungsional data mining seperti
karakterisasi, asosiasi, klasifikasi, dan analrsis cluster.
d. Modul evaluasi pola. Komponen ini menggunakan ukuranukuran kemenarikan dan
berinteraksi dengan modul data mining dalam pencarian pola-pola menarik.

6
e. Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem
data mining.

B. Pentingya Data Mining

Peran data mining secara umum dapat dibagi ke dalam dua kategori utama, yartu:

a. Predikuf. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari arnbut
tertentu berdasarkan pada nila: dari atribut-atribut lain
b. Deskriptif. Tugas deskripuf adalah untuk menurunkan pola-pola (korelasi, trend,
cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data.

Berdasarkan peran data mining dalam melakukan proses prediksi dan mendeskripsikan
data, tugas data mining dapat dibagi ke dalam empat kelompok utama, yaitu:

1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan hustori data yang telah ada.
2. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan.
3. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses
dimana hubungan asosiasi muncul pada setiap kejadian.
4. Klastering
Klastering merupakan pengelompokan data dan membentuk kelas objek-objek yang
memiliki kerniripan.

7
Secara garis besar terdapat 2 pendekatan untuk melakukan teknikteknik data mining di
atas, yaitu:

1. Supervised Learning yaitu pembelajaran menggunakan guru dan biasanya ditandai


dengan adanya ciass/label/target pada himpunan data.
2. Unsupervised Learning yaitu pembelajaran tanpa menggunakan guru dan biasanya
ditandai pada himpunan datanya tidak memiliki atribut keputusan atau
class/label/target.

C. Ilmu Yang Berkaitan Dengan Data Miningi

Jika dilacak dari akar kellmuwannya, Data Mining memiliki 4 buah bidang ilmu yang
mendasari yatu Statistik, Kecerdasan Buatan, Pengenalan Pola, dan Basis Data.

Statistik

Bidang ini merupakan akar paling tua, tanpa ada statistik maka data mining mungkin
tak ada. Dengan menggunakan Statistik Klasik ternyata data yang diolah dapat
diringkas dalam apa yang umum dikenal sebagai explanatory data analysis (EDA).
EDA berguna untuk mengidenufikasi hubungan sistematis antara variabel/fitur ketika
tidak ada cukup informasi alami yang dibawanya.

Teknik EDA klasik yang digunakan dalam data mining diantaranya:

 Metode Kompurasional, meliputi statistik deskriptif, korelasi, tabel frekuensi,


teknik eksplorasi multivariate, model liner/non linear lanjutan, dan lain-lain.

8
 Visualisasi Data, lebih mengarah pada representasi informasi dalam bentuk
visual. Visualisasi data merupakan metode eksplorasi data yang atraktif,
teknik visualisasi yang paling umum yang dikenal adalah histogram semua
jenis (kolom, silinder, kerucut, piramida, batang, dan sebagainya), korak,
scatter, kontur, matriks, ikon dan sebagainya.

Kecerdasan Buatan (Artificial Intelligence)

Untuk membuat aplikasi kecerdasan buatan ada 2 bagian utama yang sangat dibutuhkan:

1. Basis Pengetahuan (Knowledge Base), bersifat fakta-fakta, teori, pemuluran dan


hubungan antar satu dengan yang lainnya.

2. Motor Inferensi (Inference Engine), kemampuan menarik kesimpulan berdasarkan


pengetahuan dan pengalaman

Kecerdasan buatan memiliki beberapa kelebihan dan kekurangan jika dibandingkan


dengan kecerdasan alami. Kelebihan kecerdasan buatan antara Jain:

1. Lebih bersifat permanen.


2. Lebih mudah diduplikasi & disebarkan.
3. Lebih murah.
4. Cara kerja lebih cepat.
5. Hasil lebih baik.

Sedangkan kelebihan dari kecerdasan alami dibandingkan kecerdasan buatan antara lain:

1. Kreatif: manusia memiliki kemampuan untuk menambah pengetahuan, sedangkan pada


kecerdasan buatan untuk menambah pengetahuan harus dilakukan melalui sistem yang
dibangun
2. . Memungkinkan orang untuk menggunakan pengalaman secara langsung. Sedangkan
pada kecerdasan buaran harus bekerja dengan input-input simbolik.
3. Pemikiran manusia dapat digunakan secara luas, sedangkan kecerdasan buatan sangar
terbatas.

9
Pengenalan Pola

Pola adalah entitas yang terdefinisi dan dapat diidentifikasi melalui ciri-cirinya (features). Ciri-
ciri tersebut digunakan untuk membedakan suatu pola dengan pola lainnya.

Terdapat dua pendekatan yang dilakukan dalam pengenalan pola: pendekatan secara statistik
dan pendekatan secara sintaktik atau structural.

a. Pengenalan Pola secara Statistik

Pendekatan ini menggunakan teori-teori ilmu peluang dan statistik. Ciri-dri yang dimiliki oleh
suatu pola ditentukan distribusi statistiknya. Sistem pengenalan pola dengan pendekatan
statistik ditunjukkan oleh diagram berikut.

Pola
preprocessing Feature Classification
extraction

pengenalan(recognition)

pelatihan(training)

Pola terokan Feature selection learning

Gambar 1.2 Sistem Pengenalan Pola dengan Pendekatan Statistik (Sumber Munir, 2004)

10
b. Pengenalan Pola secara Sintaktik

Pendekatan ini menggunakan teori bahasa formal. Ciri-ciri yang terdapat pada suatu pola
ditentukan primitif dan hubungan struktural antara primitif kemudian menyusun tata bahasanya.
Dari aturan produksi pada tata bahasa tersebut kita dapat menentukan kelompok pola. Gambar
berikut memperlihatkan sistem pengenalan pola dengan pendekatan sintaktik.

Pola
preprocessing Primitive Classification
extraction

pengenalan(recognition)

pelatihan(training)

Pola terokan primitive learning


selection

Gambar 1.8 Sistem Pengenalan Pola dengan Pendekatan Sintaktik 4SumberMunir, 2004)

Sistem Basis Data

Basis Data terdiri dari kata basis dan data. Basis dapat diartikan sebagai markas atau gudang.
Sedangkan data adalah catatan atas kumpulan fakra dunia nyata yang mewakili objek seperti
manusia, barang, hewan, konsep, perisuwa dan sebagainya yang diwujudkan dalam bentuk huruf,
angka, simbol, gambar, teks, bunyi atau kombinasinya. Sebagai suatu kesatuan maka pengertian
basis data atau biasa disebut database adalah sebagai berikut:

a. Himpunan kelompok data yang saling terhubung dan diorganisasi sedemukian rupa supaya
kelak dapat dimanfaatkan kembali secara cepat dan mudah.
b. Kumpulan data dalam bentuk file/tabel/arsip yang saling berhubungan dan tersimpan
dalam media penyimpanan elektronis, untuk kemudahan dalam pengaturan, pemilahan,
pengelompokan dan pengorganisasian data sesuai tujuan.

11
Pendekatan basis data memberikan banyak keuntungan (kelebihan), antara lain:

a. Pengendalian terhadap kerangkapan data


b. Konsistensi Data
c. Dapat memperoleh lebih banyak informasi dari data yang sama.
d. Data dapat dipakai secara bersama (shared)
e. Memperbaiki Integritas data
f. Meningkatkan keamanan data
g. Economy of scale
h. Meningkatkan aksesibilitas terhadap data dan respons yang lebih baik
i. Dapat meningkatkan data independence (kemandirian data).

Atribut Nominal

Nominal berarti “yang berkaitan dengan nama-nama.” Nilai-nilai atnbut nominal adalah simbol
atau nama-nama dari suatu benda. Setiap nilai merupakan semacam kategori, kode, atau status dan
sebagainya sehingga atribut nominal juga disebut sebagai kategorikal. Nilai-nilai di dalamnya
tidak memiliki urutan. Dalam ilmu komputer, nilai-nilai tersebut disebut juga dengan numerasi.

Atribut Biner

Sebuah atribut biner adalah atribut nominal yang hanya berisi dua jenis nilai saja: Oatau 1, di mana
O biasanya berarti bahwa atribut tidak ada, dan 1 berarti bahwa itu ada Contoh Jun adalah atnbut
yang nilainya hanya berisi 'ya' dan 'tidak'. Atribut biner disebut sebagai Boolean jika kedua status
berkaitan dengan true dan false.

Atribut Ordinal

12
Sebuah atribut ordinal adalah atribut dengan nilai-nilai yang memiliki urutan atau peringkat, tapi
besaran nilai-nilai yang berurutan tidak diketahui.

Atribut Numerik

Atnbut numerik adalah kuantitatif, artinya, nilai atribut itu bisa drukur, disajikan dalam bentuk
integer atau desimal. Atribut numenk bisa berupa interval-scaled (berskala intervai) atau ratio
scaled (berskala rasio).

a) Atribut Interval Scaled

Atribut Interval Scaled diukur dengan basis skala unit dengan Ukuran yang sama. Nilai nilai atribut
Interval-Scaled memiliki urutan dan bisa berupa positif, O, atau negatif. Dengan demikian, selain
bisa memberikan urutan nilai nilai, atribut tersebut memungkinkan kita untuk menghitung
perbedaan/selisih antara nilai-nilai itu.

b) Atribut Ratio-Scaled

Atnbut ratio-Scaled adalah atribut numerik dengan titik nol absolut. Artinya, jika sistem
pengukuran adalah menggunakan ratro-scaled, kita dapat menghitung perkalian atau perbandingan
antara suatu nilai dengan nilar yang lam. Selain itu, nilai-nilai tersebut juga bisa diurutkan, dihitung
perbedaan/selisihnya, bisa dihitung mean (rata-rata), median (nilai tengah), dan modus (yang
paling sering muncul).

Atribut Diskrit vs Atribut Kontinu

Suatu atribut diskrit adalah atribut yang memiliki himpunan nilai-nilai yang berhingga (fintte) atau
nilai-nilas tak-hingga tetapi yang bisa dihitung (countably infinite), yang mungkin saja disajikan
dalam bentuk integer atau mungkin juga bukan integer.

Bila suatu atribut tidak diskrit, berarti atribut tersebut kontinu (continous). Istilah atribut numerik
dan atribut kontinu sering digunakan secara bergantian dalam literatur. (Hal ini dapat
membingungkan karena, dalam pengertian klasik, nilai-nilai kontinu adalah bilangan real,

13
sedangkan nilai numerik dapat berupa integer atau bilangan real ) Dalam praktiknya, nilai real
disajikan dalam bentuk angka-angka. Atribut kontinu biasanya disajikan sebagai vartabel floating
point (desimal).

2. TEKNIK-TEKNIK DALAM DATA MINING

1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki
keputusan berdasarkan hustori data yang telah ada.
Contohnya melakukan estimasi tekanan darah sistolik pada pasien rumah sakit
berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan
dapat digunakan untuk memprediksi kasus baru lainnya.
2. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan.
Contoh pemanfaatannya misalnya pada bidang akademik terkait klasifikasi siswa yang
layak masuk kedalam kelas unggulan atau akselerasi di sekolah tertentu.

3. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses
dimana hubungan asosiasi muncul pada setiap kejadian.

Contoh pemanfaatan Algoritma Asosiasi yaitu pada Bidang Marketing ketika sebuah
Minimarket melakukan Tata letak produk yang dijual berdasarkan produk-produk
mana yang paling sering dibeli konsumen, selain itu seperti tata letak buku yang
dilakukan pustakawan di perpustakaan
4. Klastering
Klastering merupakan pengelompokan data dan membentuk kelas objek-objek yang
memiliki kerniripan.

14
Contoh klastering misalkan mendapatkan kelompok-kelompok konsumen untuk target
pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar

3. TEKNIK KLASIFIKASI

Dalam data mining beberapa teknik untuk melakukan pengkategorian data. Salah satu teknik
pengkategorian data adalah klasifikasi. Klasifikasi adalah suatu teknik untuk mengelompokkan
data berdasarkan ciri konsep atau kelas data, yang digunakan untuk kepentingan tertentu.
Klasifikasi merupakan salah satu dari 6 fungsi yang terdapat pada data mining. Enam fungsi dari
data mining menurut Larose (2005) adalah:

1. Fungsi Deskripsi
2. Fungsi Estimasi
3. Fungsi Prediksi
4. Fungsi Kasifikasi
5. Fungsi Pengiompokan
6. Fungsi Asosiasi

Menurut Berry dan Browne (2006), enam fungsi data mining dapat dikelompokkan menjadi 2
fungsi yaitu:

1. Fungsi minor atau fungsi tambahan. Yang termasuk dalam fungsi munor adalah deskripsi,
estimasi dan prediksi.
2. Fungsi mayor atau fungsi utama. Yang termasuk fungsi mayor kiasifikasi, pengklasteran,
dan asosiasi.

Teknik klasifikasi memerlukan data latih dalam pemrosesannya. Data latih (training data) juga
sering disebut dengan istilah data historis. Data latihan kemudian diproses dengan algoritma
klasifikasi. Hasil yang di dapatkan dengan klasifikasi adalah sebuah pengetahuan yang
biasanya direpresentasikan dengan pohon keputusan (decision tree).

15
4. ALGORITMA DECISION TREES

Algortima Decsion Trees masuk ke dalam penerapan data mining klasifikasi, Algoritma ini
mengonstruksi pohon keputusan dari sebuah data training yang berupa record-record dalam basis
data. algoritma ini terdiri dari kumpulan node simpul yg dihubungkan oleh cabang, cabagn tersebut
bergerak ke bawah dari root node dan berarkhir di leaf. Jenis algoritma decision trees yang banyak
digunakan adalah ID3,algoritma C4.5, dan algoritma CART.

5. ALGORITMA DECISION TREES ID3

Algoritma ID3(Iterative Dichotomiser 3) adalah salah satu algoritma klasifikasi yang paling dasar.
Algoritma ini bersifat greedy atau tamak, dimana pencarian dilakukan pada semua kemungkinan
decision tree (pohon kepurusan) yang terbentuk. Pohon keputusan memiliki sebuah node akar
(root), beberapa cabang. dan beberapa node daun (leaf). Pohon keputusan akan membentuk
cabang. Dimana seuap percabangan menyatakan suatu kondis: yang harus terpenuhi dan pada
setiap ujung pohon menyatakan kelas dari suatu data Pohon keputusan biasanya dibentuk dari tabel
data, dan kemudian pohon keputusan dimodelkan untuk diubah menjadi suatu aturan (rule).

Arsitektur Pohon Keputusan

Pohon keputusan terinspirasi dan sususan dan sebuah pohon. Pohon pasti memiliki akar, batang,
dan daun Begitula dengan arsitektur suatu pohon keputusan. Pohon keputusan memiliki node yang
merepresentasikan suatu akar (root) dan daun (leaf) Akar dihubungkan dengan daun
direpresentasikan dengan garis yang dianalogikan seperti cabang dari pohon itu sendin. Adapun
penjelasan dari masing-masing komponen pohon keputusan adalah sebaga berikut:

1. Node Akar (root node) berbeda dengan pohon yang sebenarnya root node atau node akar pada
pohon kepurusan terletak pada posisi paling atas. Pohon kepurusan hanya boleh memiliki sebuah
root node.

16
2. Node Percabangan (internal node) percabangan btasanya dimulai dari root node. Leave node
hanya boleh memliki sebuah ganis input

3. Node Daun (leaf node) merupakan node 2khir, yang hanya ini menandai label kelas pada suatu
pohoa keputusan.

Berikut adalah bentuk arstekrur pohon keputusan:

Node akar

X1 X2

Node

a1
B

Y1 Y3

Y2
b1 b2

Z1 Z3

Z2 Node daun
c1 c3

c2

Gambar 1.4 Arsitektur pohon keputusan

17
Langkah-langkah membuat pohon keputusan :

1. Langkah 1: Pohon keputusan dibuat dengan sebuah simpul yang merepresentasikan sampel
data yaitu dengan membuat simpul akar.
2. Langkah 2: Jika semua sampel berada dalam kelas yang sama maka simpul ini akan
menjadi daun dan dilabel menjadi kelas. Jika tidak, information gain akan digunakan untuk
memilih atribut terbaik dalam memisahkan data sampel menjadi kelas-kelas individu
3. Langkah 3: Cabang akan dibuat untuk setiap pilai pada atribut dan data sampel akan di
partisi lagi
4. Langkah 4: Jika sebuah atribut sudah digunakan dalam sebuah simpul, maka atribut ini
tidak akan digunakan lagi pada simpul anak-anaknya
5. Langkah 5: Proses tersebut akan berhenti jika sudah mencapai kondisi sebagai berikut,
 Semua sampel pada simpul berada dalam satu kelas
 Tidak ada atribut lainnya yang dapat digunakan untuk mempartisi sampel lebih
lanjut. Dalam hal ini akan diterapkan suara terbanyak, ini berarti mengubah sebuah
simpul menjadi daun dan melabe dengan kelas suara terbanyak.

Entropi & Information Gain

Pada algoritma ini menggunakan konsep entropi. Dimana konsep ini digunakan untuk mengukur
seberapa baiknya sebuah node.

Berikut adalah persamaan untuk menghitung entropi:

𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑗=1

Dimana:

S :Himpunan (dataset) kasus

k :Banyaknya partisi S

𝑝𝑗 :Probabilitas yang didapat dari Sum (Ya) dibagi total kasus

18
 Entropi (S) = 0, jika semua contoh pada S berada dalam kelas yang sama.
 Entropi (S) = 1, jika jumlah contoh positif dan jumlah contoh negatif dalam S adalah sama
 0 < Entropi (S) < 1, jika jumlah contoh positif dan negative dan S tidak sama

Setelah mendapat nilai entropi, pemilihan atribut dilakukan dengan menghitung nilai information
gain terbesar. Untuk menghitung mulai information gain dapat menggunakan persamaan berikut:

𝑘
|𝑆𝑖 |
Gain (A) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ × Entropi(𝑆𝑖 )
|𝑆 |
𝑖=1

S :Himpunan kasus

A :Atribut

k :Jumlah partisi atribut A

Si :jumlah kasus pada partisi ke-i

Perhitungan Manual Algoritma

Algoritma ID3 menggunakan perhitungn entropy dan information gain untuk pemilihan atribut
menjadi node, berikut contohnya:

Data yang telah ada pada Tabel dibawah akan digunakan untuk membentuk pohon keputusan
dimana memiliku atribut-atribut seperti Cuaca, Suhu, Kelembaban, dan Berangin. Setiap atribut
memiliki nilai. Sedangkan kelasnya ada pada kolom Main yaitu kelas “Tidak” dan kelas “Ya”.
Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 “Ya” dan 4
“Tidak” pada kolom Main.

19
Kemudian hitung entropi dengan rumus :
𝑘

𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑗=1

10 10 4 4
Entropi (kelas) =(− (14) ∗ 𝑙𝑜𝑔2 (14)) + (− (14) ∗ 𝑙𝑜𝑔2 (14))=0.863120569

4 4 0 0
Entropi (berawan) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=0

4 4 1 1
Entropi (hujan) =(− (5) ∗ 𝑙𝑜𝑔2 (5)) + (− (5) ∗ 𝑙𝑜𝑔2 (5))=0.721928095

20
2 2 3 3
Entropi (cerah) =(− (5) ∗ 𝑙𝑜𝑔2 (5)) + (− (5) ∗ 𝑙𝑜𝑔2 (5))=0.970950594

4 4 0 0
Entropi (dingin) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=0

4 4 2 2
Entropi (panas) =(− (4) ∗ 𝑙𝑜𝑔2 (4)) + (− (4) ∗ 𝑙𝑜𝑔2 (4))=1

4 4 2 2
Entropi (sejuk) =(− ( ) ∗ 𝑙𝑜𝑔2 ( )) + (− ( ) ∗ 𝑙𝑜𝑔2 ( ))=0.918295834
6 6 6 6

3 3 4 4
Entropi (tinggi) =(− (7) ∗ 𝑙𝑜𝑔2 (7)) + (− (7) ∗ 𝑙𝑜𝑔2 (7))=0.985228136

7 7 0 0
Entropi (normal) =(− (7) ∗ 𝑙𝑜𝑔2 (7)) + (− (7) ∗ 𝑙𝑜𝑔2 (7))=0

6 6 2 2
Entropi (salah) =(− (8) ∗ 𝑙𝑜𝑔2 (4)) + (− (8) ∗ 𝑙𝑜𝑔2 (8))=0.811278124

2 2 4 4
Entropi (benar) =(− (6) ∗ 𝑙𝑜𝑔2 (6)) + (− (6) ∗ 𝑙𝑜𝑔2 (6))=0.918295834

21
Setelah mendapatkan nilai entropy, berikutnya hitung nilai information gain dari setiap variabel.

Gain (Cuaca) = 0.863120569 – ((4/14) x 0 + (5/14) x 0.721928095 + (5/14) x 0.970950594) =


0.258521037

4 5 5
Gain (Cuaca) = 0.863120569 – ((14 ∗ 0) + (14 ∗ 0.721928095) + (14 ∗ 0.970950594 )) =

0.258521037

4 4 6
Gain (suhu) = 0.863120569 – (( ∗ 0) + ( ∗ 1) + ( ∗ 0.918295834 )) = 0.183850925
14 14 14

7 7
Gain (kelembaban) = 0.863120569 – (( ∗ 0.985228136) + ( ∗ 0)) = 0.370506501
14 14

8 6
Gain (berangin) = 0.863120569 – ((14 ∗ 0.811278124) + (14 ∗ 0.918295834)) = 0.005977711

Karena nilai gain terbesar adalah Gain (Kelembaban), maka atribut “Kelembaban” menjadi node akar
(root node).

Kemudian pada “Kelembaban” normal, memiliki 7 kasus dan semuanya memiliki jawaban Ya
(Sum(Total) / Sum(Ya) = 7/7 = 1). Dengan demikian “Kelembaban” normal menjadi daun atau
leaf.

kelembapan

tinggi normal

1.1
ya
?

22
Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebih
lanjut. Untuk mempermudah, Tabel dibawah difilter, dengan mengambil data yang memiliki
“Kelembaban” = Tinggi

Kemudian dihitung nilai entropi atribut “Kelembaban” Tinggi dan entropi setiap atribut serta
gainnya. Setelah itu tentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node
berikutnya.

23
Gain tertinggi yang didapat ada pada atribut “Cuaca”, dan Nilai yang dijadikan daun atau leaf
adalah Berawan dan Cerah. Jika divualisasi maka pohon keputusan tampak seperti Gambar
dibawah.

Untuk menganalisis node 1.1.2, lakukan lagi langkah-langkah yang sama seperti sebelumnya
hingga semua node beberntuk node leaf.

24
BAB III

PENUTUP

A. Kesimpulan

Data mining mempermudah dalam mencari informasi dari suatu database yang besar. Dengan
data mining kita dapat menemukan pola- pola baru dari suatu database. Data mining dapat di
manfaatkan dalam berbagai bidang seperti bidang pendidikan, kehatan, analisis market dan
masih banyak lagi.

25
B. Saran

Makalah yang kami buat jauh dari kata sempurna, oleh karena itu untuk menambah pemahaman
dan memberikan pengetahuan yang lebih banyak, alangkah lebih bijaksananya apabila pembaca
mencari referensi tambahan sebagai bahan acuan. Kritik dan saran juga selalu kami terima, karena
dengan kritik dan saranlah makalah ini menjadi jauh lebih sempurna.

DAFTAR PUSTAKA

Pradnyana, Gede Aditra, I Gede Mahendra Darwiguna, I Nyoman Saputra Wahyu


Wijaya.2021.DATA MINING Menemukan Pengetahuan Dalam Data.Depok:RajaGrafindo
Persada

Unknown,2021”Algorima ID3”.https://informatikalogi.com/algoritma-id3/

26

Anda mungkin juga menyukai