Data Mining PDF
Data Mining PDF
MAKALAH
UJIAN AKHIR SEMESTER
Diajukan untuk memenuhi mata kuliah Proses Data Mining pada Program Strata
Satu (S1)
Puji syukur alhamdullillah penulis panjatkan kehadirat Allah SWT, yang telah
menyelesaikan tugas ini dengan baik. Dimana makalah ini penulis sajikan dalam
bentuk makalah yang sederhana. Adapun judul makalah yang penulis ambil
sebagai berikut, “ Pengolahan Basis Data Untuk Pemilihan Kontak Lensa Pas
Tujuan penulisan makalah ini dibuat sebagai salah satu syarat UAS (Ujian
Akhir Semester). Penulis menyadari bahwa tanpa bimbingan dan dorongan dari
Penulis menyadari bahwa penulisan makalah ini masih jauh sekali dari
sempurna, untuk itu penulis mohon kritik dan saran yang bersifat membangun
Akhir kata penulis berharap semoga makalah ini bermanfaat bagi penulis dan
Penulis
ii
DAFTAR ISI
Halaman
iii
BAB I
PENDAHULUAN
untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena
itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan
berbagai algoritma yang efisien untuk pencarian teks telah dikembangkan, teknik
pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang
memproses data berukuran besar. Data mining telah banyak diaplikasikan dalam
berbagai bidang, diantanya dalam bidang bisnis dan kedokteran. Dalam bidang
bisnis, sangat perlu dilakukan terutama dalam mengelola Data yang sangat besar
untuk memudahkan aktifitas recording suatu transaksi dan untuk proses data
bisa lepas dari komputer dan teknologinya. Teknolgi computer menjangkau segala
1
2
dapat timpul dari kontak lensa itu sendiri, seperti lecet pada mata, infeksi mata,
serta beberapa permasalahan yang terjadi akibat kontak lensa. Namun lensa
kontak merupakan salah satu alat medis yang paling aman jika digunakan dengan
untuk pasien?
1.3. Hipotesis
pasien?
3
Dari rumusan masalah di atas, peneliti memiliki dua pilihan hipotesis yang
pasien.
Dari rumusan masalah di atas, peneliti memiliki dua pilihan hipotesis yang
pada pasien.
Dari rumusan masalah di atas, peneliti memiliki dua pilihan hipotesis yang
Dari rumusan masalah di atas, peneliti memiliki dua pilihan hipotesis yang
LANDASAN TEORI
Menurut Han dan Kamber (2011) data mining adalah proses menemukan
pola yang menarik dan pengetahuan dari data yang berjumlah besar. Sedangkan
menurut Linoff dan Berry (2011) Data mining adalah suatu pencarian dan analisa
dari jumlah data yang sangat besar dan bertujuan untuk mencari arti dari pola dan
aturan. Lalu menurut Connolly dan Begg (2010) Data mining adalah suatu proses
ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat
dipahami dan berguna dari database yang besar serta digunakan untuk membuat
menggambarkan sebuah proses analisis yang terjadi secara iteratif pada database
yang besar, dengan tujuan mengekstrak informasi dan knowledge yang akurat dan
dijabarkan oleh para ahli diatas, bahwa Data mining adalah suatu pencarian dan
analisa pada suatu koleksi data (database) yang sangat besar sehingga ditemukan
suatu pola yang menarik dengan tujuan mengekstrak informasi dan knowledge
yang akurat dan berpotensial, serta dapat dipahami dan berguna dari database
yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat
penting.
5
6
Definisi umum dari data mining itu sendiri adalah proses pencarian pola-
tidak diketahui sebelumnya dari suatu sekumpulan data yang mana data tersebut
informasi yang lain. Hal penting yang terkait di dalam data mining adalah:
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin
sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-
field data yang nantinya akan digunakan sebagai parameter dalam melakukan
B. Klasifikasi
sama pada sebuah himpunan obyek di dalam sebuah basis data dan
model dari training set yang membedakan atribut ke dalam kategori atau kelas
7
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan
dalam bentuk bahasa basis data seperti Structured Query Language untuk
mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk
memadukan antara eksplorasi data dan pemodelan, dan sangat bagus sebagai
langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model
untuk memprediksi kelas dari sebuah kasus atau record baru yang belum
metode divide and conquer. Pada awalnya hanya dibuat node akar dengan
terbentuk daun-daun.
aturan ini didapat dengan cara menelusuri pohon keputusan dari akar sampai
daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi
atau suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun akan
Information Gain
digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan
informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana,
2010). Dalam prosesnya perhitungan gain bisa terjadi atau tidak suatu missing
value.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera
Keterangan:
berikut :
Keterangan:
belakang masalah pada makalah ini. Adapun penelitian yang berhubungan dengan
Syiah Kuala Ditinjau Dari Jenis Lensa, Pola Pemakaian, Jangka Waktu Dan Iritasi
penggunaan lensa kontak pada mahasiswa Universitas Syiah Kuala ditinjau dari
jenis lensa pada pemakaian, waktu dan iritasi yang ditimbulkan. Sebuah data
menggunakan lensa jenis soft lense (99,48%) dengan pola pemakaian harian
(97,93%). Jangka waktu pemakaian terbesar pada kategori 1-6 bulan (53,4%)
10
dengan lama waktu telah menggunakan lensa kontak terbanyak yaitu 6 bulan – 1
tahun. Penggunaan cairan tetes mata lebih dari 1 x perhari. Kebersihan responden
dalam menggunakan lensa kontak cukup bersih (49,74%). Kejadian mata merah
pada responden akibat penggunaan lensa kontak mencapai 65% dan lama keluhan
akan hilang kurang dari 1 hari (63,73%). Kejadian mata merah yang disertai
adanya keluhan mata lain sekitar 57% dan 83,42% responden yang mengalami
dilakukan pada bulan Mei-September 2017. Penelitian ini melibatkan 50 mata dari
Tabel I
antara 1 hingga 60 bulan. Lama pemakaian lensa kontak dengan jumlah terbanyak
Tabel II
adalah 21,36 + (11,81) mm. Hasil pengukuran tes Schirmer dapat digambarkan
Schirmer, didapatkan 12 mata kering dan 38 mata dengan produksi air mata
normal.
BAB III
METODOLOGI PENELITIAN
tersebut merupakan Data sekunder adalah data yang diperoleh secara tidak
lainnya yang ada hubungannya dengan masalah yang diteliti. Data sekunder pada
penelitian ini adalah buku-buku, jurnal tentang algoritma C4.5 dan data mining.
kontak lensa pas akan mengacu pada contoh yang baik (Best practice) dengan
sebagai berikut.
1. Seleksi
Pada tahap awal ini memilih satu set data tentang kriteria penggunaan
kontak lensa pas sebagai acuan yang akan digunakan untuk penelitian.
12
13
2. Praproses
yang tidak bisa dihitung. Data hasil praproses ini diperoleh sejumlah 20 data.
3. Transformasi
Pada tahap ini disusun dan dikembangkan generasi data yang lebih baik
untuk data mining. Tahap ini juga merupakan proses transformasi pada data
yang akan dipilih sehingga data tersebut sesuai untuk proses data mining.
Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola
informasi yang akan dicari dlaam basis data. Data akan dipakai untuk
4. Data Mining
Tahap ini memilih jenis algoritma yang akan digunakan dalam klasifikasi
5. Evaluasi
Pada tahap ini mengolah data dengan algoritma yang telah dipilih untuk
dengan menerapkan pola yang didapat dari proses sebelumnya terhadap data
tujuan (target) yang memetakan tiap himpunan atribut x ke satu dari label kelas y
berbeda
Indentifikasi sampel dari data set baca data. Kemudian menghitung entropy
(S) dari keseluruhan atribut, kemudian menghitung gain tertinggi dari seluruh
atribut, selanjutnya didapatkan atribut yang akan digunakan sebagai akar / node
.buat cabang untuk tiap- tiap nilai, bagi kasus dalam cabang, ulangi perhitungan
Gain sampai semua data telah termasuk dalam kelas yang sama. Atribut yang
telah dipilih tidak lagi diikutkan dalam perhitungan. Dalam kasus data set pada
penelitian ini terdiri dari 2 kelas yaitu debitur dengan kelas Layak yang
dinyatakan (+) dan debitur dengan kelas Tidak Layak yang dinyatakan (-).
Dalam perhitungan Algoritma C4.5 data set dibagi menjadi 20 data training
1. Menghitung jumlah kasus, yang di bagi menkadi 2 kelas yaitu Layak dan
Tidak Layak , dan nilai entropy dari semua atribut yaitu umur pasien, jenis
kacamata, silinder dan produksi air mata. Serta mencari nilai gain dari tiap
atribut.
15
gain :
5. Proses pembentukan pohon keputusan terhenti jika sudah tidak ada atribut
yang dipartisi dan semua tuple dalam node N telah memiliki kelas yang
sama.
BAB IV
2. Sumber :
3. Jumlah Atribut :4
4. Informasi Atribut :
2 Kelas
Presbyopic
Normal ( Normal)
16
17
Tabel I
Jumlah Kasus : 20
Jumlah Kasus No : 15
5 5 15 15
Entropy = (− 20 + 𝑙𝑜𝑔2 (20)) + (− 20 + 𝑙𝑜𝑔2 (20))
= 0.81127812445
18
1. Young
Jumlah Kasus :6
Jumlah Kasus No :4
4 4 2 2
Entropy = (− 6 + 𝑙𝑜𝑔2 (6)) + (− 6 + 𝑙𝑜𝑔2 (6))
= 0.91829583405
2. Pra-Presbyopic
Jumlah Kasus :7
Jumlah Kasus No :5
5 5 2 2
Entropy = (− 7 + 𝑙𝑜𝑔2 (7)) + (− 7 + 𝑙𝑜𝑔2 (7))
= 0.86312056856
3. Presbyopic
Jumlah Kasus :7
Jumlah Kasus No :6
6 6 1 1
Entropy = (− + 𝑙𝑜𝑔2 ( )) + (− + 𝑙𝑜𝑔2 ( ))
7 7 7 7
= 0.59167277858
6
Gain = 0.81127812445 − (( ∗ 0.918295834005)
20
7 7
+ ( ∗ 0.86312056856) + ( ∗ 0.59167277858))
20 20
Gain = 0.02661170273
19
1. Myope
Jumlah Kasus :9
Jumlah Kasus No :7
7 7 2 2
Entropy = (− 9 + 𝑙𝑜𝑔2 (9)) + (− 9 + 𝑙𝑜𝑔2 (9))
= 0.7642045065
2. Hypermetrope
Jumlah Kasus : 11
Jumlah Kasus No :8
8 8 3 3
Entropy = (− 11 + 𝑙𝑜𝑔2 (11)) + (− 11 + 𝑙𝑜𝑔2 (11))
= 0.84535093662
9 11
Gain = 0.81127812445 − (( ∗ 0.7642045065) + ( ∗ 0.84535093662)
20 20
Gain = 0.02661170273
1. Yes
Jumlah Kasus :8
Jumlah Kasus No :8
20
8 8 0 0
Entropy = (− 8 + 𝑙𝑜𝑔2 (8)) + (− 8 + 𝑙𝑜𝑔2 (8))
=0
2. No
Jumlah Kasus : 12
Jumlah Kasus No :7
7 7 5 5
Entropy = (− 12 + 𝑙𝑜𝑔2 (12)) + (− 12 + 𝑙𝑜𝑔2 (12))
= 0.97986875665
8 12
Gain = 0.81127812445 − (( ∗ 0) + ( ∗ 0.97986875665)
20 20
Gain = 0.22335687046
1. Reduced
Jumlah Kasus : 12
Jumlah Kasus No : 12
12 12 0 0
Entropy = (− 12 + 𝑙𝑜𝑔2 (12)) + (− 12 + 𝑙𝑜𝑔2 (12))
=0
2. Normal
Jumlah Kasus :8
Jumlah Kasus No :3
21
3 3 5 5
Entropy = (− 8 + 𝑙𝑜𝑔2 (8)) + (− 8 + 𝑙𝑜𝑔2 (8))
= 0.95443400292
12 8
Gain = 0.81127812445 − (( ∗ 0) + ( ∗ 0.95443400292)
20 20
Gain = 0.42950542328
1
Tear
Production
Reduced Normal
No
1.1
???
22
Tabel II
Jumlah Kasus :8
Jumlah Kasus No :3
3 3 5 5
Entropy = (− 8 + 𝑙𝑜𝑔2 (8)) + (− 8 + 𝑙𝑜𝑔2 (8))
= 0.95443400292
1. Young
Jumlah Kasus :2
Jumlah Kasus No :0
0 0 2 2
Entropy = (− 2 + 𝑙𝑜𝑔2 (2)) + (− 2 + 𝑙𝑜𝑔2 (2))
=0
23
2. Pra-Presbyopic
Jumlah Kasus :3
Jumlah Kasus No :1
1 1 2 2
Entropy = (− 3 + 𝑙𝑜𝑔2 (3)) + (− 3 + 𝑙𝑜𝑔2 (3))
= 0.91829583405
3. Presbyopic
Jumlah Kasus :3
Jumlah Kasus No :2
2 2 1 1
Entropy = (− 3 + 𝑙𝑜𝑔2 (3)) + (− 3 + 𝑙𝑜𝑔2 (3))
= 0.91829583405
2 3
Gain = 0.95443400292 − (( ∗ 0) + ( ∗ 0.91829583405)
8 8
3
+ ( ∗ 0.91829583405) )
8
Gain = 0.26571212738
1. Myope
Jumlah Kasus :3
Jumlah Kasus No :1
1 1 2 2
Entropy = (− 3 + 𝑙𝑜𝑔2 (3)) + (− 3 + 𝑙𝑜𝑔2 (3))
= 0.91829583405
24
2. Hypermetrope
Jumlah Kasus :5
Jumlah Kasus No :2
2 2 3 3
Entropy = (− 5 + 𝑙𝑜𝑔2 (5)) + (− 5 + 𝑙𝑜𝑔2 (5))
= 0.970959445
3 5
Gain = 0.95443400292 − (( ∗ 0.91829583405) + ( ∗ 0.970959445) )
8 8
Gain = 0.003322894362
1. No
Jumlah Kasus :6
Jumlah Kasus No :1
1 1 5 5
Entropy = (− 6 + 𝑙𝑜𝑔2 (6)) + (− 6 + 𝑙𝑜𝑔2 (6))
= 0.65002242164
2. Yes
Jumlah Kasus :2
Jumlah Kasus No :2
2 2 0 0
Entropy = (− 2 + 𝑙𝑜𝑔2 (2)) + (− 2 + 𝑙𝑜𝑔2 (2))
=0
25
6 2
Gain = 0.95443400292 − (( ∗ 0.65002242164) + ( ∗ 0) )
8 8
Gain = 0.46691718669
Hypermetrope 5 3 2 0.970959445
Astigmatic 0.46691718669
No 6 5 1 0.65002242164
Yes 2 0 2 0
1
Tear
Production
Reduced Normal
No 1.1
Asigmatic
Yes No
No 1.1.2
???
26
Tabel III
Jumlah Kasus :6
Jumlah Kasus No :1
1 1 5 5
Entropy = (− 6 + 𝑙𝑜𝑔2 (6)) + (− 6 + 𝑙𝑜𝑔2 (6))
= 0.65002242164
1. Young
Jumlah Kasus :2
Jumlah Kasus No :2
2 2 0 0
Entropy = (− 2 + 𝑙𝑜𝑔2 (2)) + (− 2 + 𝑙𝑜𝑔2 (2))
=0
27
2. Pra-Presbyopic
Jumlah Kasus :2
Jumlah Kasus No :2
2 2 0 0
Entropy = (− 2 + 𝑙𝑜𝑔2 (2)) + (− 2 + 𝑙𝑜𝑔2 (2))
=0
3. Presbyopic
Jumlah Kasus :2
Jumlah Kasus No :1
1 1 1 1
Entropy = (− 2 + 𝑙𝑜𝑔2 (2)) + (− 2 + 𝑙𝑜𝑔2 (2))
=1
2 2 2
Gain = 0.65002242164 − (( ∗ 0) + ( ∗ 0) + ( ∗ 1) )
6 6 6
Gain = 0.3166890883
1. Myope
Jumlah Kasus :3
Jumlah Kasus No :3
3 3 0 0
Entropy = (− 3 + 𝑙𝑜𝑔2 (3)) + (− 3 + 𝑙𝑜𝑔2 (3))
=0
28
2. Hypermetrope
Jumlah Kasus :3
Jumlah Kasus No :2
2 2 1 1
Entropy = (− 3 + 𝑙𝑜𝑔2 (3)) + (− 3 + 𝑙𝑜𝑔2 (3))
= 0.91829583405
3 3
Gain = 0.65002242164 − (( ∗ 0) + ( ∗ 0.91829583405) )
6 6
Gain = 0.19087450461
Hypermetrope 3 1 2 0.91829583405
Tabel IV
1
Tear
Production
Reduced Normal
No 1.1
Asigmatic
No Yes
1.1.2 No
Age of the
Patient
Young Presbyopic
Pra-Presbyopic
No No 1.1.2.3
Spectacle
Prescription
Hypermetrope Myope
Yes No
berikut :
6.
7.
BAB V
PENUTUP
4.1. Kesimpulan
C4.5 dapat digunakan sebagai alat analisa yang dilakukan oleh bidang
kedokteran atau kesehatan terutama kontak lensa pada mata. Hal ini
4.2. Saran
30
31
1. Menambahkan jumlah data yang lebih besar dan atribut yang lebih banyak,
2. Meningkatkan lagi sistem analisa pemeriksaan kontak lensa pas pada mata
Berry, J. Michael dan Linoff, Gordon. 2011. Data Mining Techniques : For
Marketing, Sales, and Costumer Support. New York : John Wiley and
Sons, inc
Julian, Benoit. 1990.Basis Data Untuk Lensa Kontak Pas. Diambil dari :
http://www.ics.uci.edu/~mlearn/MLRepository.html
(08 Desember 2018)
Kusrini dan Taufiq, Emha. 2009. Algoritma Data Mining, Yogyakarta : Andi
Offical
32