Anda di halaman 1dari 0

4

BAB II
TINJAUAN PUSTAKA
II.1. Es krim
Es krim pertama kali dikenal pada abad ke-4, saat bangsa Romawi
diperintah oleh kaisar Nero. Ketika itu, rakyat Romawi berusaha
menciptakan makanan segar yang terbuat dari salju pegunungan yang
dicampur madu atau sari buah. Produksi es cream secara komersial mulai
dilakukan pada abad ke-18, menyusul ditemukannya mesin freezer pada
tahun 1846. Pabrik es krim pertama dibangun di Baltimore, Amerika
Serikat, pada tahun 1851. Di Indonesia, es krim baru dikenal sekitar tahun
1930, dan awalnya hanya orang-orang kaya saja yang mampu
menikmatinya. Namun kini, es krim dikenal di hampir setiap pelosok
tanah air. Es krim dapat dikatakan sebagai jenis hidangan paling populer di
dunia. Pada tahun 2003, produksi es krim dunia mencapai lebih dari satu
miliar liter dan dikonsumsi oleh miliaran konsumen per tahun.
Menurut Standar Nasional Indonesia, es krim adalah sejenis
makanan semi padat yang dibuat dengan cara pembekuan tepung es krim
atau campuran susu, lemak hewani maupun nabati, gula, dan dengan atau
tanpa bahan makanan lain yang diizinkan. Di pasaran, es krim
digolongkan atas kategori economy, good average dan deluxe. Es krim
umumnya mengandung pemanis sebesar 12-16%, dalam bentuk kombinasi
sukrosa 10-14% dan sirup jagung padat 4-5%. Es krim juga mengandung
zat gizi. Beberapa jenis vitamin, seperti vitamin A, B1, B2, B12, dan
niasin, ada di balik es krim. Vitamin ini bermanfaat bagi pertumbuhan
anak serta berfungsi mengatur dan memelihara fungsi kerja saraf dan otot.
Sedangkan kalsium yang juga terdapat pada es krim bermanfaat membantu
pembentukan tulang dan gigi anak.
5

II.2. Data Mining
Proses dalam menemukan pola atau informasi menarik dari
sejumlah data yang besar, dimana data dapat disimpan dalam database,
data warehouse atau dapat disimpan di tempat penyimpanan informasi
lainnya dengan menggunakan teknik pengenalan pola seperti teknik
statistik dan matematika. (Han dan Kamber, 2001)
Data mining merupakan proses pencarian pola dan relasi-relasi
yang tersembunyi dalam sejumlah data yang besar dengan tujuan untuk
melakukan klasifikasi, estimasi, prediksi, association rule, clustering,
deskripsi dan visualisasi (Han dan Kamber, 2001).
Tujuan dari adanya data mining adalah :
a. Explainatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau
suatu kondisi.
b. Confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah
ada.
c. Exploratory, yaitu untuk menganalisis data baru suatu relasi yang
janggal.
Perbedaan antara Supervised learning dan Unsupervised learning :
a. Supervised learning, yaitu menemukan pola baru dalam data yang
menghubungkan pola data yang sudah ada dengan data yang baru.
b. Unsupervised learning, yaitu data belum memiliki pola. Menemukan
pola dalam sebuah data.
II.2.1. Knowledge Discovery in Database (KDD)
Secara sederhana data mining bisa dikatakan sebagai proses
menyaring atau "menambang" pengetahuan dari sejumlah data
yang besar. Istilah lain untuk data mining adalah Knowledge
Discovery in Database atau KDD. Walaupun sebenarnya data
6

mining sendiri adalah bagian dari tahapan proses dalam KDD,
seperti yang terlihat pada Gambar II-1 (Han dan Kamber, 2001).







Gambar II-1 Knowledge Discovery in Database
Adapun tahapan-tahapan dalam proses KDD (Knowledge
Discovery in Database) adalah sebagai berikut :
1. Database
Koleksi data yang saling berhubungan dipergunakan secara
bersama dirancang untuk memenuhi kebutuhan informasi
organisasi.

2. Data Cleaning
Pada umumnya data yang diperoleh, baik dari database suatu
perusahaan maupun hasil eksperimen, memiliki isian-isian
yang tidak sempurna seperti data yang hilang, data yang tidak
valid atau juga hanya sekedar salah ketik.Selain itu, ada juga
attribut-attribut data yang tidak relevan dengan hipotesa data
mining yang dimiliki.Data-data yang tidak relevan itu juga
lebih baik dibuang karena keberadaannya bisa mengurangi
mutu atau akurasi dari hasil data mining nantinya (hanya
sampah yang dihasilkan bila yang dimasukkan juga sampah)
merupakan istilah yang sering dipakai untuk menggambarkan
7

tahapan ini. Pembersihan data juga akan mempengaruhi
performasi dari sistem data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.

3. Data Integration
Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari
beberapa database atau file teks. Integrasi data dilakukan pada
attribut-attribut yang mengidentifikasikan entitas-entitas yang
unik seperti attribut umur, jenis kelamin, rasa ice cream, bentuk
ice cream dan sebagainya. Integrasi data perlu dilakukan secara
cermat karena kesalahan pada integrasi data bisa menghasilkan
hasil yang menyimpang dan bahkan menyesatkan pengambilan
aksi nantinya. Sebagai contoh bila integrasi data berdasarkan
jenis produk ternyata menggabungkan produk dari kategori
yang berbeda maka akan didapatkan korelasi antar produk yang
sebenarnya tidak ada. Dalam integrasi data ini juga perlu
dilakukan transformasi dan pembersihan data karena seringkali
data dari dua database berbeda tidak sama cara penulisannya
atau bahkan data yang ada di satu database ternyata tidak ada
di database lainnya. Hasil integrasi data sering diwujudkan
dalam sebuah data warehouse karena dengan data warehouse,
data dikonsolidasikan dengan struktur khusus yang efisien.

4. Task-Relevant Data
Setelah semua sumber data digabung atau diintegrasikan
menjadi satu keseluruhan database, maka tahap selanjutnya
adalah melakukan task relevant data. Tahap ini melakukan
seleksi relevansi attribut dari data yang relevant atau yang
sesuai dengan target atau output yang akan dihasilkan.


8

5. Data Transformation
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses
coding dalam KDD merupakan proses kreatif dan sangat
tergantung pada jenis atau pola informasi yang akan dicari
dalam database. Setelah seleksi data, tahap selanjutnya adalah
transformasi.dengan mengubah tipe file yang awalnya dalam
bentuk Ms. Excel worksheet diubah menjadi CSV (Comma
Delimited) karena pada penelitian ini menggunakan pengolahan
data miningdengan weka classifiersehingga tipe file diubah
menjadi file.csv.

6. Data Mining
Data mining adalah proses mengeksplorasi dan menganalisa
data dalam jumlah yang besar yang bertujuan untuk
menemukan suatu pola atau informasi yang menarik dari data
yang tersimpan dalam jumlah besar dengan menggunakan
teknik atau metode tertentu. Teknik, metode, atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD
secara keseluruhan. Tahap ini merupakan inti dari tahapan
KDD yang dilakukan untuk menganalisis data yang telah
dibersihkan. Secara umum ada dua jenis task pada data mining,
yaitu :
a. Metode Predictive
Proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel untuk memprediksikan
variabel lain yang tidak diketahui jenis atau nilainya.
Teknik yang termasuk dalam predictive mining antara
lain klasifikasi, regresi, dan deviasi.
b. Metode Descriptive
Proses untuk menemukan suatu karakteristik penting
dari data dalam suatu basis data. Teknik data mining
9

yang termasuk dalam descriptive mining adalah
clustering, association, dan sequential mining.

7. Pattern Evaluation
Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai
apakah hipotesa yang ada memang tercapai. Bila ternyata hasil
yang diperoleh tidak sesuai hipotesa, ada beberapa alternatif
yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining
lain yang lebih sesuai, atau menerima hasil ini sebagai suatu
hasil yang di luar dugaan yang mungkin bermanfaat.
Visualisasi hasil analisa akan sangat membantu untuk
memudahkan pemahaman dari hasil data mining.

8. Knowledge
Tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisa yang
didapat. Teknik visualisasi dan representasi dari pengetahuan
yang telah ditemukan untuk disajikan kepada pengguna. Dalam
presentasi ini, visualisasi juga bisa membantu
mengkomunikasikan hasil data mining.
II.2.2. Teknik dalam Data Mining
Teknik yang dapat digunakan dalam data mining adalah
(Han dan Kamber, 2001):
1. Classification.
Teknik dapat digunakan untuk mendeskripsikan data yang
penting serta dapat meramalkan kecenderungan data pada masa
depan. Klasifikasi adalah suatu proses untuk menemukan
model atau fungsi untuk menggambarkan class atau konsep
10

dari suatu data. Di lain pihak prediksi biasanya digunakan
untuk data numerik.

2. Association Rule.
Teknik ini dapat digunakan untuk menemukan suatu hubungan
yang terdapat pada nilai attribut dari sekumpulan
data.Algoritma yang banyak digunakan dalam teknik ini adalah
algoritma apriori.

3. Clustering.
Teknik ini berbeda dengan klasifikasi dan prediksi. Pada teknik
ini nama dari masing-masing class tidak ditentukan dari awal
proses. Clustering dapat digunakan untuk membentuk suatu
class.
II.2.3. Weka
Weka (Waikato Environment for Knowledge Analysis)
adalah koleksi algoritma data mining untuk tugas-tugas data
mining.Algoritma ini bisa diterapkan secara langsung ke dalam
dataset atau bisa juga dipanggil dari kode java yang dibuat. Weka
memiliki tools untuk data pre-processing, classification,
regression, clustering, association rules,danvisualization. Weka
juga cocok untuk digunakan dalam pengembangan skema baru
learning machine.Weka adalah software open source yang
diterbitkan dibawah lisensi GNU General Public License.
II.3. Klasifikasi
Data input untuk klasifikasi adalah koleksi dari record. Setiap
record dikenal sebagai instance atau contoh, yang ditentukan oleh sebuah
tuple (x,y), dimana x adalah himpunan attribut dan y adalah attribut
tertentu, yang dinyatakan sebagai label class (juga dikenal sebagai
kategori atau attribut target).
11

Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang
memetakan setiap himpunan attribut x ke salah satu label class y yang
telah didefinisikan sebelumnya.
Fungsi target juga dikenal secara informal sebagai model
klasifikasi. Model klasifikasi berguna untuk keperluan berikut :
Pemodelan Deskriptif. Model klasifikasi dapat bertindak sebagai
alat penjelas untuk membedakan objek-objek dari class-class yang
berbeda.Sebagai contoh untuk para ahli Biologi, model deskriptif yang
meringkas data.
Pemodelan Prediktif. Model klasifikasi juga dapat digunakan untuk
memprediksi label class dari record yang tidak diketahui. Seperti pada
Gambar II-2 tampak sebuah model klasifikasi dapat dipandang sebagai
kotak hitam yang secara otomatis memberikan sebuah label ketika
dipresentasikan dengan himpunan attribut dari record yang tidak
diketahui.


Gambar II-2 Klasifikasi sebagai pemetaan
Beberapa teknik klasifikasi yang digunakan adalah decision tree
classifier, rule-based classifier, neural-network, support vektor machine,
dan nave Bayes classifier. Setiap teknik menggunakan algoritma
pembelajaran untuk mengidentifikasi model yang memberikan hubungan
yang paling sesuai antara himpunan attribut dan label class dari data input.
Pendekatan umum yang digunakan dalam masalah klasifikasi
adalah, pertama, data training berisi record yang mempunyai label class
yang diketahui haruslah tersedia. Data mining digunakan untuk membangun
model klasifikasi, yang kemudian diaplikasikan ke test, yang berisi record-
record dengan label class yang tidak diketahui.
12

II.4. Bayessian Classifier
Bayesian classifier (Iwan, 2005) merupakan sebuah pendekatan
untuk memodelkan peluang hubungan antara himpunan atribut dengan
kelas variabel tersebut. Implementasi dari Bayesian classifier, yaitu nave
Bayes classifier dan Bayesian belief network. Bayesian classifier adalah
pengklasifikasian statistik yang dapat digunakan untuk memprediksi
probabilitas keanggotaan suatu class.Bayesian classifier didasarkan pada
theorem bayes yang memiliki kemampuan klasifikasi serupa dengan
decision tree dan neutral network.Bayes classifier terbukti memiliki
akurasi badan kecepatan yang tinggi saat diaplikasikan ke dalam database
dengan data yang besar.
II.5. Teorema Bayes
Teori keputusan Bayes (Budi Santosa, 2007) adalah pendekatan
statistik yang fundamental dalam pengenalan pola (pattern recognition).
Pendekatan ini didasarkan kuantifikasi trade-off antara berbagai keputusan
klasifikasi dengan menggunakan probabilitas dan ongkos yang ditimbulkan
dalam keputusan-keputusan tersebut. Metode Bayes juga merupakan metode
yang baik di dalam mesin pembelajaran berdasarkan data training, dengan
menggunakan probabilitas bersyarat sebagai dasarnya.
Klasifikasi berdasarkan Teorema Bayes
Bayesian classification adalah pengklasifikasi statistik yang dapat
digunakan untuk memprediksi probabilitas keanggotaan suatu class.
Bayesian classification didasarkan pada teorema bayes yang memiliki
kemampuan klasifikasi serupa dengan decision tree dan neural network.
Teorema Bayes memiliki bentuk umum sebagai berikut :

yang mana :
X = data dengan class yang belum diketahui
H = hipotesis data X merupakan suatu class spesifik
) (
) ( ) | (
) | (
X
X
X
P
H P H P
H P
13

P(H|X) = probabilitas hipotesis H berdasar kondisi X (posteriori
probability). . . .(1)
P(H) = probabilitas hipotesis H (prior probability)
P(X|H) = probabilitas X berdasar kondisi pada hipotesis H. . . .(2)
P(X) = probabilitas dari X
X termasuk dalam kelas Ci jika peluang P(Ci|X) merupakan tertinggi
diantara semua P(Ck|X) untuk semua klas k.

Berikut ini adalah contoh dalam penerapan metode teorema bayes.
Berikut adalah contoh penerapan klasifikasi:
Tabel II-1 Data pembelian komputer









Dari tabel diatas, terdapat 2 class dari klasifikasi yang dibentuk, yaitu:
C1 = buys_computer = yes, C2 = buys_cumputer = no
Misalnya, terdapat data X yang belum diketahui class-nya dengan
data sebagai berikut:
14

X=(age=<=30, income=medium, student=yes, credit_rating=fair)
Buys_computer ?
Penyelesaian: Dibutuhkan untuk memaksimalkan:
P(XICi) P(Ci) untuk i=1,2
P(Ci) merupakan prior probability untuk setiap class berdasarkan data,
contoh:
P(buys_computer=yes)= 9/14 = 0,643
P(buys_computer=no)= 5/14 = 0,357
P(age=<30 I buys_computer=yes)=2/9=0,222
P(age=<30 I buys_computer=no)=3/5=0,6
P(income=medium I buys_computer=yes)=4/9=0,444
P(income=medium I buys_computer=no)=2/5=0,4
P(student=yes I buys_computer=yes)=6/9=0,667
P(student=yes I buys_computer=no)=1/5=0,2
P(credit-rating=fair I buys_computer=yes)=6/9=0,667
P(credit-rating=fair I buys_computer=no)=2/5=0,4
P(X I buys_computer=yes) = 0,222 x 0,444 x 0,677 x 0,677
= 0,044
P(X I buys_computer=no) = 0,600 x 0,400 x 0,200 x 0,400
= 0,019
P(X I buys_computer=yes) P(buys_computer=yes)
= 0,044 x 0,643 = 0,028
15

P(X I buys_computer=no) P(buys_computer=no)
= 0,019 x 0,357 = 0,007
Berdasarkan perhitungan, P(XICi) P(Ci) utk i=1,2
Maka :
P(X I buys_computer=yes) P(buys_computer=yes)
= 0,044 x 0,643 = 0,028
P(X I buys_computer=no) P(buys_computer=no)
= 0,019 x 0,357 = 0,007
Nilai yg tertinggi adalah 0,028 Untuk kasus:
X = (age = <=30,
income = medium,
student = yes,
credit_rating = fair)
Maka buys_computer Yes
II.6. Evaluasi
Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya
(count) data test record yang diprediksikan secara benar dan secara tidak
benar oleh model. Countini ditabulasikan dalam sebuah tabel yang dikenal
sebagai confusion matrix. Dalam weka classifier hasil klasifikasi yang
diperoleh disertakan dengan beberapa alat ukur yang tersedia di dalamnya,
salah satunya confusion matrix.
Dalam tugas akhir ini dipilih alat ukur evaluasi berupa confusion
matrix yang terdapat dalam weka classifier dengan tujuan untuk
mengetahui keberhasilan klasifikasi dalam menggunakan Nave
bayes.Confusion matrix adalah salah satu berbentuk matrik 2x2 yang
16

digunakan untuk mendapatkanjumlah ketepatan klasifikasi. Setiap entri f
ij

dalam tabel dibawah ini menyatakan banyaknya record dari class i yang
diprediksi menjadi class j.
Tabel II-2 Confusion matrix untuk masalah klasifikasi biner


Dalam masalah dengan klasifikasi biner seperti dataset penduduk
dengan keluaran class sejahtera dan class prasejahtera.Tiap class yang
diprediksi empat kemungkinan keluaran yang berbeda, yaitu 01 adalah
banyaknya record dari class 0 yang secara tidak benar diprediksi sebagai
class 1. Berdasarkan pada entri-entri dalam confusion matrix, banyaknya
total prediksi yang benar yang dibuat oleh model adalah (f
11
+ f
00
) dan
banyaknya total prediksi yang tidak benar adalah (f
10
+ f
01
).
Informasi dalam confusion matrix diperlukan untuk menentukan
kinerja model klasifikasi. Kegiatan yang dapat dilakukan dengan
menggunakan data hasil klasifikasi dalam confusion matrix diantaranya
adalah menghitung nilai rata-rata keberhasilan klasifikasi dari nilai akurasi
ke dalam class yang sesuai dengan cara membagi jumlah data yang
terklasifikasi dengan benar, dengan seluruh data yang diklasifikasi.
Kebanyakan algoritma klasifikasi mencari model yang mencapai akurasi
paling tinggi ketika diaplikasikan ke training set.


II.7 Review Riset yang Relevan
Iin Ernawati (2008) melakukan penelitian menggunakan teknik
klasifikasi mining untuk memprediksi status studi mahasiswa dengan
menggunakan data akademik mahasiswa.Hasil penelitiannya berupa
karakteristik yang berpengaruh terhadap status studi mahasiswa.
17

Iwan (2010) melakukan penerapan Algoritma Bayes Theorem
Untuk Klasifikasi Perusahaan Berdasarkan Laporan Keuangan Tahunan.
Membahas penggunaan Teorema Bayes untuk membantu menemukan
karakteristik atau cirri perusahaan yang berkembang dan tidak
berkembang berdasarkan pendapatan tahunan. Makalah ini menunjukkan
bahwa nave bayes efektif untuk klasifikasi perusahaan berdasarkan
laporan keuangan tahunan.

Anda mungkin juga menyukai