Anda di halaman 1dari 33

PENGELOMPOKAN MAKANAN TRADISIONAL

INDONESIA MENGGUNAKAN TWO-STEP METHOD FOR


CLUSTERING MIXED NUMERICAL AND CATEGORICAL
DATA (TMCM) DAN K-PROTOTYPE

RIZKA AULIA

PROGRAM STUDI MAGISTER ILMU KOMPUTER


SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2022
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis dengan judul “Judul Karya Ilmiah
Tugas Akhir” adalah karya saya dengan arahan dari dosen pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Bulan Tahun 20XX

Rizka Aulia
G651180201
RINGKASAN
RIZKA AULIA. Pengelompokan Makanan Tradisional Indonesia menggunakan
Two-step Method for Clustering Mixed Numerical dan Categorical Data
(TMCM) dan K-Prototype. Dibimbing oleh NAMA PEMBIMBING 1 dan
NAMA PEMBIMBING 2.

SUMMARY
STUDENT NAME. Title of Thesis. Supervised by NAME of 1 st SUPERVISOR
1st, NAME of 2nd SUPERVISOR, and NAME of 3rd SUPERVISOR.

Narasi ditulis dalam satu spasi, disusun dalam beberapa paragraf, dan tidak
lebih dari dua halaman. Ringkasan/Summary memuat latar belakang
permasalahan, tujuan, metode, hasil dan pembahasan dengan penekanan pada
temuan baru, dan implikasi yang disajikan secara ringkas, informatif, dan faktual.
Tidak diperbolehkan mengacu pustaka, gambar, dan tabel. Singkatan hanya
dikenalkan jika masih digunakan lagi dalam bagian lain Ringkasan/Summary.

Kata kunci: ditulis dalam bahasa Indonesia, disusun berdasarkan abjad, maksimum
lima kata atau frasa

Keywords: ditulis dalam bahasa Inggris, disusun berdasarkan abjad, maksimum


lima kata atau frasa.
© Hak Cipta milik IPB, tahun 20XX
Hak Cipta dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa


mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk
kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan,
penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak
merugikan kepentingan IPB.
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya
tulis ini dalam bentuk apa pun tanpa izin IPB.
PENGELOMPOKAN MAKANAN TRADISIONAL
INDONESIA MENGGUNAKAN TWO-STEP METHOD FOR
CLUSTERING MIXED NUMERICAL AND CATEGORICAL
DATA (TMCM) DAN K-PROTOTYPE

RIZKA AULIA

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister pada
Program Studi …….

NAMA PROGRAM STUDI


FAKULTAS/SEKOLAH BISNIS/SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
20XX
Tim Penguji pada Ujian Tesis:
1 Nama lengkap dan gelar
2 Nama lengkap dan gelar
Judul Tesis : Judul Karya Ilmiah Maksimum Tiga Baris, Lima Belas Kata
Tidak Termasuk Kata Depan dan Kata Sambung
Nama : Nama Lengkap
NIM : NIM

Disetujui oleh

Pembimbing 1:
__________________
Nama lengkap dan gelar

Pembimbing 2:
__________________
Nama lengkap dan gelar

Diketahui oleh

Ketua Program Studi:


Nama lengkap dan gelar __________________
NIP
Dekan Fakultas/Sekolah … :
Nama lengkap dan gelar __________________
NIP

Tanggal Ujian: Tanggal Lulus:


(tanggal pelaksanaan ujian) (tanggal penandatanganan oleh Dekan
Fakultas/Sekolah …)
PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanaahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan …. 20XX sampai bulan
…. 20XX ini ialah ………., dengan judul
“…………………………………………”.
Terima kasih penulis ucapkan kepada para pembimbing, … (nama lengkap
dan gelar) yang telah membimbing dan banyak memberi saran. Ucapan terima
kasih juga disampaikan kepada pembimbing akademik (untuk program D-3 dan S-
1), moderator seminar, dan penguji luar komisi pembimbing. Di samping itu,
penghargaan penulis sampaikan kepada … (nama lengkap dan gelar dari
lembaga/instansi/perusahaan yang telah memberi izin penelitian), (nama dan gelar
atau bapak/ibu jika tidak ada gelar) beserta staf Laboratorium ….. dan seterusnya .
… yang telah membantu selama pengumpulan data. Ungkapan terima kasih juga
disampaikan kepada ayah, ibu, serta seluruh keluarga (istri/suami/anak jika sudah
menikah) yang telah memberikan dukungan, doa, dan kasih sayangnya …. dan
seterusnya.
Semoga karya ilmiah ini bermanfaat bagi pihak yang membutuhkan dan
bagi kemajuan ilmu pengetahuan.

Bogor, Bulan Tahun

Nama penulis
DAFTAR ISI

DAFTAR TABEL iii


DAFTAR GAMBAR iii
DAFTAR LAMPIRAN iii
I PENDAHULUAN 3
1.1 Latar Belakang 3
1.2 Rumusan Masalah 3
1.3 Tujuan 3
1.4 Manfaat 3
1.5 Ruang Lingkup (opsional) 3
1.6 Hipotesis (opsional) 3
II TINJAUAN PUSTAKA (OPSIONAL) 3
2.1 Contoh Subbab 3
2.2 Contoh Subbab2 3
III METODE 3
3.1 Waktu dan Tempat Penelitian 3
3.2 Alat dan Bahan 3
3.3 Prosedur Kerja 3
3.4 Analisis data 3
IV HASIL DAN PEMBAHASAN 3
4.1 Judul Subbab 3
4.2 Judul Subbab 3
4.3 Judul Subbab 3
4.4 Judul Subbab 3
V SIMPULAN DAN SARAN 3
5.1 Simpulan 3
5.2 Saran 3
DAFTAR PUSTAKA 3
LAMPIRAN 3
RIWAYAT HIDUP 3
DAFTAR TABEL

1 Tingkat kekerasan dan kandungan gula buah pisang ambon pada suhu
simpan yang berbeda dan pemberian putresina
2 Tingkat kekerasan buah pisang raja pada suhu simpan yang berbeda
dan pemberian putresina

DAFTAR GAMBAR

DAFTAR LAMPIRAN
1 Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan
kimia tanah dari 78 contoh tanah di Kebun Percobaan Ciheuleut
1 Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat 3
13

1. PENDAHULUAN

I.1 Latar Belakang

Indonesia merupakan negara kepulauan yang memiliki keanekaragaman


budaya, salah satunya yaitu makanan tradisional. Makanan tradisional merupakan
makanan dan minuman yang berkembang di suatu daerah yang diolah
menggunakan bahan – bahan lokal yang dilakukan secara turun temurun sehingga
mempunyai cita rasa yang khas (Fadiaz 1998). Makanan tradisional di Indonesia
sangat berlimpah karena berasal dari 34 Provinsi. Setiap daerah di Indonesia
memiliki makanan tradisional yang berbeda – beda, perbedaan dipengaruhi dari
kultur budaya, agama, dan geografis dari daerah asal makanan tersebut (Wijaya
2019). Tetapi makanan tradisional Indonesia memiliki ciri khas yaitu penggunaan
rempah – rempah di setiap pengolahannya. Pada kenyataannya, banyak makanan
tradisional di Indonesia yang memiliki kemiripan antara satu dan lainnya dari sisi
rasa dan komposisi, hal ini dapat disebabkan karena makanan tersebut memiliki
bahan dasar yang sama.
Tetapi, uniknya makanan dengan bahan dasar yang sama ini menghasilkan
rasa yang khas dari setiap daerah di Indonesia. beberapa daerah diantaranya
memiliki kemiripan rasa yang hampir sama. Namun sayangnya, database
mengenai komposisi dan rasa kuliner ini masih belum dikoleksi datanya. Padahal,
data ini dapat menjadi salah satu keunggulan pada promosi bidang pariwisata dari
daerah-daerah di Indonesia, selain bidang kesenian, kebudayaan, dan tempat
wisata yang cukup menarik, seperti pada UUD……….. TAHUN……… maka
dari itu, saya melakukan penelitian ini untuk mengkoleksi dan mempelajari secara
komprehensif mengenai komposisi bahan da rasa dari makanan khas Indonesia.
penelitian ini menggunakan metode …………
Penelitian dengan algoritme clustering sendiri telah banyak digunakan pada
data makanan secara numerik [ a (x, 2007); b (y, 2008)] dan kategorik [a (z,
2009); n (e, 2000)]. Pada penelitian yang telah dilakukan, pengelompokkan nya
hanya menggunakan kategorik dan numerik saja secara khusus, tetapi belum ada
studi yang mencakup penelitian mengenai studi numerik dan kategorik secara
bersamaan. Selain itu penelitian sebelumya juga masih menggunakan metode …..
yang [kekurangannya apa aja secara umum]. Maka penelitian ini merupakan
penelitian yang dilakukan secara koprehensif dengan metode ……. penelitian
yang akan membandingkan metode clustering yaitu Two-step Method for
Clustering Mixed Categorical and Numerical Data dan K-prototype.

I.2 Rumusan Masalah


Berdasarkan latar belakang di atas maka rumusan masalah yang menjadi
tantangan riset pada penelitian ini adalah:
1. Bagaimana mengelompokkan makanan tradisional di Indonesia yang
memiliki kemiripan bahan dasar ?
2. Bagaimana menerapkan metode pengelompokan pada data
campurandalam mencari kedekatan antar makanan tradisional ?
14

3. Bagaimana membandingkan antara metode K-modes dan ROCK sebagai


metode clustering untuk pengelompokkan makanan tradisional ?

I.3 Tujuan
Berdasarkan permasalahan tersebut, tujuan dari penelitian ini dapat
diuraikan sebagai berikut:
1. Menganalisis hasil pengelompokkan makanan tradisional
2. Membandingkan 2 metode clustering untuk pengelompokkan makanan
tradisional

I.4 Manfaat
Selain memiliki beberapa tujuan yang telah diuraikan, penelitan ini juga
diharapkan memberikan manfaat sebagai berikut:
1. Memberikan pengetahuan baru mengenai makanan tradisional Indonesia
berupa kelompok-kelompok makanan yang serupa.
2. Membantu merekomendasikan metode pengukuran similarity dan
clustering untuk jenis data serupa.

I.5 Ruang Lingkup


Penelitian ini memiliki batasan ruang lingkup, batasan ruang lingkup
penelitian ini adalah:
1 Data makanan yang digunakan merupakan data hasil kusioner yang berasal
dari 21 kota di Indonesia.
2 Data yang digunakan merupakan data kategorikal (biner), serta similarity
coefficent yang digunakan merujuk pada penelitian Meyer (2002).
15

2. TINJAUAN PUSTAKA (OPSIONAL)

II.1 Makanan Tradisional Indonesia


Makanan tradisional merupakan makanan dan minuman yang berkembang
di suatu daerah yang diolah menggunakan bahan – bahan lokal yang dilakukan
secara turun temurun sehingga mempunyai cita rasa yang khas (Fadiaz 1998). Ciri
– ciri masakan tradisional menurut Trichopoulou et al (2006) yaitu bahan baku
yang digunakan menggunakan bahan lokal daerah tersebut, resep telah di turunkan
secara turun temurun, pengolahan atau proses memasak secara tradisional dan
masih diterapkan sampai saat ini. Karakteristik makanan tradisional Indonesia
sangat dipengaruhi oleh kondisi alam dan budaya. Bumbu dasar masakan
Indonesia terdiri dari aneka bahan segar dan rempah. Bumbu segar yang umum
digunakan seperti bawang merah, bawang putih, kunyit, lengkuas, serai dan cabai.
Sedangkan rempah – rempah yang digunakan seperti merica, ketumbar, jinte, pala
dan cengkeh. Rempah – rempah dan bahan segar digunakan sebagai bumbu untuk
penyedap makanan (Prince 2009).

II.2 Praproses Data Kategorikal

II.2.1 Praproses Data


Praproses data merupakan bagian dari data mining untuk mengolah data
tidak terstruktur menjadi data terstuktur (Kadhim et al. 2015). Berikut metode
praproses data yang digunakan pada penelitian ini:
1. Tokenisasi
Tokenisasi merupakan proses pemisahan teks menjadi kata, frasa atau
elemen yang mempunyai makna (Srividhya et al.2010).
2. Case Folding
Case Folding bertujuan untuk mengubah huruf kapital menjadi huruf
kecil (lower case) (Langgeni 2010).
3. Menghapus Stopword
Mengapus stopword yaitu menghapus kata penghubung yang terdapat
pada teks, seperti ke, di, dari, yang dan seterusnya.
4. Penyeragaman istilah
Pada tahapan ini membuat kamus secara untuk menyeragaman istilah.
5. Menghapus angka dan tanda baca
Tahapan ini menghapus angka dan tanda baca yang tidak relevan untuk
analisis.

II.3 Clustering
Clustering merupakan teknik pembelajaran tanpa pengawasan
(unsupervied) yang bertujuan mengelompokkan sekumpulan objek ke dalam
cluster. Objek dalam cluster yang sama memiliki kemiripan satu sama lain,
sedangkan objek pada suatu cluster memiliki ketidakmiripan dengan cluster yang
lainny (Irani et al. 2016). Clustering memiliki dua metode yaitu, hierarchical
clustering dan partition clustering. Hierarchical clustering merupakan metode
16

pengelompokan dengan membentuk struktur pohon (Kaur et al. 2015). Metode


hierarchical clustering dibedakan menjadi dua yaitu agglomerative dan divisive.
Metode agglomerative merupakan pengelompokan yang dimulai dengan satu titik
cluster dan secara rekursif menggabungkan dua atau lebih cluster yang memiliki
kemiripan. Metode divisive diawali dengan satu cluster yang berisi semua objek
dan objek dengan nilai ketidakmiripan tertinggi dipisahkaan dari cluster tersebut.
Proses dilakukan secara berulang dan akan berhenti ketika mencapai kriteria yang
ditetapkan (Devika et al. 2018). Partition clustering merupakan teknik cluster
yang membagi titik data menjadi k-partition, dimana setiap partisi mewakili
sebuah cluster. Metode partisi dilakukan secara berulang untuk meningkatkan
kinerja pengelompokan dengan memindahkan titik data dari satu cluster ke
cluster lainnya (Kaur et al. 2015).

II.4 Ukuran Kemiripan


Metode clustering pada dasarnya menggunakan ukuran kemiripan
(similarity) atau ketidaksamaan (disimilarity) antar objek. Pada clustering ukuran
kemiripan atau ketidakmiripan yang digunakan yaitu jarak antar objek dan jarak
antar gerombol (Cao et al. 2012). Fungsi jarak yang umum digunakan yaitu jarak
Euclidean, jarak Manhattan, jarak tipe data kategorik, jarak tipe campuran.

Jarak Euclidean
Pada metode clustering fungsi jarak yang paling sering digunakan yaitu
jarak Euclidean. Salah satu metode clustering yang menerapkannya adalah
metode k-means. Jarak euclidean hanya dapat diterapkan pada data bertipe
numerik (kontinu). Jarak euclidean merupakan jarak antar objek ke-i dan ke-j
dengan p merupakan jumlah data (Agarwal 2014). Persamaan (1) menunjukan
jarak euclidean:

√ 2 2
d ( i, j ) = ( xi 1 + x j 1 ) + ( x i 2+ x j2 ) + …+ ( x ip + x jp )
2
(1)

dengan:
d ( i, j ) =¿ jarak antara i dan j
i=¿ ( x i 1 , x i 2 , … , x ip )
j=¿ ( x j 1 , x j 2 , … , x jp )
p=¿ jumlah data

Jarak Manhattan
Jarak manhattan merupakan metrik jarak yang menghitung perbedaan
absolut antara pasangan koordinat objek data. Jarak manhattan dikenal dengan
sebutan city block distance karena menghitung jarak dalam blok antara dua objek
pada suatu kota. Seperti halnya jarak euclidean, jarak manhattan hanya dapat
digunakan pada data numerik (kontinu) (Agarwal 2014). Perhitungan jarak
manhattan ditunjukan pada persamaan (2):
m
(2)
d ij =∑ |x ik −x jk|
k=1
17

dengan:
d ij = jarak manhattan antara objek ke-i dengan objek ke-j
m = jumlah data
x ik = nilai atau data dari objek ke-i pada atribut ke-k
x jk = nilai atau data dari objek ke-j pada atribut ke-k

Jarak Tipe Data Kategorik (Simple Matching)


Metode k-modes memperluas paradigma metode k-means pada clustering
data kategorik dengan menggunakan ukuran jarak pencocokan sederhana
(simple matching) untuk objek kategorik. Metode k-modes berbasis frekuensi
untuk memperbarui modus pada fungsi k-means untuk meminimalkan biaya
komputasi. Ukuran jarak simple matching dilakukan dengan mengukur jarak
antar dua objek. Pengukuran jarak dilakukan dengan memberikan nilai 0 dan 1.
Nilai 0 untuk objek dengan nilai sama, sedangkan nilai 1 untuk kedua objek
berbeda. Objek dikatakan mirip jika nilai yang dihasilkan semakin kecil, begitu
juga sebaliknya (Huang 1998). Perhitungan jarak pada data kategorik (simple
macthing) (Huang 1998) sebagai berikut:
p
(3)
d ( X , Y ) =∑ δ ( x j , y j )
j=1

dengan:
d ( X ,Y ) = jarak antar 2 objek dengan p merupakan atribut kategorik

δ ( x j , y j )¿

Jarak Tipe Data Campuran


Ukuran jarak untuk data numerik dan kategorik (campuran) yaitu dengan
menggabungkan ukuran jarak tipe data numerik (jarak euclidean) Persamaan (1)
dikuadratkan dan menambahkan koefisien gamma γ yang dikalikan dengan jarak
tipe kategorik (Persamaan (3)) (Huang 1998).
n q
(4)
d 2 ( X ,Y )=∑ δ ( x j− y j ) + γ
2
∑ δ (x j , y j )
j=1 j=n+1

dengan:
d 2 ( X ,Y ) = jarak antar objek X dan Y (data campuran)
n

∑ δ ( x j − y j )2 = jarak pada tipe data numerik


j=1
q

∑ δ (x j , y j) = jarak pada tipe data kategorik


j =n+1
γ = parameter penimbang
18

II.5 Two-step Method for Clustering Mixed numeric and categorical data
Two-step Method for Clustering Mixed numeric and categorical data
(TMCM) merupakan metode dua-langkah untuk mengelompokan data numerik
dan data kategorik (data campuran). Pada metode ini data dari atribut kategorik
diproses untuk membangun hubungan atau kesamaan berdasarkan prinsip co-
occurrence. Co-occurrence merupakan sebuah gagasan untuk mengetahui
pasangan data yang mempunyai kategori sama dan muncul secara bersamaan
dalam sebuah objek. Berdasarkan prinsip co-occurrence semua data pada atribut
kategorik dapat diubah menjadi atribut numerik, sehingga mempermudah dalam
proses pengelompokan data pada dataset. Metode ini juga mengintegrasikan
dengan algoritme pengelompokan hierarchical agglomerative cluster (HAC) dan
K-means sebagai objek untuk mengahasilkan pengelompokan yang optimal (Shih
et al. 2010).
Pada metode TMCM langkah pertama yang dilakukan yaitu membaca
masukan data selanjutnya, nilai dari atribut numerik dinormalisasikan dalam
rentang nilai nol dan satu. Normalisasi dilakukan untuk menghindari nilai atribut
yang besar akan mendominasi hasil clustering. Atribut kategorik dengan kategori
terbanyak akan menjadi atribut dasar, kategori yang terdapat di atribut dasar
disebut kategori dasar. Setelah penentuan aribut dasar, langkah selanjutnya
membentuk matrik M dengan menghitung frekuensi co-ccurrence setiap kategori.
Matrik M merupakan matrik dengan ukuran b x b, b merupakan jumlah kategori
pada semua atribut kategorik (Shih et al. 2010). Kemunculan setiap kategori
mempengaruhi pembentukan matrik M. Berikut merupakan pembentukan matrik
M:

[ ]
m 11 ⋯ m1 b (5)
M= ⋮ ⋱ ⋮
m b1 … m bb
mtu t=u merupakan jumlah kemunculan kategori t pada atribut tertentu;
mtu t ≠ u merupakan jumlah kemunculan kategori t kategori u dalam observasi
yang sama;
Jika t dan u adalah kategori pada atribut yang sama maka mtu =0 .
Setelah frekuensi co-occurrence tersedia, kesamaan antar mereka dapat
dihitung dengan persamaan berikut:

|m(t ,u)| (6)


D tu =
|m(t )|+|m( u)|−|m(t ,u)|
m(t) merupakan kumpulan objek yang mengandung kategori t ;
m(u) merupakan kumpulan objek yang mengandung kategori u ;
m(t ,u) merupakan kumpulan objek yang mengandung kategori t dan u.
Langkah selanjutnya yaitu memasukan nilai numerik pada kategori dasar.
Proses ini diawali dengan menemukan atribut numerik yang memiliki ragam
terkecil dan menetukan rata – rata nilai atribut numerik pada setiap kategori dasar.
Kategori dasar telah diubah menjadi nilai numerik, sehingga kategori lainnya
dapat ditentukan dengan menggunakan persamaan berikut:
19
d
(7)
F ( x )=∑ ai v i
i=1

d merupakan banyaknya kategori dasar;


a i merupakan kesamaan antara kategori x dan pada kategori dasar ke-i;
vi merupakan nilai yang diukur dari kategori dasar ke-i.
Tahapan terakhir dari TMCM yaitu clustering. seluruh nilai dalam set dat
berisikan nilai numerik sehingga fungsi jarak yang berlaku pada algorima
clustering dapat diterapakan dengan maksimal. Metode HAC (hierarchical
agglomerative cluster) dan K-means diterapkan.

II.6 Algoritme K-Prototype


Algoritme K-prototype merupakan algoritme yang digunakan pada data
bertipe numerik dan kategorik (campuran). Algoritme ini mengintegrasikan proses
k-means dan k-modes. Proses algoritme k-prototype mirip dengan algoritme k-
means hanya dan menambahkan pendekatan k-modes untuk memperbarui nilai
atribut kategorik (Huang 1998). Karena algoritme ini menggunakan proses
pengelompokan yang sama dengan k-means, sehingga mempertahankan efisiensi
algoritme k-means yang baik untuk data mining.
Ukuran jarak yang digunakan pada algoritme ini dapat dilihat pada
Persamaan 4. Terdapat parameter penimbang γ (gamma) yang digunakan sebagai
penyeimbang antara ukuran jarak untuk data bertipe numerik dengan ukuran jarak
bertipe kategorik (Huang 1998). Nilai koefisien γ didapatkan dari jumlah atribut
numerik, dan jumlah atribut kategorik, serta jumlah objek (n) yang ada. Semakin
kecil nilai koefisien γ menunjukan pengelompokan didominasi oleh atribut
numerik dan sebaliknya semakin besar nilai yang didapatkan maka
pengerombolan didominasi oleh atribut kategorik (Huang 1998).
Tahapan algoritme k-prototype menurut Gan et al. (2007) yaitu sebagai
berikut:
1. Tentukan jumlah cluster (k) yang akan dibentuk.
2. Tentukan pusat cluster yang dipilih secara acak dari dataset.
3. Hitung jarak menggunakan Persamaan 4 untuk semua set data dari pusat
cluster yang telah ditentukan pada tahap 2.
4. Penempatan objek untuk masuk dalam sebuah cluster ditentukan dari
nilai jarak minimum terhadap pusat cluster.
5. Setelah semua data set telah ditempatkan di cluster masing – masing,
hitung ulang pusat cluster dan selanjutnya menempatkan kembali semua
objek pada dataset ke dalam masing – masing cluster berdasarkan nilai
jarak dengan pusat cluster terbaru.
6. Proses akan berhenti ketika titik pusat cluster tidak mengalami
perubahan. Sebaliknya jika titik pusat cluster mengalami perubahan
ulangi dari tahap 2 sampai iterasi maksimum dan objek dalam cluster
tidak berpindah.
20

3. METODE

III.1 Data Penelitian


Data penelitian diperoleh dari penyebaran kuisioner makanan yang
dilakukan di 21 kota di Indonesia. Responden untuk kusioner yaitu pemilik
restoran dan konsumen di masing – masing kota yang telah ditentukan.
Penyebaran kusioner untuk mengetahui resep asli makanan khas daerah
tersebut. Hasil dari penyebaran kusioner yaitu mendapatkan data makanan
tradisional sebanyak 51 jenis makanan. Data makanan berupa data resep
makanan yang berupa bumbu dan bahan makanan, serta tingkatan rasa seperti,
rasa pedas, gurih, asin, asam dan halal makanan. Pada menelitian ini data
makanan berupa data numerik dan dan data kategorik. Data numerik dihasilkan
dari hasil praproses data resep makanan yang berupa data teks diubah kedalam
bentuk numerik. Serta data kategorik yang dihasilkan dari data tingkatan rasa.

III.2 Peralatan Penelitian


Penelitian ini menggunakan perangkat keras dan perangkat lunak sebagai be
rikut:
1 Perangkat keras berupa komputer dengan spesifikasi:
 AMD Dual Core A6-9225, up to 3.0 Ghz.
 RAM 4 GB dan Hardisk internal 1 TB.
2 Perangkat lunak yang digunakan antara lain :
 Sistem Operasi Windows 10 x 64.
 Anaconda versi 5.2.0 digunakan sebagai manajemen paket dan
enviroment Python.
 Python versi 3.7.3 berfungsi sebagai bahasa pemrograman

III.3 Tahapan Penelitian


Penelitian ini melakukan perbandingan algoritme untuk proses clustering
makanan tradisional Indonesia. Algorime yang digunakan yaitu Two-step Method
for Clustering Mixed Categorical and Numerical Data (TMCM) dan algoritme k-
prototype. Adapun tahapan penelitian ditunjukkan pada gambar 1.

Mulai

Praproses Data

Perbandingan Algoritme

TMCM K-prototype

Analisis Hasil

Selesai
21

Gambar 1 Tahapan penelitian

III.3.1 Praproses data


Tahapan pertama pada penelitian ini yaitu melakukan praproses data. Data
yang akan dipraproses yaitu data resep makanan yang diperoleh dari hasil
kusioner. Teknik yang digunakan pada praproses data yaitu tokenisasi, case
folding, penghapusan stopword, penyeragaman istilah, menghapus angka dan
tanda baca. Pada teknik penyeragaman istilah peneliti membuat kamus istilah/
kata mengenai bahan dan bumbu masakan. Karena istilah bumbu dan bahan
masakan memiliki kesamaan makna seperti tepung tapioka, sagu dan tepung kanji,
yang memiliki makna sama. Tabel 4 contoh penyeragaman istilah dan Tabel 5
menunjukan tahapan praproses data.
Tabel 4 Contoh penyeragaman istilah

No Istilah Penyeragaman
1 Tepung tapioka
Sagu Tepung tapioka
Tepung kanji
2 Daun sop
Daun seledri
Daun seledri
3 Merica
Sahang Lada
Lada
4 Cabai
Cabai
Cabe
5 Baput
Bawang putih
Bwg putih

Tabel 5 Praproses data

Teknik Data setelah di praproses


praproses
Tokenisasi ‘Ikan’,‘Patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
‘merah’, ‘cabe’, ‘kunyit’, ‘merica’, ‘sedikit’,
‘ketumbar’,‘daun’, ‘ singkong’, ‘daun’,
‘salam’, ‘jahe’
Case ‘ikan’,‘patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
folding ‘merah’, ‘cabe’, ‘kunyit’, ‘merica’, ‘sedikit’,
‘ketumbar’, ‘sedikit’, ‘2’, ‘daun’, ‘
singkong’, ‘daun’, ‘salam’, ‘jahe’
Penghapusa ‘ikan’,‘patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
n stopword ‘merah’, ‘cabe’, ‘kunyit’, ‘merica’,
‘ketumbar’, ‘2’,‘daun’, ‘ singkong’, ‘daun’,
‘salam’, ‘jahe’
Penyeragam ‘ikan’,‘patin’,‘ikan’,‘baung’,‘bawang’,‘putih’,
an istilah ‘bawang’,‘merah’, ‘cabai’, ‘kunyit’, ‘merica’,
‘ketumbar’, ‘2’,‘daun’, ‘singkong’, ‘daun’,
‘salam’, ‘jahe’
Menghapus ‘ikan’,‘patin’,‘ikan’,‘baung’,‘bawang’,‘putih’,
‘bawang’,‘merah’, ‘cabai’, ‘kunyit’, ‘merica’,
22

angka dan ‘ketumbar’,‘daun’, ‘singkong’, ‘daun’, ‘salam’,


tanda baca ‘jahe’

III.3.2 Perbandingan Algoritme


III.3.2.1. Algoritme Two-step Method for Clustering Mixed Categorical and
Numerical Data (TMCM)

Mulai

Tahapan 1: Praproses Data


Normalisasi atribut numerik

Bentuk matriks M, tentukan


atribut dasar dan kategori dasar

Bentuk matriks D dari informasi


matriks M

Tahapan 2: Mengubah atribut kategorik


menjadi nilai numerik

Pemberian nilai numerik pada kategori dasar

Pemberian nilai numerik pada kategori non


zz
dasar

Tahapan 3: Clustering
Penerapan algoritme HAC

Penerapan algoritme K-means

Selesai

Gambar 2 Tahapan algoritme TMCM

Algoritme TMCM merupakan algoritme yang dirancang untuk menangani


pengelompokan pada data numerik dan kategorik (campuran). Algoritme ini
23

memiliki kelebihan yaitu mengonversi atribut kategori menjadi nilai numerik


berdasarkan sifat co-occurrence. Nilai numerik diberikan untuk atribut
kategorikal berdasarkan hubungan antar objek (Shih et al. 2010). Data kusioner
yang ditelah dipraproses akan diolah menggunakan algoritme TMCM. Algoritme
TMCM memiliki tiga tahapan utama yaitu praproses data, mengubah nilai atribut
kategorik menjadi nilai numerik, dan tahapan terakhir yaitu clustering (Shih et al.
2010). Gambar 2 merupakan tahapan dari algoritme TMCM.

Tahapan 1: Praproses data


Pada algoritme TMCM tahapan praproses data terdiri dari tiga tahapan
sebagai berikut:
1. Normalisasi atribut numerik .
Normalisasi atribut numerik digunakan untuk menghindari range nilai
numerik yang besar, karena akan mempengaruhi hasil proses clustering. Rentang
data antara 0 sampai 1.
2. Membentuk matriks M.
Setelah proses normalisasi langkah selanjutnya yaitu menetukan atribut
dasar. Atribut dasar merupakan atribut kategorik yang paling banyak muncul pada
kategori tersebut. Sedangkan kategori yang muncul pada atribut dasar disebut
kategori dasar. Dapat dilihat pada Tabel 6, atribut V akan dipilih menjadi atribut
dasar, karena pada kategori yang terdapat pada atribut V lebih banyak dari pada
atribut U . Atribut dasar yaitu 3 yang terdiri dari kategori G, H, I. Kategori G, H, I
disebut juga sebagai kategori dasar.
Table 6 Contoh Dataset

Atribut U Atribut Atribut W


V
E G 0.1
E G 0.3
E H 0.8
F H 0.9
F G 0.2
F I 0.6
E H 0.7

Atribut dasar telah ditentukan selanjutnya, hitung frekuensi co-occurrence


pada atribut kategorik. Matrik M dengan b x b digunakan untuk menyimpan
informasi dimana, b merupakan jumlah kategori pada atribut kategorik.
Pembentukan matrik M berdasarkan data di Tabel 2, dimana jumlah kategori
pada atribut kategorik yaitu 5. Kategori pada atribut kategorik yaitu E, F, G, H,
I. pembentukan matrik M mengikuti Persamaan 5. Sehingga bentuk matrik M
adalah 5 x 5. Bentuk matrik M yang dihasilkan dapat dilihat dibawah ini.

[ ]
4 0 22 0
0 3 11 1
M= 0 0 30 0
0 0 03 0
0 0 00 1
24

Dapat dilihat nilai m11 adalah 4 yang diperoleh dari jumlah kemunculan
kategori E pada Tabel 6. Nilai m14 adalah 2 karena banyaknya kemunculan
kategori E dan D secara bersama – sama di Tabel 6. Informasi yang di hasilkan
pada matrik M digunakan untuk membentuk matrik D.

3. Membentuk matriks D.
Pembentukan matrik D mengikuti Persamaan 6. Contoh perhitungan
ditunjukan dibawah ini.

|m(E ,G )| 2
D EG= = =0.4
|m( E)|+|m (G)|−|m( E ,G)| 4+ 3−2

Pada Matriks D EG , nilai |m(E)|adalah 4 yang diambil dari informasi m11


pada matriks M . Sama halnya dengan nilai |m(E , G)| adalah 2 karena nilai m13
di dimatriks M.

Tahapan 2: Mengubah nilai atribut kategorik menjadi nilai numerik


Pada tahapan 2 terdapat 2 langkah yang harus dilakukan sebagai berikut:
1. Menetuan nilai numerik pada kategori dasar.
Atribut dasar yang telah ditentukan tahapan awal digunakan pada tahapan
ini. Nilai kategori dasar yaitu G,H,I . Persamaan 8 merupakan perhitungan untuk
variansi grub.
SSw =∑ ∑ ( x ij −X j )2 (8)
j i

X j merupakan nilai atribut numerik pada atribut dasar ke-j;


x ij merupakan nilai ke-i pada atribut numerik ke-j diatribut dasar.
Menentukan nilai atribut dasar dengan menerapkan rata – rata nilai atribut
numerik. Nilai untuk kategori G yang dirujuk pada Tabel 2 yaitu
(0.1+0.3+ 0.2)/3=0.2 , nilai kategori H yaitu 0.7 dan nilai kategori I yaitu 0.6.
2. Menetukan nilai numerik pada atribut non dasar.
Setelah kategori dasar telah ubah ke dalam nilai numerik maka, semua
kategori non dasar dapat di ubah ke nilai numerik dengan menggunakan
Persamaan 7. Dibawah ini contoh perhitungan untuk mengubah nilai kategori E
menjadi nilai numerik.

F ( E )=(0.48 × 0.2)+ ( 0.48 × 0.7 ) +(0× 0.6)=0.48


Ubah semua atribut kategori sehingga menghasilkan nilai numerik. Jika
semua atribut kategorik telah diubah maka, proses clustering dapat dijalankan
dengan optimal.

Tahapan 3: Clustering
Tahapan terakhir dari algoritme TMCM yaitu proses clustering. Proses
clustering dilakukan dalam dua tahapan, karena beberapa algoritme clustering
memiliki keterbatasan. Misalnya, hasil algoritme k-means ditentukan oleh
25

pemilihan awal centroid (pusat cluster). Langkah pertama yang dilakukan yaitu
menerapkan metode HAC (Hierarchical Agglomerative Clustering), metode HAC
menghasil 1/3 dari dataset.
Langkah kedua yaitu hasil dari analisi cluster HAC akan dianggap sebagai
objek baru dan dijadikan input data pada analisi cluster k-means.

III.3.2.2. Algoritme K-prototype


Tahapan algoritme k-prototype menurut Gan et al. (2007) yaitu sebagai
berikut:
1. Tentukan jumlah cluster (k) yang akan dibentuk.
2. Tentukan pusat cluster yang dipilih secara acak dari dataset.
3. Hitung jarak menggunakan Persamaan 4 untuk semua set data dari
pusat cluster yang telah ditentukan pada tahap 2.
4. Penempatan objek untuk masuk dalam sebuah cluster ditentukan dari
nilai jarak minimum terhadap pusat cluster.
5. Setelah semua data set telah ditempatkan di cluster masing – masing,
hitung ulang pusat cluster dan selanjutnya menempatkan kembali
semua objek pada dataset ke dalam masing – masing cluster
berdasarkan nilai jarak dengan pusat cluster terbaru.
6. Proses akan berhenti ketika titik pusat cluster tidak mengalami
perubahan. Sebaliknya jika titik pusat cluster mengalami perubahan
ulangi dari tahap 2 sampai iterasi maksimum dan objek dalam
cluster tidak berpindah.

3.3.3. Evaluasi Hasil Cluster

3.3.4. Analisis Hasil


1

4. HASIL DAN PEMBAHASAN

IV.1 Judul Subbab

IV.2 Judul Subbab

IV.3 Judul Subbab

IV.4 Judul Subbab


2

5. SIMPULAN DAN SARAN

V.1 Simpulan
Simpulan merupakan jawaban dari tujuan yang sudah ditentukan dan tidak
dimaksudkan sebagai ringkasan hasil. Dalam Simpulan, penulis harus dan hanya
menjawab masalah dan tujuan penelitian yang telah dirumuskan pada
Pendahuluan. Simpulan merupakan generalisasi dari hasil penelitian dan
argumentasi penulis, atau pernyataan singkat yang merupakan hakikat dari bab
Hasil dan Pembahasan atau hasil pengujian berbagai hipotesis yang berkaitan.
Simpulan merupakan hasil penelitian yang boleh jadi telah dikemukakan
dalam perumusan masalah dan telah diberi jawaban sementara berupa hipotesis.
Dalam menulis simpulan, penulis harus membedakan dugaan, temuan, dan
simpulan hasil studi. Pernyataan simpulan harus dilakukan secara cermat dan hati-
hati. Penyampaian simpulan ini dapat dilakukan sebanyak 3 kali, yakni dalam
Pembahasan, Simpulan, dan Abstrak sehingga diperlukan kecermatan untuk
menyajikannya dengan ungkapan yang berbeda-beda.

V.2 Saran
Saran seyogianya mengarah ke implikasi atau tindakan lanjutan yang harus
dilakukan sehubungan dengan temuan atau simpulan penulis. Saran yang
dikemukakan harus berkaitan dengan pelaksanaan atau hasil penelitian. Dengan
demikian saran ini mengemukakan hal-hal yang perlu diteliti lebih lanjut terutama
untuk memperbaiki kelemahan atau kekurangan dalam penelitian yang dilakukan
atau perbaikan asumsi yang diambil sehingga didapatkan hasil yang lebih baik.
Jadi, saran tersebut harus diuraikan secara spesifik. Jangan menyarankan hal-hal
yang tidak dianalisis dan dibahas dalam penelitian serta terkesan menggurui atau
memuaskan keinginan peneliti. Untuk penelitian yang berkaitan dengan
permasalahan kebijakan, tidak perlu menyarankan kebijakan yang tidak berkaitan
dengan hasil penelitian.
3

DAFTAR PUSTAKA

Agarwal S. 2014. Data mining: Data mining concepts and techniques.


Cao F, Liang J, Li D, Bai L, Dang C. 2012. Knowledge-Based Systems A
dissimilarity measure for the k -Modes clustering algorithm. Knowledge-
Based Syst. 26:120–127. doi:10.1016/j.knosys.2011.07.011.
Devika R, Revathy S, Sai Surriya Priyanka U, Subramaniya Swamy V. 2018.
Survey on clustering techniques in Twitter data. Proc 2nd Int Conf Comput
Methodol Commun ICCMC 2018. 5(2):1073–1077.
doi:10.1109/ICCMC.2018.8487969.
Gan G, Ma C, Jianhong W. 2007. Data Clustering Theory, Algorithms, and
Applications. Virginia (US).
Huang Z. 1998. Extensions to the k-Means Algorithm for Clustering Large Data
Sets with Categorical Values. Data Mining and Knowledge Discovery 2,
283-304. Data Min Knowl Discov. 2(3):283–304.
https://www.researchgate.net/publication/220451944_Huang_Z_Extensions_
to_the_k-
Means_Algorithm_for_Clustering_Large_Data_Sets_with_Categorical_Valu
es_Data_Mining_and_Knowledge_Discovery_2_283-304.
Irani J, Pise N, Phatak M. 2016. Clustering Techniques and the Similarity
Measures used in Clustering: A Survey. Int J Comput Appl. 134(7):9–14.
doi:10.5120/ijca2016907841.
Kadhim AI, Cheah YN, Ahamed NH. 2015. Text Document Preprocessing and
Dimension Reduction Techniques for Text Document Clustering. Proc -
2014 4th Int Conf Artif Intell with Appl Eng Technol ICAIET 2014., siap
terbit.
Kaur S, Chaudhary S, Bishnoi N. 2015. A Survey : Clustering Algorithms in Data
Mining. Int J Comput Appl. 3(7):12–14.
Shih MY, Jheng JW, Lai LF. 2010. A two-step method for clustering mixed
categroical and numeric data. Tamkang J Sci Eng. 13(1):11–19.

A. I. Kadhim, Y. Cheah and N. H. Ahamed, "Text Document Preprocessing and


Dimension Reduction Techniques for Text Document Clustering," 2014 4th
International Conference on Artificial Intelligence with Applications in
Engineering and Technology, pp. 69-73, 2014.
Langgeni
Srividhya, V., Anitha, R.: Evaluating Preprocessing Techniques in Text
Categorization. Int. J. Comput. Sci. Appl. 49–51 (2010)

Agarwal S. 2014. Data mining: Data mining concepts and techniques.


Cao F, Liang J, Li D, Bai L, Dang C. 2012. Knowledge-Based Systems A
dissimilarity measure for the k -Modes clustering algorithm. Knowledge-
Based Syst. 26:120–127. doi:10.1016/j.knosys.2011.07.011.
Devika R, Revathy S, Sai Surriya Priyanka U, Subramaniya Swamy V. 2018.
Survey on clustering techniques in Twitter data. Proc 2nd Int Conf Comput
Methodol Commun ICCMC 2018. 5(2):1073–1077.
4

doi:10.1109/ICCMC.2018.8487969.
Gan G, Ma C, Jianhong W. 2007. Data Clustering Theory, Algorithms, and
Applications. Virginia (US).
Huang Z. 1998. Extensions to the k-Means Algorithm for Clustering Large Data
Sets with Categorical Values. Data Mining and Knowledge Discovery 2,
283-304. Data Min Knowl Discov. 2(3):283–304.
https://www.researchgate.net/publication/220451944_Huang_Z_Extensions_
to_the_k-
Means_Algorithm_for_Clustering_Large_Data_Sets_with_Categorical_Valu
es_Data_Mining_and_Knowledge_Discovery_2_283-304.
Irani J, Pise N, Phatak M. 2016. Clustering Techniques and the Similarity
Measures used in Clustering: A Survey. Int J Comput Appl. 134(7):9–14.
doi:10.5120/ijca2016907841.
Kadhim AI, Cheah YN, Ahamed NH. 2015. Text Document Preprocessing and
Dimension Reduction Techniques for Text Document Clustering. Proc -
2014 4th Int Conf Artif Intell with Appl Eng Technol ICAIET 2014., siap
terbit.
Kaur S, Chaudhary S, Bishnoi N. 2015. A Survey : Clustering Algorithms in Data
Mining. Int J Comput Appl. 3(7):12–14.
Shih MY, Jheng JW, Lai LF. 2010. A two-step method for clustering mixed
categroical and numeric data. Tamkang J Sci Eng. 13(1):11–19.

Bente AD, Rico-Hesse R. 2006. Model of dengue virus infection. Drug


Discov Today Dis Models. 3(1):97-103. doi: 10.1016/j.ddmod. 2006.03.014.
Bernardo L, Izquierdo A, Prado I, Rosario D, Alvarez M, Santana E, Castro
J, Martinez J, Rodriguez R, Morier L et al. 2008. Primary and secondary
infections of Macaca fascicularis monkey with Asian and American
genotypes of dengue virus 2. Clin Vaccine Immunol. 15(3): 439-446. doi:
10.1128/CVI.00208-07.
Kochel TJ, Watts DM, Gonzalo AS, Ewing DF, Porter KR, Russell KL.
2005. Cross-serotype neutralization of dengue virus in Aotus nancyme
monkeys. J Infect Dis. 191(6):1000-1004. doi:10.1086/427511.
Onlamoon N, Noisakran S, Hsiao HM, Duncan A, Villinger F, Ansari AA,
Perng GC. 2010. Dengue virus-induced hemorrhage in a nonhuman primate
model. Blood. 115(9):1823-1834. doi:10.1182/blood-2009-09-241990.
[WHO] World Health Organization. 2009. Dengue and dengue
haemorrhagic fever [internet]. [diacu 2009 Mei 6]. Tersedia dari:
http://www.who.int /mediacentre/ factsheets/ fs117/en/ index.html.
5

LAMPIRAN
6

Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan kimia tanah
dari 78 contoh tanah di Kebun Percobaan Ciheuleut

Sifat Rata-rata Simpangan baku


Pasir (%) 47.66 23.81
Lempung (%) 21.80 11.94
Liat (%) 30.72 18.09
C-organik (%) 0.61 0.57
Rapatan isi (mg m-3) 1.43 0.16
KTK (mek 100 g-1 tanah)a 18.08 17.09
KAT pada KL (g g-1) 23.62 10.80
KAT pada TLP (g g-1) 11.11 9.05
a
Banyaknya 70 contoh tanah; KTK: kapasitas tukar kation, KAT: kadar air tanah, KL:
kapasitas lapang, TLP: titik layu permanen.
7

Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat

Ketinggian Umur Indeks luas Hasil


(m dpl) (hari) daun (ton ha-1)
856 115 3.10 5.69
605 106 3.09 5.43
400 100 2.47 4.80
210 93 2.46 4.25
10 88 2.12 4.03
8

RIWAYAT HIDUP

Penulis dilahirkan di kota…. pada tanggal bulan tahun sebagai anak ke …


dari pasangan bapak … dan ibu … Pendidikan sarjana ditempuh di Program Studi
… , Fakultas … Universitas … , dan lulus pada tahun …. Pada tahun ..., penulis
diterima sebagai mahasiswa program magister (S-2) di Program Studi … pada
Sekolah Pascasarjana Universitas ... dan menamatkannya pada tahun .... (untuk
mahasiswa S-2). Kesempatan untuk melanjutkan ke program doktor pada program
studi … Sekolah Pascasarjana IPB diperoleh pada tahun ... dengan biaya
sendiri/beasiswa pendidikan pascasarjana yang diperoleh dari … (untuk
mahasiswa S-3).
Penulis bekerja sebagai … di … sejak tahun ... dan ditempatkan di ... dan
seterusnya (riwayat pekerjaan).
Selama mengikuti program S-2, penulis aktif menjadi ... (riwayat dan
pengalaman organisasi). Karya ilmiah berjudul … telah disajikan pada
seminar/simposium ... dan/atau dipublikasi di jurnal … (riwayat publikasi) .
Penulis juga pernah memperoleh atau pernah terpilih sebagai … (riwayat prestasi
akademik). Karya-karya ilmiah tersebut merupakan bagian dari program S-2/S-3
penulis.

Anda mungkin juga menyukai