G651180201 - Rizka Aulia

PENGELOMPOKAN MAKANAN TRADISIONAL
INDONESIA MENGGUNAKAN TWO-STEP METHOD FOR

CLUSTERING MIXED CATEGORICAL AND NUMERIC DATA
(TMCM) DAN K-PROTOTYPE
RIZKA AULIA
PROGRAM STUDI MAGISTER ILMU KOMPUTER

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2022
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis dengan judul “Pengelompokan

Makanan Tradisional Indonesia menggunkan Two-step Method for Clustering
Mixed Categorical and Numeric Data (TMCM) dan K-Prototype ” adalah karya
saya dengan arahan dari dosen pembimbing dan belum diajukan dalam bentuk apa
pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian
akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2022
Rizka Aulia
G651180201
RINGKASAN
RIZKA AULIA. Pengelompokan Makanan Tradisional Indonesia menggunakan
Two-step Method for Clustering Mixed Categorical and Numeric Data (TMCM)
dan K-Prototype. Dibimbing oleh ANNISA dan TAUFIK DJATNA.
Makanan tradisional merupakan makanan dan minuman yang berkembang

di suatu daerah yang diolah menggunakan bahan – bahan lokal yang dilakukan
secara turun temurun sehingga mempunyai cita rasa yang khas. Ketika wisatawan
mengunjungi suatu daerah wisata, maka secara tidak langsung wisatawan akan
mencari makanan khas daerah tersebut. Makanan tradisional Indonesia memiliki
kemiripan yaitu penggunaan bumbu rempah-rempah hampir disetiap masakan.
Penggunaan rempah-rempah tersebut disebabkan karena rempah-rempah tumbuh
hampir diseluruh wilayah Indonesia.
Setiap wilayah di Indonesia memiliki makanan khas atau makanan
tradisional sendiri. Sehingga dibutuhkannya pengelompokan makanan tradisional
untuk mengetahui karakteristik makanan Indonesia. Metode pengelompokan
(clustering) merupakan metode yang mengelompokan atribut atau objek yang
sama kedalam satu kelompok atau grup. Metode clustering biasanya berfokus
hanya pada data numerik atau hanya pada data ketegorik. Tetapi, pada penelitian
ini data yang digunakan yaitu data numerik dan data kategorik (campuran).
Penelitian ini membandingkan dua metode clustering untuk data campuran
yaitu Two-Step Method for Clustering Mixed Categorical and Numeric Data
(TMCM) dan metode K-prototype.
Hasil perhitungan diperoleh nilai entropy metode K Prototype sebesar 2.1983
sedangkan nilai entropy metode TMCM sebesar 2.1955. Perbedaannya sangat
tipis. Berdasarkan perbandingan hasil entropy, metode penggerombolan dengan
TMCM memiliki nilai entropy terkecil. Dengan demikian dapat disimpulkan
metode TMCM lebih memberikan hasil optimal dalam melakukan
penggerombolan pada data. Jumlah cluster yang hasilkan menggunkana metode
TMCM yaitu sebanyak 5 cluster. Jumlah anggota cluster 1 sebanyak 3 anggota,
cluster 2 sebanyak 12 anggota, cluster 3 sebanyak 13 anggota, cluster 4 sebanyak
12 anggota, cluster 5 sebanyak 14 anggota.
Kata kunci: cluster, data campuran, makanan tradisional, k-prototype, TMCM

SUMMARY
RIZKA AULIA. Clustering of traditional Indonesian food using a two-step
method for clustering mixed categorical and numerical data (TMCM) and K-
prototype. Supervised by ANNISA and TAUFIK DJATNA.
Traditional food is food and drink that develops in an area that is processed
using local ingredients that have been passed down from generation to generation
so that it has a distinctive taste. When tourists visit a tourist area, they will
indirectly look for the typical food of the area. Traditional Indonesian food has
similarities, namely the use of spices in almost every dish. The use of spices is
due to the fact that spices grow in almost all parts of Indonesia.
Each region in Indonesia has its own special food or traditional food. So, it
is necessary to classify traditional foods to determine the characteristics of
Indonesian food. The clustering method is a method that groups the same
attributes or objects into one group or group. Clustering methods usually focus
only on numeric data or only on categorical data. However, in this study the data
used are numerical data and categorical data (mixed).
This study compares two clustering methods for mixed data, namely the
two-step method for clustering mixed categorical and numerical data (TMCM)
and the K-prototype method.
The results of the calculation showed that the entropy value of the K
prototype method was 2.1983 while the entropy value of the TMCM method was
2.1955. The difference is very subtle. On the basis of the comparison of entropy
results, the clustering method with TMCM has the smallest entropy value. Thus, it
can be concluded that the TMCM method provides optimal results in clustering
the data. The number of clusters generated using the TMCM method is 5 clusters.
The number of members of cluster 1 is 3 members, cluster 2 is 12 members,
cluster 3 is 13 members, cluster 4 is 12 members, cluster 5 is 14 members
Keywords: cluster, mixed data, traditional food, k-prototype, TMCM

© Hak Cipta milik IPB, tahun 2022
Hak Cipta dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa

mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk
kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan,
penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak
merugikan kepentingan IPB.
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya
tulis ini dalam bentuk apa pun tanpa izin IPB.
PENGELOMPOKAN MAKANAN TRADISIONAL
INDONESIA MENGGUNAKAN TWO-STEP METHOD FOR
CLUSTERING MIXED CATEGORICAL AND NUMERIC DATA
(TMCM) DAN K-PROTOTYPE
RIZKA AULIA
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister pada
Program Studi Magister Ilmu Komputer
PROGRAM STUDI MAGISTER ILMU KOMPUTER

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2022
Tim Penguji pada Ujian Tesis:
1 Nama lengkap dan gelar
2 Nama lengkap dan gelar
Judul Tesis : Pengelompokan Makanan Tradisional Indonesia menggunakan
Two-step Method for Clustering Mixed Categorical and Numeric
Data (TMCM) dan K-Prototype
Nama : Rizka Aulia
NIM : G651180201
Disetujui oleh
Pembimbing 1:
__________________
Dr. Eng. Annisa, S.Kom, M.Kom
Pembimbing 2:
__________________
Prof. Dr. Eng. Taufik Djatna, S.T.P., M.Si
Diketahui oleh
Ketua Program Studi:

Prof. Dr. Imas Sukaesih Sitanggang, S.Si, M.Kom __________________
NIP 19750130 199802 2 001
Dekan Pascasarjana :
Prof. Dr. Ir. Anas Miftah Fauzi, M.Eng __________________
NIP 19600419 198503 1 002
Tanggal Ujian: Tanggal Lulus:

(tanggal pelaksanaan ujian) (tanggal penandatanganan oleh Dekan
Fakultas/Sekolah …)
PRAKATA
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa yang telah
memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya
tulis yang berjudul “Pengelompokan Makanan Tradisional Indonesia
menggunakan Two-step Method for Clustering Mixed Categorical and Numeric
Data (TMCM) dan K-Prototype”. Karya tulis ini ditulis sebagai salah satu syarat
untuk memperoleh gelar akademik Magister Ilmu Komputer pada program studi
Ilmu Komputer di Institut Pertanian Bogor (IPB).
Penulisan karya tulis ini tidak lepas dari dukungan, doa, bimbingan, serta
bantuan dari berbagai pihak. Oleh Karena itu, pada kesempatan ini penulis
mengucapkan rasa terima kasihnya kepada:
1. Ibu Dr. Eng. Annisa, S.Kom, M.Kom dan Bapak Prof. Dr. Eng. Taufik
Djatna, S.T.P., M.Si selaku komisi pembimbing dari penulis yang
senangtiasa sabar dalam memberika arahan, bimbingan, serta motivasi
kepada penulis.
2. Seluruh dosen pascasarjana Departemen Ilmu Komputer IPB yang telah
banyak memberikan ilmu yang bermanfaat selama penulis menuntut
ilmu di IPB.
3. Kedua orang tua, serta seluruh keluarga yang telah memberikan doa
serta dukungan penuh bagi penulis sehingga dapat menyelesaikan
pendidikan pascasarjananya.
4. Seluruh staf tata usaha Departemen Ilmu Komputer IPB yang telah
membantu menyelesaikan semua proses administrasi yang dibutuhkan
oleh penulis.
5. Teman-teman seperjuangan pascasarjana Ilmu Komputer 2018 yang
selalu memberikan bantuan disaat diperlukan.
Semoga karya tulis ini dapat bermanfaat bagi banyak pihak. Penulis mohon
maaf atas segala kekurangan dan kesalahan dalam penulisan karya tulis ini.
Semoga Tuhan YME selalu memberikan rahmat dan karunia-Nya bagi kita
semua. Aamin.
Bogor, Juli 2022
Rizka Aulia
DAFTAR ISI
DAFTAR TABEL iii

DAFTAR GAMBAR iii
DAFTAR LAMPIRAN iii
I PENDAHULUAN 3
1.1 Latar Belakang 3
1.2 Rumusan Masalah 3
1.3 Tujuan 3
1.4 Manfaat 3
1.5 Ruang Lingkup (opsional) 3
1.6 Hipotesis (opsional) 3
II TINJAUAN PUSTAKA (OPSIONAL) 3
2.1 Contoh Subbab 3
2.2 Contoh Subbab2 3
III METODE 3
3.1 Waktu dan Tempat Penelitian 3
3.2 Alat dan Bahan 3
3.3 Prosedur Kerja 3
3.4 Analisis data 3
IV HASIL DAN PEMBAHASAN 3
4.1 Judul Subbab 3
4.2 Judul Subbab 3
4.3 Judul Subbab 3
4.4 Judul Subbab 3
V SIMPULAN DAN SARAN 3
5.1 Simpulan 3
5.2 Saran 3
DAFTAR PUSTAKA 3
LAMPIRAN 3
RIWAYAT HIDUP 3
DAFTAR TABEL
1 Tingkat kekerasan dan kandungan gula buah pisang ambon pada suhu
simpan yang berbeda dan pemberian putresina
2 Tingkat kekerasan buah pisang raja pada suhu simpan yang berbeda
dan pemberian putresina
DAFTAR GAMBAR
DAFTAR LAMPIRAN
1 Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan
kimia tanah dari 78 contoh tanah di Kebun Percobaan Ciheuleut
1 Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat 3
14
I PENDAHULUAN
I.1 Latar Belakang

Indonesia merupakan negara yang telah diakui sebagai laboraturium budaya
terbesar didunia karena memiliki keberagaman budaya, adat istiadat serta terdiri
dari lebih 300 suku bangsa dan 742 bahasa daerah (Kementerian Pariwisata dan
Ekonomi Kreatif 2020). Dengan keberagaman budaya dan keindahan alam dapat
digunakan untuk mengembangkan sektor pariwisata. Pariwisata merupakan
kegiatan untuk mendatangi wisata budaya disuatu daerah yang dilakukan secara
perorangan atau berkelompok, untuk mendapatkan kepuasan akan sesuatu
(Suwastoro 2004). Wisata budaya dikelompokan menjadi tiga bagian yaitu wisata
warisan budaya dan sejarah, wisata desa dan kota serta wisata kuliner dan belanja
(Palupi dan Fitri 2019).
Wisata kuliner memiliki peranan penting dalam pariwisata. Dibuktikan
dengan data dari Kementrian Wisata dan Ekonomi Kreatif (Kemenparekraf) tahun
2020, kuliner merupakan sub sektor penyumbang terbesar Produk Domestik Bruto
(PDB) sebesar 44.40% pertahun dari PDB ekonomi kreatif (Kemenparekraf
2022). Wisata kuliner selalu berkaitan erat dengan makanan dan minuman
tradisional suatu daerah. Makanan tradisional merupakan makanan dan minuman
yang berkembang di suatu daerah yang diolah menggunakan bahan – bahan lokal
yang dilakukan secara turun temurun sehingga mempunyai cita rasa yang khas
(Fadiaz 1998). Ketika wisatawan mengunjungi suatu daerah wisata, maka secara
tidak langsung wisatawan akan mencari makanan khas daerah tersebut.
Terkadang, wisatawan bertanya dengan penduduk lokal untuk mengetahui
makanan khas serta restoran yang menyajikan makanan dengan cita rasa khas dan
otentik. Selain itu, makanan tradisional dapat digunakan sebagai praktik budaya
untuk membedakan antara daerah wisata satu ke daerah wisata yang lain.
Perbedaan budaya dapat dilihat dari bahan dasar yang digunakan dalam
makanan, proses pengolahan makanan, cita rasa makanan, kebiasaan dalam cara
penyajian, serta alat dan bahan yang digunakan (Hegarty dan Barry O’Mahony
2001). Bahan dasar suatu makanan dipengaruhi oleh letak atau lokasi darimana
makanan itu berasal. Misalnya wilayah yang terletak di pegunungan bahan
makanan utamanya yaitu sayur-sayuran dan ikan air tawar, sedangkan untuk
daerah pesisir pantai bahan utama makanannya yaitu ikan laut. Walaupun lokasi
mempengaruhi bahan utama makanan suatu daerah, hampir semua makanan
tradisional Indonesia menggunakan rempah- rempah. Rempah – rempah dikenal
sebagai jantung masakan Indonesia. Rempah – rempah menjadi bumbu utama dari
makanan Indonesia karena rempah – rempah tumbuh hampir di seluruh wilayah
Indonesia (Hakim 2015). Rempah merupakan bagian tumbuhan yang berfungsi
sebagai penguat rasa, bumbu dan pengawet makanan (Duke et al. 2002).
Penggunaan rempah – rempah sebagai bumbu dibagi menjadi dua yaitu rempah
basah dan rempah kering. Rempah basah atau biasa disebut bumbu basah seperti
bawang merah, bawang putih, kunyit, jahe, cabai dan sebagainya (Von Holzen
dan Arsana 2006) . Rempah kering (bumbu kering) seperti ketumbar, merica,
pala, jinten dan cengkeh. Lalu rempah segar dan rempah halus akan dicampur
menjadi satu dengan cara dihaluskan atau diiris untuk di jadikan bumbu utama
sebagai penyedap rasa makanan (Alamansyah 2008).
15
Penggunan rempah – rempah sebagai bumbu utama menyebabkan

kemiripan bumbu dan bahan (resep) dalam masakan Indonesia. Perbedaanya
terletak dari seberapa banyak bahan yang digunakan sehingga menghasilkan rasa
yang berbeda. Penggunaan bumbu rempah – rempah serta bahan pelengkap yang
lain menghasilkan kombinasi rasa pedas, manis, gurih, asam dan asin yang khas
(Wijaya 2019). Misalkan wilayah Sumatera Barat menggunakan lebih banyak
rempah cabai sehingga menciptakan rasa dominan pedas (Lipoeto et al. 2001).
Sedangkan wilayah Jawa Tengah menggunakan rempah cabai lebih sedikit, atau
hanya sebagai bumbu pelengkap sehingga menciptakan rasa makanan dominan
manis (Wijaya 2019).
Setiap wilayah di Indonesia memiliki makanan khas atau makanan
tradisional sendiri. Sehingga dibutuhkannya pengelompokan makanan tradisional
untuk mengetahui karakteristik makanan. Metode pengelompokan (clustering)
merupakan metode yang mengelompokan atribut atau objek yang sama kedalam
satu kelompok atau grup. Clustering bertujuan untuk menghimpun data yang
memiliki kesamaan dalam satu grub dan data yang memiliki perbedaan dihimpun
dalam grub yang lainnya (Gan et al. 2007). Terdapat dua metode clustering yaitu
hierarchical clustering dan partition clustering. Hierarchical clustering
merupakan metode pengelompokan dengan membentuk struktur pohon.
Sedangkan, partition clustering merupakan teknik cluster yang membagi titik
data menjadi k-partition, dimana setiap partisi mewakili sebuah cluster (Kaur et
al. 2015).
Penelitian da Silva Torres et al. (2006) dan Phanich et al. (2010)
menggunakan metode clustering berdasarkan data makanan. Pada penelitian da
Silva Torres et al. (2006), mengumpullkan data makanan yang dijual di restoran
dan menerapkan algoritme Hierarchical Clustering Agglomerative (HAC) untuk
mengelompokan makanan berdasarkan nilai gizinya. Sedangkan, pada penelitian
Phanich et al. (2010) nilai gizi pada makanan Thailand digunakan untuk
mengelompokan makanan yang baik bagi penderita diabetes. Algoritme K-means
diterapkan pada pengelompokan tersebut.
Data makanan tidak hanya kadungan gizi yang dapat diolah dalam
pengelompokan makanan. Tetapi, cara pembuatan makanan atau resep makanan
dapat digunakan untuk menggali informasi makanan tersebut. Nadamoto et al.
(2016) menggunakan data resep dari situs resep online untuk mengelompokan
resep yang serupa atau mirip berdasarkan bahan baku utama dan bumbu utama.
Sedangkan, pada penelitian Sharma et al. (2020) menggunakan data resep
makanan dengan melakukan pengelompokan agar mengetahui ciri khas bahan
makanan yang biasa digunakan pada setiap negara. Penelitian – penelitian tersebut
hanya mempertimbangkan data numerik pada proses pengelompokan. Padahal
pada penerapananya data tidak hanya bersifat numerik tetapi juga kategorik.
Pengelompokan data resep makanan tradisional Indonesia telah dilakukan
oleh Indriani dan Budiman (2017). Pada penelitian tersebut melakukan
pengelompokan untuk mengetahui jenis makanan yang paling banyak di upload
oleh pengguna pada situs sharing recipe. Pengelompokannya berdasarkan bahan
makanan dan hanya berfokus pada data kategorik. Sedangkan, menurut Wijaya
(2019) bahan makanan atau resep masakan tradisonal Indonesia memiliki
kemiripan karena bumbu utamanya yaitu rempah-rempah. Serta, yang
membedakannya adalah komposisi penggunaan dari rempah tersebut. Sehingga,
16
pada penelitian ini data yang digunakan tidak hanya bahan makanan tetapi
menambahkan atribut tingkatan rasa. Atribut tingkatan rasa ditambahkan untuk
mengetahui cita rasa khas makanan pada suatu daerah. Pada penelitian ini juga
akan menggunakan atribut numerik dan kategorik campuran untuk
pengelompokan makanan tradisional Indonesia.
Metode pengelompokan untuk data campuran yang paling banyak
digunakan yaitu K-prototype. K-prototype merupakan metode yang dikembangkan
dari kedua metode pendahulunya yaitu metode K-means yang digunakan untuk
data numerik dan metode K-modes yang digunakan untuk data kategorik. Kedua
metode tersebut digabungkan untuk memproses data campuran. Penerapan metode
K-prototype lebih sederhana dan lebih baik dibandingkan metode clustering
lainnya yang berbasis hierarki (Huang 1998). Adapun metode lain yang dapat
digunakan untuk memproses data campuran yaitu Two-Step Method for
Clustering Mixed Categorical and Numeric Data (TMCM).
TMCM merupakan sebuah metode pengelompokan dua langkah yang
digunakan untuk data numerik dan kategoris campuran dengan memperhatikan
ada hubungan antara item kategoris. Shih et al. (2010) melakukannya
Pengelompokan data dari Survei Prevalensi Kontrasepsi Nasional Indonesia tahun
1987 menggunakan K-prototype, Two Step Cluster, dan TMCM. Rosdiana (2014)
melakukan penelitian yang hampir sama yaitu membandingkan hasil
pengelompokan tanaman obat dengan metode Two Step Cluster dan TMCM.
Nurul Istiqomah (2015) melakukan penelitian penggerombolan kabupaten/kota
berdasarkan faktor stunting pada bayi dengan metode TMCM. Ketiga studi
menyimpulkan bahwa hasil pengelompokan menggunakan TMCM lebih baik
daripada metode yang lain dipelajari. Keuntungan TMCM dibandingkan metode
lain adalah transformasi. Variabel kategori dilakukan berdasarkan teori co-
occurrence.
Penelitian ini menerapkan metode TMCM dan K-prototype untuk
mengelompokan makanan daerah Indonesia berdasarkan faktor bahan makanan
serta tingkatan rasa untuk mengetahui metode terbaik dalam mengelompokkan
data makanan tradisional Indonesia yang memiliki skala pengukuran numerik dan
kategoris.
I.2 Rumusan Masalah

Berdasarkan latar belakang di atas maka rumusan masalah yang menjadi
tantangan riset pada penelitian ini adalah:
1. Bagaimana membandingkan antara metode Two-step Method for
Clustering Mixed Categorical and Numeric Data (TMCM) dan K-
prototype sebagai metode clustering untuk mengelompokkan makanan
tradisional yang memiliki kemiripan bahan dasar dan tingkatan rasa?
2. Bagaimana gambaran visualisasi Provinsi dengan pengelompokan
makanan tradisional di Indonesia?
I.3 Tujuan
Berdasarkan permasalahan tersebut, tujuan dari penelitian ini dapat
diuraikan sebagai berikut:
1. Menerapkan metode Two-step Method for Clustering Mixed Categorical
and Numeric Data (TMCM) dan K-prototype untuk pengelompokan
17
makanan tradisional Indonesia berdasarkan bahan dan bumbu, serta

tingkatan rasa makanan untuk mengetahui jenis makanan yang memiliki
karakteristik yang sama.
2. Melakukan analisis hasil cluster untuk mengetahui karakteristik
makanan.
I.4 Manfaat
Hasil dari penelitian ini dapat dimanfaatkan untuk bidang kuliner, untuk
mengetahui karakteristik makanan tradisional Indonesia berdasarkan bahan dan
bumbu yang digunakan serta tingkatan rasa makanan. Penelitian ini juga dapat
memberikan informasi mengenai kemiripan rasa makanan antar daerah Indonesia.
I.5 Ruang Lingkup

Penelitian ini memiliki batasan ruang lingkup, batasan ruang lingkup
penelitian ini adalah:
1 Data makanan yang digunakan merupakan data hasil kusioner yang berasal
dari 17 provinsi di Indonesia dengan data yang terdiri dari data numerik dan
kategorik.
2 Data yang digunakan yaitu data bumbu dan bahan serta tingkat rasa
makanan.
18
II TINJAUAN PUSTAKA
II.1 Makanan Tradisional Indonesia

Makanan tradisional merupakan makanan dan minuman yang berkembang
di suatu daerah yang diolah menggunakan bahan – bahan lokal yang dilakukan
secara turun temurun sehingga mempunyai cita rasa yang khas (Fadiaz 1998). Ciri
– ciri masakan tradisional menurut Trichopoulou et al (2006) yaitu bahan baku
yang digunakan menggunakan bahan lokal daerah tersebut, resep telah di turunkan
secara turun temurun, pengolahan atau proses memasak secara tradisional dan
masih diterapkan sampai saat ini. Karakteristik makanan tradisional Indonesia
sangat dipengaruhi oleh kondisi alam dan budaya. Bumbu dasar masakan
Indonesia terdiri dari aneka bahan segar dan rempah. Bumbu segar yang umum
digunakan seperti bawang merah, bawang putih, kunyit, lengkuas, serai dan cabai.
Sedangkan rempah – rempah yang digunakan seperti merica, ketumbar, jinte, pala
dan cengkeh. Rempah – rempah dan bahan segar digunakan sebagai bumbu untuk
penyedap makanan (Prince 2009).
II.2 Praproses Data Kategorikal
II.2.1 Praproses Data

Praproses data merupakan bagian dari data mining untuk mengolah data
tidak terstruktur menjadi data terstuktur (Kadhim et al. 2015). Berikut metode
praproses data yang digunakan pada penelitian ini:
1. Tokenisasi
Tokenisasi merupakan proses pemisahan teks menjadi kata, frasa atau
elemen yang mempunyai makna (Srividhya et al.2010).
2. Case Folding
Case Folding bertujuan untuk mengubah huruf kapital menjadi huruf
kecil (lower case) (Langgeni 2010).
3. Menghapus Stopword
Mengapus stopword yaitu menghapus kata penghubung yang terdapat
pada teks, seperti ke, di, dari, yang dan seterusnya.
4. Penyeragaman istilah
Pada tahapan ini membuat kamus secara untuk menyeragaman istilah.
5. Menghapus angka dan tanda baca
Tahapan ini menghapus angka dan tanda baca yang tidak relevan untuk
analisis.
II.3 Clustering
Clustering merupakan teknik pembelajaran tanpa pengawasan
(unsupervied) yang bertujuan mengelompokkan sekumpulan objek ke dalam
cluster. Objek dalam cluster yang sama memiliki kemiripan satu sama lain,
sedangkan objek pada suatu cluster memiliki ketidakmiripan dengan cluster yang
lainnya (Irani et al. 2016). Clustering memiliki dua metode yaitu, hierarchical
clustering dan partition clustering. Hierarchical clustering merupakan metode
pengelompokan dengan membentuk struktur pohon (Kaur et al. 2015). Metode
19
hierarchical clustering dibedakan menjadi dua yaitu agglomerative dan divisive.

Metode agglomerative merupakan pengelompokan yang dimulai dengan satu titik
cluster dan secara rekursif menggabungkan dua atau lebih cluster yang memiliki
kemiripan. Metode divisive diawali dengan satu cluster yang berisi semua objek
dan objek dengan nilai ketidakmiripan tertinggi dipisahkaan dari cluster tersebut.
Proses dilakukan secara berulang dan akan berhenti ketika mencapai kriteria yang
ditetapkan (Devika et al. 2018). Partition clustering merupakan teknik cluster
yang membagi titik data menjadi k-partition, dimana setiap partisi mewakili
sebuah cluster. Metode partisi dilakukan secara berulang untuk meningkatkan
kinerja pengelompokan dengan memindahkan titik data dari satu cluster ke
cluster lainnya (Kaur et al. 2015).
II.4 Ukuran Kemiripan

Metode clustering pada dasarnya menggunakan ukuran kemiripan
(similarity) atau ketidaksamaan (disimilarity) antar objek. Pada clustering ukuran
kemiripan atau ketidakmiripan yang digunakan yaitu jarak antar objek dan jarak
antar gerombol (Cao et al. 2012). Fungsi jarak yang umum digunakan yaitu jarak
Euclidean, jarak Manhattan, jarak tipe data kategorik, jarak tipe campuran.
Jarak Euclidean
Pada metode clustering fungsi jarak yang paling sering digunakan yaitu
jarak Euclidean. Salah satu metode clustering yang menerapkannya adalah
metode k-means. Jarak euclidean hanya dapat diterapkan pada data bertipe
numerik (kontinu). Jarak euclidean merupakan jarak antar objek ke-i dan ke-j
dengan p merupakan jumlah data (Agarwal 2014). Persamaan (1) menunjukan
jarak Euclidean:
√ 2 2
d ( i, j ) = ( xi 1 + x j 1 ) + ( x i 2+ x j2 ) + …+ ( x ip + x jp )
2
(1)
dengan:
d ( i, j ) =¿ jarak antara i dan j
i=¿ ( x i 1 , x i 2 , … , x ip )
j=¿ ( x j 1 , x j 2 , … , x jp )
p=¿ jumlah data
Jarak Manhattan
Jarak Manhattan merupakan metrik jarak yang menghitung perbedaan
absolut antara pasangan koordinat objek data. Jarak Manhattan dikenal dengan
sebutan city block distance karena menghitung jarak dalam blok antara dua objek
pada suatu kota. Seperti halnya jarak Euclidean, jarak manhattan hanya dapat
digunakan pada data numerik (kontinu) (Agarwal 2014). Perhitungan jarak
Manhattan ditunjukan pada persamaan (2):
m
(2)
d ij =∑ |x ik −x jk|
k=1
dengan:
20
d ij = jarak manhattan antara objek ke-i dengan objek ke-j

m = jumlah data
x ik = nilai atau data dari objek ke-i pada atribut ke-k
x jk = nilai atau data dari objek ke-j pada atribut ke-k
Jarak Tipe Data Kategorik (Simple Matching)

Metode k-modes memperluas paradigma metode k-means pada clustering
data kategorik dengan menggunakan ukuran jarak pencocokan sederhana
(simple matching) untuk objek kategorik. Metode k-modes berbasis frekuensi
untuk memperbarui modus pada fungsi k-means untuk meminimalkan biaya
komputasi. Ukuran jarak simple matching dilakukan dengan mengukur jarak
antar dua objek. Pengukuran jarak dilakukan dengan memberikan nilai 0 dan 1.
Nilai 0 untuk objek dengan nilai sama, sedangkan nilai 1 untuk kedua objek
berbeda. Objek dikatakan mirip jika nilai yang dihasilkan semakin kecil, begitu
juga sebaliknya (Huang 1998). Perhitungan jarak pada data kategorik (simple
macthing) (Huang 1998) sebagai berikut:
p
(3)
d ( X , Y ) =∑ δ ( x j , y j )
j=1
dengan:
d ( X ,Y ) = jarak antar 2 objek dengan p merupakan atribut kategorik
δ ( x j , y j )¿
Jarak Tipe Data Campuran

Ukuran jarak untuk data numerik dan kategorik (campuran) yaitu dengan
menggabungkan ukuran jarak tipe data numerik (jarak euclidean) Persamaan (1)
dikuadratkan dan menambahkan koefisien gamma γ yang dikalikan dengan jarak
tipe kategorik (Persamaan (3)) (Huang 1998).
n q
(4)
d 2 ( X ,Y )=∑ δ ( x j− y j ) + γ ∑
2
δ (x j , y j )
j=1 j=n+1
dengan:
d 2 ( X ,Y ) = jarak antar objek X dan Y (data campuran)
n
∑ δ ( x j − y j )2 = jarak pada tipe data numerik

j=1
q
∑ δ (x j , y j) = jarak pada tipe data kategorik

j =n+1
γ = parameter penimbang.
Jarak Cosine
Jarak cosine merupakan jarak yang paling sering digunakan untuk ngukur
kemiripan antar dokumen atau data teks. Semakin kecil nilai yang dihasil maka
21
semakin dekat jarak kedua vector. hal ini dapat diartikan bahwa dokumen
tersebut. Sebaliknya semkin besar nilai yang dihasil maka, semakin tidak
miripnya dokumen tersebut. Perhitungan jarak antara dokumen ( p ) dan query ( q )
dengan menghitung kemiripan cosine dari representasi V ( pi ) vektor dokumen dan
vektor query ( q ) (Manning et al. 2009). Dibawah ini persamaan jarak cosine:
V ( q ) .V ( pi ) (5)
d ( q , pi )=1−
|V ( q )|∗|V ( pi )|
dimana:
V ( q) . V ( pi ) = perkalian dalam antara vektor query dan dokumen;
|V ( q )|∗|V ( pi )| = perkalian ukuran jarak antara vektor query dan dokumen.
Jarak Levenshtein
Jarak Levenshtein adalah perhitungan jumlah perubahan yang digunakan
untuk merubah sebuah string sehingga memperoleh string yang lain(Manning et
al. 2009). Jarak Levenshtein antara dua string dapat diartikan sebagai jumlah
terkecil yang diperlukan untuk merubah satu string ke string lainnya dengan
beberapa cara misalnya penyisipan, penghapusan, dan pergantian karakter
tunggal. Berikut persamaan jarak Levenshtein (Manning et al. 2009):
¿=1− ( MaxLength
dis
) (6)
dimana:
sim = nilai kemiripan;
dis = jarak jarak Levenshtein;
MaxLengh = nilai maksimum string.
II.5 Two-step Method for Clustering Mixed Categorical and Numeric

data
Two-step Method for Clustering Mixed Categorical and Numeric Data
(TMCM) merupakan metode dua-langkah untuk mengelompokan data numerik
dan data kategorik (data campuran). Pada metode ini data dari atribut kategorik
diproses untuk membangun hubungan atau kesamaan berdasarkan prinsip co-
occurrence. Co-occurrence merupakan sebuah gagasan untuk mengetahui
pasangan data yang mempunyai kategori sama dan muncul secara bersamaan
dalam sebuah objek. Berdasarkan prinsip co-occurrence semua data pada atribut
kategorik dapat diubah menjadi atribut numerik, sehingga mempermudah dalam
proses pengelompokan data pada dataset. Metode ini juga mengintegrasikan
dengan algoritme pengelompokan hierarchical agglomerative cluster (HAC) dan
K-means sebagai objek untuk mengahasilkan pengelompokan yang optimal (Shih
et al. 2010).
Pada metode TMCM langkah pertama yang dilakukan yaitu membaca
masukan data selanjutnya, nilai dari atribut numerik dinormalisasikan dalam
rentang nilai nol dan satu. Normalisasi dilakukan untuk menghindari nilai atribut
yang besar akan mendominasi hasil clustering. Atribut kategorik dengan kategori
terbanyak akan menjadi atribut dasar, kategori yang terdapat di atribut dasar
22
disebut kategori dasar. Setelah penentuan aribut dasar, langkah selanjutnya

membentuk matrik M dengan menghitung frekuensi co-ccurrence setiap kategori.
Matrik M merupakan matrik dengan ukuran b x b, b merupakan jumlah kategori
pada semua atribut kategorik (Shih et al. 2010). Kemunculan setiap kategori
mempengaruhi pembentukan matrik M. Berikut merupakan pembentukan matrik
M:
[ ]
m 11 ⋯ m1 b (7)
M= ⋮ ⋱ ⋮
m b1 … m bb
mtu t=u merupakan jumlah kemunculan kategori t pada atribut tertentu;
mtu t ≠ u merupakan jumlah kemunculan kategori t kategori u dalam observasi
yang sama;
Jika t dan u adalah kategori pada atribut yang sama maka mtu =0 .
Setelah frekuensi co-occurrence tersedia, kesamaan antar mereka dapat
dihitung dengan persamaan berikut:
|m(t ,u)| (8)

D tu =
|m(t )|+|m( u)|−|m(t ,u)|
m(t) merupakan kumpulan objek yang mengandung kategori t ;
m(u) merupakan kumpulan objek yang mengandung kategori u ;
m(t ,u) merupakan kumpulan objek yang mengandung kategori t dan u.
Langkah selanjutnya yaitu memasukan nilai numerik pada kategori dasar.

Proses ini diawali dengan menemukan atribut numerik yang memiliki ragam
terkecil dan menetukan rata – rata nilai atribut numerik pada setiap kategori dasar.
Kategori dasar telah diubah menjadi nilai numerik, sehingga kategori lainnya
dapat ditentukan dengan menggunakan persamaan berikut:
d
(9)
F ( x )=∑ ai v i
i=1
d merupakan banyaknya kategori dasar;

a i merupakan kemiripan antara kategori x dan pada kategori dasar ke-i;
vi merupakan nilai yang diukur dari kategori dasar ke-i.
Tahapan terakhir dari TMCM yaitu clustering. Seluruh nilai dalam set dat
berisikan nilai numerik sehingga fungsi jarak yang berlaku pada algorime
clustering dapat diterapakan dengan maksimal. Metode HAC (hierarchical
agglomerative cluster) dan K-means diterapkan.
II.6 Algoritme K-Prototype

Algoritme K-prototype merupakan algoritme yang digunakan pada data
bertipe numerik dan kategorik (campuran). Algoritme ini mengintegrasikan proses
23
k-means dan k-modes. Proses algoritme k-prototype mirip dengan algoritme k-

means hanya dan menambahkan pendekatan k-modes untuk memperbarui nilai
atribut kategorik (Huang 1998). Karena algoritme ini menggunakan proses
pengelompokan yang sama dengan k-means, sehingga mempertahankan efisiensi
algoritme k-means yang baik untuk data mining.
Ukuran jarak yang digunakan pada algoritme ini dapat dilihat pada
Persamaan (4). Terdapat parameter penimbang γ (gamma) yang digunakan
sebagai penyeimbang antara ukuran jarak untuk data bertipe numerik dengan
ukuran jarak bertipe kategorik (Huang 1998). Nilai koefisien γ didapatkan dari
jumlah atribut numerik, dan jumlah atribut kategorik, serta jumlah objek (n) yang
ada. Semakin kecil nilai koefisien γ menunjukan pengelompokan didominasi oleh
atribut numerik dan sebaliknya semakin besar nilai yang didapatkan maka
pengerombolan didominasi oleh atribut kategorik (Huang 1998).
Tahapan algoritme k-prototype menurut Gan et al. (2007) yaitu sebagai
berikut:
1. Tentukan jumlah cluster (k) yang akan dibentuk.
2. Tentukan pusat cluster yang dipilih secara acak dari dataset.
3. Hitung jarak menggunakan Persamaan (4) untuk semua set data dari
pusat cluster yang telah ditentukan pada tahap 2.
4. Penempatan objek untuk masuk dalam sebuah cluster ditentukan dari
nilai jarak minimum terhadap pusat cluster.
5. Setelah semua data set telah ditempatkan di cluster masing – masing,
hitung ulang pusat cluster dan selanjutnya menempatkan kembali semua
objek pada dataset ke dalam masing – masing cluster berdasarkan nilai
jarak dengan pusat cluster terbaru.
6. Proses akan berhenti ketika titik pusat cluster tidak mengalami
perubahan. Sebaliknya jika titik pusat cluster mengalami perubahan
ulangi dari tahap 2 sampai iterasi maksimum dan objek dalam cluster
tidak berpindah.
24
III METODE
III.1 Data Penelitian

Data penelitian diperoleh dari penyebaran kuisioner makanan yang
dilakukan di 21 kota yang kelompokan menjadi 17 provinsi di Indonesia.
Responden untuk kusioner yaitu pemilik restoran dan konsumen di masing –
masing kota yang telah ditentukan. Penyebaran kusioner untuk mengetahui resep
asli makanan khas daerah tersebut. Hasil dari penyebaran kusioner yaitu
mendapatkan data makanan tradisional sebanyak 54 jenis makanan. Data makanan
berupa data resep makanan yang berupa bumbu dan bahan makanan, serta
tingkatan rasa seperti, rasa pedas, gurih, asin, asam. Pada penelitian ini data
makanan berupa data numerik dan dan data kategorik. Data numerik dihasilkan
dari data bahan dan bumbu yang berupa data teks akan diubah ke bentuk
numerik.Serta data kategorik yang dihasilkan dari data tingkatan rasa. Atribut
yang digunakan pada penelitian ini ditunjukkan pada Tabel 1.
Tabel 1 Atribut yang digunakan pada penelitian
Atribut Nama Atribut Jenis Data Keterangan

X1 Bahan dan bumbu Teks Data teks akan
diubah menjadi
data numerik
X2 Level pedas Kategorik Tingkatan rasa
dengan kategorik
nilai 1 sampai 5
X3 Level gurih Kategorik Tingkatan rasa
dengan kategorik
nilai 1 sampai 5
X4 Level manis Kategorik Tingkatan rasa
dengan kategorik
nilai 1 sampai 5
X5 Level asin Kategorik Tingkatan rasa
dengan kategorik
nilai 1 sampai 5
X6 Level asam Kategorik Tingkatan rasa
dengan kategorik
nilai 1 sampai 5
III.2 Peralatan Penelitian

Alat yang digunakan pada penelitian ini terdiri dari perangkat keras dan
perangkat lunak. Penelitian ini menggunakan perangkat kerasa berupa computer
dengan spesifikasi AMD Dual Core A6-9225, up to 3.0 Ghz, dengan memori
internal (RAM) 4 GB dan Hardisk internal 1 TB. Perangkat lunak yang digunaka
n antara lain yaitu Sistem Operasi Windows 10 x 64, R Studio, Jupyter Notebook,
Microsoft Excel 2013.
25
III.3 Tahapan Penelitian

Penelitian ini melakukan perbandingan algoritme untuk proses clustering
makanan tradisional Indonesia. Algorime yang digunakan yaitu Two-step Method
for Clustering Mixed Categorical and Numeric Data (TMCM) dan algoritme k-
prototype. Adapun tahapan penelitian ditunjukkan pada Gambar 1.
Mulai
Praproses Data
Perbandingan Algoritme
TMCM K-prototype
Analisis Hasil
Selesai
Gambar 1 Tahapan penelitian
III.3.1 Praproses data

Tahapan pertama pada penelitian ini yaitu melakukan praproses data. Data
yang diperoleh yaitu daftar nama makanan dari berbagai kota yang telah
ditentukan. Selanjutnya data makanan per kota dipetakan kembali menjadi data
per provinsi. Data yang telah dipetakan selanjutnya, akan di praproses
menggunakan tokenisasi dengan memisahakan data teks menjadi kata. Teknik
tokenisasi telah dilakukan maka proses selanjutnya mengubah huruf kapital
menjadi huruf kecil, menghapus kata penghubung, dan menghapus tanda baca.
Karena data resep makanan rentan dengan istilah yang memiliki makna yang
sama. Seperti tepung tapioca memiliki arti yang sama dengan sagu dan tepung
kanji. Tabel 2 menunjukan tahapan praproses data dan Tabel 3 menunjukan
penyeragaman istilah.
Tabel 2 Praproses data
Teknik Data setelah di praproses

praproses
Tokenisasi ‘Ikan’,‘Patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
‘merah’, ‘cabe’, ‘kunyit’, ‘merica’, ‘sedikit’,
‘ketumbar’,‘daun’, ‘ singkong’, ‘daun’,
‘salam’, ‘jahe’
Case ‘ikan’,‘patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
folding ‘merah’, ‘cabe’, ‘kunyit’, ‘merica’, ‘sedikit’,
‘ketumbar’, ‘sedikit’, ‘2’, ‘daun’, ‘
singkong’, ‘daun’, ‘salam’, ‘jahe’
26
Teknik Data setelah di praproses

praproses
Penghapusa ‘merah’, ‘cabe’, ‘kunyit’, ‘merica’,
n stopword ‘ketumbar’, ‘2’,‘daun’, ‘ singkong’, ‘daun’,
Menghapus ‘ikan’,‘patin’,‘ikan’,‘baung’,‘baput’,‘bawang’,
angka dan ‘merah’, ‘cabe’, ‘kunyit’, ‘merica’,
tanda baca ‘ketumbar’, ‘daun’, ‘ singkong’, ‘daun’,
Penyeragam ‘ikan’,‘patin’,‘ikan’,‘baung’,‘bawang’,‘putih’,
an istilah ‘bawang’,‘merah’, ‘cabai’, ‘kunyit’, ‘merica’,
‘ketumbar’,‘daun’, ‘singkong’, ‘daun’, ‘salam’,
‘jahe’
Tabel 3 Penyeragaman istilah
No Istilah Penyeragaman
1 Tepung tapioka
Sagu Tepung tapioka
Tepung kanji
2 Daun sop
Daun seledri
Daun seledri
3 Merica
Sahang Lada
Lada
4 Cabai
Cabai
Cabe
5 Baput
Bawang putih
Bwg putih
III.3.2 Perbandingan Algoritme
III.3.2.1. Algoritme Two-step Method for Clustering Mixed Categorical and

Numeric Data (TMCM)
Algoritme TMCM merupakan algoritme yang dirancang untuk menangani

pengelompokan pada data numerik dan kategorik (campuran). Algoritme ini
memiliki kelebihan yaitu mengonversi atribut kategori menjadi nilai numerik
berdasarkan sifat co-occurrence. Nilai numerik diberikan untuk atribut
kategorikal berdasarkan hubungan antar objek (Shih et al. 2010). Data kusioner
yang ditelah dipraproses akan diolah menggunakan algoritme TMCM. Algoritme
TMCM memiliki tiga tahapan utama yaitu praproses data, mengubah nilai atribut
kategorik menjadi nilai numerik, dan tahapan terakhir yaitu clustering (Shih et al.
2010). Gambar 2 merupakan tahapan dari algoritme TMCM.
27
Mulai
Tahapan 1: Praproses Data

Normalisasi atribut numerik
Bentuk matriks M, tentukan atribut dasar

dan kategori dasar
Bentuk matriks D dari informasi matriks M
Tahapan 2: Mengubah atribut kategorik

menjadi nilai numerik
Pemberian nilai numerik pada kategori dasar
Pemberian nilai numerik pada kategori non dasar
Tahapan 3: Clustering
Penerapan algoritme HAC
Penerapan algoritme K-means
Selesai
Gambar 2 Tahapan algoritme TMCM

Tahapan 1: Praproses data
Pada algoritme TMCM tahapan praproses data terdiri dari tiga tahapan
sebagai berikut:
1. Normalisasi atribut numerik .
Normalisasi atribut numerik digunakan untuk menghindari range nilai
numerik yang besar, karena akan mempengaruhi hasil proses clustering. Rentang
data antara 0 sampai 1.
2. Membentuk matriks M.
Setelah proses normalisasi langkah selanjutnya yaitu menetukan atribut
dasar. Atribut dasar merupakan atribut kategorik yang paling banyak muncul pada
kategori tersebut. Sedangkan kategori yang muncul pada atribut dasar disebut
kategori dasar. Dapat dilihat pada Tabel 4, atribut V akan dipilih menjadi atribut
dasar, karena pada atribut V terdapat 3 kategori sedangkan, atribut U terdapat 2.
28
Atribut dasar yaitu atribut V yang terdiri dari kategori G, H, I. Kategori G, H, I

disebut juga sebagai kategori dasar.
Tabel 4 Contoh Dataset
Atribut Atribut V Atribut W Atribut X

U
E G 0.1 0.1
E G 0.3 0.9
E H 0.8 0.8
F H 0.9 0.2
F G 0.2 0.8
F I 0.6 0.9
E H 0.7 0.1
Atribut dasar telah ditentukan selanjutnya, hitung frekuensi co-occurrence

pada atribut kategorik. Matrik M dengan b x b digunakan untuk menyimpan
informasi dimana, b merupakan jumlah kategori pada atribut kategorik.
Pembentukan matrik M berdasarkan data di Tabel 3, dimana jumlah kategori
pada atribut kategorik yaitu 5. Kategori pada atribut kategorik yaitu E, F, G, H,
I. pembentukan matrik M mengikuti Persamaan 7. Sehingga bentuk matrik M
adalah 5 x 5. Bentuk matrik M yang dihasilkan dapat dilihat dibawah ini.
[ ]
4 0 2 2 0
0 3 1 1 1
M= 0 0 3 0 0
0 0 0 3 0
0 0 0 0 1
Dapat dilihat nilai m11 adalah 4 yang diperoleh dari jumlah kemunculan
kategori E pada Tabel 3 sebanyak 4 kali. Sedangkan, nilai m14 adalah 2 karena
muncul sebanyak 2 kali pada Tabel 3. Informasi yang di hasilkan pada matrik M
digunakan untuk membentuk matrik D.
3. Membentuk matriks D.
Pembentukan matrik D mengikuti Persamaan 8. Contoh perhitungan
ditunjukan dibawah ini.
|m(E ,G )| 2
D EG= = =0.4
|m( E)|+|m (G)|−|m( E ,G)| 4+ 3−2
Pada Matriks D EG , nilai |m(E)| adalah 4 yang diambil dari informasi m11
pada matriks M . Sama halnya dengan nilai |m(E , G)| adalah 2 karena nilai m13
di dimatriks M. Dibawah ini merupakan pembentukan matrik D.
29
[ ]
4 0 0.4 0.4 0
0 3 0.2 0.2 0.33
D= 0 0 3 0 0
0 0 0 3 0
0 0 0 0 1
Tahapan 2: Mengubah nilai atribut kategorik menjadi nilai numerik

Pada tahapan 2 terdapat 2 langkah yang harus dilakukan sebagai berikut:
1. Menentukan nilai numerik pada kategori dasar.
Atribut kategori dasar yang telah ditentukan tahapan awal digunakan pada
tahapan ini. Nilai kategori dasar yaitu G,H,I . Persamaan (10) merupakan
perhitungan untuk variansi grub.
SSw =∑ ∑ ( x ij −X j )2 (10)
j i
X j merupakan nilai atribut numerik pada atribut dasar ke-j;

x ij merupakan nilai ke-i pada atribut numerik diatribut dasar ke-j.
Selanjutnya, memilih nilai numerik untuk dijadikan atribut numerik dasar,
pada kasus ini yang dijadian nilai numerik dasar pada atribut W karena ragamnya
kecik. Mengubah nilai kategori pada kategorik dasar dengan menerapkan rata –
rata nilai atribut numerik. Nilai untuk kategori G yang dirujuk pada Tabel 2
perhitungannya seperti dibawah ini.
G= ( 0.1+ 0.3+0.2 ) /3=0.2
Nilai kategori H yaitu 0.7 dan nilai kategori I yaitu 0.6 . Tabel 5
menunjukan hasil mengubah nilai kategori dasar ke nilai numerik.
Tabel 5 Hasil transformasi nilai kategori dasar ke nilai numerik

U
E 0.2 0.1 0.1
E 0.2 0.3 0.9
E 0.7 0.8 0.8
F 0.7 0.9 0.2
F 0.2 0.2 0.8
F 0.6 0.6 0.9
E 0.7 0.7 0.1
2. Menetukan nilai numerik pada atribut non dasar.
Setelah kategori dasar telah ubah ke dalam nilai numerik maka, semua
kategori non dasar dapat di ubah ke nilai numerik dengan menggunakan
Persamaan (9). Dibawah ini contoh perhitungan untuk mengubah nilai kategori E
menjadi nilai numerik.
F ( E )=( 0.4 × 0.2 )+ ( 0.4 ×0.7 )+ ( 0× 0.6 ) =0.36
F ( F )=(0.2× 0.2)+ ( 0.2 × 0.7 ) +( 0.33× 0.6)=0.418
Ubah semua atribut kategori sehingga menghasilkan nilai numerik. Jika

semua atribut kategorik telah diubah maka, proses clustering dapat dijalankan
30
dengan optimal. Table 6 menunjukan nilai atribut non dasar diubah ke nilai
numerik.
Tabel 6 Hasil transformasi nilai kategori dasar ke nilai numerik

U
0.36 0.2 0.1 0.1
0.36 0.2 0.3 0.9
0.36 0.7 0.8 0.8
0.418 0.7 0.9 0.2
0.418 0.2 0.2 0.8
0.418 0.6 0.6 0.9
0.36 0.7 0.7 0.1
Tahapan 3: Clustering
Tahapan terakhir dari metode TMCM yaitu proses clustering. Proses
clustering dilakukan dalam dua tahapan, karena beberapa metode clustering
memiliki keterbatasan. Misalnya, hasil algoritme k-means ditentukan oleh
pemilihan awal centroid (pusat cluster). Untuk mengatasi keterbatasan itu maka,
metode Hierarchical Agglomerative Clustering (HAC) (Shih et al. 2010). Maka,
langkah pertama pada tahapan terakhir ini yaitu melakukan clustering dengan
metode HAC (Shih et al. 2010). Adapun, langkah-langkah sebagai berikut:
1. Hitung jarak antar cluster.
2. Objek dianggap sebagai individu cluster.
3. Gabungkan 2 cluster terdekat.
4. Perbaharui jarak antar cluster.
5. Ulangi langkah 3 dan 4 proses berhenti ketika kriteria tercapai.
Penentuan cluster optimal pada metode HAC dalam TMCM yaitu HAC
menghasilkan satu pertiga dari jumlah dataset. Maka, pada contoh ini hasil
subcluster adalah 2. Tabel 7 contoh hasil HAC pada cluster 1.
Tabel 7 Contoh hasil HAC pada cluster 1

U
0.418 (F) 0.2 (G) 0.2 0.8
0.418 (F) 0.6 (I) 0.6 0.9
Data inputan baru adalah rata-rata atribut anggota cluster, dan

ditambahakan atribut baru dari jumlah kategori yang terdapat pada hasil cluster.
Tabel 8 Contoh data inputan baru.
Tabel 8 Contoh data inputan baru
Atribut U Atribut V Atribut W Atribut X F G I

0.418 0.4 0.4 0.85 2 1 1
31
Setelah data inputan baru didapatkan langkah selanjutnya yaitu melakukan

clustering langkah kedua dengan menerapkan metode K-means. Berikut langkah -
langkah metode K-means (Shih et al. 2010):
1. Tentukan jumlah cluster (k).
2. Menentukan centroid, centroid dipilih secara acak.
3. Menghitung jarak objek ke centroid. Jarak yang digunakan jarak
Euclidean pada Persamaan (1).
4. Mengelompokan cluster berdasarkan jarak terdekat.
5. Perhatikan perpindahan objek. jika objek mengalami perpindahan
ulangin langkah kedua. Iterasi berhenti jika tidak ada objek yang
berpindah.
III.3.2.2. Algoritme K-prototype

Pada penelitian ini, didalam dataset terdapat atribut bumbu dan bahan
berbentuk teks dan tingkatan (level) rasa dengan data kategori. Atribut bumbu dan
bahan ini akan diproses menggunakan jarak Levenshtein dan jarak cosine. Serta
akan dibandingkan hasil pengklusteran kedua jarak tersebut. Langkah tahapan K-
prototype pada penelitian ini:
32
1. Ubah variable teks pada atribut bumbu dan bahan dalam bentuk jarak.
Akan dibandingkan dengan jarak Levenshtein dan jarak cosine.
2. Tentukan target pada atribut bahan dan bumbu yang akan dijadikan
pembanding. Pemilihan dilakukan secara acak.
3. Mengubah tipe variable sesuai karakteristiknya.
4. Mencari jumlah cluster terbaik pada kedua jarak dengan menggunakan
pendekatan Elbow.
5. Membandingkan pendekatan antara jarak Levenshtein dan jarak cosine
yang menghasilkan penggerombolan terbaik.
Ketika perbandingan jarak terbaik telah diketahui, maka dataset dengan data
teks telah ditransformasi ke nilai numerik akan digunakan pada pemrosesan
algoritme TMCM.
3.3.3. Evaluasi Hasil Cluster

Evaluasi entropi digunakan untuk mengetahui kualitas pengklasteran.
Semakin kecil nilai entropi maka hasil cluster lebih baik dan sebaiknya, semakin
besar nilai entropi kualitas cluster semakin buruk (Shih et al. 2010). Persamaan
(11) menunjukan evaluasi entropi (Shih et al. 2010):
(( ) )
m
nj l (11)
Entropi=−∑ ∗∑ P ij∗log ( Pij )
j=l n i =l
dimana:
m = jumlah dari cluster;
l = jumlah dari kelas;
nj = jumlah titik data didalam cluster;
n = jumlah semua titik data;
Pij = kemungkinan anggota cluster j masuk ke kelas i.
IV HASIL DAN PEMBAHASAN
IV.1 Analisis Data Makanan Tradisional Indonesia

Penelitian ini menggunakan data makanan tradisional Indonesia. Data
dikelompokan berdasarkan provinsi. Tetapi tidak semua provinsi diwakili pada
penelitian ini. Dari 34 provinsi di Indonesia hanya 17 provinsi yang terdapat pada
data penelitian, atau dapat diartikan hanya 50% provinsi yang terwakilkan.
Gambar 3 menunjukan penyebaran provinsi yang digunakan pada penelitian
dengan keterangan warna hijau merupakan provinsi yang terdapat didalam
dataset.
33
Gambar 3 Penyebaran provinsi data penelitian

Dapat dilihat pada Gambar 3 bahwa penyebaran provinsi yang diwakili
didataset dapat dipetakan kembali berdasarkan kepulauan. Kepulauan Indonesia
dikelompokan menjadi tujuh kepulauan besar yang terdiri dari, Sumatera, Jawa,
Kalimantan, Sulawesi, Nusa Tenggara, Maluku dan Papua. Tetapi untuk
kepulauan Papua tidak terdapat didalam dataset.
12
10
10
12%
Provinsi
Sumatera 8
12% 29% 6 6
Jawa 6 5 5 5
Nusa Tenggara
Kalimantan 12% 4 3
2 2 2 2
Sulawesi 2 1
6%
Maluku 29% 0
i
er
a wa ga
ra an s ku
at Ja an
t we u
m ng la al
Su Te lim Su M
sa
Jumlah Provinsi Ka
Provinsi yang terdapat di Dataset
Nu
(a) (b)
Gambar 4 Data provinsi (a) pesentase provinsi di dataset (b) perbandingan jumlah
provinsi perpulau dengan provinsi di dataset
Data makanan tradisional Indonesia yang digunakan pada penelitian paling

banyak terdapat pada kepulauan Sumatera dan Jawa sebesar 29%. Tetapi, untuk
kepulauan Jawa hampir semua provinsi telah terwakili didalam dataset sebanyak
lima dari enam provinsi yang terdapat di dataset sedangkan, untuk pulau Sumatera
terdapat lima dari sepuluh provinsi yang digunakan atau hanya 50% data provinsi
di pulau Sumatera. Dataset terkecil terdapat pada kepulauan Nusa Tenggara
sebesar 6%, karena hanya mewakili satu provinsi pada kepulauan tersebut.
Penjelasan tersebut merujuk pada Gambar 4.
Penelitian ini juga menggunakan atribut tingkatan rasa, atribut tingkatan
rasa (level) digunakan untuk mengetahui ciri khas rasa untuk setiap makanan.
Atribut tingkatan rasa diukur dengan lima kategori, misalnya untuk atribut gurih
kategori satu untuk mewakili sangat tidak gurih, kategorik dua mewakili untuk
34
tidak gurih sampai kategori lima mewakili sangat gurih. Tetapi pada sebaran
dataset untuk atribut tingkatan rasa yang ditunjukan pada Gambar 5, atribut level
manis dan level gurih memiliki lima kategori sedangkan, atribut level pedas, level
asin dan level asam memiliki empat kategori.
30 20 19
27 18
18
25
16
14
20
12
10
Jumlah
Jumlah
15 14 10
8
10 6
7 6
4 4
5
2 1
0
0 0
1 2 3 4 5 1 2 3 4 5
Level Pedas Level Manis
(a) Sebaran dataset pada atribut (c) Sebaran dataset pada atribut
level pedas level Manis
40 30
35 27
35
25
30 21
20
25
Jumlah
Jumlah
20 15
15
11 10
10
4 5 3 3
5 3
1 0
0 0
1 2 3 4 5 1 2 3 4 5
Level Gurih Level Asin
(b) Sebaran dataset pada atribut (d) Sebaran dataset pada atribut
level Gurih level
35
30
26
25
22
20
Jumlah
15
10
5 4
1
0
0
1 2 3 4 5
Level Asam
(e) Sebaran dataset pada atribut level asam
Gambar 5 Sebaran data untuk atribut tingkatan rasa

Atribut bumbu dan bahan (resep makanan) yang berupa data teks akan
dilakukan praproses data. Tahapan proproses data dapat dilihat pada Bab 3. Hasil
praproses data menghasilkan informasi karakter unik, yaitu bahan makanan yang
digunakan pada masakan Indonesia. Dari praproses data teks tersebut
menghasilkan 111 bahan masakan yang digunakan dari 54 resep makanan
tradisional.
50
45
40
35
30
25
20
15
10
5
0
Gambar 6 Frekuensi kemunculan bahan masakan Indonesia

Gambar 6 menunjukan grafik frekuensi untuk 25 bahan yang paling banyak
muncul pada masakan Indonesia. Bahan masakan yang paling banyak muncul
yaitu bawang putih sebanyak 44 kali pada resep masakan. Sepuluh bahan masakan
yang paling banyak muncul merupakan kategori rempah atau bumbu masakan.
36
Untuk bahan masakan yang muncul di bawah 2 kali merupakan bahan baku utama
dan bahan pelengkap makanan. Data kemunculan bahan makanan dilampirkan
pada Lampiran 1. Setelah melakukan praproses data langkah selanjutnya yaitu
merubah data teks menjadi data numerik. Langkah ini akan dilakukan pada proses
clustering menggunakan K-prototype.
IV.2Clustering menggunakan Metode K-Prototype

K-prototype merupakan metode untuk melakukan proses clustering pada
data numerik dan data kategorik. Pada penelitian ini atribut yang berupa teks akan
diubah menjadi nilai numerik agar data dapat diolah menggunakan metode
clustering. Perubahan data teks tersebut menggunakan pendekatan jarak yaitu
dengan membandingan pendekatan jarak Levenshtein dan Jarak Cosine.
Tahapan pemprosesan metode k-prototype pada penelitian ini yaitu,
mengubah variable bahan dan bumbu dalam bentuk jarak. Dalam proses ini akan
dibandingkan dua jarak umum yang digunakan pada pengolahan teks yaitu jarak
Levenshtein dan jarak Cosine. Hasil perhitungan jarak kemudian akan
diintegrasikan ke dalam dataframe untuk diolah penggerombolannya dengan
terlebih dahulu menyesuaikan tipe variable berdasarkan karakteristiknya.
Penentuan jumlah cluster (k) pada penelitian ini dimulai dari k=2 hingga k=8.
Untuk menentukan cluster optimal menggunakan pendekatan Elbow. Gambar 7
menunjukan, diestimasi nilai k=5 sebagai pendekatan optimal pada proses
clustering. Hal tersebut didasarkan pada penurunan yang cenderung landai antara
k=4 sampai k=6.
Gambar 7 Grafik penentuan cluster terbaik pada jarak Levenshtein

Pada pencarian cluster terbaik pada jarak Cosine, pengetimasian jumlah
cluster terbaik sama dengan pencarian yang dilakuan pada jarak Levenshtein.
Gambar 8 menunjukan hasil pencarian cluster. Dari grafik yang tersebut,
diestimasi nilai k=5 sebagai pendekatan terbaik karena pada k=4 sampai k=6
penurunan mulai landai.
37
Gambar 8 Grafik penentuan cluster terbaik dengan jarak Cosine

Langkah selanjutnya adalah melakukan proses clustering dengan
menggunakan nilai k=5 berdasarkan hasil perhitungan jarak masing-masing.
Tabel 9 menunjukan potongan hasil clustering. Hasil seluruh proses cluster
dilampirkan pada Lampiran 2.
Tabel 9 Hasil Clustering
Clustering
Jarak Jarak
Provinsi Nama Makanan
Levenshtei Cosin
n e
Nasi sop banjar 5 4
Kalimatan Tengah Soto banjar 1 4
Sate ayam banjar 3 4
Ikan kuah kuning 4 1
Maluku Utara Sayur garo 2 1
Kuah suro 5 1
Pempek 2 3
Model 2 3
Sumatera Selatan
Mie celor 1 3
Lenggang 2 3
Berdasarkan hasil clustering yang ditunjukkan pada Tabel 9, metode

clustering dengan menggunakan jarak Cosine dapat memberikan hasil lebih
optimal dibandingakan dengan jarak Levenshtein, karena hasil penggerombolan
jenis makanan pada satu provinsi memiliki cluster yang sama. Dapat dilihat pada
wilayah Kalimantan Tengah, Maluku Utara dan Sumatera Selatan.
Tabel 10 Pesebaran anggota cluster dengan metode K-prototype

38
Cluster Banyak anggota Persentase (%)

1 9 17.67
2 12 22.22
3 4 7.41
4 12 22.22
5 17 31.38
Jumlah 54 100
Penyebaran untuk setiap anggota cluster dengan metode K-prototype pada

banyaknya cluster sebanyak 5 cluster mendapatkan distribusi yang cukup merata
dengan kata lain tidak terdapat cluster yang jumlah anggotanya terlalu sedikit atau
terlalu banyak. Cluster 5 merupakan cluster yang memiliki anggota terbanyak
sebesar 17 anggota ditunjukan pada Tabel 10. Selanjutnya yaitu cluster 2 dan
cluster 4 memiliki banyak anggotanya sama sebanyak 12 anggota, dan cluster 3
memiliki anggota yang paling sedikit.
IV.3Two-step Method for Clustering Mixed Categorical and Numeric

Data (TMCM)
Metode TMCM merupakan metode yang menangani data numerik dan data
katagorik. Metode ini memiliki kelebihan yaitu mengubah data kategorik menjadi
data numerik serta, menerapkan sifat co-occurrence dalam pengelompokannya.
Ada tiga tahapan dalam menjalankan metode ini yaitu, praproses data, merubah
atribut kategorik ke nilai numerik dan tahapan terakhir yaitu clustering.
Tahapan pertama yaitu praproses data. Pada tahapan praproses data, atribut
numerik dinormalisasikan. Akan tetapi pada penelitian ini atribut numerik yang
digunakan merupakan nilai jarak cosine yang didapatkan dari mengkonversi data
teks pada atribut bumbu dan bahan. Selanjutnya, merubah atribut kategorik
menjadi numerik. Langkah awal untuk mengkonversi data kategorik yaitu dengan
membentuk matrik M. Matrik M digunakan untuk menyimpan informasi pada
pembuatan matrik D. Detail langkahnya dapat dilihat pada Bab 3.
Sebelum membentuk matrik M, terlebih dahulu menentukan atribut dasar
dan kategori dasar pada atribut kategorik. Atribut dasar dipilih berdasarkan
kategori yang paling banyak didalam atribut kategorik. Dapat dilihat pada Gambar
5 bahwa atribut kategorik telah ditentukan memiliki lima kategori. Akan tetapi,
sebaran data menunjukan bahwa hanya atribut level manis dan level gurih yang
memiliki masing-masing lima kategori, sedangkan atribut yang lain memiliki
empat kategori. Sehingga, diantara atribut level manis dan level gurih yang dipilih
menjadi atribut dasar yaitu atribut level gurih dan kategori didalam atribut level
gurih menjadi atribut dasar.
Pembentukan matrik M menjelaskan frekuensi co-occurrence terhadap
setiap kategorik. Penelitian ini memiliki telah ditentukan memiliki lima atribut
kategorik, dengan lima kategori yang terdapat pada masing-masing atribut
kategorik. Sehingga, matrik M berukuran 25x25, ukuran ini mewakili kategori
yang terdapat pada data. Pembentukan matrik M dan matrik D ditunjukkan pada
Gambar 9, pembuatan matrik dibuat sampai semua atribut kategorik dan kategori
terpenuhi.
39
Gambar 9 Pembentukan matrik M dan Matrik D

Tahapan kedua yaitu merubah nilai atribut kategorik menjadi nilai numerik.
Perubahan nilai diawali dengan memberikan nilai numerik pada atribut kategori
dasar. Pemberian nilai numerik didapatkan dari nilai rata-rata atribut numerik.
Namun pada penelitian ini hanya ada satu atribut numerik, sehingga nilai
langsung didapatkan. Setelah dilakukan perhitungan didapatkan nilai untuk
kategori dasar, dalam hal ini adalah kategori pada atribut level gurih. Nilai yang
diperoleh untuk masih-masing kategori ditunjukkan pada Tabel 11.
Tabel 11 Numerisasi nilai kategori dasar
Atribut Kategori Nilai Numerik

Sangat tidak gurih 0.1919
Tidak gurih 0.1629
Level gurih Gurih netral 0.1306
Gurih 0.1223
Sangat Gurih 0.0717
Tahapan terakhir dari pada tahap kedua yaitu, mengubah nilai kategori pada
kategori non dasar. Terdapat empat atribut non dasar, dengan masing – masing
kategori yaitu lima kategori. Numerisasi kategori non dasar ditunjukkan pada
Tabel 12. Setelah semua kategori telah diubah menjadi nilai numerik maka, data
dapat dijalankan pada metode clustering. Jika, nilai kategori telah diubah ke nilai
40
numerik dan menghasilkan nilai numerik sama dengan nol, artinya kategori
tersebut tidak terdapat pada jenis makanan manapun.
Tabel 12 Numerisasi kategori non dasar
Atribut Kategori Nilai Numerik

Level pedas Sangat tidak pedas 0.676
Tidak pedas 0.894
Pedas netral 0.711
Pedas 1.000
Sangat pedas 0
Level manis Sangat tidak manis 0.660
Tidak manis 0.733
Manis netral 0.460
Manis 0.860
Sangat manis 0.436
Level asin Sangat tidak asin 0.711
Tidak asin 0.806
Asin netral 0.711
Asin 0.808
Sangat asin 0
Level asam Sangat tidak asam 0.148
Tidak asam 0.857
Asam netral 0.827
Asam 0.890
Sangat asam 0
Tahapan terakhir pada metode TMCM adalah melakukan clustering. Proses

clustering dilakukan dalam dua tahap yaitu clustering dengan menerapkan metode
Hierarchical Agglomerative Clustering (HAC) dan metode K-means.Clustering
pada tahap pertama dengan metode HAC dilakukan untuk membentuk subcluster
yang akan digunakan pada tahap kedua proses clustering. Untuk menentukan nilai
agglomerative terbaik, dilakukan perbandingan nilai agglomerative pada setiap
metode yang digunakan. Hasil dari simulasi yang ditununjukan pada Tabel 13
bahwa metode Ward memberikan nilai agglomerative optimal, karena nilai hasil
yang didapatkan lebih tinggi dari metode yang lainnya. Dari hasil simulasi yang
telah dilakukan maka, metode Ward digunakan untuk proses clustering.
Tabel 13 Hasil Simulasi HAC
Metode HAC Hasil

Average 0,8292890
Single 0,7672729
Complete 0,8681775
Ward 0,9349051
Weighted 0,8324244
41
Penentuan jumlah subcluster optimal yaitu satu pertiga dari jumlah

keseluruhan dataset. Dengan jumlah data sebanyak 54, maka estimasi subcluster
yaitu sebanyak 18. Jumlah anggota subcluster terbanyak berada pada subcluster
(sb) sb1 dan sb6, sedangkan sb8 dan sb14 merupakan subcluster dengan anggota
paling sedikit. Penjelasan tersebut merujuk pada Gambar 10. Pembentukan
subcluster ini bertujuan untuk meminimalisir kekurangan dari metode K-means
yaitu pada penentuan centroid yang dipilih secara acak.
7
Jumlah Anggota Subcluster
6 6
6
5
4 4
4
3 3 3 3 3 3 3 3
3
2 2 2 2
2
1 1
1
0
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8
sb sb sb sb sb sb sb sb sb s b 1 sb 1 s b 1 s b 1 s b 1 sb 1 sb 1 s b 1 s b 1
Subcluster
Gambar 10 Persentase Subcluster terhadap jumlah anggota

Subcluster yang telah terbentuk akan digunakan sebagai data masukan baru
pada tahapan kedua atau tahapan terakhir proses clustering metode TMCM.
Langkah pertama untuk membentuk data masukan baru yaitu dengan membuat
rata-rata pada masing-masing atribut berdasarkan subcluster. Langkah kedua
adalah menambah variabel baru yang merupakan kategori dari variabel kategori
yang ada yang berisi jumlah anggota subcluster.
Gambar 11 Elbow plot penentuan k optimal

42
Data masukan telah terbentuk maka, tahapan selanjutnya yaitu penerapan

metode K-means. Pada proses clustering untuk menentukan jumlah cluster (k)
optimal menggunakan pendekatan Elbow plot. Gambar 11 menunjukan bahwa
dari hasil Elbow plot, estimasi jumlah k optimal sebanyak 2 atau 4 gerombol.
Walaupun demikian, agar dapat deperbandingkan dengan metode K-prototype
diputuskan untuk memilih k=5 sebagai banyaknya cluster.
.Tabel 14 Sebaran anggota clustering metode TMCM
Cluster(k) Jumlah anggota Pesentase (%)

k=1 3 5.56
k=2 12 22.22
k=3 13 24.07
k=4 12 22.22
k=5 14 25.93
Total 54 100.00
Penyebaran untuk setiap anggota cluster dengan metode TMCM pada

banyaknya cluster sebanyak 5 cluster, cluster 5 merupakan cluster dengan
anggota terbanyak yaitu sebanyak 14 anggota sedangkan, cluster 1 merupakan
cluster dengan anggota paling sedikit yaitu hanya memiliki tiga anggota.
IV.4 Karakteristik Hasil Clustering menggunakan Metode TMCM

dan K-Prototype
Karakteristik makanan tradisional Indonesia dengan membandingkan dua
metode yaitu TMCM dan K-prototype. Kedua metode tersebut menghasilkan
masing-masing lima cluster. Dari lima cluster tersebut terdapat dua cluster yang
memiliki kemiripan karakteristik. Kemiripan pertama yaitu cluster 1 pada metode
TMCM dengan cluster 3 pada metode K-prototype memiliki karakteristik sangat
tidak pedas, sangat gurih, sangat tidak manis, asin netral dan sangat tidak asam.
Kemiripan kedua terjadi pada cluster 4 untuk metode TMCM dan cluster 5 pada
metode K-prototype dengan karakteristik pedas netral, gurih, manis netral, asin
netral, dan tidak asam. Penjelasan tersebut merujuk pada Tabel 15.
Tabel 15 Karakteristik hasil clustering (a) TMCM (b) K-prototype
(a)
Cluste Level pedas Level gurih Level Level asin Level asam
r manis
1 Sangat tidak Sangat Sangat Asin netral Sangat
pedas gurih tidak tidak asam
manis
2 Pedas netral Gurih Tidak Asin netral Tidak
manis asam
3 Pedas netral Gurih Tidak Asin netral Sangat
manis tidak asam
4 Pedas netral Gurih Manis Asin netral Tidak
netral asam
5 Pedas netral Gurih Manis Tidak asin Tidak
netral netral asam
43
(b)
Cluste Level pedas Level gurih Level Level asin Level asam
r manis
1 Pedas netral Gurih Tidak Tidak asin Tidak
manis asam
2 Pedas netral Netral Manis Tidak asin Sangat
gurih netral tidak asam
3 Sangat tidak Sangat Sangat Asin netral Sangat
pedas gurih tidak tidak asam
manis
4 Tidak pedas Netral Manis Asin netral Sangat
gurih netral tidak asam
5 Pedas netral Gurih Manis Asin netral Tidak
netral asam
Tabel 16 Hasil clustering menggunakan metode TMCM dipetakan perprovinsi
Cluster
Provinsi
1 2 3 4 5
Nanggroe Aceh Darussalam (NAD) X
Bali X X
Daerah Istimewa Yogyakarta X
(DIY)
DKI Jakarta X
Jawa Barat X
Jawa Tengah X X
Jawa Timur X
Kalimantan Tengah X X
Kalimantan Timur X X
Lampung X X
Maluku X X
Maluku Utara X X
Riau X X
Sulawesi Selatan X X
Sulawesi Utara X X X X
Sumatera Barat X X
Sumatera Selatan X X
Total 1 6 7 8 9
Data makanan tradisional yang berjumlah 54 jenis makanan yang mewakili

17 provinsi yang ada di Indonesia, dapat kita lihat karakteristik berdasarkan hasil
cluster makanan tersebut. Pada hasil proses clustering dengan metode TMCM
terdapat empat provinsi yang semua jenis makanannya tersebut terdapat pada satu
cluster yaitu provinsi NAD, DKI Jakarta, Jawa Barat, dan Jawa Timur.
Sedangkan, sisa provinsi yang lainnya makananya terletak dibeberapa cluster.
Penjelasan ini merujuk pada Tabel 16.
44
Tabel 17 menunjukkan pada metode K-prototype terdapat tujuh provinsi

yang semua jenis makanannya terletak pada satu cluster yaitu, NAD, DKI Jakarta,
Kalimantan Tengah, Maluku Utara, Riau, Sulawesi Selatan dan Sumatera Selatan.
Tabel 17 Hasil clustering K-prototype dipetakan perprovinsi
Cluster
Provinsi
1 2 3 4 5
Nanggroe Aceh Darussalam (NAD) X
Bali X X
Daerah Istimewa Yogyakarta X X
(DIY)
DKI Jakarta X
Jawa Barat X X X
Jawa Tengah X X
Jawa Timur X
Kalimantan Tengah X
Kalimantan Timur X X
Lampung X X
Maluku X X
Maluku Utara X
Riau X
Sulawesi Selatan X
Sulawesi Utara X X
Sumatera Barat X X
Sumatera Selatan X
Total 4 8 1 7 7
Seperti yang disebutkan sebelumnya pada perbandingan metode TMCM dan

K-prototype, terdapat dua cluster yang memiliki kemiripan karakteristik.
Karakteristik yang pertama yaitu sangat tidak pedas, sangat gurih, sangat tidak
manis, asin netral dan sangat tidak asam hanya provinsi Sumatera Selatan yang
termasuk didalamnya. Sedangkan, karakteristik kedua yaitu pedas netral, gurih,
manis netral, asin netral, dan tidak asam provinsi yang termasuk didalamnya
yaitu Kalimantan Timur, Riau dan Sulawesi Utara.
IV.5 Perbandingan Clustering dengan menggunakan Metode

TMCM dan K-Prototype
Perbandingan clustering menggunakan metode TMCM dan K-protorype
dilakukan dengan cara membuat dataset gabungan hasil pemrosesan algoritme.
Untuk membandingkan penggerombolan mana yang memberikan hasil optimal,
dilakukan pendekatan dengan mencari nilai entropy pada masing-masing hasil.
Penggerombolan yang memberikan nilai entropy terkecil dianggap lebih optimal
dalam menghasilkan gerombol. Sebagai dasar perbandingan entropy adalah
apakah makanan yang digerombolkan mengelompok berdasarkan kedekatan
daerah.
Hasil perhitungan diperoleh nilai entropy metode K Prototype sebesar
2.1983 sedangkan nilai entropy metode TMCM sebesar 2.1955. Perbedaannya
sangat tipis. Berdasarkan perbandingan hasil entropy, metode penggerombolan
45
dengan TMCM memiliki nilai entropy terkecil. Dengan demikian dapat

disimpulkan metode TMCM lebih memberikan hasil optimal dalam melakukan
penggerombolan pada data.
IV.6 Visualisasi Cluster Makanan Tradisional Indonesia dengan

TMCM
Gambar 12 Visualisasi Cluster Makanan Tradisional Indonesia dengan TMCM

Dapat dilihat dari Gambar 12 penyebaran jenis makanan pada setiap
provinsi yang diwakili pada dataset. Semakin pekat warna wilayah provinsi
menunjukan bahwa jenis makanan yang diwakili pada data tersebut berkumpul
pada satu wilayah.
32
V SIMPULAN DAN SARAN
V.1Simpulan
Penelitian ini membandingkan dua metode clustering untuk data campuran
yaitu Two-Step Method for Clustering Mixed Categorical and Numeric Data
(TMCM) dan metode K-prototype.
Hasil perhitungan diperoleh nilai entropy metode K Prototype sebesar
2.1983 sedangkan nilai entropy metode TMCM sebesar 2.1955. Perbedaannya
sangat tipis. Berdasarkan perbandingan hasil entropy, metode penggerombolan
dengan TMCM memiliki nilai entropy terkecil. Dengan demikian dapat
disimpulkan metode TMCM lebih memberikan hasil optimal dalam melakukan
penggerombolan pada data. Jumlah cluster yang hasilkan menggunkana metode
TMCM yaitu sebanyak 5 cluster. Jumlah anggota cluster 1 sebanyak 3 anggota,
cluster 2 sebanyak 12 anggota, cluster 3 sebanyak 13 anggota, cluster 4 sebanyak
12 anggota, cluster 5 sebanyak 14 anggota.
V.2Saran
Pada penelitian selanjutnya, untuk membandingkan karakteristik jenis
makanan Indonesia data yang digunakan ditambahkan lagi dan lebih difokuskan.
Ketika ingin membandingakan kategori makanannya ditentukan, apakah kategori
makanan utama, makanan ringan atau minuman. Serta, perwakilan makanan untuk
setiap provinsi disamaratan, agar hasil perbandingannya lebih optimal.
33
DAFTAR PUSTAKA
Agarwal S. 2014. Data mining: Data mining concepts and techniques.

Cao F, Liang J, Li D, Bai L, Dang C. 2012. Knowledge-Based Systems A
dissimilarity measure for the k -Modes clustering algorithm. Knowledge-
Based Syst. 26:120–127. doi:10.1016/j.knosys.2011.07.011.
Devika R, Revathy S, Sai Surriya Priyanka U, Subramaniya Swamy V. 2018.
Survey on clustering techniques in Twitter data. Proc 2nd Int Conf Comput
Methodol Commun ICCMC 2018. 5(2):1073–1077.
doi:10.1109/ICCMC.2018.8487969.
Duke JA, Godwin MJB, DuCellier J, Duke PAK. 2002. CRC Handbook of
Medicinal Herbs. Volume ke-5.
Gan G, Ma C, Jianhong W. 2007. Data Clustering Theory, Algorithms, and
Applications. Virginia (US).
Hakim L. 2015. Rempah & Herba Kebun-Pekarangan Rumah Masyarakat.
Diandra Creative.
Hegarty JA, Barry O’Mahony G. 2001. Gastronomy: A phenomenon of cultural
expressionism and an aesthetic for living. Int J Hosp Manag. 20(1):3–13.
doi:10.1016/S0278-4319(00)00028-1.
Von Holzen H, Arsana L. 2006. Authentic Recipes from Indonesia. Singapura:
Periplus Editions.
Huang Z. 1998. Extensions to the k-Means Algorithm for Clustering Large Data
Sets with Categorical Values. Data Mining and Knowledge Discovery 2,
283-304. Data Min Knowl Discov. 2(3):283–304.
https://www.researchgate.net/publication/220451944_Huang_Z_Extensions_
to_the_k-
Means_Algorithm_for_Clustering_Large_Data_Sets_with_Categorical_Valu
es_Data_Mining_and_Knowledge_Discovery_2_283-304.
Indriani F, Budiman I. 2017. K-Modes Clustering untuk Mengetahui Jenis
Masakan Daerah yang Populer pada Website Resep Online (Studi Kasus:
Masakan Banjar di cookpad.com). J Teknol Inf dan Ilmu Komput. 4(4):290–
296. doi:10.25126/jtiik.201744548.
Irani J, Pise N, Phatak M. 2016. Clustering Techniques and the Similarity
Measures used in Clustering: A Survey. Int J Comput Appl. 134(7):9–14.
doi:10.5120/ijca2016907841.
Kadhim AI, Cheah YN, Ahamed NH. 2015. Text Document Preprocessing and
Dimension Reduction Techniques for Text Document Clustering. Proc -
2014 4th Int Conf Artif Intell with Appl Eng Technol ICAIET 2014., siap
terbit.
Kaur S, Chaudhary S, Bishnoi N. 2015. A Survey : Clustering Algorithms in Data
Mining. Int J Comput Appl. 3(7):12–14.
Lipoeto NI, Agus Z, Oenzil F, Masrul M, Wattanapenpaiboon N, Wahlqvist ML.
2001. Contemporary minangkabau food culture in West Sumatra, Indonesia.
Asia Pac J Clin Nutr. 10(1):10–16. doi:10.1046/j.1440-6047.2001.00201.x.
Nadamoto A, Hanai S, Nanba H. 2016. Clustering for Similar Recipes in User-
Generated Recipe Sites Based on Main Ingredients and Main Seasoning.
NBiS 2016 - 19th Int Conf Network-Based Inf Syst., siap terbit.
34
Palupi S, Fitri A. 2019. Pendoman Pengembangan Wisata Kuliner. Deputi Bid

Pengemb Ind dan Kelembagaan Kementeri Pariwisata., siap terbit.
https://www.kemenpar.go.id.
Phanich M, Pholkul P, Phimoltares S. 2010. Food recommendation system using
clustering analysis for diabetic patients. 2010 Int Conf Inf Sci Appl ICISA
2010., siap terbit.
Sharma T, Upadhyay U, Kalra J, Arora S, Ahmad S, Aggarwal B, Bagler G. 2020.
Hierarchical clustering of world cuisines. Proc - 2020 IEEE 36th Int Conf
Data Eng Work ICDEW 2020., siap terbit.
Shih MY, Jheng JW, Lai LF. 2010. A two-step method for clustering mixed
categroical and numeric data. Tamkang J Sci Eng. 13(1):11–19.
da Silva Torres EAF, Garbelotti ML, Moita Neto JM. 2006. The application of
hierarchical clusters analysis to the study of the composition of foods. Food
Chem. 99(3):622–629. doi:10.1016/j.foodchem.2005.08.032.
Wijaya S. 2019. Indonesian food culture mapping: A starter contribution to
promote Indonesian culinary tourism. J Ethn Foods. 6(1):1–10.
doi:10.1186/s42779-019-0009-3.
35
LAMPIRAN
36
Lampiran 1 Frekuensi kemunculan bahan makan pada data penelitian

Ju Ju
ml ml
ah ah
Bahan dan Bahan dan
No M No M
Bumbu Bumbu
ak ak
an an
an an
1 Bawang 44 29 Tepung 6
putih terigu
2 Bawang 35 30 Kecap 6
merah manis
3 Merica 32 31 Gula merah 5
4 Cabai 24 32 Kentang 4
5 Daun jeruk 20 33 Wortel 4
6 Lengkuas 17 34 Kayu manis 4
7 Jahe 16 35 Bunga 4
8 Daun salam 16 lawang
9 Serai 15 36 Mie basah 3
10 Cabai rawit 14 37 Daging sapi 3
11 Santan 14 38 Ikan 3
12 Kunyit 15 tenggiri
13 Beras 11 39 Ikan 3
14 Ketumbar 11 cakalang
15 Daun 11 40 Kacang 3
bawang panjang
16 Telur 10 41 Tahu 3
17 Kelapa 10 42 Asam jawa 3
parut 43 Tauge 3
18 Kemiri 11 44 Kapulaga 3
19 Daun 9 45 Jintan 3
kunyit 46 Daun 3
20 Jeruk nipis 8 seledri
47 Pala 3
21 Terasi 8
48 Ikan teri 3
22 Kencur 8
49 Beras ketan 3
23 Ayam 7
50 Singkong 2
24 Tomat 7
51 Tempe 2
25 Daun 7
52 Ayam 2
pisang
kampung
26 Tepung 6 53 Kangkung 2
tapioka
54 Jagung 2
27 Daun 6
55 Udang 2
pandan
56 Daun 2
28 Cengkeh 6 singkong
37
Ju Ju
ml ml
ah ah
Bahan dan Bahan dan
No M No M
Bumbu Bumbu
ak ak
an an
an an
57 Mentega 2 87 Ubi talas 1
58 Ikan roa 2 88 Bunga 1
59 Terong 2 pepaya
60 Bihun 2 89 SKM 1
61 Tepung 2 90 Labu siam 1
beras 91 Labu 1
62 Kol 2 kuning
63 Kecap asin 2 92 Daun kelor 1
64 Daun 2 93 Belimbing 1
kemangi wuluh
65 Ikan asin 2 94 Adas manis 1
66 Soun 2 95 Sawi 1
67 Kayu 2 96 Kangkung 1
secang 97 Udang 1
68 Nangka 1 rebon
muda 98 Cuka 1
69 Ikan baung 1 99 Asam 1
asap kandis
70 Ikan salai 1 10 Timun 1
patin 0
71 Ikan patin 1 10 Ebi 1
72 Ikan nila 1 1
73 Gathot 1 10 Daging 1
2
74 Tepung 1
10 Saos tomat 1
singkong
3
75 Belalang 1
10 Jamur 1
76 Ikan nike 1 4 kuping
77 Ikan kakap 1 10 Kacang 1
78 Jantung 1 5 goreng
pisang 10 Madu 1
79 Gula pasir 1 6
80 Air kelapa 1 10 Kacang 1
7 tanah
81 Daun 1
10 Petis 1
kelapa
8
82 Ikan tuna 1
10 Bayam 1
83 Kacang 1 9
kenari 11 Susu 1
84 Tepung 1 0
maizena 11 Ikan 1
85 Vanili 1 1 tongkol
86 Bambu 1
38
39
Lampiran 2 Hasil proses clustering menggunakan jarak Levenshtein dan jarak Cosine
Cluste Clus
ring terin
(Leve g
Provinsi Nama makanan nshtei (Cosi
n ne
Distan Dista
ce) nce)
Aceh Mie aceh 4 1
Bali Ayam betutu 4 2
Bali Sate lilit 4 1
Bali Tum 4 2
Bali Jukub urab 4 1
Daerah Istimewa Gatot 3 4
Yogyakarta
Daerah Istimewa Tiwul 3 2
Yogyakarta
Daerah Istimewa Belalang goreng 5 4
Yogyakarta
Daerah Istimewa Wedang uwuh 3 4
Yogyakarta
Dki Jakarta Nasi Uduk 3 4
Dki Jakarta Kue Lopis 3 4
Jawa Barat Nasi Timbel 5 2
Jawa Barat Ikan Bakar/Goreng 5 5
Jawa Barat Ayam Bakar/Goreng 5 4
Jawa Tengah Getuk 3 2
Jawa Tengah Timlo solo 4 5
Jawa Tengah Mendoan 5 2
Jawa Timur Nasi jajan 1 5
Kalimantan Tengah Nasi sop banjar 5 4
Kalimantan Tengah Soto banjar 1 4
Kalimantan Tengah Sate ayam banjar 3 4
Kalimantan Timur Nasi kuning 2 4
Kalimantan Timur Lontong sayur 1 5
Lampung Lapis Legit 3 2
Lampung Sekubal 2 4
Maluku Sambal colo-colo 3 2
Maluku Nasi kelapa 3 4
Maluku Kohu-kohu 3 2
Maluku Utara Ikan kuah kuning 4 1
Maluku Utara Sayur garo 2 1
Maluku Utara Kuah soru 5 1
Riau Asap pedas baung 5 5
Riau Ikan salai 5 5
Riau Gulai asam pedas 5 5
40
Cluste Clus
ring terin
(Leve g
Provinsi Nama makanan nshtei (Cosi
n ne
Distan Dista
ce) nce)
patin
Sulawesi Selatan Coto makasar 5 5
Sulawesi Selatan Ikan dole 5 5
Sulawesi Utara Sinonggi 5 5
Sulawesi Utara Tinutuan 5 5
Sulawesi Utara Uta kelo 5 2
Sulawesi Utara Onyop 3 2
Sulawesi Utara Nasi goreng roa 5 5
Sulawesi Utara Nasi goreng 5 5
cakalang
Sulawesi Utara Dabu-dabu 5 5
Sulawesi Utara Perkedel milu 5 5
Sulawesi Utara Perkedel nike 5 5
Sulawesi Utara Mie cakalang 5 5
Sumatera Barat Pangek cubadak 4 1
Sumatera Barat Dendeng balado 2 1
Sumatera Barat Palai bada 4 1
Sumatera Barat Dadar barendo 3 2
Sumatera Selatan Pempek 2 3
Sumatera Selatan Model 2 3
Sumatera Selatan Mie celor 1 3
Sumatera Selatan Lenggang 2 3
41
RIWAYAT HIDUP
Penulis dilahirkan di kota…. pada tanggal bulan tahun sebagai anak ke …

dari pasangan bapak … dan ibu … Pendidikan sarjana ditempuh di Program Studi
… , Fakultas … Universitas … , dan lulus pada tahun …. Pada tahun ..., penulis
diterima sebagai mahasiswa program magister (S-2) di Program Studi … pada
Sekolah Pascasarjana Universitas ... dan menamatkannya pada tahun .... (untuk
mahasiswa S-2). Kesempatan untuk melanjutkan ke program doktor pada program
studi … Sekolah Pascasarjana IPB diperoleh pada tahun ... dengan biaya
sendiri/beasiswa pendidikan pascasarjana yang diperoleh dari … (untuk
mahasiswa S-3).
Penulis bekerja sebagai … di … sejak tahun ... dan ditempatkan di ... dan
seterusnya (riwayat pekerjaan).
Selama mengikuti program S-2, penulis aktif menjadi ... (riwayat dan
pengalaman organisasi). Karya ilmiah berjudul … telah disajikan pada
seminar/simposium ... dan/atau dipublikasi di jurnal … (riwayat publikasi) .
Penulis juga pernah memperoleh atau pernah terpilih sebagai … (riwayat prestasi
akademik). Karya-karya ilmiah tersebut merupakan bagian dari program S-2/S-3
penulis.

G651180201 - Rizka Aulia

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

G651180201 - Rizka Aulia

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGELOMPOKAN MAKANAN TRADISIONAL

INDONESIA MENGGUNAKAN TWO-STEP METHOD FOR

PROGRAM STUDI MAGISTER ILMU KOMPUTER

Dengan ini saya menyatakan bahwa tesis dengan judul “Pengelompokan

Bogor, Juli 2022

Makanan tradisional merupakan makanan dan minuman yang berkembang

Kata kunci: cluster, data campuran, makanan tradisional, k-prototype, TMCM

Keywords: cluster, mixed data, traditional food, k-prototype, TMCM

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa

PROGRAM STUDI MAGISTER ILMU KOMPUTER

Ketua Program Studi:

Tanggal Ujian: Tanggal Lulus:

Bogor, Juli 2022

DAFTAR TABEL iii

I.1 Latar Belakang

Penggunan rempah – rempah sebagai bumbu utama menyebabkan

I.2 Rumusan Masalah

makanan tradisional Indonesia berdasarkan bahan dan bumbu, serta

I.5 Ruang Lingkup

II.1 Makanan Tradisional Indonesia

II.2 Praproses Data Kategorikal

II.2.1 Praproses Data

hierarchical clustering dibedakan menjadi dua yaitu agglomerative dan divisive.

II.4 Ukuran Kemiripan

d ij = jarak manhattan antara objek ke-i dengan objek ke-j

Jarak Tipe Data Kategorik (Simple Matching)

Jarak Tipe Data Campuran

∑ δ ( x j − y j )2 = jarak pada tipe data numerik

∑ δ (x j , y j) = jarak pada tipe data kategorik

II.5 Two-step Method for Clustering Mixed Categorical and Numeric

disebut kategori dasar. Setelah penentuan aribut dasar, langkah selanjutnya

|m(t ,u)| (8)

Langkah selanjutnya yaitu memasukan nilai numerik pada kategori dasar.

d merupakan banyaknya kategori dasar;

II.6 Algoritme K-Prototype

k-means dan k-modes. Proses algoritme k-prototype mirip dengan algoritme k-

III.1 Data Penelitian

Atribut Nama Atribut Jenis Data Keterangan

III.2 Peralatan Penelitian

III.3 Tahapan Penelitian

Gambar 1 Tahapan penelitian

III.3.1 Praproses data

Tabel 2 Praproses data

Teknik Data setelah di praproses

Teknik Data setelah di praproses

Tabel 3 Penyeragaman istilah

III.3.2 Perbandingan Algoritme

III.3.2.1. Algoritme Two-step Method for Clustering Mixed Categorical and

Algoritme TMCM merupakan algoritme yang dirancang untuk menangani

Tahapan 1: Praproses Data

Bentuk matriks M, tentukan atribut dasar

Bentuk matriks D dari informasi matriks M

Tahapan 2: Mengubah atribut kategorik

Pemberian nilai numerik pada kategori dasar

Pemberian nilai numerik pada kategori non dasar

Penerapan algoritme K-means

Gambar 2 Tahapan algoritme TMCM

Atribut dasar yaitu atribut V yang terdiri dari kategori G, H, I. Kategori G, H, I

Atribut Atribut V Atribut W Atribut X

Atribut dasar telah ditentukan selanjutnya, hitung frekuensi co-occurrence

Tahapan 2: Mengubah nilai atribut kategorik menjadi nilai numerik

X j merupakan nilai atribut numerik pada atribut dasar ke-j;

Atribut Atribut V Atribut W Atribut X