RIZKA AULIA
Rizka Aulia
G651180201
RINGKASAN
RIZKA AULIA. Pengelompokan Makanan Tradisional Indonesia menggunakan
Two-step Method for Clustering Mixed Categorical and Numeric Data (TMCM)
dan K-Prototype. Dibimbing oleh ANNISA dan TAUFIK DJATNA.
Traditional food is food and drink that develops in an area that is processed
using local ingredients that have been passed down from generation to generation
so that it has a distinctive taste. When tourists visit a tourist area, they will
indirectly look for the typical food of the area. Traditional Indonesian food has
similarities, namely the use of spices in almost every dish. The use of spices is
due to the fact that spices grow in almost all parts of Indonesia.
Each region in Indonesia has its own special food or traditional food. So, it
is necessary to classify traditional foods to determine the characteristics of
Indonesian food. The clustering method is a method that groups the same
attributes or objects into one group or group. Clustering methods usually focus
only on numeric data or only on categorical data. However, in this study the data
used are numerical data and categorical data (mixed).
This study compares two clustering methods for mixed data, namely the
two-step method for clustering mixed categorical and numerical data (TMCM)
and the K-prototype method.
The results of the calculation showed that the entropy value of the K
prototype method was 2.1983 while the entropy value of the TMCM method was
2.1955. The difference is very subtle. On the basis of the comparison of entropy
results, the clustering method with TMCM has the smallest entropy value. Thus, it
can be concluded that the TMCM method provides optimal results in clustering
the data. The number of clusters generated using the TMCM method is 5 clusters.
The number of members of cluster 1 is 3 members, cluster 2 is 12 members,
cluster 3 is 13 members, cluster 4 is 12 members, cluster 5 is 14 members
RIZKA AULIA
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister pada
Program Studi Magister Ilmu Komputer
Disetujui oleh
Pembimbing 1:
__________________
Dr. Eng. Annisa, S.Kom, M.Kom
Pembimbing 2:
__________________
Prof. Dr. Eng. Taufik Djatna, S.T.P., M.Si
Diketahui oleh
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa yang telah
memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya
tulis yang berjudul “Pengelompokan Makanan Tradisional Indonesia
menggunakan Two-step Method for Clustering Mixed Categorical and Numeric
Data (TMCM) dan K-Prototype”. Karya tulis ini ditulis sebagai salah satu syarat
untuk memperoleh gelar akademik Magister Ilmu Komputer pada program studi
Ilmu Komputer di Institut Pertanian Bogor (IPB).
Penulisan karya tulis ini tidak lepas dari dukungan, doa, bimbingan, serta
bantuan dari berbagai pihak. Oleh Karena itu, pada kesempatan ini penulis
mengucapkan rasa terima kasihnya kepada:
1. Ibu Dr. Eng. Annisa, S.Kom, M.Kom dan Bapak Prof. Dr. Eng. Taufik
Djatna, S.T.P., M.Si selaku komisi pembimbing dari penulis yang
senangtiasa sabar dalam memberika arahan, bimbingan, serta motivasi
kepada penulis.
2. Seluruh dosen pascasarjana Departemen Ilmu Komputer IPB yang telah
banyak memberikan ilmu yang bermanfaat selama penulis menuntut
ilmu di IPB.
3. Kedua orang tua, serta seluruh keluarga yang telah memberikan doa
serta dukungan penuh bagi penulis sehingga dapat menyelesaikan
pendidikan pascasarjananya.
4. Seluruh staf tata usaha Departemen Ilmu Komputer IPB yang telah
membantu menyelesaikan semua proses administrasi yang dibutuhkan
oleh penulis.
5. Teman-teman seperjuangan pascasarjana Ilmu Komputer 2018 yang
selalu memberikan bantuan disaat diperlukan.
Semoga karya tulis ini dapat bermanfaat bagi banyak pihak. Penulis mohon
maaf atas segala kekurangan dan kesalahan dalam penulisan karya tulis ini.
Semoga Tuhan YME selalu memberikan rahmat dan karunia-Nya bagi kita
semua. Aamin.
Rizka Aulia
DAFTAR ISI
1 Tingkat kekerasan dan kandungan gula buah pisang ambon pada suhu
simpan yang berbeda dan pemberian putresina
2 Tingkat kekerasan buah pisang raja pada suhu simpan yang berbeda
dan pemberian putresina
DAFTAR GAMBAR
DAFTAR LAMPIRAN
1 Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan
kimia tanah dari 78 contoh tanah di Kebun Percobaan Ciheuleut
1 Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat 3
14
I PENDAHULUAN
pada penelitian ini data yang digunakan tidak hanya bahan makanan tetapi
menambahkan atribut tingkatan rasa. Atribut tingkatan rasa ditambahkan untuk
mengetahui cita rasa khas makanan pada suatu daerah. Pada penelitian ini juga
akan menggunakan atribut numerik dan kategorik campuran untuk
pengelompokan makanan tradisional Indonesia.
Metode pengelompokan untuk data campuran yang paling banyak
digunakan yaitu K-prototype. K-prototype merupakan metode yang dikembangkan
dari kedua metode pendahulunya yaitu metode K-means yang digunakan untuk
data numerik dan metode K-modes yang digunakan untuk data kategorik. Kedua
metode tersebut digabungkan untuk memproses data campuran. Penerapan metode
K-prototype lebih sederhana dan lebih baik dibandingkan metode clustering
lainnya yang berbasis hierarki (Huang 1998). Adapun metode lain yang dapat
digunakan untuk memproses data campuran yaitu Two-Step Method for
Clustering Mixed Categorical and Numeric Data (TMCM).
TMCM merupakan sebuah metode pengelompokan dua langkah yang
digunakan untuk data numerik dan kategoris campuran dengan memperhatikan
ada hubungan antara item kategoris. Shih et al. (2010) melakukannya
Pengelompokan data dari Survei Prevalensi Kontrasepsi Nasional Indonesia tahun
1987 menggunakan K-prototype, Two Step Cluster, dan TMCM. Rosdiana (2014)
melakukan penelitian yang hampir sama yaitu membandingkan hasil
pengelompokan tanaman obat dengan metode Two Step Cluster dan TMCM.
Nurul Istiqomah (2015) melakukan penelitian penggerombolan kabupaten/kota
berdasarkan faktor stunting pada bayi dengan metode TMCM. Ketiga studi
menyimpulkan bahwa hasil pengelompokan menggunakan TMCM lebih baik
daripada metode yang lain dipelajari. Keuntungan TMCM dibandingkan metode
lain adalah transformasi. Variabel kategori dilakukan berdasarkan teori co-
occurrence.
Penelitian ini menerapkan metode TMCM dan K-prototype untuk
mengelompokan makanan daerah Indonesia berdasarkan faktor bahan makanan
serta tingkatan rasa untuk mengetahui metode terbaik dalam mengelompokkan
data makanan tradisional Indonesia yang memiliki skala pengukuran numerik dan
kategoris.
I.3 Tujuan
Berdasarkan permasalahan tersebut, tujuan dari penelitian ini dapat
diuraikan sebagai berikut:
1. Menerapkan metode Two-step Method for Clustering Mixed Categorical
and Numeric Data (TMCM) dan K-prototype untuk pengelompokan
17
I.4 Manfaat
Hasil dari penelitian ini dapat dimanfaatkan untuk bidang kuliner, untuk
mengetahui karakteristik makanan tradisional Indonesia berdasarkan bahan dan
bumbu yang digunakan serta tingkatan rasa makanan. Penelitian ini juga dapat
memberikan informasi mengenai kemiripan rasa makanan antar daerah Indonesia.
II TINJAUAN PUSTAKA
II.3 Clustering
Clustering merupakan teknik pembelajaran tanpa pengawasan
(unsupervied) yang bertujuan mengelompokkan sekumpulan objek ke dalam
cluster. Objek dalam cluster yang sama memiliki kemiripan satu sama lain,
sedangkan objek pada suatu cluster memiliki ketidakmiripan dengan cluster yang
lainnya (Irani et al. 2016). Clustering memiliki dua metode yaitu, hierarchical
clustering dan partition clustering. Hierarchical clustering merupakan metode
pengelompokan dengan membentuk struktur pohon (Kaur et al. 2015). Metode
19
Jarak Euclidean
Pada metode clustering fungsi jarak yang paling sering digunakan yaitu
jarak Euclidean. Salah satu metode clustering yang menerapkannya adalah
metode k-means. Jarak euclidean hanya dapat diterapkan pada data bertipe
numerik (kontinu). Jarak euclidean merupakan jarak antar objek ke-i dan ke-j
dengan p merupakan jumlah data (Agarwal 2014). Persamaan (1) menunjukan
jarak Euclidean:
√ 2 2
d ( i, j ) = ( xi 1 + x j 1 ) + ( x i 2+ x j2 ) + …+ ( x ip + x jp )
2
(1)
dengan:
d ( i, j ) =¿ jarak antara i dan j
i=¿ ( x i 1 , x i 2 , … , x ip )
j=¿ ( x j 1 , x j 2 , … , x jp )
p=¿ jumlah data
Jarak Manhattan
Jarak Manhattan merupakan metrik jarak yang menghitung perbedaan
absolut antara pasangan koordinat objek data. Jarak Manhattan dikenal dengan
sebutan city block distance karena menghitung jarak dalam blok antara dua objek
pada suatu kota. Seperti halnya jarak Euclidean, jarak manhattan hanya dapat
digunakan pada data numerik (kontinu) (Agarwal 2014). Perhitungan jarak
Manhattan ditunjukan pada persamaan (2):
m
(2)
d ij =∑ |x ik −x jk|
k=1
dengan:
20
dengan:
d ( X ,Y ) = jarak antar 2 objek dengan p merupakan atribut kategorik
δ ( x j , y j )¿
dengan:
d 2 ( X ,Y ) = jarak antar objek X dan Y (data campuran)
n
Jarak Cosine
Jarak cosine merupakan jarak yang paling sering digunakan untuk ngukur
kemiripan antar dokumen atau data teks. Semakin kecil nilai yang dihasil maka
21
semakin dekat jarak kedua vector. hal ini dapat diartikan bahwa dokumen
tersebut. Sebaliknya semkin besar nilai yang dihasil maka, semakin tidak
miripnya dokumen tersebut. Perhitungan jarak antara dokumen ( p ) dan query ( q )
dengan menghitung kemiripan cosine dari representasi V ( pi ) vektor dokumen dan
vektor query ( q ) (Manning et al. 2009). Dibawah ini persamaan jarak cosine:
V ( q ) .V ( pi ) (5)
d ( q , pi )=1−
|V ( q )|∗|V ( pi )|
dimana:
V ( q) . V ( pi ) = perkalian dalam antara vektor query dan dokumen;
|V ( q )|∗|V ( pi )| = perkalian ukuran jarak antara vektor query dan dokumen.
Jarak Levenshtein
Jarak Levenshtein adalah perhitungan jumlah perubahan yang digunakan
untuk merubah sebuah string sehingga memperoleh string yang lain(Manning et
al. 2009). Jarak Levenshtein antara dua string dapat diartikan sebagai jumlah
terkecil yang diperlukan untuk merubah satu string ke string lainnya dengan
beberapa cara misalnya penyisipan, penghapusan, dan pergantian karakter
tunggal. Berikut persamaan jarak Levenshtein (Manning et al. 2009):
¿=1− ( MaxLength
dis
) (6)
dimana:
sim = nilai kemiripan;
dis = jarak jarak Levenshtein;
MaxLengh = nilai maksimum string.
[ ]
m 11 ⋯ m1 b (7)
M= ⋮ ⋱ ⋮
m b1 … m bb
mtu t=u merupakan jumlah kemunculan kategori t pada atribut tertentu;
mtu t ≠ u merupakan jumlah kemunculan kategori t kategori u dalam observasi
yang sama;
Jika t dan u adalah kategori pada atribut yang sama maka mtu =0 .
Setelah frekuensi co-occurrence tersedia, kesamaan antar mereka dapat
dihitung dengan persamaan berikut:
Tahapan terakhir dari TMCM yaitu clustering. Seluruh nilai dalam set dat
berisikan nilai numerik sehingga fungsi jarak yang berlaku pada algorime
clustering dapat diterapakan dengan maksimal. Metode HAC (hierarchical
agglomerative cluster) dan K-means diterapkan.
III METODE
Mulai
Praproses Data
Perbandingan Algoritme
TMCM K-prototype
Analisis Hasil
Selesai
No Istilah Penyeragaman
1 Tepung tapioka
Sagu Tepung tapioka
Tepung kanji
2 Daun sop
Daun seledri
Daun seledri
3 Merica
Sahang Lada
Lada
4 Cabai
Cabai
Cabe
5 Baput
Bawang putih
Bwg putih
Tahapan 3: Clustering
Penerapan algoritme HAC
Selesai
[ ]
4 0 2 2 0
0 3 1 1 1
M= 0 0 3 0 0
0 0 0 3 0
0 0 0 0 1
Dapat dilihat nilai m11 adalah 4 yang diperoleh dari jumlah kemunculan
kategori E pada Tabel 3 sebanyak 4 kali. Sedangkan, nilai m14 adalah 2 karena
muncul sebanyak 2 kali pada Tabel 3. Informasi yang di hasilkan pada matrik M
digunakan untuk membentuk matrik D.
3. Membentuk matriks D.
Pembentukan matrik D mengikuti Persamaan 8. Contoh perhitungan
ditunjukan dibawah ini.
|m(E ,G )| 2
D EG= = =0.4
|m( E)|+|m (G)|−|m( E ,G)| 4+ 3−2
Pada Matriks D EG , nilai |m(E)| adalah 4 yang diambil dari informasi m11
pada matriks M . Sama halnya dengan nilai |m(E , G)| adalah 2 karena nilai m13
di dimatriks M. Dibawah ini merupakan pembentukan matrik D.
29
[ ]
4 0 0.4 0.4 0
0 3 0.2 0.2 0.33
D= 0 0 3 0 0
0 0 0 3 0
0 0 0 0 1
SSw =∑ ∑ ( x ij −X j )2 (10)
j i
dengan optimal. Table 6 menunjukan nilai atribut non dasar diubah ke nilai
numerik.
Tabel 6 Hasil transformasi nilai kategori dasar ke nilai numerik
Tahapan 3: Clustering
Tahapan terakhir dari metode TMCM yaitu proses clustering. Proses
clustering dilakukan dalam dua tahapan, karena beberapa metode clustering
memiliki keterbatasan. Misalnya, hasil algoritme k-means ditentukan oleh
pemilihan awal centroid (pusat cluster). Untuk mengatasi keterbatasan itu maka,
metode Hierarchical Agglomerative Clustering (HAC) (Shih et al. 2010). Maka,
langkah pertama pada tahapan terakhir ini yaitu melakukan clustering dengan
metode HAC (Shih et al. 2010). Adapun, langkah-langkah sebagai berikut:
1. Hitung jarak antar cluster.
2. Objek dianggap sebagai individu cluster.
3. Gabungkan 2 cluster terdekat.
4. Perbaharui jarak antar cluster.
5. Ulangi langkah 3 dan 4 proses berhenti ketika kriteria tercapai.
Penentuan cluster optimal pada metode HAC dalam TMCM yaitu HAC
menghasilkan satu pertiga dari jumlah dataset. Maka, pada contoh ini hasil
subcluster adalah 2. Tabel 7 contoh hasil HAC pada cluster 1.
1. Ubah variable teks pada atribut bumbu dan bahan dalam bentuk jarak.
Akan dibandingkan dengan jarak Levenshtein dan jarak cosine.
2. Tentukan target pada atribut bahan dan bumbu yang akan dijadikan
pembanding. Pemilihan dilakukan secara acak.
3. Mengubah tipe variable sesuai karakteristiknya.
4. Mencari jumlah cluster terbaik pada kedua jarak dengan menggunakan
pendekatan Elbow.
5. Membandingkan pendekatan antara jarak Levenshtein dan jarak cosine
yang menghasilkan penggerombolan terbaik.
Ketika perbandingan jarak terbaik telah diketahui, maka dataset dengan data
teks telah ditransformasi ke nilai numerik akan digunakan pada pemrosesan
algoritme TMCM.
(( ) )
m
nj l (11)
Entropi=−∑ ∗∑ P ij∗log ( Pij )
j=l n i =l
dimana:
m = jumlah dari cluster;
l = jumlah dari kelas;
nj = jumlah titik data didalam cluster;
n = jumlah semua titik data;
Pij = kemungkinan anggota cluster j masuk ke kelas i.
Sumatera 8
12% 29% 6 6
Jawa 6 5 5 5
Nusa Tenggara
Kalimantan 12% 4 3
2 2 2 2
Sulawesi 2 1
6%
Maluku 29% 0
i
er
a wa ga
ra an s ku
at Ja an
t we u
m ng la al
Su Te lim Su M
sa
Jumlah Provinsi Ka
Provinsi yang terdapat di Dataset
Nu
(a) (b)
Gambar 4 Data provinsi (a) pesentase provinsi di dataset (b) perbandingan jumlah
provinsi perpulau dengan provinsi di dataset
tidak gurih sampai kategori lima mewakili sangat gurih. Tetapi pada sebaran
dataset untuk atribut tingkatan rasa yang ditunjukan pada Gambar 5, atribut level
manis dan level gurih memiliki lima kategori sedangkan, atribut level pedas, level
asin dan level asam memiliki empat kategori.
30 20 19
27 18
18
25
16
14
20
12
10
Jumlah
Jumlah
15 14 10
8
10 6
7 6
4 4
5
2 1
0
0 0
1 2 3 4 5 1 2 3 4 5
Level Pedas Level Manis
(a) Sebaran dataset pada atribut (c) Sebaran dataset pada atribut
level pedas level Manis
40 30
35 27
35
25
30 21
20
25
Jumlah
Jumlah
20 15
15
11 10
10
4 5 3 3
5 3
1 0
0 0
1 2 3 4 5 1 2 3 4 5
(b) Sebaran dataset pada atribut (d) Sebaran dataset pada atribut
level Gurih level
35
30
26
25
22
20
Jumlah
15
10
5 4
1
0
0
1 2 3 4 5
Level Asam
50
45
40
35
30
25
20
15
10
5
0
Untuk bahan masakan yang muncul di bawah 2 kali merupakan bahan baku utama
dan bahan pelengkap makanan. Data kemunculan bahan makanan dilampirkan
pada Lampiran 1. Setelah melakukan praproses data langkah selanjutnya yaitu
merubah data teks menjadi data numerik. Langkah ini akan dilakukan pada proses
clustering menggunakan K-prototype.
Clustering
Jarak Jarak
Provinsi Nama Makanan
Levenshtei Cosin
n e
Nasi sop banjar 5 4
Kalimatan Tengah Soto banjar 1 4
Sate ayam banjar 3 4
Ikan kuah kuning 4 1
Maluku Utara Sayur garo 2 1
Kuah suro 5 1
Pempek 2 3
Model 2 3
Sumatera Selatan
Mie celor 1 3
Lenggang 2 3
Tahapan terakhir dari pada tahap kedua yaitu, mengubah nilai kategori pada
kategori non dasar. Terdapat empat atribut non dasar, dengan masing – masing
kategori yaitu lima kategori. Numerisasi kategori non dasar ditunjukkan pada
Tabel 12. Setelah semua kategori telah diubah menjadi nilai numerik maka, data
dapat dijalankan pada metode clustering. Jika, nilai kategori telah diubah ke nilai
40
numerik dan menghasilkan nilai numerik sama dengan nol, artinya kategori
tersebut tidak terdapat pada jenis makanan manapun.
6 6
6
5
4 4
4
3 3 3 3 3 3 3 3
3
2 2 2 2
2
1 1
1
0
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8
sb sb sb sb sb sb sb sb sb s b 1 sb 1 s b 1 s b 1 s b 1 sb 1 sb 1 s b 1 s b 1
Subcluster
(b)
Cluste Level pedas Level gurih Level Level asin Level asam
r manis
1 Pedas netral Gurih Tidak Tidak asin Tidak
manis asam
2 Pedas netral Netral Manis Tidak asin Sangat
gurih netral tidak asam
3 Sangat tidak Sangat Sangat Asin netral Sangat
pedas gurih tidak tidak asam
manis
4 Tidak pedas Netral Manis Asin netral Sangat
gurih netral tidak asam
5 Pedas netral Gurih Manis Asin netral Tidak
netral asam
Cluster
Provinsi
1 2 3 4 5
Nanggroe Aceh Darussalam (NAD) X
Bali X X
Daerah Istimewa Yogyakarta X
(DIY)
DKI Jakarta X
Jawa Barat X
Jawa Tengah X X
Jawa Timur X
Kalimantan Tengah X X
Kalimantan Timur X X
Lampung X X
Maluku X X
Maluku Utara X X
Riau X X
Sulawesi Selatan X X
Sulawesi Utara X X X X
Sumatera Barat X X
Sumatera Selatan X X
Total 1 6 7 8 9
Cluster
Provinsi
1 2 3 4 5
Nanggroe Aceh Darussalam (NAD) X
Bali X X
Daerah Istimewa Yogyakarta X X
(DIY)
DKI Jakarta X
Jawa Barat X X X
Jawa Tengah X X
Jawa Timur X
Kalimantan Tengah X
Kalimantan Timur X X
Lampung X X
Maluku X X
Maluku Utara X
Riau X
Sulawesi Selatan X
Sulawesi Utara X X
Sumatera Barat X X
Sumatera Selatan X
Total 4 8 1 7 7
V.1Simpulan
Penelitian ini membandingkan dua metode clustering untuk data campuran
yaitu Two-Step Method for Clustering Mixed Categorical and Numeric Data
(TMCM) dan metode K-prototype.
Hasil perhitungan diperoleh nilai entropy metode K Prototype sebesar
2.1983 sedangkan nilai entropy metode TMCM sebesar 2.1955. Perbedaannya
sangat tipis. Berdasarkan perbandingan hasil entropy, metode penggerombolan
dengan TMCM memiliki nilai entropy terkecil. Dengan demikian dapat
disimpulkan metode TMCM lebih memberikan hasil optimal dalam melakukan
penggerombolan pada data. Jumlah cluster yang hasilkan menggunkana metode
TMCM yaitu sebanyak 5 cluster. Jumlah anggota cluster 1 sebanyak 3 anggota,
cluster 2 sebanyak 12 anggota, cluster 3 sebanyak 13 anggota, cluster 4 sebanyak
12 anggota, cluster 5 sebanyak 14 anggota.
V.2Saran
Pada penelitian selanjutnya, untuk membandingkan karakteristik jenis
makanan Indonesia data yang digunakan ditambahkan lagi dan lebih difokuskan.
Ketika ingin membandingakan kategori makanannya ditentukan, apakah kategori
makanan utama, makanan ringan atau minuman. Serta, perwakilan makanan untuk
setiap provinsi disamaratan, agar hasil perbandingannya lebih optimal.
33
DAFTAR PUSTAKA
LAMPIRAN
36
Ju Ju
ml ml
ah ah
Bahan dan Bahan dan
No M No M
Bumbu Bumbu
ak ak
an an
an an
57 Mentega 2 87 Ubi talas 1
58 Ikan roa 2 88 Bunga 1
59 Terong 2 pepaya
60 Bihun 2 89 SKM 1
61 Tepung 2 90 Labu siam 1
beras 91 Labu 1
62 Kol 2 kuning
63 Kecap asin 2 92 Daun kelor 1
64 Daun 2 93 Belimbing 1
kemangi wuluh
65 Ikan asin 2 94 Adas manis 1
66 Soun 2 95 Sawi 1
67 Kayu 2 96 Kangkung 1
secang 97 Udang 1
68 Nangka 1 rebon
muda 98 Cuka 1
69 Ikan baung 1 99 Asam 1
asap kandis
70 Ikan salai 1 10 Timun 1
patin 0
71 Ikan patin 1 10 Ebi 1
72 Ikan nila 1 1
73 Gathot 1 10 Daging 1
2
74 Tepung 1
10 Saos tomat 1
singkong
3
75 Belalang 1
10 Jamur 1
76 Ikan nike 1 4 kuping
77 Ikan kakap 1 10 Kacang 1
78 Jantung 1 5 goreng
pisang 10 Madu 1
79 Gula pasir 1 6
80 Air kelapa 1 10 Kacang 1
7 tanah
81 Daun 1
10 Petis 1
kelapa
8
82 Ikan tuna 1
10 Bayam 1
83 Kacang 1 9
kenari 11 Susu 1
84 Tepung 1 0
maizena 11 Ikan 1
85 Vanili 1 1 tongkol
86 Bambu 1
38
39
Lampiran 2 Hasil proses clustering menggunakan jarak Levenshtein dan jarak Cosine
Cluste Clus
ring terin
(Leve g
Provinsi Nama makanan nshtei (Cosi
n ne
Distan Dista
ce) nce)
Aceh Mie aceh 4 1
Bali Ayam betutu 4 2
Bali Sate lilit 4 1
Bali Tum 4 2
Bali Jukub urab 4 1
Daerah Istimewa Gatot 3 4
Yogyakarta
Daerah Istimewa Tiwul 3 2
Yogyakarta
Daerah Istimewa Belalang goreng 5 4
Yogyakarta
Daerah Istimewa Wedang uwuh 3 4
Yogyakarta
Dki Jakarta Nasi Uduk 3 4
Dki Jakarta Kue Lopis 3 4
Jawa Barat Nasi Timbel 5 2
Jawa Barat Ikan Bakar/Goreng 5 5
Jawa Barat Ayam Bakar/Goreng 5 4
Jawa Tengah Getuk 3 2
Jawa Tengah Timlo solo 4 5
Jawa Tengah Mendoan 5 2
Jawa Timur Nasi jajan 1 5
Kalimantan Tengah Nasi sop banjar 5 4
Kalimantan Tengah Soto banjar 1 4
Kalimantan Tengah Sate ayam banjar 3 4
Kalimantan Timur Nasi kuning 2 4
Kalimantan Timur Lontong sayur 1 5
Lampung Lapis Legit 3 2
Lampung Sekubal 2 4
Maluku Sambal colo-colo 3 2
Maluku Nasi kelapa 3 4
Maluku Kohu-kohu 3 2
Maluku Utara Ikan kuah kuning 4 1
Maluku Utara Sayur garo 2 1
Maluku Utara Kuah soru 5 1
Riau Asap pedas baung 5 5
Riau Ikan salai 5 5
Riau Gulai asam pedas 5 5
40
Cluste Clus
ring terin
(Leve g
Provinsi Nama makanan nshtei (Cosi
n ne
Distan Dista
ce) nce)
patin
Sulawesi Selatan Coto makasar 5 5
Sulawesi Selatan Ikan dole 5 5
Sulawesi Utara Sinonggi 5 5
Sulawesi Utara Tinutuan 5 5
Sulawesi Utara Uta kelo 5 2
Sulawesi Utara Onyop 3 2
Sulawesi Utara Nasi goreng roa 5 5
Sulawesi Utara Nasi goreng 5 5
cakalang
Sulawesi Utara Dabu-dabu 5 5
Sulawesi Utara Perkedel milu 5 5
Sulawesi Utara Perkedel nike 5 5
Sulawesi Utara Mie cakalang 5 5
Sumatera Barat Pangek cubadak 4 1
Sumatera Barat Dendeng balado 2 1
Sumatera Barat Palai bada 4 1
Sumatera Barat Dadar barendo 3 2
Sumatera Selatan Pempek 2 3
Sumatera Selatan Model 2 3
Sumatera Selatan Mie celor 1 3
Sumatera Selatan Lenggang 2 3
41
RIWAYAT HIDUP