RIZKA AULIA
Dengan ini saya menyatakan bahwa tesis dengan judul “Judul Karya Ilmiah
Tugas Akhir” adalah karya saya dengan arahan dari dosen pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Rizka Aulia
G651180201
RINGKASAN
RIZKA AULIA. Pengelompokan Makanan Tradisional Indonesia menggunakan
Two-step Method for Clustering Mixed Numerical dan Categorical Data
(TMCM) dan K-Prototype. Dibimbing oleh NAMA PEMBIMBING 1 dan
NAMA PEMBIMBING 2.
SUMMARY
STUDENT NAME. Title of Thesis. Supervised by NAME of 1 st SUPERVISOR
1st, NAME of 2nd SUPERVISOR, and NAME of 3rd SUPERVISOR.
Narasi ditulis dalam satu spasi, disusun dalam beberapa paragraf, dan tidak
lebih dari dua halaman. Ringkasan/Summary memuat latar belakang
permasalahan, tujuan, metode, hasil dan pembahasan dengan penekanan pada
temuan baru, dan implikasi yang disajikan secara ringkas, informatif, dan faktual.
Tidak diperbolehkan mengacu pustaka, gambar, dan tabel. Singkatan hanya
dikenalkan jika masih digunakan lagi dalam bagian lain Ringkasan/Summary.
Kata kunci: ditulis dalam bahasa Indonesia, disusun berdasarkan abjad, maksimum
lima kata atau frasa
RIZKA AULIA
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister pada
Program Studi …….
Disetujui oleh
Pembimbing 1:
__________________
Nama lengkap dan gelar
Pembimbing 2:
__________________
Nama lengkap dan gelar
Diketahui oleh
Puji dan syukur penulis panjatkan kepada Allah subhanaahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan …. 20XX sampai bulan
…. 20XX ini ialah ………., dengan judul
“…………………………………………”.
Terima kasih penulis ucapkan kepada para pembimbing, … (nama lengkap
dan gelar) yang telah membimbing dan banyak memberi saran. Ucapan terima
kasih juga disampaikan kepada pembimbing akademik (untuk program D-3 dan S-
1), moderator seminar, dan penguji luar komisi pembimbing. Di samping itu,
penghargaan penulis sampaikan kepada … (nama lengkap dan gelar dari
lembaga/instansi/perusahaan yang telah memberi izin penelitian), (nama dan gelar
atau bapak/ibu jika tidak ada gelar) beserta staf Laboratorium ….. dan seterusnya .
… yang telah membantu selama pengumpulan data. Ungkapan terima kasih juga
disampaikan kepada ayah, ibu, serta seluruh keluarga (istri/suami/anak jika sudah
menikah) yang telah memberikan dukungan, doa, dan kasih sayangnya …. dan
seterusnya.
Semoga karya ilmiah ini bermanfaat bagi pihak yang membutuhkan dan
bagi kemajuan ilmu pengetahuan.
Nama penulis
DAFTAR ISI
1 Tingkat kekerasan dan kandungan gula buah pisang ambon pada suhu
simpan yang berbeda dan pemberian putresina
2 Tingkat kekerasan buah pisang raja pada suhu simpan yang berbeda
dan pemberian putresina
DAFTAR GAMBAR
DAFTAR LAMPIRAN
1 Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan
kimia tanah dari 78 contoh tanah di Kebun Percobaan Ciheuleut
1 Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat 3
13
1. PENDAHULUAN
I.3 Tujuan
Berdasarkan permasalahan tersebut, tujuan dari penelitian ini dapat
diuraikan sebagai berikut:
1. Menganalisis hasil pengelompokkan makanan tradisional
2. Membandingkan 2 metode clustering untuk pengelompokkan makanan
tradisional
I.4 Manfaat
Selain memiliki beberapa tujuan yang telah diuraikan, penelitan ini juga
diharapkan memberikan manfaat sebagai berikut:
1. Memberikan pengetahuan baru mengenai makanan tradisional Indonesia
berupa kelompok-kelompok makanan yang serupa.
2. Membantu merekomendasikan metode pengukuran similarity dan
clustering untuk jenis data serupa.
II.3 Clustering
Clustering merupakan teknik pembelajaran tanpa pengawasan
(unsupervied) yang bertujuan mengelompokkan sekumpulan objek ke dalam
cluster. Objek dalam cluster yang sama memiliki kemiripan satu sama lain,
sedangkan objek pada suatu cluster memiliki ketidakmiripan dengan cluster yang
lainny (Irani et al. 2016). Clustering memiliki dua metode yaitu, hierarchical
clustering dan partition clustering. Hierarchical clustering merupakan metode
16
Jarak Euclidean
Pada metode clustering fungsi jarak yang paling sering digunakan yaitu
jarak Euclidean. Salah satu metode clustering yang menerapkannya adalah
metode k-means. Jarak euclidean hanya dapat diterapkan pada data bertipe
numerik (kontinu). Jarak euclidean merupakan jarak antar objek ke-i dan ke-j
dengan p merupakan jumlah data (Agarwal 2014). Persamaan (1) menunjukan
jarak euclidean:
√ 2 2
d ( i, j ) = ( xi 1 + x j 1 ) + ( x i 2+ x j2 ) + …+ ( x ip + x jp )
2
(1)
dengan:
d ( i, j ) =¿ jarak antara i dan j
i=¿ ( x i 1 , x i 2 , … , x ip )
j=¿ ( x j 1 , x j 2 , … , x jp )
p=¿ jumlah data
Jarak Manhattan
Jarak manhattan merupakan metrik jarak yang menghitung perbedaan
absolut antara pasangan koordinat objek data. Jarak manhattan dikenal dengan
sebutan city block distance karena menghitung jarak dalam blok antara dua objek
pada suatu kota. Seperti halnya jarak euclidean, jarak manhattan hanya dapat
digunakan pada data numerik (kontinu) (Agarwal 2014). Perhitungan jarak
manhattan ditunjukan pada persamaan (2):
m
(2)
d ij =∑ |x ik −x jk|
k=1
17
dengan:
d ij = jarak manhattan antara objek ke-i dengan objek ke-j
m = jumlah data
x ik = nilai atau data dari objek ke-i pada atribut ke-k
x jk = nilai atau data dari objek ke-j pada atribut ke-k
dengan:
d ( X ,Y ) = jarak antar 2 objek dengan p merupakan atribut kategorik
δ ( x j , y j )¿
dengan:
d 2 ( X ,Y ) = jarak antar objek X dan Y (data campuran)
n
II.5 Two-step Method for Clustering Mixed numeric and categorical data
Two-step Method for Clustering Mixed numeric and categorical data
(TMCM) merupakan metode dua-langkah untuk mengelompokan data numerik
dan data kategorik (data campuran). Pada metode ini data dari atribut kategorik
diproses untuk membangun hubungan atau kesamaan berdasarkan prinsip co-
occurrence. Co-occurrence merupakan sebuah gagasan untuk mengetahui
pasangan data yang mempunyai kategori sama dan muncul secara bersamaan
dalam sebuah objek. Berdasarkan prinsip co-occurrence semua data pada atribut
kategorik dapat diubah menjadi atribut numerik, sehingga mempermudah dalam
proses pengelompokan data pada dataset. Metode ini juga mengintegrasikan
dengan algoritme pengelompokan hierarchical agglomerative cluster (HAC) dan
K-means sebagai objek untuk mengahasilkan pengelompokan yang optimal (Shih
et al. 2010).
Pada metode TMCM langkah pertama yang dilakukan yaitu membaca
masukan data selanjutnya, nilai dari atribut numerik dinormalisasikan dalam
rentang nilai nol dan satu. Normalisasi dilakukan untuk menghindari nilai atribut
yang besar akan mendominasi hasil clustering. Atribut kategorik dengan kategori
terbanyak akan menjadi atribut dasar, kategori yang terdapat di atribut dasar
disebut kategori dasar. Setelah penentuan aribut dasar, langkah selanjutnya
membentuk matrik M dengan menghitung frekuensi co-ccurrence setiap kategori.
Matrik M merupakan matrik dengan ukuran b x b, b merupakan jumlah kategori
pada semua atribut kategorik (Shih et al. 2010). Kemunculan setiap kategori
mempengaruhi pembentukan matrik M. Berikut merupakan pembentukan matrik
M:
[ ]
m 11 ⋯ m1 b (5)
M= ⋮ ⋱ ⋮
m b1 … m bb
mtu t=u merupakan jumlah kemunculan kategori t pada atribut tertentu;
mtu t ≠ u merupakan jumlah kemunculan kategori t kategori u dalam observasi
yang sama;
Jika t dan u adalah kategori pada atribut yang sama maka mtu =0 .
Setelah frekuensi co-occurrence tersedia, kesamaan antar mereka dapat
dihitung dengan persamaan berikut:
3. METODE
Mulai
Praproses Data
Perbandingan Algoritme
TMCM K-prototype
Analisis Hasil
Selesai
21
No Istilah Penyeragaman
1 Tepung tapioka
Sagu Tepung tapioka
Tepung kanji
2 Daun sop
Daun seledri
Daun seledri
3 Merica
Sahang Lada
Lada
4 Cabai
Cabai
Cabe
5 Baput
Bawang putih
Bwg putih
Mulai
Tahapan 3: Clustering
Penerapan algoritme HAC
Selesai
[ ]
4 0 22 0
0 3 11 1
M= 0 0 30 0
0 0 03 0
0 0 00 1
24
Dapat dilihat nilai m11 adalah 4 yang diperoleh dari jumlah kemunculan
kategori E pada Tabel 6. Nilai m14 adalah 2 karena banyaknya kemunculan
kategori E dan D secara bersama – sama di Tabel 6. Informasi yang di hasilkan
pada matrik M digunakan untuk membentuk matrik D.
3. Membentuk matriks D.
Pembentukan matrik D mengikuti Persamaan 6. Contoh perhitungan
ditunjukan dibawah ini.
|m(E ,G )| 2
D EG= = =0.4
|m( E)|+|m (G)|−|m( E ,G)| 4+ 3−2
Tahapan 3: Clustering
Tahapan terakhir dari algoritme TMCM yaitu proses clustering. Proses
clustering dilakukan dalam dua tahapan, karena beberapa algoritme clustering
memiliki keterbatasan. Misalnya, hasil algoritme k-means ditentukan oleh
25
pemilihan awal centroid (pusat cluster). Langkah pertama yang dilakukan yaitu
menerapkan metode HAC (Hierarchical Agglomerative Clustering), metode HAC
menghasil 1/3 dari dataset.
Langkah kedua yaitu hasil dari analisi cluster HAC akan dianggap sebagai
objek baru dan dijadikan input data pada analisi cluster k-means.
V.1 Simpulan
Simpulan merupakan jawaban dari tujuan yang sudah ditentukan dan tidak
dimaksudkan sebagai ringkasan hasil. Dalam Simpulan, penulis harus dan hanya
menjawab masalah dan tujuan penelitian yang telah dirumuskan pada
Pendahuluan. Simpulan merupakan generalisasi dari hasil penelitian dan
argumentasi penulis, atau pernyataan singkat yang merupakan hakikat dari bab
Hasil dan Pembahasan atau hasil pengujian berbagai hipotesis yang berkaitan.
Simpulan merupakan hasil penelitian yang boleh jadi telah dikemukakan
dalam perumusan masalah dan telah diberi jawaban sementara berupa hipotesis.
Dalam menulis simpulan, penulis harus membedakan dugaan, temuan, dan
simpulan hasil studi. Pernyataan simpulan harus dilakukan secara cermat dan hati-
hati. Penyampaian simpulan ini dapat dilakukan sebanyak 3 kali, yakni dalam
Pembahasan, Simpulan, dan Abstrak sehingga diperlukan kecermatan untuk
menyajikannya dengan ungkapan yang berbeda-beda.
V.2 Saran
Saran seyogianya mengarah ke implikasi atau tindakan lanjutan yang harus
dilakukan sehubungan dengan temuan atau simpulan penulis. Saran yang
dikemukakan harus berkaitan dengan pelaksanaan atau hasil penelitian. Dengan
demikian saran ini mengemukakan hal-hal yang perlu diteliti lebih lanjut terutama
untuk memperbaiki kelemahan atau kekurangan dalam penelitian yang dilakukan
atau perbaikan asumsi yang diambil sehingga didapatkan hasil yang lebih baik.
Jadi, saran tersebut harus diuraikan secara spesifik. Jangan menyarankan hal-hal
yang tidak dianalisis dan dibahas dalam penelitian serta terkesan menggurui atau
memuaskan keinginan peneliti. Untuk penelitian yang berkaitan dengan
permasalahan kebijakan, tidak perlu menyarankan kebijakan yang tidak berkaitan
dengan hasil penelitian.
3
DAFTAR PUSTAKA
doi:10.1109/ICCMC.2018.8487969.
Gan G, Ma C, Jianhong W. 2007. Data Clustering Theory, Algorithms, and
Applications. Virginia (US).
Huang Z. 1998. Extensions to the k-Means Algorithm for Clustering Large Data
Sets with Categorical Values. Data Mining and Knowledge Discovery 2,
283-304. Data Min Knowl Discov. 2(3):283–304.
https://www.researchgate.net/publication/220451944_Huang_Z_Extensions_
to_the_k-
Means_Algorithm_for_Clustering_Large_Data_Sets_with_Categorical_Valu
es_Data_Mining_and_Knowledge_Discovery_2_283-304.
Irani J, Pise N, Phatak M. 2016. Clustering Techniques and the Similarity
Measures used in Clustering: A Survey. Int J Comput Appl. 134(7):9–14.
doi:10.5120/ijca2016907841.
Kadhim AI, Cheah YN, Ahamed NH. 2015. Text Document Preprocessing and
Dimension Reduction Techniques for Text Document Clustering. Proc -
2014 4th Int Conf Artif Intell with Appl Eng Technol ICAIET 2014., siap
terbit.
Kaur S, Chaudhary S, Bishnoi N. 2015. A Survey : Clustering Algorithms in Data
Mining. Int J Comput Appl. 3(7):12–14.
Shih MY, Jheng JW, Lai LF. 2010. A two-step method for clustering mixed
categroical and numeric data. Tamkang J Sci Eng. 13(1):11–19.
LAMPIRAN
6
Lampiran 1 Rata-rata dan simpangan baku beberapa sifat físik dan kimia tanah
dari 78 contoh tanah di Kebun Percobaan Ciheuleut
Lampiran 2 Umur, indeks luas daun, dan hasil biji kering jagung yang ditanam
pada lima ketinggian tempat
RIWAYAT HIDUP