Anda di halaman 1dari 10

Journal of

Actuarial Data Analytics

Perbandingan Analisis Klasterisasi Agglomerative dan K-


Means untuk Menentukan Minat Nasabah Asuransi
Meida Fivri Liliana1), Priska Rani Wahyohana2), Nada Zahira3), Cynthia Christine4)

Program Studi Ilmu Aktuaria


Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Brawijaya

Abstract

Background: Asuransi merupakan mekanisme proteksi atau perlindungan dari resiko kerugian di masa depan. Namun di
Indonesia hal tersebut masih tergolong awam karena masyarakat masih berpikir dengan mengikuti asuransi mereka akan
ditipu dan menjadi rugi. Untuk itu dengan adanya big data diharapkan masyarakat percaya dan minat asuransi menjadi
meningkat. Hal tersebut dilakukan dengan cara mengelompokkan produk-produk asuransi agar memudahkan perusahaan
melihat produk-produk unggulan dan memilih produk yang sesuai dengan minat nasabahnya. Melakukan analisis dengan
membandingkan antara metode k-means dan klasterisasi agglomerative merupakan tujuan dari penelitian ini. Penerapan
algoritma K-Means ini untuk membantu perhitungan nilai kemurniannya dari hasil clustering yang dilakukan sehingga
klasterisasi produk asuransi sesuai dengan kebutuhan nasabahnya. Sedangkan pada klasterisasi agglomerative dengan
konsep jarak dapat digunakan untuk menghitung tingkat kemiripan antara data nasabah asuransi.
Objective: Mengetahui antara metode K-Means dan klasterisasi Agglomerative yang merupakan metode lebih baik untuk
klasterisasi produk asuransi
Methods: Menentukan minat nasabah asuransi dengan menggunakan metode Klasterisasi Agglomerative dan metode K-
Means.
Results: Dari hasil validasi menggunakan silhouette scores menunjukan nilai yang lebih tinggi dengan menggunakan Kmeans
Conclusion: Terdapat 3 cluster untuk hasil klasterisasi produk asuransi, dengan hasil optimal dari metode K-Means

Keywords: Agglomerative, K-Means, Asuransi, Nasabah, Klasterisasi.

I. PENDAHULUAN
Perusahaan asuransi di Indonesia memiliki peranan yang bergerak di bidang layanan jasa keuangan yang
diberikan pada masyarakat untuk mengatasi resiko di masa yang akan datang. Namun, di Indonesia sendiri masih
kurang edukasi dan kesadaran masyarakat akan pentingnya asuransi sehingga menjadi tantangan tersendiri untuk
perusahaan asuransi yang ada di Indonesia. Mereka masih beranggapan bahwa ketika mengikuti asuransi mereka
akan ditipu sehingga menjadi rugi hal tersebut membuat ketidakpercayaan masyarakat terhadap proses klaim dan
lamanya proses terbitnya polis asuransi. Oleh karena itu dengan adanya big data dan machine learning diharapkan
masyarakat percaya sehingga membantu perusahaan asuransi dalam menjalankan usahanya secara efektif dan
efisien serta meningkatkan kepuasan nasabah dalam menggunakan layanannya.

Pada penelitian sebelumnya hasil pengujian dengan record 454 data yang dilakukan. Metode algoritma K-
Means dapat diterapkan untuk mengelompokan data nilai pertanggungan, premi dan klaim berdasarkan clustering
dengan nilai rendah, sedang dan tinggi berdasarkan ketentuan perusahaan. Dengan pengelompokan sebanyak 3
cluster dimana memiliki batasan nilai yang berbeda. Sistem ini telah berhasil menerapkan metode Profile Matching
untuk pengambilan keputusan pemilihan produk asuransi jiwa perorangan bagi calon nasabah dengan studi kasus
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

AJB Bumiputera 1912 Malang. Perhitungan algoritma K-means menghasilkan jenis asuransi Mitra Beasiswa sebagai
pilihan yang cukup tinggi untuk diminati para calon nasabah. Prinsip data mining dilakukan agar dapat membangun
sistem clustering portal jurnal internasional sebagai rekomendasi bagi peneliti untuk publikasi berdasarkan kualitas
cluster menggunakan kernel k-means. Hasil penelitian menyatakan bahwa asuransi nasabah dapat diklaster
menggunakan metode K-Means. Penawaran dari perusahaan asuransi menjadi daya tarik bagi calon nasabah yang
ingin menggunakan jasa asuransi diantaranya asuransi jiwa, kesehatan, kendaraan, properti/bangunan dan masih
banyak lagi. Setiap calon nasabah menginginkan manfaat asuransi yang berbeda beda, tetapi dari produk asuransi
yang dipilih masih banyak nasabah yang tidak mengerti manfaatnya. Akhirnya menyesal dan kecewa, sehingga
nasabah menganggap asuransi itu tidak bermanfaat dan bahkan tidak melanjutkan pembayaran/berhenti ditengah
jalan.

Tujuan utama dari penelitian ini dengan menggunakan metode clustering untuk mengelompokkan
sejumlah data ke dalam cluster sehingga dapat membentuk suatu grup berdasarkan cluster yang ada. Pola yang
diperoleh diharapkan dapat memberikan pengetahuan bagi perusahaan Media World Pekanbaru sebagai alat
pendukung pengambilan kebijakan. Objek penelitian ini adalah Produk Asuransi Sinar Mas yaitu Asuransi
Kebakaran, Asuransi Kecelakaan dan Asuransi Kesehatan. Oleh sebab itu, perusahaan melakukan pengelompokan
data untuk mempermudah perusahaan asuransi dalam menentukan produk unggulannya dan sesuai dengan
produk pilihan nasabahnya.

K-means sendiri merupakan metode yang sering digunakan, yaitu dengan menjadikan tetangga terdekat
sebagai satu cluster. Namun terdapat kelemahan dari k-means yaitu peletakan titik pusat cluster (centroid) awal
yang acak. Namun penerapan algoritma K-Means ini untuk membantu perhitungan nilai kemurniannya dari hasil clustering
yang dilakukan sehingga klasterisasi produk asuransi sesuai dengan kebutuhan nasabahnya. Peletakan centroid awal yang

berbeda dapat menghasilkan hasil klaster yang berbeda. Pada klasterisasi agglomerative dengan konsep jarak dapat
digunakan untuk menghitung tingkat kemiripan antara data nasabah asuransi. Metode single linkage sendiri yang
merupakan klasterisasi agglomerative bertujuan mencari jarak terdekat antara dua cluster yang berbeda.
Penelitian ini dilakukan untuk membandingkan metode mana yang terbaik antara k-means dan klasterisasi
agglomerative karena antara dua metode tersebut memiliki kelebihan dan kelemahan masing masing.

Penelitian ini menggunakan data kuesioner penilaian nasabah pemegang polis terhadap produk Asuransi
Kebakaran, Asuransi Kecelakaan dan Asuransi Kesehatan. Penerapan gabungan antara metode K-Means dengan
teknik klasterisasi agglomerative dapat menghasilkan informasi produk asuransi mana saja yang diminati calon
nasabah. Dengan metode tersebut sebuah perusahaan dapat dengan tepat dan cepat dalam menganalisis minat
nasabah asuransi dalam pengelompokan jenis data.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

II. METODE

Dalam penelitian ini, peneliti menggunakan beberapa metode dalam data mining. Metode-metode yang
dapat digunakan seperti klasifikasi, clustering, regresi, seleksi variabel, dan analisis. Data mining adalah suatu
kegiatan analisa data untuk mencari suatu pola tertentu, dengan jumlah data yang besar dan bertujuan untuk
menghasilkan informasi yang dapat digunakan dan dikembangkan lebih lanjut. Data mining adalah metode untuk
menemukan informasi baru yang berguna dari kumpulan data yang besar dan dapat membantu dalam
pengambilan keputusan.

Analisis cluster merupakan teknik analisis data yang bertujuan untuk mengelompokan individu atau objek
ke dalam beberapa kelompok yang memiliki sifat berbeda antar kelompok, sehingga individu atau objek yang
terletak di dalam satu kelompok akan mempunyai sifat relatif homogen. Tujuan analisis cluster adalah
mengelompokan objek-objek tersebut. Clustering adalah suatu teknik pengelompokan data dengan cara
memisahkan data menjadi beberapa kelompok sesuai dengan karakteristik tertentu yang diinginkan, karena tidak
adanya target label kelas untuk setiap data, maka clustering sering disebut juga unsupervised learning.

K-Means merupakan salah satu metode pengelompokan data non hirarki yang berusaha mempartisi data
yang ada ke dalam bentuk dua atau lebih kelompok. K-means adalah salah satu algoritma pembelajaran
undirected/unsupervised learning, yang paling sederhana digunakan untuk memecahkan berbagai masalah
pengelompokan. Metode K-Means hanya akan bekerja pada atribut numerik karena metode ini merupakan
algoritma berbasis jarak dari cara kerjanya membagi data menjadi beberapa cluster.

Langkah-langkah dari K-Means clustering:

1. Menentukan banyak k cluster yang ingin dibentuk. Pusat cluster awal (centroid) ditentukan sebarang objek
secara random.
2. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Euclidean
hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid.
Rumus Euclidean Distance:

√❑
(1)

3. Menghitung nilai centroid baru. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan.
4. Menghitung jarak setiap objek dengan tiap centroid yang baru, sama seperti langkah 2.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

5. Mengulangi langkah 2 dan 3 sampai tidak ada perubahan anggota cluster. Jika telah terpenuhi, maka nilai rata-
rata pusat cluster (μj) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi
data.

Metode agglomerative hierarchical clustering merupakan metode analisis cluster yang bertujuan untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya, yang dimulai dengan objek-objek
individu sampai objek-objek tersebut bergabung menjadi satu cluster tunggal. Agglomerative melakukan clustering
dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Terdapat 3 cara perhitungan tingkat
kemiripan yaitu Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage, dan lain lain, dengan
konsep jarak yang dapat digunakan untuk menghitung tingkat kemiripan antar data.
Dalam penelitian ini juga dilakukan Koefisien Silhouette atau Silhouette Index dimana metode ini bertujuan untuk

mengukur validasi baik sebuah data, cluster tunggal atau keseluruhan cluster. Berdasarkan dua komponen yaitu a i

sebagai jarak dari data ke-i terhadap semua data dalam cluster yang sama, dan b isebagai rata-rata jarak dari data

ke-i terhadap semua data dari cluster lain. Berikut adalah rumus untuk menghitung komponen a i.

1
a ij=
mj

Flowchart metode klasterisasi yang digunakan pada penelitian ini dapat dilihat pada Gambar 1.

Gambar 1. Flowchart penentuan minat nasabah asuransi

Gambar 1 menunjukkan langkah-langkah untuk menentukan minat nasabah asuransi yaitu input data
meliputi data inisial, nama nasabah, jenis asuransi yang sebelumnya dibersihkan dari data yang sama (redundant)
dengan memakai aplikasi yang extends dengan Ms. Excel bernama Kutools. Selanjutnya tentukan jumlah klaster
yang bisa dipilih oleh user. Normalisasi data diperlukan untuk menyamakan satuan. Setelah mendapatkan nilai
normalisasi, selanjutnya adalah proses perhitungan dengan menggunakan metode single linkage. Langkah
berikutnya adalah menentukan centroid awal untuk metode k-means menggunakan klasterisasi agglomerative
model single linkage. Berikut ini merupakan tahapan untuk metode single linkage.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

Gambar 2. Flowchart agglomerative dengan single linkage

Gambar 2 merupakan flowchart proses metode single linkage. Dari data yang ternormalisasi dan input
jumlah k, berikutnya hitung jarak antar cluster dengan Euclidean distance dan pilih jarak minimal. Iterasi berjalan
sampai k tercapai. Setelah iterasi berhenti, dilakukan perhitungan rata-rata dari jumlah data pada iterasi terakhir.
Nilai rata-rata ini merupakan centroid awal yang akan digunakan pada metode k-means terbentuk. Berikut ini
adalah tahapan metode k-means.

Gambar 3 Flowchart metode k-means


Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

Gambar 3 merupakan flowchart dari metode k-means. Centroid yang dihasilkan oleh metode
agglomerative (hierarchical clustering) digunakan sebagai inisialisasi centroid pada metode k-means. Selanjutnya,
hitung jarak masing-masing centroid. Dari perhitungan jarak ini, centroid akan dicari secara iteratif sampai tidak
ada objek yang berpindah dalam klaster yang dibentuk. Jika kondisi ini dipenuhi maka metode k-means
menghasilkan klaster-klaster minat nasabah asuransi sesuai dengan jumlah k yang diinputkan.

III. RESULTS
Data pada penelitian ini melalui tahap pra-pemrosesan data sebelum digunakan untuk melakukan proses
klasterisasi. Atribut yang dipilih untuk dijadikan acuan dalam proses pengelompokan data yang berhubungan
dengan nasabah peminat asuransi PT. Sinar Mas, sampel data 20 orang nasabah dan 3 cluster produk asuransi
yaitu asuransi kebakaran, asuransi kecelakaan dan asuransi kesehatan. Berikut ini sampel data laporan jumlah
nasabah peminat asuransi. Data diuji dengan mengklasterkan secara agglomerative dan k- means.

A. K-Means

Metode K-Means diawali dengan meng-import library yang diperlukan, kemudian meng-import dataset
‘MinatAsuransi.csv’ dan melihat gambaran datanya. Setelah melihat gambaran data, langkah selanjutnya ialah
melakukan preprocessing dataset dengan menghapus kolom ‘No.’, ‘Inisial’, dan ‘Nama Nasabah’, mengecek nilai
null, dan melakukan normalisasi menggunakan StandardScaler. Setelah itu, dilakukan PCA (Principal Component
Analysis) untuk menyederhanakan data dengan mentransformasi data ke bentuk yang diinginkan. Karena akan
lebih mudah memvisualisasikan data ke dalam bentuk 2 dimensi, maka data yang awalnya terdiri dari 3 komponen
ditransformasi menjadi 2 komponen dengan menggunakan variabel P1 dan P2.

Gambar 4. Metode Elbow

Setelah tahap preprocessing selesai dilakukan, langkah selanjutnya ialah menentukan K-Means yang diawali
dengan menentukan jumlah cluster terlebih dahulu. Untuk menentukan jumlah cluster terbaik, kita dapat
menggunakan Metode Elbow. Berdasarkan hasil Metode Elbow pada Gambar 4, didapatkan bahwa jumlah cluster
terbaik ialah antara k = 3 atau k = 4 karena perbandingan siku pada suatu titiknya paling besar.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

Gambar 5. Scatter Plot

Ketika menggunakan k = 3, didapatkan scatter plot seperti pada Gambar 5. Berdasarkan hasil pada scatter plot
tersebut, didapatkan bahwa terdapat 3 jumlah cluster yang dimana setiap clusternya memiliki centroid masing-
masing. Lalu, setelah dihitung, didapatkan silhouette score-nya sebesar 0,475.

B. Agglomerative Clustering
Dengan visualisasi Dendrogram, terlihat Hierarki yang menghubungkan data-data dengan jarak yang dekat
sebagai 1 cluster hingga yang paling atas adalah garis yang menghubungkan 2 buah cluster yang tersisa.

Selanjutnya mencari jumlah cluster dengan Silhouette scores, untuk menentukan jumlah cluster terbaik 2
dari 10, semakin tinggi Silhouette score akan semakin baik cluster yang terbentuk. Hasil clustering dikatakan baik
jika data-data di dalam 1 cluster berbeda jauh dengan data data di cluster lainnya.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

Agar memudahkan pemahaman hasil metode klasterisasi agglomerative ditampilkan penyebaran


Agglomerative clustering, setelah terbentuk data baru dengan variabel x dan y dilakukan pewarnaan dan
pelabelan.

IV. DISCUSSION
Dengan dilakukannya 2 Metode yaitu K-Means yang didukung dengan metode elbow untuk menentukan cluster
optimal serta klasterisasi Agglomerative yang didukung dengan silhouette scores.
Diperoleh hasil clusterisasi sebagai berikut:

Inisial Cluster (K-Means) Cluster (Agglomerative)

P1 1 0

P2 1 0

P3 2 2

P4 0 1
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

P5 1 0

P6 1 0

P7 1 0

P8 2 2

P9 0 1

P10 0 1

P11 1 0

P12 0 1

P13 0 1

P14 0 1

P15 2 2

P16 2 2

P17 1 0

P18 2 2

P19 0 1

P20 1 0

Berdasarkan tabel hasil diatas maka masing-masing cluster memiliki anggota sebagai berikut:
a. Cluster 0 memiliki jumlah anggota 7 orang
b. Cluster 1 memiliki jumlah anggota 5 orang
c. Cluster 2 memiliki jumlah anggota 8 orang
Dapat ditunjukkan juga bahwa setiap metode memiliki hasil yang berbeda, jika ditinjau dari masing-masing
validasi tampak K-Means lebih tinggi yaitu 0.475 sedangkan untuk hasil silhouette scores dari klasterisasi
Agglomerative lebih rendah yaitu diangka 0.447. Hal ini yang membuat K-Means bisa dikatakan lebih baik dalam
hal klasterisasi.

V. CONCLUSIONS
Berdasarkan perhitungan data yang sudah dilakukan dengan menggunakan metode K-Means dan klasterisasi
Agglomerative diperoleh 3 cluster dari keseluruhan, yaitu cluster 0 untuk asuransi kebakaran mempunyai anggota
sejumlah 7 orang, cluster 1 untuk asuransi kecelakaan mempunyai anggota sejumlah 5 orang, cluster 2 untuk
asuransi kesehatan mempunyai anggota sejumlah 8 orang. Pada hasil akhir terlihat semua data memiliki kedekatan
yang sama antara satu dengan yang lain sehingga terbentuk satu pengelompokan berdasar jarak kedekatan
dengan nilai data
Dengan demikian pembentukan cluster yang lebih optimal dalam klasterisasi produk asuransi yaitu dengan
menggunakan metode K-Means karena hasil silhouette scores dari K-Means yaitu 0.475 lebih tinggi dari silhouette
scores klasterisasi Agglomerative yaitu diangka 0.447.
Meida, Priska, Nada, Cynthia
Journal of Actuarial Data Analytics

REFERENCES

[1] Aries Aprilia,Weny Mistarika Rahmawati, dan Maftahatul Hakimah, “Penentuan Kategori Status Gizi Balita Menggunakan Penggabungan
Metode Klasterisasi Agglomerative dan K-Means,” Seminar Nasional Sains dan Teknologi Terapan VII. 2019.
[2] Juniar Hutagalung, Fifin Sonata, “Penerapan Metode K-Means Untuk Menganalisis Minat Nasabah Asuransi,” vol. 5, no. 3, p. 1187-1194,
Juli. 2021.

Anda mungkin juga menyukai