Anda di halaman 1dari 16

1.

Apa perbedaan antara supervised dengan unsupervised learning


Jawab:
Perbudaan utama:
Perbedaan utama antara kedua pendekatan tersebut adalah penggunaan
kumpulan data berlabel. Sederhananya, supervised learning menggunakan data
input dan output berlabel, sedangkan unsupervised learning tidak.
Dalam supervised learning, algoritme “belajar” dari kumpulan data pelatihan
dengan membuat prediksi secara iteratif pada data dan menyesuaikan jawaban yang
benar. Sementara model supervised learning cenderung lebih akurat daripada
model unsupervised learning, model tersebut memerlukan intervensi manusia untuk
memberi label data dengan tepat. Misalnya, model supervised learning dapat
memprediksi berapa lama perjalanan Anda akan didasarkan pada waktu, kondisi
cuaca, dan sebagainya. Tetapi pertama-tama, Anda harus melatihnya untuk
mengetahui bahwa cuaca hujan memperpanjang waktu mengemudi.
Model Unsupervised learning, sebaliknya, bekerja sendiri untuk menemukan
struktur inheren dari data yang tidak berlabel. Perhatikan bahwa mereka masih
memerlukan beberapa intervensi manusia untuk memvalidasi variabel output.
Misalnya, model Unsupervised learning dapat mengidentifikasi bahwa pembeli online
sering membeli kelompok produk pada waktu yang sama. Namun, seorang analis
data perlu memvalidasi bahwa masuk akal bagi mesin rekomendasi untuk
mengelompokkan pakaian bayi dengan urutan popok, saus apel, dan cangkir.

Perbedaan Dari segi tujuan:


Dalam supervised learning, tujuannya adalah untuk memprediksi hasil untuk
data baru. Anda tahu di depan jenis hasil yang diharapkan. Dengan algoritme
unsupervised learning, tujuannya adalah untuk mendapatkan wawasan dari sejumlah
besar data baru. Pembelajaran mesin itu sendiri menentukan apa yang berbeda atau
menarik dari dataset.
Perbedaan dari segi Applications:
Model supervised learning ideal untuk deteksi spam, analisis sentimen,
prakiraan cuaca, dan prediksi harga, antara lain. Sebaliknya, unsupervised learning
sangat cocok untuk deteksi anomali, mesin rekomendasi, persona pelanggan, dan
pencitraan medis.
Perbedaan dari segi Complexity:
Supervised learning adalah metode sederhana untuk pembelajaran mesin,
biasanya dihitung melalui penggunaan program seperti R atau Python. Dalam
unsupervised learning, Anda memerlukan alat canggih untuk bekerja dengan
sejumlah besar data yang tidak diklasifikasikan. Model unsupervised learning rumit
secara komputasi karena mereka membutuhkan pelatihan yang besar untuk
menghasilkan hasil yang diinginkan.
Perbedaan dari segi “Drawbacks”:
Model supervised learning dapat memakan waktu lama untuk dilatih, dan
label untuk variabel input dan output memerlukan keahlian. Sementara itu, metode
Supervised learning dapat memiliki hasil yang sangat tidak akurat kecuali Anda
memiliki campur tangan manusia untuk memvalidasi variabel keluaran.

2. Sebutkan tools-tools yang digunakan pada data science dan jelaskan kelebihan dan
kekurangan masing-masing tools tersebut
Jawab:
a. Apache Spark
Apache Spark atau Spark adalah tools analisis yang dirancang dengan banyak
API untuk memfasilitasi Data Scientist membuat akses ke data yang diperlukan
untuk machine learning atau penyimpanan dalam SQL. Ini adalah alat gratis lain
yang menawarkan komputasi cluster dalam sekejap mata, yang secepat kilat.
Saat ini, sejumlah organisasi menggunakan Spark untuk memproses kumpulan
data besar. Alat data scientist ini mampu mengakses beragam sumber data,
termasuk HDFS, HBase, S3, dan Cassandra.

Kelebihan: Apache Spark memiliki banyak API machine learning yang dapat
membantu Anda membuat prediksi lebih kuat berdasarkan data. Apache Spark
menawarkan berbagai API yang dapat diprogram dalam Python, R, dan Java.
Selain itu, data science tools yang satu ini juga memiliki kecepatan tinggi.
Apache Spark dapat mencapai performa tinggi dalam hal pemrosesan data.

Kekurangan: Di satu sisi, web server Apache merupakan pilihan terjitu untuk
menjalankan website di platform yang canggih dan stabil. Namun, di sisi lainnya,
Apache juga memiliki beberapa kekurangan yaitu, Terjadi gangguan pada
performa jika suatu website menerima traffic dengan jumlah sangat tinggi dan
Terlalu banyak opsi konfigurasi yang bisa mengarah ke rentannya keamanan.

b. Tableau
Tableau adalah tools visualisasi data yang dikhususkan untuk keperluan intelijen
bisnis (business intelligence). Fungsi dari Tableau adalah mempercepat
pembuatan visualisasi interaktif dari pengolahan data tertentu. Fitur penting dari
Tableau adalah kemampuannya untuk berinteraksi dengan database,
spreadsheet, dan OLAP (Online Analytical Processing). Dengan fitur-fitur
tersebut, data science tools ini memiliki kemampuan untuk memvisualisasikan
data geografis dan dapat digunakan untuk merencanakan bujur dan lintang pada
peta. Tidak hanya itu, Tableau memungkinkan industri perbankan untuk
memonitor kinerja bisnis, pergerakan transaksi nasabah, dan potensi untuk
melakukan cross-selling produk.

Kelebihan:
Kemampuan visualisasi yang tak tertandingi adalah keunggulan utama Tableau.
Dengan menggunakan teknologi visualisasi yang unik, kita dapat dengan cepat
menganalisis data dengan cara mengekspresikan hasil analisis dengan
menggunakan warna, bentuk, dan ukuran. Tim development masih
menginvestigasi mana jenis grafik yang lebih disukai pengguna jadi Tableau
dapat menampilkan grafik terbaik untuk data. Satu-satunya kelemahan di bagian
ini adalah meter, grafik 3D dan ketidakmampuannya dalam membuat heatmap.

Kekurangan:
Kemampuan BI yang Rendah, Tableau tidak memiliki fungsi yang diperlukan oleh
software BI komprehensif seperti laporan skala besar, pembuatan tabel data, dan
static layout. Selain itu, format expor dan pencetakan juga terbatas yang
mempersulit pembagian hasil. Masalah Dalam Penyesuaian, dimana Tableau
cukup tertutup karena sulit untuk disesuaikan kedalam TI perusahaan.

c. Google Data Studio


Google Data Studio adalah tools visualisasi data yang dapat mengubah data
dalam bentuk dashboard dan laporan menjadi lebih informatif, interaktif, dan
responsif. Data science tools milik Google ini dapat membantu Anda
membagikan data dan berkolaborasi kepada tim secara real-time dengan lebih
mudah. Selain untuk memvisualisasikan data, Google Data Studio dapat
memantau perkembangan harian, mendeteksi anomali, hingga memprediksi tren
data yang akan terjadi.

Kelebihan: Opsi Widget Lengkap, Data Studio menyediakan alat lengkap yang
dapat berkinerja lebih baik daripada Google Analytics. Hal ini karena Google
Analytics menampilkan 12 grafik atau pilihan grafik dalam satu laporan. Saat
berada di Data Studio, kamu dapat mengakses opsi widget tambahan seperti
Diagram panah, diagram lingkaran, diagram deret waktu, dan sebagainya. Data
Studio memberi kamu fleksibilitas untuk melihat data sesukamu.

Kekurangan:
- Masalah Pemformatan Format: Data Studio bersifat unik karena hanya
berlaku untuk Data Studio. Dengan kata lain, ini tidak berfungsi seperti
Google Spreadsheet. Karena itu, sering kali ada masalah dengan data
yang tidak dapat diubah atau dibuka di luar Google Data Studio.
- Bukan Alat Intelijen Bisnis: Analisis Google Data Studio tidak sebanding
dengan alat intelijen bisnis (BI) teratas di pasar saat ini (Tableau, Power
BI, atau hanya beberapa). Google Data Studio bagus untuk
memvisualisasikan data, tetapi tidak begitu bagus untuk menganalisis
data.

d. QlikView
QlikView adalah data science tools yang bisa membantu membuat pengumpulan,
integrasi, dan pemrosesan data menjadi sangat cepat dengan fitur penyimpanan
dan memori yang disediakan. QlikView juga bisa digunakan untuk membuat
laporan data menggunakan software visualisasi dan dihubungkan secara
otomatis oleh software QlikView. Tidak hanya itu, salah satu fungsi QlikView
adalah pencarian pola dan tren dalam kumpulan data. Sehingga, QlikView dapat
membantu Anda memahami dan melihat pola dengan menyediakan tools bantu
visual seperti grafik, tabel, peta, dan lain sebagainya.

Kelebihan:
- Data Search Langsung dan Tidak Langsung: Di QlikView, Anda dapat
mencari data secara langsung dan tidak langsung. Di pencarian
langsung, Anda dapat menginput data dan mendapatkan informasi Anda.
Di pencarian tidak langsung, Anda dapat menginput sesuatu yang
berkaitan dengan data yang Anda perlukan dan Anda akan mendapatkan
data yang berkaitan.

Kekurangan:
- Tidak user-friendly untuk pengguna non-teknis: Manajemen data
harusnya user-friendly. Saat ini, hal ini terdapat didalam script editor.
Orang dengan pengetahuan Relational Database dapat menanganinya
dengan mudah, tapi diperlukan pengetahuan seorang programmer. Jika
Anda adalah pengguna non-teknis, QlikView cukup sulit untuk dipelajari.
- Tidak mendukung grafik peta: Pembuatan grafik pemetaan geografis
cukup kompleks kecuali jika Anda membeli add-on third-party.

e. Sisense
Sisense adalah tools data analysis yang memiliki kelebihan untuk membantu
memvisualisasikan hasil analisis data menjadi lebih mudah dimengerti.

Kelebihan:
- kemampuannya dalam menggabungkan data dari berbagai macam
sumber dan menyajikannya dengan visualisasi yang menarik.
- menyediakan dashboard yang interaktif untuk kolaborasi bersama
anggota tim. Jadi, kerja sama antar anggota tim bisa dengan mudah
dilakukan dengan tools yang satu ini.
- Sisense dapat dengan mulus mengintegrasi aplikasi third-party populer
seperti Google Adwords, Excel, Zendesk, dan Salesforce.
- Dengan in-chip engine dalam software ini, Anda dapat bertanya dan
mendapatkan jawab secara cepat tanpa perlu kembali ke drawing board
untuk masalah baru.

Kekurangan:

- Grafik yang terbatas: Grafiknya terbatas. Selain itu, visualisasi dan fitur
pelaporannya terlalu mendasar dibandingkan dengan kompetitornya.
- Tidak mudah untuk kerjaan tim: Saat ini, admin tidak dapat mengedit
dashboard admin lain, hanya pemilik folder dan dashboard yang dapat
mengedit dan mempublikasinya.

3. Jelaskan ada yang dimaksud dengan exploratory data analysis (EDA) pada data
science
Jawab:

Exploratory data analysis (EDA) digunakan oleh ilmuwan data untuk menganalisis
dan menyelidiki kumpulan data dan merangkum karakteristik utamanya, sering kali
menggunakan metode visualisasi data. Ini membantu menentukan cara terbaik untuk
memanipulasi sumber data untuk mendapatkan jawaban yang yang kita butuhkan, sehingga
memudahkan data scientists untuk menemukan pola, menemukan anomali, menguji
hipotesis, atau memeriksa asumsi.

Analisis Data Eksplorasi (EDA) adalah pendekatan untuk menganalisis data


menggunakan teknik visual. Ini digunakan untuk menemukan trends, patterns, or to check
assumptions dengan bantuan ringkasan statistik dan representasi grafis.

EDA terutama digunakan untuk melihat data apa yang dapat diungkapkan di luar
pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih
baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat
membantu menentukan apakah teknik statistik yang kita pertimbangkan untuk analisis data
sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada
1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses
penemuan data saat ini.

EDA diciptakan, dikembangkan dan diadvokasi oleh John Tukey. Bukunya yang
berjudul " Exploratory Data Analysis " diterbitkan pada tahun 1977, dan masih digunakan
sampai sekarang. Ini mungkin tampak aneh, tetapi itu adalah perubahan mendasar dalam
cara ilmu data / statistik dilakukan. Pada dasarnya dia meringkas EDA dengan kutipan ini:

“It is important to understand what you CAN DO, before you learn to measure how
WELL you seem to have DONE it.” – J. W. Tukey (1977)

Jika Anda tidak memahami data, menjadi sulit untuk mengetahui bagaimana
menganalisisnya. Analisis Confirmatory dan exploratory tidak lebih unggul atau lebih rendah
satu sama lain, melainkan saling melengkapi. Dengan semua alat yang tersedia untuk
melakukan keduanya, mengabaikan salah satunya tidak dapat dimaafkan.

“Today, exploratory and confirmatory (analysis) – can – and should – proceed side
by side.” – J. W. Tukey (1977)

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi
apa pun. Ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami
pola dalam data, mendeteksi outlier atau peristiwa anomali, menemukan hubungan yang
menarik di antara variabel.

Data scientists dapat menggunakan exploratory analysis untuk memastikan hasil


yang mereka hasilkan valid dan berlaku untuk setiap hasil dan tujuan bisnis yang diinginkan.
EDA juga membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka
mengajukan pertanyaan yang tepat. EDA dapat membantu menjawab pertanyaan tentang
deviasi standar, variabel kategoris, dan interval kepercayaan. Setelah EDA selesai dan
wawasan dibuat, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan
data yang lebih canggih, termasuk machine learning.

Exploratory Data Analysis dapat diterapkan untuk menganalisis data di segala


bidang. Berikut ini adalah beberapa contoh penerapan Eda:

1. Dalam dunia bisnis EDA bisa digunakan untuk menganalisis data kepegawain
Berikut contoh visualisasi dari analisis data kepegawain dengan menggunakan
Exploratory Data Analysis
4. Jelaskan bagaimana machine learning dapat memprediksi opini dari teks yang ada
pada media sosial seperti Twitter
Jawab:
Dalam memprediski opini dari teks kita bisa menggunkanan Sentiment
analysis. Sentiment analysis adalah proses penggunaan text analytics untuk
mendapatkan berbagai sumber data dari internet dan beragam platform media
sosial. Tujuannya adalah untuk memperoleh opini dari pengguna yang terdapat pada
platform tersebut. Sentiment analysis merupakan salah satu bidang dari Natural
Languange Processing (NLP) yang membangun sistem untuk mengenali dan
mengekstraksi opini dalam bentuk teks.
Guna menghasilkan opini yang dibutuhkan, sentiment analysis tidak hanya
harus bisa mengenali opini dari teks. Proses yang juga disebut sebagai opini mining
ini juga perlu bekerja dengan mengenali tiga aspek berikut:
 Subjek: topik apa yang sedang dibicarakan.
 Polaritas: apakah opini yang diberikan bersifat positif atau negatif.
 Pemegang opini: seseorang yang mengeluarkan opini tersebut.

Sentiment analysis kemudian akan membedakan teks menjadi dua kategori,


yakni fakta dan opini. Fakta merupakan ekspresi objetif mengenai sesuatu.
Sementara opini adalah ekpresi subjektif yang menggambarkan sentimen, perasaan,
maupun penghargaan terhadap suatu hal.

Cara kerja sentiment analysis dalam mengambil data dapat dibagi menjadi
tiga langkah, yakni klasifikasi, evaluasi, dan visualisasi hasil. Tahap pertama yaitu
klasifikasi, pada tahap ini kita bisa menggunkanan Machine learning. Kita bisa
mwlakukan klasifikasi dengan melakukan Clustering dengan menggunakan algoritma
k-means.

Sebagai contoh, Clustering data sosial media twitter dengan menggunakan


algoritma k-means sebagai dasar untuk mengetahui preferensi pengguna sebagai
dasar untuk target marketing. Twitter menyediakan berbagai jenis fitur, dimana kita
bisa mangambil data dari berbagai jenis fitur yang disajikan oleh twitter. Terdapat
fitur trending topic yang merupakan topik yang sedang banyak dibicarakan oleh
pengguna Twitter secara real time. Penggunaan trending topic dengan
menggunakan hashtag “#” untuk menandai tweet secara topikal sehingga yang lain
bisa mengikuti percakapan yang berpusat pada topik tertentu. Selain itu, Twitter juga
mempunyai fitur yang menampilkan apa saja tweet yang disukai pengguna yang
disebut dengan favorite dan juga yang menampilkan apa saja tweet yang dibagikan
kembali pengguna yang disebut dengan retweet.

Twitter mempunyai data user dan data tweet untuk setiap penggunanya.
Setiap data tersebut dapat terakuisisi dengan memanfaatkan Twitter API. Untuk
dapat mengakusisi data Twitter maka mendaftar sebuah aplikasi Twitter. Sebelum
mendaftar sebuah aplikasi Twitter, harus dilakukan login. Kemudian Aplikasi Twitter
akan menyediakan OAuth API sebagai bentuk autentikasi. Setelah mendapatkan
OAuth API (Consumer Key, Consumer Secret, Access Token, dan Access Secret
Token) proses akuisisi data user dan data tweet bisa dilakukan. Setelah
mendapatkan OAuth API, dilakukan crawling data untuk mengakuisisi data
berdasarkan lokasi Geocode, dan input keyword. Pada contoh ini keyword yang
diinputkan berkaitan dengan “K-Pop” dan “K-Drama” . Setelah itu nanti kita bisa
melihat data user yang sesuai dengan lokasi dan keyword yang kita masukkan. Pada
proses crawling tweet, Twitter melakukan payload yang artinya hasil yang dikirim
kembali setelah API panggilan. Pada Twitter menggunakan payload berupa JSON.
Ini juga dapat disebut ini output, atau set hasil. Payload ini biasanya terbuat dari
objek, yang mewakili konsep-konsep di Twitter seperti pengguna, status, dan
lainnya. Contohnya adalah potongan JSON fitur data tweet dengan keyword “Song
Joong Ki”. Halaman hasil menampilkan semua informasi yang sesuai dengan
keyword. Kita juga bisa menyimpan data yang ada pada database dalam
format CSV. Setelah data yang kita inginkan sudah didapat. Maka kita bisa
melakukan proses Clustering dengan K-Means. Sebagai contoh hasil dari
proses Clustering dengan K-Means yang dilakukan oleh Binuri Ayu Dwiarni
dan Budi Setiyono dari ITS yang termuat pada jurnal yang berjudul “Akuisisi dan
Clustering Data Sosial Media Menggunakan Algoritma K-Means sebagai Dasar untuk
Mengetahui Profil Pengguna”, sebagai berikut:

Dari data tweet sebanyak 68.392 yang berlokasi pada latitude (-


4.640003) dan longitude (109.866141) dengan radius 590KM, mayoritas
orang-orang yang melakukan tweet K-Pop dan K-Drama dengan 87 keyword
tertentu membuat tweet pada jam 21.00 – 01.00.

Berdasarkan hasil clustering tersebut maka tentunya kisa bisa memutuskan


kapan waktu yang baik untuk memasang iklan di twitter, wilayah mana yang bisa kita
jadikan sebagai target market atau bahkan siapa saja yang bisa menjadi target
market kita.
Setelah data berhasil di klasifikasikan berdasarkan metode clustering dengan
menggunkana algoritma k-means kita bisa melanjutkan ke tahap kedua dari sentiment
analysis yaitu, Evaluasi. Setelah data terklasifikasi,metode analisis sentimen berikutnya
adalah menggunakan metrik evaluasi seperti Precision, Recall, F-score, dan Accuracy.
Proses ini juga melibatkan pengukuran rata-rata seperti makro, mikro, dan skor F1
tertimbang untuk menangani data yang masuk ke dalam dua klasifikasi atau lebih. Metrik
yang digunakan didasarkan pada keseimbangan klasifikasi set data. Secara umum,
skemanya adalah sebagai berikut: tinjauan set data, pre-processing, tokenizer,
penghapusan stopwords, transformasi, klasifikasi, dan evaluasi.

Langkah terkahir dari sentiment analysis yaitu, Visualisasi data. Langkah selanjutnya
dalam metode analisis sentimen adalah visualisasi data. Visualisasi data dilakukan
menggunakan bagan sesuai kebutuhan perusahaan atau siapa saja yang memanfaatkan
data-data ini. Sebagian besar orang biasanya menggunakan teknik yang sudah dikenal,
seperti grafik, histogram, atau matriks. Namun, hasil akhir dari sentiment analysis bisa
sangat bervariasi. Data yang ada dapat muncul disertai domain lain yang terlibat. Karena
itulah, teknik visualisasi data berupa wordcloud, peta interaktif, dan gaya sparkline juga
cukup efektif untuk menampilkan hasil analisis.

5. Terdapat empat (4) algoritma yang sering digunakan pada machine leaning antara
lain; Linear Regression, k-Nearest Neighbors, k-means, dan Naive Bayes. Jelaskan
salah satu dari algoritma tersebut dengan data.
Jawab:

Algoritma K-Means

Metode K-means merupakan metode clustering yang paling sederhana dan umum.
Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah
yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means merupakan
salah satu algoritma klastering dengan metode partisi (partitioning method) yang berbasis
titik pusat (centroid) selain algoritma k-Medoids yang berbasis obyek. Algoritma ini pertama
kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh Hartigan dan Wong tahun
1975 dengan tujuan untuk dapat membagi M data point dalam N dimensi kedalam sejumlah
k cluster dimana proses klastering dilakukan dengan meminimalkan jarak sum squares
antara data dengan masing masing pusat cluster (centroid-based). Algoritma k-Means
dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna
yaitu jumlah cluster k, inisialisasi klaster, dan jarak system, Biasanya, k-Means dijalankan
secara independen dengan inisialisasi yang berbeda menghasilkan cluster akhir yang
berbeda karena algoritma ini secara prinsip hanya mengelompokan data menuju local
minimal. Salah satu cara untuk mengatasi local minima adalah dengan
mengimplementasikan algoritma k-Means, untuk K yang diberikan, dengan beberapa nilai
initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil
(Jain, 2009).

K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering
obyek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari cluster
menjadi rata-rata point dari cluster tersebut.Dalam penerapan algoritma k-Means, jika
diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …, xin) adalah ystem
dalam ruang real Rn, maka algoritma k-Means akan menyusun partisi X dalam sejumlah k
cluster (a priori). Setiap cluster memiliki titik tengah (centroid) yang merupakan nilai rata rata
(mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-Means adalah
memilih secara acak k buah obyek sebagai centroid dalam data. Kemudian, jarak antara
obyek dan centroid dihitung menggunakan Euclidian distance. Algoritma k-Means secara
iterative meningkatkan variasi nilai dalam dalam tiap tiap cluster dimana obyek selanjutnya
ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik tengah
baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses
penentuan titik tengah dan penempatan data dalam cluster diulangi sampai nilai titik tengah
dari semua cluster yang terbentuk tidak berubah lagi (Han dkk, 2012).

Algoritma k-means:

Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi.

Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster.

Langkah 3: Untuk masing-masing data, temukan pusat cluster terdekat. Dengan


demikian berarti masing-masing pusat cluster memiliki sebuah subset dari dataset, sehingga
mewakili bagian dari dataset. Oleh karena itu, telah terbentuk cluster k: C1, C2, C3, …, Ck .

Langkah 4: Untuk masing-masing cluster k, temukan pusat luasan klaster, dan


perbarui lokasi dari masing-masing pusat cluster ke nilai baru dari pusat luasan.

Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster menjadi
terpusat atau selesai.

Algoritma K-Means Clustering bisa diterapkan pada banyak proses pengolahan


data, salah satu contohnya adalah seperti pada forum 11 yang sudah saya tulis yaitu
Clustering data sosial media twitter dengan menggunakan algoritma k-means sebagai dasar
untuk mengetahui preferensi pengguna sebagai dasar untuk target marketing.

Contoh proses K-Means Clustering

Berikut terdapat 8 record yang akan menjadi dataset kemudian dataset tersebut akan
kita gunakan dalam membantu memahami penerapan algoritma k-means clustering.

Langkah Pertama, tentukan jumlah cluster, sebagai contoh jumlah cluster yang akan
di bentuk dari dataset di atas adalah 2 Cluster (kelompok).

Langkah Kedua, tetapkan 2 record dari dataset sebagai titik pusat cluster.

M1 : {1,1} -> Titik pusat Cluster pertama (C1)

M2 : {2,1} -> Titik pusat Cluster kedua (C2)

Langkah ketiga, tentukan pusat cluster terdekat untuk setiap record dari dataset.
Nah, untuk tahap ini kita akan menggunakan persamaan Euclidean untuk menentukan jarak
setiap record dengan pusat cluster.
Dan dihitung seterusnya hingga data paling akhir (data ke 8), sehingga diperoleh
rekap hasil perhitungan jarak terdekat ke setiap cluster sebagai berikut :

Langkah Keempat, tentukan cluster(kelompok) setiap record dan perbaharui titik


pusat cluster.
Setelah cluster(kelompok) untuk setiap record ditentukan seperti pada tabel di atas,
tugas kita sekarang adalah memperbaharui nilai titik pusat cluster, yang mana sebelumnya
titik pusat cluster kita adalah M1{1,1} dan M2{2,1}. Untuk meng-update nilai titik pusat
cluster, kita dapat menggunakan persamaan cluster center sebagai berikut :

Maka titik pusat cluster terbaru adalah sebagai berikut :

Setelah didapat nilai update titik pusat cluster, selanjutnya kita akan mengulangi
langkah ketiga, guna menentukan kembali kelompok tiap data. Untuk menguji apakah terjadi
perpindahan kelompok pada data tersebut. So, setelah di hitung kembali didapatlah hasil
nilai terdekat tiap kelompok sebagai berikut.
sementara untuk penentuaan kelompok dapat dilihat pada tabel di bawah ini

Setelah dilakukan penentuan cluster yang baru, sesuai dengan titik pusat cluster
yang diupdate sebelumnya, ditemukan adanya 1 data yang berpindah kelompok, yang
mengakibatkan pengelompokan pada iterasi pertama ini belum konvergen, sehingga harus
dilakukan penentuan kelompok kembali pada iterasi kedua dengan nilai titik pusat cluster
yang harus diupdate ulang.

Adapun hasil pengelompokan setelah melakukan ulang langkah 3 dan langkah 4


adalah sebagai berikut :
Pada iterasi 2, tidak terjadi perpindahan kelompok pada setiap data, dengan ini maka
pengelompokan sudah dinyatakan konvergen atau sudah dianggap optimal.

sebenarnya, inti dari terjadinya banyak iterasi adalah pada saat pemilihan acak titik
pusat cluster di awal, sebaiknya pilihlah titik pusat cluster yang memiliki selesih yang cukup
jauh agar tidak banyak iterasi yang terbentuk, selain itu pastikan juga bahwa titik pust cluster
benar-benar menggambarkan atau mewakili kelompok data yang ingin dikelompokan.

Anda mungkin juga menyukai