Anda di halaman 1dari 14

BAB I

DATA ANALITIK
https://aws.amazon.com/id/what-is/data-analytics/

1.1. Apa itu Data Analitik?


Analitik data mengubah data mentah menjadi wawasan yang dapat ditindaklanjuti.
Analitik data mencakup berbagai alat, teknologi, dan proses yang digunakan untuk
menemukan tren dan memecahkan masalah dengan menggunakan data. Analitik data
dapat membentuk proses bisnis, meningkatkan pengambilan keputusan, dan
mendorong pertumbuhan bisnis.

1.2. Mengapa Data Analitik Penting?


Analitik data membantu perusahaan untuk mendapatkan lebih banyak visibilitas dan
pemahaman secara mendalam pada proses serta layanan mereka. Analitik data ini
memberi perusahaan wawasan mendetail tentang pengalaman pelanggan dan
permasalahan pelanggan. Dengan menggeser paradigma di luar data untuk
menghubungkan wawasan dengan tindakan, perusahaan dapat menciptakan
pengalaman pelanggan yang dipersonalisasi, membangun produk digital terkait,
mengoptimalkan operasi, dan meningkatkan produktivitas karyawan.

1.3. Tipe-Tipe Data Analitik


Tipe-tipe data analitik dapat dikombinasikan untuk memberikan pemahaman menyeluruh
tentang kebutuhan dan peluang perusahaan. Terdapat empat tipe utama data analitik,
antara lain:
a) Analisis Deskriptif - “Apa yang terjadi?”
Analisis ini merangkum kumpulan data besar dengan memberikan hasil berupa
visualisasi ke stakeholder. Matriks yang paling banyak digunakan adalah ROI
(Return of Investment). Perusahaan juga biasanya memiliki matriks lain yang lebih
spesifik untuk melacak kinerja tertentu.
b) Analisis Diagnostik - “Mengapa sesuatu terjadi?”
Analisis ini melengkapi hasil dari analisis deskriptif dengan menggali lebih dalam
untuk menemukan penyebabnya. Analisis ini biasanya dilakukan dalam tiga tahap,
yaitu mengidentifikasi anomali data (perubahan tidak terduga dalam pasar tertentu),
mengumpulkan data anomali, dan menggunakan teknik statistik untuk menemukan
hubungan serta tren yang menjelaskan anomali tersebut.
c) Analisis Prediktif - “Apa yang akan terjadi di masa depan?”
Analisis ini menggunakan data historis untuk mengidentifikasi tren dan menentukan
apakah tren tersebut cenderung berulang atau tidak. Analisis ini menggunakan
teknik statistik dan machine learning untuk analisis lanjutan, seperti regresi, neural
networks, dan decision trees.

1
d) Analisis Preskriptif - “Apa yang harus dilakukan?”
Analisis ini menggunakan hasil dari analisis prediktif untuk membuat keputusan dan
langkah yang tepat. Teknik dalam analisis ini mengandalkan machine learning untuk
menemukan pola dalam kumpulan data yang besar.

1.4. Apa Saja Macam Teknik Analitik Data?


Banyak teknik komputasi digunakan dalam analitik data. Berikut ini adalah beberapa
teknik komputasi yang paling banyak digunakan:
a) Pemrosesan bahasa alami
Pemrosesan bahasa alami merupakan teknologi yang digunakan untuk membuat
komputer memahami dan merespons bahasa lisan dan tulisan manusia. Analis data
menggunakan teknik ini untuk memproses data seperti catatan yang didiktekan,
perintah suara, dan pesan obrolan.
b) Penambangan teks
Analis data menggunakan penambangan teks untuk mengidentifikasi tren dalam
data teks seperti email, tweet, riset, dan postingan blog. Penambangan teks dapat
digunakan untuk mengurutkan konten berita, umpan balik pelanggan, dan email
klien.
c) Analisis data sensor
Analisis data sensor merupakan pemeriksaan data yang dihasilkan oleh berbagai
sensor. Analisis ini digunakan untuk pemeliharaan mesin prediktif, pelacakan
pengiriman, dan proses bisnis lainnya tempat mesin menghasilkan data.
d) Analisis pencilan
Analisis pencilan atau deteksi anomali mengidentifikasi poin data dan peristiwa yang
menyimpang dari data lainnya

1.5. Bagaimana Analitik Data Digunakan Dalam Bisnis?


Analitik data dapat dilakukan pada set data dari berbagai sumber data pelanggan seperti
berikut, survei pelanggan pihak ketiga, log pembelian pelanggan, aktivitas media sosial,
cookie komputer, statistik situs web atau aplikasi. Analitik dapat mengungkap informasi
tersembunyi seperti preferensi pelanggan, halaman populer di situs web, lama waktu
yang dihabiskan pelanggan untuk menjelajah, umpan balik pelanggan, dan interaksi
dengan formulir situs web. Hal ini memungkinkan bisnis untuk merespons kebutuhan
pelanggan dan meningkatkan kepuasan pelanggan secara efisien.

A. Analitik data menginformasikan kampanye pemasaran yang efektif


Analitik data mengeliminasi dugaan mulai dari pemasaran, pengembangan produk,
pembuatan konten, dan layanan pelanggan. Analitik data memungkinkan
perusahaan untuk meluncurkan konten yang ditargetkan dan menyesuaikannya
dengan menganalisis data dalam waktu nyata. Analitik data juga memberikan
wawasan yang berharga tentang kinerja kampanye pemasaran. Penargetan, pesan,
dan materi kreatif dapat disesuaikan berdasarkan analisis waktu nyata. Analitik

2
dapat mengoptimalkan pemasaran untuk meningkatkan konversi dan mengurangi
sampah iklan.

Studi kasus: Cara Zynga menggunakan analitik data untuk meningkatkan


kampanye pemasaran
Zynga merupakan salah satu perusahaan game seluler yang paling sukses di dunia,
dengan game-nya yang populer termasuk Words With Friends, Zynga Poker, dan
FarmVille. Game ini telah diinstal oleh lebih dari satu miliar pemain di seluruh dunia.
Pendapatan Zynga berasal dari pembelian dalam aplikasi, sehingga mereka
menganalisis tindakan pemain dalam game secara waktu nyata dengan
menggunakan Amazon Kinesis Data Analytics untuk merencanakan kampanye
pemasaran yang lebih efektif dalam game.

B. Analitik data meningkatkan efisiensi operasional


Analitik data dapat membantu perusahaan dalam menyederhanakan proses,
mengurangi kerugian, dan meningkatkan pendapatan mereka. Jadwal pemeliharaan
prediktif, daftar nama yang dioptimalkan, dan manajemen rantai pasokan yang
efisien dapat meningkatkan performa bisnis secara eksponensial.

Studi kasus: Cara BT Group menggunakan analitik data untuk menyederhanakan


operasi.
BT Group merupakan telekomunikasi dan jaringan terkemuka di Inggris Raya yang
melayani pelanggan di 180 negara. Tim dukungan jaringan BT Group menggunakan
Amazon Kinesis Data Analytics untuk mendapatkan tampilan panggilan waktu nyata
yang dilakukan di seluruh Inggris Raya pada jaringan mereka. Perekayasa dukungan
jaringan dan analis kesalahan menggunakan sistem untuk menemukan, bereaksi,
dan menyelesaikan masalah dalam jaringan dengan sukses.

Studi kasus: Cara Flutter menggunakan analitik data untuk mempercepat operasi
gaming.
Flutter Entertainment merupakan salah satu penyedia olahraga dan game online
terbesar di dunia. Misi mereka adalah memberikan hiburan bagi lebih dari 14 juta
pelanggan dengan cara yang aman, bertanggung jawab, dan berkelanjutan. Selama
beberapa tahun terakhir, Flutter telah memperoleh semakin banyak data dari
sebagian besar sistem sumber. Kombinasi volume dan latensi menciptakan
tantangan yang berkelanjutan. Amazon Redshift membantu Flutter menskalakan
kebutuhan yang semakin meningkat tetapi tetap konsisten dengan pengalaman
pengguna akhir.

C. Analitik data menginformasikan pengembangan produk


Organisasi menggunakan analitik data untuk mengidentifikasi dan memprioritaskan
fitur baru untuk pengembangan produk. Analitik data dapat menganalisis
persyaratan pelanggan, menghadirkan lebih banyak fitur dalam waktu yang lebih
singkat, dan meluncurkan produk baru dengan lebih cepat.

3
Studi kasus: Cara GE menggunakan analitik data untuk mempercepat pengiriman
produk
GE Digital merupakan anak perusahaan General Electric. GE Digital memiliki banyak
produk dan layanan perangkat lunak di berbagai vertikal. Salah satu produknya
bernama Proficy Manufacturing Data Cloud.

Amazon Redshift memberdayakan mereka untuk meningkatkan transformasi data


dan latensi data secara luar biasa sehingga mereka dapat memberikan lebih banyak
fitur kepada pelanggan mereka.

D. Analitik data mendukung penskalaan operasi data


Analitik data memperkenalkan otomatisasi di beberapa tugas data seperti migrasi,
persiapan, pelaporan, dan integrasi. Analitik data menghilangkan inefisiensi manual
dan mengurangi waktu serta jam kerja yang diperlukan untuk menyelesaikan operasi
data. Hal ini mendukung penskalaan dan memungkinkan Anda mengembangkan ide
baru dengan cepat.

Studi kasus: Cara FactSet menggunakan analitik data untuk menyederhanakan


proses integrasi klien
Misi FactSet adalah menjadi platform terbuka yang terkemuka, baik untuk konten
maupun analitik. Memindahkan data melibatkan proses yang besar, sejumlah
anggota tim yang berbeda dari pihak klien, dan sejumlah individu dari pihak FactSet.
Setiap kali terdapat masalah, sulit untuk dapat mengetahui bagian proses yang
menjadi lokasi masalah perpindahan data. Amazon Redshift membantu
menyederhanakan proses dan memberdayakan klien FactSet agar dapat diskalakan
dengan lebih cepat dan menghasilkan lebih banyak data untuk memenuhi kebutuhan
mereka.

4
BAB II
DATA SCIENCE
https://www.gramedia.com/literasi/data-science-adalah/

2.1. Pengertian Data Science


Ilmu data alias data science merupakan fokus studi yang berhubungan dengan
besarnya volume data menggunakan teknik modern demi menemukan pola-pola tak
terlihat, mendapat informasi bermakna, serta membuat keputusan bisnis dengan
informasi tersebut. Algoritma pembelajaran mesin yang kompleks digunakan dalam data
science untuk membangun model yang prediktif. Adapun, data yang digunakan untuk
analisis bisa berasal dari bermacam sumber dan tampak dalam berbagai format.

Data science termasuk topik diskusi yang benar-benar luas dan dengan subjektivitas
yang kental. Data science sendiri, menurut definisinya, bukanlah suatu ilmu yang berdiri
sendiri. Ia merupakan kombinasi dari berbagai bidang, khususnya matematika, ilmu
komputer, strategi bisnis, sampai statistik. Dengan adanya peningkatan aliran data yang
drastis ini, alat-alat baru yang bisa digunakan untuk memanfaatkan data mentah dengan
tepat akan muncul. Cakupan dari data science sendiri ialah alat, teknik, sampai
teknologi yang bakal membantu kita menangani meningkatnya aliran data itu sendiri.

2.2. Alat yang Digunakan


A. Big Data
Big Data adalah alat pertama yang harus kita bahas. Seorang data scientist baru
dapat membantu memprediksi produk yang akan dijual, memprediksi waktu dan
alasan pelanggannya mengganti operator, sampai memahami seberapa paik
pelanggan mereka mengemudi, penyebaran unit, dan lain sebagainya bagi
perusahaan produk, telekomunikasi, sampai asuransi mobil, hanya jika Big Data
digunakan.
B. Machine Learning
Machine Learning adalah alat kedua. Alat ini punya sifat interdisipliner serta
menggunakan teknik dari bidang statistik, ilmu komputer, serta Artificial Intelligence.
Komponen utama dari Machine Learning adalah algoritma yang secara otomatis bisa
belajar dari pengalaman untuk memperbaiki kinerjanya. Dalam berbagai bidang,
algoritma sendiri memang digunakan.
C. Data Mining
Data Mining sebagai alat selanjutnya yang dibahas, merupakan penerapan algoritma
khusus untuk mengekstraksi pola suatu kumpulan data. Data Mining ini erat
hubungannya dengan Machine Learning dalam hal mengekstrak pola informatif yang
tersimpan dalam kumpulan data.
D. Deep Learning
Selanjutnya, terdapat alat Deep Learning. Bukan sekadar “belajar dengan dalam
atau serius” seperti yang bisa kita lakukan kala akan menempuh ujian, istilah baru

5
yang sering digunakan dan dibicarakan ini mengacu pada proses penerapan
teknologi Deep Neural Network yang merupakan arsitektur jaringan saraf dan
lapisan tersembunyi demi memecahkan masalah.
E. Artificial Intelligence
Alat data science yang terakhir ialah Artificial Intelligence. Istilah yang umum disebut
AI itu merupakan bidang ilmu komputer yang menekankan penciptaan mesin cerdas
yang dapat bereaksi dan bekerja layaknya manusia. Adapun, AI punya komponen
inti berupa pemrograman komputer untuk sifat tertentu, misalnya penalaran,
pengetahuan, persepsi, pemecahan masalah, pembelajaran, perencanaan, dan lain
sebagainya.

2.3. Siklus Data Science


Setelah akhirnya mengetahui alat-alat yang umum dipakai dalam data science, mari kita
fokus terhadap siklus hidup dari ilmu data itu sendiri. Siklus ini terdiri atas lima tahap
berbeda yang masing-masing punya tugas tersendiri.
A. Tangkap
Akuisisi data, entri data, penerimaan sinyal, dan ekstraksi data. Tahapan ini
melibatkan pengumpulan data mentah, baik yang terstruktur maupun tidak
terstruktur.
B. Memelihara,
Data Warehousing, Pembersihan Data, Pementasan Data, Pemrosesan Data, dan
Arsitektur Data. Tahap yang satu ini mencakup pengambilan data mentah dan
meletakkannya dalam bentuk yang bisa kita gunakan.
C. Proses
Data Mining, Clustering/Classification, Data Modeling, dan Data Summarization.
Data scientist akan mengambil data yang disiapkan dan memeriksa pola, rentang,
dan biasanya demi menentukan kegunaan data tersebut dalam analisis prediktif.
D. Analisis
Eksplorasi/Konfirmatori, Analisis Prediktif, Regresi, Penambangan Teks, serta
Analisis Kualitatif. Inilah inti dari siklus hidup data science sebenarnya. Tahap ini
melibatkan pemberlakuan berbagai analisis pada data yang ada.
E. Berkomunikasi
Pelaporan Data, Visualisasi Data, Intelijen Bisnis, sampai Pengambilan Keputusan.
Pada langkah ini, analis akan menyiapkan analisis dalam bentuk yang mudah
dibaca. Contohnya, seperti bagan, grafik, dan laporan.

2.4. Persyaratan dalam Data Science


Dalam subbab ini, kita akan mempelajari beberapa syarat atau konsep teknis yang
harus diketahui sebelum mulai mempelajari data science itu sendiri.
A. Pembelajaran Mesin
Seperti halnya Machine Learning dalam alat-alat data science, pembelajaran mesin
sendiri memanglah tulang punggung bagi seorang data scientist. Pasalnya, ia harus

6
punya pemahaman yang kuat tentang bidang ini, di samping pengetahuan dasar
statistik.
B. Pemodelan
Kita dapat membuat perhitungan dan prediksi dengan cepat dan tepat berdasarkan
hal yang telah diketahui tentang data, itu berkat model matematika. Pemodelan
sendiri juga merupakan bagian dari Machine Learning dan melibatkan identifikasi
algoritma yang paling cocok demi memecahkan masalah yang ada dan melatih
model itu sendiri.
C. Statistik
Inti dari data science ialah statistik. Kita akan terbantu dalam mengekstrak lebih
banyak pengetahuan dan mendapatkan hasil yang lebih bermakna dengan statistik
yang kokoh.
D. Pemrograman
Diperlukan beberapa tingkat pemrograman demi menjalankan proyek data science
yang berhasil. Umumnya, bahasa pemrograman ialah Python, dan ia sangat populer
karena mudah dipelajari dan mendukung banyak literatur data science dan Machine
Learning.
E. Database
Perlu memahami cara kerja database, pengelolaan, dan cara mengekstrak data dari
database untuk menjadi seorang data scientist yang cakap.

2.5. Contoh Penerapan Data Science


Kita perlu mengenal lebih jauh data science, khususnya setelah memahami alat, siklus,
dan berbagai persyaratan untuk mempelajarinya. Berbagai bidang: seperti sosial,
jurnalisme, finansial, dan lainnya menggunakan atau menerapkan data science. Contoh
penerapannya pun terlihat pada pemrosesan Natural Language dan Machine Learning
pada artikel berita demi mengidentifikasi reformasi zonasi.

Pusat Kebijakan Perumahan dan Komunitas Metropolitan Urban pun punya data
scientist yang hendak memperkirakan dampak reformasi zonasi dalam pasokan
perumahan di wilayah metropolitan Amerika Serikat (AS). Dalam hal ini, data scientist
menggunakan data dari sekitar 2000 sumber berita lokal untuk mengidentifikasi
reformasi lokal karena mereka tak mungkin mendapat data historis dari ribuan
kotamadya di area metro tersebut.

Mereka pun bisa menandai artikel yang menyebutkan reformasi besar dan
menambahkan metadata relevan serupa apakah artikel tersebut menyebutkan parkir,
batas ketinggian, atau karakteristik lainnya dengan penerapan pemrosesan Natural
Language dan Machine Learning.

Data scientist pun mengumpulkan data berdasarkan jenis dengan memakai metode ini.
Menyalin catatan pengadilan untuk menginformasikan kebijakan pemeriksaan latar
belakang kriminal pun menjadi contoh penerapan data science lainnya. Para data

7
scientist dari Pusat Kebijakan Kehakiman ingin mengetahui perkiraan jumlah orang yang
kemungkinan punya catatan kriminal di Washington D.C.

Mereka pun bekerja sama dengan tim Researcher demi mengumpulkan data melalui
penelusuran daring Pengadilan Tinggi Washington. Data tersebut kemudian dipakai oleh
data scientist tersebut untuk menciptakan statistik latar belakang kriminal masyarakat di
wilayah tersebut.

2.6. Apa yang dilakukan Data Scientist


Seorang data scientist menganalisis data bisnis untuk mengekstrak wawasan yang
bermakna. Dengan kata lain, seorang data scientist memecahkan masalah bisnis
melalui serangkaian langkah, termasuk:
a) Sebelum menangani pengumpulan dan analisis data, mereka menentukan
masalahnya dengan mengajukan pertanyaan yang tepat dan memperoleh
pemahaman.
b) Mereka kemudian menentukan kumpulan variabel dan kumpulan data yang benar.
c) Mereka mengumpulkan data terstruktur dan tidak terstruktur dari banyak sumber
yang berbeda, seperti data perusahaan, data publik, dan lainnya.
d) Setelah data dikumpulkan, mereka memproses data mentah dan mengubahnya
menjadi format yang sesuai untuk analisis. Ini melibatkan pembersihan dan validasi
data untuk menjamin keseragaman, kelengkapan, dan akurasi.
e) Setelah data dirender menjadi bentuk yang dapat digunakan, data tersebut
dimasukkan ke dalam sistem analitik: algoritma Machine Learning atau model
statistik. Di sinilah para data scientist menganalisis dan mengidentifikasi pola dan
tren.
f) Ketika data telah sepenuhnya dirender, mereka menginterpretasikan data untuk
menemukan peluang dan solusi.
g) Mereka menyelesaikan tugas dengan menyiapkan hasil dan wawasan untuk
dibagikan dengan pemangku kepentingan yang sesuai dan mengkomunikasikan
hasilnya.

8
BAB III
TEKNIK CLUSTERING
https://socs.binus.ac.id/2017/03/09/clustering/#:~:text=Clustering%20atau%20klasterisasi%20a
dalah%20metode,cluster%20memiliki%20kemiripan%20yang%20minimum.

3.1. Pengertian Clustering


Clustering atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006
clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa cluster
atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang
maksimum dan data antar cluster memiliki kemiripan yang minimum.

Clustering merupakan proses partisi satu set objek data ke dalam himpunan bagian
yang disebut dengan cluster. Objek yang di dalam cluster memiliki kemiripan
karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain. Partisi tidak
dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh karena itu,
clustering sangat berguna dan bisa menemukan group atau kelompokyang tidak dikenal
dalam data.

Clustering banyak digunakan dalam berbagai aplikasi seperti misalnya pada business
inteligence, pengenalan pola citra, web search, bidang ilmu biologi, dan untuk
keamanan (security). Di dalam business inteligence, clustering bisa mengatur banyak
customer ke dalam banyaknya kelompok. Contohnya mengelompokan customer ke
dalam beberapa cluster dengan kesamaan karakteristik yang kuat. Clustering juga
dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam
banyak group berdasarkan kesamaannya. Selain itu clustering juga bisa sebagai outlier
detection.

3.2. Manfaat Clustering


Adapun manfaat dari diadakannya clustering, antara lain:
1. Clustering merupakan metode segmentasi data yang sangat berguna dalam prediksi
dan analisa masalah bisnis tertentu. Misalnya Segmentasi pasar, marketing dan
pemetaan zonasi wilayah.
2. Identifikasi obyek dalam bidang berbagai bidang seperti computer vision dan image
processing.

3.3. Konsep Dasar Clustering


Hasil clustering yang baik akan menghasilkan tingkat kesamaan yang tinggi dalam satu
kelas dan tingkat kesamaan yang rendah antar kelas. Kesamaan yang dimaksud
merupakan pengukuran secara numeric terhadap dua buah objek. Nilai kesamaan antar
kedua objek akan semakin tinggi jika kedua objek yang dibandingkan memiliki kemiripan

9
yang tinggi. Begitu juga dengan sebaliknya. Kualitas hasil clustering sangat bergantung
pada metode yang dipakai. Dalam clustering dikenal empat tipe data. Keempat tipe data
pada tersebut ialah:
a) Variabel berskala interval
b) Variabel biner
c) Variabel nominal, ordinal, dan rasio
d) Variabel dengan tipe lainnya.

Metode clustering juga harus dapat mengukur kemampuannya sendiri dalam usaha
untuk menemukan suatu pola tersembunyi pada data yang sedang diteliti. Terdapat
berbagai metode yang dapat digunakan untuk mengukur nilai kesamaan antar
objek-objek yang dibandingkan.

3.4. Syarat Clustering


Menurut Han dan Kamber, 2012, syarat sekaligus tantangan yang harus dipenuhi oleh
suatu algoritma clustering adalah:

a) Skalabilitas
Suatu metode clustering harus mampu menangani data dalam jumlah yang besar.
Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai
bidang misalnya saja suatu database. Tidak hanya berisi ratusan objek, suatu
database dengan ukuran besar bahkan berisi lebih dari jutaan objek.
b) Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam
bentuk data seperti data nominal, ordinal maupun gabungannya.
c) Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan
yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan
tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk
menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.
d) Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak
dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut
untuk mampu menangani data yang rusak.
e) Sensitivitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat menyebabkan terjadi
perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang
mencolok apabila menggunakan algoritma clustering yang memiliki tingkat
sensitifitas rendah.
f) Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun atribut. Untuk itu
diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang
jumlahnya tidak sedikit.

10
g) Interpresasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.

3.5. Metode Clustering


Metode clustering secara umum dapat dibagi menjadi dua yaitu hierarchical clustering
and partitional clustering (Tan, 2011). Sebagai tambahan, terdapat pula metode
Density-Based dan Grid–Based yang juga sering diterapkan dalam implementasi
clustering. Berikut penjelasannya:
a) Hierarchical clustering
Pada hierarchical clustering data dikelompokkan melalui suatu bagan yang berupa
hirarki, dimana terdapat penggabungan dua grup yang terdekat disetiap iterasinya
ataupun pembagian dari seluruh set data kedalam cluster.

Gambar 1.1 Hierarchical Clustering


(Sumber:Han dkk, 2012)

Adapun angkah melakukan Hierarchical clustering:


a) Identifikasi item dengan jarak terdekat
b) Gabungkan item itu ke dalam satu cluster
c) Hitung jarak antar cluster
d) Ulangi dari awal sampai semua terhubung

Contoh metode hierarchy clustering: Single Linkage, Complete Linkage, Average


Linkage, Average Group Linkage. Partitional Clustering

b) Partitional Clustering
Data dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara
satu dengan yang lainnya. Pada metode partitional clustering setiap cluster memiliki
titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu
meminimumkan jarak (dissimilarity) dari seluruh data ke pusat cluster
masing-masing. Contoh metode partitional clustering: K-Means, Fuzzy K-means dan

11
Mixture Modelling.

Gambar 3.2 Proses Clustering Obyek Menggunakan metode k-Means


(Sumber:Han dkk, 2012)

Metode K-means merupakan metode clustering yang paling sederhana dan umum.
Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam
jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means
merupakan salah satu algoritma klastering dengan metode partisi (partitioning
method) yang berbasis titik pusat (centroid) selain algoritma k-Medoids yang
berbasis obyek.

Algoritma ini pertama kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh
Hartigan dan Wong tahun 1975 dengan tujuan untuk dapat membagi M data point
dalam N dimensi kedalam sejumlah k cluster dimana proses klastering dilakukan
dengan meminimalkan jarak sum squares antara data dengan masing masing pusat
cluster (centroid-based). Algoritma k-Means dalam penerapannya memerlukan tiga
parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi
klaster, dan jarak system, Biasanya, k-Means dijalankan secara independen dengan
inisialisasi yang berbeda menghasilkan cluster akhir yang berbeda karena algoritma
ini secara prinsip hanya mengelompokan data menuju local minimal. Salah satu cara
untuk mengatasi local minima adalah dengan mengimplementasikan algoritma
k-Means, untuk K yang diberikan, dengan beberapa nilai initial partisi yang berbeda
dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil (Jain, 2009).

K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering
objek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari
cluster menjadi rata-rata point dari cluster tersebut.Dalam penerapan algoritma
k-Means, jika diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …,
xin) adalah system dalam ruang real Rn, maka algoritma k-Means akan menyusun
partisi X dalam sejumlah k cluster (a priori). Setiap cluster memiliki titik tengah
(centroid) yang merupakan nilai rata rata (mean) dari data-data dalam cluster
tersebut. Tahapan awal, algoritma k-Means adalah memilih secara acak k buah
obyek sebagai centroid dalam data. Kemudian, jarak antara obyek dan centroid

12
dihitung menggunakan Euclidian distance. Algoritma k-Means secara iterative
meningkatkan variasi nilai dalam dalam tiap tiap cluster dimana obyek selanjutnya
ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik
tengah baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat.
Proses penentuan titik tengah dan penempatan data dalam cluster diulangi sampai
nilai titik tengah dari semua cluster yang terbentuk tidak berubah lagi (Han dkk,
2012).. Adapun algoritma k-means:
1) Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi
2) Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster.
3) Langkah 3: Untuk masing-masing data, temukan pusat cluster terdekat. Dengan
demikian berarti masing-masing pusat cluster memiliki sebuah subset dari
dataset, sehingga mewakili bagian dari dataset. Oleh karena itu, telah terbentuk
cluster k: C1, C2, C3, …, Ck .
4) Langkah 4: Untuk masing-masing cluster k, temukan pusat luasan klaster, dan
perbarui lokasi dari masing-masing pusat cluster ke nilai baru dari pusat luasan.
5) Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster
menjadi terpusat atau selesai.

13
BAB IV
TEKNIK PREDIKSI

BAB V
PREDIKSI, KLASIFIKASI DATA, WEARABLE DEVICE

BAB VI
BIG DATA & BIG DATA ANALYTIC

BAB VII
KONSEP BIG DATA

14

Anda mungkin juga menyukai