DATA ANALITIK
https://aws.amazon.com/id/what-is/data-analytics/
1
d) Analisis Preskriptif - “Apa yang harus dilakukan?”
Analisis ini menggunakan hasil dari analisis prediktif untuk membuat keputusan dan
langkah yang tepat. Teknik dalam analisis ini mengandalkan machine learning untuk
menemukan pola dalam kumpulan data yang besar.
2
dapat mengoptimalkan pemasaran untuk meningkatkan konversi dan mengurangi
sampah iklan.
Studi kasus: Cara Flutter menggunakan analitik data untuk mempercepat operasi
gaming.
Flutter Entertainment merupakan salah satu penyedia olahraga dan game online
terbesar di dunia. Misi mereka adalah memberikan hiburan bagi lebih dari 14 juta
pelanggan dengan cara yang aman, bertanggung jawab, dan berkelanjutan. Selama
beberapa tahun terakhir, Flutter telah memperoleh semakin banyak data dari
sebagian besar sistem sumber. Kombinasi volume dan latensi menciptakan
tantangan yang berkelanjutan. Amazon Redshift membantu Flutter menskalakan
kebutuhan yang semakin meningkat tetapi tetap konsisten dengan pengalaman
pengguna akhir.
3
Studi kasus: Cara GE menggunakan analitik data untuk mempercepat pengiriman
produk
GE Digital merupakan anak perusahaan General Electric. GE Digital memiliki banyak
produk dan layanan perangkat lunak di berbagai vertikal. Salah satu produknya
bernama Proficy Manufacturing Data Cloud.
4
BAB II
DATA SCIENCE
https://www.gramedia.com/literasi/data-science-adalah/
Data science termasuk topik diskusi yang benar-benar luas dan dengan subjektivitas
yang kental. Data science sendiri, menurut definisinya, bukanlah suatu ilmu yang berdiri
sendiri. Ia merupakan kombinasi dari berbagai bidang, khususnya matematika, ilmu
komputer, strategi bisnis, sampai statistik. Dengan adanya peningkatan aliran data yang
drastis ini, alat-alat baru yang bisa digunakan untuk memanfaatkan data mentah dengan
tepat akan muncul. Cakupan dari data science sendiri ialah alat, teknik, sampai
teknologi yang bakal membantu kita menangani meningkatnya aliran data itu sendiri.
5
yang sering digunakan dan dibicarakan ini mengacu pada proses penerapan
teknologi Deep Neural Network yang merupakan arsitektur jaringan saraf dan
lapisan tersembunyi demi memecahkan masalah.
E. Artificial Intelligence
Alat data science yang terakhir ialah Artificial Intelligence. Istilah yang umum disebut
AI itu merupakan bidang ilmu komputer yang menekankan penciptaan mesin cerdas
yang dapat bereaksi dan bekerja layaknya manusia. Adapun, AI punya komponen
inti berupa pemrograman komputer untuk sifat tertentu, misalnya penalaran,
pengetahuan, persepsi, pemecahan masalah, pembelajaran, perencanaan, dan lain
sebagainya.
6
punya pemahaman yang kuat tentang bidang ini, di samping pengetahuan dasar
statistik.
B. Pemodelan
Kita dapat membuat perhitungan dan prediksi dengan cepat dan tepat berdasarkan
hal yang telah diketahui tentang data, itu berkat model matematika. Pemodelan
sendiri juga merupakan bagian dari Machine Learning dan melibatkan identifikasi
algoritma yang paling cocok demi memecahkan masalah yang ada dan melatih
model itu sendiri.
C. Statistik
Inti dari data science ialah statistik. Kita akan terbantu dalam mengekstrak lebih
banyak pengetahuan dan mendapatkan hasil yang lebih bermakna dengan statistik
yang kokoh.
D. Pemrograman
Diperlukan beberapa tingkat pemrograman demi menjalankan proyek data science
yang berhasil. Umumnya, bahasa pemrograman ialah Python, dan ia sangat populer
karena mudah dipelajari dan mendukung banyak literatur data science dan Machine
Learning.
E. Database
Perlu memahami cara kerja database, pengelolaan, dan cara mengekstrak data dari
database untuk menjadi seorang data scientist yang cakap.
Pusat Kebijakan Perumahan dan Komunitas Metropolitan Urban pun punya data
scientist yang hendak memperkirakan dampak reformasi zonasi dalam pasokan
perumahan di wilayah metropolitan Amerika Serikat (AS). Dalam hal ini, data scientist
menggunakan data dari sekitar 2000 sumber berita lokal untuk mengidentifikasi
reformasi lokal karena mereka tak mungkin mendapat data historis dari ribuan
kotamadya di area metro tersebut.
Mereka pun bisa menandai artikel yang menyebutkan reformasi besar dan
menambahkan metadata relevan serupa apakah artikel tersebut menyebutkan parkir,
batas ketinggian, atau karakteristik lainnya dengan penerapan pemrosesan Natural
Language dan Machine Learning.
Data scientist pun mengumpulkan data berdasarkan jenis dengan memakai metode ini.
Menyalin catatan pengadilan untuk menginformasikan kebijakan pemeriksaan latar
belakang kriminal pun menjadi contoh penerapan data science lainnya. Para data
7
scientist dari Pusat Kebijakan Kehakiman ingin mengetahui perkiraan jumlah orang yang
kemungkinan punya catatan kriminal di Washington D.C.
Mereka pun bekerja sama dengan tim Researcher demi mengumpulkan data melalui
penelusuran daring Pengadilan Tinggi Washington. Data tersebut kemudian dipakai oleh
data scientist tersebut untuk menciptakan statistik latar belakang kriminal masyarakat di
wilayah tersebut.
8
BAB III
TEKNIK CLUSTERING
https://socs.binus.ac.id/2017/03/09/clustering/#:~:text=Clustering%20atau%20klasterisasi%20a
dalah%20metode,cluster%20memiliki%20kemiripan%20yang%20minimum.
Clustering merupakan proses partisi satu set objek data ke dalam himpunan bagian
yang disebut dengan cluster. Objek yang di dalam cluster memiliki kemiripan
karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain. Partisi tidak
dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh karena itu,
clustering sangat berguna dan bisa menemukan group atau kelompokyang tidak dikenal
dalam data.
Clustering banyak digunakan dalam berbagai aplikasi seperti misalnya pada business
inteligence, pengenalan pola citra, web search, bidang ilmu biologi, dan untuk
keamanan (security). Di dalam business inteligence, clustering bisa mengatur banyak
customer ke dalam banyaknya kelompok. Contohnya mengelompokan customer ke
dalam beberapa cluster dengan kesamaan karakteristik yang kuat. Clustering juga
dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam
banyak group berdasarkan kesamaannya. Selain itu clustering juga bisa sebagai outlier
detection.
9
yang tinggi. Begitu juga dengan sebaliknya. Kualitas hasil clustering sangat bergantung
pada metode yang dipakai. Dalam clustering dikenal empat tipe data. Keempat tipe data
pada tersebut ialah:
a) Variabel berskala interval
b) Variabel biner
c) Variabel nominal, ordinal, dan rasio
d) Variabel dengan tipe lainnya.
Metode clustering juga harus dapat mengukur kemampuannya sendiri dalam usaha
untuk menemukan suatu pola tersembunyi pada data yang sedang diteliti. Terdapat
berbagai metode yang dapat digunakan untuk mengukur nilai kesamaan antar
objek-objek yang dibandingkan.
a) Skalabilitas
Suatu metode clustering harus mampu menangani data dalam jumlah yang besar.
Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai
bidang misalnya saja suatu database. Tidak hanya berisi ratusan objek, suatu
database dengan ukuran besar bahkan berisi lebih dari jutaan objek.
b) Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam
bentuk data seperti data nominal, ordinal maupun gabungannya.
c) Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan
yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan
tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk
menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.
d) Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak
dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut
untuk mampu menangani data yang rusak.
e) Sensitivitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat menyebabkan terjadi
perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang
mencolok apabila menggunakan algoritma clustering yang memiliki tingkat
sensitifitas rendah.
f) Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun atribut. Untuk itu
diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang
jumlahnya tidak sedikit.
10
g) Interpresasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.
b) Partitional Clustering
Data dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara
satu dengan yang lainnya. Pada metode partitional clustering setiap cluster memiliki
titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu
meminimumkan jarak (dissimilarity) dari seluruh data ke pusat cluster
masing-masing. Contoh metode partitional clustering: K-Means, Fuzzy K-means dan
11
Mixture Modelling.
Metode K-means merupakan metode clustering yang paling sederhana dan umum.
Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam
jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means
merupakan salah satu algoritma klastering dengan metode partisi (partitioning
method) yang berbasis titik pusat (centroid) selain algoritma k-Medoids yang
berbasis obyek.
Algoritma ini pertama kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh
Hartigan dan Wong tahun 1975 dengan tujuan untuk dapat membagi M data point
dalam N dimensi kedalam sejumlah k cluster dimana proses klastering dilakukan
dengan meminimalkan jarak sum squares antara data dengan masing masing pusat
cluster (centroid-based). Algoritma k-Means dalam penerapannya memerlukan tiga
parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi
klaster, dan jarak system, Biasanya, k-Means dijalankan secara independen dengan
inisialisasi yang berbeda menghasilkan cluster akhir yang berbeda karena algoritma
ini secara prinsip hanya mengelompokan data menuju local minimal. Salah satu cara
untuk mengatasi local minima adalah dengan mengimplementasikan algoritma
k-Means, untuk K yang diberikan, dengan beberapa nilai initial partisi yang berbeda
dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil (Jain, 2009).
K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering
objek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari
cluster menjadi rata-rata point dari cluster tersebut.Dalam penerapan algoritma
k-Means, jika diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …,
xin) adalah system dalam ruang real Rn, maka algoritma k-Means akan menyusun
partisi X dalam sejumlah k cluster (a priori). Setiap cluster memiliki titik tengah
(centroid) yang merupakan nilai rata rata (mean) dari data-data dalam cluster
tersebut. Tahapan awal, algoritma k-Means adalah memilih secara acak k buah
obyek sebagai centroid dalam data. Kemudian, jarak antara obyek dan centroid
12
dihitung menggunakan Euclidian distance. Algoritma k-Means secara iterative
meningkatkan variasi nilai dalam dalam tiap tiap cluster dimana obyek selanjutnya
ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik
tengah baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat.
Proses penentuan titik tengah dan penempatan data dalam cluster diulangi sampai
nilai titik tengah dari semua cluster yang terbentuk tidak berubah lagi (Han dkk,
2012).. Adapun algoritma k-means:
1) Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi
2) Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster.
3) Langkah 3: Untuk masing-masing data, temukan pusat cluster terdekat. Dengan
demikian berarti masing-masing pusat cluster memiliki sebuah subset dari
dataset, sehingga mewakili bagian dari dataset. Oleh karena itu, telah terbentuk
cluster k: C1, C2, C3, …, Ck .
4) Langkah 4: Untuk masing-masing cluster k, temukan pusat luasan klaster, dan
perbarui lokasi dari masing-masing pusat cluster ke nilai baru dari pusat luasan.
5) Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster
menjadi terpusat atau selesai.
13
BAB IV
TEKNIK PREDIKSI
BAB V
PREDIKSI, KLASIFIKASI DATA, WEARABLE DEVICE
BAB VI
BIG DATA & BIG DATA ANALYTIC
BAB VII
KONSEP BIG DATA
14