Pengantar Sains Data dan Big Data

PENGANTAR SAINS DATA DAN BIG DATA Segalanya menjadi serba instan dan digital, mulai dari berbelanja,
membayar tagihan, merencakan karyawisata, dan lain-lain.

A. Pengantar Sains Data
Era industri 4.0 ini merupakan kesempatan yang baik untuk kalian
Pada kehidupan sehari-hari kita, seberapa sering kita mendengar istilah-istliah
semua menjadi pengusaha (entrepreneur/technopreneur). Karena
seperti Big Data, Data Science, Industry 4.0, Machine Learning, dan juga
pada saat ini membuat sebuah perusahaan yang sukses relatif mudah
Artificial Intelligence? Apabila kita tidak bekerja di bidang-bidang IPTEK,
dan murah.
mungkin istilah-istilah tersebut jarang kita dengan.
2. Pengantar Big Data
1. Era Data : Industri 4.0
Kalau kita pikir-pikir, ada berapa banyak data transaksi yang ada di
Traveloka, Ovo, Gojek, Tokopedia, dan lain-lainnya? Bagaimana
penyimpananannya? Bagaimana mengolahnya?
Data-data yang terkumpul pada Big Data ini seringkali merupakan
data yang tidak terstruktur dan memenuhi 3V, yang menjadi
karakteristik utama Big Data, yaitu :
-Volume (Data yang terkumpul berjumlah besar)
-Variety (Beragam bentuk/format)
-Velocity (Bertambah dengan cepat secara real-time)
Seperti yang kita mungkin telah pelajari, revolusi industri merupakan Sejarahnya, istilah “Big Data” pertama kali muncul pada sebuah
salah satu peristiwa yang penting dalam sejarah. Akan tetapi revolusi publikasi ilmiah resmi tahun 1997 di sebuah paper ilmiah NASA.
industri tidak hanya terjadi di masa lalu, bahkan kini telah melewati Kemudian pada tahun 2001, Doug Laney kemudian memperkenalkan
revolusi industri yang keempat. tiga sifat big data yaitu 3V tadi. Tidak lama kemudian, terdapat dua
Pada revolusi industri 4.0 ini, segalanya menjadi serba otomatis dan tambahan V yang opsional yaitu Veracity (uncertainty pada kualitas
modern. data) dan Value (terkait pada nilai yang bisa didapat dari big data.
3. Data Science
Istilah “Data Science” (Sains Data) diperkenalkan pertama kali oleh
William S. Cleveland (2001). “Data Science” adalah sebuah bidang
ilmu yang menggunakan metode dan proses-proses ilmiah, algoritma,
Dapat kita lihat dari gambar di atas merupakan beberapa contoh dan sistem untuk mendapatkan pengetahuan dan wawasan (insight)
perusahaan-perusahaan yang berkembang akibat revolusi industri 4.0. terdalam dari suatu data terstruktur (tabular) dan tidak terstruktur.
4. Aplikasi Sains Data dan Big Data
Data science dan big data sudah banyak dimanfaatkan oleh Tipe dan Format Data
kebanyakan masyarakat. Secara umum, spektrum dari pemanfaatan A. Tipe Data
Big Data meliputi banyak aspek, seperti pada gambar-gambar di Teknik analisis data yang dilakukan untuk mencari informasi yang relevan
bawah ini : terhadap dugaan (hipotesis) seringnya bergantung pada jenis/tipe data yang
kita miliki. Oleh karena itu, sebelum membahas tentang model-model data
science, awali dulu dengan pembahasan mengenai jenis/tipe data. Jenis data
sendiri dapat dibedakan menurut sumber, tipe, struktur, atau fitur/sifat lain dari
data tersebut.
Tipe data berdasarkan :
1. Sumber Data
Data dapat bersumber dari sang peneliti langsung lewat eksperimen,
sensor, observasi langsung, atau survey. Sumber data seperti ini
disebut sumber “data primer”. Data juga dapat berasal repository
data (database/data warehouse) atau data dari penelitian
sebelumnya, data yang tidak diambil langsung oleh penelitinya ini
disebut sebagai “data sekunder”.
Kelebihan data primer (primary data): Interpretasi data (model)
biasanya lebih baik & kuat karena pengambilan data secara spesifik
dilakukan untuk menjawab suatu hipotesis tertentu. Kualitas dan
kontrol terhadap data juga cenderung lebih baik, dan jarang sekali
terjadi masalah proprietary (kepemilikan data).
Kekurangan data primer: Mahal, butuh waktu lebih lama, lebih sulit
untuk mengumpulkannya.
Kelebihan data sekunder (secondary sata): Murah, cepat, dan
mudah untuk melakukan benchmark (perbandingan).
Kekurangan data sekunder: Terkadang tidak sesuai dengan
kebutuhan, kualitas data lebih rendah (garbage in-out), tidak selalu
tersedia.
2. Waktu (Time Series/Runtun Waktu)
Beberapa data tertentu bergantung terhadap waktu, misalnya skema (struktur) yang statis. Data seperti ini disebut data
pergerakan nilai mata uang (kurs)/harga saham, suhu/temperatur semi-structured. Big Data Akhir-akhir ini sedang ramai istilah Big
udara di suatu daerah tertentu, atau data logs suatu website. Data. Jika dikaitkan dengan analisa data, beberapa literatur
Saat nilai data di masa depan lebih banyak (dominan) hanya menyebutkan suatu data sudah dapat dikatakan sebagai “Big Data”
dipengaruhi dari nilai-nilainya di masa lalu, maka model-model runtun jika komputer (machine/PC) “biasa” sudah tidak mampu lagi untuk
waktu univariate (satu peubah/variabel) seperti ARIMA mengolahnya dalam suatu jangka waktu tertentu, karena keterbatasan
(Autoregressive Integrated Moving Average) dapat digunakan. Namun komputasi, memori, dan-atau penyimpanan (storage).
bila satu atau beberapa peubah yang bergantung waktu dipengaruhi
juga oleh variabel lain selain nilai-nilainya di masa lalu, maka model
runtun waktu peubah ganda (multivariate) seperti VaR (Vector
autoRegression) dapat digunakan.
3. (Geo)Spatial Data
Ada kalanya penelitian yang dilakukan bergantung pada lokasi/tempat,
misalnya penelitian yang berkenaan dengan kadar mineral/gas di
suatu daerah tertentu, penelitian tentang penyebaran suatu penyakit
menular tertentu (misal: flu burung dan HIV/AIDS), gempa bumi, atau 5. Graph Data
penelitan tentang dukungan politik di suatu daerah tertentu. Saat Jenis maupun bentuk data semakin beragam. Akhir-akhir ini data
datanya bergantung pada lokasi (GeoSpatial) maka model-model dalam bentuk graph mendapat perhatian cukup besar, terutama
statistik Spatial Data Analysis seperti spatial autocorrelation, spatial terkait dengan semakin jamaknya penggunaan sosial media dan
interpolation, spatial regression, spatial interaction, dan multiple-point semakin besar dan luasnya industri yang terkena dampaknya. Walau
geostatistics dapat digunakan. pada keadaan tertentu graph dapat juga direpresentasikan dalam
4. Struktur Data sebuah matrix/array/tabel lewat matriks keterhubungan (adjacency
Data yang biasanya kita ketahui berbentuk tabular matrix) atau incidence matrix, namun sebuah graph data biasanya
(tabel/kolom-baris/matriks/array/larik), data seperti ini disebut data memuat informasi yang lebih kompleks.
terstruktur (structured data). Data terstruktur dapat disimpan dengan Terdapat sub-bidang ilmu yang cukup baru di data mining, dikenal
baik di spreadsheet (misal: Excel) atau basis data (database) dengan “episodes mining”, menggunakan tipe data graph. Pada
relasional dan secara umum dapat digunakan langsung oleh berbagai episodes mining, data graph yang urut waktu digunakan untuk
model/tools statistik/data mining konvensional. menentukan pola (pattern) dari suatu objek tertentu.Beberapa
Sebagian data yang lain memiliki “tags” yang menjelaskan elemen operasi/tasks pada data graph diantaranya adalah pencarian rute
semantik yang berbeda di dalamnya dan cenderung tidak memiliki
terpendek, spanning tree, graph labelling, network centrality, Model-Model dan Algoritma Sains Data
community, contagion, dan opinion formation. Setelah mempelajari jenis-jenis data, pertanyaan penting yang sering muncul
6. Tipe Data (Kategorik atau Numerik) dalam sebuah penelitian juga menanyakan mengenai model statistika/data
Tipe data yang paling umum digunakan dan diketahui oleh banyak science yang sesuai untuk digunakan. Selain memiliki banyak klasifikasi data
orang adalah klasifikasi data yang dipelopori oleh Stevens (1946, yang dibagi menjadi berbagai kriteria, banyak juga model statistika yang ada.
1951). Secara umum tipe variable yang ‘lebih tinggi’ , yaitu interval dan A. Variabel Target (Dependent) dan Prediktor (Independent)
ratio memiliki informasi yang lebih detail. Sebaliknya tipe variabel Sebelum membahas mengenai model-model statistika, akan dibahas terlebih
seperti nominal, sebenarnya hanyalah pemetaan atau penamaan dahulu mengenai jenis-jenis variabel.
semata. Keterbatasan perhitungan atau operasi pada variabel-variabel -Variabel dependent/response adalah salah satu atau lebih variabel yang
ini menimbulkan batasan-batasan tertentu. Sebagai contoh, tentu saja dipengaruhi oleh satu atau lebih variabel yang lain. Contoh : Variabel gaji
kurang logis jika kita menghitung rata-rata pada data nominal dan dipengaruhi oleh variabel lama kerja, pangkat, dan jabatan seorang pegawai
ordinal, atau menghitung modus (data yang paling banyak muncul) -Variabel independent/regressor adalah satu atau lebih variabel yang
pada data interval dan rasio. Batasan ini juga berlaku pada visualisasi mempengaruhi satu atau lebih variabel yang lain. Contoh : Variabel kecepatan
data, jika data ratio atau interval disajikan dalam pie chart tentu saja memengaruhi waktu tempuh perjalanan.
tidak akan banyak bermakna. Keterbatasan operasi perhitungan yang -Variabel kontrol/scientific constant adalah variabel/elemen yang nilainya
bisa dilakukan pada tipe-tipe data ini kemudian akan mengakibatkan tetap(konstan).
batasan pemakaian model statistika. Atau dengan kata lain untuk tipe -Variabel confounding/mediator adalah variabel ekstra yang memengaruhi
data tertentu, model statistika yang dapat digunakan juga tertentu hubungan antara variabel dependent dan independent. Contoh : Pada
pula. penelitian mengenai dampak olahraga terhadap berat badan, maka variabel
lain seperti pola makan dan usia juga menjadi variabel ekstra.
B. Metode Interdependence (Unsupervised Learning) dan Dependence
(Supervised Learning)
Secara garis besar terdapat dua macam kelas model statistika/data science:
1. Interdependence Methods: Model-model data science dimana tidak
ada dugaan suatu variable dipengaruhi/memengaruhi variabel yang
lain (tidak ada konsep target/prediktor).
Contoh: Analisis cluster (pengelompokan), principal component
analysis (PCA).
2. Dependence Methods: Model-model statistika dimana sebagian 5. Bivariate kategorik- kategorik: Saat kedua variabel kategorik terdapat
variabel diduga memengaruhi/dipengaruhi variabel yang lain. beberapa uji statistik dan visualisasi yang dapat digunakan (chi-square
Contoh: Regresi, klasifikasi (SVM/Decision Tree/neural network). test, 2-way contingency table, log linear model, 2-Y charts, dll).
Namun demikian akhir-akhir ini terdapat cukup banyak penelitian dimana 6. Bivariate numerik-numerik: Saat kedua variabel numerik lebih
domain permasalahannya terletak di antara keduanya (Semi-Supervised banyak pilihan analisa yang bisa dilakukan, seperti Anova (Analysis of
Learning-akan dibahas lebih lanjut). Variance) untuk memeriksa beda rata-rata antar group atau korelasi
C. Univariate/Bivariate Data - Interdependence untuk memeriksa hubungan (linear) antara dua variabel yang ada.
Pada beberapa kasus sederhana kita hanya ingin menganalisa satu variabel Kesalahan yang paling sering terjadi pada analisis korelasi adalah
(univariate) atau dua variabel (bivariate) saja yang tidak saling bergantung lupa bahwa secara umum (awalnya/tanpa transformasi) korelasi hanya
satu sama lain. Analisa yang bisa dilakukan pada kondisi seperti ini bergantung memeriksa hubungan linear dan tidak menyatakan hubungan
dari tipe variabelnya. sebab-akibat. Sehingga nilai korelasi yang kecil tidak bermakna tidak
1. Univariate kategorik (nominal/ordinal): Pada kasus ini tidak terlalu terdapat hubungan antar keduanya (bisa jadi hubungannya bukan
banyak analisa yang dapat dilakukan. Diantara hal yang dapat linear: kuadratik, exponential, atau yang lainnya). Hubungan
dilakukan adalah menghitung jumlah kemunculan (frekuensi) atau sebab-akibat baru dapat disimpulkan setelah analisa lebih lanjut oleh
persentase. Sedangkan visualisasi yang bisa digunakan diantaranya ahli di bidangnya (domain knowledge).
adalah Pie-Chart atau Bar Chart. 7. Bivariate kategorik-numerik: Saat kedua variabel kategorik dan
2. Univariate numerik (Interval/Ratio): Pada saat datanya berupa angka numerik tidak banyak “metode interdependence” yang bisa dilakukan.
(numerik/metric), analisa atau perhitungan yang dapat dilakukan lebih Namun demikian artikel berikut memberikan beberapa contoh
banyak, misalnya: rata-rata/mean, median, percentile, minimum, visualisasi yang sangat menarik. Hal lain yang bisa dilakukan dalam
maksimum, variansi. Histogram dan Box Plot dapat digunakan sebagai cakupan interdependence adalah clustering untuk tipe variabel
visualisasi. beragam (mixed data types clustering). Ada beberapa metode yang
3. Encoding/continuation: adalah suatu proses perubahan suatu variabel bisa digunakan, salah satunya diterangkan dalam paper berikut. Perlu
kategorik menjadi bentuk biner {0,1} atau angka. diingat, bahwa di bagian ini pertimbangannya hanya pada metode
Contoh: {Pria,Wanita}==>{1,0} atau {TK,SD,SMP,SMU, interdependence, analisa yang bisa dilakukan lebih banyak lagi ketika
D1,D2,D3,D4,S1,S2,S3}==>{0, 1, … , 10}. variabelnya diasumsikan saling bergantung satu sama lain
4. Binning/discretization: adalah kebalikan encoding, yaitu suatu proses (dependence).
perubahan variabel numerik menjadi kategorik. Ada 2 macam proses D. Clustering Analysis (Unsupervised Learning)
Binning: supervised dan unsupervised. Clustering/pengelompokan data memiliki tujuan umum untuk
Contoh: Umur seseorang diubah menjadi kategori: Balita, anak-anak, mengelompokkan/grouping data sedemikian sehingga objek-objek pada suatu
remaja, dewasa, dan manula. cluster similar (serupa) satu sama lain dan objek antar cluster berbeda. Aplikasi
clustering sering digunakan untuk menemukan suatu informasi/pattern yang clustering yang sesuai dengan suatu informasi awal (prior) yang kita miliki.
tersembunyi (latent/hidden) di data. Tidak hanya itu clustering juga biasa Pada kasus-kasus seperti ini semi-supervised learning digunakan.
digunakan untuk mendeteksi outlier atau anomali yang ada di data. Tentu saja H. Association Rule / Market Basket Analysis
masih banyak lagi aplikasi analisa clustering, mulai dari spam detection, image Model Association Rule (biasa juga disebut sebagai Market Basket Analysis)
processing, riset pemasaran (market research), dan masih banyak lagi. Analisa bisa digunakan untuk mengoptimalkan tata letak barang-barang yang ada di
Cluster termasuk analisa/metode yang paling tua dan paling banyak aplikasi suatu swalayan atau menentukan program promo yang tepat. Salah satu
serta penelitiannya. aplikasi association rule (AR) adalah dengan mengolah data pembelian
E. Classification Models (Supervised Learning) konsumen lalu menghitung beberapa statistik darinya seperti support,
Klasifikasi adalah permasalahan meng-kategorisasikan sekelompok observasi confidence, dan lift untuk menentukan pola belanja konsumen. Ketika algoritma
baru ke sekumpulan kategori (kelas) yang ada sebelumnya. Klasifikasi AR dijalankan, ia akan menghitung kombinasi item yang dibentuk dari item-item
digunakan jika variabel target bertipe kategorik dan prediktornya satu atau lebih yang ada, hal ini menjadi kendala ketika jenis itemnya cukup banyak. Selain
variabel numerik dan-atau kategorik. Terdapat cukup banyak model klasifikasi masalah komputasi, menemukan aturan (rule) yang secara statistik signifikan
yang dapat digunakan, mulai dari yang klasik seperti Linear Discriminant menjadi cukup menantang pada keadaan seperti ini.
Analysis (LDA) dan regresi logistik, lalu ke moderate seperti SVM (support I. Bayesian, Ensemble, dan Fuzzy
vector machines), decision tree dan neural network (jaringan syaraf tiruan), Kalau di perhatikan, ketiga metode ini dikaitkan dengan klasifikasi, clustering,
sampai yang lebih terkini seperti random forest, XGboost dan deep learning. dan regresi. Mengapa? Karena baik pendekatan Bayesian, Ensemble, maupun
F. Regression Models Fuzzy logic dapat digunakan dalam ketiga permasalahan tersebut.
Model Regresi digunakan saat kita ingin menganalisis hubungan antara 1. Bayes: Thomas Bayes (1701–1761) bisa jadi merupakan salah satu
variabel target bertipe numerik dengan satu atau beberapa variabel prediktor statistikawan paling berpengaruh sepanjang sejarah. Teorema Bayes
bertipe kategorik dan-atau numerik. Regresi termasuk model yang paling dasar (Bayes Rule) adalah salah satu teorema fenomenal yang menjelaskan
ketika seseorang pertama kali belajar pengolahan data (statistika). Model probabilitas bersyarat suatu kejadian. Bayesian probability ini menjadi
regresi linear telah dipelajari sebelumnya. Beberapa teknik seperti transformasi dasar penting Bayesian inference yang merupakan dasar penting
data (kernel) atau piecewise regression dapat digunakan untuk menganalisis Bayesian Statistics. Model Bayes memiliki keunggulan karena hasilnya
pola non-linear. merupakan suatu distribusi probabilitas, sehingga pengambil
G. Semi-Supervised Learning keputusan memiliki keleluasaan dan keyakinan yang lebih baik,
Ada kalanya data yang kita miliki memiliki variabel target dan prediktor, namun ketimbang model frequentist (model-model yang kita bahas
terdapat data yang hilang (missing values) di beberapa observasi di variabel sebelumnya). Sayangnya, biasanya model-model Bayes memiliki
targetnya. Atau pada kasus lain, misal kita ingin melakukan clustering, namun komputasi yang lebih besar. Saya akan membuat post lain, sebagai
dengan suatu kendala/batasan tertentu (constraint), atau kita menginginkan contoh untuk menjelaskan perbedaan pendekatan frequentist dan
bayesian pada model regresi. (Gambar atas)
2. Ensemble: Beberapa tahun belakangan ini model-model ensemble variabel yang membuat komputasi menjadi terlalu tinggi. Skenario-skenario ini
menjadi salah satu topik hangat penelitian (termasuk di dalamnya adalah saat-saat dimana pengurangan dimensi (variabel) dibutuhkan.
random forest). Model ensemble pada dasarnya adalah perpaduan
beberapa model. Salah satu ensemble yang paling mudah adalah
consensus model. Menggunakan teknik ensemble kita dapat
meningkatkan akurasi (biasanya tidak banyak), namun komplekasitas
komputasinya meningkat sangat besar, sehingga tidak cocok untuk
data yang besar (e.g. Big Data). (Gambar kiri bawah)
3. Fuzzy: Fuzzy logic men-generalisasi konsep binary logika
(True/False-{0,1}) ke interval kontinu [0,1]. Dengan logika fuzzy suatu
kebenaran bisa bernilai 3/4 True dan 1/4 False. Konsep fuzzy bisa
digunakan untuk memodelkan suatu kategori yang tidak tegas, misal
konsep dingin, hangat, dan panas. Dari konsep fuzzy ini, model Fuzzy
Clustering, Fuzzy Classification, dan Fuzzy Regression dapat
dikembangkan. (Gambar kanan bawah)
J. Dimensionality Reduction / Feature Selection

Ada kalanya kita disuguhkan seonggok data dengan begitu banyak variabel
dan sebuah hipotesis (dugaan) atau sebuah variabel target. Tentu saja tahap
pertama yang perlu kita lakukan adalah memilah variabel mana yang
merupakan prediktor yang baik bagi target kita, sisanya biasanya hanyalah
“noise” bagi modelnya. Atau pada keadaan lain kita memiliki terlalu banyak
Clustering
A. Apa itu Clustering?
Teknik analisis data yang dilakukan untuk mencari informasi dengan
tujuan untuk mengelompokkan observasi berdasarkan karakteristik tertentu
sedemikian sehingga observasi dalam suatu kelompok lebih
mirip/similar/homogen. Definisi dari mirip/similar/homogen tergantung dari
tujuan penelitian. Metode clustering yang umum digunakan adalah metode
k-means.
Clustering berguna untuk data dalam jumlah besar dan menangani
berbagai macam tipe atribut atau variabel. Selain itu clustering juga berguna 3. Density-based
untuk menangani noise, outliers. Clustering memiliki kelebihan karena mudah Pendekatan parametrik yang didasari connectivity dan
diinterpretasikan dan sangat berguna, lalu juga tidak memedulikan urutan input. density functions. Contohnya metode DBSACN, OPTICS,
● Pendekatan Clustering DenClue.
1. Partisi
Membuat partisi dan evaluasi berdasarkan kriteria tertentu,
misalnya meminimalkan sum of square errors. Contohnya
metode k-means, k-medoids, CLARANS
B. Istilah Dalam Clustering

1. Centroid = Titik pusat cluster
2. Jarak = Jarak antar anggota untuk menentukan data tersebut masuk
2. Hirarki ke cluster mana. Jenis jarak yang sering digunakan antara lain
Membuat struktur hierarchical menggunakan kriteria tertentu. Euclidean, Manhattan, Hamming, Minkowski.
Contohnya metode centroid, nearest-neighbor (single 3. Seeds = Angka random untuk membangkitkan cluster
linkage), farthest-neighbor (complete-linkage), average 4. Similaritas = Pengukuran jarak kemiripan
linkage, ward. 5. Disimilaritas = Pengukuran jarak perbedaan
6. Hierarki = Dalam metode hirarki cluster terdapat dua tipe dasar yaitu ● Biologi : clustering dapat digunakan untuk mendapatkan taksonomi
agglomerative (pemusatan) dan divisive (penyebaran). Dalam metode tumbuhan dan hewan, mengkategorikan gen dengan fungsi serupa dan
agglomerative, setiap obyek atau observasi dianggap sebagai sebuah mendapatkan wawasan tentang struktur yang melekat pada populasi.
cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang ● Spatial data analysis
mempunyai kemiripan digabungkan menjadi sebuah cluster baru ● Pemrosesan gambar
demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak ● Economic science
dari sebuah cluster besar yang terdiri dari semua obyek atau ● Pengelompokan dari internet
observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai ● Pengenalan pola
ketidakmiripannya kita pisahkan demikian seterusnya. Beberapa contoh konkrit dari aplikasi clustering yang telah diimplementasikan
7. Non Hierarki →Kebalikan dari metode hirarki, metode nonhirarki tidak antara lain :
meliputi proses “treelike construction“. Justru menempatkan 1. Analisis Genom
objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah Analisis genom merupakan data sains yang bergerak di bidang bioinformatika.
cluster tertentu. Langkah pertama adalah memilih sebuah cluster Analisis genom membutuhkan clustering ketika proses mengelompokkan gen
sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu dengan mencari ekspresi gen yang paling mirip.
ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster
selanjutnya dan penempatan dilanjutkan sampai semua objek
ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih
dekat pada cluster lain daripada cluster asalnya.
C. Mengapa Clustering itu Penting
Clustering dapat diaplikasikan untuk banyak hal, antara lain :
● Marketing: Membantu pihak pemasaran untuk menentukan grup khusus
dan membuat program khusus untuk mengelompokkan pelanggan,
2. Taksonomi
misalnya berdasarkan pola pembelian.
Taksonomi merupakan data sains di penerapan bidang biologi. Clustering
● Land use: Identifikasi area yang digunakan untuk hal yang sama,
dipakai untuk clustering (mengelompokkan) spesies melalui tingkat kemiripan
membantu dalam mengidentifikasi area penggunaan lahan yang serupa
untuk diatur di bagan taksonomi.
dalam database observasi, mengidentifikasi kelompok rumah di kota
3. Pengelompokan Struktur Kimia
menurut jenis rumah, nilai, dan lokasi geografis
Untuk data sains di penerapan bidang kimia, clustering dipakai untuk
● Asuransi: Identifikasi grup yang memiliki tingkat klaim yang tinggi.
meningkatkan kualitas pengelompokan struktur kimia dengan meningkatkan
● Tata kota: Identifikasi rumah-rumah berdasarkan tipe, harga dan lokasi.
kemampuan untuk memisahkan molekul aktif dari yang tidak aktif di setiap Technology in Data Science and Big Data
cluster dan meningkatkan ketahanan dan stabilitas pengelompokan individu. A. Data Science and Big Data
D. K-Means Clustering Data yang dapat kita ambil dari Indonesia tergolong Big Data
● Langkah-langkah K-means clustering dikarenakan ukurannya yang besar (memiliki 250 juta penduduk, 1340 suku
Secara sederhana, berikut langkah-langkah K-means clustering : bangsa, 17 ribu pulau, dan 746 bahasa daerah), lalu penduduknya juga adaptif
1. Menentukan k objek sebagai centroid awal. (memiliki 132,7 juta pengguna internet, 371,4 juta pelanggan ponsel, dan 106
2. Menghitung jarak antara setiap objek dengan centroid terdekat menggunakan juta pengguna aktif sosial media), lalu memiliki opportunity yang besar
jarak Euclidian, kemudian mengelompokkan objek ke centroid terdekat. (ekonominya tumbuh, politik dan keamanan yang stabil).
3. Menghitung rata-rata dari objek pada setiap cluster sebagai centroid yang baru. Data-data yang dapat diambil dari berbagai tempat dan sumber dapat
4. Mengulangi langkah 2 dan 3 hingga objek tidak lagi berpindah ke cluster lain. dgunakan untuk berbagai macam hal seperti Crowdsourcing, Physical
5. Stop. modeling, Sensing, dan Data Assimilation sehingga dapat dibuat berbagai
Untuk algoritmanya, dijabarkan sebagai berikut : macam teknologi yang membantu hidup manusia itu sendiri seperti mencari
jalur tercepat di peta, pemberitahuan gempa bumi, dll.
Data tersebut diolah dengan menggunakan ilmu Data Science dan
terdapat beberapa contoh programming language yang sering digunakan untuk
Data Science tersebut seperti Python, R, SQL, C/C++, Java, dll.
B. Big Data Technology (Cloud Computing)
Cloud computing merupakan salah satu pengaplikasian dari teknologi big data.
Cloud computing memiliki banyak keuntungan seperti biaya dan manajemen
yang mudah dan murah, dapat diandalkan untuk data berukuran besar, tahan
lama, storage yang murah, dan menawarkan penawaran-penawaran dari
● Contoh pelaksanaan K-means clustering :
Microsoft, Amazon, Google, dll.
Diberikan data X = {1,2,3,6,7,8}, jika data tersebut dibuat menjadi dua kluster, tentukan
pusat dan anggota dari masing-masing kluster tersebut.
Jawab :
Misalkan, inisialisasi µ1 = 3, µ2 = 6
Peluang, Tantangan, dan Trend Big Data & Data Science Selain itu, literasi data dan hukum mengenai data yang belum
A. Peluang dipersiapkan dengan matang di Indonesia dan berbagai negara lain menjadi
Peluang dari Big Data dan Data Science di Indonesia sangatlah tinggi. Hal tantangan bagi big data dan data science untuk diterima masyarakat. Maka dari
tersebut disebabkan karena jumlah pemuda/pemudi di Indonesia yang tinggi. itu, untuk mengatasi tantangan sosial-tantangan sosial tersebut, mulai
Pemuda/pemudi yang asalnya tinggal di desa pun juga banyak yang berpindah bermunculan jurusan-jurusan seperti data science dan mata kuliah seperti
ke daerah yang sudah maju, ke perkotaan. Dengan banyaknya penduduk, Pengantar Sains Data ini untuk meningkatkan literasi data di Indonesia dan
bermunculan juga banyak technopreneur-technopreneur yang membuat negara lainnya, lalu pemerintah di Indonesia maupun negara lain juga sedang
wirausaha-wirausaha berdasarkan teknologi seperti traveloka, gojek, lazada, berusaha untuk membuat hukum yang dapat mengatur penggunaan big data
bukalapak, dll. dan data science ini.
C. Tantangan Teknis
Tantangan yang dihadapi oleh big data dan data science ini
merupakan tantangan yang dinamis dan berubah-ubah sesuai dengan
keadaannya. Berbagai tantangan utama yang dihadapi termasuk sekuritas,
performa, pemerintahan, manajemen, dll. Akan tetapi dibanding semua
tantangan tersebut, tantangan yang selalu paling utama adalah kurangnya
Di era yang modern ini, kolaborasi pun menjadi lebih mudah dan luas. Hal sumber daya manusia yang memiliki skill set yang paham dan ahli di bidang
tersebut memanfaatkan kemudahan konektivitas yang ditawarkan teknologi data science dan big data.
informasi di abad ke-21. Hal itu juga sangat membantu produktivitas karena Selain itu, dengan banyaknya teknologi, maka terjadi fenomena
sharing dapat meringankan pekerjaan, menghindari kebingungan, dan hal “tsunami” teknologi yang menyebabkan sulitnya berkembang dan memilih
tersebut dapat dilakukan multi dimensi. teknologi mana yang cocok dan perlu digunakan. Berbagai macam jenis
B. Tantangan Sosial visualisasi yang tersedia pun juga menjadi tantangan untuk memilih mana yang
Tentunya pengaplikasian dan penggunaan big data di masa modern ini cocok.
juga menimbulkan banyak tantangan sebelum diterima oleh masyarakat.
Terdapat beberapa penyebab yang menyebabkan big data dan data science
tidak langsung sepenuhnya dipercaya oleh masyarakat. Pertama,
kekhawatiran, masyarakat khawatir data pribadi mereka disalahgunakan dan
diperjualbelikan dan diretas pada saat kita membagikan data kita. Masyarakat
juga khawatir dengan apa yang akan dilakukan oleh perusahaan atau
pemerintah pada saat mereka mendapatkan data kita.
D. Trend Masa Depan
Seiring berkembangnya zaman, tentu dapat kita lihat bahwa dari zaman dulu ke
zaman yang sekarang telah terjadi banyak perkembangan teknologi, dapat kita
prediksi juga ke depannya tentu perkembangan teknologi yang berhubungan
dengan big data dan data science akan terjadi di masa depan. Hal tersebut
juga dapat kita lihat dari kebutuhan teknologi yang diperlukan oleh
perusahaan-perusahaan industri seperti permodelan matematika, metode
sampling, data storytelling, critical thinking, efisien EDA (Exploratory Data
Analysis), dll.

Pengantar Sains Data dan Big Data

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pengantar Sains Data dan Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGANTAR SAINS DATA DAN BIG DATA Segalanya menjadi serba instan dan digital, mulai dari berbelanja,

membayar tagihan, merencakan karyawisata, dan lain-lain.

J. Dimensionality Reduction / Feature Selection

B. Istilah Dalam Clustering

Anda mungkin juga menyukai