Seperti yang kita mungkin telah pelajari, revolusi industri merupakan Sejarahnya, istilah “Big Data” pertama kali muncul pada sebuah
salah satu peristiwa yang penting dalam sejarah. Akan tetapi revolusi publikasi ilmiah resmi tahun 1997 di sebuah paper ilmiah NASA.
industri tidak hanya terjadi di masa lalu, bahkan kini telah melewati Kemudian pada tahun 2001, Doug Laney kemudian memperkenalkan
revolusi industri yang keempat. tiga sifat big data yaitu 3V tadi. Tidak lama kemudian, terdapat dua
Pada revolusi industri 4.0 ini, segalanya menjadi serba otomatis dan tambahan V yang opsional yaitu Veracity (uncertainty pada kualitas
modern. data) dan Value (terkait pada nilai yang bisa didapat dari big data.
3. Data Science
Istilah “Data Science” (Sains Data) diperkenalkan pertama kali oleh
William S. Cleveland (2001). “Data Science” adalah sebuah bidang
ilmu yang menggunakan metode dan proses-proses ilmiah, algoritma,
Dapat kita lihat dari gambar di atas merupakan beberapa contoh dan sistem untuk mendapatkan pengetahuan dan wawasan (insight)
perusahaan-perusahaan yang berkembang akibat revolusi industri 4.0. terdalam dari suatu data terstruktur (tabular) dan tidak terstruktur.
4. Aplikasi Sains Data dan Big Data
Data science dan big data sudah banyak dimanfaatkan oleh Tipe dan Format Data
kebanyakan masyarakat. Secara umum, spektrum dari pemanfaatan A. Tipe Data
Big Data meliputi banyak aspek, seperti pada gambar-gambar di Teknik analisis data yang dilakukan untuk mencari informasi yang relevan
bawah ini : terhadap dugaan (hipotesis) seringnya bergantung pada jenis/tipe data yang
kita miliki. Oleh karena itu, sebelum membahas tentang model-model data
science, awali dulu dengan pembahasan mengenai jenis/tipe data. Jenis data
sendiri dapat dibedakan menurut sumber, tipe, struktur, atau fitur/sifat lain dari
data tersebut.
Tipe data berdasarkan :
1. Sumber Data
Data dapat bersumber dari sang peneliti langsung lewat eksperimen,
sensor, observasi langsung, atau survey. Sumber data seperti ini
disebut sumber “data primer”. Data juga dapat berasal repository
data (database/data warehouse) atau data dari penelitian
sebelumnya, data yang tidak diambil langsung oleh penelitinya ini
disebut sebagai “data sekunder”.
Kelebihan data primer (primary data): Interpretasi data (model)
biasanya lebih baik & kuat karena pengambilan data secara spesifik
dilakukan untuk menjawab suatu hipotesis tertentu. Kualitas dan
kontrol terhadap data juga cenderung lebih baik, dan jarang sekali
terjadi masalah proprietary (kepemilikan data).
Kekurangan data primer: Mahal, butuh waktu lebih lama, lebih sulit
untuk mengumpulkannya.
Kelebihan data sekunder (secondary sata): Murah, cepat, dan
mudah untuk melakukan benchmark (perbandingan).
Kekurangan data sekunder: Terkadang tidak sesuai dengan
kebutuhan, kualitas data lebih rendah (garbage in-out), tidak selalu
tersedia.
2. Waktu (Time Series/Runtun Waktu)
Beberapa data tertentu bergantung terhadap waktu, misalnya skema (struktur) yang statis. Data seperti ini disebut data
pergerakan nilai mata uang (kurs)/harga saham, suhu/temperatur semi-structured. Big Data Akhir-akhir ini sedang ramai istilah Big
udara di suatu daerah tertentu, atau data logs suatu website. Data. Jika dikaitkan dengan analisa data, beberapa literatur
Saat nilai data di masa depan lebih banyak (dominan) hanya menyebutkan suatu data sudah dapat dikatakan sebagai “Big Data”
dipengaruhi dari nilai-nilainya di masa lalu, maka model-model runtun jika komputer (machine/PC) “biasa” sudah tidak mampu lagi untuk
waktu univariate (satu peubah/variabel) seperti ARIMA mengolahnya dalam suatu jangka waktu tertentu, karena keterbatasan
(Autoregressive Integrated Moving Average) dapat digunakan. Namun komputasi, memori, dan-atau penyimpanan (storage).
bila satu atau beberapa peubah yang bergantung waktu dipengaruhi
juga oleh variabel lain selain nilai-nilainya di masa lalu, maka model
runtun waktu peubah ganda (multivariate) seperti VaR (Vector
autoRegression) dapat digunakan.
3. (Geo)Spatial Data
Ada kalanya penelitian yang dilakukan bergantung pada lokasi/tempat,
misalnya penelitian yang berkenaan dengan kadar mineral/gas di
suatu daerah tertentu, penelitian tentang penyebaran suatu penyakit
menular tertentu (misal: flu burung dan HIV/AIDS), gempa bumi, atau 5. Graph Data
penelitan tentang dukungan politik di suatu daerah tertentu. Saat Jenis maupun bentuk data semakin beragam. Akhir-akhir ini data
datanya bergantung pada lokasi (GeoSpatial) maka model-model dalam bentuk graph mendapat perhatian cukup besar, terutama
statistik Spatial Data Analysis seperti spatial autocorrelation, spatial terkait dengan semakin jamaknya penggunaan sosial media dan
interpolation, spatial regression, spatial interaction, dan multiple-point semakin besar dan luasnya industri yang terkena dampaknya. Walau
geostatistics dapat digunakan. pada keadaan tertentu graph dapat juga direpresentasikan dalam
4. Struktur Data sebuah matrix/array/tabel lewat matriks keterhubungan (adjacency
Data yang biasanya kita ketahui berbentuk tabular matrix) atau incidence matrix, namun sebuah graph data biasanya
(tabel/kolom-baris/matriks/array/larik), data seperti ini disebut data memuat informasi yang lebih kompleks.
terstruktur (structured data). Data terstruktur dapat disimpan dengan Terdapat sub-bidang ilmu yang cukup baru di data mining, dikenal
baik di spreadsheet (misal: Excel) atau basis data (database) dengan “episodes mining”, menggunakan tipe data graph. Pada
relasional dan secara umum dapat digunakan langsung oleh berbagai episodes mining, data graph yang urut waktu digunakan untuk
model/tools statistik/data mining konvensional. menentukan pola (pattern) dari suatu objek tertentu.Beberapa
Sebagian data yang lain memiliki “tags” yang menjelaskan elemen operasi/tasks pada data graph diantaranya adalah pencarian rute
semantik yang berbeda di dalamnya dan cenderung tidak memiliki
terpendek, spanning tree, graph labelling, network centrality, Model-Model dan Algoritma Sains Data
community, contagion, dan opinion formation. Setelah mempelajari jenis-jenis data, pertanyaan penting yang sering muncul
6. Tipe Data (Kategorik atau Numerik) dalam sebuah penelitian juga menanyakan mengenai model statistika/data
Tipe data yang paling umum digunakan dan diketahui oleh banyak science yang sesuai untuk digunakan. Selain memiliki banyak klasifikasi data
orang adalah klasifikasi data yang dipelopori oleh Stevens (1946, yang dibagi menjadi berbagai kriteria, banyak juga model statistika yang ada.
1951). Secara umum tipe variable yang ‘lebih tinggi’ , yaitu interval dan A. Variabel Target (Dependent) dan Prediktor (Independent)
ratio memiliki informasi yang lebih detail. Sebaliknya tipe variabel Sebelum membahas mengenai model-model statistika, akan dibahas terlebih
seperti nominal, sebenarnya hanyalah pemetaan atau penamaan dahulu mengenai jenis-jenis variabel.
semata. Keterbatasan perhitungan atau operasi pada variabel-variabel -Variabel dependent/response adalah salah satu atau lebih variabel yang
ini menimbulkan batasan-batasan tertentu. Sebagai contoh, tentu saja dipengaruhi oleh satu atau lebih variabel yang lain. Contoh : Variabel gaji
kurang logis jika kita menghitung rata-rata pada data nominal dan dipengaruhi oleh variabel lama kerja, pangkat, dan jabatan seorang pegawai
ordinal, atau menghitung modus (data yang paling banyak muncul) -Variabel independent/regressor adalah satu atau lebih variabel yang
pada data interval dan rasio. Batasan ini juga berlaku pada visualisasi mempengaruhi satu atau lebih variabel yang lain. Contoh : Variabel kecepatan
data, jika data ratio atau interval disajikan dalam pie chart tentu saja memengaruhi waktu tempuh perjalanan.
tidak akan banyak bermakna. Keterbatasan operasi perhitungan yang -Variabel kontrol/scientific constant adalah variabel/elemen yang nilainya
bisa dilakukan pada tipe-tipe data ini kemudian akan mengakibatkan tetap(konstan).
batasan pemakaian model statistika. Atau dengan kata lain untuk tipe -Variabel confounding/mediator adalah variabel ekstra yang memengaruhi
data tertentu, model statistika yang dapat digunakan juga tertentu hubungan antara variabel dependent dan independent. Contoh : Pada
pula. penelitian mengenai dampak olahraga terhadap berat badan, maka variabel
lain seperti pola makan dan usia juga menjadi variabel ekstra.
B. Metode Interdependence (Unsupervised Learning) dan Dependence
(Supervised Learning)
Secara garis besar terdapat dua macam kelas model statistika/data science:
1. Interdependence Methods: Model-model data science dimana tidak
ada dugaan suatu variable dipengaruhi/memengaruhi variabel yang
lain (tidak ada konsep target/prediktor).
Contoh: Analisis cluster (pengelompokan), principal component
analysis (PCA).
2. Dependence Methods: Model-model statistika dimana sebagian 5. Bivariate kategorik- kategorik: Saat kedua variabel kategorik terdapat
variabel diduga memengaruhi/dipengaruhi variabel yang lain. beberapa uji statistik dan visualisasi yang dapat digunakan (chi-square
Contoh: Regresi, klasifikasi (SVM/Decision Tree/neural network). test, 2-way contingency table, log linear model, 2-Y charts, dll).
Namun demikian akhir-akhir ini terdapat cukup banyak penelitian dimana 6. Bivariate numerik-numerik: Saat kedua variabel numerik lebih
domain permasalahannya terletak di antara keduanya (Semi-Supervised banyak pilihan analisa yang bisa dilakukan, seperti Anova (Analysis of
Learning-akan dibahas lebih lanjut). Variance) untuk memeriksa beda rata-rata antar group atau korelasi
C. Univariate/Bivariate Data - Interdependence untuk memeriksa hubungan (linear) antara dua variabel yang ada.
Pada beberapa kasus sederhana kita hanya ingin menganalisa satu variabel Kesalahan yang paling sering terjadi pada analisis korelasi adalah
(univariate) atau dua variabel (bivariate) saja yang tidak saling bergantung lupa bahwa secara umum (awalnya/tanpa transformasi) korelasi hanya
satu sama lain. Analisa yang bisa dilakukan pada kondisi seperti ini bergantung memeriksa hubungan linear dan tidak menyatakan hubungan
dari tipe variabelnya. sebab-akibat. Sehingga nilai korelasi yang kecil tidak bermakna tidak
1. Univariate kategorik (nominal/ordinal): Pada kasus ini tidak terlalu terdapat hubungan antar keduanya (bisa jadi hubungannya bukan
banyak analisa yang dapat dilakukan. Diantara hal yang dapat linear: kuadratik, exponential, atau yang lainnya). Hubungan
dilakukan adalah menghitung jumlah kemunculan (frekuensi) atau sebab-akibat baru dapat disimpulkan setelah analisa lebih lanjut oleh
persentase. Sedangkan visualisasi yang bisa digunakan diantaranya ahli di bidangnya (domain knowledge).
adalah Pie-Chart atau Bar Chart. 7. Bivariate kategorik-numerik: Saat kedua variabel kategorik dan
2. Univariate numerik (Interval/Ratio): Pada saat datanya berupa angka numerik tidak banyak “metode interdependence” yang bisa dilakukan.
(numerik/metric), analisa atau perhitungan yang dapat dilakukan lebih Namun demikian artikel berikut memberikan beberapa contoh
banyak, misalnya: rata-rata/mean, median, percentile, minimum, visualisasi yang sangat menarik. Hal lain yang bisa dilakukan dalam
maksimum, variansi. Histogram dan Box Plot dapat digunakan sebagai cakupan interdependence adalah clustering untuk tipe variabel
visualisasi. beragam (mixed data types clustering). Ada beberapa metode yang
3. Encoding/continuation: adalah suatu proses perubahan suatu variabel bisa digunakan, salah satunya diterangkan dalam paper berikut. Perlu
kategorik menjadi bentuk biner {0,1} atau angka. diingat, bahwa di bagian ini pertimbangannya hanya pada metode
Contoh: {Pria,Wanita}==>{1,0} atau {TK,SD,SMP,SMU, interdependence, analisa yang bisa dilakukan lebih banyak lagi ketika
D1,D2,D3,D4,S1,S2,S3}==>{0, 1, … , 10}. variabelnya diasumsikan saling bergantung satu sama lain
4. Binning/discretization: adalah kebalikan encoding, yaitu suatu proses (dependence).
perubahan variabel numerik menjadi kategorik. Ada 2 macam proses D. Clustering Analysis (Unsupervised Learning)
Binning: supervised dan unsupervised. Clustering/pengelompokan data memiliki tujuan umum untuk
Contoh: Umur seseorang diubah menjadi kategori: Balita, anak-anak, mengelompokkan/grouping data sedemikian sehingga objek-objek pada suatu
remaja, dewasa, dan manula. cluster similar (serupa) satu sama lain dan objek antar cluster berbeda. Aplikasi
clustering sering digunakan untuk menemukan suatu informasi/pattern yang clustering yang sesuai dengan suatu informasi awal (prior) yang kita miliki.
tersembunyi (latent/hidden) di data. Tidak hanya itu clustering juga biasa Pada kasus-kasus seperti ini semi-supervised learning digunakan.
digunakan untuk mendeteksi outlier atau anomali yang ada di data. Tentu saja H. Association Rule / Market Basket Analysis
masih banyak lagi aplikasi analisa clustering, mulai dari spam detection, image Model Association Rule (biasa juga disebut sebagai Market Basket Analysis)
processing, riset pemasaran (market research), dan masih banyak lagi. Analisa bisa digunakan untuk mengoptimalkan tata letak barang-barang yang ada di
Cluster termasuk analisa/metode yang paling tua dan paling banyak aplikasi suatu swalayan atau menentukan program promo yang tepat. Salah satu
serta penelitiannya. aplikasi association rule (AR) adalah dengan mengolah data pembelian
E. Classification Models (Supervised Learning) konsumen lalu menghitung beberapa statistik darinya seperti support,
Klasifikasi adalah permasalahan meng-kategorisasikan sekelompok observasi confidence, dan lift untuk menentukan pola belanja konsumen. Ketika algoritma
baru ke sekumpulan kategori (kelas) yang ada sebelumnya. Klasifikasi AR dijalankan, ia akan menghitung kombinasi item yang dibentuk dari item-item
digunakan jika variabel target bertipe kategorik dan prediktornya satu atau lebih yang ada, hal ini menjadi kendala ketika jenis itemnya cukup banyak. Selain
variabel numerik dan-atau kategorik. Terdapat cukup banyak model klasifikasi masalah komputasi, menemukan aturan (rule) yang secara statistik signifikan
yang dapat digunakan, mulai dari yang klasik seperti Linear Discriminant menjadi cukup menantang pada keadaan seperti ini.
Analysis (LDA) dan regresi logistik, lalu ke moderate seperti SVM (support I. Bayesian, Ensemble, dan Fuzzy
vector machines), decision tree dan neural network (jaringan syaraf tiruan), Kalau di perhatikan, ketiga metode ini dikaitkan dengan klasifikasi, clustering,
sampai yang lebih terkini seperti random forest, XGboost dan deep learning. dan regresi. Mengapa? Karena baik pendekatan Bayesian, Ensemble, maupun
F. Regression Models Fuzzy logic dapat digunakan dalam ketiga permasalahan tersebut.
Model Regresi digunakan saat kita ingin menganalisis hubungan antara 1. Bayes: Thomas Bayes (1701–1761) bisa jadi merupakan salah satu
variabel target bertipe numerik dengan satu atau beberapa variabel prediktor statistikawan paling berpengaruh sepanjang sejarah. Teorema Bayes
bertipe kategorik dan-atau numerik. Regresi termasuk model yang paling dasar (Bayes Rule) adalah salah satu teorema fenomenal yang menjelaskan
ketika seseorang pertama kali belajar pengolahan data (statistika). Model probabilitas bersyarat suatu kejadian. Bayesian probability ini menjadi
regresi linear telah dipelajari sebelumnya. Beberapa teknik seperti transformasi dasar penting Bayesian inference yang merupakan dasar penting
data (kernel) atau piecewise regression dapat digunakan untuk menganalisis Bayesian Statistics. Model Bayes memiliki keunggulan karena hasilnya
pola non-linear. merupakan suatu distribusi probabilitas, sehingga pengambil
G. Semi-Supervised Learning keputusan memiliki keleluasaan dan keyakinan yang lebih baik,
Ada kalanya data yang kita miliki memiliki variabel target dan prediktor, namun ketimbang model frequentist (model-model yang kita bahas
terdapat data yang hilang (missing values) di beberapa observasi di variabel sebelumnya). Sayangnya, biasanya model-model Bayes memiliki
targetnya. Atau pada kasus lain, misal kita ingin melakukan clustering, namun komputasi yang lebih besar. Saya akan membuat post lain, sebagai
dengan suatu kendala/batasan tertentu (constraint), atau kita menginginkan contoh untuk menjelaskan perbedaan pendekatan frequentist dan
bayesian pada model regresi. (Gambar atas)
2. Ensemble: Beberapa tahun belakangan ini model-model ensemble variabel yang membuat komputasi menjadi terlalu tinggi. Skenario-skenario ini
menjadi salah satu topik hangat penelitian (termasuk di dalamnya adalah saat-saat dimana pengurangan dimensi (variabel) dibutuhkan.
random forest). Model ensemble pada dasarnya adalah perpaduan
beberapa model. Salah satu ensemble yang paling mudah adalah
consensus model. Menggunakan teknik ensemble kita dapat
meningkatkan akurasi (biasanya tidak banyak), namun komplekasitas
komputasinya meningkat sangat besar, sehingga tidak cocok untuk
data yang besar (e.g. Big Data). (Gambar kiri bawah)
3. Fuzzy: Fuzzy logic men-generalisasi konsep binary logika
(True/False-{0,1}) ke interval kontinu [0,1]. Dengan logika fuzzy suatu
kebenaran bisa bernilai 3/4 True dan 1/4 False. Konsep fuzzy bisa
digunakan untuk memodelkan suatu kategori yang tidak tegas, misal
konsep dingin, hangat, dan panas. Dari konsep fuzzy ini, model Fuzzy
Clustering, Fuzzy Classification, dan Fuzzy Regression dapat
dikembangkan. (Gambar kanan bawah)