Anda di halaman 1dari 18

IPB University

Inspiring Innovation with Integrity

Welcome to
IPB University
Department of Statistics
Faculty of Mathematics and Natural Sciences
IPB University

Inspiring Innovation with Integrity

Statistika untuk Sains Data


Prof. Dr. Ir. Khairil Anwar Notodiputro, MS
 Program Studi Magister Statistika dan Sains Data
 Program Studi Doktor Statistika dan Sains Data

Departemen Statistika
twitter: @kh_notodiputro Fakultas Matematika dan Ilmu Pengetahuan Alam
E-mail: khairil@apps.ipb.ac.id
Seri web-minar 3 Juni 2020
Pengantar

“Statistics ought to be concerned with


data analysis. The field should be defined
in terms of a set of problems (as are most
fields) rather than a set of tools…” (1962)
John W Tukey
Bell Laboratories J. W. Tukey started the statistics and data analysis reformation in his [Annals
of Mathematical Statistics] publication, titled “The Future of Data Analysis”.

Inspiring Innovation with Integrity


2
Pengantar
 Ada paper bagus yang ditulis oleh David Donoho (2017), Profesor statistika,
Standford University, yang bergelut dalam Sains Data.

 Donoho mempertegas bahwa Tukey (1962) telah


mendorong perlunya reformasi statistika: dari
deskripsi dan inferensi ke akuisisi data dan
prediksi.
 Inilah yang dinamakan sebagai Data Science atau
Sains Data (Cleveland, 2001).  pertama kali ada
istilah Data Science.
 Sejak saat itu banyak statistisi masyhur menekuni penelitian untuk mengembangkan
Sains Data, misalnya Jeff Wu, John Chambers, William S. Cleveland, David Donoho,
Leo Breimen, Trevor Hastie, Robert Tibshirani, dan Jerome Friedman.
Inspiring Innovation with Integrity
3
Pengantar
 Apakah statistika diperlukan dalam memahami sains data?
 Apa keuntungan menjadi imuwan data (data scientist ) yang memiliki pengetahuan
statistika dibanding yang tidak memilikinya?
 Tentu kalau hanya ingin mengaplikasikan program machine learning Anda dapat
langsung mengoperasikannya tanpa harus paham statistika.
 Tapi jika Anda ingin menjadi ilmuwan data yang dapat menyelesaikan berbagai
masalah dalam sains data maka  Anda perlu statistics dan probability theory.

Inspiring Innovation with Integrity 4


Statistika vs Sains Data

Aspect Statistics Data Science


Concept  Statistics is the science of data  Based on scientific computing techniques
 It is used to measure or estimate an  Encompasses machine learning, other analytics
attribute processes, business models
 Applies statistical functions or algorithms on  Uses advanced mathematics and statistics to derive
sets of data to determine values as new information from big data
appropriate for the problem being studied  A wide discipline which involves programming,
understanding of business models, trends, and so on
Approach  Use of mathematical formulas, models, and  Apply scientific methods in problem-solving using
concepts random data
 Analysis of random data  Identifies data requirements for a given problem
 Estimate values for different data attributes  Identify techniques to obtain desired results
 To determine behaviors based on data  Provide value to organizations using data

Sumber: https://www.educba.com/data-science-vs-statistics/

Inspiring Innovation with Integrity


5
Statistika vs Sains Data
Statistics

Statistics is the science concerned


with developing and studying
methods for collecting, analyzing,
interpreting and presenting
empirical data. In developing
methods and studying the theory
that underlies the methods
statisticians draw on a variety of
Top 10 Skills Listed by Data Scientists on LinkedIn
mathematical and computational
Network of data scientist skills
(AmstatNews, 1 May 2018) tools. (University of California)
Inspiring Innovation with Integrity
6
Statistika vs Sains Data
 The goals of data scientists and statisticians are
the same:
 They both want to extract meaningful information
from data.
 Much of statistical technique was originally
developed in an environment where data were
scarce and difficult or expensive to collect, so
statisticians focused on creating methods that
would maximize the strength of inference one is
able to make, given the least amount of data.
(Baumer et al., 2017)

A data scientist makes hundreds of decisions every day. They range from small ones like how to tune a
model all the way up big ones like the team's R&D strategy.
Many of these decisions require a strong foundation in statistics and probability theory.
Inspiring Innovation with Integrity
7
Belajar Statistika untuk Sains Data
Core Statistics Concepts
Statistika Deskriptif, sebaran peluang, 1
pengujian hipotesis, regresi dan model
linear.
Statistical Bayesian Thinking
Machine Learning Peluang bersyarat, sebaran prior, sebaran 2
posterior, and kemungkinan maximum.
Bayesian Thinking
Statistical Machine Learning
Konsep pembelajaran mesin, model
Core Statistics Concepts klasifikasi, Metode Resampling, 3
Regularisasi dan Seleksi Model, Model
non-linear, Tree-based methods,
Support vector machine, unsupervised
learning.

Inspiring Innovation with Integrity


Core Statistics Concepts
Experimental design: Suatu perusahan memperkenalkan produk baru yang
dijual di berbagai toko eceran. Anda diminta merancang uji perbandingan antar
lokasi toko, juga diminta menentukan berapa jumlah toko yang harus dilibatkan
agar diperoleh hasil yang berbeda nyata (statistically significant ) dengan
tingkat kepercayaan 95%.

Regression modeling: Suatu perusahaan ingin memprediksi permintaan


(demand ) atas suatu produk di setiap toko secara lebih akurat menggunakan
peubah penjelas X yang banyak macamnya. Anda perlu membangun model regresi
berkendala (constrained ) atau shrinkage regression sehingga koefisien yang tidak
nyata dikerutkan menjadi nol.

Data transformation: Anda punya beberapa calon model statistical machine


learning yang akan diuji. Beberapa diantaranya mungkin mensyaratkan asumsi
sebaran peluang tertentu. Anda harus mampu mengidentifikasi apakah asumsi
tersebut layak, atau kalau tidak, apakah bisa dilakukan transformasi sehingga
asumsi tersebut menjadi layak digunakan.
Inspiring Innovation with Integrity
9
Bayesian Thinking
Model
Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Model pengumpulan data.
Bayesian lebih banyak relevansinya dalam sains data. ketakpastian.

Penganut Frequentist menggunakan peluang dalam memodelkan


proses percontohannya (sampling process). Artinya, data yang
terkumpul dimaknai sesuai mekanisme peluang pengumpulannya.
Di pihak lain, penganut Bayesian menggunakan teori peluang untuk
memodelkan proses percontohannya, juga menggunakan teori peluang
untuk mengkuantifikasi ketakpastian sebelum data dikumpulkan.
Dalam pola pikir Bayesian, ketakpastian sebelum data dikumpulkan
disebut peluang a priori atau prior probability. Kemudian setelah data
terkumpul, ditambah informasi proses peluang dalam percontohannya
(likelihood ), peluang apriori ini diperbaiki menjadi peluang a posteriori
atau posterior probability. Inilah pemikiran dasar Bayesian.
P(E|I)  P(I|E) P(E)
Inspiring Innovation with Integrity
10
Bayesian Thinking
Laptop Anda sudah dicharge 100% dan bisa digunakan. Baterai laptop
berkurang shg kita sambungkan dengan listrik, tapi baterai tidak terisi.

Karena ini baru terjadi maka kemungkinan arus listrik yg bermasalah,


bukan charger nya. Jadi prior kita “charger tidak masalah”, likelihood-
nya adalah peluang baterai laptop tidak terisi jika charger tidak
bermasalah, dan posteriornya adalah peluang charger tidak
bermasalah jika diketahui baterai laptop tidak terisi.

Karena kita percaya charger OK, maka kita sambungkan ke sumber


listrik lain, ternyata tetap baterai tidak terisi. Kita mulai tidak percaya
The Laptop charging problem pada charger, artinya prior kita berubah setelah melihat data/fakta.

Misal dicoba lagi untuk menyambungkan charger ke sumber listrik


yang lain, ternyata batterai tetap tidak terisi. Akhirnya prior kita
perbaiki dan disimpulkan bahwa yg bermasalah adalah charger, bukan
sumber listrik.

Inspiring Innovation with Integrity


11
Bayesian Thinking
Kenangan pribadi:
Cara memahami dalil Bayes seperti ini saya peroleh ketika saya menulis
disertasi berjudul:

“Statistical Image Reconstruction from Projection ”


yang intinya merekontruksi gambar benda di dalam benda, misal kanker di
dalam kepala atau kandungan emas dan logam berharga di dalam bumi
(tomography). Gambar benda direkonstruksi dari data (biasanya emisi
proton) yang ditangkap oleh kamera di luar benda. Nah, prior kita adalah
pengetahuan tentang gambar benda tersebut, likelihood-nya adalah data
yang tertangkap kamera, posterior-nya adalah gambar hasil rekonstruksi.

Thomas Bayes secara genius berhasil merumuskan cara berpikir dan dan
cara orang mengambil keputusan ke dalam formula matematika. Dalil Bayes
sangat menakjubkan.
Inspiring Innovation with Integrity
12
Statistical Machine Learning
Machine learning allows computers to learn and discern patterns without actually
being programmed. When Statistical techniques and machine learning are combined
together they are a powerful tool for analysing various kinds of data in many computer
science/engineering areas including, image processing, speech processing, natural
language processing, robot control, as well as in fundamental sciences such as
biology, medicine, astronomy, physics, and materials. (Sugiyama, 2016)

+ =
Machine learning Statistics Statistical machine learning
Inspiring Innovation with Integrity
13
Statistical Machine Learning

 Klasifikasi :
 Regresi logistik
 Tree-based Methods :
 Fungsi diskriminan
 Pohon regresi
 Metode Resampling :  Pohon klasifikasi
 Validasi-silang  Bagging, random forest, boosting
 Bootstrap
 Support Vector Machine :
 Regularisasi dan Seleksi Model :  Maximal margin classifier
 Seleksi himpunan bagian terbaik  Support vektor classifier
 Metode penyusutan (shrinkage)  SVM untuk kasus > 2 klasifikasi
 Metode Reduksi dimensi
 Unsupervised learning :
 Model non-linear :  Analisis komponen utama
 Regresi splines  Metode penggerombolan
 Regresi lokal

Inspiring Innovation with Integrity


14
Catatan Penutup
 Tujuan statistisi dan ilmuwan data dalam membedah data sangatlah mirip, walaupun
tidak sama dan sebangun.
 Karena itu peran statistika untuk Sains Data tidak diragukan walaupun sempat
tenggelam (under-estimated ) dibanding peran dari sains komputer.
 Dalam aspek akuisisi data, pengayaan jenis data, dan pemodelan canggih
(advanced modeling ) untuk prediksi nampaknya para statistisi masih tertinggal.
 Karena itu statistisi harus memperkuat perannya dalam Sains Data, suatu disiplin
modern yang semakin diterima oleh berbagai kalangan.
 Dengan mengkombinasikan metode statistika dan algoritma komputasi maka Sains
Data akan menghasilkan kesimpulan atau keputusan yang bersifat ilmiah.
 Akhirnya, hanya dengan menyeimbangkan peran dari semua sains yang terlibat
maka akan dihasilkan solusi yang terbaik dalam Sains Data.

Inspiring Innovation with Integrity


15
Catatan Penutup

Mari belajar Statistika dan Sains Data


di
IPB University

Inspiring Innovation with Integrity


16
email: khairil@apps.ipb.ac.id

Thank Y ou twitter: @kh_notodiputro

Anda mungkin juga menyukai