Anda di halaman 1dari 118

1

Pengantar
ANALISIS DATA

ARIF RAHMAN
2

Referensi
 Milton, M, Head First: Data Analysis,
 Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data,
Machine Learning, and More, Using Python Tools,
 Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process
Step-by-Step,
 Skiena, SS, The Data Science Design Manual,
 Dietrich, D, Heller, B, & Yang, B, Data Science and Big Data Analytics:
Discovering, Analyzing, Visualizing and Presenting Data,
 Bahga, A, & Madisetti, V, Big Data Science and Analytics: A Hands-On
Approach,
 Steele, B, Chandler, J, & Reddy, S, Algorithms for Data Science,
 Russell, R. Machine Learning: Step-by-Step Guide to Implement Machine
Learning Algorithms with Python,
 Salazar, JR , Data Science and Analytics with Python,
 Miller, C, Hands-On Data Analysis with NumPy and Pandas: Implement
Python Packages from data Manipulation to Processing,
3

Referensi
4

Peranan Penting
Serta Problematik
Data dan Informasi
Kondratieff Waves

Cybernetics,
Wireless Technology,
Nanotechnology,
Biotechnology
Industrial Revolution

Water wheel, Chemicals, Fusion reaction, Cybernetics,


Steam Engine Electricity, Electronics, Wireless Technology,
Mechanics, Computers, Nanotechnology,
Petrochemicals Mechatronics Biotechnology
Revolusi Industri
8

Apakah ???
Cloud Technology

Internet of Things

Big Data
9
10

Cloud Computing Services


11

Big Data
12

Big Data
13
14
15
16
21
22

Analisis Data dimulai dari Keadaan Data


Penting memperhatikan
cara memperoleh Demikian pula
data yang akan diolah cara mengolah data
juga penting diperhatikan
23

Data LEMAH karena Sifat Internalnya


Data palsu, fiktif, manipulasi, dugaan, prediksi
Data dari sumber yang belum/tidak terpercaya
Data yang berubah, bertambah atau berkurang sepanjang
aliran perpindahan data
Data yang diambil dengan purposive sampling (misalnya memilih
sampel potensial untuk memperkuat pembuktian, untuk mengeksplorasi faktor, untuk
menentukan pemusatan data, untuk mengevaluasi pengaruh diversitas data, dll)
Data yang diambil dari populasi yang berbeda (misalnya berbeda
lingkup, karakteristik, situasi, perilaku, dll)
24

Data LEMAH karena Sifat Internalnya


25

Data LEMAH karena Kesalahan Pengukuran


Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
26

Data LEMAH karena Kesalahan Pengukuran


27

Data LEMAH karena Kesalahan Pengukuran


Unusual value (outlier), data yang sangat jauh dari
kumpulan data utama, karena illegitimate error
pengukuran atau mungkin sampel berasal dari
populasi lain (terdapat faktor yang berbeda).
Missing value, data relevan yang kurang atau tidak
lengkap, karena kealpaan pengukuran atau
pencatatannya, atau sebaran sampel kurang baik.
Bias, pergeseran data dari nilai yang sebenarnya,
karena systematic error pengukuran.
28

Data LEMAH karena Kesalahan Sampling


Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
29

Data LEMAH karena Kesalahan Sampling


30
31

Tipe Data
32

Bagaimanakah data ???


Tunggal (univariate) Jamak (multivariate)
Bebas (independent) Terikat (dependent)
Sama (homogen) Berbeda (heterogen)
Tetap (fixed) Berubah (variable)
Statis Dinamis
Pasti (certain) Tidak pasti (uncertain)
Tertentu (deterministic) Tak tentu (stochastic)
Teratur/berpola (pattern) Acak (random)
... ...
33

Data
Data adalah fakta mentah yang diperoleh langsung
dari proses pengumpulan, yang perlu diolah lebih
lanjut untuk menghasilkan informasi yang memiliki
makna spesifik bagi pihak yang berkepentingan.
Data adalah bentuk jamak dari datum.
Datum adalah satu unit fakta mentah yang diperoleh
dari proses pengumpulan, misalnya hasil pengukuran
dalam observasi atau eksperimen.
34

Tipe Data
Kuantitatif dan Kualitatif
Parametrik dan Nonparametrik
Nominal, Ordinal, Interval dan Rasio
Diskrit dan Kontinyu
Serentak dan Deret waktu
Tunggal dan Berkelompok
Tunggal dan Jamak
35

Tipe Data
Data Kuantitatif atau Numerical, data yang diperoleh
dari pencacahan, penghitungan, pengukuran atau penilaian
dalam format angka atau bilangan yang dapat
diperbandingkan
Biner (0 atau 1) → data logik (true/false), data tanggapan (yes/no,
accept/decline), data kegagalan (sukses/gagal, baik/rusak)
Bilangan Bulat → Bil asli (1,2,...), Bil cacah (0,1,2)
Bilangan Nyata
...
36

Tipe Data
...
Data Kualitatif atau Categorical, data yang tidak
bernilai numerik.
Dikotomi
Pelabelan atau simbol
Klasifikasi atau stratifikasi
Penilaian verbal
37

Tipe Data
Data Parametrik, data kuantitatif yang mempunyai
sebaran variabel acak mengikuti pola distribusi
probabilitas dengan parameter tertentu (independent
and identically distributed random variables)
Data Nonparametrik, data yang tidak mempunyai
distribusi probabilitas (distribution-free) atau tiada
pengetahuan (sulit diperkirakan) mengenai distribusi
probabilitas populasinya
38

Tipe Data
Data Nominal, data yang hanya berupa simbol
(meski berupa angka) untuk membedakan nilainya
tanpa menunjukkan tingkatan
A=B;A≠B
Contoh: jenis kelamin, warna kulit, ras, suku bangsa,
agama, bentuk rambut
...
39

Tipe Data
40

Tipe Data
Data Ordinal, data yang mempunyai nilai untuk
menunjukkan tingkatan, namun tanpa skala yang
baku dan jelas antar tingkatan.
A>B;A<B
Contoh : Kelompok usia (bayi, anak-anak, remaja,
dewasa, manula), Tingkat pendidikan, Status
ekonomi, Tingkat kepentingan
...
41

Tipe Data
42

Tipe Data
Data Interval, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala tertentu sesuai
intervalnya. Nilai nol hanya untuk menunjukkan titik
acuan (baseline).
A–B=C–D
Contoh : Temperatur, tingkat keasaman
...
43

Tipe Data
44

Tipe Data
Data Rasio, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala indikasi rasio
perbandingan. Nilai nol menunjukkan titik asal (origin)
yang bernilai kosong (null).
A = k.B
Contoh : Tinggi badan, Berat badan, Banyaknya
orang, dll
45

Tipe Data
46

Tipe Data
Data Diskrit, data yang nilainya tertentu (certain),
jelas (distinct), terpisah gap (separate), dan dapat
tersusun di daftar (listed) yang berada dalam interval
tertentu, meskipun bisa dengan batas tak hingga
(misalnya: x = 1, 2, 3, ...).
Biasanya data hasil pencacahan atau penghitungan,
dalam angka bilangan cacah (whole numbers),
misalnya banyaknya orang. Meskipun ada pula data
yang menunjukkan ukuran spesifik, misalnya ukuran
sepatu, ukuran kemeja, ukuran celana.
47

Tipe Data
Data Kontinyu, data yang nilainya tersebar (any
value at any point), tersambung tiada gap
(continuum), dan sulit tersusun di daftar (cannot be
listed) yang berada dalam interval tertentu, meskipun
bisa dengan batas tak hingga (misalnya: x > 0).
Biasanya adalah data hasil pengukuran, dalam angka
bilangan nyata (real numbers), misalnya panjang
meja, volume cairan. Meskipun dapat pula dibulatkan,
data pengukuran yang lebih teliti juga masih mungkin
diperoleh, misalnya 2,5 cm ≈ 2,482468... cm.
48

Tipe Data
49

Tipe Data
Pengukuran Pengukuran
Data Diskrit Data Kontinyu
50

Tipe Data
Data serentak (cross sectional) adalah data yang
diperoleh dari observasi pada waktu yang sama atau
dalam jeda waktu yang tidak signifikan, karena
diasumsikan data tidak sensitif terhadap pergerakan
waktu.
Data deret waktu (time series) adalah data yang
diperoleh dari observasi dengan mempertimbangkan
pergerakan waktu, dan biasanya disertai dugaan
bahwa data dipengaruhi oleh waktu.
51

Tipe Data
Data tunggal (ungrouped data) adalah data mentah
yang belum terorganisasi dalam kelompok atau grup.
Data berkelompok (grouped data) adalah data
yang terorganisasi dalam kelompok atau grup.
 Klaster (clustered data). Pengelompokan data berdasarkan kategori dari variabel
lain (yang terikat dengan data), sehingga data dalam satu klaster masih
heterogen, dan antar klaster bisa serupa atau beririsan.
 Kategori (categorical data). Pengelompokan data berdasarkan kategori nominal
dari data itu sendiri, sehingga data dalam satu klaster sudah homogen, dan antar
klaster berbeda dan tidak beririsan.
 Strata (stratified data). Pengelompokan data berdasarkan stratum atau kelas
berjenjang dari data mulai kelas terkecil hingga terbesar.
52

Tipe Data
53

Tipe Data
Pengendalian
Kualitas (Klaster)
Statistik

Data Berkelompok
Eksperimen satu faktor
dan Regresi Linier

(Kategori atau
Strata)
54

Tipe Data
Data tunggal (univariate data) adalah data yang
hanya merepresentasikan satu variabel.
Data jamak (multivariate data) adalah data yang
merepresentasikan pasangan atau himpunan dari
dua atau lebih variabel secara simultan dengan
mempertimbangkan hubungan antar variabelnya.
55

Tipe Data

ID A1 B1 A2 C1 B2 B3 A3 C2 B4 C3 B5 C4 A4 A5 A6 C5 B6 C6 C7 C8

Klaster A B A C B B A C B C B C A A A C B C C C

Warna H H C C B B H H M M H C B M C B M B C H

Intensitas S T T S S T T G S T T G T G S G S T G T

Masing-masing baris adalah data univariate Gabungan 2 atau lebih baris adalah data multivariate

Distribusi data univariate Distribusi data multivariate Plot data multivariate

Plot data bivariate


56

Tipe Data
Plot data univariate

Plot data multivariate


57

Jenis Data Berdasarkan Sumber Data


Data primer, fakta yang diperoleh langsung dari
pengukuran atau penghitungan obyek observasi
Data sekunder, data yang diperoleh dari merujuk
hasil observasi atau pernyataan subyek observasi
atau responden (melalui wawancara atau curah
pendapat)
Data tersier, dst..., data yang diperoleh dari pustaka
lainnya.
58

Tipe Data
Record
Data Matrix
Document Data
Transaction Data
Graph
World Wide Web
Molecular Structures
Ordered
Spatial Data
Temporal Data
Sequential Data
Genetic Sequence Data
59

Record Data
Record Data adalah data yang Tid Refund Marital
Status
Taxable
Income Cheat

terdiri dari sejumlah record 1 Yes Single 125K No

atau tuple atau instance, yang 2


3
No
No
Married
Single
100K
70K
No
No
mana setiap record tersusun 4 Yes Married 120K No

dari satu set atribut tertentu 5


6
No
No
Divorced 95K
Married 60K
Yes
No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
60

Graph Data
Graph data adalah data yang menjelaskan node dan relasinya
contoh: Generic graph, a molecule, dan webpages sitemaps
2
5 1
2
5

Benzene Molecule: C6H6


61

Ordered Data
Ordered Data adalah data yang menunjukkan rangkaian urutan
Sequences of transactions
Items/Events

An element of the sequence


62

Ordered Data
 Genomic sequence data
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
63

Ordered Data
Spatio-Temporal Data

Average Monthly
Temperature of
land and ocean
64
65

Biometrics
66

Jenjang
Data – Informasi
67
68

Apakah ???
69

Apakah ???
Apakah ???
71

Bagaimanakah pola data ???


Mengumpul Menyebar
Konstan Berfluktuasi
Stasioner Non-stasioner
Kovergen Divergen
Mempunyai tren Acak
Seragam (uniformity) Beragam (diversity)
Koheren Kacau
Stereotype Anomali
Jelas (distinct) Tak jelas (fuzzy)
... ...
72

Sekilas tentang
Data Science
73
74

Data Science
Data Science adalah disiplin ilmu interdisipliner yang
menggunakan metode ilmiah, algoritma, proses saintifik, dan
pendekatan sistem untuk mengekstrak knowledge dan insight
dari data yang terstruktur atau tidak terstruktur, terorganisasi
atau tercampur-baur, serta menerapkan knowledge dan
insight berbasis data di berbagai domain.
Data Science membutuhkan pengetahuan dan keterampilan:
Matematika dan statistika
Ilmu komputer dan informatika
Domain knowledge (pengetahuan terhadap domain baik dari
keilmuan maupun praktik aplikasi)
75
76
77
78
79
80
81
82

Data Science
Data science memadukan banyak bidang ilmu, mencakup
statistika, metode ilmiah, kecerdasan buatan (artificial
intelligence, AI), dan analisa data untuk mengekstraksi nilai
informasi dari data.
https://www.oracle.com/data-science/what-is-data-science/
Data science memadukan metode ilmiah, matematika dan
statistika, pemrograman, analisa data, kecerdasan buatan
(artificial intelligence, AI), dan storytelling untuk mengungkap
dan menjelaskan business insights yang tersembunyi di data.
https://www.ibm.com/cloud/learn/data-science-introduction
83
84

KDD: Knowledge Discovery and Data Mining AI: Artificial Intelligence


85

Data Science
Data Science berkaitan dengan ekstraksi, preparasi,
analisis, visualisasi dan maintain informasi. Merupakan
disiplin ilmu lintas disipliner yang menggunakan metode
ilmiah dan proses saintifik untuk menarik insights dari data.
Data Science berkepentingan dengan pengolahan, analisis
dan ekstraksi data untuk menghasilkan insights dari data
menggunakan berbagai metode statistika dan algoritma
komputer. Merupakan disiplin ilmu multidisipliner yang
memadukan matematika, statistika dan ilmu komputer.
https://data-flair.training/blogs/what-is-data-science/
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101

Data Science-Data Analysis


What is Data Science?
Data Science adalah disiplin ilmu multidisipliner yang memadukan banyak disiplin
ilmu berkaitan dengan data dan mengaplikasikan tool dan metode interdisipliner
untuk ekstraksi, preparasi, analisis, visualisasi dan maintain data terstruktur atau tak
terstruktur untuk menghasilkan knowledge dan insight dari data.

What is Data Analysis?


Data analysis adalah bagian dari Data Science yang berkaitan dengan pemilihan
dan pengaplikasian tool dan metode analisis yang tepat untuk menghasilkan
knowledge dan insight dari data.
102

Data Science-Data Analysis


What is Data Analytics?
Data Analytics adalah bagian dari Data Analysis yang menggunakan query dan
metode agregasi data untuk memetakan berbagai pola relasi dan dependensi antar
variabel input.

What is Data Mining?


Data Mining adalah metode yang dipergunakan dalam Data Analytics yang
memberdayakan kemampuan prediksi dari machine learning dengan
mengaplikasikan berbagai algoritma machine learning atas big data untuk
mengidentifikasikan pola kecenderungan dari data.
103
104
105

Sekilas tentang
Machine Learning
106

Artificial Intelligence
107
108
109
110
111
112
113
114
115
116
117

Artificial Intelligence-Machine Learning


What is Artificial Intelligence?
Artifial Intelligence adalah teknik dalam disiplin ilmu komputer yang memungkinkan
komputer menirukan kecerdasan manusia, menggunakan logika, aturan if-then,
pohon keputusan, dan model keputusan lainnya, termasuk machine learning.

What is Machine Learning?


Machine Learning adalah bagian dari Artificial Intelligence yang melibatkan teknik
statistika probabilistik sehingga memungkinkan mesin untuk meningkatkan
kemampuan algoritma komputer menjalankan tugas dengan pengalaman.

What is Deep Learning?


Deep Learning adalah bagian dari Machine Learning yang memadukan algoritma
yang memungkinkan software untuk melatih mandiri hingga mampu menjalankan
tugas dengan menerapkan multilayered neural network pada data skala besar.
118

Terima kasih ...

... Ada pertanyaan ???

Anda mungkin juga menyukai