Andata 2020 01
Andata 2020 01
Pengantar
ANALISIS DATA
ARIF RAHMAN
2
Referensi
Milton, M, Head First: Data Analysis,
Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data,
Machine Learning, and More, Using Python Tools,
Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process
Step-by-Step,
Skiena, SS, The Data Science Design Manual,
Dietrich, D, Heller, B, & Yang, B, Data Science and Big Data Analytics:
Discovering, Analyzing, Visualizing and Presenting Data,
Bahga, A, & Madisetti, V, Big Data Science and Analytics: A Hands-On
Approach,
Steele, B, Chandler, J, & Reddy, S, Algorithms for Data Science,
Russell, R. Machine Learning: Step-by-Step Guide to Implement Machine
Learning Algorithms with Python,
Salazar, JR , Data Science and Analytics with Python,
Miller, C, Hands-On Data Analysis with NumPy and Pandas: Implement
Python Packages from data Manipulation to Processing,
3
Referensi
4
Peranan Penting
Serta Problematik
Data dan Informasi
Kondratieff Waves
Cybernetics,
Wireless Technology,
Nanotechnology,
Biotechnology
Industrial Revolution
Apakah ???
Cloud Technology
Internet of Things
Big Data
9
10
Big Data
12
Big Data
13
14
15
16
21
22
Tipe Data
32
Data
Data adalah fakta mentah yang diperoleh langsung
dari proses pengumpulan, yang perlu diolah lebih
lanjut untuk menghasilkan informasi yang memiliki
makna spesifik bagi pihak yang berkepentingan.
Data adalah bentuk jamak dari datum.
Datum adalah satu unit fakta mentah yang diperoleh
dari proses pengumpulan, misalnya hasil pengukuran
dalam observasi atau eksperimen.
34
Tipe Data
Kuantitatif dan Kualitatif
Parametrik dan Nonparametrik
Nominal, Ordinal, Interval dan Rasio
Diskrit dan Kontinyu
Serentak dan Deret waktu
Tunggal dan Berkelompok
Tunggal dan Jamak
35
Tipe Data
Data Kuantitatif atau Numerical, data yang diperoleh
dari pencacahan, penghitungan, pengukuran atau penilaian
dalam format angka atau bilangan yang dapat
diperbandingkan
Biner (0 atau 1) → data logik (true/false), data tanggapan (yes/no,
accept/decline), data kegagalan (sukses/gagal, baik/rusak)
Bilangan Bulat → Bil asli (1,2,...), Bil cacah (0,1,2)
Bilangan Nyata
...
36
Tipe Data
...
Data Kualitatif atau Categorical, data yang tidak
bernilai numerik.
Dikotomi
Pelabelan atau simbol
Klasifikasi atau stratifikasi
Penilaian verbal
37
Tipe Data
Data Parametrik, data kuantitatif yang mempunyai
sebaran variabel acak mengikuti pola distribusi
probabilitas dengan parameter tertentu (independent
and identically distributed random variables)
Data Nonparametrik, data yang tidak mempunyai
distribusi probabilitas (distribution-free) atau tiada
pengetahuan (sulit diperkirakan) mengenai distribusi
probabilitas populasinya
38
Tipe Data
Data Nominal, data yang hanya berupa simbol
(meski berupa angka) untuk membedakan nilainya
tanpa menunjukkan tingkatan
A=B;A≠B
Contoh: jenis kelamin, warna kulit, ras, suku bangsa,
agama, bentuk rambut
...
39
Tipe Data
40
Tipe Data
Data Ordinal, data yang mempunyai nilai untuk
menunjukkan tingkatan, namun tanpa skala yang
baku dan jelas antar tingkatan.
A>B;A<B
Contoh : Kelompok usia (bayi, anak-anak, remaja,
dewasa, manula), Tingkat pendidikan, Status
ekonomi, Tingkat kepentingan
...
41
Tipe Data
42
Tipe Data
Data Interval, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala tertentu sesuai
intervalnya. Nilai nol hanya untuk menunjukkan titik
acuan (baseline).
A–B=C–D
Contoh : Temperatur, tingkat keasaman
...
43
Tipe Data
44
Tipe Data
Data Rasio, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala indikasi rasio
perbandingan. Nilai nol menunjukkan titik asal (origin)
yang bernilai kosong (null).
A = k.B
Contoh : Tinggi badan, Berat badan, Banyaknya
orang, dll
45
Tipe Data
46
Tipe Data
Data Diskrit, data yang nilainya tertentu (certain),
jelas (distinct), terpisah gap (separate), dan dapat
tersusun di daftar (listed) yang berada dalam interval
tertentu, meskipun bisa dengan batas tak hingga
(misalnya: x = 1, 2, 3, ...).
Biasanya data hasil pencacahan atau penghitungan,
dalam angka bilangan cacah (whole numbers),
misalnya banyaknya orang. Meskipun ada pula data
yang menunjukkan ukuran spesifik, misalnya ukuran
sepatu, ukuran kemeja, ukuran celana.
47
Tipe Data
Data Kontinyu, data yang nilainya tersebar (any
value at any point), tersambung tiada gap
(continuum), dan sulit tersusun di daftar (cannot be
listed) yang berada dalam interval tertentu, meskipun
bisa dengan batas tak hingga (misalnya: x > 0).
Biasanya adalah data hasil pengukuran, dalam angka
bilangan nyata (real numbers), misalnya panjang
meja, volume cairan. Meskipun dapat pula dibulatkan,
data pengukuran yang lebih teliti juga masih mungkin
diperoleh, misalnya 2,5 cm ≈ 2,482468... cm.
48
Tipe Data
49
Tipe Data
Pengukuran Pengukuran
Data Diskrit Data Kontinyu
50
Tipe Data
Data serentak (cross sectional) adalah data yang
diperoleh dari observasi pada waktu yang sama atau
dalam jeda waktu yang tidak signifikan, karena
diasumsikan data tidak sensitif terhadap pergerakan
waktu.
Data deret waktu (time series) adalah data yang
diperoleh dari observasi dengan mempertimbangkan
pergerakan waktu, dan biasanya disertai dugaan
bahwa data dipengaruhi oleh waktu.
51
Tipe Data
Data tunggal (ungrouped data) adalah data mentah
yang belum terorganisasi dalam kelompok atau grup.
Data berkelompok (grouped data) adalah data
yang terorganisasi dalam kelompok atau grup.
Klaster (clustered data). Pengelompokan data berdasarkan kategori dari variabel
lain (yang terikat dengan data), sehingga data dalam satu klaster masih
heterogen, dan antar klaster bisa serupa atau beririsan.
Kategori (categorical data). Pengelompokan data berdasarkan kategori nominal
dari data itu sendiri, sehingga data dalam satu klaster sudah homogen, dan antar
klaster berbeda dan tidak beririsan.
Strata (stratified data). Pengelompokan data berdasarkan stratum atau kelas
berjenjang dari data mulai kelas terkecil hingga terbesar.
52
Tipe Data
53
Tipe Data
Pengendalian
Kualitas (Klaster)
Statistik
Data Berkelompok
Eksperimen satu faktor
dan Regresi Linier
(Kategori atau
Strata)
54
Tipe Data
Data tunggal (univariate data) adalah data yang
hanya merepresentasikan satu variabel.
Data jamak (multivariate data) adalah data yang
merepresentasikan pasangan atau himpunan dari
dua atau lebih variabel secara simultan dengan
mempertimbangkan hubungan antar variabelnya.
55
Tipe Data
ID A1 B1 A2 C1 B2 B3 A3 C2 B4 C3 B5 C4 A4 A5 A6 C5 B6 C6 C7 C8
Klaster A B A C B B A C B C B C A A A C B C C C
Warna H H C C B B H H M M H C B M C B M B C H
Intensitas S T T S S T T G S T T G T G S G S T G T
Masing-masing baris adalah data univariate Gabungan 2 atau lebih baris adalah data multivariate
Tipe Data
Plot data univariate
Tipe Data
Record
Data Matrix
Document Data
Transaction Data
Graph
World Wide Web
Molecular Structures
Ordered
Spatial Data
Temporal Data
Sequential Data
Genetic Sequence Data
59
Record Data
Record Data adalah data yang Tid Refund Marital
Status
Taxable
Income Cheat
Graph Data
Graph data adalah data yang menjelaskan node dan relasinya
contoh: Generic graph, a molecule, dan webpages sitemaps
2
5 1
2
5
Ordered Data
Ordered Data adalah data yang menunjukkan rangkaian urutan
Sequences of transactions
Items/Events
Ordered Data
Genomic sequence data
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
63
Ordered Data
Spatio-Temporal Data
Average Monthly
Temperature of
land and ocean
64
65
Biometrics
66
Jenjang
Data – Informasi
67
68
Apakah ???
69
Apakah ???
Apakah ???
71
Sekilas tentang
Data Science
73
74
Data Science
Data Science adalah disiplin ilmu interdisipliner yang
menggunakan metode ilmiah, algoritma, proses saintifik, dan
pendekatan sistem untuk mengekstrak knowledge dan insight
dari data yang terstruktur atau tidak terstruktur, terorganisasi
atau tercampur-baur, serta menerapkan knowledge dan
insight berbasis data di berbagai domain.
Data Science membutuhkan pengetahuan dan keterampilan:
Matematika dan statistika
Ilmu komputer dan informatika
Domain knowledge (pengetahuan terhadap domain baik dari
keilmuan maupun praktik aplikasi)
75
76
77
78
79
80
81
82
Data Science
Data science memadukan banyak bidang ilmu, mencakup
statistika, metode ilmiah, kecerdasan buatan (artificial
intelligence, AI), dan analisa data untuk mengekstraksi nilai
informasi dari data.
https://www.oracle.com/data-science/what-is-data-science/
Data science memadukan metode ilmiah, matematika dan
statistika, pemrograman, analisa data, kecerdasan buatan
(artificial intelligence, AI), dan storytelling untuk mengungkap
dan menjelaskan business insights yang tersembunyi di data.
https://www.ibm.com/cloud/learn/data-science-introduction
83
84
Data Science
Data Science berkaitan dengan ekstraksi, preparasi,
analisis, visualisasi dan maintain informasi. Merupakan
disiplin ilmu lintas disipliner yang menggunakan metode
ilmiah dan proses saintifik untuk menarik insights dari data.
Data Science berkepentingan dengan pengolahan, analisis
dan ekstraksi data untuk menghasilkan insights dari data
menggunakan berbagai metode statistika dan algoritma
komputer. Merupakan disiplin ilmu multidisipliner yang
memadukan matematika, statistika dan ilmu komputer.
https://data-flair.training/blogs/what-is-data-science/
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
Sekilas tentang
Machine Learning
106
Artificial Intelligence
107
108
109
110
111
112
113
114
115
116
117