Anda di halaman 1dari 27

COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.

id

Format dan Jenis Data


Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Perkembangan Science dan Data



Awalnya pengolahan data
digunakan untuk uji hipotesis
pada experiment

Ketika perangkat komputasi
serta kemampuan menyimpan
data semakin besar, maka ini
ada era baru yaitu science
berbasiskan data

Pada model ini teori-teori
diturunkan berdasarkan data-
data yang telah dikumpulkan

Teori-teori baru diturunkan
berdasarkan data-data yang
ada

Ini menjadikan data menjadi
penting di dalam
pengembangan knowledge
atau ilmu pengetahuan baru

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Stock Prediction

Menggunakan data dari harga saham, sebagai
time series analysis, untuk memprediksi harga
saham berdasarkan histori harga saham

Menggabungkan analisis berita dan
percakapan yang ada di media sosial untuk
memprediksi harga saham

Penggabungan structure dan unstructure
misal dari berita-berita, laporan laporan untuk
mengananlisis kinerja perusahaan ataupun
memprediksi sentimen pasar

Metode ini banyak diterapkan pada prediksi
harga saham saat ini

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Science dengan data


Bidang seperti geofisika, seismik menggunakan data yang didapatkan
dari beragam sensor (geophone, dsb) untuk melakukan prediksi

Penggunaan data untuk melakukan permodelan ini membutuhkan
sumber daya komputasi yang tinggi, tetapi berbeda dengan
pendekatan AI karean fungsi komputasinya yang lebih dominan
daripada fungsi meniru kemampuan manusia

Tetapi kesadaran adanya data sudah timbul pada bidang-bidang ini.
Pada bidang ini penguasaan data adalah hal penting pada bisnisnya.
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Menggabung dari berbagai sumber data


Penggabungan berbagai data untuk digunakan sebagai pendorong keputusan
membutuhkan pemahaman jenis data

Setiap data membutuhkan sumber data yang berbeda-beda

Setiap sumber data disimpan di dalam model database yang berbeda-beda sehingga
dibutuhkan pemahaman bagaimana menyimpan data dari sumber data itu secara tepat
sehingga dapat digunakan kemudian
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Data Intensive Linguistics


Pengalahan bahasa awalnya dengan pendekatan analitik (model grammar, model
bahasa, daftar kata, model probabilistik)

Ketika tersedia teks dalam jumlah besar (misal berita online, corpus-corpus bebas,
sehingga dengan menerapkan data science dilakukan data intensive linguistic

Dari teks-teks dan annotasi yang ada maka dilakukan permodelan bahasa

Juga digabung misal dengan video data dari gerak bibir
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Alur pengolahan data untuk ML

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Penggunaan Data Science



Setiap jenis
pemanfaatan
aplikasi data
science
membutuhkan
jenis data set yang
berbeda

Keberadaan
dataset untuk
kebutuhan aplikasi
tersebut juga
berbeda

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Jenis data

Texts

Numbers

Clickstreams

Graphs

Tables

Images

Transactions

Videos

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Jenis data yang diolah


Data terstruktur Data takterstruktur
(structured data) (unstructured data)

Sifat • Model data • Model data tidak


terdefinisikan terdefinisikan
sebelumnya sebelumnya
• Format butir data • Format butir data
(biasanya) teks. (biasanya) teks, citra,
• Antar butir data suara, video, dan format
terbedakan lainnya.
dengan jelas. • Antar butir data tidak
• Ekstraksi/kueri cukup jelas terbedakan
langsung cukup karena
mudah. ketidakteraturan dan
ambiguitas.
• Ekstraksi/kueri
langsung cukup sulit.
Contoh Data tabular, data Data teks dalam
berorientasi objek, dokumen teks bebas,
time series data audio, data video.
Data semi-terstruktur (semi-structured data): Data terstruktur yang tidak mengikuti model
struktur tabular yang seperti pada basis data relasional, namun tetap mengandung tags atau
penanda lainnya yang dapat memisahkan elemen-elemen semantik pada data serta mengatur
sumber:
hierarki antara butir-butir datanya.
https://www.knowledgehut.com/blog/data-science/role-of-unstructured-data-in-data-science

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Bentuk Data

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Pemanfaatan Data

Pemanfaatan


Big data analytics

Linked data

Semantics

Augmented reality

Virtual reality

Artificial intelligence

Text analytics

Networks of networks

Cloud

Spatial Data Infrastructures

Data analytics

Open source

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Pemanfaatan Big Data

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Pemanfaatan Bisnis

Dari data yang dikumpulkan
dan dianalisis bisa menjadi
“data ataupun informasi baru”

Dapat digunakan untuk
kegiatan selanjutnya

Ini yang disebut penambahan
nilai data

Merupakan model bisnis baru
saat ini dengan adanya Data
Science

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Sumber dan jenis data



Setiap jenis data
membutuhkan sistem
berbeda untuk
menyimpan

Membutuhkan metoda
yang berbeda untuk
mengumpulkannya
(ingest)

Data akan diintegrasikan
agar dapat dianalisis
lebih lanjut

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Format CSV

Suatu comma-separated values (CSV) file merupakan
file teks yang diberi batas oleh karakter tertentu.
– Setiap baris merupakan record data.
– Setiap record terdiri dari satu atau lebih field yang dipisahkan oleh koma

Penggunaan CSV ini biasanya digunakan untuk
menyimpan data tabular (angka dan teks) di dalam teks,
setiap baris akan memiliki jumlah field yang sama

Format berkas CSV ini tidak terstandardkan. Hal
utamanya adalah pemisahan field dengan menggunakan
koma, dan baruis ditangani secara khusus. Beberapa
fiormat menggunakan tanda kutip untuk string.

Tentu saja penggunaan karakter pembatas ini bisa
bervariasi. Bisa menggunakan tabulasi ataupun spasi.

Berkas ini biasanya menggunakan ekstensi pada nama
berkasnya adalah ".csv"

Beberapa aplikasi yang dapat menggunakan CSV
memiliki opsi untuk memilih karakter pembatas yang
digunakan. Karakter “;” sering digunakan untuk
pembatas ataupun karakter “|” karean koma seringkali
pada negara tertentu digunakan sebagai pembatas
bilangan (seperti di Indonesia)

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Clickstream - Log

Data log sering
dimanfaatkan untuk
menganalisi
kunjungan,
engagement dan
sebagainya

Data log merupakan
berkas teks dengan
format tertentu

Data tersimpan di
dalam suatu format
yang dikenal dengan
Common Log Format
(CLF)

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Binary Large Object (BLOB)



Suatu kumpulan data biner yang
disimpan sebagai suatu entitas
tunggal.

BLOB biasanya berupa image, audio,
atau obyek multimedia lamanya, bisa
juga berupa kode biner eksekutabel

Dapat juga disimpan di dalam
database (tapi tidak disarankan bila
konkurensi tinggi). Sebagai contoh
pada database album foto, maka foto
disimpan dai dalam data BLOB dan
caption sebagai string dalam database.

Ditemukan oleh Jim Stakey dari DEC,
model BLOB ini mulai dipopulerkan
oleh DB2 produk IBM.

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Format XLS

Suatu berkas XLS merupakan berkas hasil penyimpana
spreadsheet Microsfot Excell. XLS adalah singkatan dari
Excel Spreadsheet. Sehingga berkas dengan format ini
menggunakan ekstensi .xls

Perbedaan antara format CSV dan XLS: format XSV
tersimpan dalam format teks mentah sedankgan format
XLS dalam format binary yang juga menyimpan informasi
lain seeprti format tampilan.

Berkas ini pada dasarnya merepresentasikan Excel Binary
File Format, yang dapat juga dihasilkan oleh program
lainnya (tidak harus MS Excel). Berkas ini merupakan
stream biner yang distrukturkan dalam berkas compound.

Sedangkan berkas XLSX merupakan berkas Office
OpenXML format yang menyimpan berkas XML
terkompresk ZIP.

Berkas laiannya yang hampir menyerpuapi adalah
OpenDocument Spreadsheet Document format yang
merupakan spesfikasi ODF 1.2 dari OASIS (sudah menjadi
ISO). Yang dihasilkan oleh OpenOffice, LibreOffice,
NeoOffice dan lain sebagainya. Menggunakan
ekstensi .ods

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

JSON

JSON singkatan dari JavaScript Object Notation suatu file
format open standar dan format pertukaran data
(interchange) yang menggunakan teks dapat terbaca
manusia. Data ini terdiri dari pasangan attribute dan array.

Format data banyak digunakan untuk pertukaran data
pada aplikasi web dan server. Format ini tidak bergantung
pada bahasa pemrograman yang digunakan, walaupun
awalnya diturunkan dari JavaScript. Berkas untuk JSON
sering menggunakan ekstension .json

Awalnya Douglas Crockford menspesifikasikan format
JSOON ini di awal 2000. Spesfiikasi informal dituliskan di
dalam RFC 4627 sejak 2006.

Pada tahun 2013 distandardkan sebagai ECMA-404.

Saat ini format yang berlaku adalah RFC 8259 tahun 2017,
dan tetap konsisten dengan ECMA-404. JSON juga
distandardkan sebagai ISO/IEC 21778:2017.

Standarsd ECMA dan ISO hanya menjelaskan sintaks yang
diperbolehkan sedangakn RFC menjelaskan pertimbangan
sekuriti dan interoperabilitas

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

JSONB

PostgreSQL menyediakan kemampuan
menyimpan data JSON dalam dua jenis
JSON dan JSONB.

JSONB menyimpan obyek data dalam
bentuk binar terkompres sehingga ketika
membacat tidak perlu memparsing ulang

Tidak ada perbedaan dalam jenis data
yang disimpan. Yang membedakan
adalah efisiensi. JSON menyimpan dalam
bentuk presis dengan teks masukan,
sehingga ketika memproses harus
memparsing saat eksekusi. JSOBN
menyimapn data dalam bentuk binary
yang lebih lambat saat menyimpan tetapi
lebih cepat ketika membaca karena juga
mensupport pengindeksan.

JSON menyimpan “white space”
sedangkan JSONB tidak. Secara efisiensi
JSONB lebih unggul, tetapi hanya
tersedia di PostgreSQL

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

XML

XML (Extensible Markup Language) suatu bahasa
tertanda (markup language) mirip dengan HTML, tetapi
tanpa tag yang telah didefinisikan sebelumnya. Tag
tersebut didefinisikan sebelumnya sesuai kebutuhan.

Merupakan metoda yang bermanfaat untuk menyimpan
data dalam suatu format yang dapat disimpan, dicari,
ataupun di-share. Dapat dengan mudah dibaca manusia
ataupun mesin

XML ini merupakan format berbasiskan teks, dengan
informasi tersetruktur, untuk dokumen,d ata konfigurasi,
buku, transaksi, tagihan dan lain sebagainya. Diturunkan
dari standard lama disebut SGML (ISO 8897), yang telah
disesuaikan agar dapat digunakan di Web

Hal yang membedakan antara HTML dan XML, HTML
menampilkan data dan menentukan struktur suatu
halaman web, sedangkan XML menyimpan data dan
mentransfer data.]. XML dapat mendefinisikan bahasa
atau format lainnya.

Antara XML dan JSON, JSON lebih cepat karena didisain
untuk pertukaran data, tetapi kurang baik untuk
pertukaran dokumen.

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Data Multimedia

Data multi media misalnya suara
ataupun image. Merupakan
penyataan dalam angka dari data
analog tersebut.

Proses ini sering disebut dengan
proses samping dengan kuantisasi.
Pada proses ini pada suatu satuan
waktu (bila suara, maka nilai
tegangan akan dikonversikan
menjadi kode biner)

Pada data image, maka nilai
kecerahan (gray value) dari tiap
piksel dikonversikan menjadi
bilangan yang tersimpan menjadi
kode binar

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Format Multimedia

Suatu berkas multimedia merupakan
gabungan beberapa berkas sehingga
dikenal istilah “container” setiap jenis
data akan diencoding menjadi suatu
dan kemudian digabungkan

Video memiliki encoding dan
compression tertentu, audio dengan
encoding tertentu, dan dilengkapi
dengan compression

Compresesion ada yang bersifat lossy
ataupun losless

Berkas audio dan video dibagung
dengan berkas lainnya (misal subtittle,
metadata, header) maka disatukan
menjadi satu berkas multimedia
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Time Series Data



Suatu data yang dapat tiap waktu
(misal pengukuran suhu,
kelembaban, ataupun harga
saham) sering disebut dengan
time series data

Untuk data tersebut biasa
disimpan dengan indeks waktu
saat data itu tiba

Analisis time series sering
digunakan dalam forecasting
untuk melihat trend dari data
ataupun pola musiman dari data
tersebut (seasonal), juga pola
berulang (cyclic)

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Data tidak terstruktur



Unstructured data is information that is not arranged according to
a pre-set data model or schema, and therefore cannot be stored in
a traditional relational database or RDBMS. Text and multimedia
are two common types of unstructured content.

Sesi 3 . Tool untuk Data Preparation Pengantar Data Science


COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id

Sumber Data

Sumber Data


Internet of Things

Remote sensing (UAVs, etc)

Wearable cameras

Open public sector data

Social media

Volunteer GI (& citizen

Sumber data saat ini beragam sekali,
science)

Mobile & real time baik yang secara sadar dikumpulkan

Inside / outside positioning (jejak aktif) ataupun tidak (jejak pasif)

3D / 4D

5G ●
Dapat juga sumber data merupakan
sumber data turunan ataupun agregasi
dari berbagai sumber data
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science

Anda mungkin juga menyukai