Materi 2
Materi 2
id
Stock Prediction
●
Menggunakan data dari harga saham, sebagai
time series analysis, untuk memprediksi harga
saham berdasarkan histori harga saham
●
Menggabungkan analisis berita dan
percakapan yang ada di media sosial untuk
memprediksi harga saham
●
Penggabungan structure dan unstructure
misal dari berita-berita, laporan laporan untuk
mengananlisis kinerja perusahaan ataupun
memprediksi sentimen pasar
●
Metode ini banyak diterapkan pada prediksi
harga saham saat ini
●
Bidang seperti geofisika, seismik menggunakan data yang didapatkan
dari beragam sensor (geophone, dsb) untuk melakukan prediksi
●
Penggunaan data untuk melakukan permodelan ini membutuhkan
sumber daya komputasi yang tinggi, tetapi berbeda dengan
pendekatan AI karean fungsi komputasinya yang lebih dominan
daripada fungsi meniru kemampuan manusia
●
Tetapi kesadaran adanya data sudah timbul pada bidang-bidang ini.
Pada bidang ini penguasaan data adalah hal penting pada bisnisnya.
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id
●
Penggabungan berbagai data untuk digunakan sebagai pendorong keputusan
membutuhkan pemahaman jenis data
●
Setiap data membutuhkan sumber data yang berbeda-beda
●
Setiap sumber data disimpan di dalam model database yang berbeda-beda sehingga
dibutuhkan pemahaman bagaimana menyimpan data dari sumber data itu secara tepat
sehingga dapat digunakan kemudian
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id
●
Pengalahan bahasa awalnya dengan pendekatan analitik (model grammar, model
bahasa, daftar kata, model probabilistik)
●
Ketika tersedia teks dalam jumlah besar (misal berita online, corpus-corpus bebas,
sehingga dengan menerapkan data science dilakukan data intensive linguistic
●
Dari teks-teks dan annotasi yang ada maka dilakukan permodelan bahasa
●
Juga digabung misal dengan video data dari gerak bibir
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id
Jenis data
●
Texts
●
Numbers
●
Clickstreams
●
Graphs
●
Tables
●
Images
●
Transactions
●
Videos
Bentuk Data
Pemanfaatan Data
Pemanfaatan
●
Big data analytics
●
Linked data
●
Semantics
●
Augmented reality
●
Virtual reality
●
Artificial intelligence
●
Text analytics
●
Networks of networks
●
Cloud
●
Spatial Data Infrastructures
●
Data analytics
●
Open source
Pemanfaatan Bisnis
●
Dari data yang dikumpulkan
dan dianalisis bisa menjadi
“data ataupun informasi baru”
●
Dapat digunakan untuk
kegiatan selanjutnya
●
Ini yang disebut penambahan
nilai data
●
Merupakan model bisnis baru
saat ini dengan adanya Data
Science
Format CSV
●
Suatu comma-separated values (CSV) file merupakan
file teks yang diberi batas oleh karakter tertentu.
– Setiap baris merupakan record data.
– Setiap record terdiri dari satu atau lebih field yang dipisahkan oleh koma
●
Penggunaan CSV ini biasanya digunakan untuk
menyimpan data tabular (angka dan teks) di dalam teks,
setiap baris akan memiliki jumlah field yang sama
●
Format berkas CSV ini tidak terstandardkan. Hal
utamanya adalah pemisahan field dengan menggunakan
koma, dan baruis ditangani secara khusus. Beberapa
fiormat menggunakan tanda kutip untuk string.
●
Tentu saja penggunaan karakter pembatas ini bisa
bervariasi. Bisa menggunakan tabulasi ataupun spasi.
●
Berkas ini biasanya menggunakan ekstensi pada nama
berkasnya adalah ".csv"
●
Beberapa aplikasi yang dapat menggunakan CSV
memiliki opsi untuk memilih karakter pembatas yang
digunakan. Karakter “;” sering digunakan untuk
pembatas ataupun karakter “|” karean koma seringkali
pada negara tertentu digunakan sebagai pembatas
bilangan (seperti di Indonesia)
Clickstream - Log
●
Data log sering
dimanfaatkan untuk
menganalisi
kunjungan,
engagement dan
sebagainya
●
Data log merupakan
berkas teks dengan
format tertentu
●
Data tersimpan di
dalam suatu format
yang dikenal dengan
Common Log Format
(CLF)
Format XLS
●
Suatu berkas XLS merupakan berkas hasil penyimpana
spreadsheet Microsfot Excell. XLS adalah singkatan dari
Excel Spreadsheet. Sehingga berkas dengan format ini
menggunakan ekstensi .xls
●
Perbedaan antara format CSV dan XLS: format XSV
tersimpan dalam format teks mentah sedankgan format
XLS dalam format binary yang juga menyimpan informasi
lain seeprti format tampilan.
●
Berkas ini pada dasarnya merepresentasikan Excel Binary
File Format, yang dapat juga dihasilkan oleh program
lainnya (tidak harus MS Excel). Berkas ini merupakan
stream biner yang distrukturkan dalam berkas compound.
●
Sedangkan berkas XLSX merupakan berkas Office
OpenXML format yang menyimpan berkas XML
terkompresk ZIP.
●
Berkas laiannya yang hampir menyerpuapi adalah
OpenDocument Spreadsheet Document format yang
merupakan spesfikasi ODF 1.2 dari OASIS (sudah menjadi
ISO). Yang dihasilkan oleh OpenOffice, LibreOffice,
NeoOffice dan lain sebagainya. Menggunakan
ekstensi .ods
JSON
●
JSON singkatan dari JavaScript Object Notation suatu file
format open standar dan format pertukaran data
(interchange) yang menggunakan teks dapat terbaca
manusia. Data ini terdiri dari pasangan attribute dan array.
●
Format data banyak digunakan untuk pertukaran data
pada aplikasi web dan server. Format ini tidak bergantung
pada bahasa pemrograman yang digunakan, walaupun
awalnya diturunkan dari JavaScript. Berkas untuk JSON
sering menggunakan ekstension .json
●
Awalnya Douglas Crockford menspesifikasikan format
JSOON ini di awal 2000. Spesfiikasi informal dituliskan di
dalam RFC 4627 sejak 2006.
●
Pada tahun 2013 distandardkan sebagai ECMA-404.
●
Saat ini format yang berlaku adalah RFC 8259 tahun 2017,
dan tetap konsisten dengan ECMA-404. JSON juga
distandardkan sebagai ISO/IEC 21778:2017.
●
Standarsd ECMA dan ISO hanya menjelaskan sintaks yang
diperbolehkan sedangakn RFC menjelaskan pertimbangan
sekuriti dan interoperabilitas
JSONB
●
PostgreSQL menyediakan kemampuan
menyimpan data JSON dalam dua jenis
JSON dan JSONB.
●
JSONB menyimpan obyek data dalam
bentuk binar terkompres sehingga ketika
membacat tidak perlu memparsing ulang
●
Tidak ada perbedaan dalam jenis data
yang disimpan. Yang membedakan
adalah efisiensi. JSON menyimpan dalam
bentuk presis dengan teks masukan,
sehingga ketika memproses harus
memparsing saat eksekusi. JSOBN
menyimapn data dalam bentuk binary
yang lebih lambat saat menyimpan tetapi
lebih cepat ketika membaca karena juga
mensupport pengindeksan.
●
JSON menyimpan “white space”
sedangkan JSONB tidak. Secara efisiensi
JSONB lebih unggul, tetapi hanya
tersedia di PostgreSQL
XML
●
XML (Extensible Markup Language) suatu bahasa
tertanda (markup language) mirip dengan HTML, tetapi
tanpa tag yang telah didefinisikan sebelumnya. Tag
tersebut didefinisikan sebelumnya sesuai kebutuhan.
●
Merupakan metoda yang bermanfaat untuk menyimpan
data dalam suatu format yang dapat disimpan, dicari,
ataupun di-share. Dapat dengan mudah dibaca manusia
ataupun mesin
●
XML ini merupakan format berbasiskan teks, dengan
informasi tersetruktur, untuk dokumen,d ata konfigurasi,
buku, transaksi, tagihan dan lain sebagainya. Diturunkan
dari standard lama disebut SGML (ISO 8897), yang telah
disesuaikan agar dapat digunakan di Web
●
Hal yang membedakan antara HTML dan XML, HTML
menampilkan data dan menentukan struktur suatu
halaman web, sedangkan XML menyimpan data dan
mentransfer data.]. XML dapat mendefinisikan bahasa
atau format lainnya.
●
Antara XML dan JSON, JSON lebih cepat karena didisain
untuk pertukaran data, tetapi kurang baik untuk
pertukaran dokumen.
Data Multimedia
●
Data multi media misalnya suara
ataupun image. Merupakan
penyataan dalam angka dari data
analog tersebut.
●
Proses ini sering disebut dengan
proses samping dengan kuantisasi.
Pada proses ini pada suatu satuan
waktu (bila suara, maka nilai
tegangan akan dikonversikan
menjadi kode biner)
●
Pada data image, maka nilai
kecerahan (gray value) dari tiap
piksel dikonversikan menjadi
bilangan yang tersimpan menjadi
kode binar
Format Multimedia
●
Suatu berkas multimedia merupakan
gabungan beberapa berkas sehingga
dikenal istilah “container” setiap jenis
data akan diencoding menjadi suatu
dan kemudian digabungkan
●
Video memiliki encoding dan
compression tertentu, audio dengan
encoding tertentu, dan dilengkapi
dengan compression
●
Compresesion ada yang bersifat lossy
ataupun losless
●
Berkas audio dan video dibagung
dengan berkas lainnya (misal subtittle,
metadata, header) maka disatukan
menjadi satu berkas multimedia
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science
COLORING THE GLOBAL FUTURE http://www.gunadarma.ac.id
Sumber Data
Sumber Data
●
Internet of Things
●
Remote sensing (UAVs, etc)
●
Wearable cameras
●
Open public sector data
●
Social media
●
Volunteer GI (& citizen
●
Sumber data saat ini beragam sekali,
science)
●
Mobile & real time baik yang secara sadar dikumpulkan
●
Inside / outside positioning (jejak aktif) ataupun tidak (jejak pasif)
●
3D / 4D
●
5G ●
Dapat juga sumber data merupakan
sumber data turunan ataupun agregasi
dari berbagai sumber data
Sesi 3 . Tool untuk Data Preparation Pengantar Data Science