0% menganggap dokumen ini bermanfaat (0 suara)
423 tayangan76 halaman

Pengantar Big Data dan Data Science

Modul ini membahas pengantar bidang ilmu Data Science. Data Science adalah bidang ilmu yang mempelajari bagaimana melakukan ekstraksi informasi penting dari kumpulan data besar. Proses Data Science terdiri dari beberapa tahapan seperti pemahaman masalah, analisis data, pembangunan model, hingga evaluasi hasil.

Diunggah oleh

tony.h.ramdhany
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
423 tayangan76 halaman

Pengantar Big Data dan Data Science

Modul ini membahas pengantar bidang ilmu Data Science. Data Science adalah bidang ilmu yang mempelajari bagaimana melakukan ekstraksi informasi penting dari kumpulan data besar. Proses Data Science terdiri dari beberapa tahapan seperti pemahaman masalah, analisis data, pembangunan model, hingga evaluasi hasil.

Diunggah oleh

tony.h.ramdhany
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

MODUL

BIG DATA

DOSEN : Erna Astriyani, S.Kom., M.T.I

NAMA : Tony Hikmat Ramdhany


NIM : 2311490213

PROGRAM STUDI SISTEM INFORMASI

UNIVERSITAS RAHARJA
TANGERANG
2023

1
MODUL I : PENGANTAR BIG DATA / DATA SCIENCE PENGANTAR
DATA SCIENCE

1. Tujuan
a. Mahasiswa mengetahui Data Science
b. Mahasiswa dapat mengidentifikasi proses dalam Data Science
c. Mahasiswa dapat menganalisa peluang dan tantangan bidang
Data Science

2. Landasan Teori
Pengantar Data Science
Sains data (Data Science) merupakan bidang ilmu yang mengalami
popularitas dam berkembang sangat pesat. Beberapa tahun yang lalu, para praktisi
ataupun orang awam mengenal istilah “data mining” dan “predictive analytics”
dibandingkan dengan istilah sains data (Data Science). Berdasarkan perkembangan
teknologi atau revolusi industry seperti saat ini, ditambah dengan meningkatnya
pengguna smartphone, internet dan social media, menyebabkan pertambahan data
dan pertumbuhan data yang sangat signifikan dari aktivitas dalam jaringan. Kondisi
yang dipicu dengan adanya perkembangan teknologi dari bidang sains data yang
merupakan terobosan dan perluasan dari bidang ilmu yang mempelajari tentang
data ataupun statiskan. Revolusi industri/teknologi mendukung adanya kebutuhan
untuk menyimpan, memproses serta menganalisis beragam data dengan jumlah
yang sangat besar (big data).
Selain itu, volume data dan variasi data menuntut organisasi untuk bereaksi
bagaimana cara pandang terkait pola dan hubungan yang terdapat dalam suatu
kumpulan data dalam kepentingan untuk meningkatkan nilai tambah bagi bisnis
perusahaan. Apabila kita memiliki sebuah data namun tidak memiliki esensi tertentu
dan tidak adanya keberlanjutan dalam pengolahan, data tersebut hanya tersimpan
tanpa adanya tindak lanjut. Sains data menafsirkan kajian yang lebih luas sekaligus
menjadi dasar dalam setiap pengambilan keputusan yang berbasiskan data. Secara
konsep dan dasar, sains data merupakan bidang ilmu yang mempelajari bagaimana
melakukan ekstrasi sebuah value atau informasi yang terpusat dalam kumpulan
data. Sains data, digunakan untuk menemukan pola dan hubungan yang terdapat

2
dalam sebuah data. Penggunaan istilah sains menunjukan bahwa metode ini
didasarkan pada sebuah evidence based (bukti) dan empirical knowledge (bersifat
empiris). Sains data pun dikenal sebagai teknik dalam menemukan sebuah informasi
dan pengetahuan baru dari suatu data. Bidang ilmu sains data dibutuhkan bagi
setiap individu maupun kelompok yang melibatkan proses penyimpanan dan
pengolahan data dalam kegiatan bisnisnya. Berdasarkan pengumpulan
data/informasi penting sebuah data akan melakukan ekstraksi penting terkait
informasi yang diperlukan. Dalam proses ekstraksi tersebut sains data
membutuhkan dukungan dari multidiscipline knowledge (bidang ilmu lain) seperti
basis data, rekayasa data (data engineering), visualisasi data dan kecerdasan
bisnis (business intelligence).
Sains data, kerap erat dikaitkan dengan topik artificial intelligence, machine
learning dan deep learning. Namun, ketiga bidang ilmu ini memiliki karakteristik dan
penggunaan yang berbeda sesuai dengan konteksnya. Artificial intelligence
berperan dalam memberikan sebuah kemampuan kognitif seperti bagaimana
berperilaku layaknya manusia. Sebagai contoh mesin dilengkapi dengan
kemampuan dalam mengenali suatu objek atau benda di sekitarnya dan
mengoperasikan setiap fungsi secara otomatis. Pembelajaran mesin (machine
learning) adalah bagian dari bidang ilmu kecerdasan buatan. Teknik machine
learning dapat memberikan mesin sebuah kemampuan khusus untuk belajar dari
sebuah pengalaman. Pengalaman di sini dapat diartikan sebagai sebuah data. Data
yang digunakan untuk mengajari sebuah mesin disebut dengan istilah data latih
(training data). Di sisi lain, data science muncul sebagai aplikasi bisnis dari
pembelajaran mesin, kecerdasan buatan, dan berbagai macam bidang ilmu lainnya
seperti statistika dan matematika. Dengan kata lain, data science merupakan bidang
ilmu yang bersifat transdisiplin dan digunakan untuk menunjang kegiatan bisnis
suatu perusahaan. Proses sains data (data science process) merupakan inti dari
bidang ilmu sains data di mana digunakan untuk menemukan pola dan hubungan
dari suatu kumpulan data. Proses data science adalah serangkaian kegiatan yang
dilakukan secara berulang yang terdiri atas: (1) pemahaman masalah, (2) persiapan
sampel data, (3) pembangunan model, (4) pengaplikasian model kepada dataset
untuk melihat hasil keluaran, dan (5) penyebaran dan pemeliharaan model. Salah
satu kerangka kerja terkemuka yang digunakan dalam proses data science adalah
Cross Industry Standard Process for Data Mining (CRISP-DM). Contoh kerangka
3
kerja lainnya dalam proses data science adalah Sample, Explore, Modify, Model,
and Assess (SEMMA) yang dikembangkan oleh institusi SAS, Define, Measure,
Analyze, Improve, and Control (DMAIC), dan The Selection, Preprocessing,
Transformation, Data Mining, Interpretation, and Evaluation yang digunakan untuk
menemukan pengetahuan baru dalam basis data. Namun, CRISP-DM (terlihat pada
Gambar. 1) adalah kerangka kerja yang paling banyak digunakan untuk
mengembangkan solusi berbasiskan data. Proses ekstraksi informasi dan
pengetahuan dari sebuah data dalam proses sains data bersifat iteratif, yaitu
langkah-langkah yang bersifat non-linier dan membutuhkan banyak perulangan.
Terkadang dibutuhkan adanya hubungan dua arah pada setiap tahapan dan kembali
ke tahapan pertama untuk mendefinisikan kembali pernyataan masalah.

Gambar 1. Kerangka Kerja CRISP-DM

Berikut adalah karakteristik dari data science yang dapat memudahkan


pembaca dalam memahami lebih jauh mengenai bidang ilmu tersebut:

4
A. EKSTRAKSI POLA
Bidang ilmu data science sangat erat kaitannya dengan penemuan
pengetahuan baru (knowledge discovery) dalam suatu basis data penemuan
pengetahuan dalam basis data merupakan proses yang tidak mudah untuk
dilakukan dan melibatkan sebuah aktivitas dalam menemukan pola dan hubungan
dari suatu data guna pengambilan keputusan yang bersifat valid. Salah satu aspek
utama dari data science adalah proses generalisasi, yaitu proses dalam membentuk
kesimpulan dari suatu data.

B. PEMBANGUNAN MODEL REPRESENTATIF


Dalam ilmu statistika, model diartikan sebagai representasi dari hubungan
antar variabel dalam kumpulan data (dataset). Model menjelaskan bagaimana satu
atau lebih variabel terkait dengan variabel lain dalam suatu data. Sedangkan,
pemodelan merupakan proses dalam membangun sebuah abstraksi (model) yang
bersifat representatif. Contoh kasus sederhananya adalah model yang digunakan
dalam sistem kredit. Data seperti nilai kredit, tingkat pendapatan, dan jumlah
pinjaman yang diajukan oleh seorang nasabah, dapat digunakan untuk membangun
sebuah model untuk menentukan tingkat suku bunga pinjaman. Ketika model sudah
berhasil dibuat, maka model tersebut dapat digunakan untuk memprediksi setiap
data masukan yang baru. Data science merupakan proses dalam membangun
sebuah model yang dapat mewakili data-data yang diobservasi (observational data).
Model ini memiliki dua fungsi, yaitu: pertama untuk memprediksi hasil keluaran
(output) berdasarkan data masukan baru (input) seperti contoh yang telah dijelaskan
sebelumnya, yaitu untuk menentukan tingkat suku bunga pinjaman. Kedua, model
berfungsi untuk memahami hubungan antara semua variabel keluaran (output) dan
semua variabel masukan (input). Berikut menjelaskan penggunaan model dalam
data science.

Gambar 2. Model Data Science

5
C. TRANSDISIPLIN
Data science merupakan bidang ilmu yang bersifat transdisiplin di mana
dibentuk melalui penggabungan dari berbagai bidang ilmu seperti statistika,
matematika, dan ilmu rekayasa. Integrasi bidang ilmu tersebut berguna dalam
memudahkan proses ekstraksi informasi dari kumpulan data yang berukuran sangat
besar (big data). Seseorang yang memiliki kemampuan transdisiplin tersebut disebut
dengan ilmuwan data (data scientist), yaitu seorang profesional yang memiliki
keahlian dalam mengolah dan meng- analisis data yang berukuran sangat besar
untuk memberikan solusi dari suatu permasalahan. Kemudian, algoritma yang
digunakan dalam data science pada umumnya juga berasal dari disiplin ilmu lain
seperti pembelajaran mesin (machine learning). Di sisi lain, untuk memudahkan
dalam mengelola data yang berukuran sangat besar, seorang data scientist
membutuhkan pengetahuan basis data dan komputasi yang mumpuni. Kunci
kesuksesan dari data science juga terletak pada pemahaman tentang data dan
proses bisnis yang digunakan untuk menghasilkan data tersebut yang dikenal
dengan istilah domain knowledge atau subject matter expertise.
Berbicara lebih jauh lagi mengenai bidang ilmu sains data, berikut adalah
beberapa teknik yang berhubungan dengan setiap tahapan dalam proses data
science, yaitu:
1. Statistik deskriptif (descriptive statistic), yaitu informasi penting yang digunakan
untuk memahami kumpulan data dan hubungannya, seperti menghitung nilai
rata-rata (mean), standard deviation, korelasi, dan sebagainya. Statistik deskriptif
digunakan pada tahapan eksplorasi data.
2. Visualisasi, yaitu proses untuk menyajikan data secara visual yang
memungkinkan pengguna untuk menemukan pola dan hubungan dalamdata
yang berukuran sangat besar. Proses ini pada dasarnya mirip dengan statistik
deskriptif.
3. Pengujian hipotesis (hypothesis testing), yaitu proses di mana hipotesis diuji
berdasarkan data observasi.
4. Rekayasa data (data engineering), yaitu bagian dari sains data yang berfungsi
untuk menyimpan, mengelola, dan mendistribusikan data secara efektif untuk
kepentingan analisis. Rekayasa data juga berperan dalam mempersiapkan data
sebelum diproses menggunakan algoritma data science

6
5. Kecerdasan bisnis (business intelligence), yaitu teknik yang digunakan untuk
mendistribusikan informasi kepada berbagai pihak dengan lebih efektif.

Gambar 3. Keterkaitan Data Science dengan bidang Ilmu Lainnya

Berdasarkan Gambar 3 menunjukkan keterkaitan bidang ilmu data science


dengan bidang ilmu lainnya. Diagram ven pada gambar tersebut memvisualisasikan
berbagai domain keilmuan yang beririsan dengan data science. Artinya. keahlian
tersebut tidak harus semuanya dikuasai oleh seorang individu, melainkan
merupakan keahlian yang dapat dimiliki oleh beberapa orang yang tergabung dalam
sebuah tim. Seorang ilmuwan data (data scientist) harus mampu bekerja sama
dengan banyak orang dari berbagai latar belakang keilmuan yang berbeda untuk
menghasilkan informasi yang bermanfaat bagi banyak orang.

D. ALGORITMA DATA SCIENCE


Algoritma didefinisikan sebagai prosedur atau langkah-langkah yang bersifat
logis yang digunakan untuk pemecahan suatu masalah. Dalam data science,
pemilihan algoritma disesuaikan dengan tujuan, jenis dataset, struktur data, jumlah
data, jumlah atribut data, dan lain-lain. Ada banyak algoritma yang digunakan dalam
memproses sebuah data yang akan dijelaskan di bagian ketiga dari buku ini. Dalam
memproses algoritma data science, pengguna dapat menggunakan alat bantu
berupa data science tools atau statistical programing tools, seperti perangkat lunak
R, Python, Rapidminer, SAS Enterprise Miner, dan sebagainya. Alat bantu tersebut

7
pada umumnya dilengkapi dengan tampilan grafis dan fitur-fitur penting (library)
yang bermanfaat untuk menjalankan algoritma sains data dengan lebih mudah
dalam waktu yang singkat.

E. ESENSI DATA SCIENCE


Secara umum esensi dari bidang ilmu data science adalah sebagai berikut:
1. Bertujuan untuk menghasilkan insights atau pengetahuan mendalam mengenai
suatu data.
2. Perluasan dari bidang ilmu statistika, perbedaannya terletak pada cakupan
pengolahan data di mana data science dapat mengolah data dengan berbagai
macam format baik terstruktur maupun tidak terstruktur (text, gambar, video,
audio, graf, dan sebagainya.).
3. Dalam konteks scalability, data science mampu menangani data dengan ukuran
dan kompleksitas yang besar.
4. Hasil analisis dapat disajikan secara real-time.
5. Bidang ilmu data science memerlukan kemampuan dalam berinisiatif
berkreativitas, dan berinovasi dalam analisis data, tidak hanya terpaku pada
serangkaian proses yang baku. Ketiga hal inilah yang selamanya tidak akan
dapat tergantikan oleh mesin/komputer.

F. PELUANG DAN TANTANGAN


Berdasarkan data yang dilaporkan oleh sumber datareportal.com, pendu- duk
Indonesia setiap tahunnya mengalami peningkatan yang cukup signifi kan dengan
nilai 1.1 persen sekitar 2,9 juta pada peralihan tahun 2020 ke 2021, di mana 57
persennya tinggal di daerah perkotaan. Kemudian, data juga menunjukkan bahwa
terdapat 345,3 juta koneksi mobile pada tahun 2021 di Indonesia dengan
peningkatan sebesar 1,2 persen dari tahun sebe lumnya. Pengguna sosial media di
Indonesia juga memperlihatkan fakta yang cukup signifikan dengan jumlah 170 juta
dan pengguna internet berjumlah 202,6 juta. Fakta-fakta ini dapat menjadi ladang
bisnis yang cukup menjanjikan khususnya untuk bidang bisnis yang berkaitan
dengan data science dan artificial intelligence. Tidak heran juga banyak sekali peru-
sahaan-perusahaan bisnis digital yang bermunculan di Indonesia dengan perolehan
omzet yang cukup besar. Akan tetapi, peluang tersebut juga sebanding dengan
tantangan yang dihadapi, semisal ketersediaan akan data scientist yang profesional,
8
infrastruktur big data, dan teknologi pendukung yang membutuhkan orang-orang
dengan keahlian khusus, permodalan dukungan pemerintah, hukum terkait data
sampai dengan isu kepemilikan dan keamanan data.

3. Alat dan Bahan


Alat tulis dan buku refrensi
Cielen, D., & Meysman, A. (2016). Introducing Data Scenar Big Data Machine
Learning, and More. Using Python Tools Simon and Schuster
Han, J. & Kambel, M. (2012), Data Mining Concepts and Techniques.
Website:
www.netquest.com/en/download ebook-data-visualization

4. Langkah Penyelesaian
Permasalahan:
Bidang Big Data dan Data Science dapat melibatkan berbagai permasalahan
yang perlu dipecahkan. Beberapa permasalahan umum dalam bidang ini adalah:
1. Permasalahan Data Quality:
Data yang tidak lengkap, tidak akurat, atau tidak konsisten dapat mengganggu
analisis dan model prediksi. Cara penyelesaiannya termasuk membersihkan
data, mengisi nilai yang hilang, dan memvalidasi data.
2. Skalabilitas:
Dalam Big Data, jumlah data yang sangat besar dapat mengakibatkan masalah
kinerja dan penyimpanan. Solusinya adalah menggunakan teknologi seperti
cluster komputasi dan penyimpanan terdistribusi, seperti Hadoop dan Spark.
3. Keamanan Data:
Melindungi data yang sensitif dari akses yang tidak sah adalah prioritas utama.
Enkripsi data, akses yang diatur dengan baik, dan pemantauan keamanan
adalah cara penyelesaiannya.
4. Pengolahan Real-Time:
Banyak aplikasi memerlukan pemrosesan data secara real-time. Ini memerlukan
infrastruktur yang sesuai dan algoritma yang efisien untuk mengolah data dengan
cepat.
5. Interpretasi Model:

9
Model machine learning dan statistik mungkin sulit untuk diinterpretasikan.
Memahami mengapa model membuat prediksi tertentu dapat menjadi tantangan.
Metode seperti "Explainable AI" dapat membantu.
6. Privasi Data:
Menghormati privasi individu adalah penting. Cara mengatasi masalah ini
melibatkan teknik anonimisasi dan pembatasan akses data.
7. Keterbatasan Sumber Daya:
Terkadang, sumber daya komputasi atau keuangan terbatas. Mencari cara untuk
mengoptimalkan sumber daya yang ada adalah tantangan.
8. Integrasi Data:
Data sering tersebar di berbagai sumber yang berbeda, dalam berbagai format.
Integrasi data untuk analisis yang efektif bisa menjadi rumit.

Penyelesaian:
Cara penyelesaian masalah dalam Big Data dan Data Science melibatkan
berbagai metode dan praktik, termasuk:
1. Pemodelan dan Analisis Data:
Membangun model statistik dan machine learning untuk memahami data dan
membuat prediksi yang akurat.
2. Pengolahan Data:
Menggunakan alat seperti Hadoop dan Spark untuk mengelola dan menganalisis
data dalam skala besar.
3. Visualisasi Data:
Menggunakan visualisasi data untuk menyajikan hasil analisis dengan cara yang
mudah dimengerti.
4. Pengembangan Algoritma:
Merancang algoritma yang efisien dan efektif untuk memecahkan masalah yang
kompleks.
5. Keamanan dan Privasi Data:
Menerapkan praktik keamanan data dan privasi yang kuat untuk melindungi data
yang sensitif.
6. Pengelolaan Sumber Daya:
Mengoptimalkan penggunaan sumber daya komputasi dan keuangan untuk
menjalankan analisis data.
10
7. Kolaborasi Tim:
Berkolaborasi dengan berbagai disiplin ilmu, termasuk ilmu komputer, statistik,
dan bisnis, untuk mengatasi permasalahan secara efektif.

Pemantauan dan Evaluasi:


Melakukan pemantauan yang berkelanjutan dan evaluasi hasil untuk
memastikan keberhasilan proyek dan mengidentifikasi perbaikan yang mungkin.
Penting untuk diingat bahwa permasalahan dan solusi dalam Big Data dan Data
Science dapat bervariasi tergantung pada konteks proyek dan tujuan bisnis. Setiap
proyek mungkin memiliki permasalahan khusus yang perlu diatasi.

5. Tugas
1. Apa yang dimaksud dengan data science?
2. Jelaskan rangkaian bagan CRISP-DM dan mengapa bagan tersebut penting
dalam melakukan analisis data?
3. Jelaskan cara terbaik dalam membangun sebuah model data yang
representative?

11
MODUL II
DATA DAN SISTEM MANAJEMEN DATA

1. Tujuan
1. Mahasiswa mengetahui dasar pengukuran data
2. Mahasiswa dapat mengidentifikasi jenis data
3. Mahasiswa dapat mengimplementasi dasar transmisi data

2. Landasan Teori
Data science pada dasarnya adalah bidang ilmu yang sangat bergantung
kepada data. Data merupakan inti dari setiap analisis dan pengambilan keputusan.
Data sendiri adalah abstraksi dari entitas di dunia nyata seperti halnya manusia,
benda atau kejadian. Setiap entitas biasanya dilengkapi dengan beberapa atribut.
Misalnya, entitas buku memiliki atribut seperti nama penulis, judul buku, jenis buku,
penerbit, harga, jumlah halaman, dan sebagainya. Istilah variabel dan fitur juga
sering dipakai dalam sains data yang menunjukkan suatu atribut. Dalam data
science, terdapat banyak jenis atribut di mana ia menentukan jenis analisis yang
nantinya akan digunakan dalam pengolahan data. Seorang data scientist wajib
memiliki kemampuan dalam mengenali dan memahami setiap atribut data. Untuk
memulai analisis data, penting untuk mengetahui sebelumnya jenis data yang kita
miliki. Pada data science terdapat beberapa jenis data, yaitu (1) data terstruktur, (2)
tidak terstruktur, (3) bahasa alami (natural language), (4) data yang dihasilkan oleh
komputer (machine-generated). (5) data berbasis graph, (6) audio, video, dan citra,
dan (7) data streaming.

A. DATA TERSTRUKTUR
Data terstruktur adalah data yang tergantung pada sebuah model data dan
memiliki kolom yang tetap dalam sebuah pangkalan data. Contoh sederhananya
adalah data yang disimpan dalam format spreadsheet (Excel file). Data ini juga
dikenal dengan istilah data atribut karena menyimpan atribut atau informasi detail
tentang sesuatu yang terbagi-bagi atas baris dan kolom (field and column).
Perangkat yang paling sering digunakan untuk mengelola data atribut dalam sebuah
pangkalan data adalah seperti Structured Query Language (SQL) atau Postgre SQL

12
untuk data spasial. Contoh data terstruktur disajikan oleh Gambar 4.

Gambar 4. Data Terstruktur

B. DATA TIDAK TERSTRUKTUR


Data tidak terstruktur, adalah data yang tidak memiliki kolom dan baris, data
tidak terstruktur memiliki karakteristik sulit untuk dikelola karena memiliki konteks,
spesifik dan bervariasi. Contoh sederhana dari data ini adalah pesan teks di media
sosial seperti (Gambar 5), atau pesan dari surat elektronik (email). Terdapat banyak
bahasa yang digunakan, dan istilah yang mungkin berbeda jika digunakan disuatu
tempat atau kondisi yang lain.

Gambar 5. Data Tidak Terstruktur

C. BAHASA ALAMI (NATURAL LANGUAGE)


Bahasa alami memiliki istilah natural language adalah salah satu bentuk dari
jenis data tidak terstruktur. Sangat sulit diolah karena membutuhkan domain

13
keilmuan dari pakar bahasa, tidak hanya dengan pendekatan data science saja.
Pada analisis natural language peneliti akan melihat pola penggunaan, analisis
sentimen, dan sebagainya yang membutuhkan bantuan kamus dari
bahasa yang digunakan.

D. DATA YANG DIHASILKAN DARI KOMPUTER


Machine-generated atau data yang dihasilkan oleh komputer, seperti jumlah
dan nilai transaksi sebuah toko atau aktivitas pengguna ATM, dan sebagainya. Data
ini murni dihasilkan oleh komputer tanpa ada intervensi manusia di dalamnya,
sangat berbeda dengan data terstruktur, tidak terstruktur, dan natural language,
dimana masih ada intervensi manusia di dalamnya.

E. DATA BERBASIS GRAPH


Data berbasis graph yang dimaksud di sini bukanlah data dalam bentuk
gambar grafis, namun data yang dapat divisualisasikan dalam bentuk jejaring seperti
dalam teorigraph dalam domain ilmu matematika.

Gambar 6. Data Graph

Dalam teorigraph, sebuah graph adalah struktur hubungan matematika untuk


memodelkan hubungan objek yang saling berpasangan. Graph atau data jejaring
adalah data yang fokus pada hubungan atau keterhubungan suatu objek satu
dengan yang lainnya. Contoh sederhana dari data ini adalah hubungan pertemanan

14
pada media sosial seperti Tik Tok, atau media sosial peneliti seperti Research Gate
maupun Science and Technology Indeks (Sinta) milik Indonesia.

F. DATA AUDIO, VIDEO DAN CITRA


Data audio, video, dan citra biasanya diperoleh dari sebuah atau beberapa
sensor yang sengaja dipasang untuk memperoleh data yang dibutuhkan. Contoh
yang paling sederhana adalah data kendaraan bermotor di jalan raya yang dipantau
oleh CCTV. Data lainnya yang biasanya berukuran sangat besar adalah citra satelit
yang direkam oleh sensor optik maupun radar yang terpasang di sebuah maupun
beberapa satelit yang memantau permukaan bumi. Data ini dapat berukuran hingga
satuan petabyte (1000 terabyte).

Gambar 7. Data Citra Satelit indeks vegetasi mangrove

Data-data tersebut kemudian diolah menggunakan pendekatan machine


learning maupun deep learning sesuai dengan kebutuhan. Contohnya adalah data
citra satelit Sentinel yang dapat digunakan untuk melakukan klasifikasi indeks
Kesehatan tanaman/mangrove di Indonesia.

G. DATA STREAMING
Data streaming adalah data yang diperoleh, diubah, dan digunakan secara
waktu nyata (real time). Data ini dapat dalam bentuk yang terstruktur, tidak
terstruktur, audio, video, maupun citra. Data disimpan dalam sebuah pangkalan data
ketika suatu fenomena sedang terjadi, bukan dikirimkan dan disimpan setelah
fenomena terjadi. Data ini dibedakan dengan data lainnya karena sering kali peneliti

15
harus beradaptasi dengan proses pengolahan data ini. Contoh sederhana dari data
streaming adalah apa yang trending saat ini di media sosial Twitter, tayangan
langsung pertandingan sepak bola, dan nilai saham di pasar modal.

3. Alat Dan Bahan


Alat tulis dan buku refrensi
Chung I dan Wark S (2016). Visualising Uncertainty fur Decision Support Joint
and Operations Analysis Division Defence Science and Technology Group
Department of Delence Science and Technology Australian Government.
Hopke, C. & Rottensteiner. I (2020). Deep learning for geometric and mantic
tasks in photogrammetry and remote sensing Geo-Spatial Information
Science, 23(1), 10-19.
Akbar et all (2020). Mangrove vegetation health index analysis by implementing
NDVI (normalized difference vegetation index) classification method on
sentinel-2 image data case study: Segara Anakan, Kabupaten Cilacap IOP
Conf. Ser.: Earth Environ. Sci. 584 012069
Website:
https://doi.org/10.1080/1009502 0.202001718003.

4. Langkah penyelesaian
Permasalahan :
Kualitas data yang tidak akurat serta tidak lengkap dapat mengganggu
pengambilan keputusan, faktor lainnya keamanan data merupakan perhatian
utama yang berdasarkan dari ancaman seperti peretasan, pencurian data, dan
pelanggaran privasi dapat merusak reputasi. Hal lainnya yang menjadi
permasalahan dalam data dan sistem manajemen data adalah pengintergrasian
data yang tersebar dan sistem sumber data yang berbeda, hal tersebut masih
membuat proses integrasi data menjadi kurang efisien dan tidak efektif.

Penyelesaian :
Penyelesaian dalam permasalahan tersebut secara koefisien dan
efektif, praktisi hingga aparatur yang berwenang perlu mengembangkan strategi
manajemen data yang komprehensif serta mengimplementasikan teknologi yang
sesuai, dan melibatkan personil yang terampil dalam pengelolaan data. Penting
16
juga untuk terus memantau dan mengevaluasi sistem manajemen data serta
beradaptasi dengan perkembangan teknologi dan kebutuhan organisasi.

5. Tugas
1. Menurut anda, seberapa penting data harus diintegrasikan menjadi sebuah
kesatuan? Jelaskan!
2. Jelaskan dan berikan contoh pada masa sekarang terkait pengolahan data
graph?
3. Menurut anda cara efektif yang dapat dilakukan untuk mengatasi
permasalahan data secara garis besar?

17
MODUL III
EKSPLORASI DATA

1. Tujuan
1. Mahasiswa memahami tujuan eksplorasi data
2. Mahasiswa dapat mengidentifikasi data negative serta outlier
3. Mahasiswa dapat mengimplementasi proses eksplorasi data

2. Landasan Teori
Sebelum menerapkan metode statistik, machine learning, atau teknik
algoritma pada suatu data, seorang data scientist pada umumnya membutuhkan
proses eksplorasi data sebagai tahapan dasar dalam memahami karakteristik dari
suatu dataset. Eksplorasi data bertujuan untuk memahami data dengan lebih baik
sebelum diproses dalam tahapan analisis lebih lanjut. Terkadang waktu yang
dibutuhkan dalam memahami suatu data lebih cepat dengan menggunakan metode
eksplorasi data. Dalam data science, eksplorasi data lebih dikenal dengan istilah
Exploratory Data Analysis (EDA), yaitu seperangkat alat yang digunakan untuk
memahami sifat, struktur, dan distribusi data. EDA juga dapat digunakan dalam data
science untuk melihat hubungan antarbeberapa atribut dalam suatu dataset.
Keluaran yang dihasilkan dalam eksplorasi data biasanya berupa tabel pivot,
perhitungan statistik sederhana seperti nilai mean dan deviation, dan plotting data
dalam bentuk line, bar atau scatter charts. Keluaran tersebut dapat dijadikan
panduan dan pertimbangan dalam memilih metode data science yang tepat untuk
analisis lebih lanjut.

A. TUJUAN EKSPLORASI DATA


Dalam proses data science, eksplorasi data dapat dimanfaatkan pada
tahapan. persiapan data (preprocessing), pemodelan, dan tahapan interpretasi dari
hasil pemodelan. Berikut adalah beberapa tujuan dari eksplorasi data
dalam data science:
1. Memahami Data
Eksplorasi data memberikan gambaran umum mengenai setiap atribut atau
variabel dalam data set serta hubungannya. Selain itu, eksplorasi data juga

18
membantu dalam mengetahui nilai khas dari suatu atribut, data yang berbeda
dari nilai tipikal, data pencilan (outlier), serta nilai minimum dan maksimum dari
suatu kumpulan data.
2. Mempersiapkan Data
Sebelum menerapkan algoritma data science, dataset harus siap untuk mena
ngani setiap anomali yang mungkin terjadi seperti adanya data pencilan (data
outlier), nilai yang hilang (missing values), dan atribut yang memiliki nilai korelasi
yang sangat tinggi. Beberapa algoritma sains data tidak dapat bekerja dengan
baik ketika atribut saling berkorelasi dengan nilai yang sangat tinggi. Untuk
pemecahan masalah pada pencilan data (data outlier) diperlukan pembahasan
mengani statistic dasar, yang meliputi:
1. Statistik dasar (descriptive statistic) seperti melihat ukuran pusat (mean,
median, modus) dan penyebaran data (jangkauan, kuartil, dan jangkauan
interkuartil).
2. Visualisasi data (univariat/multivariat).
3. Membuat hipotesis (dugaan awal).
4. Pemeriksaan asumsi.
5. Story telling atau pelaporan (reporting) hasil
3. Metode Data Science
Keseluruhan proses dalam data science. Sebagai contoh, scatter plot dapat
digunakan untuk mengidentifikasi cluster untuk data dengan dimensi rendah
(low-dimensional data) dan visualisasi data dapat membantu dalam
mengembangkan model regress atau model klasifikasi untuk kasus-kasus
sederhana.
4. Menafsirkan Hasil
Eksplorasi data juga dapat digunakan untuk memahami hasil prediksi klasifikasi
atau pengelompokan (clustering) yang didapatkan dari keseluruhan proses data
science. Sebagai contoh, histogram membantu dalam memahami distribusi
atribut dan juga berguna untuk memvisualisasikan predikst numerik estimasi
tingkat kesalahan (error rate estimation), dan lain-lain.

B. PROSES PADA EKSPLORASI DATA


Eksplorasi data pada umumnya dibagi menjadi beberapa tahapan, seperti
berikut ini:
19
1. Data understanding
Proses dalam memahami data yang miliki, data apa yang tersedia, berapa
jumlah datanya, relevan/tidak kita bagaimana kualitas datanya, bagaimana data
dikumpulkan, dan siapa memahami data tersebut, dan sebagainya.
2. Data Preprocessing
Data preprocessing, yaitu mengubah data mentah menjadi format yang dapat
dimengerti. Data mentah pada kondisi nyata selalu tidak lengkap dan tidak bersih
sehingga diperlukan proses awal dalam membersihkan data untuk mendapatkan
model data Proses dasar melingkupi seleksi variabel, penggabungan (join), data
cleaning untuk data yang duplikat, noise dan outliers, transformasi data serta
dimensional reduction. Sebagai contoh:
a. Noise: umur bernilai negatif.
b. Outliers: tinggi badan yang 300 meter.
c. Duplikat: baris dengan nilai dan ID yang sama muncul lebih dari 100 kali.
d. Tidak lengkap: data agregat saja dimana tidak memiliki variabel penting.
e. Data yang hilang (missing value): cell kosong., n/a, NA.

C. HASIL EKSPLORASI DATA


Hasil akhir dari tahap eksplorasi data adalah data yang sudah siap untuk
diolah lebih lanjut. Data ini harus sudah memenuhi syarat, yaitu sebagai berikut:
1. Clean, yaitu data yang sudah bersih dari data ganda maupun data kosong.
pencilan, dan sebagainya.
2. Tidy, yaitu data yang sudah tersusun rapi dan terstruktur dalam sebuah kolom
dan baris misalnya.
3. Consistent, yaitu data yang sudah memiliki format yang sama dalam sebuah
kolom, misalnya tidak tercampur antara data numeric dan teks.

D. PANDUAN EKSPLORASI DATA


Panduan untuk melakukan eksplorasi data. Terdapat sembilan tahapan
utama untuk mela kukan eksplorasi data, namun tidak setiap tahapan ini sesuai
untuk semua jenis data sehingga peneliti dapat memilih tahapan yang sesuai
dengan kebutuhannya. Panduan ini akan berguna untuk melakukan eksplorasi dan
analisis dari kondisi suatu data baru yang belum pernah digunakan sebelumnya,
yaitu:
20
1. Merapihkan data: struktur standar dari data biasanya selalu terdiri atas baris dan
kolom. Merapikan data agar memiliki informasi atribut pada baris dan kolom akan
memudahkan proses pengolahan dan analisis data. Pada baris biasanya
merepresentasikan sebuah fenomena, semen tara kolom merepresentasikan
atribut dari fenomena tersebut. Misal fenomena gempa, maka atributnya dapat
berupa lokasi (longitude dan latitude), magnitude, dan kedalaman.
2. Menemukan titik tengah untuk setiap atribut. Menghitung rata-rata, nilai tengah,
atau pun modus sehingga nilai pencilan atau distribusi dari data dapat
ditemukan.
3. Memahami sebaran data. Menghitung standar deviasi dan jangkaun untuk
sebuah atribut, serta nilai maksimal dan minimal.
4. Memvisualisasikan distribusi dari data. Dapat memanfaatkan histogram maupun
boxplot untuk melihat distribusi data, apakah terdistribusi normal atau tidak
5. Melakukan analisis pivot. Dikenal juga dengan istilah dimensional slicing,
sehingga peneliti akan terbantu dengan mengetahui hubungan antar data.
Analisis pivot dapat dilakukan dengan menggunakan Microsoft Excel dan R
Studio.
6. Mencari pencilan. Gunakan scatterplot untuk menemukan data pencilan. Setelah
ditemukan, nilai tersebut dapat dihapus dan ulangi analisis Perhatikan jika
terdapat hasil yang berbeda.
7. Memahami hubungan antar atribut. Lakukan pengukuran korelasi antar atribut,
misal dengan membuat matrik korelasi. Perhatikan atribut yang tergantung
dengan atribut yang lain, dan lakukan analisis tersebut terjadi.
8. Membuat visualisasi hubungan antaratribut. Buatlah plot grafis untuk
menemukan hubungan antar atribut. Plot sederhana dua dimensi dapat
membantu memvisualisasikan hubungan antar atribut.
9. Membuat visualisasi data high-dimensional. Misal, dengan membuat plot grafis
parallel chart untuk memvisualisasikan data yang memiliki dimensi tinggi.
Sementara untuk data geospasial yang memanfaatkan data geometri seperti
poligon batas administrasi, peneliti dapat memanfaatkan teknik visualisasi
conditional plot (map, scatter plot, histogram, boxplot).

21
3. Alat dan bahan
Alat tulis dan buku refrensi
Kotu, V., & Deshpande, B. (2018). Data Science: Concepts and Practice. Morgan
Kaufmann.

4. Langkah penyelesaian
Permasalahan :
Dalama tahapan eksplorasi data terdapat beberapa permasalahan antara lain
seperti kesalahan pada penginputan data, pengukuran data, kesalahan
eksperimental seperti ekstrasi data atau kesalahan perencanaan. Hal tersebut
mengakibatkan kualitas data mengalami perubahan atau mengalami anomali yang
cukup signifikan sehingga data tersebut harus diperbaiki agar dapat berguna
menjadi hipotesis awal dalam sebuah permasalahan.

Penyelesaian :
Langkah penyelesaian eksplorasi data dalam data science dapat melibatkan
serangkaian tindakan yang terstruktur untuk memahami, membersihkan, dan
mempersiapkan data sebelum analisis lanjutan. Berikut adalah langkah-langkah
umum dalam penyelesaian eksplorasi data:
1. Pemahaman Data:
Mengidentifikasi tujuan eksplorasi data dan pertanyaan yang ingin dijawab.
Mempelajari struktur data, jenis variabel (numerik, kategorik, dll.), dan jumlah
data yang tersedia.
2. Pembersihan Data:
Mengidentifikasi dan mengatasi data yang hilang (missing data). Mengidentifikasi
dan mengatasi data duplikat. Menangani data outlier jika diperlukan.
Mengkonversi atau mengkode data kategorik menjadi format yang
sesuai.Memastikan konsistensi format data (misalnya, format tanggal yang
konsisten).
3. Visualisasi Data:
Membuat grafik dan visualisasi data untuk memahami distribusi, pola, dan
hubungan dalam data. Gunakan grafik seperti histogram, scatter plot, box plot,
dan heatmap untuk memvisualisasikan data. Gunakan visualisasi untuk

22
mengidentifikasi tren, anomali, atau hubungan yang mungkin terjadi dalam data.
4. Analisis Statistik Awal:
Hitung statistik deskriptif seperti mean, median, deviasi standar, dan kuartil.
Identifikasi distribusi data, seperti apakah data terdistribusi normal atau tidak.
Gunakan analisis statistik untuk mendapatkan wawasan awal tentang data.
5. Eksplorasi Hubungan:
Menganalisis korelasi antara variabel-variabel dalam data. Identifikasi hubungan
antara variabel numerik dan kategorik. Gunakan teknik seperti analisis regresi
atau uji hipotesis untuk mengidentifikasi hubungan yang signifikan.
6. Interpretasi Hasil:
Menganalisis temuan yang ditemukan selama eksplorasi data. Pertimbangkan
implikasi hasil tersebut terhadap tujuan eksplorasi data dan pemahaman
masalah yang dihadapi.
7. Keputusan Preprocessing:
Tentukan langkah-langkah pengolahan data tambahan yang diperlukan sebelum
analisis lanjutan, seperti pemilihan fitur, normalisasi data, atau pemusatan data.
Atur format data yang cocok untuk algoritma atau model yang akan digunakan
dalam analisis lanjutan.
8. Pelaporan Hasil:
Dokumentasikan hasil eksplorasi data dalam laporan atau catatan yang jelas.
Bagikan temuan dengan anggota tim atau pemangku kepentingan yang relevan.
Langkah-langkah di atas dapat dilakukan secara berulang-ulang sesuai dengan
perkembangan pemahaman tentang data dan tujuan eksplorasi. Penyelesaian
eksplorasi data yang baik membantu memastikan bahwa data siap digunakan
untuk analisis lanjutan atau pemodelan dalam data science.

5. Tugas
1. Apa yang dimaksud dengan eksplorasi data?
2. Berapa tahapan yang dibutuhkan dalam eksplorasi data?
3. Faktor apa saja yang mempengaruhi keberhasilan dari melakukan eksplorasi
data?

23
MODUL IV
DATA PREPROCESSING

1. Tujuan
1. Mahasiswa mengetahui maksud dan tujuan data preprocessing
2. Mahasiswa dapat mengidentifikasi outliers
3. Mahasiswa dapat menentukan kualitas data

2. Landasan Teori
Berdasarkan kondisi nyata, data cenderung memiliki sifat noise, missing, dan
inconsistent karena ukurannya yang besar dan berasal dari berbagai sumber data
yang berbeda-beda. Data dengan sifat tersebut memiliki kualitas yang rendah
sehingga menyebabkan hasil analisis yang tidak reliable. Ada banyak faktor yang
dapat menentukan kualitas dari suatu data, misalnya:
1. Akurasi (accuracy), misalnya beberapa atribut tidak memiliki nilai atau memiliki
nilai yang salah;
2. Kelengkapan (completeness), misalnya terdapat error dan nilai data yang sangat
menyimpang;
3. Konsistensi (consistency), misalnya menggunakan kode yang berbeda- beda
untuk kategori;
4. Ketepatan waktu (timeliness), misalnya data yang dikumpulkan tidak tepat waktu
sehingga data tidak tersedia;
5. Kepercayaan (believability), misalnya data yang sering error atau per- hitungan
data yang salah sehingga pengguna tidak percaya dengan hasil yang
ditampilkan;
6. Kemudahan interpretasi (interpretability) menunjukkan seberapa mudah data
diinterpretasikan. Misalnya penggunaan kode-kode yang tidak mudah untuk
diterjemahkan oleh orang lain.
Salah satu cara yang dapat digunakan untuk meningkatkan kualitas dari
suatu data sebelum masuk ke tahapan data mining adalah dengan melakukan teknik
prapemrosesan data (data preprocessing). Beberapa teknik yang diterapkan pada
data preprocessing adalah sebagai berikut:

24
1. Data Cleaning
Pembersihan data dilakukan untuk tujuan menghapus noise, melakukan koreksi
terhadap data yang tidak konsisten, mengisi data yang kosong, dan menghapus
data yang duplikat dan data yang sangat me- nyimpang dari nilai normal
(data outliers).
2. Data Integration
Integrasi data menggabungkan data dari berbagai sumber ke dalam
penyimpanan data yang koheren seperti gudang data (data warehouse).
3. Data Reduction
Reduksi data dapat digunakan untuk mengurangi ukuran data, misalnya
melakukan agregasi data, menghilangkan fitur yang berlebihan, atau melakukan
pengelompokan (clustering). Strategi untuk reduksi terdiri dari pengurangan
dimensi (dimensionality reduction) dan ngurangan jumlah (numerosity reduction).
4. Data Transformation
Transformasi data misalnya teknik normalisasi dapat diterapkan de ngan cara
memberikan skala pada data agar berada dalam rentang yang lebih kecil seperti
0.0 hingga 1,0.

Gambar 8. Teknik data preprocessing

Teknik ini dapat meningkatkan akurasi dan efisiensi algoritma data mining
yang melibatkan pengukuran jarak (distance measurements). Contoh sederhananya
adalah mengubah nilai pada sumbu x menjadi log x sehingga hubungan antara x
(variabel bebas) dan y (variabel terikat) menjadi linear Gambar 8 berikut dapat
mengilustrasikan perbedaan dari beberapa teknik data preprocessing.

25
A. DATA CLEANING
Penanganan Missing Value
Bayangkan semisal Anda perlu menganalisis data penjualan dan data
pelanggan dari sebuah perusahaan. Anda melihat bahwa banyak tupel (catatan atau
baris pada table database) yang tidak memiliki nilai untuk beberapa atribut seperti
pendapatan pelanggan. Beberapa metode yang dapat diterapkan untuk penanganan
missing value adalah sebagai berikut:
1. Mengabaikan atau menghapus tupel, misalnya untuk kasus klasifikasi beberapa
label kelas tidak ada.
2. Mengisi nilai yang hilang secara manual, namun cara ini akan memakan banyak
waktu dan tidak bisa diterapkan pada dataset dengan ukuran yang sangat besar.
3. Menggunakan konstanta global untuk mengisi nilai yang kosong seperti
mengisinya dengan "unknown" atau "null". Akan tetapi, data dengan nilai null
yang banyak membuat model data semakin tidak baik.
4. Menggunakan tendensi sentral dari atribut, misalnya nilai mean untuk data
dengan distribusi normal dan nilai median untuk skewed data distribution.

B. PENANGANAN NOISE DATA


Noise adalah istilah yang sering digunakan untuk menyatakan kesalahan
acak atau varians dalam variabel yang diukur. Beberapa metode yang dapat
diterapkan untuk menangani noise pada data adalah sebagai berikut:
1. Binning
Teknik binning melakukan perbaikan terhadap data dengan cara melihat nilai
(yang berdekatan dengan nilai tertentu). Untuk melakukan binning, data dari
suatu atribut harus dalam kondisi terurut sebelum dilakukan pengelompokan ke
beberapa bin atau "bucket" dengan jumlah data yang sama. Semisal contoh
untuk kasus data harga atau price dikelom pokkan menjadi 3 bin dengan masing-
masing bin berisi tiga buah data. Teknik partisi ke dalam bin ada dua cara, yaitu
equal-width (distance) parti tioning dan equal-depth (frequency) partitioning.
Sedangkan untuk smoothing terdapat tiga macam teknik, yaitu smoothing by bin
means, smoothing by bin-medians, dan smoothing by bin-boundaries

26
Gambar 9. Teknik Binning untuk smoothing data

2. Regresi
Teknik yang digunakan untuk penghalusan data dengan cara memasukkan data
ke dalam fungsi regresi.
3. Analisis Outlier
Mendeteksi nilai-nilai pencilan yang mencurigakan dan membuang nilai tersebut
(Gambar 9). Nilai tersebut dapat terlalu tinggi ataupun terlalu rendah
dibandingkan dengan nilai yang lainnya.

C. STATISTIK DESKRIPTIF
Salah satu tahapan penting dalam eksplorasi data adalah analisis statistik
deskriptif, yaitu metode yang digunakan untuk memberikan informasi mengenai
kumpulan data. Dengan metode ini, dataset dengan jumlah yang sangat besar dapat
disajikan dalam format yang lebih ringkas dan memberikan informasi inti mengenai
dataset yang akan diteliti. Beberapa contoh penerapan dari statistik deskriptif dalam
aplikasi bisnis adalah menghitung nilai rata-rata pendapatan tahunan seorang
karyawan, rata- rata harga rumah dalam suatu kompleks perumahan, dan rentang
nilai dari skor kredit dalam suatu populasi, dan sebagainya. Dengan menggunakan
statistika deskriptif, data scientist dapat mengetahui ukuran pemusatan data, ukuran
penyebaran data, dan bentuk distribusi data (Gambar 10) menjelaskan tentang

27
informasi yang dapat disajikan menggunakan statistika deskriptif dan
teknik yang digunakan.

Gambar 10. Teknik Statistik Deskriptif

Berdasarkan jumlah atribut yang akan dianalisis, statistik deskriptif dapat


dibagi menjadi dua kelompok, yaitu eksplorasi univariat dan eksplo rasi multivariat.
Eksplorasi univariat dilakukan pada satu variabel (fitur) atau per variabel, sedangkan
eksplorasi multivariat diterapkan kepada lebih. Berdasarkan dua variabel untuk
menganalisis hubungan antarvariabel. Selain itu, eksplorasi univariat hanya memiliki
satu variabel dependen, sedangkan analisis multivariat melibatkan dua atau lebih
variabel dependen. Pada bagian ini, penulis akan menunjukkan penggunaan statistik
deskriptif pada data univariat dan multivariat menggunakan dataset Iris. Iris dataset
adalah dataset yang paling banyak digunakan dalam bidang ilmu data science. Iris
sendiri merupakan nama dari salah satu jenis bunga yang banyak dijumpai di
berbagai belahan dunia (Gambar 11).

Gambar 11. Species Bunga Iris

Dataset Iris terdiri atas 150 sampel dan dibagi menjadi tiga kelompok
berdasarkan spesiesnya. Masing-masing spesies (Iris setosa, Iris virginica, dan Iris

28
versicolor) memiliki 50 data yang terdiri atas lima atribut, yaitu nama spesies,
panjang sepal, lebar sepal, panjang kelopak, dan lebar kelopak. Kolom spesies
dijadikan sebagai variabel target yang akan memuat kelas untuk kasus klasifikasi,
sedangkan empat kolom lainnya disebut sebagai fitur yang nantinya digunakan
untuk menentukan kelas.

D. EKSPLORASI UNIVARIAT
1. Tendensi Sentral
Tujuan dari mengetahui lokasi sentral dari suatu atribut adalah untuk menghitung
dataset menggunakan satu nilai pusat atau nilai yang umum Untuk mengetahui
tendensi sentral pada dataset, kita dapat menggunakan nilai mean, median dan
modus (mode). Mean adalah nilai rata-rata dari suatu himpunan data. Median
menyatakan nilai titik sentral dalam distri busi data. Untuk mendapatkan nilai
tengah, data harus diurutkan dari nilai terkecil ke terbesar. Jika terdapat dua data
pada posisi tengah, maka nilai median didapatkan dari nilai rata-rata kedua data
tersebut.
2. Ukuran Penyebaran Data: Median, Mode
Terdapat dua metrik yang umum digunakan dalam mengukur penyebaran data,
yaitu range dan deviation. Range atau rentang digunakan untuk menghitung
selisih dari nilai maksimum dan nilai minimum suatu atribut. Contohnya seperti
rentang suhu di daerah gurun yang berkisar 80°F dan di daerah tropis yang
memiliki kisaran nilai suhu sebesar 20°F. Deviation dibagi menjadi nilai varians
dan nilai standar deviasi (simpangan baku) dengan tujuan mengukur penyebaran
data. Nilai deviasi diukur berdasarkan selisih antara nilai yang diberikan (x) dan
nilai mean dari sampel (u). Untuk dataset sebanyak N data, nilai varians (s).
3. Eksplorasi data
Eksplorasi multivariat adalah analisis yang dilakukan pada lebih dari satu atribut
dalam dataset. Teknik ini sangat penting dalam bidang ilmu data science untuk
memahami hubungan antaratribut. Sama seperti eksplorasi univariat yang sudah
dijelaskan sebelumnya, pada eksplorasi multivariat juga dibutuhkan analisis
mengenai ukuran tendensi sentral dan nilai varians. Kemudian, yang paling
penting dari eksplorasi multivariat adalah perhitungan nilai korelasi. Korelasi
adalah teknik statistika yang digunakan untuk memahami hubungan antara dua
atribut. Nilai korelasi menunjukkan besarnya ketergantungan satu atribut dengan
29
atribut lain. Sebagai contoh suhu udara yang berkorelasi atau memengaruhi
penjualan es krim di daerah pantai. Dua atribut yang berkorelasi menandakan
ketergantungan satu sama lain atau salah satu atribut dapat memprediksi atribut
yang lain. Sebagai contoh, penjualan es krim di masa depan dapat diprediksi
berdasarkan data suhu di daerah pantai. Akan tetapi, korelasi antara dua atribut
tidak selalu menyimpulkan hubungan sebab-akibat (causation). Sebagai contoh,
penjualan es krim mungkin saja berkorelasi dengan perubahan warna kulit
karena orang-orang pada umumnya akan pergi berlibur ke pantai selama musim
panas. Namun, penjualan es krim tidak menyebabkan perubahan warna kulit
seseorang. Dua atribut, yaitu penjualan es krim dan perubahan warna kulit sama-
sama dipengaruhi oleh atribut ketiga, yaitu musim panas. Korelasi antardua
atribut diukur menggunakan Pearson Correlation Coefficient (r). Koefisien
korelasi bernilai-1 srs 1. Nilai yang mendekati angka 1 maupun -1 menandakan
dua atribut yang sangat berkorelasi. Nilai korelasi I dan -1 juga menandakan
korelasi sempurna. Sebagai contoh nilai gaya gravitasi yang bergantung kepada
massa dari suatu objek dan banyaknya produk yang terjual memengaruhi total
pendapatan. Nilai korelasi 0 menandakan tidak adanya hubungan antardua
atribut. Memahami korelasi dapat dengan mudah dilakukan dengan
menggunakan teknik visualisasi data yang akan dijelaskan pada
bagian selanjutnya.

E. STATISTIK INFERENSIAL
Untuk memahami bagaimana suatu hal atau fenomena berlaku pada suatu
populasi kita dapat menggunakan pendekatan statistik inferensial. Statistik infe
rensial adalah pendekatan statistik yang berlandaskan kepada data sampel dari
suatu populasi, untuk kemudian menarik kesimpulan atas populasi tersebut
berdasarkan pada sampel yang telah dikumpulkan, diolah, dan dianalisis. Karena
terkadang peneliti tidak memiliki sumber daya seperti waktu, biaya, tenaga, dan lain
sebagainya untuk melakukan analisis atas keseluruhan populasi. Peneliti kemudian
memilih sampel dari beberapa individu untuk melakukan penelitiannya. Dalam
statistik inferensial kita perlu memahami beberapa konsep dasar seperti teori
probabilitas, variabel random diskret dan kontinu, teknik sampling, distribusi
probabilitas, dan uji hipotesisnya baik secara parametris maupun non-parametris.

30
F. VISUALISASI DATA
Visualisasi data juga merupakan teknik penting dalam rangka dari eksplorasi
data. Visualisasi data diartikan sebagai sebuah proses dalam memperoleh,
menafsirkan, dan membandingkan data untuk mengkomunikasikan ide ide yang
kompleks sehingga memudahkan proses identifikasi dan analisis pola yang
bermakna. Tujuan dari visualisasi data adalah sebagai berikut:
1. Sarana komunikasi.
2. Membantu dalam menginterpretasikan data yang tersedia.
3. Mendeteksi pola, tren, dan anomali pada data.
4. Membantu pengambilan keputusan yang tepat.
Konten visual memainkan peran penting dalam setiap momen hidup kita.
Sebuah studi oleh Ship Duruptive Learning menunjukkan bahwa otak manusia
biasanya mem proses gambar 60.000 kali lebih cepat daripada tabel atau teks, dan
otak biasanya melakukan pekerjaan yang lebih baik untuk mengingatnya dalam
jangka panjang. Penelitian yang sama mendeteksi bahwa setelah tiga hari, informasi
tertulis atau secara lisan hanya dapat bertahan hingga 10% dan 20% di memori kita,
sedangkan untuk informasi visual dapat mencapai 65% sehingga, representasi
visual dengan menggunakan gambar adalah cara yang lebih efektif untuk
mengomunikasikan informasi daripada menggunakan teks atau tabel. Representasi
visual dapat membantu sese orang dalam memahami data yang kompleks dengan
banyak atribut dan memberikan kemudahan dalam memahami hubungan
antaratribut. Seseorang juga dapat dengan mudah memahami pola dan tren dari
suatu dats hanya dengan menggunakan visualisasi sederhana, di mana hal tersebut
sulit dilakukan dengan representasi data secara tradisional
menggunakan kumpulan angka. Secara umum, visualisasi data membantu dalam 3
(tiga) hal berikut ini.
1. Explaining
Visualisasi bertujuan untuk memudahkan dalam menggambarkan situasi,
menjawab pertanyaan, mendukung keputusan, mengkomunikasikan informasi,
dan memecahkan masalah tertentu. (Gambar 12) dapat dengan jelas
menginformasikan negara dengan permintaan terbesar untuk produk tertentu
secara global.

31
Gambar 12. perilaku konsumtif

2. Exploring
Beberapa visualisasi data dibuat untuk memudahkan orang lain dapat melakukan
eksplorasi data secara visual, orang lain dapat berinteraksi dengan dataset
secara visual, mengajukan pertanyaan, mengeksplorasi, dan menemukan
beberapa solusi atau jawaban. Misalnya: grafik interaktif dari The Guardian
memudahkan kita untuk mengeksplorasi bagaimana standar linguistik pidato
kepresidenan AS telah menurun dari waktu ke waktu.
3. Analyzing
Visualisasi data dapat membantu orang lain dalam memeriksa, menyaring, dan
mengubah informasi yang signifikan dalam suatu kum pulan data sehingga
mereka dapat menemukan sesuatu yang baru atau memprediksi situasi yang
akan datang. Misalnya, grafik interaktifnya tentang machine learning membantu
kita untuk menjelajahi, menemukan informasi, dan melihat pola dalam data.

G. VISUALISASI DATA UNIVARIAT


Visualisasi univariat dilakukan untuk memahami satu atribut atau fitur
menggunakan bantuan grafik (chart). Teknik visualisasi yang dibahas pada bagian
ini dapat memberikan gambaran mengenai bagaimana nilai atribut didistribusikan
dan bentuk distribusinya:
1. Histogram
Histogram adalah teknik visualisasi dasar dan paling banyak digunakan untuk
menampilkan data univariat. Tujuan utama penggunaan histogram adalah untuk
memahami frekuensi kemunculan suatu nilai dalam dataset. Histogram dapat
menunjukkan distribusi data dengan cara meletakkan frekuensi kemunculan
suatu nilai dalam suatu rentang (range). Nilai atribut diletakkan pada sumbu
horizontal dan frekuensi kemunculannya digam barkan pada sumbu vertikal.

32
Gambar 13. Histogram

2. Quartile Plot
Quartile plot dapat digunakan untuk menampilkan distribusi data berdasarkan
kategori. Teknik visualisasi ini memfasilitasi pembaca untuk memahami
perbandingan antar variabel atau fitur dalam dataset.

Gambar 14. Quartile Plot

3. Grafik Distribusi (Distribution Chart)


Grafik distribusi normal dapat digunakan untuk memvisualisasikan atribut kontinu
seperti petal length. Distribusi normal juga disebut sebagai "bell curve" karena
bentuk grafiknya yang menyerupa gambar lonceng Normal distribusi
menunjukkan probabilitas kemunca dari suatu data dalam suatu rentang nilai.
Grafik distribusi normal untuk variabel petal length pada setiap spesies iris.

33
Gambar 15. Grafik Distribution Chart.

Dari gambar diatas tersebut kita dapat menyimpulkan babes petal length untuk
spesies iris setosa memiliki nilai yang lebih bervaria dan kohesif dibandingkan
dengan dua spesies lainnya, yaitu iris virginis dan versicolor. Selain itu, secara
sederhana grafik distribusi juga dapat digunakan untuk memprediksi jenis
spesies bunga iris berdasarkan panjang petalnya. Sebagai contoh, bunga iris
dengan karakteristik panjang petal 1.5 cm dapat dikategorikan sebagai iris
setosa. Kemudian, nilai panjang petal 5 cm dikategorikan dalam iris versicolor
atau iris virginia karena berada pada titik perpotongan dari dua spesies.

H. VISUALISASI DATA MULTIVARIAT


Visualisasi data multivariat menggunakan lebih dari satu atribut dalam
visualisasi yang sama. Teknik yang digunakan untuk visualisasi multivariat dalam
buku ini berfokus pada hubungan satu atribut dengan atribut lainnya Teknik
visualisasi multivariat dapat digunakan untuk memeriksa dua hingga empat atribut
secara bersamaan Berikut adalah beberapa teknik visualisasi multivariat yang dapat
digunakan untuk tujuan eksplorasi data:
1. Scatterplot
Scatterplot adalah salah satu teknik visualisasi yang efektif dan mudah untuk
diterapkan pada eksplorasi data multivariat. Pada umumnya, teknik visualisasi ini
digunakan untuk data kontinu. Ciri utama dari scatterplot adalah penggunaan
koordinat kartesius untuk menampilkan dataset Dengan scatterplot, kita dapat
mengetahui adanya hubungan antara dua atribut (korelasi) Apabila dua atribut
saling berkorelasi secara linear, maka titik data akan lebih dekat pada garis lurus
imajiner.
34
Gambar 16. Scatter Plot

2. Scatterplot Matrix
Scatterplot matrix dapat menjadi solusi dari keterbatasan teknik visualisasi
menggunakan scatterplot di mana hanya dapat menampilkan hubungan dari dua
atribut saja. Dengan scatterplot matrix data dapat menampilkan hubungan dari
empat atribut pada dataset irtis dalam satu grafik Perbedaan warna
merepresentasikan jenis spesies yang berbeda.

Gambar 17. Scatter Plot Matrix

3. Bubble Plot
Bubble plot pada dasarnya merupakan variasi dari scatterplot dengan menam
bahkan satu dimensi berupa ukuran titik (size of point). Berikut ini adalah bubble
plot yang menggambarkan hubungan dari dua atribut, yaitu petal length dan petal
width. Lingkaran mendefinisikan ukuran dari atribut petal width.

35
Gambar 18. Bubble Plot

4. Density Chart
Pada dasarnya, penggunaan density chart sama seperti scatterplot di mana data
ditunjukkan menggunakan koordinat kartesius. Petal length pada density chart
digambarkan oleh sumbu x dan sepal width oleh sumbu y. Warna latar belakang
menunjukkan densitas dimana dalam kasus ini, penulis menggunakan atribut
sepal width.

Gambar 19. Density Chart

3. Alat dan bahan


Alat tulis dan buku refrensi
Pathak, M. A. (2014). Beginning data science with R. Springer.
Lapinski, Anna-Liesa. S. (2009). A Strategy for Uncertainty Visualization Design.
Defence Research and Development Canada, Canada.
Levontin, P., & Walton, JL (2020). Visualising Uncertainty: A Short Intro- duction.
Sad Press, London, UK.

36
4. Langkah penyelesaian
Permasalahan:
Permasalahan lain dalam tahapan preprocessing data ialah adanya sumber
data yang berkaitan dengan missing value. Apabila mendapatkan data yang
opensource terdapat source data yang mengalami missing value, hal tersebut
dikarenakan adanya kesalahan input ataupun kesalahan pengambilan sample dan
data tersebut terunduh pada web data source.

Penyelesaian:
Penyelesaian permasalahan data processing melibatkan serangkaian langkah
untuk memproses, membersihkan, dan merapihkan data agar siap digunakan dalam
analisis data, pemodelan, atau tugas lainnya dalam konteks data science. Berikut
adalah langkah-langkah umum dalam menyelesaikan permasalahan data
processing:
1. Pemahaman Masalah
a. Memahami tujuan pemrosesan data dan masalah yang ingin dipecahkan.
b. Mengidentifikasi jenis data yang digunakan, sumber data, dan persyaratan
data.
2. Pengumpulan Data:
a. Mengumpulkan data dari berbagai sumber, termasuk basis data, file, API,
atau sensor.
b. Memastikan integritas data selama pengumpulan dan transfer data.
3. Pembersihan Data:
a. Mengidentifikasi dan mengatasi data yang hilang (missing data).
b. Mengidentifikasi dan mengatasi data duplikat.
c. Menangani data outlier jika diperlukan.
d. Mengonversi atau mengkode data kategorik menjadi format yang sesuai.
e. Memastikan konsistensi format data (misalnya, format tanggal yang
konsisten).
4. Transformasi Data:
a. Merubah format atau struktur data jika diperlukan, seperti menggabungkan
kolom, membagi kolom, atau mengubah tipe data.
b. Normalisasi data jika perlu untuk memastikan data berada pada rentang yang
37
sesuai.
5. Pemilihan Fitur (Feature Selection):
a. Memilih subset fitur yang relevan untuk tujuan analisis atau pemodelan.
b. Menghindari overfitting dengan menghapus fitur yang tidak memberikan
kontribusi signifikan.
Langkah-langkah di atas dapat disesuaikan dengan tugas dan proyek tertentu
dalam data science. Penting untuk menciptakan proses yang konsisten dan dapat
diulang untuk pemrosesan data yang efisien dan akurat. Data processing yang baik
adalah langkah kunci dalam menjalankan proyek data science dengan sukses.

5. Tugas
1. Apa yang yang dimaksud dengan data processing?
2. Penggunaan grafik pada sebuah visualisasi data ditentukan berdasarkan?
3. Sebutkan perbedaan data univariat dan data multivariat?

38
MODUL V
MENGANALISIS DAN EVALUASI DATA SCIENCE

1. Tujuan
1. Mahasiswa mengetahui tujuan menganalisis serta evaluasi data science
2. Mahasiswa dapat mengidentifikasi sebuah kesalahan pada data yang
dievaluasi
3. Mahasiswa dapat mengimplementasi hasil evaluasi

2. Landasan Teori
RUMUSAN MASALAH ANALISIS DATA
Dalam melakukan pengolahan dan analisis data, peneliti perlu membangun
kalimat rumusan masalah untuk membantu penelitian menjadi lebih fokus. Rumusan
masalah yang tepat akan mengarahkan penelitian kepada proses pengolahan dan
analisis yang akurat. Namun, sering kali ditemukan kesalahan yang tidak perlu
muncul dalam membangun kalimat rumusan masalah. Hal ini dapat terjadi
dikarenakan beberapa hal seperti: (1) Kurang menggali lebih dalam penelitian
sebelumnya, (2) latar belakang penelitian yang tidak kuat, dan (3) belum memahami
arti dari rumusan masalah.
Kurang menggali lebih dalam penelitian sebelumnya berarti peneliti kurang
melakukan kajian literatur terkait topik dan metode yang beririsan dengan
penelitiannya. Hal ini dapat dilakukan dengan mengunjungi pangkalan data ilmiah
seperti Science Direct (sciencedirect.com), Springer (https://link.springer.com/),
IEEE (https://ieeexplore.ieee.org/Xplore/home.jsp). Wiley
(https://www.onlinelibrary.wiley.com/), atau Taylor and Francis
(https://taylorandfrancis.com/). Tidak kuatnya latar belakang berarti peneliti kurang
mendalami dengan baik topik penelitian yang dilakukan, Minimnya observasi atau
kurangnya data pendukung awal terkait topik penelitiannya dapat menyebabkan
lemahnya latar belakang yang dibangun. Selanjutnya, yang paling banyak dijumpai
adalah sebagian besar peneliti belum memahami arti dari rumusan masalah.
Rumusan masalah bukanlah pekerjaan yang akan dilakukan selama melakukan
penelitian, bukan pula proses yang harus dilalui. Namun, rumusan masalah adalah

39
pertanyaan yang akan ditemukan jawabannya setelah penelitian selesai dilakukan.
Jawabannya merupakan produk akhir dari penelitian, bukan proses di tengah-
tengah penelitian.

A. DESKRIPTIF
Kalimat rumusan masalah deskriptif berarti akan mencari jawaban dengan
membuat deskripsi yang merupakan hasil akhir dari penelitian. Deskripsi yang
dibangun merupakan produk akhir dari metodologi yang digunakan dalam penelitian.
Metodologi yang digunakan dapat berupa observasi, wawancara, dan dokumentasi.
Kemudian, teknik interpolasi digunakan untuk mencar benang merah atau tumpang-
tindih informasi yang diperoleh dari ketiga metodologi yang digunakan. Dengan kata
lain peneliti berupaya mencari irisan dari informasi yang diperoleh. Contoh,
"bagaimana peran perkembangan teknologi informasi selama dua dekade terakhir di
Indonesia?" Kalimat tanya seperti ini hanya akan ditemukan jawabannya ketika
peneliti telah mengumpulkan berbagai data dengan metode yang dipilih. Kemudian,
dirangkailah hasil jawaban yang ditemukan secara deskriptif.

B. ASOSIATIF
Kalimat rumusan masalah asosiatif berarti mencoba mencari jawaban dengan
membangun hubungan antardua atau lebih variabel penelitian yang digunakan.
Peneliti dapat menggunakan metode regresi ataupun prediksi untuk melihat
hubungan antar variabel penelitian. Contoh kalimat rumusan masalah asosiatif
adalah, "bagaimana pengaruh penerapan data mining, pada peningkatan
keuntungan perusahaan?" terlihat dengan jelas terdapat variabel bebas dan terikat
yang disebutkan pada kalimat rumusan masalah tersebut. Yaitu "data mining"
sebagai variabel bebas dan "peningkatan keuntungan" sebagai variabel terikat.
Artinya, peneliti akan menghasilkan informasi bagaimana pengaruh penerapan data
mining pada peningkatan keuntungan perusahaan. Hal ini hanya akan terjawab
setelah berbagai macam data dikumpulkan, diolah, dan dianalisis untuk kemudian
ditarik kesimpulan.

C. KOMPARATIF
Berbeda dengan rumusan masalah sebelumnya, pada bentuk komparatif
peneliti harus melakukan perbandingan antarvariabel penelitian yang digunakan.
40
Perbandingan harus setingkat, artinya jika melakukan penelitian perbandingan,
maka dua atau lebih hal yang dibandingkan tersebut harus memiliki tingkat yang
sama. Misal, dalam melakukan analisis data science geospasial berbasis raster (eg,
citra satelit) peneliti bermaksud membandingkan berbagai algoritma klasifikasi.
Peneliti harus memahami dengan baik cara kerja dari algoritma yang akan
dibandingkan. Algoritma berbasis prediksi dengan arsitektur pohon seperti CART
dan Random Forest (RF), tidak bisa dibandingkan dengan algoritma berbasis
jaringan saraf tiruan (JST) seperti Multilayer Perceptron (MLP) atau Radial Basis
Function Neural Network (RBFNN). "Bagaimana perbandingan performa algoritma
klasifikasi CART dan RF yang diterapkan pada data citra satelit sentinel pada
platform komputasi awan Google Earth Engine?" Pada rumusan masalah tersebut
peneliti akan membandingkan dua algoritma klasifikasi berbeda yang akan
diterapkan pada data citra sentinel dengan memanfaatkan platform komputasi awan
Google Earth Engine (GEE). Peneliti juga perlu menjelaskan dengan detail hal yang
dibandingkan, pada rumusan masalah di atas, peneliti perlu menjelaskan apa yang
dimak- sud dengan performa? Apakah kecepatan waktu pengolahan, akurasi hasil
klasifikasi, atau keduanya.

D. GABUNGAN
"Bagaimana perbedaan rasio jumlah data latih dan data uji, pada algoritma
machine learning SVM dan KNN yang diterapkan pada data foto Google Street
View?" Ini adalah contoh kalimat rumusan masalah dengan bentuk gabungan.
Dalam rumusan masalah di atas, terdapat dua variabel, yan data latih dan data uji.
Sementara algoritma yang digunakan, yaitu Support Vector Machine (SVM) dan k
Nearest Neighbour (kNN). Peneliti hanya akan memperoleh jawabannya setelah
penelitian selesai. Misal, pada akhir penelitian peneliti berhasil mendapatkan fakta
ilmiah bahwa dalam proses membedakan vegetasi dan non-vegetasi dari foto
Google Street View, algoritma KNN sama baiknya dengan SVM, baik dengan
menggunakan rasio jumlah data latih dan data uji yang berbeda. Maka dapat ditarik
kesimpulan bahwa dalam kasus ini, kedua algoritma tersebut tidak jauh berbeda.
Kesalahan yang sering kali muncul dalam membangun kalimat rumusan masalah
adalah peneliti terjebak pada proses pengerjaan penelitian, seperti:
1. Bagaimana merancang.
2. Bagaimana proses.
41
3. Bagaimana membangun.
4. Bagaimana mengimplementasikan.
5. Bagaimana menerapkan.
6. Dan sebagainya.
Hal ini dapat diperbaiki dengan cara sederhana, yaitu dengan menyebutkan
secara langsung variabel penelitian, atau algoritma yang digunakan, maupun
metodologi lain yang dipilih sehingga peneliti dapat keluar dari kesalahan.

E. TRIVIAL
Menurut Kamus Besar Bahasa Indonesia (KBBI) daring, trivial berarti bernilai
kecil atau remeh, atau dalam matematika bernilai nol (0). Dalam data science, trivial
berarti mengolah data untuk tidak menghasilkan apa pun. Kegiatan itu termasuk
trivial karena mengolah data tanpa menghasilkan apa pun sama dengan menyia-
nyiakan waktu.
Mengolah data harus dengan tujuan memperoleh hasil, apa pun hasilnya.
Positif ataupun negatif tetaplah hasil penelitian. Meskipun hasilnya negatif tetap
berkontribusi pada ilmu pengetahuan karena peneliti lain tidak perlu membuang
waktu untuk mengulangi hal yang sama. Itu bentuk kontribusi dari hasil penelitian
yang negatif.
Trivial lain dalam data science adalah melakukan pengolahan data yang
hasilnya sudah menjadi pengetahuan umum. Misalnya, untuk mem- buktikan bahwa
air adalah benda cair, maka peneliti mengumpulkan berbagai macam air dari
berbagai lokasi yang berbeda dan menyimpulkan bahwa air adalah benda cair.
Bentuk trivial lainnya adalah mengulangi penelitian yang sama hanya dengan
objek yang berbeda. Misalnya, melakukan analisis data untuk penerimaan pengguna
studi kasus sistem informasi penerimaan mahasiswa kampus A. kemudian dilakukan
ulang untuk kampus B, kemudian diulangi kembali untuk kampus C, oleh tiga
peneliti yang berbeda.

F. MANUAL
Bentuk kesalahan lain dalam proses pengolahan dan analisis data adalah
pengerjaan yang dapat dilakukan secara manual, namun dilakukan secar otomatis.
Proses manualisasi memang membutuhkan banyak waktu namun jika hal tersebut
masih mungkin untuk dilakukan, maka tidak alasan bagi peneliti untuk melakukan
42
secara otomatis.
Peneliti bidang data science kadang terjebak pada computational chamisme,
yaitu sebuah paham yang menganggap bahwa seluruh persoalan dapat diselesaikan
dengan pendekatan komputasi. Jumlah data yang cukup diselesaikan secara
manual kemudian harus diselesaikan dengan pendekata komputasi yang kompleks.
Ilustrasi sederhana dalam hal ini adalah seseorang hendak memotong ranting pohon
yang kecil, namun menggunakan alat berat seperti gergaji mesin yang besar. Atau
seperti hendak memotong tomat namun menggunakan pisau daging

G. EKSTRAKSI
Dalam proses pengolahan dan analisis data tidak ada ekstraksi penge tahan
baru, maka hal ini tidak dapat disebut sebagai sains data. Sering kali peneliti hanya
merombak data dengan berbagai algoritma tersedia, namun tidak menghasilkan
pengetahuan baru maupun inform yang layak dikonsumsi oleh khalayak ilmiah dan
umum. Sehingga, dalam proses pengolahan dan analisis data ini dapat distrasikan
seperti mengalah kelapa. Kelapa harus diparut, kemudian diperuntukan
menghasilkan santan. Santan ini kemudian disangrai untuk menghasilkan minyak
kelapa yang dapat digunakan untuk berbagai keperluan

H. PROSES PENEMUAN
Proses penemuan informasi dan pengetahuan baru juga harus menjadi fokus
utama dari pengolahan dan analisis data. Jika dalam proses pene- muan ini tidak
menemukan apa-apa, bukan berarti penelitian tidak ber- manfaat. Kekeliruan paham
dan pola pikir bahwa penelitian harus selalu menghasilkan penemuan baru telah
menjadi virus baru dalam kalangan dunia ilmiah di Indonesia.
Setiap penelitian harus selalu menghasilkan penemuan baru. Meskipun
hasilnya menunjukkan hasil yang negatif atau tidak ada penemuan, maka hal itu
menjadi kontribusi penting. Karena pilihan metode yang digunakan ternyata tidak
dapat memberikan hasil yang diharapkan. Kontribusi ini layak diapresiasi karena
akan banyak menghemat waktu peneliti lain untuk menghindari metode yang telah
digunakan.

I. JUMLAH DAN UKURAN DATA


Kekeliruan lain adalah jumlah dan ukuran data. Pada data science sering kali
43
peneliti terjebak pada pernyataan bahwa "hanya data dengan jumlah dan ukuran
data yang besar yang dapat diolah dan disajikan". Pernyataan ini keliru karena tidak
memberikan apresiasi pada proses akuisisi data yang telah dilakukan. Meskipun
jumlah dan ukuran data kecil, selama penelitian dilakukan dengan metodologi ilmiah
yang valid, runut, instrumen akuisisi data yang reliable dan valid, serta terdapat
proses pengolahan data yang dapat dilakukan ulang oleh peneliti lain, maka data
tersebut layak untuk disajikan. Hal penting yang menjadi perhatian adalah
kompleksitas dari prediktor yang digunakan dan luaran yang diharapkan. Selama
prediktor yang digu nakan memiliki kompleksitas tinggi dan memiliki interdependensi
yang kompleks dengan luarannya, maka jumlah ukuran data tidak menjadi
permasalahan. Jumlah dan ukuran data akan tergantung dari kasus yang dianalisis
dan algoritma yang dipilih. Misal, kasusnya adalah klasifikasi dan algoritma yang
dipilih adalah artificial neural network atau jaringan saraf tiruan. Maka peneliti perlu
memastikan bahwa terdapat data latih yang telah diberikan label dengan jumlah
yang sangat banyak.

JENIS DAN SUMBER KESALAHAN


Kesalahan dalam domain data science dalam bersumber dari tiga proses
utama, yaitu proses akuisisi data, pengolahan, dan pada saat data digunakan.
Namun, beberapa sumber lain juga dapat menjadi asal muasal datangnya
kesalahan, seperti parameter yang keliru atau data yang tidak lengkap.

A. AKUISISI DATA
Proses akuisisi data merupakan proses paling awal dalam data science, dan
sering kali terabaikan misal, siapa yang melakukan proses akuisisi?. Apa instrumen
yang digunakan?. Bagaimana menentukan jumlah data yang diakuisisi?. Dan
sebagainya. Kesalahan dapat datang jika proses akuisisi data dilakukan tidak secara
hati-hati. Pengalaman peneliti juga berpengaruh dalam proses akuisisi data.
Kesalahan juga dapat terjadi dari sumber data yang diperoleh.
Selanjutnya, adalah instrumen akuisisi data yang memiliki kapasitas dan
klasifikasi yang berbeda-beda, tergantung pada tingkat akurasi dan presisi yang
diharapkan. Setiap instrumen akuisisi data sebaiknya sudah lolos proses uji validitas
dan reliabilitas instrumen, artinya alat ukur dan yang diukur sudah tepat dengan
tingkat presisi yang tinggi, misal tiga angka di belakang koma. Misal, instrumen
44
untuk mengukur berat badan adalah timbangan, dengan presisi 0.005 kg.

B. PENGOLAHAN DATA
Kesalahan juga dapat terjadi pada proses pengolahan data, ini adalah tahap
kedua setelah akuisisi data selesai dilakukan. Pengolahan data di dalamnya
termasuk cleansing, transformation, dan missing value.

C. PENGGUNAAN DATA
Kesalahan terakhir dapat muncul pada tahap akhir, yaitu penggunaan data
Hal ini disebabkan data kini sudah berubah menjadi sebuah informasi dan informasi
ini kemudian diberikan pada pemangku kepentingan. Pengambilan keputusan
merupakan tujuan akhir dalam data saitis. dan biasanya dilakukan oleh orang
dengan berbagai macam latar belakang keilmuan, kesalahan dalam memahami
informasi yang disajikan akan berujung pada kesalahan dalam pengambilan
keputusan akhir. Dibutuhkan penjelasan detail dari seorang ilmuwan sains data yang
mendampingi pada pemangku kepentingan dalam proses penggunaan data untuk
meminimalkan kerugian.

UNCERTAINTY PADA DATA SCIENCE


Uncertainty atau ketidakpastian adalah suatu ukuran yang digunakan oleh
peneliti untuk memahami perbedaan antara informasi yang diperoleh dari data yang
diolah dengan fenomena yang sedang dikaji atau dengan kata lain sejauh mana
perbedaan antara hasil pengolahan data dengan keadaan yang sebenarnya terjadi
di dunia nyata. Ketidakpastian ini hadir sebagai konsekuensi dari kompleksitas
fenomena nyata yang terjadi di permukaan bumi sehingga tidak mungkin mere-
presentasikan dunia nyata ke dalam dunia digital secara utuh 100%. Ketidakpastian
itu tidak bisa dihindari dalam sains data namun bisa diminimalisir.
Tidak ada yang benar-benar sempurna dalam proses pengolahan data
menjadi informasi, semuanya memiliki kekurangan atau imperfection. Amat tidak
mungkin melakukan prediksi kemudian mendapatkan hasil luaran yang 100% akurat.
Imperfection ini dapat muncul dari beberapa hal, misal a) kekeliruan dalam
memahami fenomena di dunia nyata, b) kesalahan dalam memilih,
pengukuran/perhitungan dan cara mempresentasikannya, c) kesalahan dalam
kuantifikasi dan proses analisis. memvisualisasikan konsep ketidakpastian yang
45
muncul mulai dari tahap awal hingga akhir, yaitu analisis.
A. KEKELIRUAN DALAM MEMAHAMI DUNIA NYATA
Hujan merupakan fenomena dunia nyata yang sangat kompleks. Hujan
adalah salah satu fase dalam siklus hidrologi yang terdiri atas beberapa rangkaian
fase. Mulai dari proses penguapan, transpirasi dan evapotran spirasi, kondensasi,
hingga menjadi presipitasi. Semuanya tidak dapat dipi sahkan satu dengan yang
lainnya. Curah hujan kemudian dipengaruhi oleh suhu, tekanan udara, inten sitas
penyinaran matahari, ketinggian, pola penggunaan dan tutupan lahan. dan variabel
lainnya. Kekeliruan dalam memahami hujan akan menye babkan munculnya
kesalahan dalam pengolahan data dan analisisnya. Memprediksi curah hujan akan
sangat berbeda dengan memprediksi harga saham atau emas. Variabel internal dan
eksternal dari setiap fenomena harus dipahami dengan sangat baik. Caranya adalah
dengan banyak meng kaji literatur terkait atau diskusi dengan para pakar di
bidangnya.

B. KESALAHAN DALAM MEMILIH, PENGUKURAN/PERHITUNGAN DAN CARA


MEMPRESENTASIKANNYA
Masih tentang hujan, fenomena ini adalah fenomena alam yang dapat diukur
dengan berbagai cara, baik secara langsung maupun tidak langsung. Mulai dari
sensor yang sederhana yang dipasang di lahan terbuka hingga sensor yang super
canggih yang ditanam di satelit yang mengorbit angkasa. Data yang dapat diukur
dan memiliki satuan (unit) tertentu meru pakan data kontinu dan dapat
direpresentasikan menggunakan grafik diagram garis (Gambar). Sementara data
yang dapat dihitung dan tidak memiliki satuan (unit) tertentu merupakan data diskret
dan dapat direpresen tasikan menggunakan grafik diagram batang. Setiap grafik
harus memiliki informasi legenda baik di sumbu x maupun sumbu y untuk
memberikan informasi kepada pemangku kepentingan. Data curah hujan time-series
hanya tepat divisualisasikan menggu nakan grafik diagram garis, sementara data
harga emas lebih tepat divisua lisasikan dengan grafik diagram batang.

46
Gambar 20. Contoh data curah hujan time series Plot

Kesalahan dalam pengukuran/perhitungan akan menyebabkan mun- culnya


imperfection yang dapat menjadi masalah lebih lanjut jika di analisis. Contohnya
adalah prediksi curah hujan menggunakan data curah hujan di stasiun BMKG ,Kota
Samarinda untuk memprediksi curah hujan. Atau memprediksi harga emas hanya
dengan menggunakan harga historis pada periode sebelumnya, atau memprediksi
harga saham hanya dengan menggunakan data harga sama time-series pada
tahun-tahun sebelumnya.

C. KESALAHAN DALAM KUANTIFIKASI DAN PROSES ANALISIS


Kesalahan kuantifikasi seperti mengukur jumlah penduduk dan kepadatan
penduduk. Jumlah penduduk adalah data diskret karena merupakan hasil
perhitungan dan tidak memiliki satuan atau unit. Sementara kepadatan penduduk
adalah data kontinu karena merupakan hasil pengukuran dan memiliki satuan atau
unit, yaitu orang/km. Penentuan jenis, sifat, skala, distribusi, dan karakteristik data
sangat penting agar peneliti tidak mela kukan kesalahan kuantifikasi dan proses
analisis.
Setiap data yang diperoleh selama proses akuisisi data tentunya akan
memengaruhi keputusan akhir yang diambil. informasi yang berhasil diolah tidak
mungkin 100% identik dengan fenomena di dunia nyata, maka yang dapat dilakukan
oleh peneliti data science adalah mengukur sejauh mana perbedaan antara model
yang dihasilkan dengan fenomena yang sebenarnya terjadi di lapangan. Beberapa
metode pengukuran tersebut dijelaskan pada bagian selanjutnya, yaitu "mengukur
uncertainty dari data.

47
D. KERANGKA KERJA MEMVISUALISASIKAN UNCERTAINTY
Terdapat 7 langkah strategis untuk memvisualisasikan uncertainty. 7 langkah
tersebut dikenal dengan istilah Uncertainty Visualization Development Strategy
(UVDS). UVDS memiliki 11 langkah utama yang terdiri atas:
1. Mengidentifikasi apa peran dari visualisasi uncertainty;
2. Memahami data apa saja yang diperlukan;
3. Memahami mengapa ketidakpastian perlu divisualisasikan, siapa
penggunanya, dan bagaimana visualisasi ketidakpastian bisa membantu
pengguna;
4. Memutuskan ketidakpastian yang akan divisualisasikan;
5. Memutuskan definisi ketidakpastian;
6. Menentukan penyebab spesifik dari ketidakpastian;
7. Menentukan kategori kausal dari ketidakpastian & menentukan persyaratan
kebutuhan dari visualisasi.

3. Alat Dan Bahan


Alat tulis dan buku refrensi
Lapinski, Anna-Liesa. S. (2009). A Strategy for Uncertainty Visualization Design.
Defence Research and Development Canada, Canada.
Levontin, P., & Walton, JL (2020). Visualising Uncertainty: A Short Intro- duction.
Sad Press, London, UK.
Longley, P.A., Goodchild, M.F., Maguire, D.J., Rhind, D.W. (2001). Geo- graphic
information systems and science. Wiley, Chichester
Pathak, M. A. (2014). Beginning data science with R. Springer.
Ramdani, F. (2019), Kuriositas: Metode Ilmiah Penelitian Teknologi Informasi.
UB Press, Malang.

4. Langkah penyelesaian
Permasalahan:
Kendala dalam proses regresi dan penggunaan algoritma supervised ialah
adanya potensi nilai eror yang tinggi serta missing value pada setiap pengolahan
data yang dilakukan. Namun hal tersebut tidak berdampak besar apabila memiliki
data primer dan sekunder yang memiliki tingkat accuracy yang baik antar data
primer dan sekunder.
48
Penyelesaian:
Algoritma serta analisis regresi dapat digunakan secara efektif apabila hanya
digunakan untuk melakukan pencarian potensi eror.

5. Tugas
1. Apa hal yang harus diperhatikan dalam mengevaluasi sebuah data?
2. Bagaimana cara untuk mengindetifikasi sebuah penelitian berdasarkan
dengan data yang kita miliki?
3. Apakah pengaruh dari literatur sebelumnya dapat mempengaruhi kajian
literatur yang sedang di buat?

49
MODUL VI
REGRESI DAN KLASIFIKASI

1. Tujuan
1. Mahasiswa mengetahui keterlibatan regresi dalam analisis
2. Mahasiswa dapat mengidentifikasi metode yang tepat dalam data
science
3. Mahasiswa dapat mengimplementasi decision tree dan penggunaan
klasifikasi

2. Landasan Teori
REGRESI
Salah satu algoritma eksplanatori adalah analisis regresi, di mana peneliti
harus memiliki sebuah variabel bebas dan terikat. Variabel bebas kemudian
digunakan sebagai prediktor atas variabel terikat. Konsep regresi amat mudah dan
dapat digunakan untuk penelitian yang bersifat sederhana. Misal, bagaimana
hubungan antara jumlah data latih dengan akurasi hasil klasifikasi. Algoritma
eksplanatori berusaha menjelaskan suatu model berdasarkan pada variabel yang
memiliki hubungan linear. Kemudian dievaluasi tingkat signifikansinya secara
statistik.

A. REGRESI LINEAR SEDERHANA


Hubungan antara variabel bebas dan terikat dapat bersifat positif atau linear,
artinya semakin besar nilai prediktor, maka akan semakin besar pula nilai variabel
terikatnya begitu pun sebaliknya. Sementara bersifat negatif atau non-linear jika
hubungan antara prediktor dan variabel terikatnya berbanding terbalik. Atau dengan
kata lain, semakin besar nilai prediktor, maka akan semakin kecil nilai variabel
terikatnya, begitu pun sebaliknya. Perlu dipahami bahwa berhubungan belum tentu
kemudian memiliki hubungan sebab akibat. Peneliti perlu memastikan hal ini lebih
dalam dengan melakukan kajian literatur yang berkualitas.

50
B. MULTIPLE REGRESI LINEAR
Seperti halnya regresi linear, multiple regresi juga bertujuan untuk mene-
mukan hubungan antara variabel. Hanya saja variabelnya lebih dari dua atau dikenal
juga dengan istilah multiple. Variabel bebas atau prediktor dapat berjumlah dua, tiga,
atau lebih, sementara variabel terikatnya dapat berjumlah satu. Pada multiple regresi
peneliti akan melakukan analisis kekuatan hu bungan atas semua prediktor terhadap
sebuah variabel terikat. Misal, bagaimana hubungan antara ukuran data, jumlah data
latih, dan algoritma klasifikasi yang dipilih dengan hasil akurasi klasifikasi.

C. POHON KEPUTUSAN (DECISION TREE)


Asumsi yang digunakan pada analisis regresi linear dan multiple regresi
adalah terdapat hubungan yang linear antara variabel bebas dengan variabel
terikatnya. Namun variabel bebas tetap bisa digunakan untuk memprediksi variabel
terikatnya. Maka kita dapat menggunakan algoritma pohon keputusan.
Algoritma pohon keputusan bekerja dengan cara membagi dataset ke dalam
bagian-bagian yang lebih kecil. Tujuan dari algoritma ini adalah untuk membuat
model yang memprediksi nilai variabel terikat, pohon keputusan menggunakan
representasi pohon untuk memecahkan masalah di mana simpul daun (leaf node)
adalah label kelas dan atribut direpresentasikan pada simpul internal (internal node)
dari pohon. Asumsi yang digunakan dalam algoritma pohon keputusan adalah
sebagai berikut:
1. Seluruh data latih dianggap sebagai akar (root).
2. Skala dari fitur yang digunakan sebaiknya adalah kategoris jika bersifat kontinu
sebaiknya diubah terlebih dahulu ke dalam bentuk diskret.
3. Hasil prediksi terdistribusi secara rekursif (perulangan) berdasarkan nilai
atributnya.
4. Urutan penentuan atribut sebagai akar (root) atau simpul internal (internal node)
dihitung menggunakan pendekatan statistik.
Dalam menentukan atribut dengan akurasi yang baik peneliti meng gunakan
beberapa kriteria seperti (1) entropy, (2) information gain, (3) Gini indeks, (4) gain
ratio, (5) reduction in varance, dan (6) Chi-square. Ber- bagai kriteria ini akan
menghitung nilai untuk setiap atribut. Nilai akan diurutkan, dan atribut ditempatkan
pada pohon sesuai dengan urutan, yaitu atribut dengan nilai yang tinggi akan ditaruh
sebagai akar (root). Information gain digunakan sebagai kriteria jika atribut memiliki
51
sifat kategoris/ordinal, sementara Gini indeks digunakan jika atribut memiliki sifat
kontinu.

D. RANDOM FOREST (RF)


Random forest adalah algoritma yang menggunakan banyak pohon kepu
tusan atau gabungan dari banyak pohon keputusan untuk kemudian meng hitung
rata-rata dari nilai prediksi guna memperoleh hasil yang lebih baik. Algoritma RF
merupakan bagian dari algoritmae ensemble learning, yaitu algoritma yang
memanfaatkan multiple atau banyak model dalam prosedur aplikasinya.
Banyak peneliti memilih menggunakan algoritma RF daripada pohon
keputusan saja karena dengan memanfaatkan algoritma RF ini seperti
menggunakan algoritma pohon keputusan berulang kali untuk mendapatkan hasil
prediksi yang lebih akurat. Algoritma RF dikenal juga sebagai salah satu proses
pembelajaran ensemble, dimana penggabungan beberapa algoritma pembelajaran
diguna kan untuk memperoleh hasil yang lebih baik. Terdapat dua konsep utama
kenapa kemudian diberikan nama "Random", yaitu (1) pengambilan sampel
dilakukan secara acak dari kumpulan data latih saat proses membangun pohon, (2)
subset atau potongan dari fitur selalu dipertimbangkan saat memisahkan simpul
(node). Namun sebenarnya di belakang algoritma R terdapat banyak hal kompleks
yang berlaku. Ini seperti kotak hitam yang kita tidak pernah tahu apa yang terjadi di
dalamnya, walaupun kita masih dapat melakukan penggalian melalui
pendekatan matematis.

E. MENENTUKAN METODE YANG TEPAT


Bagaimana menentukan metode yang tepat?. Apakah menggunakan algo
ritme regresi atau pohon keputusan?. Semuanya akan kembali kepada jenis
masalah yang akan dijawab. Peneliti perlu banyak melakukan kajian lite ratur yang
dalam dengan melihat penelitian-penelitian sebelumnya yang telah dilakukan. Jika
menurut literatur terdapat hubungan linear antara variabel bebas dan terikatnya,
maka lebih baik menggunakan algoritma regresi. Namun jika di dalam literatur
dinyatakan bahwa terdapat hubungan non-linear beserta kompleksitas yang tinggi
antara variabel bebas dan terikatnya, maka lebih baik menggunakan algoritma
pohon keputusan.

52
Terakhir, jika model prediksi yang dibangun perlu dijelaskan kepada
pemangku kepentingan guna mendukung proses pengambilan keputusan, maka
penggunaan algoritma pohon keputusan akan lebih baik daripada algoritma regresi.
Karena pohon keputusan yang merupakan luaran dari proses pengolahan data akan
lebih mudah divisualisasikan dan ditafsirkan daripada grafis linear dengan sumbu X
dan Y pada diagram kartesius.

F. KELEBIHAN DAN KEKURANGAN


Algoritma pohon keputusan relatif mudah diimplementasikan, bahkan dengan
komputer yang memiliki spesifikasi rendah sekalipun. Terdapat banyak sekali library
yang tersedia untuk menerapkan algoritma pohon keputusan, baik menggunakan
Python maupun R. Masalah paling umum yang sering ditemui dalam algoritma
pohon keputusan adalah mudah terjebak ke dalam kondisi overfitting. Overfitting
adalah suatu kondisi dimana data latih yang digunakan pada proses pelatihan selalu
memberikan hasil yang terbaik, namun memberikan hasil yang buruk pada proses
pengujian. Dengan kata lain, model mengenali data latih dengan sangat baik,
sehingga hasil prediksinya sangat tinggi dalam proses pelatihan. Namun jika
menggunakan data uji yang berbeda, akan memberikan hasil prediksi yang buruk.
Upaya yang dapat dilakukan untuk mengurangi atau, bahkan menghilangkan
overfitting adalah dengan melakukan pruning, yaitu proses pemangkasan pohon
keputusan atau dengan menggunakan algoritma Random Forest. Namun, algoritma
Random Forest juga tidak lepas dari kelemahan, terdapat banyak hal kompleks
berjalan di balik layar yang tidak diketahui. Hal ini dikenal juga dengan istilah black
box, yaitu semacam kotak hitam di mana ada input dan ada hasilnya, namun kita
tidak tahu persis apa yang sebenarnya terjadi di dalam kotak hitam tersebut.

G. KLASIFIKASI
Salah satu proses yang paling penting dalam data science adalah proses
klasifikasi. Klasifikasi selalu terdiri atas tiga bagian utama, yaitu proses pelatihan dari
data latih yang tersedia, proses klasifikasi berdasarkan hasil pelatihan, dan proses
pengujian berdasarkan pada data uji. Rasio atau perbandingan jumlah antara data
latih dan data uji biasanya menggunakan prinsip Pareto, yaitu 80:20. Di mana
peneliti akan menggunakan 80% data sebagai data latih dan 20% sisanya sebagai
data uji. Prinsip pareto menyatakan bahwa 80% hasil akhir disebabkan oleh 20%
53
usaha Pareto sendiri adalah seorang ekonom dari Italia dengan nama lengkap
Vilfredo Pareto, yang pada tahun 1895 menyatakan bahwa sekitar 80% tanah di
Italia dimiliki oleh 20% populasi negara tersebut.

Gambar 21. Proses Klasifikasi data science

Ide dasar dari proses klasifikasi adalah peneliti memiliki serangkaian kategori
data yang memiliki kelas tertentu atau lazim disebut label. Kemudian, berdasarkan
pada label tersebut peneliti akan membuat model yang akan digunakan untuk
secara otomatis melakukan klasifikasi dari data uji yang benar-benar baru, tidak
diketahui, atau bahkan, data yang berbeda sama sekali.

H. SUPERVISED LEARNING
Supervised learning dikenal juga dengan istilah pembelajaran
terbimbing/terselia. Misal, peneliti memiliki koleksi gambar manusia dan gorila telah
diberikan label dengan benar Komputer kemudian diberikan proses pembelajaran
dari koleksi gambar dengan label yang benar tersebut, ini adalah tahap pertama. Di
mana komputer akan menemukan pola dan kesamaan dari gambar-gambar
tersebut.
Pada tahap kedua, kita akan memberikan gambar yang benar-benar baru,
komputer kemudian akan mencoba mengenali gambar tersebut apakah akan

54
diklasifikasikan sebagai manusia atau gorila. Hasilnya dapat akurat 100% atau
bahkan, error 100% tergantung pada proses pembelajaran yang dilakukan.
Contoh penerapannya adalah pada surat elektronik (email). Untuk dapat
membedakan email yang masuk sebagai spam atau bukan, maka komputer akan
diberikan proses pembelajaran berdasarkan kepada email yang telah diberikan label
spam dan bukan spam. Berdasarkan pada proses pembelajaran tersebut, maka jika
ada email baru masuk akan diuji, apakah memiliki pola dan kesamaan dari data
latih, maka komputer akan memberikan label spam atau bukan spam. Aplikasi
lainnya adalah pada pengenalan teks, wajah, tulisan tangan, klasifikasi dokumen,
dan sebagainya.

55
Gambar 22. Supervised Learning

I. UNSUPERVISED LEARNING
Jika pada supervised learning peneliti harus memiliki label yang benar dahulu,
maka sebaliknya pada unsupervised learning tidak ada peran peneliti sebagai
mediator dalam memberikan label yang benar. Unsupervised terlebih dikenal juga
dengan istilah tidak terbimbing/terselia, artinya tidak ada proses "bimbingan" atau
belajar terlebih dahulu berdasarkan data latih. Pada unsupervised learning peneliti
mencoba menemukan apakah ter dapat pola yang khusus dalam data. Peneliti tidak
memiliki label, namun akan memberikan label berdasarkan pada pola yang
terbentuk secara alami dari data yang diolah. Komputer akan belajar secara mandiri
menemukan dan mengidentifikasi pola tanpa ada arahan dari peneliti.
Terdengar seperti kecerdasan buatan, di mana komputer dapat belajar tanpa
intervensi manusia, namun kurang tepat. Pada unsupervised learning. peneliti tidak
memiliki harapan luaran seperti apa, seperti pada proses regresi, dimana peneliti
memiliki harapan terdapat hubungan linear. Pada unsupervised learning peneliti
fokus pada data input dan mencoba mene- mukan pola dan hubungannya, maka
mungkin saja pada hasil akhirnya tidak terdapat pola dan hubungan sama sekali.
Contoh aplikasi dari unsupervised learning adalah rekomendasi artikel berita,
misal pada Google News menggunakan metode ini untuk memberikan rekomendasi
berita berdasarkan berita yang sama atau mirip. Pada bidang kesehatan misalnya
klasifikasi citra radiologi dan patologi untuk proses diagnosis yang cepat dan akurat.
Atau rekomendasi kepada pelanggan seperti pada halaman Amazon atau jurnal
56
ilmiah Springer, dimana komputer belajar berdasarkan pada tren data yang
digunakan oleh pengguna.

J. SEMI-SUPERVISED LEARNING
Pada supervised learning peneliti harus memiliki data dengan label yang
benar terlebih dahulu atas seluruh data, sebaliknya pada unsupervised learning
peneliti tidak memiliki label sama sekali. Sementara itu pada semi-supervised
learning peneliti hanya memiliki sebagian saja dari data yang dimiliki yang telah
memiliki label yang benar, sementara sebagian lainnya tidak. Tujuan dari semi-
supervised learning adalah 1) untuk memprediksi label pada data uji di masa depan
dan 2) memprediksi label pada data latih.

K. REINFORCEMENT LEARNING
Pada algoritma sebelumnya hanya fokus pada pengolahan data dan bagai
mana memperoleh pengetahuan darinya, atau dengan kata lain peneliti hanya fokus
pada kejadian di masa lalu atau di masa kini. Data science data tidak hanya fokus
pada data masa kini dan masa lalu, namun juga pada data di waktu nyata (real time)
sehingga kita membutuhkan sebuah metode lain yang dapat mempelajari apa yang
terjadi di waktu nyata guna men dapatkan "hadiah" (reward) semaksimal mugkin.
Berdasarkan alasan inilah kemudian dikenalkan algoritma Reinfor cement
learning (RL). Algoritma RL adalah tentang proses "pemaksaan" (reinforcing)
perilaku yang benar seiring dengan berlalunya waktu. Jika prediksi benar, maka
akan diberikan reward, dan akan diberikan hukuman jika salah. Contoh sederhana
dari penerapan algoritma RL adalah iklan online berdasarkan klik yang dilakukan
oleh pengguna, atau dikenal juga dengan istilah click-through rates (CTR). Hal ini
banyak diterapkan pada market place online seperti Tokopedia, Bukalapak, dan
sebagainya.
Jika kita ingin memaksimalkan profit, maka mengapa tidak melakukan
penyesuaian saat iklan sedang dijalankan?. Dengan kata lain, jangan menunggu
seluruh anggaran iklan habis sebelum mengetahui mana yang berkinerja terbaik.
Sebagai gantinya, cari tahu iklan mana yang berkinerja terbaik saat sedang
dijalankan. Lakukan penyesuaian sejak dini agar nantinya hanya iklan dengan
kinerja terbaik yang akan ditampilkan kepada pengguna.

57
Perhatikan bahwa definisi algoritma RL. tidak sepenuhnya sesuai dengan
supervised learning atau unsupervised learning. Ingat bahwa supervised learning
adalah tentang proses belajar melalui pengawasan dan pelatihan oleh peneliti.
Sementara itu, unsupervised learning berusaha mengungkapkan atau menemukan
pola, kesamaan, atau perbedaan, dari data yang tidak terstruktur (tanpa
pengawasan dan tanpa label). Perbedaan utama dari algoritma RL adalah dalam
memaksimalkan hadiah (reward) yang ditetapkan, belajar dari interaksi pengguna,
dan kemampuan untuk memperbarui secara real time.

L. MENENTUKAN METODE YANG TEPAT


Dalam penentuan metode yang tepat peneliti tidak perlu melakukan
pengambilan ruang sampel dalam menentukan metode yang tepat, apakah
penentuan metode tersebut menggunakan proses klasifikasi algoritma supervised
learning, unsupervised learning, semi-supervised learning atau bahkan
menggunakan reinforcement learning.
Peneliti perlu menentukan hasil atau luaran akhir yang seperti apa yang
diharapkan. Apakah peneliti memiliki label yang benar dan mengharapkan klasifikasi
nilai variabel terikat berdasarkan variabel prediktornya, maka peneliti dapat
menggunakan algoritma supervised learning. Apakah peneliti tidak memiliki label,
dan berharap menemukan pola atau perbedaan sebagian label atau persamaan
antara setiap kelompok dalam data, maka peneliti dapat menggunakan algoritma
unsupervised learning. Apakah peneliti memiliki yang benar dan berharap
memperoleh label dari data yang tidak lengkap, maka peneliti dapat menggunakan
algoritma semi-supervised learning. Apakah peneliti berharap memperoleh klasifikasi
yang akurat dalam waktu nyata, Maka peneliti dapat
menggunakan algoritma reinforcement learning.

3. Alat Dan Bahan


Alat tulis dan buku refrensi
Ramdani, F. (2019). Kuriositas: Metode Ilmiah Penelitian Teknologi Infor- masi.
UB Press, Malang.
Ramdani, E., Furqon, M. T., Setiawan, B. D., & Nur, A. (2020). Analysis of the
application of an advanced classifier algorithm to ultra-high resolution

58
unmanned aerial aircraft imagery - a neural network approach. International
Journal of Remote Sensing, 41(9), 3266- 3286.
https://doi.org/10.1080/01431161.2019.1688413.
Reimers, C., & Requena-Mesa, C. (2020). Deep Learning - an Opportunity and a
Challenge for Geo- and Astrophysics. In Knowledge Discovery in Big Data
from Astronomy and Earth Observation: Astrogeoin- formatics. Elsevier Inc.
https://doi.org/10.1016/B978-0-12-819154- 5.00024-2

4. Langkah Penyelesaian
Permasalahan:
Terdapat banyak sekali library yang tersedia untuk menerapkan algoritma
pohon keputusan, baik menggunakan Python maupun R. Masalah paling umum
yang sering ditemui dalam algoritma pohon keputusan adalah mudah terjebak ke
dalam kondisi overfitting.
Algoritma Random Forest juga tidak lepas dari kelemahan, terdapat banyak
hal kompleks berjalan di balik layar yang tidak diketahui. Hal ini dikenal juga dengan
istilah black box, yaitu semacam kotak hitam di mana ada input dan ada hasilnya,
namun kita tidak tahu persis apa yang sebenarnya terjadi di dalam
kotak hitam tersebut.

Penyelesaian:
Algoritma klasifikasi memberikan banyak manfaat bagi peneliti data science,
baik untuk kegiatan penelitian (non profit oriented) ataupun analisis bisnis (profit
oriented). Berbagai Library yang siap pakai juga banyak tersedia untuk melakukan
proses klasifikasi. Selanjutnya, kini juga tersedia proses klasifikasi berbasis cloud, di
mana performa komputer pengguna sudah tidak menjadi halangan karena semua
berjalan di dalam cloud milik penyedia jasa, seperti Google Cloud dan AWS secara
online.
Layanan klasifikasi berbasis cloud untuk data citra satelit berukuran sangat
besar kini sudah tersedia. Misal, Google Earth Engine (GEE) yang dapat diakses
melalui URL https://code.earthengine.google.com/ maupun Microsoft Planetary
Computer yang dapat diakses melalui URL https://
planetarycomputer.microsoft.com/ Namun selain beberapa kelebihan tersebut,

59
beberapa tantangan hadir dalam proses klasifikasi. Beberapa tantangan tersebut
adalah seperti berikut.

5. Tugas
1. Jelaskan yang dimaksud dengan Analisis Supervised Learning?
2. Penggunaan Metode Regresi dapat dikatakan dapat mencakup keseluruhan
hipotesis secara garis besar, mengapa? jelaskan!
3. Kegunaan Supervised dan Unsupervised Learning pada tatanan kota berguna
untuk?

60
MODUL VII
ARTIFICIAL NEURAL NETWORK (ANN)
&
MULTIPLE LAYER PERCEPTRON

1. Tujuan
1. Mahasiswa mengetahui ANN
2. Mahasiswa dapat mengidentifikasi kekurangan dan solusi kekurangan
dari ANN
3. Mahasiswa dapat mengimplementasi metode ANN dan MLP

2. Landasan Teori
ARTIFICIAL NEURAL NETWORK
Mata manusia sangat mudah dalam mengenali dan membedakan objek di
Junia nyata. Manusia juga dapat dengan mudah membaca dan memahami arti dari
suatu teks dalam kalimat. Hal ini dikarenakan manusia memilik sensor dan
perangkat pengolah data yang lengkap, seperti mata dan otak. Mata berfungsi untuk
mengenali objek, kemudian informasi mengenai objek ini dikirimkan ke otak untuk
diolah dengan sangat cepat. Namun, akan sangat berbeda dengan komputer,
sesuatu yang terlihat sangat sederhana dilakukan oleh manusia akan menjadi
sangat sulit dilakukan oleh komputer
Namun, komputer memiliki kemampuan mengolah proses perhitungan
matematis yang kompleks dengan sangat cepat, sementara manusia tidak. Hal ini
menjadi sangat menarik, mengingat kemampuan manusia dan komputer ternyata
saling berbanding terbalik namun juga dapat saling menggantikan. Di masa depan
akan semakin sulit membedakan apakah suatu pekerjaan dikerjakan oleh manusia
atau oleh komputer.
Salah satu metode yang diklaim meniru cara kerja otak manusia dalam
mengenali sesuatu adalah algoritma jaringan saraf tiruan atau dikenal juga dengan
istilah artificial neural networks (ANN) Otak manusia bekerja dengan memanfaatkan
kemampuan neuron menerima sinyal dari sensor, mengolahnya, dan mengirimkan
kembali hasilnya. Neuron satu dengan yang lain terhubung oleh sinapsis, dan
jumlahnya dapat mencapai lebih dari miliaran. Namun, metode ini tidaklah

61
sepenuhnya meniru cara kerja otak manusia, dikarenakan otak memiliki peta yang
sangat kompleks, sementara komputer tidak. Otak manusia senantiasa mengalami
perubahan seiring dengan bertambahnya usia dan pengetahuan. Semakin sering
digunakan, maka jumlah neuron dan sinapsis akan terus bertambah Sebaliknya,
semakin jarang digunakan, maka jumlah neuron dan sinapsis akan terus berkurang.
Berbeda dengan komputer, di mana jumlah neuron dan node hanya bisa ditentukan
oleh peneliti.
Pada algoritma ANN, selalu dimulai dari variabel masukan pada layer input,
kemudian layer ini akan dihubungkan dengan "hidden layer", dan terakhir adalah
layer output di mana proses perhitungan dapat dilakukan secara berulang untuk
mendapatkan model yang terbaik. Algoritma ANN bekerja mirip dengan supervised
learning, di mana data latih harus terlebih dahulu ditentukan oleh peneliti. Data latih
ini kemudian digunakan untuk melatih komputer dalam mengenali data. Lalu,
berdasarkan data latih tersebut komputer kemudian akan mampu mengenali dan
membedakan suatu objek. Aplikasinya seperti mengenali gambar, teks, suara, atau
ber bagai jenis data lainnya.
Akurasi yang dihasilkan oleh algoritma ANN akan sangat bergantung pada
kualitas dan kuantitas data yang dimiliki oleh peneliti. Kita mengenal istilah Garbage
In Garbage Out, yaitu suatu istilah yang menggambarkan bahwa jika input data latih
yang digunakan memiliki kualitas yang buruk, maka akan menghasilkan luaran
(output) yang buruk pula. Sebaliknya, jika input data latih yang digunakan memiliki
kualitas yang baik maka akan menghasilkan luaran (output) yang baik pula. Kualitas
data input dapat diperbaiki dengan cara pemilihan fitur yang tepat, mengubah
parameter seperti learning rate, dan regularization.
Learning rate adalah salah satu parameter yang digunakan dalam proses
pelatihan untuk melakukan koreksi nilai bobot. Rentang nilai lear- ning rate biasanya
antara 0 hingga 1, di mana semakin besar nilainya akan semakin cepat proses
komputasi. Sebaliknya, semakin kecil nilai learning nate maka akan semakin lambat
proses komputasinya. Ketelitian algoritma ANN dalam belajar juga akan bergantung
kepada nilai learning rate yang diberikan. Semakin besar nilai learning rate maka
akan semakin kecil ketelitiannya, sebaliknya semakin kecil nilai learning rate maka
akan semakin tinggi tingkat ketelitiannya.

62
A. MULTI-LAYER PERCEPTRON
Multi-layer perceptron adalah satu bentuk algoritma ANN yang paling mudah
dipahami dan diimplementasikan. Memvisualisasikan arsitektur MLP yang terdiri
atas tiga layer (input, hidden, dan output). Pada input layer terdapat tiga neuron
(node), sementara pada hidden layer terdapat lima neuron, dan output layer terdapat
tujuh layer. Hidden layer sangat penting keberadannya karena berfungsi untuk
mengatur dari MLP, tanpa hidden layer maka MLP tidak mampu melakukan proses
pembelajaran. Terlalu sedikit jumlah data latih, dan terlalu banyak jumlah iterasi
akan membuat MLP terjebak pada kondisi overfitting.

Gambar 23. MULTI-LAYER PERCEPTRON

Pada MLP perhitungan dan perbaikan bobot nilai menggunakan algoritma back
propagation, yaitu perhitungan dan penyesuaian bobot secara iterative, maju-
mundur secara berulang-ulang hingga mencapai nilai.

B. RADIAL BASIS FUNCTION NEURAL NETWORK (RBFNN)


Radial basis function (RBF) termasuk ke dalam metode supervised learning,
di mana pada hidden layer memanfaatkan metode radial basis function. Jika pada
MLP berlaku proses maju mundur (back propagation), maka pada RBFNN hanya
berlaku proses maju saja (feed forward). Proses perhitungan dan penyesuaian nilai
bobot dilakukan pada hidden layer dengan menggunakan fungsi transformasi
statistik seperti.

63
Gambar 24. Radial Basis Neuron Network

Hidden layer bertugas untuk mengukur jarak antara data input dengan nilai
pusat dari RBF. Nilai RBF akan mencapai puncak atau nilai tertinggi ketika jarak
antara pusat dengan data input bernilai nol dan berkurang secara bertahap, dengan
semakin jauhnya jarak. Output akan bernilai 1 jika data input pada pusat fungsi,
tetapi akan terus menurun seiring dengan semakin besarnya jarak antara input dan
pusat, jarak terjauh berarti memi liki nilai 0.
Seperti halnya MLP, RBFNN juga dapat digunakan untuk analisis kasus-
kasus non-linear yang kompleks. RBFNN membutuhkan waktu komputasi yang lebih
lama dibandingkan dengan MLP meskipun menggunakan nilai learning rate dan
arsitektur jaringan yang sama. Namun, algoritma RBFNN dapat memberikan hasil
dengan akurasi yang lebih tinggi dibandingkan algoritma MLP.

C. BAHASA ALAMI (NATURAL LANGUAGE)


Manusia memiliki kemampuan yang jauh lebih baik daripada komputer dalam
mengenali dan memahami kata dan kalimat. Namun, apakah kita dapat membuat
komputer juga memiliki kemampuan yang sama? Pertanyaan ini kemudian menjadi
salah satu motivasi peneliti untuk mengembangkan kemampuan komputer dalam
memahami suatu komunikasi, memahami arti dari suatu kata atau kalimat, dan
membuat suatu kesimpulan berbasis pada kata dan kalimat tersebut.

64
Berdasarkan pada motivasi tersebut kemudian muncullah metode Natural
Language Processing (NLP). NLP adalah satu catu cabang kecerdasan buatan yang
fokus pada proses memahami dan menginterpretasi bahasa manusia. NLP juga
meliputi proses memahami dan menginterpretasi teks dan percakapan. Semua
layanan tersebut memanfaatkan bantuan algoritma NLP. Kini, nilai pasar dari
layanan berbasis NLP dapat mencapai miliar, bahkan triliunan rupiah. Hal ini
dikarenakan layanan NLP banyak digunakan dalam layanan pelanggan, asisten
virtual pribadi, layanan kesehatan, layanan keuangan, dan sebagainya.

Gambar 25. Contoh Natural Language

NLP juga banyak dimanfaatkan untuk memahami konten dan sentimen dari
data media sosial seperti Twitter, komentar pada platform YouTube, ulasan
pengguna di Android Playstore, maupun ulasan pelanggan di marketplace seperti
Tokopedia dan Bukalapak. Analisis seperti ini mungkin dilakukan karena
ketersediaan data yang sangat banyak dari aktivitas dalam jaringan (online). Perlu
dipahami bahwa analisis data akan memberikan hasil yang semakin baik dan
berkualitas jika data latih yang digunakan juga semakin banyak dan berkualitas.

D. ANALISIS KATA DAN SENTIMEN


Analisis kata dan sentimen merupakan salah satu aplikasi dari algoritma NLP
Karena dengan memanfaatkan ulasan dan komentar dari pelanggan kita dapat
memahami bagaimana penerimaan layanan jasa atau produk tertentu. Jika kita
memiliki beberapa atau puluhan ulasan dan komentar, maka kita dapat dengan

65
mudah memahaminya tanpa memerlukan ban tuan komputer. Namun bagaimana
jika jumlahnya mencapai ribuan atau bahkan ratusan ribu ulasan dan komentar.
Implementasi NLP akan menjadi jawabannya. Karena dengan memanfaatkan NLP
kita akan dapat dengan mudah mengetahui hasilnya. apakah ulasan dan komentar
tersebut dominan negatif, positif, atau netral Kemudian, kita dapat mengulangi
analisis yang sama untuk periode yang berbeda. Apakah ditemukan ulasan dan
komentar yang berubah menjadi lebih baik setelah sebelumnya negatif, atau apakah
tidak terjadi perubahan apa pun meskipun perbaikan layanan jasa atau produk telah
dilakukan

E. JENIS NLP
Berdasarkan tujuannya, NLP dapat dibagi menjadi dua, yaitu Natural
Language Understanding (NLU) dan natural language generation (NLG) Sebagian
besar metode machine learning atau data mining, seperti proses klasifikasi teks,
analisis topik, analisis sentimen, dan sebagainya termasuk ke dalam NLU. Terdapat
berbagai macam pendekatan dari NLU untuk melakukan analisis topik dari sebuah
dokumen, seperti Latent Dirichlet Allocation (LDA), Latent Semantic Indexing (LSI).
Pachinko Allocation Machine (PAM). dan sebagainya.
Pendekatan LDA dapat memberikan hasil yang baik untuk analisis topik,
namun hasilnya statis. Artinya kita harus mengulangi semua dari awal jika
menggunakan dokumen yang berbeda Sementara LSI adalah sebuah pendekatan
yang mudah diimplementasikan namun memiliki kemampuan yang rendah jika
mengolah kata dengan komponen huruf yang sama namun memiliki arti yang
berbeda. Hal ini dikenal juga dengan istilah polysemy. Misal, kata "buku" dapat
merujuk kepada lembaran kertas yang berjilid. atau tempat pertemuan dua ruas
pada jari tangan, buluh, atau tebu.

3. Alat Dan Bahan


Alat tulis dan buku refrensi
Strubell, E., Ganesh, A., Anda McCallum, A. (2019). Energi and policy
considerations for deep learning in NLP. Cornell University. https://
arxiv.org/abs/1906.02243

66
4. Langkah Penyelesaian
Permasalahan:
NLP dan AI adalah sebuah kecerdasan buatan yang bisa dikatakan sebagai
kecerdasan buatan yang muncul di abad 21. Berdasarkan hal tersebut, perlu adanya
pengembangan serta perbaikan lebih lanjut oleh para praktisi dan juga peneliti agar
kecerdasan buatan tersebut dapat bekerja secara efisien (optimal, minim biaya serta
tingkat kesalahan lebih rendah). Hal yang bisa ditemui dari permasalah tersebut
ialah: adanya kesalahan pada google voice pada saat digunakan yang tidak
mendeteksi beberapa kalimat sehingga hasil pencarian yang dilakukan menjadi bias
ataupun salah.

Penyelesaian:
Implementasi NLP pada proses bisnis akan menekan biaya. Dibandingkan
dengan menggunakan tenaga manusia lebih efektif menggunakan komputer dalam
melakukan proses terjemahan, analisis sentimen, sistem tanya jawab pada layanan
media sosial, analisis pasar, maupun klasifikasi musik, teks dan dokumen.
Selain lebih murah, implementasi NLP juga lebih cepat dari sisi waktu Misal,
layanan suara pada proses penulisan dokumen menggunakan Google Docs akan
jauh lebih cepat daripada mengetik menggunakan bantuan keyboard. NIP juga kini
mudah diterapkan dengan ketersediaan perangkat lunak yang komersial maupun
yang tidak. Misal, dengan menggunakan bahasa R dan Python peneliti dapat
dengan mudah melakukan analisis NLP berbasis LDA.
Algoritma JST bukanlah sebuah ide baru, hal ini sudah lama muncul dan
dikenalkan oleh peneliti. Saat ini topik mengenai algoritma JST kembali ramai
diperbincangkan oleh khalayak karena varian dan volume data serta permasalahan
modern yang muncul semakin kompleks.
Ketersediaan teknologi dan perkembangan kemampuan komputer juga telah
menyebabkan algoritma JST menjadi semakin populer. Dahulu, amat sulit membuat
dan mengimplementasikan algoritma JST karena membutuhkan waktu komputasi
yang tidak sebentar serta sumber daya komputer yang mumpuni.
Kini, peneliti mampu memanfaatkan algoritma JST, bahkan dengan
spesifikasi komputer yang rendah. Bahkan, proses komputasi juga dapat berjalan di
dalam jaringan dengan bantuan layanan berbasis cloud seperti Jupyter Notebook,
Visual Studio Code (VS Code), nteract, Jupyterlite, dan Google Colaboratory atau
67
lebih dikenal dengan istilah Google Colab.

5. Tugas
1. Apa saja yang termasuk dalam layanan berbasis cloud?
2. Jelaskan perbedaan ANN dan NL?
3. Apa kekurangan dari NL dalam dunia teknologi? Dan menurut anda hal apa
saja yang harus di kembangkan?

68
MODUL VIII
DEEP LEARNING

1. Tujuan
1. Mahasiswa mengetahui Deep Learning
2. Mahasiswa dapat mengidentifikasi Jenis Algoritma Deep Learning
3. Mahasiswa dapat mengimplementasi Deep Learning

2. Landasan Teori
DEEP LEARNING
Deep learning (DL) adalah metode pembelajaran mesin yang berdasarkan
kepada algoritma ANN/JST. Algoritma DL berbasis kepada jaringan saraf yang
berjumlah sangat besar, dengan jumlah lapisan hidden layer yang banyak, dan data
latih yang juga sangat besar, untuk menghasilkan performa akurasi yang jauh lebih
baik.
Algoritma DL sesuai untuk digunakan dengan jenis kasus non-linear Input
pada layer setelahnya adalah output dari layer sebelumaya. Begitu pun halnya
dengan fitur pada tingkat yang lebih tinggi berasal dari fitur pada tingkat yang lebih
rendah. Secara umum, parameter pada algoritma DL tidak jauh berbeda dengan
ANN/JST, seperti jumlah hidden layer, epochs (iterasi), learning rate,
dan uji performa.
Namun, pada algoritma DL penentuan fitur atau proses labelling tidak lagi
membutuhkan keterlibatan manusia atau peneliti sehingga proses ekstraksi fitur
sudah tidak perlu lagi dilakukan secara manual. Misal, komputer akan mengenali
karakteristik yang unik dari pisang dan membuat klasifikasi yang akurat. Komputer
akan secara mandiri dan dinamis melakukan proses ekstraksi dan klasifikasi, peneliti
hanya perlu memberikan data mentah

A. JENIS DEEP LEARNING (DL)


Terdapat literatur terdapat berbagai jenis algoritma DL. yaitu (1) Fully
Connected Networks (FC), (2), Convolutional Neural Networks (CNN). (3) Recurrent
Neural Networks (RNN), dan (4) Generative Adversarial Networks (GAN). Hal ini
sebagaimana dijelaskan berikut ini:

69
1. Fully Connected Networks (FC), adalah jenis algoritma DL. yang paling umum
dan paling sering digunakan untuk mengatasi berbagai kasus non-linear. Pada
algoritma DL dengan jenis FC semua node (neuron) sebelumnya pada layer ke-n
akan saling terhubung dengan neuron (node) setelahnya pada layer ke-n+1
secara keseluruhan begitu sete rusnya sampai pada lapisan (layer) output
Algoritma DI. dengan jenis FC biasa digunakan untuk jenis data tabular.

Gambar 26. Fully Connected Networks

2. Convolutional Neural Networks (CNN) merupakan jenis algoritma DI yang


didesain khusus untuk mengolah data gambar (citra). Aplikasinya seperti
melakukan klasifikasi citra satelit, hasil pindai X-rays, citra tata surya, dan
sebagainya. Algoritma CNN dianggap sebagai salah satu jenis algoritma DL yang
dapat digunakan sebagai alternatif metode karena proses komputasi yang lebih
baik daripada algoritma DL dengan jenis FC.

70
Gambar 27. Convolutional Neural Networks

Algoritma DL dengan jenis CNN ini memiliki kelebihan lainnya, yaitu kemampuan
belajar berdasarkan pada ekstraksi fitur yang tidak perlu dilakukan secara
manual, terutama pada tingkat yang rendah. Namun, hal ini menyebabkan
peneliti sulit menjelaskan sebenarnya apa telah dipelajari oleh sistem. Algoritma
DL dengan jenis CNN ini memiliki arsitektur jaringan yang spesifik, yaitu memiliki
dua lapisan utama. (1) convolution dan (2) pooling. Di mana neuron (node) pada
lapisan ke-n akan berfungsi sebagai input pada lapisan ke-n+1, namun tidak
terhubung secara keseluruhan seperti pada jenis FC. Lapisan (layer) ken+1
hanya terhubung pada sebagian potongan saja dari lapisan ke-n sehingga
dikenal juga dengan istilah receptive field
3. Recurrent Neural Networks (RNN) memiliki karakteristik yang berbeda
dibandingkan dengan dua jenis algoritma DL. sebelumnya. Algoritma DL jenis
RNN ini khusus didesain untuk mengolah data yang berurutan Gequential).
Algoritma DL jenis RNN ini banyak diterapkan pada kasus analisis data berbasis
bahasa alami atau Natural Language Processing (NLP) memperlihatkan adanya
proses yang berulang pada hidden layer. Algoritma RNN sesuai digunakan untuk
analisis yang berbasis suatu konteks atau latar belakang sebelumnya, misal
untuk mengetahui makna suatu kata atau kalimat hanya dapat dianalisis dengan
mengetahui kata atau kalimat sebelumnya.

71
Gambar 28. Recurrent Neural Networks

4. Generative Adversarial Networks (GAN) adalah algoritma DL yang terdiri atas


dua komponen utama, yaitu (1) generator dan (2) discri minator. Komponen
generator berfungsi untuk meng- hasilkan input yang akan diberikan ke
discriminator. Sementara discri minator berfungsi untuk membedakan mana
sampel yang benar dan salah yang telah dibuat oleh generator pada tahap
sebelumnya. Kedua komponen ini saling berhadapan secara konstan. Di mana
generator belajar untuk membuat sampel yang benar untuk meyakinkan discri
minator, sementara discriminator terus bekerja untuk membedakan sampel yang
terbaik yang diberikan oleh generator sehingga meng hasilkan performa akurasi
yang lebih baik. Dengan kata lain, pada algoritma DL jenis GAN, komponen
generator dan discriminator saling berkompetisi untuk menghasilkan data yang
Dengan terbaik. Penerapan algoritma DL jenis GAN seperti pada klasifikau citra
satelit resolusi sangat tinggi tanpa label, menghasilkan gambar tiga dimensi,
menghasilkan musik, menghasilkan artikel berita, simulasi sains pada bidang
astrofisika (simulasi galaksi), simulasi pertumbuhan kota simulasi model iklim dan
cuaca, dan sebagainya yang menggunakan data berukuran sangat besar.

72
Gambar 29. Arsitektur GAN

B. HUBUNGAN ANTARA AI DAN DL


Al atau kecerdasan buatan adalah sebuah teknik yang bertujuan untuk
membuat komputer meniru kemampuan manusia. Termasuk ke dalam Al adalah
pembelajaran mesin (machine learning), natural language processing (NLP), sintesis
bahasa, computer vision, robotika, simulasi dan optimasi.
Sementara machine learning (ML) adalah bagian dari Al yang bertujuan untuk
membuat komputer memiliki kemampuan belajar dari pengalaman sebelumnya dan
meningkatkan kemampuannya dalam bekerja membantu memberikan kemudahan
bagi manusia untuk melakukan klasifikasi dan prediksi dari data yang berukuran
sangat besar. Dalam hal ini yang termasuk ke dalam ML. di antaranya adalah
Support Vector Machines (SVM), pohon keputusan, k-means clustering, regresi,
prediksi, neural networks.
Artificial Neural Network (ANN) atau JST adalah bagian dari MI yang
terinspirasi dari cara otak makhluk hidup bekerja. ANN/JST biasanya terdiri atas
gabungan dari beberapa lapisan, dimana terdapat lapisan input. hulden, dan output.
Setiap lapisan memiliki neuron (node) yang dapat saling terhubung secara penuh
maupun sebagian saja Karena neuron (node) ini dibuat dan ditentukan jumlahnya
oleh peneliti, maka dikenal juga dengan istilah artifical neuron atau saraf tiruan.
Sementara Deep Learning (DL) adalah bagian dari NN/JST yang terdiri atas
banyak sekali lapisan. Beberapa arsitektur dari algoritma DI. seperti, convolutional
neural networks (CNNs), recurrent neural networks (RNNs). generative adversarial
networks (GAN), dan lain sebagainya. Rangkuman terkait hubungan Al dengan DI

73
Gambar 30. Hubungan AI dan DI

C. APLIKASI
Algoritma DL telah banyak diterapkan pada berbagai domain keilmuan dan
kasus Misal, pada kasus klasifikasi citra dan video satelit dengan reso lusi sangat
tinggi, maupun data citra hypersepctral, yaitu data citra yang memiliki ratusan
panjang gelombang. Sementara pada domain keilmuan seperti biologi, ilmu
kesehatan, kedokteran, fisika, dan astronomi, algoritma DL juga telah
banyak dimanfaatkan.
Pada aplikasi yang lebih spesifik seperti pengenalan dan pengolahan teks,
bahasa, dan dokumen, algoritma DL digunakan untuk memahami , sentimen, dan
lain sebagainya dari berbagai macam bahasa di dunia Selain itu, juga algoritma DL
kini dimanfaatkan pada domain keamanan, pola. seperti pengenalan wajah, jenis
kelamin, usia, serta keamanan siber seperti analisis anomali, serangan siber, dan
sebagainya.
Pada domain bisnis, algoritma DL dapat digunakan untuk analisis fraud pada
transaksi kartu kredit, analisis tren pasar seperti fluktuasi harga saham, baik untuk
pemantauan secara berkala maupun prediksi. Sementara itu untuk domain lain
seperti robotika dan permainan, algoritma DL. juga mulai banyak berperan penting.
Misal pada kasus navigasi kendaraan tanpa awak seperti pada pesawat udara
nirawak (PUNA), mobil, motor, bahkan kapal selam.

74
3. Alat dan bahan
Alat tulis dan buku refrensi
Strubell, E., Ganesh, A., Anda McCallum, A. (2019). Energi and policy
considerations for deep learning in NLP. Cornell University. https://
arxiv.org/abs/1906.02243
Sugiyono. (2002). Metode Penelitian Bisnis. Alfabeta, Bandung.
Valdez, A.C., M. Ziefle, and M. Sedlmair. (2018). "A Framework for Studying
Biases in Visualisation Research." In Geoffrey Ellis (ed.), Cognitive Biases in
Visualizations Cham: Springer
Vander Plas, J. (2016). Python data science handbook: Essential tools for
working with data. " O'Reilly Media, Inc.".

4. Langkah Penyelesaian
Permasalahan:
Deep Learning memerlukan data latih dalam jumlah besar untuk menghasilkan
akurasi yang baik, sementara proses menghasilkan data latih membutuhkan waktu
dan biaya yang tidak sedikit Sehingga sering kali proses pembangunan data latih
justru bisa jadi lebih lama dari proses pelatihannya. Pemilihan arsitektur dari
algoritma DL yang akan digunakan pada penelitian menjadi sangat penting karena
ini akan terkait dengan proses pelatihan yang dapat mencapai waktu berminggu-
minggu, bahkan hingga berbulan-bulan. Sementara dengan waktu yang lama
tersebut belum tentu memberikan hasil dengan akurasi yang tinggi.

Penyelesaian:
Algoritma DL merupakan bagian dari machine learning yang bertujuan untuk
melakukan klasifikasi maupun prediksi atas suatu data. Algoritma ini berbasis
jaringan saraf tiruan yang terdiri atas berlapis-lapis layar, dengan berbagai fungsi
yang berjalan di dalamnya. Algoritma DL saat ini semakin populer karena beberapa
hal, seperti: (1) Semakin aplikatif karena kehadiran data latih yang semakin banyak
dan bervariasi; (2) Peningkatan dari infrastruktur komputer yang semakin besar dan
cepat. (3) Akurasi yang semakin baik seiring dengan berjalannya waktu: (4) Dapat
dilakukan dengan berbagai cara, baik supervised, unsupervised, semi-supervised,
maupun reinforcement learning, dan (5) Ketersediaan jasa layanan berbasis cloud
yang dapat diakses dengan mudah oleh siapa pun.
75
5. Tugas
1. Apa pemanfaatan dari AI dan DL?
2. Hal apa yang dapat dikembangkan dari AI dan DL?
3. Jelaskan fungsi AI dan DL pada bidang Kesehatan?

76

Anda mungkin juga menyukai