DAFTAR ISI.....................................................................................................................ii
DAFTAR GAMBAR.......................................................................................................ix
PRAKATA.......................................................................................................................xi
INTRODUKSI BUKU...................................................................................................xiii
BAB 1..............................................................................................................................15
A. Big Data................................................................................................................15
B. Data Science.........................................................................................................24
C. Rangkuman...........................................................................................................33
G. Refleksi...................................................................................................................34
BAB 2..............................................................................................................................36
F. Rangkuman...........................................................................................................40
ii
H. Latihan Soal Praktek.............................................................................................41
J. Refleksi.................................................................................................................41
BAB 3..............................................................................................................................43
D. Rangkuman...........................................................................................................47
H. Refleksi...................................................................................................................48
BAB 4..............................................................................................................................49
C. Rangkuman...........................................................................................................54
G. Refleksi...................................................................................................................55
BAB 5..............................................................................................................................57
A. MySQL.................................................................................................................57
B. Data Base..............................................................................................................62
iii
C. Manfaat Data Base...............................................................................................69
D. Rangkuman...........................................................................................................70
H. Refleksi...................................................................................................................71
BAB 6..............................................................................................................................73
C. Fitur Python..........................................................................................................74
H. Rangkuman...........................................................................................................79
L. Refleksi.................................................................................................................80
BAB 7..............................................................................................................................82
iv
E. Cara jual database agar cepat laku........................................................................84
F. Rangkuman...........................................................................................................86
J. Refleksi.................................................................................................................87
BAB 8..............................................................................................................................88
C. Fungsi...................................................................................................................90
E. Jenis-Jenis.............................................................................................................91
F. Contoh-Contoh.....................................................................................................93
G. Rangkuman...........................................................................................................93
K. Refleksi.................................................................................................................94
BAB 9..............................................................................................................................96
DATA VISUALIZATION..............................................................................................96
A. Definisi.................................................................................................................96
E. Rangkuman.........................................................................................................102
v
F. Latihan Soal Teori..............................................................................................102
I. Refleksi...............................................................................................................102
BAB 10..........................................................................................................................104
A. Definisi...............................................................................................................104
E. Rangkuman.........................................................................................................109
I. Refleksi...............................................................................................................110
BAB 11..........................................................................................................................112
A. Definisi...............................................................................................................112
E. Rangkuman.........................................................................................................115
I. Refleksi...............................................................................................................116
BAB 12..........................................................................................................................118
vi
MODEL EVALUATION, DEPLOYMENT AND FEEDBACK DATA SCIENCE...118
A. Model Evaluation...............................................................................................118
B. Logical................................................................................................................120
C. Penerapan...........................................................................................................122
E. Feedback.............................................................................................................125
J. Refleksi...............................................................................................................126
BAB 13..........................................................................................................................128
D. Rangkuman.........................................................................................................131
H. Refleksi...............................................................................................................132
BAB 14..........................................................................................................................134
D. Contoh................................................................................................................136
E. Rangkuman.........................................................................................................137
vii
F. Latihan Soal Teori..............................................................................................137
I. Refleksi...............................................................................................................138
DAFTAR PUSTAKA....................................................................................................140
BIODATA PENULIS....................................................................................................142
viii
DAFTAR GAMBAR
ix
x
DAFTAR TABEL
xi
PRAKATA
Bismillahirrohmanirrohiim,
Puji Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT yang telah
melimpahkan Rahmat, Taufiq, Hidayah serta Inayah-Nya sehingga penyusun dapat
menyelesaikan buku yang berjudul Buku Data Science Mata Kuliah Data Science. Buku
Data Science Mata Kuliah Data Science ini disusun sebagai salah satu persyaratan
dalam mengikuti dan menjadi tugas Mata Kuliah Data Science pada Program Studi
Teknik Kimia Fakultas Sains dan Teknologi Institut Sains dan Teknologi Al-Kamal.
Shalawat serta salam semoga tetap tercurahkan kepada junjungan kita Nabi
Besar Muhammad SAW, yang telah diutus membawa risalah dan membebaskan umat
islam dari belenggu kebodohan. Dalam penyusunan makalah ini, penyusun telah banyak
menerima arahan, bimbingan, petunjuk, dorongan serta bantuan. Untuk itu, penyusun
mengucapkan banyak terimakasih dengan harapan semoga apa yang telah di berikan
kepada penyusun, mendapatkan balasan yang melimpah dan lebih baik oleh Allah SWT.
Ucapan terimakasih ini penulis haturkan kepada:
1. Bapak Alim Hardiansyah, S.T., M.Kom., selaku dosen Mata Kuliah Data
Science di Institut Sains dan Teknologi Al-Kamal yang telah senantiasa
mencurahkan segala pemikiran dan waktunya untuk memberikan ilmu, arahan
dan bimbingan selama studi.
2. Kedua orang tua yang selalu memberikan dukungan baik moril maupun materiil.
Semoga atas pengorbanan dan kasih sayang beliau berikan mendapat imbalan
yang sebesar-besarnya dari Alloh SWT.
xii
Akhirnya, semoga makalah ini dapat berguna dan membantu penyusun untuk
dapat menuntaskan materi Mata Kuliah Operasi Teknik Kimia 1 yang sedang penyusun
jalani dan mendapatkan nilai yang memuaskan. Aamiin.
Penyusun
xiii
INTRODUKSI BUKU
Mata kuliah ini membahas tentang data science dan aplikasinya yang dapat digunakan
oleh brainware atau penggunanya.
Mahasiswa mampu memahami dan menjelaskan pengenalan Big Data dan Data
Science, Pengenalan Cloud Computing, Metodologi dan Design Thingking Data
Science, Tools Data Science, SQL dan Database, Pengantar Bahasa Pyton, Pemahaman
Data Bisnis, Preparation dan Analisis Data, Data Visualization, Modelling Data
Science, Machine Leraning dan Deep Learning for Data Science, Model Evaluation,
Deployment and Feedback Data Science, Data Privacy Data Science dan Praktikum dan
Studi Kasus.
Materi Pembelajaran
xiv
12. Model Evaluation, Deployment and Feedback Data Science
13. Data Privacy Data Science
14. Praktikum dan Studi Kasus
Buku ajar ini merupakan bahan ajar primer untuk mata kuliah Data Science. Materi di
dalam buku ini terdiri atas teori, pelatihan, penugasan, dan refleksi pembelajaran yang
disampaikan dalam bab-bab pembelajaran. Mahasiswa dapat menggunakan buku ajar
lain sebagai bahan pembelajaran pendamping atau bahan pembelajaran sekunder.
xv
BAB 1
A. Big Data
1. Definisi Big Data
Big data adalah sebuah data elektronik yang sangat besar, yang
mempunyai banyak macam jenis dan data elektronik ini sangat cepat
berubah. Big data saat ini banyak di gunakan orang-orang untuk
membantu kebutuhan. Banyak sekali data yang tersebar dan tersimpan di
komputer-komputer di internet misalnya seperti teks, gambar,video,
suara, animasi, blog, buku, cuaca, GPS, temperatur, dan masih banyak
lagi jenis nya.
16
menjadikannya sulit untuk ditangani atau di proses jika hanya
menggunakan manajemen basis data biasa atau aplikasi pemroses data
tradisional.
Big Data merupakan istilah untuk data elektronik, yang tidak
hanya sangat besar, tapi juga sangat cepat berubah, dan sangat banyak
jenisnya. Big Data menjadi sangat populer di dunia teknologi setelah
miliaran manusia menggunakan internet untuk berbagai kebutuhan.
Sangat banyak data tersimpan di computer komputer dan di internet
berupa teks, gambar, suara, video, animasi, blog, buku, cuaca, posisi
tempat di bumi, suhu, penerbangan, belanja di supermarket, dan lain-
lain. Perusahaan “Super Big” pengguna Big Data, antara lain Facebook,
Google, Twitter, dan Yahoo.
Banyak orang yang menggunakan big data ini untuk mencari
informasi yang sedang populer saat ini, misal nya berita terbaru.
Misalnya facebook, di facebook kita bisa menemui banyak orang,
bahkan teman lama yang sama-sama menggunakan facebook.
Untuk mengolah Big Data menjadi informasi yang lebih berguna,
perlu program “big” yang artinya bukan program “biasa”. Jika data
konvensional selama ini hanya berisi teks dan angka biasa seperti data
keuangan, maka cukup diolah dengan database biasa pula, misal MS
Access, MS SQL Server, dan lain-lain yang selama ini hanya untuk
mengolah data terstruktur. Big Data tidak dapat diolah hanya dengan
program database konvensional yang disebut SQL (Structured Query
Language) atau RDBMS (Relational Database Management System).
Big Data membutuhkan program database yang mendukung NoSQL
(Not only SQL), yang mampu mengolah data tidak terstruktur.
17
maka mereka dapat menerapkan analisis dan mendapatkan
manfaat/informasi yang sangat berharga dari proses analisis tersebut.
Jika kita lihat ke belakang sebelum istilah Big Data dikenal, di
tahun 1950an bisnis pada saat itu sudah menggunakan analisis
konvensional, yang didasarkan pada spreadsheet yang dikaji secara
manual untuk mengungkap informasi berharga dan tren.
Lalu apa yang ditawarkan oleh analisis big data? Benefit analisis
big data di bandingkan dengan analisis konvensional adalah kecepatan
dan efisiensi. Sebelum aplikasi analisis big data muncul, bisnis akan
mengumpulkan data ke dalam data warehouse dari database enterprise
seperti Oracle, DB2, MS SQL Server, kemudian melakukan analisis
untuk membantu pengambilan keputusan yang bermanfaat untuk masa
depan bisnis perusahaan.
Kendala yang dihadapi muncul dengan pertumbuhan data yang
sangat pesat dari berbagai jenis tipe data, sehingga dengan analisis
konvensional ada limitasi untuk dapat menampung data set besar
tersebut, waktu yang relatif lama diperlukan untuk menghasilkan
informasi berharga dari analisis.
Kemunculan teknologi analisis big data memberikan solusi bagi
bisnis untuk mendapatkan hasil analisis segera bahkan real-time
sekalipun, sehingga memberikan bisnis keunggulan dalam berkompetisi.
18
bagaimana mereka menggunakan Big Data. Ia menemukan mereka
mendapatkan manfaat penting sebagai berikut:
a. Penghematan biaya, Teknologi analisis Big data seperti hadoop
dan analisis berbasis cloud membawa pengurangan biaya yang
signifikan dalam hal untuk menyimpan data set dalam jumlah
besar, selain mereka dapat mengidentifikasi cara-cara yang lebih
efisien dalam melakukan bisnis.
b. Lebih cepat dan baik dalam pengambilan keputusan, dengan
kecepatan teknologi big data seperti Hadoop dalam melakukan
analisis dengan dikombinasikan dengan kemampuan untuk
menganalisis berbagai macam sumber data baru, membuat bisnis
mampu menganalisis informasi dengan cepat dan membuat
keputusan berdasarkan hasil analisis tersebut.
c. Melahirkan produk dan pelayanan baru, dengan kemampuan
mengukur kebutuhan dan kepuasan pelanggan mendatangkan
keunggulan dari bisnis untuk menciptakan produk dan layanan
baru yang sesuai dengan keinginan dan kebutuhan dari
pelanggan.
19
ukurannya mungkin bisa sampai zetabyte dan jika hari ini jumlah
data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari
1000 zetabyte.
b. Variety
Volume data yang banyak tersebut bertambah dengan
kecepatan yang begitu cepat sehingga sulit bagi kita untuk
mengelola hal tersebut. Kadang-kadang 2 menit sudah menjadi
terlambat. Untuk proses dalam waktu sensitif seperti
penangkapan penipuan, data yang besar harus digunakan sebagai
aliran ke dalam perusahaan Anda untuk memaksimalkan nilainya.
- Meneliti 5 juta transaksi yang dibuat setiap hari untuk
mengidentifikasi potensi penipuan
- Menganalisis 500 juta detail catatan panggilan setiap hari
secara real-time untuk memprediksi gejolak pelanggan lebih
cepat.
Berbagai jenis data dan sumber data. Variasi adalah
tentang mengelolah kompleksitas beberapa jenis data, termasuk
structured data, unstructured data dan semi-structured data.
Organisasi perlu mengintegrasikan dan menganalisis data dari
array yang kompleks dari kedua sumber informasi Traditional
dan non-traditional informasi, dari dalam dan luar perusahaan.
Dengan begitu banyaknya sensor, perangkat pintar (smart device)
dan teknologi kolaborasi sosial, data yang dihasilkan dalam
bentuk yang tak terhitung jumlahnya, termasuk text, web data,
tweet, sensor data, audio, video, click stream, log file dan banyak
lagi.
c. Velocity
Big Data adalah setiap jenis data – data baik yang
terstruktur maupun tidak terstruktur seperti teks, data sensor,
audio, video, klik stream, file log dan banyak lagi. Wawasan baru
ditemukan ketika menganalisis kedua jenis data ini bersama-
sama.
20
- Memantau 100 video masukan langsung dari kamera
pengintai untuk menargetkan tempat tujuan.
- Mengeksploitasi 80% perkembangan data dalam gambar,
video, dan dokumen untuk meningkatkan kepuasan
pelanggan.
Kecepatan di mana data dibuat, diolah dan dianalisis terus
menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah
sifat penciptaan data secara real-time, serta kebutuhan untuk
memasukkan streaming data ke dalam proses bisnis dan dalam
pengambilan keputusan.
Dampak Velocity latency, jeda waktu antara saat data dibuat
atau data yang ditangkap, dan ketika itu juga dapat diakses. Hari
ini, data terus-menerus dihasilkan pada kecepatan yang mustahil
untuk sistem tradisional untuk menangkap, menyimpan dan
menganalisis. Jenis tertentu dari data harus dianalisis secara real
time untuk menjadi nilai bagi bisnis.
Untuk mendalami Big Data, program dan istilah berikut ini
perlu dipelajari, meskipun tidak harus semuanya, yakni sistem
operasi Linux, Apache Hadoop, Apache HBase, MongoDB,
MapReduce, HDFS (Hadoop Distributed File System), bahasa
pemrograman Java, Hive, Pig, Python, R, dan Cloud. Teknologi
Cloud dibutuhkan karena Big Data perlu didukung server yang
kuat dengan tempat penyimpanan besar dan mudah
dikembangkan. Cloud telah lebih dahulu berkembang dan
tersedia luas dengan biaya lebih murah daripada tidak
menggunakan Cloud.
21
Random sampling pada Small Data sebenarnya adalah
alternatif dari mengumpulkan dan menganalisis dataset penuh,
karena keterbatasan teknologi dan kapasitas penyimpanan.
Kelemahannya adalah sampling membutuhkan perencanaan dan
eksekusi yang hati-hati serta bekerja dalam subset membantu
perusahaan meadapat apa yang dicari lebih cepat dan murah
tetapi melewatkan pertanyaan yang tidak terpikirkan sebelumnya.
Big Data sebagai meruapakan keseluruhan informasi,
namun ukurannya data sendiri tidak melulu besar. Contahnya saat
terngukapnya kecurangan pertandingan sumo di Jepang. Data
yang digunakan bukan sampel, tapi N=all. Setelah
mengumpulkan data 64.000 pertandingan selama 11 tahun
terakhir, ternyata data tersebut hanya berukura sama dengan file
foto digital. Dengan prisip N=all diperoleh suatu pola yang
menunjukan baha pesumo yang lebih membutuhkan kemenangan
memiliki peluang 25% lebih besar untuk menang.
b) Berantakan (Messy)
Big data meciptakan dataset yang lebih berantakan,
namun mampu memberikan gamberab yang lebih menyeluruh,
meskipun tidak terstruktur. Contohnya Google Translate,
perusahaan yang bermarkas di Mountain View, California, AS ini
mengumpulkan seluruh dokumen dengan terjemahan yang
mereka bisa kumpulkan dengan kualitas yang berbeda-beda. Data
yang dikumpulkan memang berantakan namun terjemahan yang
dihasilkan lebih akurat daripada sistem yang lebih berdasarkan
alogaritma, dan jauh lebih kaya (meliputi 60 bahasa).
c) Korelasi
Big Data sering memprediksi berdasarkan korelasi,
ketimbang hungungan sebeb akibat. Contoh, pada awalnya
Amazon.com mengandalkan review dari suatu tim ahli “The
Amazon Voice”. Kemudian mereka menggunakan rekomendasi
yang dihasilkan dari personalisasi penjualan produk (pelangga
22
yang memberi produk A cenderung membeli produk B maka juka
pelanggan lain membeli produk A, Amazon akan
merekomendasikan produk B). Kini sepertiga penjualan Amazon
diperoleh dari penawaran produk ke user dari hasil rekomendasi
berdasarkan personalisasi.
d) Datafikasi
Mendatafikasi suatu fenomena adalah menyimpannya
dalam format yang terkuantifikasi agar bisa ditabulasi dan
dianalisis serta menangkap informasi dan menyimpannya dalam
format data yang memudahkannya untuk digunakan kembali.
Memindahkan data ke bentuk digital belum tentu mendatafikasi.
e) Value
Mengumpulkan data adalah hal yang krusial namun tidak
cukup karena kebanyakan nilai dari data terletak pada
penggunaan, bukan kepemilikan. Dalam era Big Data, seluruh
data akan dianggap berharga, bahkan data paling menda dan
sepele. Tidak seperti sumber daya lain, nilai data tidak berkurang
setelah digunakan. Biaya petimpanan digital telah berkurang
setengahnya setiap dua tahun, sementara storage density
meningkat 50 juta kali dalam 50 tahun terakhir.
23
- Mendukung/mengganti keputusan manusia dengan algoritma
yang otomatiskan: Analisa dengan bantuan algotritma dapat
meningkatkan pengambilan keputusan, meminimalkan resiko,
dan menggali wawasan yang berharga, yang dapat dilakukan
secara otomatis. Meskipun keputusannya belum otomatis.
- Mengaktifkan eksperimentasi: karena pembuatan dan
penyimpanan transaksi dalam bentuk digital,
organisasi/perusahaan dapat mengumpulkan data lebih akurat dan
kinerja yang lebih terperinci.
- Kecepatan (bukan volume) yang mendorong dampak dari Big
Data: Real time data merupakan kecenderungan tipe data yang
terjadi dan dihadapi oleh perusahaan saat ini. Kecepatan data
yang dolah dengan platform real time analytic akan menghasilkan
informasi yang cepat serta mendukung pengambilan keputusan
yang cepat.
24
yang terus menerus mengalir. Bahkan, juga mencakup data-data
tak hanya data yang berada diinternal perusahaan, tetapi juga
data-data diluar perusahaan seperti data-data diinternet. Begitu
beragamnya jenis data yang dicakup dalam big data inilah yang
kiranya dapat dijadikan patokan untuk membedakan big data
dengan system manajemen data pada umumnya.
2) Focus pada trend individu, kecepatan lebih utama pada ketepatan
Hingga saat ini, pendayagunaan big data didominanasi
oleh perusahaan-perusahaan jasa berbasis internet seperti halnya
Google dan Facebook. Data yang mereka berdayakan pun
bukanlah data-data internal perusahaan seperti halnya data -data
penjualan maupun data pelanggan, lebih menitik beratkan pada
pengolahan data-data teks dan gambar yang berada diinternet.
Bila kita melihat gaya pemberdayaan data yang dilakukan oleh
perusahaan-perusahaan pada umunya yang dicari adalah trend
yang didapat dari pengolahan data secara keseluruhan. Misalnya,
dari data konsumen akan didapat informasi tentang trend
konsumen dengan memproses data konsumen secara keseluruhan,
bukan memproses data per-konsumen untuk mendapatkan trend
per-konsumen.
Dilain pihak, perusahaan-perusahaan jasa berbasis internet
yang memanfaatkan big data justru memfokuskan pemberdayaan
daya untuk mendapatkan informasi trend per-konsumen dengan
memanfaatkan atribut-atribut yang melekat pada pribadi tiap
konsumen. Sebut saja took online Amazon yang memanfaatkan
informasi maupun atribut yang melekat pada diri per-konsumen,
untuk memberikan rekomendasi yang sesuai kepada tiap
konsumen. Satu lagi, pemberdayaan data ala big data ini dapat
dikatakan lebih berfokus pada kecepatan ketimbang kecepatan.
B. Data Science
1. Definisi Data Science
25
Menurut Chikio Hayashi dari Institut Statistika Matematika
Sakuragaoka, pengertian data science adalah ilmu pengetahuan
interdisiplin tentang metode komputasi untuk mendapatkan wawasan
berharga yang dapat ditindaklanjuti dari kumpulan data yang mencakup
tiga fase yaitu desain data, mengumpulkan data, dan analisis data.
Sebagai ilmu interdisiplin, data science mempunyai definisi yang
berbeda-beda dari akademisi maupun praktisi yang berkecimpung di
dalamnya.
26
keahlian yang semakin penting di dekade yang akan datang. Tentu saja,
orang yang memiliki pemahaman data science yang baik akan menjadi
berharga dan banyak dicari.
Data science atau ilmu data merupakan ilmu terapan baru yang
perkembangannya dituntut oleh meningkatnya penggunaan teknologi
secara signifikan. Data science digunakan oleh perusahaan maupun
instansi tertentu untuk melakukan analisis data yang tidak bisa dilakukan
dengan metode sederhana. Misalkan marketplace Tokopedia
memerlukan suatu pengetahuan yang dapat melakukan analisis data
penjual dan pembeli di platform mereka. Tentunya, data yang mereka
punyai setiap detiknya terus berubah atau bertambah. Sehingga
diperlukan suatu metode komputasi untuk mengambil data tersebut serta
melakukan perhitungan yang dapat menganalisis informasi pada data
tersebut. Disinilah peran data science dalam pemenuhan kebutuhan suatu
perusahaan atau instansi.
27
pengetahuan. Menurut Staven Geringer Raleigh (2014), pembentuk data
science atau ilmu data dapat diilustrasikan dalam diagram venn berikut.
28
untuk beroperasi sehingga dapat dibuat (develop) suatu sistem
yang dapat membantu bisnis atau instansi tersebut. Penerapan
traditional software hampir digunakan oleh seluruh instansi
pemerintahan maupun bisnis, contohnya e-learning, e-library,
online banking, Point of Sales (PoS), dan lain-lain.
- Traditional Research
Traditional research merupakan irisan dari ilmu
matematika dan statistika dengan SME (Subject Matter
Expertise). Traditional research hampir digunakan berbagai
perusahaan, instansi serta universitas. Penelitian-penelitian yang
dilakukan umumnya menggunakan traditional research.
Dari ketiga bidang ilmu tersebut, terbentuklah data science
sebagai disiplin ilmu baru yang dapat memenuhi kebutuhan analisis data
menggunakan kecerdasan komputer.
29
analitik dengan dasar matematika. Untuk membuatnya,
dibutuhkan pemahaman matematika yang mendalam.
Contohnya, algoritma untuk merancang machine
learning sebagai salah satu aplikasi ilmu data science sangat lekat
dengan matematika. Statistik untuk data science adalah hal yang
tak kalah penting. Tidak hanya mengerti statistika klasik,
seorang data scientist juga perlu memahami statistika Bayes.
c. Teknologi
Tentu saja, data science tidak bisa lepas dari teknologi
dan kreativitas serta kecerdasan dalam menggunakan keahlian
teknis untuk menyelesaikan suatu permasalahan. Data
science adalah keilmuan yang menggunakan data dalam jumlah
besar dan algoritma yang rumit, sehingga butuh keahlian ilmu
komputer yang mendalam.
Seorang data scientist perlu menguasai Bahasa
pemprograman seperti SQL, Phyton, R, SAS, Java, Scala, Julia,
dan masih banyak lagi. Seorang data scientist harus mampu
berpikir layaknya algoritma dalam memecahkan permasalahan
yang paling sulit sekalipun.
30
dibutuhkan kemahiran bermacam-macam sesuai dengan tipe dan
ukuran file yang didapatkan.
- Scrub
Setelah data dikumpulkan, hal selanjutnya yang harus
dilakukan dalam tahap proses data science adalah scrubbing data.
Scrubbing data adalah proses pembersihan atau filter data. Jika
ada data yang tidak penting atau tidak relevan, harus
disingkirkan.
Pada tahap ini, dilakukan juga standardisasi format data. Dari
format bermacam-macam di tahap pertama, seluruh data
dikonversi ke satu format yang sama. Setelah itu, jika ada data
yang kurang atau hilang, harus dilakukan penyesuaian agar dapat
diproses.
Proses scrubbing juga meliputi penyatuan dan pemisahan
kategori data tergantung kebutuhan. Pada dasarnya,
tahap scrubbing merupakan proses mengatur, merapikan data,
serta membuang apa pun yang tidak diperlukan, dan mengganti
data yang hilang serta menstandardisasi seluruh formatnya.
- Explore
Pada tahap ini, penggalian dan pemeriksaan data
dilakukan. Pertama-tama, semua data harus diperiksa propertinya,
karena tipe data yang berbeda memerlukan perlakuan yang
berbeda pula. Kemudian, statistik deskriptif harus dihitung untuk
dapat mengekstrak fitur dan menguji variabel yang signifikan.
Terakhir, visualisasi data digunakan untuk mengidentifikasi pola
dan tren signifikan dalam data yang sudah kamu dapatkan.
Dengan begitu, bisa diperoleh gambaran yang lebih jelas dengan
grafik agar pentingnya data dapat lebih dipahami.
- Model
Setelah memastikan tahap scrub dan explore sudah
dilakukan maksimal, maka kamu dapat lanjut ke tahap data
science selanjutnya, yaitu model. Pada tahap ini, dibuat model
31
data untuk mencapai tujuan yang diinginkan. Pada tahap ini,
digunakan regresi dan prediksi untuk memperkirakan nilai di
waktu mendatang serta melakukan klasifikasi dan
pengelompokan grup nilai dari data.
- Interpretasi
Tahap terakhir dalam proses data science adalah
interpretasi data. Interpretasi data adalah proses penting di mana
dilakukan interpretasi model dan data. Output dari pengolahan
data yang diinterpretasi harus bisa dipahami oleh orang-orang
awam yang tidak mengerti istilah teknis. Presentasinya bertujuan
untuk menjawab persoalan bisnis berdasarkan data yang
diperoleh. Pada tahap interpretasi data, kemampuan komunikasi
yang baik juga sangat dibutuhkan untuk menyampaikan poin-
poin pentingnya secara efektif pada semua orang yang
berkepentingan.
32
menemukan bahwa mereka dapat memetakan wabah flu
secara real time dengan melacak data lokasi pada pencarian
terkait flu. Peta dari CDC (Centers for Disease Control and
Prevention) yang ada dari kasus flu yang didokumentasikan,
FluView, diperbarui hanya sekali seminggu. Hasilnya, Google
dengan cepat meluncurkan alat pesaing dengan pembaruan berita
yang lebih up-to-date, yakni Google Flu Trends.
- Bidang finansial
Contoh penerapan data science berikutnya adalah untuk
keperluan fraud detection pada bidang finansial. Kebanyakan
bank dan perusahaan berbasis finance kini menggunakan data
science untuk mengklasifikasikan, mengelompokkan, dan
menyegmentasikan data yang mungkin menandakan pola
penipuan. Hal ini diperlukan guna menghindari terjadinya proses
kriminalisasi berkelanjutan di dalam sistem milik perusahaan.
Sistem pakar dalam perusahaan finansial juga bisa mengkodekan
data yang mampu mendeteksi penipuan dalam bentuk-bentuk
yang tak terduga.
- Bidang olahraga professional
Siapa sangkah bahwa ternyata data science memiliki
imbas yang cukup besar bagi dunia olahraga profesional. Ya,
ilmu satu ini ternyata sering digunakan untuk keperluan
rekrutmen pemain muda yang berpotensi menjadi bintang. Salah
satu contoh penerapannya adalah pada tim baseball Oakland
Athletics. Mereka menggunakan statistik dalam gim yang sering
diabaikan tim lain untuk memprediksi potensi pemain dan
membentuk tim yang kuat dengan harga murah.
- Bidang e-commerce
Contoh terakhir penerapan data science adalah pada
bidang e-commerce untuk berbagai keperluan dynamic pricing.
Penetapan harga ini dibentuk oleh suatu perusahaan e-
commerce untuk menyegmentasikan pelanggan atau konsumen
33
secara tepat. Dynamic pricing ini juga diperlukan agar setiap
kelompok pelanggan dapat ditawari produk dengan harga yang
sesuai dengan kebutuhan mereka. Penghitungan dynamic
pricing pada suatu perusahaan biasanya melihat dari berbagai
macam kategori data, seperti lead time, review properti, dan
fasilitas yang disediakan produk.
C. Rangkuman
1. Big Data merupakan data elektronik mempunyai banyak sekali macam
nya. Dengan menggukan Big Data ini maka kita tidak ketinggalan
informasi, mulai dari informasi yang terbaru maupun yang sudah
lampau. Big Data ini juga sangat bermanfaat bagi kehidupan sehari-hari.
2. Alasan pentingnya Big Data adalah membantu organisasi memanfaatkan
data dan menggunakannya untuk mengidentifikasi peluang-peluang baru.
Yang pada gilirannya menyebabkan bisnis bergerak lebih cerdas dan
cepat karena didukung oleh operasional yang lebih efisien, yang pada
akhirnya mendatangkan keuntungan yang lebih tinggi dan pelanggan
lebih senang tentunya.
3. Karakteristik big data ada 5 yaitu: Data lebih banyak, berantakan,
korelasi, datafikasi dan value
4. Data science merupakan ilmu yang menggabungkan sebuah kemahiran di
bidang ilmu tertentu dengan keahlian pemrograman, matematika, dan
statistik. Tujuannya adalah untuk mengekstrak sebuah pengetahuan atau
informasi dari data.
5. Disiplin ilmu dari data science terbagi menjadi 3 yaitu, machine learning,
traditional software dan traditional research
6. Tiga pilar dari data science adalah, bisnis, matematika dan statistika, dan
teknologi.
7. Tahapan-tahapan proses data science dapat dikatakan sebagai lima poin
OSMEN yaitu, Obtain, Scrub, Model dan Interpretasi
34
2. Apa alasan pentingnya sebuah Big Data?
3. Sebutkan dan jelaskan karakteristik sebuah Big Data?
4. Sebutkan dan jelaskan 3 pilar dalam Data Science!
5. Sebutkan langkah-langkah atau proses dari Data Science?
6. Sebutkan penerapan-penerapan data science!
G. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
35
tersebut:
36
BAB 2
37
Saat ini, konsep komputasi awan ini makin sering digunakan seiring
kebutuhan pengguna untuk melakukan pekerjaan secara online. Contoh cloud
computing yang umum digunakan adalah layanan penyimpanan file seperti
Google Drive atau aplikasi pengolah kata seperti Google Docs. Kedua layanan
tersebut memungkinkan Anda untuk menyimpan dan mengakses data melalui
internet. Tak hanya untuk penggunaan umum, komputasi cloud juga bisa
digunakan secara khusus oleh perusahaan dan organisasi untuk kebutuhan
internal. Misalnya, untuk menyimpan dan mengolah data perusahaan yang
biasanya mengandalkan sebuah data center, baik dikelola sendiri atau menyewa
dari layanan pihak ketiga.
38
mengedit sebuah dokumen yang sama di lokasi yang berbeda. Jadi, lebih
mendukung untuk Anda yang sedang bekerja dari rumah (WFH), kan?
Bahkan, perubahan pada dokumen tersebut otomatis tersimpan dan bisa
dilihat secara langsung (real time), jadi rekan Anda selalu mendapatkan
versi terkini saat itu juga.
Kalau menggunakan aplikasi di komputer, pekerjaan Anda dan rekan
tidak sepraktis itu. Rekan Anda harus meminta dokumen yang Anda buat
atau bekerja di satu tempat yang sama untuk mendapatkan versi
terbarunya.
4. Menyediakan Sarana yang Selalu Up to Date
Hardware dan software terbaru umumnya menawarkan
kemampuan yang lebih baik. Sebagai contoh, prosesor terbaru, tentu
akan memiliki performa yang lebih cepat dan efisien dari pendahulunya.
Sayangnya, memperbarui hardware dan software tidak murah. Selain itu,
Anda perlu menyisihkan waktu untuk instalasinya. Beda halnya jika
Anda menggunakan cloud computing. Penyedia layanan komputasi
cloud selalu memperbarui semua sarananya agar pengguna mendapatkan
manfaat maksimal.
39
Berbeda dengan SaaS yang berupa aplikasi siap pakai, IaaS
merupakan rangkaian sumber daya komputasi atau server. Server IaaS
tersedia dalam spesifikasi yang berbeda-beda, jadi pengguna bisa
memilih yang sesuai kebutuhannya. Umumnya, pengguna juga boleh
memilih sistem operasi dan jenis virtualisasi untuk server mereka.Tanpa
IaaS, pengguna harus membuat server sendiri. Ini tentunya mahal dan
repot, terutama saat pengguna perlu menambah sumber daya untuk
servernya.
Nah, karena fleksibilitas dan sumber daya yang ditawarkan IaaS,
umumnya layanan tersebut ditujukan kepada perusahaan. Contoh
penyedia layanan ini adalah Amazon Web Service dan Microsoft Azure.
- Platform-as-a-Service (PaaS)
Jenis cloud computing ini menyediakan platform bagi developer
untuk menciptakan dan mengujicoba aplikasi secara online. Sumber daya
dan sistem operasi platform dikelola oleh penyedia, sehingga developer
tidak perlu memusingkan perangkat untuk pekerjaan mereka.
40
E. Keuntungan Menggunakan Cloud Computing
Cloud computing bukan sekadar bisa mengakses file secara remote.
Berkat cloud computing, penggunanya dapat mengecek email di komputer mana
pun, atau bahkan menyimpan serta mengakses file dari mana pun seperti
Dropbox atau Google Drive.
Maka itu, perusahaan-perusahaan yang menggunakan cloud dapat
memangkas biaya secara signifikan. Sebelum adanya cloud, perusahaan harus
membeli, memiliki, membangun manajemen informasi teknologi (IT) mereka
sendiri. Sebaliknya, dengan adanya cloud, perusahaan hanya membutuhkan
pusat server dan divisi IT agar memastikan internet yang dimiliki cepat dan
stabil, agar karyawannya bisa berinteraksi dengan cloud secara online.
Cloud membuat para karyawan bisa menghemat ruang penyimpanan di
laptop atau komputer. Saat ada perangkat lunak atau program yang
membutuhkan update, tinggal download saja tanpa menggunakan cara
tradisional seperti menggunakan disc atau flash drive. Contohnya Adobe,
penggunanya bisa mengakses aplikasi melalui Cretive Cloud dengan
model subscription. Ini memungkinkan penggunanya mengunduh versi terbaru
dan memperbaiki program lebih mudah.
41
F. Rangkuman
1. Komputasi awan adalah gabungan pemanfaatan teknologi komputer dan
pengembangan berbasis Internet. Awan adalah metafora dari internet,
sebagaimana awan yang sering digambarkan di diagram jaringan komputer.
J. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesepuluh ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
42
2. Apakah anda memahami latihan soal tersebut? YA TIDAK
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
43
BAB 3
44
langsung terlihat dengan tingkat awal pemahaman kita. Pada saat yang sama,
Design Thinking menyediakan pendekatan berbasis solusi untuk menyelesaikan
masalah. Ini adalah cara berpikir dan bekerja serta kumpulan metode langsung.
Design Thinking berputar di sekitar minat yang mendalam dalam
mengembangkan pemahaman dari orang-orang yang menjadi tujuan
perancangan produk atau layanan. Hal ini membantu kita mengamati dan
mengembangkan empati dengan target pengguna. Design Thinking membantu
kita dalam proses bertanya: mempertanyakan masalah, mempertanyakan asumsi,
dan mempertanyakan keterkaitannya. Design Thinking sangat berguna dalam
mengatasi masalah-masalah yang tidak jelas atau tidak dikenal, dengan
melakukan reframing masalah dengan cara-cara yang berpusat pada manusia,
menciptakan banyak ide dalam brainstorming, dan mengadopsi pendekatan
langsung dalam pembuatan prototype dan testing. Design Thinking juga
melibatkan eksperimen yang sedang berjalan: membuat sketsa,
membuat prototype, testing, dan mencoba berbagai konsep dan ide.
45
menganalisis pengamatan dan mensistesisnya untuk menentukan masalah
inti yang telah diidentifikasi. Kita harus berusaha menidentifikasi
masalah sebagai pernyataan masalah dengan cara yang berpusat pada
manusia.
Sebagai ilustrasi, alih-alih mengidentifikasi masalah sebagai
keinginan atau kebutuhan perusahaan seperti, “Kita perlu meningkatkan
pangsa pasar produk makanan diantara remaja perempuan sebesar 5%,”
cara yang lebih baik untuk mendafinisikan masalah adalah jadilah,
“Gadis remaja perlu makan makanan bergizi agar dapat berkembang,
menjadi sehat dan tumbuh.”
Tahap Define akan membantu para desainer dalam sebuah tim untuk
mengumpulkan ide-ide hebat untuk membangun fitur, fungsi, dan
elemen lain yang akan memungkinkan mereka untuk menyelesaikan
masalah atau, paling tidak, memungkinkan pengguna untuk
menyelesaikan masalah sendiri dengan tingkat kesulitan minimal.
3. Ideate
Selama tahap ketiga dari proses Design Thinking, desainer siap
untuk mulai menghasilkan ide. Kita telah tumbuh untuk memahami
pengguna dan kebutuhan mereka di tahap Empathize, dan kita telah
menganalisis dan mensistesis pengamatan Anda di tahap Define, dan
berakhir dengan pernyataan masalah yang berpusat pada manusia.
Dengan latar belakang yang kuat, kita dan anggota tim dapat mulai
“berpikir di luar kotak” untuk mengidentifikasi solusi baru untuk
pernyataan masalah yang dibuat, dan kita dapat mulai mencari cara
alternatif untuk melihat masalah.
Ada ratusan teknik Ideation seperti Brainstorm, Brainwrite,
Worst Possible Idea, dan SCRAMPER. Sesi Brainstorm dan Worst
Possible Idea biasanya digunakan untuk merangsang pemikiran bebas
dan untuk memperluas ruang masalah. Penting untuk mendapatkan
sebanyak mungkin ide atau solusi masalah. Kita harus memilih beberapa
teknik Ideation lainnya pada akhir fase Ideation untuk membantu kita
menyelidiki dan menguji ide-ide kita sehingga kita dapat menemukan
46
cara terbaik untuk memecahkan masalah atau menyediakan elemen-
elemen yang diperlukan untuk menghindarinya.
4. Prototype
Tim desain akan menghasilkan sejumlah versi produk yang
murah dan diperkecil atau fitur spesifik yang ditemukan dalam produk,
sehingga mereka dapat menyelidiki solusi masalah yang dihasilkan pada
tahap sebelumnya. Prototype dapat dibagikan dan diuji dalam tim itu
sendiri, di departemen lain, atau pada sekelompok kecil orang diluar tim
desain. Ini adalah fase eksperimental, dan tujuannya adalah untuk
mengidentifikasi solusi terbaik untuk setiap masalah yang diidentifikasi
selama tiga tahap pertama. Solusi diimplementasikan dalam prototype,
dan satu per satu, mereka diselidiki dan diterima, diperbaiki dan
diperiksa ulang, dan ditolak berdasarkan pengalaman pengguna.
Pada akhir tahap ini, tim desain akan memiliki gagasan yang lebih baik
tentang kendala yang melekat pada produk dan masalah yang ada, dan
memiliki pandangan yang lebih jelas tentang bagaimana pengguna yang
sebenarnya akan berperilaku, berpikir, dan rasakan ketika berinteraksi
dengan bagian akhir produk.
5. Test
Desainer menguji produk lengkap secara ketat menggunakan solusi
terbaik yang diidentifikasi selama fase prototyping. Ini adalah tahap
akhir dari design thinking, tetapi dalam proses berulang, hasil yang
dihasilkan selama fase testing sering digunakan untuk mendefinikan
kembali satu atau lebih masalah dan menginformasi pemahaman
pengguna, kondisi penggunaan, bagaimana orang berpikir, berperilaku,
dan merasakan, dan berempati. Bahkan selama fase ini, perubahan dan
penyempurnaan dilakukan untuk menyingkirkan solusi masalah dan
memperoleh pemahaman sedalam mungkin terhadap produk dan
penggunanya.
47
C. Contoh Penerapan Metodologi dan Design Thinking Data Science
Contoh Design Thinking yang diterapkan dalam skala besar dapat dilihat
di Estonia, negara pasca-Soviet. Proyek Estonia dikenal sebagai e-Estonia,
sebuah rencana revolusioner yang berpotensi untuk mengubah negara dari
negara tradisional menjadi masyarakat digital masa depan. Apa yang ingin
dilakukan e-Estonia adalah menghubungkan semua untaian negara – baik itu
pemungutan suara, layanan kesehatan, pajak, pendidikan, kepolisian dan
sebagainya – pada satu platform. Hal ini akan merampingkan aspek besar
kehidupan orang. Misalnya, menghilangkan kebutuhan untuk mengisi formulir
yang tak terhitung jumlahnya sehingga satu lembaga-katakanlah, bank – dapat
mengakses informasi Anda dari yang lain – seperti kantor pajak. Pada dasarnya,
semua proses birokrasi dapat diselesaikan secara online, memungkinkan warga
negara untuk menjalani hidup mereka tanpa repot. Bayangkan bisa
menghabiskan waktu berharga bersama teman atau keluarga alih-alih pergi ke
TPS?
D. Rangkuman
6. Metodologi data science adalah langkah-langkah digunakan dalam
proyek data science agar dapat menghasilkan hasil yang optimal yang
dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan.
Metodologi ini tidak bergantung pada teknologi atau tools.
8. Design Thinking adalah proses berulang dimana kita berusaha
memahami pengguna, menantang asumsi, dan mendefinisikan kembali
masalah dalam upaya mengidentifikasi strategi dan solusi alternatif yang
mungkin tidak langsung terlihat dengan tingkat awal pemahaman kita
9. Tahapan dalam proses Metodologi dan Design Thinking Data Science
terbagi menjadi 5 tahap yaitu, empathis, define, ideate, prototype dan test
48
8. Sebutkan langkah-langkah atau proses dari Metodologi dan Design
Thinking Data Science!
9. Sebutkan penerapan-penerapan dari Metodologi dan Design Thinking
Data Science!
H. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
49
tersebut:
BAB 4
50
Kemudian tools untuk memvisualisasikan data berbeda lagi banyak
developer yang menggunakan ggplot2, matplotlib, tableau, dan powerBI. Selain
tools-tools di atas, microsoft excel juga cukup powerful untuk melakukan
pengolahan data skala menengah dan sekaligus memvisualisasikannya dalam
bentuk chart atau grafik yang interaktif.
51
seperti Cassandra, HDFS, HBase, dan S3. Tools ini juga dapat dengan
mudah menangani set data yang besar. Keuntungan :
o Lebih dari 80 operator tingkat tinggi menyederhanakan proses
pembuatan aplikasi parallel
o Dapat digunakan secara interaktif dari Scale, Python dan R
o Mesin eksekusi DAG tingkat lanjut mendukung komputasi dalam
memori dan aliran data acyclic
4. BigML
Tools ini adalah salah satu tools terbaik data science lainnya yang
menyediakan hubungan antara pengguna dengan lingkungan GUI
berbasis cloud sehingga dapat berinteraksi sepenuhnya dan ideal untuk
memproses algoritme ML. Kita dapat membuat akun gratis atau
premium tergantung pada kebutuhan Kita, dan interface web yang mudah
digunakan. Keuntungan :
o Sumber daya yang terjangkau untuk membangun solusi machine
learning yang kompleks
o Mengambil pola data prediktif dan mengubahnya menjadi
aplikasi cerdas dan praktis yang dapat digunakan oleh siapa saja
o Tools ini dapat berjalan di cloud atau on premise
5. D3.js
D3.js adalah library JavaScript yang bersifat open-source sehingga
memungkinkan Kita untuk membuat visualisasi interaktif di browser
web Kita. Tools ini menekankan standar versi web untuk mengambil
keuntungan secara penuh dari semua fitur yang tersedia di browser
modern, tanpa terganggu dengan kerangka kerja yang rumit.
Keuntungan :
o D3.js berbasis pada JavaScript yang sangat populer saat ini
o Ideal untuk interaksi Internet of Things (IoT) sisi klien
o Berguna untuk membuat visualisasi interaktif
6. Data Robot
Tools ini digambarkan sebagai platform yang canggih untuk
otomatiasi machine learning. Data scientist, eksekutif, profesional IT,
52
dan engineer perangkat lunak menggunakannya untuk membantu mereka
membangun model prediktif dengan kualitas yang lebih baik serta dapat
melakukannya lebih cepat. Keuntungan :
o Hanya dengan satu klik atau baris kode, Kita dapat melatih,
menguji, dan membandingkan banyak model yang berbeda
o Tools ini tersedia untuk fitur pengembangan Python SDK
dan API
o Muncul dengan proses model deployment yang sederhana
7. Excel
Excel sampai saat ini masih menjadi salah satu tools terpopuler data
science. Awalnya dikembangkan oleh Microsoft untuk perhitungan
spreadsheet namun telah digunakan secara luas sebagai alat untuk
pemrosesan data, visualisasi, dan perhitungan yang canggih. Keuntungan
:
o Kita bisa mengurutkan dan memfilter data Kita dengan satu klik
o Fungsi Advance Filtering memungkinkan Kita memfilter data
berdasarkan kriteria favorit Kita
o Tools ini terkenal dan ditemukan di mana-mana
8. ForecastThis
Jika Kita seorang data scientist yang menginginkan pemilihan model
prediktif otomatis, maka ini adalah tools yang sangat cocok untuk kita
gunakan. ForecastThis membantu manajer investasi, data scientist, dan
analis kuantitatif untuk menggunakan data in-house mereka untuk
mengoptimalkan tujuan masa depan yang kompleks dan menciptakan
perkiraan yang kuat. Keuntungan :
o Mudah diskalakan agar sesuai dengan tantangan ukuran apa pun
o Termasuk algoritma pengoptimalan yang kuat
o Spreadsheet sederhana dan plugin API
9. Google BigQuery
Tools ini adalah tools data warehouse yang bersifat serverless
sehingga dapat diskalakan untuk pembuatan analisa data produktif. Tools
ini menggunakan kekuatan pemrosesan berbasis infrastruktur Google
53
untuk menjalankan kueri SQL super cepat terhadap tabel yang
ditambahkan. Keuntungan :
o Sangat cepat
o Menjaga dari biaya yang turun karena pengguna hanya perlu
membayar penyimpanan dan penggunaan computer
o Mudah diskalakan
10. Java
Java adalah bahasa pemrograman klasik yang berorientasi objek yang
sudah ada selama bertahun-tahun. Tools ini sederhana, memiliki
arsitektur yang netral, aman, platform yang bersifat mandiri, dan
berorientasi objek. Keuntungan :
o Cocok untuk proyek sains yang besar jika digunakan dengan Java
8 dan Lambdas
o Java memiliki rangkaian alat dan perpustakaan yang luas
sehingga sempurna untuk machine learning dan data science
o Mudah dimengerti
11. MATLAB
MATLAB adalah bahasa tingkat tinggi yang digabungkan dengan
lingkungan interaktif untuk komputasi numerik, pemrograman, dan
visualisasi. MATLAB adalah tools yang kuat dengan bahasa yang
digunakan dalam komputasi teknis, dan ideal untuk grafis, matematika,
dan pemrograman.
Keuntungan :
o Penggunaan yang bersifat intuitif
o Tools ini menganalisis data, membuat model, dan
mengembangkan algoritma
o Hanya dengan beberapa perubahan kode sederhana, tools ini
menskalakan analisa agar berjalan di cloud, kluster, dan GPU
12. MySQL
Sebagai salah tools terpopuler, MySQL adalah salah satu database
open source paling populer yang tersedia saat ini. Tools ini ideal untuk
mengakses data dari database. Keuntungan :
54
o Pengguna dapat dengan mudah menyimpan dan mengakses data
secara terstruktur
o Bekerja dengan bahasa pemrograman seperti Java
o Tools ini adalah sistem manajemen database relasional yang
bersifat open source
13. NLTK
NLTK merupakan singkatan dari Natural Language Toolkit, tools
open souce ini bekerja dengan data bahasa manusia dan merupakan
pengembang dalam program Python yang sangat disukai. NLTK sangat
ideal untuk data scientist dan siswa pemula. Keuntungan :
o Dilengkapi dengan serangkaian library pemrosesan teks
o Menawarkan lebih dari 50 interface yang mudah digunakan
o Tools ini memiliki forum diskusi aktif sehingga menyediakan
banyak informasi baru
14. Rapid Miner
Tools data science ini adalah platform terpadu yang
menggabungkan persiapan data, machine learning, dan model
deployment untuk membuat proses data science menjadi lebih mudah
dan cepat. Tools ini mampu melakukan sejumlah tugas yang berat dalam
industri manufaktur, telekomunikasi, utilitas, dan perbankan.
Keuntungan :
o Semua sumber daya terletak di satu platform
o GUI berdasarkan pada proses diagram blok, menyederhanakan
blok ini ke lingkungan plug-and-play
o Menggunakan desainer alur kerja visual untuk
memodelkan algoritma machine learning
15. SAS
Tools data science ini dirancang khusus untuk operasi statistik.
Tools ini adalah alat perangkat lunak yang berifat close source digunakan
khusus untuk menangani dan menganalisis sejumlah besar data milik
organisasi besar.
55
Tools ini didukung dengan baik oleh perusahaan pengembang tools
dan sangat dapat diandalkan. Namun, tools ini tidak dapat digunakan
oleh individu karena biaya SAS yang mahal dan paling cocok untuk
perusahaan besar atau organisasi. Keuntungan :
o Banyak fungsi Analisa yang mencakup segala sesuatu mulai dari
media sosial hingga perkiraan otomatis serta data lokasi
o Tools ini memiliki fitur dasbor dan laporan interaktif sehingga
memungkinkan pengguna langsung melakukan pelaporan ke
analisis
o Berisi teknik visualisasi data tingkat lanjut seperti pembuatan
bagan otomatis untuk menyajikan hasil dan data yang menarik
C. Rangkuman
1. Tools dalam data science beragam jenisnya mulai dari algorithm.os.,
apache Hadoop, apache spark, bigML, D3.js, Data robot, excel,
forescastthis, Google BigQuery, Java, MATLAB, MYSQL, NLTK,
Rapit Miner, dan SAAS yang masing-masing memiliki keuntungan dan
kelemahannya masing-masing dalam penggunaannya.
56
F. Tugas Mandiri Dan Kelompok
1. Carilah jurnal yang membahas mengenai Tools data science dan
penggunaannya diinternet!
2. Lalu analisis jurnal tersebut dan cantumkan pendapat saudara mengenai
jurnal tersebut!
G. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
57
BAB 5
A. MySQL
1. Definisi MySQL
SQL atau Standard Query Language adalah bahasa pemrograman
yang digunakan dalam mengakses, mengubah, dan memanipulasi data
yang berbasis relasional. Tentu saja bahasa komputer dalam data basis
relasional ini berdasarkan standar yang dikeluarkan oleh American
National Standard Institute (ANSI). Standardisasi SQL sudah ada sejak
58
tahun 1986 dan memang diinisiasi oleh ANSI. Hingga saat ini banyak
server dalam sebuah database maupun software mampu mengartikan
bahasa SQL. Maka dari itulah, SQL merupakan bahan pembicaraan dan
sebuah materi yang sangat penting bagi kamu yang bergelut dalam dunia
IT maupun hal-hal yang bersinggungan dengan database relasional.
3. Fungsi MySQL
Keberadaan SQL dalam mengelola sebuah database memberikan
fungsi tersendiri. Bagi seorang admin, adanya SQL dapat memungkinkan
kamu untuk mengakses maupun mengubah database. Kamu pun bisa
menjalankan sebuah query maupun mengambil data yang dibutuhkan.
Termasuk pula memperbarui atau menyisipkan data dalam database.
59
SQL juga bisa digunakan untuk menghapus sebuah data
pada database. Fungsi lainnya SQL adalah untuk membuat sebuah
prosedur baru dan ini akan tersimpan dalam sebuah database. Selain itu
juga bisa mengatur hak akses dalam tabel, prosedur, maupun hal-hal
penting lainnya.
60
Perintah Drop: Bisa kamu gunakan dalam menghapus
baik itu berupa database, table maupun kolom hingga
index.
Perintah Show: perintah DDL ini digunakan untuk
menampilkan sebuah tabel yang ada.
b. Data Manipulation Language (DML)
Pada database SQL, perintah yang digunakan untuk
memanipulasi data adalah Data Manipulation Language atau
DML. Perintah dalam DML juga terbagi ke dalam empat jenis.
Beberapa di antaranya adalah insert, select, update, dan delete.
Perintah Insert: Kamu bisa menggunakan perintah ini
untuk memasukkan sebuah record baru di dalam sebuah
tabel database.
Perintah Select: Select digunakan untuk memanipulasi
data dengan tujuan menampilkan maupun mengambil
sebuah data pada tabel. Data yang diambil pun tidak
hanya terbatas pada satu jenis saja melainkan lebih dari
satu tabel dengan memakai relasi.
Perintah update: Ini dapat kamu gunakan ketika ingin
melakukan pembaruan data di sebuah tabel. Contohnya
saja jika ada kesalahan ketika memasukkan sebuah record.
Kamu tidak perlu menghapusnya dan bisa diperbaiki
menggunakan perintah ini.
Perintah Delete: Perintah DML ini dapat digunakan ketika
kamu ingin menghapus sebuah record yang ada dalam
sebuah tabel.
c. Data Control Language (DCL)
Perintah dasar berikutnya adalah Data Control Language atau
DCL. Perintah SQL ini digunakan khususnya untuk mengatur hak
apa saja yang dimiliki oleh pengguna. Baik itu hak terhadap
sebuah database ataupun pada tabel maupun field yang ada.
Melalui perintah ini, seorang admin database bisa menjaga
61
kerahasiaan sebuah database. Terutama untuk yang penting. DCL
berdasarkan perintah dasarnya terbagi dalam dua perintah utama
yakni:
Perintah Grant: Perintah ini biasanya digunakan ketika
admin database ingin memberikan hak akses ke user
lainnya. Tentu pemberian hak akses ini dapat dibatasi atau
diatur. Dalam hal ini admin pun dapat memberikan akses
mengenai perintah dalam DML di atas.
Perintah Revoke: Kebalikannya dari Grant, Revoke
terkadang sering digunakan untuk mencabut maupun
menghapus hak akses seorang pengguna yang awalnya
diberikan akses oleh admin database melalui perintah
Grant sebelumnya.
62
Seorang data engineer bertanggung jawab untuk
menemukan tren atau pola dalam sebuah set data, kemudian
mengembangkan sebuah algoritma untuk membuat data tersebut
memiliki manfaat bagi perusahaan. Selain itu, data engineer juga
bertanggung jawab untuk membangun algoritma yang dapat
digunakan untuk mengakses data mentah dengan lebih mudah.
Maka dari itu, data engineer memerlukan keahlian dalam SQL
untuk mempermudah pengelolaan data.
c) Business Analyst
Seorang business analyst bertugas untuk memandu
perusahaan dalam menciptakan proses, produk, layanan, dan
software melalui analisa bisnis. Pada umumnya, seorang business
analyst akan menjalankan gap analysis dengan tujuan untuk
mengidentifikasi langkah yang diperlukan untuk memajukan
bisnis tersebut. Apabila hasil dari gap analysis tersebut berkaitan
dengan data, maka SQL diperlukan untuk menemukan
kesenjangan dalam data set tersebut. Analisa kesenjangan yang
terperinci adalah kunci sukses dari seorang business analyst.
d) Database Administrator
Seorang Database Administrator (DBA) bertugas untuk
mengelola software database untuk menyimpan, menyusun, dan
mengakses data dengan sistem yang matang. DBA pada
umumnya membawahi tim SQL programmer, yang tentu saja
mewajibkannya untuk menguasai bahasa pemrograman tersebut.
e) Quality Assurance Tester
Seorang QA Tester pada umumnya bertugas untuk
memeriksa keruskan atau masalah pada produk digital seperti
aplikasi, software e, game, dan website. Produk digital
seperti di atas seringkali menyimpan sebagian besar informasi
pengguna dalam sebuah database berbasis SQL. Untuk
mengetahui detail terkait kerusakan dan masalah pada produk
63
digital, QA Tester tentunya wajib menguasai SQL agar dapat
menemukan informasi tersebut.
B. Data Base
6. Definisi Data Base
Database atau basis data adalah kumpulan data yang dikelola
sedemikian rupa berdasarkan ketentuan tertentu yang saling berhubungan
sehingga mudah dalam pengelolaannya. Melalui pengelolaan tersebut
pengguna dapat memperoleh kemudahan dalam mencari informasi,
menyimpan informasi dan membuang informasi. Adapun pengertian lain
dari database adalah sistem yang berfungsi sebagai mengumpulkan file,
tabel, atau arsip yang terhubung dan disimpan dalam berbagai media
elektronik.
64
berbeda dari lainnya. Diketahui bahwa semua file JSON
selalu menggunakan ekstensi khusus berupa “json”.
2) XML
XML (Extensible Markup Language) adalah
bahasa program markup yang memiliki aturan untuk
memberikan dua kode dokumen berbeda yang bisa dibaca
oleh manusia dan dibaca oleh komputer. Melalui XML,
akan menghasilkan format data berupa teks yang dapat
digunakan untuk merepresentasikan struktur basis data.
Selain itu, sinkronisasi data dapat dilakukan secara real-
time oleh pengguna. Bahasa program ini sangat cocok
digunakan untuk menangani basis data pada web browser
dan web server. Struktur yang digunakan XML dinilai
banyak memiliki kesamaan dengan format JSON.
e. Database Warehouse
Database Warehouse adalah sistem basis data yang biasa
digunakan untuk pelaporan dan analisis data. Sistem ini dianggap
sebagai komponen inti dari business
intelligence. Database Warehouse merupakan repositori sentral
data yang terpadu dari satu atau lebih sumber yang
berbeda. Database tersebut juga menyimpan data terkini dan
historis dengan satu tempat yang digunakan untuk membuat
laporan analisis. Data yang tersimpan di warehouse awalnya
diunggah dari sistem operasi. Data bisa melewati penyimpanan
operasional dan memungkinkan untuk pembersihan data. Proses
tersebut menjadi operasi tambahannya dan dapat memastikan
kualitas data sebelum digunakan di warehouse sebagai
pelaporannya.
3) Microsoft SQL Server
Microsoft SQL Server adalah sistem basis data
yang dibangun oleh Microsoft. Sebagai server database,
sistem ini merupakan produk perangkat lunak yang
65
berfungsi menyimpan dan mengambil data sesuai
permintaan aplikasi lainnya. Hal tersebut memungkinkan
dapat berjalan baik melalui komputer yang sama atau
komputer lainnya melalui jaringan internet. Setidaknya
Microsoft pernah memasarkan 12 edisi yang berbeda
sistem Microsoft SQL Server ini. Hal itu ditujukan untuk
memberikan pilihan kepada pengguna dan untuk
kebutuhan yang berbeda juga.
f. Distributed Database
Distributed Database adalah basis data yang perangkat
penyimpanannya tidak terpasang pada perangkat komputer yang
sama. Basis data tersebut disimpan di beberapa perangkat
komputer yang terletak di tempat yang sama atau tersebar melalui
jaringan komputer lainnya yang saling berhubungan. Sistem ini
tidak sama dengan sistem paralel yang menggabungkan erat dan
bersistem data tunggal. Sistem ini terdistribusi melalui situs yang
tergabung dan tidak memiliki komponen fisik.
Melalui administratornya, basis data dapat mendistribusikan
sekumpulan data di beberapa lokasi yang berada di server
jaringan terorganisir. Karena sistem yang begitu unik, basis data
terdistribusi bisa meningkatkan kinerja bagi end user dengan
membiarkan transaksi melalui proses mesin yang banyak
sehingga tidak fokus pada satu mesin saja.
4) Microsoft Access (Office)
Microsoft Access adalah sistem DBMS yang
menggabungkan Microsoft Jet Database Engine dengan
alat pengembang perangkat lunak. Microsoft Access
menyimpan data dengan formatnya sendiri.
Melalui software ini pengguna dapat mengimpor atau
menghubungkan langsung ke data yang tersimpan
di database lainnya. Microsoft Access sangat cocok
digunakan pada sistem informasi
66
dengan distributed database. Karena
penyimpanan file tidak memerlukan server database aktif
sehingga bersifat portable.
g. Relational Database
Relatio nal Database atau basis data relasional adalah
basis data yang mengorganisir berdasarkan model hubungan data.
Banyak sekali perangkat lunak yang menggunakan sistem ini
untuk mengatur dan memelihara basis data melalui hubungan
setiap data. Umumnya, semua sistem menggunakan Structured
Query Language (SQL) sebagai bahasa pemrograman untuk
pemeliharaan basis data dan query.
5) MySQL
MySQL adalah sebuah sistem untuk manajemen
basis data relasional. Banyak sekali produk-produk IT
yang dibuat dengan menggunakan komponen utama
MySQL. Beberapa aplikasi seperti WordPress, Google,
Flickr, Youtube, Facebook, Joomla, phpBB, Drupal, dan
MODx menggunakan sistem ini untuk manajemen basis
data relasional mereka.
6) PostgreSQL
Sistem kedua yang merupakan sistem pengelolaan
basis data relasional adalah PostgreSQL. Sistem ini
berfungsi untuk menyimpan data secara aman dan dapat
mengembalikan data tersebut sebagai respon
atas request dari aplikasi lainnya. PostgreSQL dapat
bekerja melalui aplikasi mesin tunggal kecil hingga
aplikasi internet besar beserta pengguna yang banyak
secara bersamaan. Sistem ini biasa digunakan pada sistem
operasi mac OS server, karena pengaturannya sudah
tersedia secara default. Sistem operasi lainnya seperti
Windows dan Linux juga dapat ditemukan dengan
mengubah pengaturannya.
67
7) MariaDB
MariaDB adalah sistem yang dikembangkan dari
MySQL. Pengembangan ini bertujuan untuk
mempertahankan kompatibilitas yang tinggi dari MySQL
dan cocok dengan API MySQL beserta perintah-
perintahnya. MariaDB memiliki mesin penyimpanan
XtraDB untuk mengganti InnoDB. Sistem ini
dikembangkan langsung oleh beberapa pengembang asli
MySQL dengan pihak yang bercabang. Tujuannya adalah
agar tidak diakuisisi oleh Oracle Corporation yang
merupakan kompetitornya.
8) MongoDB
MongoDB adalah software database yang
berorientasi pada
dokumen cross platform dan open source. MongoDB
menggunakan dokumen yang mirip dengan skema JSON,
oleh karena itu sistemnya diklasifikasikan ke dalam
program basis data NoSQL.
9) Oracle Database
Oracle Database adalah sistem relation
database selanjutnya yang diproduksi dan dipasarkan oleh
perusahaan Oracle. Dalam penggunaannya, sistem Oracle
mengacu pada struktur memori server–side sebagai sistem
area globalnya. Sistem area global dapat
menyimpan cache, perintah SQL, dan informasi
pengguna. Selain itu, sistem ini memungkinkan untuk
menyimpan riwayat transaksional seperti redo log online.
10) SAP HANA
SAP HANA adalah sistem lain yang berorientasi
pada kolom dan hubungan antar tabel. Sistem ini memiliki
fungsi utama sebagai database server yang menyimpan
dan mengambil data sesuai permintaan aplikasi. Selain
68
fungsi tersebut, SAP HANA juga dapat melakukan
analisis lanjutan seperti analisis prediksi, pemrosesan data
spasial, analisis teks, analisis streaming, pencarian teks,
dan pemrosesan data grafik. SAP HANA ini merupakan
sistem yang dikembangkan oleh SAP SE.
11) IBM Db2
IBM Db2 adalah sistem lainnya yang
dikembangkan oleh perusahaan IBM. Melalui sistem ini,
model relasional dapat terdukung. Hanya saja versi
terbarunya IBM Db2 memiliki multi-fungsi yang
mendukung fitur relasional dan non relasional seperti
JSON dan XML. Melalui sejarahnya, IBM Db2
merupakan sistem yang dibuat untuk produk DB2 pada
masing-masing sistem operasi utamanya. Pada tahun
1990-an, Perusahaan IBM mulai membuat produk DB2
universal yang kodenya dapat digunakan untuk sistem
operasi lainnya.
12) MemSQL
MemSQL adalah sistem manajemen basis data
SQL terdistribusi dan in–memory. Sistem ini juga
termasuk ke dalam sistem manajemen basis data
relasional (RDBMS). MemSQL berfungsi untuk
mengkompilasi SQL ke dalam kode mesin melalui proses
pembuatan kode atau code generation.
13) Interbase
Interbase adalah sistem RBMS yang berbeda
dengan produk lainnya. Sistem ini
memiliki footprint yang minim, persyaratan administrasi
yang hampir nol dan arsitektur multi generasi. Interbase
dapat digunakan di sistem operasi Windows, macOS,
Linux, Solaris, iOS, dan Android. Sistem ini dibangun
69
langsung oleh Embarcadero Technologies (Borland
dulunya).
14) Firebird
Sistem basis data relasional terakhir adalah
Firebird. Firebird adalah sistem SQL yang open
source dan berjalan di sistem operasi mac OS X,
Windows, Linux, dan sistem operasi lainnya yang unik.
Basis data Firebird juga merupakan cabang dari open
source Borland Interbase pada tahun 2000. Hanya saja
sejak versi Firebird 1.5 kode yang dibuat sebagian besar
telah ditulis ulang.
h. End-User Database
15) SQLite
SQLite adalah sistem manajemen basis data yang
ada pada library pemrograman C. Berbeda dengan sistem
lainnya, SQLite bukan merupakan mesin database client
server. SQLite tertanam ke dalam program akhir sehingga
cocok digunakan dalam mendukung penyimpanan data
akhir end user. SQLite sangat populer digunakan sebagai
perangkat lunak database untuk penyimpanan lokal / klien
melalui perangkat lunak aplikasi seperti peramban web.
Sistem ini merupakan sistem yang paling banyak
digunakan melalui sistem operasi, peramban web, dan
sistem embedded yang lebih luas seperti ponsel.
70
cepat. Kecepatannya juga dipengaruhi oleh jenis database yang
digunakan. Setiap jenis database memberikan kemampuan yang berbeda-
beda.
9. Multi-user
Database memberikan kemudahan akses bagi banyak pengguna dalam
waktu yang bersamaan. Sistem tersebut memungkinkan akses suatu
dokumen ke lebih dari satu pengguna. Sehingga kinerja mesin dan
jaringan dimudahkan melalui multi-user karena penyimpanan hanya
terdiri satu unit yang dapat diakses secara bersamaan.
10. Keamanan data
Sistem database melalui bahasa pemrogramannya telah dibuat
secara safety. Melalui instrumen password membuat data tersebut hanya
bisa diakses kepada pihak yang diijinkan. Manajemen tersebut telah
diterapkan pada hampir seluruh jenis sistem database. Sehingga
menjadikan keamanan data merupakan hal prioritas bagi layanan
sistem database.
11. Penghematan biaya perangkat
Memiliki satu database terpusat sudah cukup bagi perusahaan
besar yang membutuhkan pengumpulan data secara ringkas. Hal ini
membuat perusahaan tidak memerlukan ruang penyimpanan di tiap
tempat yang berbeda. Melalui jaringan internet, cabang perusahaan di
daerah terpencil pun bisa melakukan akses data yang ada di pusat.
12. Kontrol data terpusat
Database tidak memerlukan server lebih dari satu dalam
penggunaannya. Cukup satu server terpusat untuk menyimpan data
sehingga data tersebut bisa diakses oleh banyak pengguna. Hal ini
memberikan harga yang murah bagi perusahaan untuk investasi ruang
penyimpanan data penting perusahaan. Seperti kantor perusahaan tidak
perlu membuat suatu data di tiap divisi jobnya. Setiap divisi bisa
mengumpulkan data khusus melalui satu server yang ditentukan
sehingga laporan untuk atasan menjadi ringkas.
13. Mudah membuat aplikasi
71
Melalui kaitannya terhadap perusahaan jika perusahaan
membutuhkan aplikasi input data yang baru, programmer tidak perlu
membuat ulang struktur database. Menggunakan struktur database yang
dibuat sebelumnya sudah cukup untuk mengenali aplikasi input data
yang baru.
D. Rangkuman
8. SQL atau Standard Query Language adalah bahasa pemrograman yang
digunakan dalam mengakses, mengubah, dan memanipulasi data yang
berbasis relasional.
9. Fungsi dari SQL digunakan untuk menghapus sebuah data
pada database, untuk membuat sebuah prosedur baru dan ini akan
tersimpan dalam sebuah database dan untuk mengatur hak akses dalam
tabel, prosedur, maupun hal-hal penting lainnya.
10. Jenis-jenis perintah SQL antara lain ada DDL, DML dan DCL
11. Database atau basis data adalah kumpulan data yang dikelola sedemikian
rupa berdasarkan ketentuan tertentu yang saling berhubungan sehingga
mudah dalam pengelolaannya
12. Jenis dan fungsi dari data base antara lain, operational data base,
warehouse database, distributed database dan relational database serta
end-user database
13. Manfaat dari penggunaan data base dapat dilihat dari kecepatan dan
kemudahan, multiuser, keamanan data, penghematan biaya perangkat,
control data yang terpusat dan kemudahannya dalam membuat aplikasi
72
7. Sebutkan dan jelaskan manfaat penggunaan data base!
H. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
73
BAB 6
Capaian Pembelajaran :
Mahasiswa mampu memahami dan menjelaskan pengantar Bahasa python.
Tujuan Pembelajaran :.
Mahasiswa mampu menjelaskan pengantar Bahasa python
74
pertama kali dirilis pada tahun 1991, filosofi desain Python
menekankan keterbacaan kode dengan penggunaan spasi putih yang
signifikan. Konstruksi bahasanya dan pendekatan berorientasi objek bertujuan
untuk membantu pemrogram menulis kode yang jelas dan logis untuk proyek
skala kecil dan besar. Python diketik secara dinamis dan pengumpulan sampah.
Ini mendukung beberapa paradigma pemrograman, termasuk
pemrograman terstruktur (terutama, prosedural), berorientasi objek,
dan fungsional.
Python sering dideskripsikan sebagai bahasa "termasuk baterai" karena
perpustakaan standarnya yang komprehensif. Python dibuat pada akhir 1980-an
sebagai penerus bahasa ABC. Python 2.0, dirilis pada tahun 2000,
memperkenalkan fitur-fitur seperti pemahaman daftar dan sistem pengumpulan
sampah dengan penghitungan referensi.
Python 3.0, dirilis pada tahun 2008, adalah revisi utama dari bahasa yang
tidak sepenuhnya kompatibel dengan versi sebelumnya, dan banyak kode
Python 2 yang tidak berjalan tanpa modifikasi pada Python 3.
Penerjemah Python tersedia untuk banyak sistem operasi. Komunitas
pemrogram global mengembangkan dan memelihara CPython, implementasi
referensi yang bebas dan sumber terbuka. Sebuah organisasi nirlaba, Python
Software Foundation, mengelola dan mengarahkan sumber daya untuk
pengembangan Python dan CPython.
75
kepadanya untuk mencerminkan komitmen jangka panjangnya sebagai
pengambil keputusan utama proyek.
Python 2.0 dirilis pada 16 Oktober 2000 dengan banyak fitur utama baru,
termasuk pengumpul sampah pendeteksian siklus dan dukungan untuk Unicode.
Tanggal akhir masa pakai Python 2.7 yang awalnya ditetapkan pada tahun 2015
kemudian ditunda hingga tahun 2020 karena sejumlah besar kode yang tidak
dapat dengan mudah dilanjutkan ke Python 3.
C. Fitur Python
1. Mudah untuk belajar: Python memiliki relatif sedikit kata kunci, struktur
sederhana dan sintaks dari kurva belajar yang jelas lebih mudah.
2. Mudah dibaca: definisi kode Python lebih jelas.
3. Mudah untuk mempertahankan: Keberhasilan Python terletak pada kode
sumbernya cukup mudah untuk mempertahankan.Berbagai perpustakaan
standar: Salah satu keuntungan terbesar dari Python adalah perpustakaan
yang kaya, cross-platform, pada UNIX, Windows dan Macintosh
kompatibel dengan baik.
4. Modus Interaktif: modus interak tif, Anda dapat memasukkan untuk
mengeksekusi kode dari terminal dan mendapatkan tes bahasa dan debug
kode potongan untuk berinteraksi.
5. Portabel: Berdasarkan karakteristik open source, Python telah porting
(yaitu untuk membuatnya bekerja) ke banyak platform.
6. Scalable: Jika Anda perlu menjalankan beberapa kode kunci cepat, atau
ingin menulis beberapa algoritma tidak ingin membuka, Anda dapat
menggunakan C atau C ++ untuk menyelesaikan bagian dari program,
dan kemudian memanggil dari program Python Anda.
7. Database: Python menyediakan sebuah antarmuka untuk semua database
komersial utama.
8. GUI Programming: Python GUI dukungan dapat dibuat dan porting ke
banyak sistem panggilan.
76
9. Dapatkah Embed: Anda dapat menanamkan Python C / C ++ program
yang memungkinkan pengguna program Anda telah "scripted"
kemampuan.
77
yang dianggap berpengetahuan atau berpengalaman, sering disebut
sebagai Pythonistas.
78
seperti Resource Acquisition Is Initialization (RAII) dan menggantikan
idiom percobaan / akhirnya yang umum.
Pernyataan break keluar dari loop.
Pernyataan continue melewati iterasi ini dan melanjutkan dengan item
berikutnya.
Pernyataan pass yang berfungsi sebagai NOP. Ini secara sintaksis
diperlukan untuk membuat blok kode kosong.
Pernyataan assert digunakan selama debugging untuk memeriksa kondisi
yang seharusnya diterapkan.
Pernyataan yield yang mengembalikan nilai dari fungsi generator. Dari
Python 2.5, yield juga seorang operator. Formulir ini digunakan untuk
mengimplementasikan coroutine.
Pernyataan import , yang digunakan untuk mengimpor modul yang
fungsi atau variabelnya dapat digunakan dalam program saat ini. Ada
tiga cara menggunakan import: import <nama modul> [sebagai
<alias>] atau from <nama modul> import * atau from <nama modul>
import <definisi 1> [sebagai <alias 1>], <definisi 2> [sebagai <alias
2>], ....
Pernyataan print diubah menjadi fungsi print() dengan Python 3.
79
dari metaclass type (itu sendiri merupakan contoh dari dirinya sendiri),
memungkinkan metaprogramming dan refleksi.
80
faktorial *= i
print(faktorial)
H. Rangkuman
Python adalah bahasa pemrograman tujuan umum yang ditafsirkan, tingkat
tinggi. Dibuat oleh Guido van Rossum dan pertama kali dirilis pada tahun 1991.
Python dibuat pada akhir 1980-an oleh Guido van Rossum di Centrum
Wiskunde & Informatica (CWI) di Belanda sebagai penerus bahasa
ABC (sendiri terinspirasi oleh SETL), mampu menangani pengecualian dan
berinteraksi dengan sistem operasi Amoeba. Implementasinya dimulai pada
bulan Desember 1989. Fitur python itu mudah untuk belajar, mudah dibaca,
mudah untuk mempertahankan, dll. Desain Python menawarkan beberapa
dukungan untuk pemrograman fungsional dalam tradisi Lisp. Memiliki
fungsi filter, map, dan reduce;daftar pemahaman, kamus, set, dan
ekspresi generator. Pustaka standar memiliki dua modul (itertools dan functools)
yang mengimplementasikan alat fungsional yang dipinjam
dari Haskell dan Standard ML
81
4. Bagaimana sejarah python terbentuk?
5. Apa fungsi fitur database?
L. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan refleksi terhadap diri Anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan pertama ini. Jawablah apa adanya.
jelaskan pemahaman anda tentang isi dari tugas mandiri dan kelompok tersebut:
82
BAB 7
83
Mahasiswa mampu memahami dan menjelaskan pemahaman data bisnis.
Tujuan Pembelajaran :.
Mahasiswa mampu menjelaskan pemahaman data bisnis.
84
toko online dan offline yang memerlukan supplier. Karena bentuknya ini
berupa file, maka Anda bisa menjualnya kembali dan bisa balik modal
dengan cepat.
3. Prospek Kedepan yang Bagus
Bisnis database memiliki masa depan yang cukup bagus dengan
minat belanja online yang selalu meningkat. Contohnya saja dari
penjualan database produsen fashion, akan ada banyak sekali penjual
yang memerlukan database produsen fashion untuk mencari harga yang
paling murah pada tiap produknya.
Setiap pebisnis online, mulai dari pihak penjual, reseller,
dropshipper dan para bisnis offline pun juga sangat membutuhkannya.
Untuk itu, prospek bisnis database ini kedepannya masih sangat bagus
untuk Anda yang baru ingin bergabung ke dalam bisnis database.
4. Bisa Dilakukan Oleh Siapa Saja
Bisnis database ini bisa dilakukan oleh siapa saja karena dalam
prosesnya juga tidak membutuhkan perhatian yang sangat banyak. Bisnis
ini bisa dilakukan oleh mahasiswa, pelajar, ibu rumah tangga, bahkan
bisa dilakukan oleh para pekerja juga. Selain itu, bisnis ini juga tidak
membutuhkan latar belakang ilmu apapun.
5. Fleksibel
Bisnis ini bisa dilakukan di waktu dan tempat manapun, sehingga
bisa Anda sesuai dengan setiap kegiatan Anda.
85
Kekurangan selanjutnya adalah terkait validitas data yang
diperjualbelikan di dalamnya. Banyak sekali kasus database yang dijual
adalah database yang sudah tidak valid, sehingga banyak konsumen yang
merasa tertipu. Bila sudah terjadi, maka tentunya akan mencoreng nama
baik Anda dan Anda pun sudah tidak bisa lagi dipercaya oleh konsumen
Anda. Oleh karena itu, Anda harus bisa menjaga tingkat validitas data
yang dijual agar bisa sama-sama saling menguntungkan antara yang satu
dengan yang lainnya.
8. Indikasi MLM
Terdapat indikasi bisnis database seperti MLM atau Multi Level
Marketing. Anda membeli sekumpulan data lalu menjualnya lagi pada
pihak lain, lalu orang tersebut menjualnya lagi, dan seterusnya. Untuk
itu, pastikanlah mereka yang membeli database ini adalah mereka yang
memang memerlukan data tersebut, bukan untuk dijual lagi untuk
mencari keuntungan pribadi.
86
10. Membuat Grup
Setelah berhasil menentukan harga jual, maka Anda bisa
membuat grup agar bisa menampung setiap member baru. Umumnya,
media yang bisa dimanfaatkan adalah WhatsApp atau Facebook. Kedua
jenis media ini terbilang cukup mudah untuk dibuat. Setelah berhasil
membuat grup, maka Anda bisa mulai membagikan informasi terkait
produk Anda. informasinya pun bisa berbentuk foto, video, atau aneka
tulisan yang menarik.
11. Buat Timeline
Timeline dibutuhkan dalam proses penjualan database. Timeline
harus dibuat dengan jelas dan lengkap agar bisa dengan mudah dipahami
dan juga menarik. Contohnya adalah memberikan testimoni berbentuk
foto produk, dll.
12. Promosi
Setelah berhasil mempersiapkan segala yang diperlukan, maka
langkah selanjutnya yang diperlukan untuk melakukan bisnis database
adalah melakukan promosi. Walaupun memang sulit, Anda bisa
melakukan bentuk promosi yang menarik dengan cara memasang iklan
di berbagai media sosial.
Usahakanlah untuk selalu melakukan promosi ini setiap hari dan
melakukan upload foto yang banyak dengan melengkapinya
menggunakan hashtag.
13. Cara Menjaring Konsumen
Agar bisa memperoleh banyak konsumen untuk membeli
database yang Anda tawarkan, maka Anda bisa melakukannya dengan
cara beriklan di media sosial website ataupun blog. Iklan menjadi cara
yang paling utama dan juga paling ampuh agar bisnis database Anda
menjadi semakin besar. Bisnis online yang satu ini sangatlah mudah
untuk dilakukan. Kemampuan promosi menjadi hal yang paling utama
dalam mengembangkan bisnis.
Selain itu, Anda juga bisa mendapatkan dukungan dengan
testimunda dari beberapa pebisnis sebelumnya terkait keuntungan yang
87
bisa Anda peroleh. Dengan menampilkan berbagai testimoni ini, maka
akan membuat banyak orang tertarik untuk bergabung dengan Anda.
F. Rangkuman
14. Bisnis database adalah suatu bisnis yang dilakukan dengan cara
mengumpulkan nomor telepon, WhatsApp, email dan sejenisnya dari
para produsen, supplier, perusahaan, nama, dan juga alamat untuk
selanjutnya di jual.Produk utama dari bisnis database ini adalah data.
15. Kelebihan data bisnis yaitu mudah dijalankan, cukup modal sekali.
Prospek kedepan yang bagus, bisa dilakukan oleh siapa saja, fleksibel.
16. Kekurangan data bisnis yaitu termasuk bisnis illegal, validitas data yang
dijual, indikasi mlm.
17. Bisnis database adalah bisnis yang menjanjikan, murah, dan tidak
memerlukan banyak instrumen dalam memulainya.
88
J. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan refleksi terhadap diri Anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan pertama ini. Jawablah apa adanya.
1. Apakah Anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Sebutkan alasan Anda dan tindak lanjut jika menjawab TIDAK:
BAB 8
89
Capaian Pembelajaran :
Mahasiswa mampu memahami dan menjelaskan preparation dan analisis data.
Tujuan Pembelajaran :.
Mahasiswa mampu menjelaskan preparation dan analisis data.
90
Prosesnya kurang lebih sama dengan teknik yang dilakukan dalam pendidikan,
hanya saja topik permasalahan yang diangkat seringkali menyangkut kebutuhan
untuk company.
91
Sebelum menjadi sebuah laporan informasi yang bisa dibaca secara
mudah, tentu ada tahap-tahap pengelolaan data yang perlu dilalui.
Penasaran bagaimana? Simak langkah langkah menganalisa data berikut.
Pengumpulan (collecting data)
Langkah pertama adalah mengumpulkan data responden
yang dibutuhkan. Teknik pengumpulan data ini bisa
menggunakan kuesioner, focus group discussion, atau metode
lainnya. Seleksi dan editing.
Biasanya, data yang dikumpulkan adalah data-data
mentah alias masih ada beberapa bagian yang harus dibuang.
Proses inilah yang dinamakan seleksi dan penyuntingan.
Pengkodean (coding)
Setelah menerima data yang benar-benar dibutuhkan
dalam riset tersebut, lakukanlah pengkodean. Langkah ini
dilakukan dengan mengidentifikasi dan mengelompokkan data
berdasarkan variabel.
Penyajian data
Tahap selanjutnya yang bisa dilakukan setelah selesai
klasifikasi data adalah menyajikannya. Anda bisa menggunakan
diagram atau tabel sebagai alat penyajian data.
C. Fungsi
3. Fungsi Analisis Data
Fungsi utama dari teknik analisis data adalah untuk mencari jawaban dari
masalah yang diteliti. Selain itu, sejumlah fungsi lainnya adalah:
Alat untuk menemukan jawaban pada sebuah masalah
Evaluasi permasalahan yang dialami perusahaan Anda
Acuan pengambilan keputusan dan rencana masa depan industri
Sebuah perjalanan bisnis akan lebih terarah jika menggunakan dasar
informasi yang valid. Data-data yang dikumpulkan juga menjadi dasar
landasan, sehingga tidak semata-mata melakukan pengambilan
keputusan.
92
D. Metode-Metode Analisis Data
Terdapat dua kategori umum pada teknik pengkajian data, yaitu teknik analisis
data kuantitatif dan kualitatif. Teknik pengumpulan dan cara mengolah data
antara keduanya pun berbeda. Simak ulasan berikut untuk memahami perbedaan
keduanya.
Metode Analisis Data Kuantitatif
Metode penelitian kuantitatif adalah teknik yang didasari oleh
pemahaman positivistik yang membutuhkan banyak data. Sehingga, jika
riset bisnis yang Anda lakukan bertujuan untuk mengangkat hal-hal yang
harus mengandung objektivitas, maka metode inilah yang cocok untuk
digunakan.
Metode Analisis Data Kualitatif
Berbeda dengan kuantitatif, metode analisis data kualitatif adalah cara
yang digunakan saat Anda melakukan riset bisnis yang membutuhkan
interpretasi sebagai peneliti. Sehingga sifat penelitian yang dilakukan
tidak bisa objektif secara general karena mengandung pemahaman
individu masing-masing.
E. Jenis-Jenis
4. Teknik analisis data kuantitatif
Teknik analisis dalam tipe penelitian yang satu ini membutuhkan
jawaban dari responden dalam jumlah besar. Sifat datanya numerik dan
bisa dihitung dengan menggunakan rumus-rumus statistika. Biasanya
tipe penelitian kuantitatif banyak ditemukan dalam bidang sains dan
teknologi.
Contoh teknik analisis data kuantitatif dalam riset bisnis bisa digunakan
untuk penelitian mengenai tingkat konsumsi pelanggan. Dengan bantuan
kuesioner online atau cetak, Anda bisa menyusun pertanyaan terkait
pendapat mereka terhadap produk atau layanan yang diberikan
perusahaan.
93
o Deskriptif
Teknik pengkajian data deskriptif adalah sebuah teknik yang bisa
Anda lakukan untuk membuat gambaran dari kumpulan data
tanpa melakukan generalisasi hasil riset. Bentuk data bisa
disajikan menggunakan grafik, tabel, diagram batang, dan
semacamnya.
o Inferensial
Bertolak belakang dengan deskriptif, pengkajian data inferensial
justru dilakukan untuk menggeneralisasi hasil penelitian sampel
untuk sebuah populasi. Kesimpulan umum tadi dicari dan diolah
menggunakan bantuan rumus statistik.
5. Teknik analisis data kualitatif
Dibandingkan tipe sebelumnya, kualitatif lebih banyak dipilih karena
prosesnya yang dinilai lebih mudah. Tipe ini digunakan peneliti jika
mereka ingin menginterpretasi sebuah fenomena. Biasanya teknik
analisis data kualitatif banyak ditemukan dalam ilmu bidang sosial serta
bisnis. Misalnya pada contoh analisis representasi bintang iklan dalam
advertisement produk deterjen atau produk lainnya. Teknik analisis
pengelolaan data ini juga terdiri dari beberapa jenis, yaitu:
o Tekstual
Pengkajian data tekstual juga dikenal sebagai text mining, dimana
dalam analisis ini terjadi proses seleksi dan data teks dalam
jumlah besar. Jika menerapkan dalam dunia bisnis, maka pola
teks yang ditemukan dari penelitian berfungsi sebagai acuan dari
putusan perusahaan yang diambil.
o Wacana
Teknik pengkajian data wacana digunakan untuk menganalisis
interaksi manusia. Fokus penelitian dari teknik ini adalah konteks
sosial di sekitar responden dan peneliti itu sendiri.
o Naratif
Tidak jauh dari namanya, teknik pengkajian data naratif dipakai
ketika peneliti ingin mengetahui budaya sebuah organisasi.
94
Peneliti harus berfokus pada cara suatu gagasan disampaikan
kepada para objek penelitian. Contoh metode pengolahan data
naratif adalah seperti penelitian tentang pendapat karyawan
kepada perusahaan. Dengan begitu, kultur perusahaan akan lebih
mudah untuk dipahami.
F. Contoh-Contoh
6. Contoh Analisis Data
Sebagai gambaran, topik pemasaran dan perilaku konsumen bisa
dijadikan salah satu contoh pengkajian data. Misalkan, Anda bertugas
dalam sebuah perusahaan yang menawarkan produk deterjen. Maka
penelitian terkait tingkat konsumsi pelanggan bisa Anda angkat,
penelitian ini sekaligus bisa dijadikan sebagai alat evaluasi perusahaan
apakah mereka turut beli dan puas terhadap deterjen perusahaan Anda.
Jika Anda mengambil topik serupa, tipe penelitian yang bisa dipilih
adalah kuantitatif deskriptif. Alasannya yaitu karena riset bisnis yang
dilakukan menyangkut frekuensi konsumsi, tingkat kepuasan, dan
variabel lain yang mengandung data numerik. Sedangkan dasar
pemilihan deskriptif adalah karena Anda hanya akan menggambarkan
tingkat kepuasan sampel saja, tidak ada motif untuk menggeneralisir.
Sementara itu, Anda bisa menggunakan survei dengan kuesioner sebagai
metode penelitian data. Seperti yang kita tahu, survei akan sangat ampuh
untuk dipilih jika jumlah responden yang dituju sangat banyak.
G. Rangkuman
1. Data Preparation atau bisa disebut juga dengan data preprocessing adalah
suatu proses/langkah yang dilakukan untuk membuat data mentah
menjadi data yang berkualitas(input yang baik untuk data mining tools).
2. pengertian analisis data adalah langkah mengumpulkan, menyeleksi, dan
mengubah data menjadi sebuah informasi. Kegiatan ini umumnya
diterapkan pada institusi pendidikan, namun ada juga sebuah profesi
yang memang khusus melakukan teknik pengkajian data setiap harinya.
95
3. Langkah – Langkah preparation data adalah data cleaning, data
integration, dan data transformation.
4. Langkah – Langkah analisis data adalah pengumpulan data, seleksi dan
editing, pengkodean, penyajian data.
5. Fungsi utama dari teknik analisis data adalah untuk mencari jawaban dari
masalah yang diteliti.
K. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan refleksi terhadap diri Anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan pertama ini. Jawablah apa adanya.
96
2. Apakah anda memahami latihan soal tersebut?, YA TIDAK
jelaskan pemahaman anda tentang isi dari tugas mandiri dan kelompok tersebut:
97
BAB 9
DATA VISUALIZATION
Capaian Pembelajaran:
Mahasiswa mampu memahami dan menjelaskan mengenai visualisasi data
Tujuan Pembelajaran:
Mahasiswa mampu menjelaskan pengertian visualisasi Data
A. Definisi
Visualisasi data adalah proses penyajian data dalam bentuk grafik yang
membuat informasi mudah dimengerti, hal ini membantu menjelaskan tentang
fakta dan menentukan arah tindakan. Definisi visualisasi data menjelaskan
tentang pentingnya data dengan menempatkan data dalam konteks visual. Hal ini
melibatkan penciptaan dan studi representasi visual dari data yang dikenal
sebagai informasi. Visualisasi data memungkinkan pengguna untuk memperoleh
pengetahuan yang lebih banyak mengenai data mentah yang didapatkan dari
berbagai sumber. Visualisasi dapat dilakukan dengan menggunakan dashboard,
di mana teks, pola, dan korelasi yang tidak terdeteksi dapat dengan mudah
divisualisasikan dengan menggunakan perangkat lunak visualisasi.
Visualisasi data tidak hanya mengubah data menjadi grafik visual, akan
tetapi visualisasi data juga memerlukan perencanaan. Setiap jenis data
memerlukan teknik visualisasi yang sesuai berdasarkan kebutuhannya.
Berdasarkan tingkat kompleksitas data, untuk menghasilkan solusi yang
berharga perlu melibatkan berbagai disiplin ilmu, seperti statistika, data mining,
desain grafis, dan information visualization
98
analisis tertentu, seperti melakukan pembandingan atau memahami kausalitas,
dan prinsip perancangan dari grafik (contohnya, memperlihatkan perbandingan
atau kausalitas) mengikuti pekerjaan tersebut. Tabel pada umumnya digunakan
ketika pengguna akan melihat ukuran tertentu dari sebuah variabel, sementara
grafik dari berbagai tipe digunakan untuk melihat pola atau keterkaitan dalam
data untuk satu atau lebih variabel.
99
Pada tahap ini adalah proses pengubahan data dalam bentuk visual
seperti bar graph, tree, atau tree. Tahap Represent menunjukkan bentuk
dasar data yang akan diambil. Tahap ini merupakan tahap yang sangat
penting dalam visualisasi data. Pemilihan model visualisasi yang tepat
akan mempengaruhi kualitas dari produk yang dihasilkan
6. Refine
Pada tahap ini adalah proses meningkatkan hasil representasi agar
terlihat lebih menarik. Graphic design lebih banyak terlibat pada tahap
ini. Poinpoin yang cukup penting pada visual grafik dibandingkan denga
poin lainnya diberikan pembeda agar data mudah dibaca.
7. Interact
Pada tahap ini adalah proses menambahkan metode untuk manipulasi
data atau mengendalikan fitur yang terlihat dengan kata lain data bisa
ditampilkan sesuai kehendak pengguna. Contoh interaksi antara
pengguna dan data seperti zoom-in, zoom-out, merubah rentang data,
melakukan filtering, dll.
100
Grafik 2-dimensi termasuk di dalamnya peta geografis, denah rancangan,
atau layout koran. Setiap item pada grafik 2-dimensi memiliki total area
dan atribut (warna, ukuran, dll).
101
4. Temporal;
Grafik temporal adalah grafik yang berhubungan dengan waktu (time
lines). Grafik ini menggambarkan persentasi historikal dari data 1-
dimensi. Yang membedakan, grafik temporal memiliki item dengan
waktu awal dan waktu akhir, atau periode tertentu.
102
Tree adalah grafik herarkikal dari item-item yang memiliki hubungan
satu dengan lainnya, atau yang memiliki induk (kecuali root). Setiap item
antara induk dan anak bisa memiliki banyak atribut. Grafik tree termasuk
didalamnya grafik tree, dendorogram, radial-tree, hyperbolic-tree, tree-
map, dan sunburst.
103
Gambar 9.6 Contoh Grafik Network
E. Rangkuman
1. Visualisasi data adalah proses penyajian data dalam bentuk grafik yang
membuat informasi mudah dimengerti, hal ini membantu menjelaskan
tentang fakta dan menentukan arah tindakan.
2. Tujuan utama dari visualisasi data adalah untuk mengkomunikasikan
informasi secara jelas dan efisien kepada pengguna lewat grafik
informasi yang dipilih, seperti tabel dan grafik.
3. Proses visualisasi data: 1.) acquire, 2.) Parse, 3.) Filter, 4.) Mine, 5.)
Represent, 6.) Refine, 7.) Interact .
4. Berdasarkan taksonominya, grafik visual dibedakan menjadi: 1D/Linear;
2D/Planar; 3D/Volumetric; Temporal; Multidimensional; Tree/
Hierarchical; dan Network.
104
4. Buatlah grafik visualisasi data dengan tipe network dan sebutkan
langkah-langkah dalam pembuatannya! Jelaskan!
I. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
105
BAB 10
A. Definisi
Menurut Techopedia, data modeling adalah hubungan berbagai elemen
data berbeda untuk mengetahui informasi yang dibutuhkan. Hal ini digunakan
untuk mengetahui di mana data disimpan, sehingga mempermudah komunikasi
antar tim dan manajemen data, terutama jika terdapat banyak data pada
perusahaan.
Data modeling menekankan pada data apa yang dibutuhkan dan apa yang
akan dilakukan pada data tersebut untuk suatu keperluan bisnis. Secara garis
besar, tujuan utama data modeling adalah untuk menciptakan metode
penyimpanan informasi yang paling efisien, serta menyediakan akses dan
pelaporan yang lengkap. Seorang data scientist harus memiliki kemampuan
pikiran sistematis untuk menemukan poin utama dari data yang akan diambil
dan disimpan melalui data modeling.
106
B. Manfaat Data Modeling
Adapun manfaat data modeling yaitu sebagai berikut:
1. Untuk manajemen data
Bersumber dari Datafloq, manfaat dari penggunaan data modeling adalah
mempermudah tim untuk mengakses beberapa data yang dimiliki. Hal
ini berguna untuk mengetahui di mana suatu data disimpan, sehingga
akan lebih mudah untuk mengaksesnya pada waktu tertentu.
2. Dapat menurunkan biaya
Meskipun bukan hal yang mudah, data modeling dapat membuat
perusahaan lebih menghemat biaya. Bersumber dari Cloverdx,
penggunaan data modeling dapat menurunkan biaya dalam bidang IT
khususnya pemrograman sebesar 75%. Pasalnya, data modeling dapat
mengetahui error yang terjadi lebih awal saat masih mudah untuk
memperbaikinya. Akan lebih sulit dan membutuhkan biaya lebih untuk
memperbaiki error saat software sudah dalam proses penulisan, atau
sudah digunakan oleh users.
3. Meningkatkan kolaborasi
Penggunaan data modeling akan mempermudah komunikasi antara tim
IT dengan staf nonteknis. Hal ini dikarenakan data modeling dapat
menjelaskan mengenai perkembangan bisnis dan penggunaan data dalam
bisnis tersebut dengan cara yang mudah dipahami.
107
Gambar 10.1 Contoh data model jenis konseptual
Data model jenis konseptual adalah jenis model data yang
menggambarkan penggunaan sebenarnya. Dengan ini, data model yang
dibuat harus dapat mendefinisikan apa yang ada di dalam sebuah sistem.
Model ini biasanya dibuat oleh pemangku kepentingan bisnis dan
arsitektur data. Tujuannya adalah untuk mengatur, memperluas, dan
mendefinisikan konsep dan aturan bisnis.
2. Logical
108
3. Fisik
109
a. Duplicate items yang dikurangi dari berbagai database
b. Kesalahan input data karena aspek presisi
c. Perubahan, pembaruan, dan penghapusan pada data entry
d. Variabel dengan nilai yang hilang pada berbagai database
4. Exploratory data analysis
Teknik yang satu ini digunakan untuk membiasakan diri dengan
data kemudian mengekstraksi wawasan yang berguna. Data Scientist
akan menyaring data yang tidak terstruktur untuk menemukan pola serta
menyimpulkan hubungan antara setiap elemen data. Tools untuk
keperluan statistics dan visualization akan merangkum central
measurements dan variabilitas untuk proses exploratory data analysis.
Transformasi yang sesuai akan digunakan untuk mengimplementasikan
skala distribusi di sekitar nilai rata-ratanya.
Exploration terasa lebih sulit apabila datasets mempunyai banyak
fitur. Untuk mengurangi kerumitan input model, feature selection
digunakan sebagai sarana pemeringkatan dalam urutan signifikansi data
modeling dan meningkatkan efisiensi kerja. Tahapan yang satu ini akan
lebih maksimal bila kamu menggunakan business intelligence tools,
seperti Tableau, Microstrategy, dan sebagainya. Langkah ini juga penting
karena matriks yang dipakai dapat dipelajari secara cermat dalam
memvalidasi hasil pengolahan data.
5. Feature selection
Proses ini akan mengidentifikasi dan memilih fitur yang paling
berkontribusi pada variabel prediksi atau output tertentu secara manual
maupun otomatis. Karakteristik data yang tidak relevan mampu
mengurangi akurasi modeling. Akibatnya, hasil modeling cenderung
terlatih berdasarkan fitur yang tidak relevan. Jika fiturnya cukup kuat,
algoritma machine learning bisa memberikan manfaat yang luar biasa.
Ada dua karakteristik yang akan kamu tangani: Konsisten dan tidak
mungkin berubah Dan Variabel dengan nilai berubah dari waktu ke
waktu.
6. Menggabungkan machine learning algorithms
110
Inilah proses paling penting dalam data science modeling karena
machine learning algorithms membantu penciptaan data modeling sesuai
kegunaan. Ada banyak algoritma yang bisa dipilih berdasarkan masalah
saat itu dengan tiga jenis machine learning, yaitu:
.Supervised learning
berdasarkan hasil operasi sebelumnya terkait bisnis yang ada.
Komponen ini membantu memprediksi suatu hasil. Beberapa
algoritma yang ada di dalamnya adalah linear regression, random
forest, dan support vector machines
Unsupervised learning
tidak punya konsekuensi atau pola yang sudah ada sebelumnya.
Sebaliknya, unsupervised learning berkonsentrasi pada
pemeriksaan interaksi dan koneksi antara titik data yang tersedia
saat ini. Beberapa algoritmanya adalah k-Nearest Neighbors
(KNN), clustering hierarchical, dan anomaly detection
Reinforcement learning
adalah teknik machine learning yang menggunakan datasets
dinamis dan berinteraksi dengan dunia nyata. Secara sederhana,
mekanisme sistem akan belajar dari kesalahan dan mengalami
perkembangan dari waktu ke waktu. Berbagai algoritma yang ada
dapat berupa Q-Learning, State-Action-Reward-State-Action
(SARSA), serta Deep Q Network.
7. Model testing
Fase berikutnya memastikan bahwa upaya data modeling mampu
memenuhi ekspektasi. Hasil modeling akan diterapkan pada test data
untuk mengecek keakuratan dan fitur yang ada di dalamnya. Kamu dapat
menguji data modeling secara lebih lanjut untuk mengidentifikasi
penyesuaian apa pun untuk meningkatkan kinerja serta hasil sesuai
keinginan. Bila belum presisi, kembali ke proses machine learning
kemudian pilih alternate data model dan lakukan testing kembali.
8. Model deploying
111
Model dengan hasil terbaik berdasarkan pengujian akan melewati tahap
penyelesaian dan penerapan di lingkungan produksi. Hal ini dilakukan
setiap kali kebutuhan bisnis berhasil terpenuhi dan diakhiri dengan
kesimpulan terhadap proses data modeling.
Itulah delapan tahapan utama dari data modeling. Seorang Data Scientist
perlu memahami lebih dalam seputar pengolahan dan modeling demi
mendapatkan wawasan penuh manfaat bagi perusahaan. Bila hasilnya
belum presisi, kamu tidak perlu khawatir karena ada beberapa alternatif
yang harus dibuat sehingga dapat menyesuaikan kebutuhan data
perusahaan.
E. Rangkuman
1. Data modeling adalah hubungan berbagai elemen data berbeda untuk
mengetahui informasi yang dibutuhkan.
2. Adapun manfaat data modeling yaitu sebagai berikut: 1.) untuk
manajemen data, 2.) Menurunkan biaya, 3.) meningkatkan kolaborasi.
3. Jenis-jenis data modeling: Konseptual. Logical, Fisik.
4. Tahap Pemrosesan data modeling:
a. Memahami masalah
b. Data extraction
c. Data cleaning
d. Exploratory data analysis
e. Feature selection
f. Menggabungkan machine learning algorithms
g. Model testing
h. Model deploying
112
G. Latihan Soal Praktek
2. Carilah contoh data modeling sebuah perusshaan industri yang ada di
internet lalu analisislah sesuai dengan tahapan proses data modeling yang
telah saudara pelajari!
I. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesepuluh ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
113
BAB 11
114
A. Definisi
Machine learning (ML) adalah mesin yang dikembangkan untuk bisa belajar
dengan sendirinya tanpa arahan dari penggunanya. Pembelajaran mesin
dikembangkan berdasarkan disiplin ilmu lainnya seperti statistika, matematika
dan data mining sehingga mesin dapat belajar dengan menganalisa data tanpa
perlu di program ulang atau diperintah. Dalam hal ini machine learning memiliki
kemampuan untuk memperoleh data yang ada dengan perintah ia sendiri. ML
juga dapat mempelajari data yang ada dan data yang ia peroleh sehingga bisa
melakukan tugas tertentu. Tugas yang dapat dilakukan oleh ML pun sangat
beragam, tergantung dari apa yang ia pelajari.
Deep learning merupakan subbidang machine learning yang algoritmanya
terinspirasi dari struktur otak manusia. Struktur tersebut dinamakan Artificial
Neural Networks atau disingkat ANN. Pada dasarnya, ia merupakan jaringan
saraf yang memiliki tiga atau lebih lapisan ANN. Ia mampu belajar dan
beradaptasi terhadap sejumlah besar data serta menyelesaikan berbagai
permasalahan yang sulit diselesaikan dengan algoritma machine
learning lainnya.
115
Waktu Waktu pemrosesan relatif proses Deep Learning
Pemrosesan sebentar membutuhkan waktu yang
lebih lama daripada
Machine Learning.
Feature Pada Machine Learning, Sedangkan pada Deep
Extraction proses feature extraction Learning, proses ANN/ JST
dilakukan dalam sebuah memungkinkan proses
proses tersendiri. feature extraction
“diserahkan” pada model.
116
memiliki kemampuan yang lebih dinamis karena mampu menyelesaikan suatu
tugas berdasarkan data yang telah dipelajari.
Contoh penerapan machine learning bisa terlihat pada platform video on
demand yang menampilkan rekomendasi video berdasarkan preferensi
pengguna. Machine learning mempelajari video genre apa saja yang disukai
pengguna, dan selanjutnya menampilkan video rekomendasi yang
karakteristiknya mirip dengan video yang disukai masing-masing pengguna.
Contoh lain penerapan machine learning bisa dilihat di beberapa platform
marketplace. Beberapa marketplace menawarkan rekomendasi barang yang
disesuaikan dengan perilaku tiap pengguna saat melakukan aktivitas belanja
online.
Meski begitu, jika ada ‘pelajaran’ yang belum diinput oleh yang
mengembangkan machine learning tersebut, maka bisa saja menghasilkan
kesimpulan yang salah. Algoritme machine learning masih sangat ‘mesin’
karena hanya mampu melakukan apa yang telah dirancang oleh penciptanya.
Jika machine learning mash perlu ‘diberitahu’ untuk bagaimana ia menciptakan
kesimpulan maupun prediksi akurat dengan terus diberikan data, lain halnya
dengan deep learning.
Deep learning merupakan pengembangan dari machine learning yang
bertujuan meniru cara kerja otak manusia menggunakan artificial neural network
atau jaringan nalar buatan. Deep learning menggunakan sejumlah algoritme
sebagai ‘neuron’ untuk bekerja sama dalam menentukan dan mencerna
karakteristik tertentu dalam suatu rangkaian data.Dengan kata lain, bisa
dikatakan bahwa deep learning mampu mengidentifikasi apa yang perlu
dipelajari dan bagaimana mempelajarinya ketika dihadapkan dengan pasangan
data input-output berjumlah banyak. Deep learning juga mampu
menggambarkan pola terkuat dalam setiap entitas yang disajikan, misalnya
wajah, suara, bahkan tabel angka.
Contoh penerapan deep learning ini bisa terlihat pada teknologi facial
recognition. Deep learning bisa membaca secara otomatis wajah setiap
pengunjung yang masuk ke dalam sebuah gedung, apakah pengunjung tersebut
karyawan atau tamu. Deep learning juga bisa diterapkan pada speech
117
recognition atau untuk mengenali suara sehingga mmebantu menurunkan jumlah
kesalahan saat melakukan identifikasi suara. Kesimpulannya, deep learning
cocok digunakan untuk memperhitungkan data yang tidak eksak seperti bahasa,
suara atau gambar. Sementara machine learning dapat memberikan analisis atau
kesimpulan yang lebih tepat dari algoritme eksak seperti fungsi lookup.
E. Rangkuman
1. Machine learning (ML) adalah mesin yang dikembangkan untuk bisa
belajar dengan sendirinya tanpa arahan dari penggunanya. Deep
learning merupakan subbidang machine learning yang algoritmanya
terinspirasi dari struktur otak manusia.
2. Perbedaan Machine Learning dan Deep Learning adalah dari segi
algoritma Machine Learning memiliki struktur sederhana (meskipun
tidak semuanya), seperti regresi linier atau decision tree DeepLearning
memiliki struktur jaringan saraf tiruan. Struktur ini yang berlapis-lapis,
seperti otak manusia kompleks dan saling terkait, dsb.
3. Hubungan Machine Learning dan Deep Learning digambarkan sebagai
sebuah cabang ilmu yang saling berkaitan satu dengan yang lainnya.
Dimulai dari Kecerdasan Buatan atau Artificial Intelligence yaitu sebagai
bidang ilmu yang secara umum yang mencakup pembelajaran mesin
(machine learning) dan pembelajaran mendalam (deep learning), tetapi
itu juga mencakup lebih banyak pendekatan yang tidak melibatkan
pembelajaran apa pun.
4. Penerapan Machine Learning dan Deep Learning. Contoh penerapan
machine learning bisa terlihat pada platform video on demand yang
menampilkan rekomendasi video berdasarkan preferensi pengguna.
Machine learning mempelajari video genre apa saja yang disukai
pengguna, dan selanjutnya menampilkan video rekomendasi yang
karakteristiknya mirip dengan video yang disukai masing-masing
pengguna. Sedangkan Contoh penerapan deep learning ini bisa terlihat
pada teknologi facial recognition. Deep learning bisa membaca secara
otomatis wajah setiap pengunjung yang masuk ke dalam sebuah gedung,
apakah pengunjung tersebut karyawan atau tamu.
118
F. Latihan Soal Teori
1. Apa definisi dari Machine Learning dan Deep Learning?
2. Sebutkan perbedaan dari Machune Learnig dan Deep Learning!
3. Jelaskaan hubungan dari keduanya!
4. Sebutkan contoh penerapan dari Machine Learning dan Deep Learning!
I. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesebelas ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
119
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
BAB 12
A. Model Evaluation
Kemampuan Data Srience untuk menyusun masalah sangat penting.
Ilmuwan Data yang cerdas dapat membangun dan mewakili visualisasi
120
informatif, menampilkan Data mentah dan aktivitas bisnis, yang terkait dengan
Indikator Kinerja Utama dan kasus penggunaan bisnis, seperti Akuisisi
Pelanggan baru, Desain Produk, lokasi meja untuk mengurangi gangguan, dan
sebagainya. Semua faktor ini dipertimbangkan saat melakukan proses
Pemodelan Ilmu Data, yaitu:
1. Konseptual
Data merupakan salah satu komponen yang penting di dalam
memecahkan masalah-masalah statistik. Salah sattu kegunaan dari data
adalah dapat digunakan untuk menentukan alat analisis statistik apa yang
sesuai untuk digunakan Untuk itulah konsep dan pemahaman mengenai
data perlu untuk dibahas. Data dapat dikelompokan menjadi 2(dua): Data
berdasarkan periode waktunya, Data berdasarkan sifatnya, dan Data
berdasarkan cara. Berikut ini penjelasannya:
a) Data berdasarkan periode waktunya
Data time series atau data berkala
Yaitu data yang pengamatannya dilakukan dari waktu ke
waktu ( satu objek banyak waktu). Contoh : Laba PT
Astra selama periode 2000-2006
Data Cross Section, Yaitu data yang pengamatannya
dilakukan pada satu waktu dengan banyak objek. Contoh :
Laba dari perusahaan yang masuk dalam kategori saham
BLUE CHIP di Bursa Efek Jakarta pada tahun 2006
Data Panel/ Pooling data,Yaitu merupakan gabungan
antara data time series dan data cross-section. Kasus ini
biasa digunakan jika peneliti dihadapkan pada masalah
terbatasnya jumlah sample yang terlalu sedikit sehingga
untuk menambah jumlah sample dapat dilakukan
pooling/panel data. Contoh : laba perusahaan yang masuk
kategori BLUE CHIP di Bursa Efek Jakarta periode 2000-
2006 (Blue Chip = Cross section, Periode 2000-2006 =
time series)
b) Data berdasarkan sifatnya
121
Data kuantitatif, yaitu data yang bersifat numerik (angka)
Contoh : Laba perusahaan, suku bunga, harga saham,
inflasi
Data kualitatif, Yaitu data non numerik yang
dikuantitatifkan untuk tujuan penelitian tertentu. Skala
pengukuran variabel data kualitatif bisa nominal, ordinal
atau persepsi yang dirubah dalam bentuk skala interval.
Contoh: Pendikan dimana kuantifisir dari data ini dapat
dilakukan dengan cara memberikan coding dimana 1 =
SD 2 = SMP 3 = SMU 4 = PT/Akedemisi
c) Data berdasarkan cara pengambilannya
Data primer, Berasal dari sumber asli, dikumpulkan
khusus untuk keperluan riset. Kelebihan: data sesuai
keinginan peneliti. Kelemahan: pengumpulan data lebih
mahal, lama, tidak praktis dibanding data sekunder
Data sekunder, Dikumpulkan melalui pihak lain, berasal
dari sumber internal /eksternal organisasi. Kelebihan:
lebih cepat, lebih murah dibandingkan data primer.
Kelemahan: tergantung pada keterse-diaan data yang
mungkin tidak memenuhi kebutu-han peneliti atau data
tidak relevan lagi.
B. Logical
Logical database design adalah proses pembuatan suatu model informasi
yang digunakan pada perusahan berdasarkan pada model data yang spesifik,
tetapi tidak tergantung dari Database Management System (DBMS) yang khusus
dan pertimbangan fisik yang lain, DBMS adalah software yang memungkinkan
pemakai untuk mendefinisi, membuat, memelihara, dan mengontrol akses ke
basis data.
Fasilitas-fasilitas yang disediakan oleh DBMS antara lain :
Memperbolehkan user untuk mendefinisikan basis data.
Memperbolehkan user untuk menambah , mengubah, dan menghapus
serta mengambil data dari basis data.
122
Menyediakan kontrol akses ke basis data. Seperti security, integrity,
concurrency control, recovery control system dan user-accessible
catalog.
Perancangan model logical langkah kedua, tahapan-tahapannya adalah :
Menghilangkan features yang tidak compatible dengan model relasional
(pilihan). Bertujuan untuk menghasilkan model yang kompatibel dengan
model relasional. Yaitu dengan :
- Menghilangkan many-to-many (*:*) binary relationship types
- Menghilangkan many-to-many (*:*) recursive relationship types
- Menghilangkan complex relationship types
- Menghilangkan multi-valued attributes
- Memperoleh relasi untuk local logical data model.
Bertujuan untuk membuat hubungan logical model yang mewakili entity,
relationship dan attribute yang telah didefinisi. Mendeskripsikan komposisi tiap
hubungan memakai Database Definition Language (DDL) untuk relasi yang
diikuti dengan daftar dari relasi attribute yang mudah lalu mengidentifikasikan
primary key dan foreign key dari suatu relasi. Untuk memperoleh relasi untuk
local data model, maka diperlukan penjelasan untuk mendeskripsikan struktur
yang mungkin dalam data model saat ini.
Bahasa dalam basis data dapat dibedakan menjadi dua bentuk :
1) Data Definition Language (DDL)
DDL merupakan bahasa dalam basis data yang memungkinkan
pengguna untuk membuat atau menghapus basis data, membuat atau
menghapus tabel membuat struktur penyimpanan tabel. Hasil dari
kompilasi DDL adalah kumpulan tabel yang disimpan dalam file khusus
yang disebut dengan kamus data.
2) Data Manipulation Language (DML)
DML merupakan bahasa dalam basis data yang memungkinkan
pengguna untuk melakukan manipulasi data pada suatu basis data, seperti
menambah, mengubah, menghapus data dari suatu basis data.
Langkah ketiga : Membuat dan memvalidasi global logical data model.
123
Bertujuan untuk menyatukan local logical data model menjadi global
logical data model.
Perancangan model logikal langkah ketiga, tahapan-tahapannya adalah :
Menggabungkan local logical data model menjadi global model
Pada langkah ini, setiap local logical data model menghasilkan E-R
diagram, skema relasional, kamus data dan dokumen pendukung yang
mendeskripsikan constraints dari model. Beberapa tugas yang harus
dikerjakan adalah sebagai berikut :
- Memeriksa kembali nama dan isi dari entities dari relationships dan
candidate key.
- Memeriksa kembali nama dan isi dari relationships/ foreign keys.
- Menggabungkan entities atau hubungan dari local data model.
- Mengikutsertakan (tanpa menggabungkan) entities atau relationships
yang unik pada tiap local data model.
- Menggabungkan relationships atau foreingn key dari local data
model.
- Mengikutsertakan (tanpa menggabungkan) relationships atau foreign
key unik pada tiap local data model.
- Memeriksa untuk entities (hubungan) dan relationships atau foreign
key.
- Memeriksa integrity constraints.
- Menggambarkan ER-diagram.
- Melakukan update dokumen.
Memvalidasi global logical data model, Bertujuan untuk memvalidasi
relasi yang dibuat dari global logical data model dengan teknik
normalisasi dan menjamin bahwa model tersebut mendukung kebutuhan
transaksi
Mengecek pertumbuhan yang akan datang, Bertujuan untuk menentukan
apakah ada perubahan yang signifikan seperti keadaan yang tidak
terduga dimasa mendatang dan menilai apakah model logikal tersebut
dapat menampung atau menyesuaikan perubahan yang terjadi.
124
Melihat kembali global logical data model dengan pengguna
Bertujuan untuk menjamin model data logikal yang bersifat global telah
tepat untuk perusahaan.
C. Penerapan
Data science dapat membantu proses pengolahan data yang meliputi
pengumpulan data, manipulasi data, hingga analisis data dengan melakukan
pemodelan pada kumpulan data untuk menghasilkan informasi berupa insight
yang berguna dan bisa bisa dijadikan pedoman dalam pengambilan keputusan di
masa depan. Berikut adalah keterampilan yang harus diketahui sebelum
melakukan Data Science Modelling:
125
Gambar 12.2 Statistik dan Probabilitas
1) Keterampilan Pemrograman
Python adalah bahasa pengkodean paling umum yang
dimanfaatkan dalam profesi Ilmu Data, namun bahasa pemrograman lain
seperti R, Perl, C/C++, SQL, dan Java juga digunakan. Ilmuwan Data
dapat menggunakan bahasa pemrograman ini untuk mengatur
Pengumpulan Data Tidak Terstruktur
126
Gambar 12.4 Keterampilan Visualisasi Data
4) Kemampuan berkomunikasi
Anda harus mengomunikasikan temuan Anda kepada
sekelompok Rekan Tim atau Manajemen Senior. Komunikasi
memungkinkan kita untuk melampaui apa yang diperjuangkan semua
orang. Menjadi komunikator yang kompeten, selanjutnya memungkinkan
Anda untuk menyampaikan ide dan mengidentifikasi Kontradiksi Data
apa pun. Dalam sebuah Proyek, keterampilan presentasi sangat penting
127
untuk menampilkan Penemuan Data dan merencanakan strategi masa
depan.
E. Feedback
Tulisan ini mengajarkan Anda tentang langkah-langkah yang diperlukan
untuk melakukan Pemodelan Ilmu Data. Langkah pertama dalam menerapkan
algoritma Ilmu Data apa pun adalah mengintegrasikan Data dari semua sumber.
Namun, sebagian besar bisnis saat ini memiliki volume Data yang sangat tinggi
dengan struktur dinamis yang disimpan di berbagai aplikasi. Membuat Data
Pipeline dari awal untuk Data semacam itu adalah proses yang kompleks karena
bisnis harus memanfaatkan sejumlah besar sumber daya untuk
mengembangkannya dan kemudian memastikan bahwa itu dapat mengikuti
peningkatan Volume Data dan variasi Skema. Sebagai gantinya, bisnis dapat
menggunakan platform otomatis seperti Hevo.
F. Rangkuman
1. Dalam model evaluation terdapat beberapa factor yang termasuk
kedalamnya adalah konseptual yang terbagi menjadi 3 jenis pengambilan
data yang didasarkan pada periode waktunya, sifatnya dan cara
pengambilannya.
2. Logical database design adalah proses pembuatan suatu model informasi
yang digunakan pada perusahan berdasarkan pada model data yang
spesifik, tetapi tidak tergantung dari Database Management
System (DBMS) yang khusus dan pertimbangan fisik yang lain
128
3. Penerapan data science dapat membantu proses pengolahan data yang
meliputi pengumpulan data, manipulasi data, hingga analisis data dengan
melakukan pemodelan pada kumpulan data untuk menghasilkan
informasi berupa insight yang berguna dan bisa bisa dijadikan pedoman
dalam pengambilan keputusan di masa depan.
J. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesebelas ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
129
2. Apakah anda memahami latihan soal tersebut? YA TIDAK
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
BAB 13
Capaian Pembelajaran:
Mahasiswa mampu memahami dan menjelaskan mengenai Data Privasi dalam data science
130
Tujuan Pembelajaran:
Mahasiswa mampu menjelaskan Data Privasi dalam Data Science
131
dengan individu yang merupakan informasi sangat pribadi sehingga orang yang
bersangkutan ingin menyimpan untuk dirinya sendiri dan/atau membatasi orang
lain untuk menyebarkannya kepada pihak lain maupun menyalahgunakannya.
Secara khusus, data pribadi menggambarkan suatu informasi yang erat kaitannya
dengan seseorang yang akan membedakan karakteristik masing-masing individu.
Menurut Pasal 1 Ayat (1) RUU Perlindungan data pribadi memberikan
definisi tentang data pribadi yaitu : “Data Pribadi adalah setiap data tentang
seseorang baik yang teridentifikasi dan/atau dapat diidentifikasi secara tersendiri
atau dikombinasi dengan informasi lainnya baik secara langsung maupuntidak
langsung melalui sistem elektronik dan/atau nonelektronik”.
132
C. Proses Data Privasi
Data pribadi adalah salah satu hal yang mesti diperhatikan dan diwaspadai
dari kejahatan siber. Alasannya adalah karena data pribadi bisa disalahgunakan
oleh pihak-pihak yang tidak bertanggung jawab.
1. Memastikan data terenkripsi
Setiap situs memiliki sistem keamanan enkripsi untuk
memastikan data terkode dengan amat saat dikirimkan lewat situs
website. Contohnya seperti Secure HTTP atau yang disebut dengan
HTTPS dan sertifikasi SSL. Biasanya situs yang memiliki keamanan
enkripsi data bisa diketahui dengan alamat situs yang diawali
dengan https. Selain itu, keamanan juga bisa dilihat dengan adanya logo
gembok di kiri atas sebelah tautan situs.
2. Berhati-hati saat menggunakan jaringan Wi-Fi
Kalian harus berhati-hati ketika sedang berada di tempat umum
dan menemukan Wi-Fi yang bisa diakses secara gratis. Jaringan Wi-Fi
ini bisa disalahgunakan oleh orang yang tidak bertanggung jawab untuk
mencuri data pribadi. Biasanya menggunakan access point palsu yang
jika seseorang login maka data pribadinya akan tercuri. Hindarilah access
point yang berpotensi meminta username, password, dan informasi
pribadi lainnya.
3. Waspadai tautan phising
Saat ini banyak sekali tautan (link) yang mengatasnamakan
instansi atau organisasi. Dalam beberapa kasus, link tersebut dapat
mengarahkan ke halaman login palsu sebagai jebakan dan mencuri data
pribadi. Caranya adalah jangan asal memberikan data pribadi di situs
yang tidak tepercaya. Periksa kembali alamat (domain) situs, contohnya
untuk situs pemerintahan menggunakan domain.go.id seperti
http://ditsmp.kemdikbud.go.id/.
4. Gunakan password yang sulit ditebak
Password atau kata sandi adalah hal yang paling penting dalam
akses login. Oleh karena itu, gunakanlah kata sandi yang sulit untuk
133
ditebak. Hindari penggunaan kata sandi menggunakan tanggal lahir
ataupun nama. Selain itu, ganti kata sandi setiap tiga bulan sekali
5. Gunakan mode Incognito ketika berselancar
Saat berselancar di internet, gunakanlah mode Incognito
(penyamaran). Saat ini kebanyakan browser canggih sudah memiliki
mode ini. Di dalam mode ini akan mematikan perekaman data
ketika browsing. Browser tidak akan merekam alamat situs dan laman
yang telah dikunjungi.
Browser juga tidak dapat merekam datapribadi, seperti nama
pengguna untuk login, password, juga cache dan cookies dari situs web
yang dikunjungi.
D. Rangkuman
1. Data pribadi merupakan keterangan yang benar dan nyata yang dimiliki
oleh manusia sebaga perseorangan
2. Mencegah penyalahgunaan data pribadi oleh pihak yang tidak
bertanggung jawab
3. Data privasi secara terminology dapat dijelaskan: sebuah informasi yang
terekam (cetak/non cetak) atas ijin si pemilik data yang bersangkutan.
Pemberian data dari pemiliknya dapat mencakup:
identitas data diri, data kesehatan, data pendidikan
(formal/nonformal), data keuangan dan sebagainya.
134
2. Buatlah sistem untuk mengamankan data, berikan secara rinci cara
menggunakannya!
H. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
135
BAB 14
136
Capaian Pembelajaran:
Mahasiswa mampu memahami dan menjelaskan mengenai Praktikum dan Studi kasus
dalam data science
Tujuan Pembelajaran:
Mahasiswa mampu menjelaskan Praktikum dan studi kasus dalam data science
137
komputasi Cloud, analisis Big Data, pemrosesan Natural Language,
pembelajaran tanpa pengawasan (Unsupervised Learning) seperti analisis
Cluster, Web Scraping, teknik Fuzzy, Machine Learning, dan lain sebagainya.
Data Science dapat membantu peneliti agar dapat bekerja lebih efektif untuk
menghasilkan informasi baru yang tepat waktu, menjelajahi kumpulan data yang
benar-benar baru dengan cara baru, mengubah pemodelan simulasi, dan lain
sebagainya dengan tujuan untuk meningkatkan kuantitas dan kualitas bukti yang
diperlukan untuk membuat kebijakan yang lebih baik, memperkuat komunitas,
dan meningkatkan kehidupan masyarakat. Seseorang yang memahami Data
Science disebut Data Scientist. Seorang Data Scientist tidak harus memahami
semua kemampuan yang dibutuhkan karena biasanya Data Scientist bekerja
pada tim yang memiliki kemampuan dan keterampilan yang berbeda-beda
sehingga dapat saling melengkapi. Secara umum, keterampilan dasar terpenting
untuk Data Scientist adalah kemampuan untuk membuat kode dalam setidaknya
dua bahasa pemrograman yaitu Python dan R. Keterampilan umum lainnya yang
diperlukan oleh seorang Data Scientist adalah keterampilan organisasi yang
baik, komunikasi yang jelas, dan kemampuan untuk menguasai konsep dan
teknik baru dengan cepat.
138
untuk memperbaiki kinerjanya. Algoritma ini dapat diterapkan di
berbagai bidang.
3. Alat selanjutnya adalah Data Mining. Data Mining adalah penerapan
algoritma khusus untuk mengekstraksi pola pada sebuah kumpulan data.
Data mining berhubungan erat dengan Machine Learning. Data Mining
adalah sebuah proses yang menggunakan algoritma Machine Learning
untuk mengekstrak pola-pola informatif yang disimpan dalam kumpulan
data.
4. Alat berikutnya adalah Deep Learning. Deep Learning adalah istilah
yang relatif baru yang sedang banyak dibicarakan belakangan ini. Deep
Learning adalah proses penerapan teknologi Deep Neural Network. Deep
Neural Network adalah arsitektur jaringan saraf dengan beberapa lapisan
tersembunyi untuk memecahkan masalah.
5. Alat terakhir untuk Data Science adalah Artificial Intelligence. Artificial
Intelligence atau biasa disebut AI adalah bidang ilmu komputer yang
menekankan pada penciptaan mesin cerdas yang bekerja dan bereaksi
seperti manusia. Komponen inti dari AI adalah pemrograman komputer
untuk sifat-sifat tertentu seperti pengetahuan, penalaran, pemecahan
masalah, persepsi, pembelajaran, perencanaan, dan lain sebagainya.
D. Contoh
Setelah memahami definisi dan alat yang digunakan dalam Data Science,
saatnya kita mengenal lebih jauh ilmu data ini. Data Science dapat diterapkan di
semua bidang mulai dari bidang jurnalisme, sosial, finansial, dan lain
sebagainya. Contoh penerapan Data Science di dunia nyata adalah menggunakan
pemrosesan Natural Language dan Machine Learning pada artikel berita untuk
mengidentifikasi reformasi zonasi. Data Scientist di Pusat Kebijakan Perumahan
dan Komunitas Metropolitan Urban ingin memperkirakan dampak reformasi
zonasi pada pasokan perumahan di sejumlah wilayah metropolitan di Amerika
Serikat. Data Scientist tidak mungkin mendapatkan data historis dari ribuan
kotamadya di area metro ini, sehingga mereka menggunakan data dari lebih dari
2.000 sumber berita lokal untuk mengidentifikasi reformasi lokal. Dengan
139
menerapkan pemrosesan Natural Language dan Machine Learning, mereka
dapat menandai artikel yang menyebutkan reformasi besar dan menambahkan
metadata yang relevan seperti apakah artikel tersebut menyebutkan parkir, batas
ketinggian, atau karakteristik lainnya. Dengan menggunakan metode ini, Data
Scientist dapat mengumpulkan kumpulan data berdasarkan jenisnya.
Contoh implementasi lainnya yaitu ketika menyalin catatan pengadilan
untuk menginformasikan kebijakan pemeriksaan latar belakang kriminal. Para
Data Scientist di Pusat Kebijakan Kehakiman ingin membuat perkiraan jumlah
orang di Washington DC yang mungkin memiliki catatan kriminal. Tim Data
Scientist bekerja sama dengan tim Researcher untuk mengumpulkan data dari
alat penelusuran online Pengadilan Tinggi Washington yang digunakan oleh
para Data Scientist untuk membuat statistik mengenai latar belakang kriminal
masyarakat di Washington DC.
E. Rangkuman
1. Data pribadi merupakan keterangan yang benar dan nyata yang dimiliki
oleh manusia sebagai perseorangan yang mencegah penyalahgunaan data
pribadi oleh pihak yang tidak bertanggung jawab.
2. Data privasi secara terminology dapat dijelaskan: sebuah informasi yang
terekam (cetak/non cetak) atas ijin si pemilik data yang bersangkutan.
Pemberian data dari pemiliknya dapat mencakup
identitas data diri, data kesehatan, data Pendidikan(formal/nonformal),
data keuangan dan sebagainya
3. Alat yang digunakan dalam data science antara lain, big data, machine
learning, Data mining, deep learning, dan artificial intelegence.
140
G. Latihan Soal Praktek
3. Cari diinternet sebuah jurnal tentang studi kasus data science!
4. Buatlah sistem untuk mengamankan data, berikan secara rinci cara
menggunakannya!
I. Refleksi
REFLEKSI PEMBELAJARAN
Lakukan Refleksi terhadap diri anda sendiri setelah mengikuti kuliah dan
mempelajari materi dalam pertemuan kesembilan ini. Jawablah dengan jujur!
1. Apakah anda dapat dengan mudah memahami YA TIDAK
materi pembelajaran ini?
Jelaskan pemahaman saudara tentang isi dari tugas mandiri dan kelompok
tersebut:
141
DAFTAR PUSTAKA
BIG DATA, Makalah Big Data, http://sim-bigdata1-riamaesaroh-
septialutfi.blogspot.com/2016/12/v-behaviorurldefaultvmlo.html yang diakses pada 25
Mei 2022 pada pukul 11.26 WIB
142
PDFCOFEE.com, Makalah Big Data, https://pdfcoffee.com/makalah-big-data-7-
pdf-free.html yang diakses pada 25 Mei 2022 pada pukul 11.26 WIB
Advernesia.com, https://www.advernesia.com/blog/data-science/apa-itu-data-science-
dan-data-scientist/#:~:text=Menurut%20Chikio%20Hayashi%20dari
%20Institut,mengumpulkan%20data%2C%20dan%20analisis%20data yang diakes pada
25 Mei 2022 pada pukul 11.26 WIB
143
C. O'Neil and R. Schutt, Doing Data Science, O'Reilly, 2013, pp. 34-37.
Ian H. Witten, Eibe Frank, and Mark A. Hall. Data Mining gg: Practical Machine
Learning Tools and Techique. Morgan Kaufmann Publishers Inc., San Francisco, CA,
USA, 3rd edition, 2011.
Brownlee J., 2019. What is Deep Learning?. Diakses pada bu-lan November tahun 2019
dari https://machinelearning-mastery.com/what-is-deep-learning/
Dqlab.com, Data Science Adalah : Yuk Kenali Lebih Jauh Tentang Data Science!
https://dqlab.id/yuk-kenalan-dengan-data-science Yang diakses pada tanggal 7 Juni
2022 pada pukul 22.29 WIB
BIODATA PENULIS
144
Annisa Maisaroh Lulus dari SD Negeri Pahonjean 03 pada tahun 2014, lulus dari MTS
Negeri 1 Cilacap tahun 2017 dan lulus dari SMK Farmasi Majenang pada tahun 2020.
Saat ini sedang menempuh Pendidikan S1 di Institut Sains dan Teknologi Al-Kamal.
145
lulus dari SMKN 35 Jakarta Lulus 2017. Saat ini sedang menempuh pendidikan S1
di Institut Sains dan Teknologi Al-Kamal
146