Data analitik adalah area pekerjaan mengelola data mentah yang beragam dari berbagai
sumber, dengan jenis dan ukuran yang berbeda, menggunakan berbagai macam teknik dan alat
tertentu untuk mendapatkan sebuah kesimpulan yang nantinya akan berguna dalam memprediksi
dan mengambil keputusan yang lebih efektif dan efisien untuk kemajuan bisnis di masa
mendatang. Secara umum proses data analitik terdiri dari beberapa proses, antara lain:
a) Menentukan kebutuhan dan pengelompokkan data, berdasarkan cara apapun sesuai dengan
kebutuhan. Misalnya, usia, tempat tinggal, jenis kelamin, pekerjaan, dan sebagainya.
b) Mengumpulkan data dari berbagai sumber, seperti survey, sosial media, instansi.
c) Mengorganisir data untuk keperluan analisa.
d) Menyortir data yang tidak lengkap atau data duplikat. Hal ini bertujuan untuk mengatasi error
saat analisa dilakukan.
Data science adalah ilmu yang menggabungkan ilmu matematika, statistika dan ilmu
komputer dengan tujuan untuk memperlancar proses analisa data. Tujuan akhir dari data science
adalah menemukan insights dari data yang diperoleh yang dapat bermanfaat dalam mengambil
keputusan.
Data Science dapat membantu peneliti agar dapat bekerja lebih efektif untuk
menghasilkan informasi baru yang tepat waktu, menjelajahi kumpulan data yang benar-benar
baru dengan cara baru, mengubah pemodelan simulasi, dan lain sebagainya dengan tujuan untuk
meningkatkan kuantitas dan kualitas bukti yang diperlukan untuk membuat kebijakan yang lebih
baik, memperkuat komunitas, dan meningkatkan kehidupan masyarakat.
Cara kerja data science adalah dengan mengaplikasikan algoritma tertentu untuk
membuat sistem yang didukung kecerdasan buatan (AI) dan machine learning, hingga akhirnya
dapat difungsikan untuk proses data analytics. Jadi, proses pembentukan bagaimana cara data
tersimpan dan siap untuk dianalisis terdapat di data science. Umumnya, data science terdiri dari
komponen-komponen berikut ini:
a) Statistik, proses ini berkaitan dengan bagaimana cara pengumpulan, analisa, interpretasi, dan
penyajian data dengan menggunakan metode matematika.
b) Visualisasi data, proses ini dilakukan untuk mengubah tampilan data dalam bentuk diagram,
chart, dan grafik yang menjadikannya mudah untuk dilihat dan dipahami.
c) Machine learning, proses pembuatan machine learning adalah komponen yang paling
penting dalam proses data science, karena dapat menentukan seberapa akurat hasil data
analytics dalam memprediksi minat dan tingkah laku pelanggan.
Salah satu contoh penerapan terbesar data science adalah pada sektor industri kesehatan.
Bahkan, menurut laman Built In, ilmu data science pertama kali dikenalkan pada dunia lewat
industri kesehatan pada tahun 2008. Pada tahun tersebut, Google menemukan bahwa mereka
dapat memetakan wabah flu secara real time dengan melacak data lokasi pada pencarian terkait
flu. Peta dari CDC (Centers for Disease Control and Prevention) yang ada dari kasus flu yang
didokumentasikan, FluView, diperbarui hanya sekali seminggu. Hasilnya, Google dengan cepat
meluncurkan alat pesaing dengan pembaruan berita yang lebih up-to-date, yakni Google Flu
Trends.
Contoh penerapan data science berikutnya adalah untuk keperluan fraud detection pada
bidang finansial. Kebanyakan bank dan perusahaan berbasis finance kini menggunakan data
science untuk mengklasifikasikan, mengelompokkan, dan menyegmentasikan data yang mungkin
menandakan pola penipuan. Hal ini diperlukan guna menghindari terjadinya proses kriminalisasi
berkelanjutan di dalam sistem milik perusahaan. Sistem pakar dalam perusahaan finansial juga
bisa mengkodekan data yang mampu mendeteksi penipuan dalam bentuk-bentuk yang tak
terduga.
Contoh terakhir penerapan data science adalah pada bidang e-commerce untuk berbagai
keperluan dynamic pricing. Penetapan harga ini dibentuk oleh suatu perusahaan e-commerce
untuk mensegmentasikan pelanggan atau konsumen secara tepat. Dynamic pricing ini juga
diperlukan agar setiap kelompok pelanggan dapat ditawari produk dengan harga yang sesuai
dengan kebutuhan mereka. Penghitungan dynamic pricing pada suatu perusahaan biasanya
melihat dari berbagai macam kategori data, seperti lead time, review properti, dan fasilitas yang
disediakan produk.
Data scientist tidak hanya handal dalam menginterpretasikan data, tetapi juga memiliki
keahlian dalam bidang coding dan mathematical modeling. Pada intinya, pekerjaan dari profesi
tersebut adalah mengumpulkan dan menganalisis data, mengumpulkan ide-ide yang dapat
ditindaklanjuti, dan membagikannya kepada perusahaan.
Umumnya data scientist dibutuhkan oleh organisasi-organisasi yang telah memiliki
sistem teknologi informasi operasional sebagai sumber data. Bila “data telah menumpuk” lalu
ada kesadaran untuk mendapatkan insights yang bermanfaat, untuk organisasi bisnis (misalnya
perusahaan e-commerce, bank, transportasi dan pariwisata), insights bisa ditujukan untuk
memperbaiki organisasi.
Perbaikan itu diantaranya karyawan menjadi lebih produktif, proses bisnis menjadi lebih
efisien sehingga menurunkan biaya operasional, penjualan produk/jasa terus meningkat sehingga
menaikkan keuntungan, layanan ke pelanggan menjadi lebih memuaskan sehingga pelanggan
lebih loyal. Untuk organisasi pemerintah yang memberikan layanan kepada masyarakat,
misalnya untuk meningkatkan produktivitas pegawai dan memperbaiki layanan. Untuk
organisasi riset di bidang sains, kebutuhan akan berbeda, untuk menemukan model yang sesuai
dari data yang bermanfaat untuk melakukan prediksi di masa depan. Model itu misalnya model
prediksi panen tanaman, bencana, kebutuhan energi, kebutuhan transportasi penduduk, kerusakan
lingkungan, dan masih banyak lagi
Kemampuan Dasar Seorang Data Scientist
Pengertian Dataset
Dalam dunia data mining dan profesi yang berkaitan dengan data science umum dikenal
istilah dataset. Ilmu komputer dan teknologi informasi mengenal istilah ini untuk merujuk pada
lebih dari satu variabel data dengan korelasinya masing-masing.
Dilansir IBM, dataset diartikan sebagai kumpulan data atau dokumen yang berisi satu
atau lebih catatan (record). Setiap kelompok record ini tadi disebut sebagai dataset dan memiliki
peran untuk menyimpan informasi seperti catatan medis, asuransi, program, dan sistem data
institusi. Dataset digunakan untuk menyimpan informasi yang dibutuhkan oleh aplikasi atau
sistem operasi tertentu seperti sumber pemrograman, pustaka makro, atau variabel serta
parameter sistem.
Dataset juga dapat didefinisikan sebagai kumpulan atau himpunan data yang disajikan
dalam pola tabel. Setiap kolom dalam tabel data tersebut menggambarkan variabel tertentu
sehingga dalam satu dataset terdapat beberapa variabel. Secara teknis, dataset merupakan bagian
dari manajemen data. Sedangkan, nilai-nilai dari himpunan data ini disebut sebagai datum.
Jika disimpulkan, dataset merupakan kumpulan data yang terurut dan diperoleh dari
kumpulan informasi. Kumpulan informasi sendiri diperoleh dari pengamatan, pengukuran, studi,
atau analisis hingga menjadi data. Data bisa berupa fakta, angka, nama, atau bahkan deskripsi.
Oleh karena itu, dataset berkaitan erat dengan kegiatan data mining yang membantu para data
scientist untuk menganalisis data menjadi suatu informasi koheren.
Jenis Dataset
Dataset bertujuan untuk menguji suatu metode penelitian yang dikembangkan oleh para
pakar peneliti dengan public dataset maupun private dataset. Saat ini, dataset yang banyak
digunakan untuk penelitian data mining adalah menguji metode yang dikembangkan oleh pakar
peneliti dengan public dataset, sehingga penelitian dapat bersifat comparable (dapat
dibandingkan), repeatable (dapat diulang), dan verifiable (dapat diverifikasi).
Meski terkesan serupa, namun sejatinya dataset berbeda dengan database atau basis data.
Adapun perbedaan-perbedaan tersebut antara lain dapat dilihat dari tabel berikut.
Dataset Database
Kumpulan data terstruktur yang umumnya Kumpulan data terorganisasi yang disimpan
dikaitkan dengan kumpulan pekerjaan atau sebagai beberapa dataset
proyek unik
Umumnya satuan atau kelompok datanya Disimpan dan diakses secara elektronik dari
tidak bisa diperbarui maupun diubah sistem komputer dengan kemudahan akses,
pembaruan, dan manipulasi
Terdiri dari beberapa fakta pengukuran dan Terdiri dari berbagai tipe perencanaan,
observasi operasi, dan juga diperkuat oleh SQL
Berorientasi terpisah dan dapat diakses secara Umumnya hanya bisa diakses dengan
offline. konektivitas komputasi dan berbasis
penyimpanan seperti cloud.
Tipe Dataset
Di lapangan, ada berbagai macam bentuk dataset yang dapat digunakan untuk menunjang
proses pengolahan data, antara lain:
a) Numerical Dataset
Kumpulan data yang berisikan angka-angka, dimana numerical dataset kerap kali dikenal
dengan data kuantitatif. Data ini bersifat numerik dimana dataset ini dapat membantu
menghasilkan insight untuk kebutuhan bisnis. Data yang dianalisis dapat berupa data
statistik, data hasil survei, data perusahaan, dan lain-lain. Contohnya, saat mengumpulkan
data-data usia dari pasien, tentunya data yang digunakan adalah Numerical Dataset dimana
data yang kamu peroleh hanya berupa angka umur pasien.
b) Correlation Dataset
Dataset yang memiliki korelasi atau kesinambungan. Data tersebut saling terhubung satu
dengan yang lainnya. Salah satu contohnya adalah, pengumpulan data toko kopi dan toko
susu, jika penjualan kopi meningkat akan berkesinambungan dengan toko penjual susu
karena saat ini sedang marak es kopi susu yang cukup trend pada masa kini.
c) Categorical Dataset
Dataset ini merupakan data yang menggabungkan banyak data kedalam beberapa kategori
atau pengelompokkan. Contoh sederhananya adalah gender dimana data yang dimiliki dapat
dikategorikan apakah data perempuan maupun data laki-laki.
d) Bivariate Dataset
Bivariate dataset merupakan data dengan dua variabel. Jadi kedua jenis data ini hanya
menggambarkan dua variabel saja. Contohnya, jika ingin menghitung bonus gaji karyawan
bisa mengukur dengan dua variabel ini, (1) Target yang dicapai oleh karyawan tersebut dan
(2) Jumlah keuntungan yang diraih perbulannya. Karena kedua data tersebut saling
berhubungan, maka data tersebut dapat dikatakan Bivariate Dataset.
e) Multivariate Dataset
Jika sebelumnya kita membahas bivariate dimana ada dua variabel, untuk multivariate ini
lebih dari dua variabel yang digunakan. Salah satu contoh sederhana adalah data mahasiswa
di universitas, tentunya kamu perlu beberapa data diantaranya nama, umur, alamat dan
lulusan dari sekolah apa.
Kualitas Data
Dari segi data statistik, terdapat beberapa tipe atribut, antara lain:
a) Nominal.
Nilai atribut bertipe nominal tersusun atas simbol-simbol yang berbeda, yaitu suatu
himpunan terbatas. Pada tipe nominal, tidak ada urutan ataupun jarak antar atribut. Tipe ini
sering juga disebut kategorial atau enumerasi. Secara umum, tipe output pada supervised
learning adalah data nominal.
b) Ordinal.
Nilai ordinal memiliki urutan, sebagai contoh 4 > 2 > 1. Tetapi jarak antar suatu tipe dan nilai
lainnya tidak harus selalu sama, seperti 4-2 ≠ 2-1. Atribut ordinal kadang disebut sebagai
numerik atau kontinu.
c) Interval.
Tipe interval memiliki urutan dan range nilai yang sama. Sebagai contoh 1-5, 6-10, dst. Kita
dapat mentransformasikan/mengkonversi nilai numerik menjadi nominal dengan cara
merubahnya menjadi interval terlebih dahulu. Lalu, kita dapat memberikan nama (simbol)
untuk masing-masing interval. Misalkan nilai numerik dengan range 1 − 100 dibagi menjadi
5 kategori dengan masing-masing interval adalah {1 − 20, 21 − 40, . . . , 81 − 100}. Setiap
interval kita beri nama, misal interval 81 − 100 diberi nama nilai A, interval 61 − 80 diberi
nama nilai B.
d) Ratio.
Tipe ratio (rasio) didefinisikan sebagai perbandingan antara suatu nilai dengan nilai lainnya,
misalkan massa jenis (fisika).
Seorang anak ingin bermain tenis, tetapi keputusannya untuk bermain tenis (play)
tergantung pada empat variabel, outlook, temperature, humidity, windy. Keempat variabel ini
disebut fitur. Setiap fitur memiliki atribut nilai dengan tipe data dan range tertentu. Keputusan
untuk bermain (play) disebut sebagai label atau kelas (class). Pada supervised learning, kita
ingin mengklasifikasikan apakah seorang anak akan bermain atau tidak, diberikan fitur-fitur yang
memuat kondisi observasi.
Supervised Learning dalam bahasa indonesia adalah pembelajaran yang ada
supervisornya atau label di tiap data nya. Label maksudnya adalah tag dari data yang
ditambahkan dalam machine learning model. Supervised learning banyak digunakan dalam
memprediksi pola dimana pola tersebut sudah ada contoh data yang lengkap, jadi pola yang
terbentuk adalah hasil pembelajaran data lengkap tersebut.
DAFTAR PUSTAKA
Perbedaan Data Analitik dan Data Analisis. Algoritma. 2022. Diakses pada tanggal 23
September 2022. algorit.ma/blog/data-analitik-vs-data-analisis-2022/
Data Analytics dan Data Science: Apa Perbedaannya. Phintraco Group. 2021. Diakses pada
tanggal 23 September 20222. phintraco.com/perbedaan-data-analytics-dan-data-science/
Data Science: Arti, Manfaat, Proses, dan Contoh Penerapannya. Nadiyah Rahmalia melalui
Glints Blog. 2022. Diakses pada tanggal 23 September 2022.
glints.com/id/lowongan/data-science-adalah
Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science. DQ Lab. 2020. Diakses
pada tanggal 23 September 2022. dqlab.id/yuk-kenalan-dengan-data-science
Modul Ajar 1 dan 2: Data Analytics dan Data Science. Tri Santosa Wijanarko. 2022. STIE
Widya Manggala