Anda di halaman 1dari 15

TUGAS 1

BISNIS ANALITIK & BIG DATA


(tugas sebagai pengganti kehadiran tanggal 22 September 2022)

Data Analitik, Apa Itu?

Data analitik adalah area pekerjaan mengelola data mentah yang beragam dari berbagai
sumber, dengan jenis dan ukuran yang berbeda, menggunakan berbagai macam teknik dan alat
tertentu untuk mendapatkan sebuah kesimpulan yang nantinya akan berguna dalam memprediksi
dan mengambil keputusan yang lebih efektif dan efisien untuk kemajuan bisnis di masa
mendatang. Secara umum proses data analitik terdiri dari beberapa proses, antara lain:
a) Menentukan kebutuhan dan pengelompokkan data, berdasarkan cara apapun sesuai dengan
kebutuhan. Misalnya, usia, tempat tinggal, jenis kelamin, pekerjaan, dan sebagainya.
b) Mengumpulkan data dari berbagai sumber, seperti survey, sosial media, instansi.
c) Mengorganisir data untuk keperluan analisa.
d) Menyortir data yang tidak lengkap atau data duplikat. Hal ini bertujuan untuk mengatasi error
saat analisa dilakukan.

Tipe-Tipe Data Analitik

Tipe-tipe data analitik dapat dikombinasikan untuk memberikan pemahaman menyeluruh


tentang kebutuhan dan peluang perusahaan. Terdapat empat tipe utama data analitik, antara lain:
a) Analisis Deskriptif - “Apa yang terjadi?”
Analisis ini merangkum kumpulan data besar dengan memberikan hasil berupa visualisasi ke
stakeholder. Matriks yang paling banyak digunakan adalah ROI (Return of Investment).
Perusahaan juga biasanya memiliki matriks lain yang lebih spesifik untuk melacak kinerja
tertentu.
b) Analisis Diagnostik - “Mengapa sesuatu terjadi?”
Analisis ini melengkapi hasil dari analisis deskriptif dengan menggali lebih dalam untuk
menemukan penyebabnya. Analisis ini biasanya dilakukan dalam tiga tahap, yaitu
mengidentifikasi anomali data (perubahan tidak terduga dalam pasar tertentu),

1
mengumpulkan data anomali, dan menggunakan teknik statistik untuk menemukan hubungan
serta tren yang menjelaskan anomali tersebut.
c) Analisis Prediktif - “Apa yang akan terjadi di masa depan?”
Analisis ini menggunakan data historis untuk mengidentifikasi tren dan menentukan apakah
tren tersebut cenderung berulang atau tidak. Analisis ini menggunakan teknik statistik dan
machine learning untuk analisis lanjutan, seperti regresi, neural networks, dan decision trees.
d) Analisis Preskriptif - “Apa yang harus dilakukan?”
Analisis ini menggunakan hasil dari analisis prediktif untuk membuat keputusan dan langkah
yang tepat. Teknik dalam analisis ini mengandalkan machine learning untuk menemukan
pola dalam kumpulan data yang besar.

Kegunaan Data Analitik

Data analitik dapat membantu perusahaan untuk meningkatkan pendapatan, mengoptimalkan


program pemasarannya, dan juga meningkatkan layanan untuk pelanggan, alias meningkatkan
performa bisnis sebuah perusahaan. Berikut berbagai kegunaan data analitik bagi sebuah
perusahaan:
a) Mempermudah perhitungan statistik data penting perusahaan.
b) Waktu perhitungan dan analisa data semakin efisien.
c) Memberikan solusi untuk kepentingan bisnis yang tepat sasaran.
d) Hasil perhitungan dan analisa akurat dan dapat dipercaya (reliabel), mengurangi resiko
kesalahan dalam proses analisa dan statistika.
e) Membantu riset pasar sebuah bisnis dalam mengetahui keinginan dan kemampuan pasar
dalam merespon produk perusahaan.

Apa itu Data Science?

Data science adalah ilmu yang menggabungkan ilmu matematika, statistika dan ilmu
komputer dengan tujuan untuk memperlancar proses analisa data. Tujuan akhir dari data science
adalah menemukan insights dari data yang diperoleh yang dapat bermanfaat dalam mengambil
keputusan.

2
Data Science dapat membantu peneliti agar dapat bekerja lebih efektif untuk
menghasilkan informasi baru yang tepat waktu, menjelajahi kumpulan data yang benar-benar
baru dengan cara baru, mengubah pemodelan simulasi, dan lain sebagainya dengan tujuan untuk
meningkatkan kuantitas dan kualitas bukti yang diperlukan untuk membuat kebijakan yang lebih
baik, memperkuat komunitas, dan meningkatkan kehidupan masyarakat.
Cara kerja data science adalah dengan mengaplikasikan algoritma tertentu untuk
membuat sistem yang didukung kecerdasan buatan (AI) dan machine learning, hingga akhirnya
dapat difungsikan untuk proses data analytics. Jadi, proses pembentukan bagaimana cara data
tersimpan dan siap untuk dianalisis terdapat di data science. Umumnya, data science terdiri dari
komponen-komponen berikut ini:
a) Statistik, proses ini berkaitan dengan bagaimana cara pengumpulan, analisa, interpretasi, dan
penyajian data dengan menggunakan metode matematika.
b) Visualisasi data, proses ini dilakukan untuk mengubah tampilan data dalam bentuk diagram,
chart, dan grafik yang menjadikannya mudah untuk dilihat dan dipahami.
c) Machine learning, proses pembuatan machine learning adalah komponen yang paling
penting dalam proses data science, karena dapat menentukan seberapa akurat hasil data
analytics dalam memprediksi minat dan tingkah laku pelanggan.

Proses Data Science

Menurut Towards Data Science, menjelaskan proses data science adalah hal yang tidak
mudah. Namun, kira-kira prosesnya dapat dirangkum dalam lima poin OSEMN sebagai berikut:
a) Obtain
Langkah pertama untuk memulai sebuah proyek data science adalah obtain, yaitu
mendapatkan atau mengumpulkan data dari berbagai sumber sesuai dengan tipe dan ukuran
data yang dibutuhkan.
b) Scrub
Scrubbing adalah proses pembersihan atau filter data, terutama apabila terdapat data yang
tidak penting atau tidak relevan. Pada tahap ini, juga ditentukan standarisasi format. Dari
format yang beragam di tahap pertama, seluruh data harus dikonversi ke satu format yang
sama. Data yang tidak sesuai, kurang atau hilang, dapat dilakukan penyesuaian agar dapat
diproses. Pada dasarnya, scrubbing merupakan proses mengatur, merapikan data, serta

3
membuang apa pun yang tidak diperlukan, dan mengganti data yang hilang serta
menstandarisasi seluruh formatnya.
c) Explore
Pada tahap ini, penggalian dan pemeriksaan data dilakukan. Pertama-tama, semua data harus
diperiksa propertinya, karena tipe data yang berbeda memerlukan perlakuan yang berbeda
pula. Kemudian, statistik deskriptif harus dihitung untuk dapat mengekstrak fitur dan
menguji variabel yang signifikan. Terakhir, visualisasi data digunakan untuk
mengidentifikasi pola dan tren signifikan dalam data yang sudah didapatkan. Dengan begitu,
bisa diperoleh gambaran yang lebih jelas dengan grafik agar pentingnya data dapat lebih
dipahami.
d) Model
Pada tahap ini, dibuat model data untuk mencapai tujuan yang diinginkan dengan
menggunakan regresi dan prediksi untuk memperkirakan nilai di waktu mendatang serta
melakukan klasifikasi dan pengelompokan grup nilai dari data.
e) Interpretation
Output dari pengolahan data yang diinterpretasi harus bisa dipahami oleh orang-orang awam
yang tidak mengerti istilah teknis. Presentasinya bertujuan untuk menjawab persoalan bisnis
berdasarkan data yang diperoleh. Pada tahap interpretasi data, kemampuan komunikasi yang
baik juga sangat dibutuhkan untuk menyampaikan poin-poin pentingnya secara efektif pada
semua orang yang berkepentingan.

Penerapan Data Science

Salah satu contoh penerapan terbesar data science adalah pada sektor industri kesehatan.
Bahkan, menurut laman Built In, ilmu data science pertama kali dikenalkan pada dunia lewat
industri kesehatan pada tahun 2008. Pada tahun tersebut, Google menemukan bahwa mereka
dapat memetakan wabah flu secara real time dengan melacak data lokasi pada pencarian terkait
flu. Peta dari CDC (Centers for Disease Control and Prevention) yang ada dari kasus flu yang
didokumentasikan, FluView, diperbarui hanya sekali seminggu. Hasilnya, Google dengan cepat
meluncurkan alat pesaing dengan pembaruan berita yang lebih up-to-date, yakni Google Flu
Trends.

4
Contoh penerapan data science berikutnya adalah untuk keperluan fraud detection pada
bidang finansial. Kebanyakan bank dan perusahaan berbasis finance kini menggunakan data
science untuk mengklasifikasikan, mengelompokkan, dan menyegmentasikan data yang mungkin
menandakan pola penipuan. Hal ini diperlukan guna menghindari terjadinya proses kriminalisasi
berkelanjutan di dalam sistem milik perusahaan. Sistem pakar dalam perusahaan finansial juga
bisa mengkodekan data yang mampu mendeteksi penipuan dalam bentuk-bentuk yang tak
terduga.
Contoh terakhir penerapan data science adalah pada bidang e-commerce untuk berbagai
keperluan dynamic pricing. Penetapan harga ini dibentuk oleh suatu perusahaan e-commerce
untuk mensegmentasikan pelanggan atau konsumen secara tepat. Dynamic pricing ini juga
diperlukan agar setiap kelompok pelanggan dapat ditawari produk dengan harga yang sesuai
dengan kebutuhan mereka. Penghitungan dynamic pricing pada suatu perusahaan biasanya
melihat dari berbagai macam kategori data, seperti lead time, review properti, dan fasilitas yang
disediakan produk.

Perbedaan Data Analytics dan Data Science

Perbedaan data analytics dan data science terletak pada scope yang dikerjakan. Data
analytics merupakan bagian dari tahap pengelolaan data science. Apa yang terjadi sebelum dan
sesudah proses data analytics adalah bagian dari data science.
Peran data science diperlukan sebelum proses data analytics dapat dilakukan, karena
hasil dari pekerjaan data science dapat menentukan seberapa akurat hasil analisa yang akan
dihasilkan nantinya.
Baik data analytics dan data science sama-sama berkaitan dengan sekumpulan data
dalam jumlah banyak. Pada intinya, perbedaan data analytics dan data science terletak pada apa
yang dilakukan dengan data yang tersedia.
Jika disimpulkan secara singkat, data science berperan untuk membangun dan merancang
proses baru. Hal tersebut dilakukan agar dapat menghasilkan pemodelan data dengan
penggunaan algoritma untuk membuat custom analysis yang sesuai dan menghasilkan analisa
yang efektif dan akurat.
Sedangkan, data analytics dilakukan setelah proses data science sudah rampung –
difungsikan guna memeriksa data dalam jumlah besar untuk mengetahui tren dan membuat

5
kesimpulan yang berkaitan dengan hasil analisa. Selanjutnya, kesimpulan tersebut difungsikan
untuk membantu perusahaan menyusun strategi bisnis yang lebih baik.

Pengertian Data Scientist

Data scientist tidak hanya handal dalam menginterpretasikan data, tetapi juga memiliki
keahlian dalam bidang coding dan mathematical modeling. Pada intinya, pekerjaan dari profesi
tersebut adalah mengumpulkan dan menganalisis data, mengumpulkan ide-ide yang dapat
ditindaklanjuti, dan membagikannya kepada perusahaan.
Umumnya data scientist dibutuhkan oleh organisasi-organisasi yang telah memiliki
sistem teknologi informasi operasional sebagai sumber data. Bila “data telah menumpuk” lalu
ada kesadaran untuk mendapatkan insights yang bermanfaat, untuk organisasi bisnis (misalnya
perusahaan e-commerce, bank, transportasi dan pariwisata), insights bisa ditujukan untuk
memperbaiki organisasi.
Perbaikan itu diantaranya karyawan menjadi lebih produktif, proses bisnis menjadi lebih
efisien sehingga menurunkan biaya operasional, penjualan produk/jasa terus meningkat sehingga
menaikkan keuntungan, layanan ke pelanggan menjadi lebih memuaskan sehingga pelanggan
lebih loyal. Untuk organisasi pemerintah yang memberikan layanan kepada masyarakat,
misalnya untuk meningkatkan produktivitas pegawai dan memperbaiki layanan. Untuk
organisasi riset di bidang sains, kebutuhan akan berbeda, untuk menemukan model yang sesuai
dari data yang bermanfaat untuk melakukan prediksi di masa depan. Model itu misalnya model
prediksi panen tanaman, bencana, kebutuhan energi, kebutuhan transportasi penduduk, kerusakan
lingkungan, dan masih banyak lagi

Kemampuan Dasar Seorang Data Scientist

Berdasarkan definisi data scientist yang telah disampaikan sebelumnya, dapat


disimpulkan bahwa seorang data scientist dituntut memiliki kreativitas dan kecerdasan dalam
menggunakan kemampuan teknisnya untuk membangun dan menemukan solusi yang cerdas
untuk setiap permasalahan.

6
Alat yang Digunakan Data Science
Dalam prosesnya, data science menggunakan beberapa alat untuk menghasilkan
visualisasi dan tujuan akhirnya, antara lain:
a) Big Data
Dengan menggunakan Big Data, data scientist dapat membantu perusahaan untuk
memprediksi produk apa yang akan dijual, membantu perusahaan telekomunikasi untuk
memprediksi kapan dan mengapa pelanggan mengganti operator, dan membantu perusahaan
asuransi mobil untuk memahami seberapa baik pelanggan mereka mengemudi, memprediksi
penyebaran dan lain sebagainya.
b) Machine Learning
Machine Learning bersifat interdisipliner dan menggunakan teknik dari bidang ilmu
komputer, statistik, dan Artificial Intelligence. Komponen utama machine learning adalah
algoritma yang dapat belajar secara otomatis dari pengalaman untuk memperbaiki
kinerjanya. Algoritma ini dapat diterapkan di berbagai bidang.
c) Data Mining
Data Mining adalah suatu proses pengumpulan informasi penting dari suatu data yang besar,
yang sering kali menggunakan metode statistika, matematika, machine learning hingga

7
memanfaatkan teknologi artificial intelligence. Data Mining adalah sebuah proses yang
menggunakan algoritma machine learning untuk mengekstrak pola-pola informatif yang
disimpan dalam kumpulan data.
d) Deep Learning
Deep Learning adalah istilah yang relatif baru yang sedang banyak dibicarakan belakangan
ini. Deep Learning adalah proses penerapan teknologi Deep Neural Network. Deep Neural
Network adalah arsitektur jaringan saraf dengan beberapa lapisan tersembunyi untuk
memecahkan masalah.
e) Artificial Intelligence
Artificial Intelligence atau biasa disebut AI adalah bidang ilmu komputer yang menekankan
pada penciptaan mesin cerdas yang bekerja dan bereaksi seperti manusia. Komponen inti dari
AI adalah pemrograman komputer untuk sifat-sifat tertentu seperti pengetahuan, penalaran,
pemecahan masalah, persepsi, pembelajaran, perencanaan, dan lain sebagainya.

Pengertian Dataset

Dalam dunia data mining dan profesi yang berkaitan dengan data science umum dikenal
istilah dataset. Ilmu komputer dan teknologi informasi mengenal istilah ini untuk merujuk pada
lebih dari satu variabel data dengan korelasinya masing-masing.
Dilansir IBM, dataset diartikan sebagai kumpulan data atau dokumen yang berisi satu
atau lebih catatan (record). Setiap kelompok record ini tadi disebut sebagai dataset dan memiliki
peran untuk menyimpan informasi seperti catatan medis, asuransi, program, dan sistem data
institusi. Dataset digunakan untuk menyimpan informasi yang dibutuhkan oleh aplikasi atau
sistem operasi tertentu seperti sumber pemrograman, pustaka makro, atau variabel serta
parameter sistem.
Dataset juga dapat didefinisikan sebagai kumpulan atau himpunan data yang disajikan
dalam pola tabel. Setiap kolom dalam tabel data tersebut menggambarkan variabel tertentu
sehingga dalam satu dataset terdapat beberapa variabel. Secara teknis, dataset merupakan bagian
dari manajemen data. Sedangkan, nilai-nilai dari himpunan data ini disebut sebagai datum.
Jika disimpulkan, dataset merupakan kumpulan data yang terurut dan diperoleh dari
kumpulan informasi. Kumpulan informasi sendiri diperoleh dari pengamatan, pengukuran, studi,
atau analisis hingga menjadi data. Data bisa berupa fakta, angka, nama, atau bahkan deskripsi.

8
Oleh karena itu, dataset berkaitan erat dengan kegiatan data mining yang membantu para data
scientist untuk menganalisis data menjadi suatu informasi koheren.

Jenis Dataset

Dataset terdiri dari dua jenis, antara lain:


a) Private dataset, yang dapat diambil dari sebuah organisasi yang akan dilakukan sebagai
objek penelitian, seperti data bank, rumah sakit, sekolah, universitas, perusahaan, dan lain
sebagainya.
b) Public dataset, yang bisa diambil dari repository publik yang disepakati oleh pakar peneliti
data mining.

Tujuan dan Kegunaan Dataset

Dataset bertujuan untuk menguji suatu metode penelitian yang dikembangkan oleh para
pakar peneliti dengan public dataset maupun private dataset. Saat ini, dataset yang banyak
digunakan untuk penelitian data mining adalah menguji metode yang dikembangkan oleh pakar
peneliti dengan public dataset, sehingga penelitian dapat bersifat comparable (dapat
dibandingkan), repeatable (dapat diulang), dan verifiable (dapat diverifikasi).

Perbedaan Dataset dan Database

Meski terkesan serupa, namun sejatinya dataset berbeda dengan database atau basis data.
Adapun perbedaan-perbedaan tersebut antara lain dapat dilihat dari tabel berikut.

Dataset Database

Kumpulan data terstruktur yang umumnya Kumpulan data terorganisasi yang disimpan
dikaitkan dengan kumpulan pekerjaan atau sebagai beberapa dataset
proyek unik

Umumnya satuan atau kelompok datanya Disimpan dan diakses secara elektronik dari
tidak bisa diperbarui maupun diubah sistem komputer dengan kemudahan akses,
pembaruan, dan manipulasi

9
Terdiri dari beberapa fakta pengukuran dan Terdiri dari berbagai tipe perencanaan,
observasi operasi, dan juga diperkuat oleh SQL

Berorientasi terpisah dan dapat diakses secara Umumnya hanya bisa diakses dengan
offline. konektivitas komputasi dan berbasis
penyimpanan seperti cloud.

Tipe Dataset

Di lapangan, ada berbagai macam bentuk dataset yang dapat digunakan untuk menunjang
proses pengolahan data, antara lain:
a) Numerical Dataset
Kumpulan data yang berisikan angka-angka, dimana numerical dataset kerap kali dikenal
dengan data kuantitatif. Data ini bersifat numerik dimana dataset ini dapat membantu
menghasilkan insight untuk kebutuhan bisnis. Data yang dianalisis dapat berupa data
statistik, data hasil survei, data perusahaan, dan lain-lain. Contohnya, saat mengumpulkan
data-data usia dari pasien, tentunya data yang digunakan adalah Numerical Dataset dimana
data yang kamu peroleh hanya berupa angka umur pasien.
b) Correlation Dataset
Dataset yang memiliki korelasi atau kesinambungan. Data tersebut saling terhubung satu
dengan yang lainnya. Salah satu contohnya adalah, pengumpulan data toko kopi dan toko
susu, jika penjualan kopi meningkat akan berkesinambungan dengan toko penjual susu
karena saat ini sedang marak es kopi susu yang cukup trend pada masa kini.
c) Categorical Dataset
Dataset ini merupakan data yang menggabungkan banyak data kedalam beberapa kategori
atau pengelompokkan. Contoh sederhananya adalah gender dimana data yang dimiliki dapat
dikategorikan apakah data perempuan maupun data laki-laki.
d) Bivariate Dataset
Bivariate dataset merupakan data dengan dua variabel. Jadi kedua jenis data ini hanya
menggambarkan dua variabel saja. Contohnya, jika ingin menghitung bonus gaji karyawan
bisa mengukur dengan dua variabel ini, (1) Target yang dicapai oleh karyawan tersebut dan

10
(2) Jumlah keuntungan yang diraih perbulannya. Karena kedua data tersebut saling
berhubungan, maka data tersebut dapat dikatakan Bivariate Dataset.
e) Multivariate Dataset
Jika sebelumnya kita membahas bivariate dimana ada dua variabel, untuk multivariate ini
lebih dari dua variabel yang digunakan. Salah satu contoh sederhana adalah data mahasiswa
di universitas, tentunya kamu perlu beberapa data diantaranya nama, umur, alamat dan
lulusan dari sekolah apa.

Kualitas Data

Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”,


pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate),
lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan
peraturan bisnis dan relevan. Ada beberapa kesalahan yang berpotensi mempengaruhi kualitas
data, antara lain:
a) Kesalahan Pengukuran (Measurement Error)
Kesalahan ini mengacu kepada hasil dari proses pengukuran, dimana nilai yang dicatat
berbeda dari nilai sebenarnya. Ada beberapa tipe kesalahan pengukuran, antara lain:
1) Noise, merupakan komponen random dari suatu error pengukuran. Noise berkaitan
dengan modifikasi dari nilai asli. Misalnya, distorsi atau penyimpangan dari suara orang
saat berbicara ditelepon buruk, dan “snow/semut” pada layar televisi.
2) Bias, merupakan suatu variasi pengukuran dari kuantitas yang sedang diukur dengan
pengurangan antara mean dan nilai kuantitas yang diketahui.
3) Precision, merupakan kedekatan dari pengukuran berulang (dari kuantitas yang sama)
satu dengan yang lainnya, biasanya diukur dengan standar deviasi.
4) Accuracy, merupakan kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas
yang sedang diukur.
b) Kesalahan Pengumpulan (Collection Error)
Kesalahan in mengacu pada kesalahan-kesalahan (error) seperti hilangnya objek data atau
nilai atribut, atau lingkup objek data yang tidak tepat. Adapun yang termasuk dalam jenis
kesalahan pengumpulan, antara lain:

11
1) Outliers, merupakan objek data dengan sifat yang berbeda sekali dari kebanyakan objek
dalam dataset.
2) Missing value, merupakan nilai dari suatu atribut yang tidak ditemukan. Dapat berupa (1)
informasi tidak diperoleh, seperti menolak memberikan informasi umur dan berat badan;
(2) atribut yang tidak mungkin diterapkan ke semua kasus, seperti pendapatan tahunan
tidak bisa diterapkan ke anak-anak; (3) duplikat dataset, yang mungkin terdiri dari objek
ganda dan duplikasi dengan yang lainnya karena sumber yang bervariasi (heterogen).

Nilai Atribut dan Transformasi

Dari segi data statistik, terdapat beberapa tipe atribut, antara lain:
a) Nominal.
Nilai atribut bertipe nominal tersusun atas simbol-simbol yang berbeda, yaitu suatu
himpunan terbatas. Pada tipe nominal, tidak ada urutan ataupun jarak antar atribut. Tipe ini
sering juga disebut kategorial atau enumerasi. Secara umum, tipe output pada supervised
learning adalah data nominal.
b) Ordinal.
Nilai ordinal memiliki urutan, sebagai contoh 4 > 2 > 1. Tetapi jarak antar suatu tipe dan nilai
lainnya tidak harus selalu sama, seperti 4-2 ≠ 2-1. Atribut ordinal kadang disebut sebagai
numerik atau kontinu.
c) Interval.
Tipe interval memiliki urutan dan range nilai yang sama. Sebagai contoh 1-5, 6-10, dst. Kita
dapat mentransformasikan/mengkonversi nilai numerik menjadi nominal dengan cara
merubahnya menjadi interval terlebih dahulu. Lalu, kita dapat memberikan nama (simbol)
untuk masing-masing interval. Misalkan nilai numerik dengan range 1 − 100 dibagi menjadi
5 kategori dengan masing-masing interval adalah {1 − 20, 21 − 40, . . . , 81 − 100}. Setiap
interval kita beri nama, misal interval 81 − 100 diberi nama nilai A, interval 61 − 80 diberi
nama nilai B.
d) Ratio.
Tipe ratio (rasio) didefinisikan sebagai perbandingan antara suatu nilai dengan nilai lainnya,
misalkan massa jenis (fisika).

12
Lebih mudahnya, tipe atribut terjadi pada diagram berikut

Studi Kasus

Contoh dataset play tennis

13
Seorang anak ingin bermain tenis, tetapi keputusannya untuk bermain tenis (play)
tergantung pada empat variabel, outlook, temperature, humidity, windy. Keempat variabel ini
disebut fitur. Setiap fitur memiliki atribut nilai dengan tipe data dan range tertentu. Keputusan
untuk bermain (play) disebut sebagai label atau kelas (class). Pada supervised learning, kita
ingin mengklasifikasikan apakah seorang anak akan bermain atau tidak, diberikan fitur-fitur yang
memuat kondisi observasi.
Supervised Learning dalam bahasa indonesia adalah pembelajaran yang ada
supervisornya atau label di tiap data nya. Label maksudnya adalah tag dari data yang
ditambahkan dalam machine learning model. Supervised learning banyak digunakan dalam
memprediksi pola dimana pola tersebut sudah ada contoh data yang lengkap, jadi pola yang
terbentuk adalah hasil pembelajaran data lengkap tersebut.

14
DAFTAR PUSTAKA

Perbedaan Data Analitik dan Data Analisis. Algoritma. 2022. Diakses pada tanggal 23
September 2022. algorit.ma/blog/data-analitik-vs-data-analisis-2022/
Data Analytics dan Data Science: Apa Perbedaannya. Phintraco Group. 2021. Diakses pada
tanggal 23 September 20222. phintraco.com/perbedaan-data-analytics-dan-data-science/
Data Science: Arti, Manfaat, Proses, dan Contoh Penerapannya. Nadiyah Rahmalia melalui
Glints Blog. 2022. Diakses pada tanggal 23 September 2022.
glints.com/id/lowongan/data-science-adalah
Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science. DQ Lab. 2020. Diakses
pada tanggal 23 September 2022. dqlab.id/yuk-kenalan-dengan-data-science
Modul Ajar 1 dan 2: Data Analytics dan Data Science. Tri Santosa Wijanarko. 2022. STIE
Widya Manggala

15

Anda mungkin juga menyukai