Makalah Data Science

RINGKASAN TENTANG DATA SCIENCE
MAKALAH DATA SCIENCE
Disusun oleh:
Rifqi Mulyawan 21.55.1029
PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

UNIVERSITAS AMIKOM YOGYAKARTA
2021
Daftar Isi
Daftar Isi.............................................................................................................i
Sekilas tentang Data Science (Ilmu Data).........................................................2
Mengenal Business Analytics dan Data Analytic dalam Data Science.............3
2
Apa itu Data, Informasi, dan Pengetahuan?......................................................5

Statistika Deskriptif dalam Data Science..........................................................6
Mean, Modus, Standar Deviasi dalam Statistika.................................................................6
Apa Perbedaan Data Science dengan Artificial Intelligence (AI)?.................10

Apa Perbedaan Data Mining dengan Machine Learning?..............................11
Data Science dan Algoritma Klasifikasi.........................................................13
a. K-Nearest Neighbour.....................................................................................................13
b. Algrotima C4.5...............................................................................................................16
c. Naive Bayes....................................................................................................................18
d. Jaringan Syaraf Tiruan...................................................................................................19
Deep Learning dan Data Science....................................................................21

Metode Regresi dan Regresi Linier.................................................................22
Algoritma Clustering dan K-Means Clustering..............................................23
Algoritma Association Rule dan Apriori.........................................................26
Daftar Pustaka.................................................................................................30
Sekilas tentang Data Science (Ilmu Data)
Kemajuan teknologi dan perubahan terkait dalam kehidupan praktis sehari-hari telah
menghasilkan perkembangan yang pesat dunia parallel konten baru, data baru, dan
sumber informasi baru di sekitar kita.
Terlepas dari bagaimana seseorang mendefinisikannya, fenomena atau istilah big data
semakin hadir, semakin meresap, dan semakin penting.
Di sana adalah potensi nilai yang sangat besar dalam istilah yang kita kenal dengan big
data termasuk seperti wawasan inovatif, pemahaman yang lebih baik tentang masalah,
dan banyak lagi hal-hal lainnya.
Itu juga dapat memberi peluang untuk memprediksi, dan bahkan untuk membentuk
masa depan itu sendiri.
Secara umum, data science adalah sarana utama untuk menemukan dan menekankan
akan potensi itu, istilah yang berarti ilmu data dalam bahasa indonesia ini menyediakan
cara untuk menangani dan memanfaatkan kumpulan data besar untuk melihat pola,
untuk menemukan relasi serta untuk memahami berbagai gambar dan informasi yang
memukau.
Tidak semua orang telah mempelajari analisis statistik secara mendalam, dan juga
orang-orang yang memiliki gelar lanjutan dalam matematika terapan bukanlah
komuditasnya.
Di luar sana, terbilang cukup sedikit organisasi yang menggunakan sumber daya untuk
kumpulan data yang besar, dimana itu dikumpulkan terutama untuk tujuan analisis
eksplorasi.
Namun, saat menerapkan praktik data science, khususnya untuk big data dapat menjadi
strategi pembeda yang berharga saat ini, terlebih itu akan menjadi kompetensi inti
standar dalam waktu singkat.
Mengenal Business Analytics dan Data Analytic dalam Data
Science
Business analytics secara bahasa berarti analisis bisnis, ini adalah serangkaian praktik,
alat, dan layanan analisis data otomatis yang membantu kita memahami apa yang
terjadi dalam bisnis dan alasannya, untuk meningkatkan pengambilan keputusan dan
membantu merencanakan masa depan.
Adapun contoh dari business analytics dan penerapannya ini yaitu seperti perusahaan
pemesanan makanan online menginginkan wawasan baru yang dapat meningkatkan
produktivitas dan merampingkan operasi komersial.
Perusahaan tersebut menerapkan dasbor yang memberikan akses waktu nyata ke siklus
hidup pelanggannya, dimana ini menghasilkan data yang memfasilitasi perampingan
kegiatan penjualan dan kampanye pemasaran, sehingga mencapai tujuan untuk
meningkatkan produktivitas.
Istilah business analytics ini juga sering digunakan dalam kaitannya data analytics yaitu
ilmu menganalisis data mentah untuk membuat kesimpulan tentang informasi itu.
Adapun teknik dan proses analitik data ini telah diotomatisasi menjadi proses mekanis
dan algoritme yang bekerja pada data mentah untuk konsumsi mahkluk hidup.
Siklus hidup analisis data atau yang disebut dengan istilah data analytics lifecycle ini
dirancang khusus untuk masalah big data dan proyek terkait data science.
Mereka (siklus hidup tersebut) memiliki 6 (enam) fase (discovery, data preparation,
model plannging, model building, communicate results, operationalize), walaupun dalam
pekerjaan proyek mereka dapat terjadi dalam beberapa fase sekaligus.
Untuk sebagian besar fase dalam siklus hidup, gerakannya dapat berupa gerakan maju
(forward) atau mundur (backward).
Adapun untuk penggambaran berulang dari siklus hidup ini dimaksudkan untuk lebih
dekat menggambarkan proyek nyata, di mana aspek proyek bergerak maju dan dapat
kembali ke tahap awal ketika informasi baru ditemukan dan anggota tim belajar lebih
banyak tentang berbagai tahap proyek.
Hal ini memungkinkan pesertanya untuk bergerak secara iteratif melalui proses dan
mendorong ke arah operasionalisasi pekerjaan proyek.
Contoh dan penerapan dari data analytics ini yakni seperti sebuah perusahaan yang
membuat dan menjual produk menelusuri data mereka untuk mempelajari lebih lanjut
tentang apa yang dicari pelanggan mereka.
Analisis data memberikan wawasan kepada pengembang produk tentang hal-hal seperti
anggaran pelanggan dan fitur yang ingin mereka lihat sebelum melakukan pembelian.
Berdasarkan hal itu, dapat kita lihat bahwa pekerjaan analis data memengaruhi
segalanya, mulai dari desain kereta dorong bayi paling trendi tahun depan hingga fitur
sedan mewah yang baru.
Apa itu Data, Informasi, dan Pengetahuan?
Menurut situs web wikipedia, data merupakan fakta individu, statistik, atau item
informasi, seringkali numerik, yang dikumpulkan melalui observasi.
Data secara teknis adalah sesuatu yang mengacu kepada seperangkat nilai variabel
kualitatif atau kuantitatif tentang satu atau lebih orang atau objek, sedangkan datum
(data tunggal) adalah nilai tunggal dari variabel tunggal.
Informasi, dalam arti umumnya, informasi merupakan data yang diproses, terorganisir,
dan terstruktur. Ini menyediakan konteks untuk mereka (data-data tersebut) dan
memungkinkan pengambilan keputusan.
Misalnya, penjualan satu customer atau pembeli di sebuah toko merupakan data, ini
pastinya bisa menjadi sebuah informasi ketika sebuah bisnis dapat mengidentifikasi
produk apa yang paling diminati atau produk apa saja yang paling tidak diminati.
Secara teknis, informasi dapat dianggap sebagai resolusi dari sebuah ketidakpastian
yang menjawab beberapa pertanyaan tentang "apa itu entitas" sehingga itu dapat
mendefinisikan esensi dan sifat karakteristiknya.
Selain itu, ada konsep lain yang berkaitan dengan data dan informasi, yaitu adalah
knowledge (pengetahuan), ini mengacu pada kemampuan Anda untuk memahami apa
yang terjadi di sekitar data dan informasi.
Pengetahuan atau yang dikenal dengan istilah knowledge dalam data science ini
merupakan keahlian dan kebijaksanaan Anda untuk menyimpulkan hasil dari data dan
informasi yang Anda peroleh.
Pada intinya, sebuah data hanya mengacu pada fakta dan angka mentah, dimana
dengan sesuatu yang terbilang sedikit itu tidak dapat memberi tahu Anda apa-apa.
Data diubah menjadi informasi ketika disajikan dalam konteks sehingga dapat menjawab
pertanyaan atau mendukung pengambilan keputusan dan ketika informasi ini dapat
digabungkan dengan pengetahuan dari seseorang, insight (wawasan) mereka dari
pengalaman dan keahlian keputusan yang lebih kuat pun dapat dibuat.
Statistika Deskriptif dalam Data Science
Statistik deskriptif adalah seperangkat metode statistik yang digunakan untuk
menggambarkan karakteristik utama data, dimana metode ini bisa berupa grafis atau
numerik.
Ada beberapa metode yang tersedia untuk membantu dalam menggambarkan data,
masing-masing metode dirancang untuk memberikan insight atau wawasan yang
berbeda ke dalam informasi yang tersedia atau hipotesis yang sudah umum.
1. Metode grafis, tujuan utama metode grafis adalah untuk mengatur dan
menyajikan data dengan cara manajerial dan tangkas—visualisasi data
memainkan peran penting dalam keseluruhan proses ilmu data.
2. Penyimpulan data, statistik deskriptif mengusulkan untuk meringkas dan
menunjukkan data sehingga kita dapat dengan cepat mendapatkan gambaran
umum dari informasi yang dianalisis dan lebih memahami satu set melalui
karakteristik utamanya.
3. Langkah-langkah deskriptif utama:
a. Nilai representatif: mean dan median
b. Dispersi dan variasi: varians dan standar deviasi
c. Sifat (bentuk) distribusi: lonceng, seragam, atau asimetris
Oleh karena itu, dengan mengumpulkan data dan menerapkan statistik deskriptif kita
dapat mendapatkan nilai yang representatif, mengevaluasi dispersi, dan menilai
distribusi data tersebut.
Mean, Modus, Standar Deviasi dalam Statistika
1. Mean
Mean atau rata-rata, secara teori, merupakan jumlah semua elemen himpunan dibagi
dengan jumlah elemen dalam himpunan, ini dapat diperlakukan sebagai properti
kolaboratif dari seluruh rangkaian nilai.
Kita bisa mendapatkan ide yang cukup bagus tentang seluruh rangkaian data dengan
menghitung rata-ratanya. Dengan demikian rumus mean akan menjadi.
Mean = jumlah semua elemen himpunan / jumlah elemen
Pentingnya mean terletak pada kemampuannya untuk meringkas seluruh dataset

(kumpulan dari data) dengan nilai tunggal, sebagai contoh misalnya, Anda mungkin ingin
membandingkan pendapatan rumah tangga rata-rata kabupaten 1 ke kabupaten 2.
Untuk membandingkan pendapatan rumah tangga antara 2 (dua) kabupaten, Anda tidak
dapat membandingkan setiap pendapatan rumah tangga dari satu kabupaten ke
kabupaten lainnya, simana solusi terbaik adalah mencari pendapatan rumah tangga
rata-rata dari kedua kabupaten dan kemudian membandingkannya satu sama lain.
Dengan membandingkan kedua cara tersebut, kita dapat membuat asumsi tentang
kabupaten mana yang lebih makmur dari yang lain.
2. Modus
Modus dalam statistik merupakan nilai yang paling sering muncul dalam kumpulan data.
Seperti mean dan median (untuk mencari nilai tengah), modus juga digunakan untuk
meringkas suatu himpunan dengan satu informasi.
Sebagai contoh misalnya, modus dari dataset a = 1,2,3,3,3,3,3,4,4,4,5,5,6,7, adalah 3

karena terjadi jumlah maksimum dalam urutan a.
Sifat penting dari modus adalah bahwa dia sama dengan nilai rata-rata dan median
dalam kasus distribusi normal.
Dalam distribusi lain atau distribusi miring nilai modus mungkin berbeda dari keduanya
dan dalam distribusi normal, data simetris dengan nilai pusat.
Kurva distribusi normal adalah kurva yang simetris terhadap suatu sumbu. Sifat penting
lainnya dari distribusi normal adalah bahwa setengah dari nilai dalam himpunan lebih
besar dari rata-rata dan setengahnya lebih kecil
3. Standar Deviasi
Dalam memahami tentang standar deviasi, kita mungkin ingin mengukur deviasi
sekumpulan data dari nilai rata-rata (mean).
Contohnya seperti varian yang sangat besar dari data pendapatan rumah tangga suatu
negara dapat diinterpretasikan sebagai ekonomi dengan ketimpangan yang tinggi.
Banyak interpretasi yang berguna dapat dilakukan dengan menganalisis varians dalam
data, dimana diperoleh dengan:
 Menemukan perbedaan antara nilai rata-rata dan semua nilai dalam sebuah
himpunan.
 Menguadratkan perbedaan itu.
 Menambahkan perbedaan.
Standar deviasi adalah jenis perhitungan statistik yang dihitung dengan akar kuadrat
perbedaan data yang memberikan akun yang lebih akurat tentang dispersi nilai dalam
kumpulan data.
Karena varians diperoleh dengan mengkuadratkan nilai-nilai, itu tidak dapat diterapkan
pada perhitungan dunia nyata. Standar deviasi dihitung dengan memperoleh akar
kuadrat dari varians yang unitnya sama dengan elemen-elemen himpunan.
Maka dari itu, standar deviasi dapat digunakan sebagai besaran statistik terpercaya
untuk membuat perhitungan statistik yang tepat.
Deviasi standar juga terkait dengan probabilitas dalam banyak hal, jadi Anda mungkin
ingin mengikuti lokakarya tentang probabilitas dan statistik untuk mengeksplorasi lebih
banyak tentang hubungan antara kedua topik tersebut.
Rumus untuk menghitung standar deviasi:
Penggunaan standar deviasi adalah mencari tahu seberapa besar nilai dataset berbeda
dari mean, seperti contoh berikut.
Berikut ini adalah contoh dari data nilai 70 orang mahasiswa data science:
Apa Perbedaan Data Science dengan Artificial Intelligence
(AI)?
Kunci perbedaannya secara keseluruhan adalah sebagai berikut:
 Data science adalah proses komprehensif yang melibatkan pra-pemrosesan,
analisis, visualisasi, dan prediksi. Di sisi lain, artificial intelligence (AI) adalah
implementasi model prediktif untuk meramalkan peristiwa di masa depan.
 Data science terdiri dari berbagai teknik statistik sedangkan AI menggunakan
algoritma komputer.
 Alat yang terlibat dalam data science jauh lebih banyak daripada yang digunakan
dalam AI. Ini karena ilmu data melibatkan beberapa langkah untuk menganalisis
data dan menghasilkan wawasan darinya.
 Data science adalah tentang menemukan pola tersembunyi dalam data. AI adalah
tentang memberikan otonomi (sebuah keputusan tanpa gugat) pada model data.
 Dengan data science, kita dapat membangun model yang menggunakan
wawasan statistik. Di sisi lain, AI adalah untuk membangun model yang meniru
kognisi dan pemahaman manusia.
 Data science tidak melibatkan pemrosesan ilmiah tingkat tinggi dibandingkan
dengan ai.
Apa Perbedaan Data Mining dengan Machine Learning?
Penambangan data atau yang dikenal dengan istilah data mining merupakan proses
mengekstraksi informasi yang berguna dari sejumlah besar data yang digunakan untuk
menemukan pola baru, akurat, dan berguna dalam data, mencari makna dan informasi
yang relevan bagi organisasi atau individu yang membutuhkannya.
Sedangkan machine learning atau pembelajaran mesin adalah proses menemukan

algoritme yang telah meningkatkan kesopanan pengalaman yang berasal dari data,
dimana ini merupakan desain, studi, dan pengembangan algoritme yang memungkinkan
mesin belajar tanpa campur tangan manusia.
Ini adalah alat untuk membuat mesin lebih pintar, menghilangkan elemen manusia
(tetapi tidak menghilangkan manusia itu sendiri).
Baik data mining (penambangan data) maupun machine learning (pembelajaran mesin)
berada di bawah naungan data science, terlebih karena keduanya menggunakan data.
Secara keseluruhan, perbedaan mereka adalah sebagai berikut:
 Usia mereka, sebagai permulaan, data mining mendahului pembelajaran mesin

dua dekade, dengan yang terakhir awalnya disebut penemuan pengetahuan
dalam basis data atau knowledge data discovery (KDD). Data mining masih
disebut sebagai KDD di beberapa negara termasuk Indonesia. Pembelajaran
mesin memulai debutnya dalam program permainan catur. Penambangan data
telah ada sejak tahun 1930-an sedangkan pembelajaran mesin muncul pada
1950-an.
 Tujuan mereka, data mining dirancang untuk mengekstrak aturan dari sejumlah
besar data, sementara machine learning mengajarkan komputer cara mempelajari
dan memahami parameter yang diberikan.
 Apa yang mereka gunakan, data mining bergantung pada penyimpanan data
yang sangat besar (seperti big data), yang kemudian digunakan untuk membuat
perkiraan untuk bisnis dan organisasi lain sedangkan machine learning bekerja
dengan algoritme, bukan data mentah.
 Faktor manusia, inilah merupakan perbedaan yang cukup signifikan, dimana data
mining bergantung pada intervensi manusia dan pada akhirnya dibuat untuk
digunakan oleh orang-orang. Sedangkan seluruh alasan keberadaan machine
learning adalah bahwa dia dapat mengajar sendiri dan tidak bergantung pada
pengaruh atau tindakan manusia.
 Hubungannya, selain itu, data mining adalah proses yang menggabungkan 2
(dua) elemen, yaitu database dan pembelajaran mesin. Yang pertama
menyediakan teknik manajemen data, sedangkan yang kedua menyediakan
teknik analisis data. Jadi, meskipun data mining membutuhkan machine learning,
pembelajaran mesin tidak selalu membutuhkan penambangan data. Walaupun,
ada kasus di mana informasi dari data mining digunakan untuk melihat hubungan
antar hubungannya. Sulit untuk membuat perbandingannya kecuali kita memiliki
setidaknya dua informasi yang membandingkan satu sama lain, sehingga,
informasi yang dikumpulkan dan diproses melalui penambangan data kemudian
dapat digunakan untuk membantu pembelajaran mesin walaupun itu bukanlah
sebuah keharusan.
 Kemampuan berkembangnya, data mining tidak dapat belajar atau beradaptasi,
sedangkan itulah inti dari pembelajaran mesin. Penambangan data hanya
mengikuti aturan yang telah ditentukan sebelumnya dan bersifat statis, sementara
pembelajaran mesin menyesuaikan algoritme saat keadaan yang tepat terwujud.
Penambangan data hanya secerdas pengguna yang memasukkan parameter;
pembelajaran mesin berarti komputer itu semakin pintar.
 Bagaimana mereka digunakan, dalam hal utilitas, setiap proses memiliki
spesialisasinya masing-masing. Data mining digunakan di industri ritel untuk
memahami kebiasaan membeli pelanggan mereka, sehingga membantu bisnis
merumuskan strategi penjualan yang lebih sukses. Sementara itu, perusahaan
menggunakan machine learning untuk tujuan seperti mobil self-driving, deteksi
kartu kredit, layanan online, intersepsi spam email, intelijen bisnis (misalnya,
mengelola transaksi, mengumpulkan hasil penjualan, pemilihan inisiatif bisnis),
dan pemasaran yang dipersonalisasi.
Data Science dan Algoritma Klasifikasi
Dalam data science, khususnya klasifikasi, ada variabel kategori target, seperti misalnya
braket pendapatan, yang mana itu dapat dipartisi menjadi 3 (tiga) kelas atau kategori,
yakni berpenghasilan tinggi, menengah, dan rendah.
Kemudian, model data mining memeriksa satu set besar catatan, masing-masing catatan
yang berisi informasi tentang variabel target serta satu set input atau predictor variabel.
Contoh tugas klasifikasi dalam bisnis dan penelitian meliputi:
 Menentukan apakah transaksi kartu kredit tertentu adalah penipuan.

 Menempatkan mahasiswa baru pada jalur tertentu yang berkaitan dengan
kebutuhan khusus.
 Menilai apakah aplikasi hipotek adalah risiko kredit yang baik atau buruk.
 Mendiagnosis apakah ada penyakit tertentu.
 Menentukan apakah surat wasiat ditulis oleh almarhum yang sebenarnya, atau
dicurangi oleh orang lain.
 Mengidentifikasi apakah perilaku keuangan atau pribadi tertentu menunjukkan
kemungkinan ancaman teroris.
Klasifikasi adalah teknik dalam data science atau ilmu data yang digunakan oleh
ilmuwan data untuk mengkategorikan data ke dalam sejumlah kelas tertentu.
Teknik ini dapat dilakukan pada data terstruktur (structured) atau tidak terstruktur
(unstructured) dan tujuan utamanya adalah untuk mengidentifikasi kategori atau kelas di
mana data baru akan masuk.
Teknik ini memiliki algoritma yang dapat digunakan untuk mengaktifkan perangkat lunak
analisis teks untuk melakukan tugas-tugas seperti menganalisis sentimen berbasis
aspek dan mengkategorikan teks tidak terstruktur berdasarkan topik dan polaritas
pendapat.
Ada banyak jenis algoritma klasifikasi yang paling banyak digunakan dalam ilmu data
sebagai berikut.
a. K-Nearest Neighbour
Disingkat dengan KNN (K-nearest neighbor) menjadi salah satu algoritma yang banyak
digunakan dalam data mining dan machine learning, ini merupakan jenis dari algoritma
klasifikasi dimana pembelajarannya didasarkan pada kesamaan data (vektor) dari yang
lain.
Ini juga dapat digunakan untuk menyimpan semua kasus yang tersedia dan
mengklasifikasikan kasus baru berdasarkan ukuran kesamaan (misalnya, fungsi jarak).
Contoh algoritma KNN secara sederhana dapat dilihat sebagai berikut:
Mulai dengan mengambil kumpulan data dengan kategori yang diketahui.
Pada langkah awal ini, Anda hanya mengumpulkan data mentah yang tidak disortir.
Dalam contoh ini, data secara jelas dikategorikan dengan kelinci dan kura-kura.
Lakukan clustering, Anda memiliki beberapa pilihan dalam langkah ini dengan berbagai
macam dari metode clustering.
Lanjutkan dengan menambahkan sel dengan kategori yang tidak diketahui seperti
gambar di bawah ini:
Jika sudah, maka temukanlah "K".
Mungkin langkah yang paling menantang adalah menemukan K yang "tepat".
Perlu untuk diketahui bahwa akar kuadrat dari n (jumlah item dalam kumpulan data)
adalah tempat yang mudah untuk memulainya.
(n)
= (8)
= 2.82
=3
Meskipun akar kuadrat dari n sederhana, itu bukan metode yang paling akurat.
Idealnya Anda harus menggunakan set pelatihan (yaitu set yang dikategorikan dengan
baik) untuk menemukan "K" yang berfungsi untuk data Anda.
Hapus beberapa titik data yang dikategorikan dan jadikan mereka sebagai "tidak
diketahui", uji beberapa nilai untuk K tersebut untuk melihat apa yang berhasil.
Seringkali, metode elbow dapat bekerja dengan baik, di mana Anda menemukan K
optimal berdasarkan tingkat kesalahan terendah.
Jia sudah, lalu cari "K" nearest neighbour-nya, untuk contoh ini, kita dapat menggunakan
visual untuk mencari tetangga terdekatnya.
Langkah terakhirnya yaitu dengan mengklasifikasikan titik baru, titik atau poin baru
diklasifikasikan berdasarkan suara terbanyak.
Jika sebagian besar tetangga Anda adalah penyu, kemungkinan besar Anda juga penyu.
Dalam hal ini, dua dari tiga tetangga yang tidak diketahui adalah kelinci sehingga poin
baru diklasifikasikan sebagai kelinci.
Sumber: Stephanie Glen. "k-NN (k-Nearest Neighbor): Overview, Simple Example" From
StatisticsHowTo.com: Elementary Statistics for the rest of us!
https://www.statisticshowto.com/k-nn-k-nearest-neighbor/
b. Algrotima C4.5
Algoritma C4.5 sering digunakan dalam data mining sebagai pengklasifikasi pohon
keputusan atau yang lebih dikenal dengan istilah decision tree yang dapat digunakan
untuk menghasilkan keputusan, berdasarkan sampel data tertentu (prediktor univariat
atau multivariat).
Algoritma decision tree termasuk dalam algoritma pembelajaran yang terawasi.

Algoritma ini dapat digunakan untuk menyelesaikan regresi dan masalah klasifikasi
lainnya.
Pohon keputusan membangun model klasifikasi atau regresi dalam bentuk struktur
pohon yang memecah dataset menjadi subset yang lebih kecil dan lebih kecil sementara
pada saat yang sama pohon keputusan terkait dikembangkan secara bertahap.
Tujuan penggunaan algoritma pohon keputusan adalah untuk memprediksi kelas atau
nilai variabel target dengan mempelajari aturan keputusan sederhana yang disimpulkan
dari data sebelumnya.
Contohnya secara sederhana, dapat kita bayangkan jika seseorang adalah seorang
manajer proyek dan kita perlu memutuskan apakah akan memulai proyek tertentu atau
tidak.
Dalam hal ini, kita perlu mempertimbangkan kemungkinan hasil dan konsekuensi yang
penting, sebagaimana diagram di bawah ini.
c. Naive Bayes
Naive bayes adalah teknik klasifikasi berdasarkan teorema seorang ahli yang bernama
bayes dengan asumsi independensi antar prediktor.
Secara sederhana, classifier atau pengklasifikasi naive bayes mengasumsikan bahwa

keberadaan fitur tertentu dalam suatu kelas tidak terkait dengan keberadaan fitur
lainnya.
Classifier mengasumsikan bahwa kehadiran fitur tertentu di kelas tidak terkait dengan
kehadiran fitur lainnya, dimana ini memperbarui pengetahuan langkah demi langkah
dengan informasi baru.
Untuk contohnya, berikut adalah kumpulan data pelatihan cuaca dan variable “Play”
target yang sesuai (menunjukkan kemungkinan bermain).
Sekarang, kita perlu mengklasifikasikan apakah pemain akan bermain atau tidak
berdasarkan kondisi cuaca.
Langkah pertama, ubahlah kumpulan data menjadi tabel frekuensi.
Langkah berikutnya, kita lanjutkan dengan memuat tabel Likelihood dengan mencari
probabilitas seperti Probabilitas mendung = 0,29 dan probabilitas bermain adalah 0,64.
Sekarang, mari kita gunakan persamaan Naive Bayes untuk menghitung probabilitas
posterior untuk setiap kelasnya, dimana kelas dengan probabilitas posterior tertinggi
adalah hasil prediksinya.
Disini masalahnya, pemain akan bermain jika cuaca cerah.

Lalu, apakah pernyataan ini benar?
Kita dapat menyelesaikannya dengan menggunakan metode probabilitas posterior yang

dibahas di atas.
P(Yes | Sunny) = P( Sunny | Yes) * P(Yes) / P (Sunny)
Di sini kita memiliki P (Sunny |Yes) = 3/9 = 0.33, P(Sunny) = 5/14 = 0.36, P( Yes)= 9/14 =
0.64
Sekarang, P (Yes | Sunny) = 0.33 * 0.64 / 0.36 = 0.60, yang artinya probabilitas yang
lebih tinggi.
Naive Bayes menggunakan metode serupa untuk memprediksi probabilitas kelas yang
berbeda berdasarkan berbagai atribut.
Algoritma ini banyak digunakan dalam klasifikasi teks dan dengan masalah memiliki
banyak kelas.
d. Jaringan Syaraf Tiruan

Jaringan syaraf tiruan dalam ilmu data dikenal dengan istilah neural network, ini adalah
serangkaian algoritma yang mencoba mengidentifikasi hubungan yang mendasarinya
dalam kumpulan data melalui proses yang meniru cara kerja otak manusia.
Dalam data science, jaringan saraf membantu mengelompokkan dan mengklasifikasikan

hubungan yang kompleks.
Jaringan saraf dapat digunakan untuk mengelompokkan data yang tidak berlabel
menurut kesamaan di antara input contoh dan mengklasifikasikan data ketika mereka
memiliki kumpulan data berlabel untuk dilatih.
Terkait hal contohnya, beberapa ahli menjelaskannya dengan konsep fungsi kerugian
(loss function).
Sebuah jaringan saraf mengasah pada jawaban yang benar untuk suatu masalah
dengan meminimalkan fungsi kerugian (loss function) tersebut.
Misalkan kita memiliki persamaan linier sederhana seperti y = mx + b, dimana ini

memprediksi beberapa nilai y yang diberikan nilai x.
Model prediktif tidak selalu 100% benar, ukuran seberapa salah itu adalah kerugiannya.
Tujuan dari pembelajaran mesin itu untuk mengambil satu set pelatihan untuk
meminimalkan fungsi kerugian. Itu benar dengan regresi linier, jaringan saraf, dan
algoritma ML lainnya.
Sebagai contoh, misalkan m = 2, x = 3, dan b = 2.
Maka nilai prediksi kita dari y = 2 * 3 + 2 = 8.
Tetapi nilai pengamatan aktual kita adalah 10, jadi kerugiannya adalah 10 – 8 = 2.
Deep Learning dan Data Science
Pembelajaran mendalam atau deep learning adalah teknik machine learning yang
mengajarkan komputer untuk melakukan apa yang terjadi secara alami pada manusia
dengan konsep belajar dengan memberi contoh.
Pembelajaran mendalam adalah teknologi utama di balik mobil tanpa pengemudi,

memungkinkan mereka mengenali tAnda berhenti, atau membedakan pejalan kaki dari
tiang lampu. Ini adalah kunci untuk kontrol suara di perangkat konsumen seperti ponsel,
tablet, tv, dan speaker handsfree.
Pembelajaran mendalam mendapatkan banyak perhatian akhir-akhir ini dan untuk

alasan yang bagus. Ini mencapai hasil yang tidak mungkin dilakukan sebelumnya.
Dalam deep learning, model komputer belajar untuk melakukan tugas klasifikasi
langsung dari gambar, teks, atau suara. Model pembelajaran mendalam dapat mencapai
akurasi mutakhir, terkadang melebihi kinerja tingkat manusia. Model dilatih dengan
menggunakan sekumpulan besar data berlabel dan arsitektur jaringan saraf yang berisi
banyak lapisan.
Beberapa contohnya termasuk seperti alat mengemudi otomatis, disini peneliti otomotif
menggunakan pembelajaran mendalam untuk secara otomatis mendeteksi objek seperti
rambu berhenti dan lampu lalu lintas.
Selain itu, pembelajaran mendalam digunakan untuk mendeteksi pejalan kaki, yang
membantu mengurangi kecelakaan.
Contoh lainnya seperti dalam penelitian medis, dimana para peneliti kanker
menggunakan pembelajaran mendalam untuk mendeteksi sel kanker secara otomatis.
Seperti Tim di UCLA yang membuat mikroskop canggih yang menghasilkan kumpulan
data berdimensi tinggi yang digunakan untuk melatih aplikasi pembelajaran mendalam
guna mengidentifikasi sel kanker secara akurat.
Metode Regresi dan Regresi Linier
Juga dikenal dengan regression analysis, metode regresi adalah metode statistik yang
membantu kita untuk menganalisis dan memahami hubungan antara 2 (dua) atau lebih
variabel yang diminati.
Proses yang disesuaikan untuk melakukan analisis regresi membantu untuk memahami
faktor mana yang penting, faktor mana yang dapat diabaikan, dan bagaimana faktor
tersebut saling mempengaruhi.
Agar analisis regresi menjadi metode yang berhasil, maka kita perlu memahami istilah-
istilah berikut:
 Dependent variable, ini adalah variabel yang kita coba pahami atau ramalkan.
 Variabel independen, ini adalah faktor-faktor yang mempengaruhi analisis atau
variabel target dan memberi kita informasi mengenai hubungan variabel dengan
variabel target.
Adapun hal yang paling sederhana dari semua jenis regresi adalah regresi linier di mana
ia mencoba membangun hubungan antara variabel independen dan dependen.
Variabel dependen yang dipertimbangkan di sini selalu merupakan variabel kontinu,

dimana regresi linier adalah model prediksi yang digunakan untuk mencari hubungan
linier antara variabel terikat dan satu atau lebih variabel bebas.
Regresi linier sederhana adalah seperti:
X —–> Y
Jika hubungan antara variabel Independen dan variabel dependen berjumlah kelipatan,
maka disebut regresi linier berganda, seperti gambar berikut:
Algoritma Clustering dan K-Means Clustering
Clustering adalah teknik machine learning yang melibatkan pengelompokan titik data.
Mengingat satu set titik data, kita dapat menggunakan algoritma pengelompokan untuk
mengklasifikasikan setiap titik data ke dalam kelompok tertentu.
Secara teori, titik data yang berada dalam kelompok yang sama harus memiliki sifat atau
fitur yang serupa, sedangkan titik data dalam kelompok yang berbeda harus memiliki
sifat atau fitur yang sangat berbeda.
Clustering adalah metode pembelajaran tanpa pengawasan dan merupakan teknik

umum untuk analisis data statistik yang digunakan di banyak bidang.
Dalam data science, kita dapat menggunakan analisis pengelompokan untuk

mendapatkan beberapa wawasan berharga dari data kita dengan melihat kelompok
mana yang menjadi titik data saat kita menerapkan algoritme pengelompokan.
K-means mungkin adalah algoritma pengelompokan yang paling terkenal yang diajarkan
di banyak kelas pengantar ilmu data dan pembelajaran mesin.
Algoritme kmeans adalah algoritme iteratif yang mencoba mempartisi kumpulan data ke
dalam subkelompok (cluster) berbeda yang tidak tumpang tindih yang telah ditentukan
sebelumnya di mana setiap titik data hanya dimiliki oleh satu kelompok
K-means clustering adalah salah satu algoritma clustering yang paling populer dan
biasanya hal pertama yang diterapkan praktisi ketika menyelesaikan tugas clustering
untuk mendapatkan gambaran tentang struktur dataset.
Tujuan k-means adalah mengelompokkan titik data ke dalam subkelompok berbeda

yang tidak tumpang tindih.
Itu melakukan pekerjaan yang sangat baik ketika cluster memiliki semacam bentuk bola.
Namun, ia menderita karena bentuk geometris cluster menyimpang dari bentuk bola.
Selain itu, dia juga tidak mempelajari jumlah cluster dari data dan mengharuskannya
untuk ditentukan sebelumnya.
K-means clustering mencoba mengelompokkan item yang sejenis dalam bentuk cluster.
Ini menemukan kesamaan antara item dan mengelompokkannya ke dalam cluster.
Algoritma pengelompokan K-means bekerja dalam tiga langkah. Mari kita lihat apa saja
tiga langkah ini.
Pilih nilai k.
Inisialisasi centroid.
Pilih grup dan temukan rata-ratanya.
Mari kita pahami langkah-langkah di atas dengan bantuan di bawah ini:
Mari kita pahami setiap gambarnya satu per satu.
Gambar 1 menunjukkan representasi data dari 2 (dua) item yang berbeda, dimana item
pertama ditampilkan dengan warna biru dan item kedua ditampilkan dengan warna
merah.
Di sini kita pilih nilai k secara acak yaitu 2, perlu diketahui juga bahwa ada beberapa
metode berbeda yang dengannya kita dapat memilih nilai k yang tepat.
Pada gambar 2, kita gabungkan dua titik yang dipilih untuk mengetahui centroid (titik
tengah objek), maka kita akan menggambar garis tegak lurus terhadap garis tersebut.
Dengan begitu, titik-titik tersebut akan pindah ke centroid mereka, jika Anda akan melihat
di sana, maka Anda akan melihat bahwa beberapa titik merah sekarang dipindahkan ke
titik biru.
Sekarang, titik-titik ini termasuk dalam kelompok item warna biru, proses yang sama
akan berlanjut pada gambar 3, dimana kita akan menggabungkan dua titik dan
menggambar garis tegak lurus dengan itu dan mencari pusat massa.
Sekarang dua titik akan pindah ke pusatnya dan lagi beberapa titik merah diubah
menjadi titik biru.
Proses yang sama terjadi pada gambar 4, dimana proses ini akan dilanjutkan sampai
dan kecuali kita mendapatkan dua kelompok yang sama sekali berbeda dari kelompok-
kelompok ini.
Perlu diketahui bahwa pengelompokan K-means menggunakan metode jarak euclidean

untuk mengetahui jarak antar titik.
Algoritma Association Rule dan Apriori
Association rule adalah metode machine learning berbasis aturan untuk menemukan
hubungan menarik antara variabel dalam database besar, dimana ini mengidentifikasi
asosiasi if-then yang sering disebut aturan asosiasi yang terdiri dari anteseden (jika) dan
konsekuen (maka).
Ada tiga metrik umum untuk mengukur asosiasi, yaitu
1. Support adalah indikasi seberapa sering item muncul dalam data. Secara
matematis, dukungan adalah bagian dari jumlah total transaksi di mana set item
terjadi.
Rumusnya:
2. Confidence menunjukkan berapa kali pernyataan if-then ditemukan benar.

Keyakinan adalah probabilitas bersyarat terjadinya konsekuen diberikan
anteseden.
Rumusnya:
3. Lift dapat digunakan untuk membandingkan keyakinan dengan keyakinan yang

diharapkan. Ini menunjukkan seberapa besar kemungkinan item y dibeli saat item
x dibeli, sambil mengontrol seberapa populer item y.
Rumusnya:
Kemudian ada juga algoritma apriori, dimana ini merupakan algoritma populer untuk
mengekstraksi frequent (yang sering) itemset.
Apriori adalah algoritme untuk penambangan kumpulan item yang sering dan
pembelajaran aturan asosiasi melalui basis data relasional yang berlanjut dengan
mengidentifikasi item individu yang sering dalam database dan memperluasnya ke set
item yang lebih besar dan lebih besar selama set item tersebut muncul cukup sering
dalam database.
Algoritma Apriori menyatakan bahwa setiap subset dari kumpulan item yang sering juga
harus sering.
Sebaliknya, jika suatu itemset jarang maka semua supersetnya harus jarang terjadi.
Dengan kata lain, tidak ada set super dari set item yang jarang harus dibuat atau diuji.
Sederhanyanya, Algoritma Apriori ini dapat dikatakan sebagai algoritma yang efisien
Ketika menentukan jumlah itemset frequent.
Contohnya jika itemset x tidak frequent (dalam artian mereka munculnya tidak sering
dalam suatu transaksi), maka item apapapun yang dikombinasikan pada itemset x tidak
akan membuatnya menjadi frequent.
Inilah yang dimanfaatkan oleh jenis algoritma ini, yakni untuk mempersempit
(mengurangi) spasi pencarian kandidat itemset yang frequent yang ditandai dengan
pembatasan pada nilai puncak batas nilai support (minSupport).
Sebagai contoh, kita mulai dengan menentukan nilai minimum support untuk transaksi:
Semisal untuk nilai minimum support yang akan kita masukkan yaitu 4, dimana ini setara
dengan 4/8 = 0,5 (50%).
Jadi, untuk iterasi pertama k-itemset atau k=1 aturannya yaitu:
Beras = 6
Buku=4
Minyak=6
Telur=6
Topi=3
Untuk 5 itemset di atas, item topi (3/8 = 0,375 atau 37,5%) tidak dapat mematuhi nilai
minimum support yaitu 50%, maka pada iterasi ke-2 (dua) k-itemset (k=2), semua
itemset yang mengandung topi tentunya akan dieliminasi.
Beras,Buku} = 2
{Beras,Minyak}=4
{Beras,Telur}=5
{Beras,Topi}=2
{Buku,Minyak}=3
{Buku,Telur}=2
{Buku,Topi}=1
{ Telur,Minyak}=5
{Minyak,Topi}=3
{Telur,Topi}=3
Dan seterusnya…
Lanjut, pada k-itemset di atas, itemset beras dan buku yaitu 2/8 atau 0,25 (25%), untuk
buku, minyak yaitu 3/8 atau 0.375 (37.5%) dan buku, telur yaitu 2/8 (25%) tidak dapat
memenuhi nilai minimum support.
Maka, itemset tersebut pun juga harus dieliminasi.
Lalu, untuk iterasi ketiga k-itemset (k=3), dimana hanya tersisa 1 itemset saja yang
memenuhi minimum nilai support yaitu adalah itemset telur, minyak, beras yang memiliki
nilai 4/8 atau 0.5 (50%).
{Telur,Minyak,Beras}=4
{Telur,Minyak,Buku}=2
{Telur,Minyak,Topi}=2
{Telur,Beras,Buku}=1
{Telur,Beras,Topi}=2
{Beras,Buku,Topi}=0
{Beras,Topi,Minyak}=2
{Beras,Buku,Minyak,}=1
{Buku,Minyak,Topi}=1
Dan seterusnya…
Maka, dengan algoritma Apriori, aturan asosiasi (association rule) yang sudah kita
dapatkan yaitu:
1. {Beras,Minyak} dengan nilai confident, c(Beras->Minyak) = 4/6 = 0.67 (67%).

2. {Beras,Telur} dengan Nilai confident, c(Beras->Telur) = 5/6 = 0.83 (83%).
3. {Minyak,Telur} dengan Nilai confident, c(Minyak->Telur) = 5/6 = 0.83 (83%).
4. {Telur,Minyak,Beras} dengan Nilai confident, c(Telur,Minyak->Beras) = 4/6 = 0.67
(67%).
Jadi, aturan asosiasi atau association rule-nya adalah:
1. If Beras, maka Minyak.

2. If Beras, maka Telur.
3. If Minyak, maka telur.
4. If Telur dan Minyak, maka Beras.
Daftar Pustaka
 Discovering Knowledge in Data : An Introduction to Data Mining; 2005; Daniel T.
Larose; Wiley
 Algoritma Data Mining;, 2009, Kusrini dan Emha Taufiq Luthfi, Andi Offset
 Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and
Presenting Data; 2015; EMC Education Services; John Wiley & Sons, Inc
 Prasetyo, E. (2012). Data Mining konsep dan Aplikasi menggunakan MATLAB.
Yogyakarta: Andi.
 Larose, D. T. (2015). Data mining and predictive analytics. John Wiley & Sons.
 Nama Web, “.” Diakses pada September 07, 2021. url.
 IBM. “Business Analytics.” Diakses pada September 07, 2021.
https://www.ibm.com/analytics/business-analytics.
 Investopedia. “Data Analytics.” Diakses pada September 07, 2021.
https://www.investopedia.com/terms/d/data-analytics.asp.
 Wikipedia. “Data.” Diakses pada September 07, 2021.
https://en.wikipedia.org/wiki/data.
 Wikipedia. “Information.” Diakses pada September 07, 2021.
https://en.wikipedia.org/wiki/information.
 PPC Expo. “Data vs Information vs Knowledge.” Diakses pada September 07,
2021. https://ppcexpo.com/blog/data-vs-information-vs-knowledge.
 Lumen Learning. “Data Information and Knowledge.” Diakses pada September
07, 2021.
https://courses.lumenlearning.com/santaana-informationsystems/chapter/data-
information-and-knowledge/.
 A. Leonardo. “Descriptive Statistics in Data Science.” Diakses pada September
07, 2021. https://www.linkedin.com/pulse/statistical-data-analysis-fundamental-
tools-techniques-leonardo-a/?published=t.
 Udemy. “Statistics Formula.” Diakses pada September 07, 2021.
https://blog.udemy.com/statistics-formula/.
 Dosen Pendidikan. “Rumus Standar Deviasi.” Diakses pada September 09, 2021.
https://www.dosenpendidikan.co.id/rumus-standar-deviasi/.
 Data Flair Training. “Data Science vs Artificial Intelligence.” Diakses pada
September 09, 2021. https://data-flair.training/blogs/data-science-vs-artificial-
intelligence/.
 Simpli Learn. “Data Mining vs Machine Learning.” Diakses pada September 09,
2021. https://www.simplilearn.com/data-mining-vs-machine-learning-article.
 Intell Spot. “Example of Decision Tree.” Diakses pada September 09, 2021.
https://www.intellspot.com/decision-tree-examples/.
 Analytics Vidhya. “Naïve Bayes Explained.” Diakses pada September 09, 2021.
https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/.
 Multi Matics. “5 Types of Classification Algorithms in Data Science.” Diakses pada
September 09, 2021. https://multimatics.co.id/blog/jun/5-types-of-classification-
algorithms-in-data-science.aspx.
 BMC. “Introduction to Neural Network.” Diakses pada September 10, 2021.
https://www.bmc.com/blogs/neural-network-introduction/.
 Math Works. “Deep Learning.” Diakses pada September 10, 2021.
https://www.mathworks.com/discovery/deep-learning.html.
 My Great Learning. “What is Regression.” Diakses pada September 10, 2021.
https://www.mygreatlearning.com/blog/what-is-regression/.
 Towards Data Science. “The 5 Clustering Algorithms Data Scientists Need to
Know.” Diakses pada September 11, 2021. https://towardsdatascience.com/k-
means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-
aa03e644b48a.
 Towards Data Science. “K-Means Clusterring Algorithm Applications, Evaluation
Methods and Drawbacks.” Diakses pada September 10, 2021.
https://towardsdatascience.com/k-means-clustering-algorithm-applications-
evaluation-methods-and-drawbacks-aa03e644b48a.
 Yosola, Adekanmbi. “Association Rule Mining - Apriori Algorithm.” Diakses pada
September 12, 2021. https://medium.com/@adekanmbi.yosola/association-rule-
mining-apriori-algorithm-c517f8d7c54c.

Makalah Data Science

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makalah Data Science

Diunggah oleh

Hak Cipta:

Format Tersedia

RINGKASAN TENTANG DATA SCIENCE

MAKALAH DATA SCIENCE

PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Apa itu Data, Informasi, dan Pengetahuan?......................................................5

Apa Perbedaan Data Science dengan Artificial Intelligence (AI)?.................10

Deep Learning dan Data Science....................................................................21

Mean, Modus, Standar Deviasi dalam Statistika

Mean = jumlah semua elemen himpunan / jumlah elemen

Pentingnya mean terletak pada kemampuannya untuk meringkas seluruh dataset

Sebagai contoh misalnya, modus dari dataset a = 1,2,3,3,3,3,3,4,4,4,5,5,6,7, adalah 3

Rumus untuk menghitung standar deviasi:

Sedangkan machine learning atau pembelajaran mesin adalah proses menemukan

Secara keseluruhan, perbedaan mereka adalah sebagai berikut:

 Usia mereka, sebagai permulaan, data mining mendahului pembelajaran mesin

Contoh tugas klasifikasi dalam bisnis dan penelitian meliputi:

 Menentukan apakah transaksi kartu kredit tertentu adalah penipuan.

Contoh algoritma KNN secara sederhana dapat dilihat sebagai berikut:

Mulai dengan mengambil kumpulan data dengan kategori yang diketahui.

Jika sudah, maka temukanlah "K".

Mungkin langkah yang paling menantang adalah menemukan K yang "tepat".

Algoritma decision tree termasuk dalam algoritma pembelajaran yang terawasi.

Secara sederhana, classifier atau pengklasifikasi naive bayes mengasumsikan bahwa

Langkah pertama, ubahlah kumpulan data menjadi tabel frekuensi.

Disini masalahnya, pemain akan bermain jika cuaca cerah.

Kita dapat menyelesaikannya dengan menggunakan metode probabilitas posterior yang

P(Yes | Sunny) = P( Sunny | Yes) * P(Yes) / P (Sunny)

d. Jaringan Syaraf Tiruan

Dalam data science, jaringan saraf membantu mengelompokkan dan mengklasifikasikan

Misalkan kita memiliki persamaan linier sederhana seperti y = mx + b, dimana ini

Sebagai contoh, misalkan m = 2, x = 3, dan b = 2.

Maka nilai prediksi kita dari y = 2 * 3 + 2 = 8.

Pembelajaran mendalam adalah teknologi utama di balik mobil tanpa pengemudi,

Pembelajaran mendalam mendapatkan banyak perhatian akhir-akhir ini dan untuk

Variabel dependen yang dipertimbangkan di sini selalu merupakan variabel kontinu,

Regresi linier sederhana adalah seperti:

Clustering adalah metode pembelajaran tanpa pengawasan dan merupakan teknik

Dalam data science, kita dapat menggunakan analisis pengelompokan untuk

Tujuan k-means adalah mengelompokkan titik data ke dalam subkelompok berbeda

Mari kita pahami langkah-langkah di atas dengan bantuan di bawah ini:

Mari kita pahami setiap gambarnya satu per satu.

Perlu diketahui bahwa pengelompokan K-means menggunakan metode jarak euclidean

Ada tiga metrik umum untuk mengukur asosiasi, yaitu

2. Confidence menunjukkan berapa kali pernyataan if-then ditemukan benar.

3. Lift dapat digunakan untuk membandingkan keyakinan dengan keyakinan yang

Jadi, untuk iterasi pertama k-itemset atau k=1 aturannya yaitu:

Maka, itemset tersebut pun juga harus dieliminasi.

1. {Beras,Minyak} dengan nilai confident, c(Beras->Minyak) = 4/6 = 0.67 (67%).

1. If Beras, maka Minyak.

Anda mungkin juga menyukai