Anda di halaman 1dari 15

Tugas Besar Big Data

Memprediksi Kualitas Susu

Dosen Pengampu :

Eva Nurhazizah, S.T, M.M.

Oleh:

Annisa Bara Adilla (1401200561)

Putri Ayu Syabani (1401204223)

Rahma Dhiya Ulhaq (1401200132)

MANAJEMEN BISNIS TELEKOMUNIKASI DAN INFORMATIKA

FAKULTAS EKONOMI DAN BISNIS

UNIVERSITAS TELKOM

BANDUNG
2022

KATA PENGANTAR

Puji syukur kehadirat Allah SWT karena berkat rahmat dan hidayah-Nya kami dapat
menyelesaikan laporan yang berjudul “ MEMPREDIKSI KUALITAS SUSU” dengan baik dan
tepat waktu, untuk memenuhi Tugas Besar pada mata kuliah Big Data. Kami mengucapkan
terimakasih kepada Ibu Eva Nurhazizah, S.T, M.M . Selaku Dosen mata kuliah Big Data yang
telah memberikan tugas sehingga dapat menambah pengetahuan dan wawasan sesuai dengan
bidang studi yang kami tekuni. Tidak lupa kepada pihak-pihak yang telah membantu dan
mendukung dalam penyusunan lapora makalah ini. Kami menyadari bahwa laporan ini masih
jauh dari kata sempurna dan banyak kekurangan. Hal tersebut disebabkan oleh keterbatasan
pengetahuan dan pengalaman yang kami miliki dalam penulisan maupun penyusunan makalah
ini. Oleh karena itu, kami harapkan bimbingan, kritik, dan saran yang bersifat membangun dari
para pembaca demi penyempurnaan laporan ini. Akhir kata, semoga laporan ini dapat bermanfaat
bagi para pembaca khususnya kami sendiri.

Bandung, November 2022


Kelompok 7

DAFTAR ISI

KATA PENGANTAR

DAFTAR ISI

BAB I PENDAHULUAN

1.1 Latar Belakang

1.2 Penjelasan kasus

BAB II DATA DAN TEORI

BAB III ISI DAN PEMBAHASAN

BAB IV KESIMPULAN

DAFTAR PUSTAKA
BAB I

PENDAHULUAN

1.1 Latar Belakang

Susu merupakan bahan pangan yang memiliki nilai gizi tinggi karena mempunyai
kandungan nutrisi yang lengkap antara lain lemak, protein, laktosa, vitamin, mineral, dan enzim.
Menurut Badan Standart Nasional (2000). Menyatakan bahwa Susu segar merupakan cairan
bernutrisi yang berasal dari ambing sapi yang sehat dan bersih, yang diperoleh dengan cara
pemerahan yang benar, yang kandungan alaminya tidak dikurangi atau ditambahakan sesuatu
apapun dan belum mendapat perlakuan apapun kecuali pendinginan. Selain itu susu merupakan
komponen pelengkap kebutuhan gizi masyarakat (Murdiati dalam Siti Khodijah, 2010).

Salah satu cara untuk mencapai kesehatan masyarakat terutama dalam mengkonsumsi
susu yaitu memperhatikan aspek sanitasi pemerahan agar dapat meningkatkan kualitas susu.
Kualitas susu dapat ditentukan dari banyaknya kandungan bakteri di dalam susu, karena bakteri
tersebut dapat merubah sifat kimia, fisik dan organoleptik sehingga susu cepat menjadi rusak.
Untuk mendapatkan susu yang baik, sehat dan layak dikonsumsi maka penting dilakukan
pengujian terhadap kualitas susu diantaranya memeriksa total koloni bakteri, kadar pH, kadar
lemak, dan berat jenis sehingga dapat diperkirakan tingkat kualitas dan keamanan susu untuk
dikonsumsi.

1.2 Penjelasan Kasus


Kasus yang kami ambil yaitu mengklasifikasikan kualitas susu yang ada pada dataset.
Data yang didapatkan dikumpulkan secara manual melalu observasi. Data tersebut terdiri dari pH
susu, suhu susu, rasa susu, bau susu, lemak susu, kekeruhan susu, dan warna susu karena pada
umumnya grade atau kualitas susu tergantung pada parameter.
BAB II

DATA DAN TEORI

Data mining adalah proses penarikan data yang sangat besar untuk diterjemahkan ke dalam
database yang besar sehingga memudahkan pengambilan keputusan suatu masalah dan juga
sebagai prediksi masa depan. Ada tiga metode dari data mining yaitu, Prediction, Association,
dan Segmentation. Tipe Prediction terbelah menjadi tiga yaitu Classification, Regression, dan
Time Series. Classification menggunakan algoritma diantaranya Decision Trees, Neural
Networks, Support Vector Machines, kNN, Naïve Bayes, dan GA. Regression menggunakan
Linear/Nonlinear, ANN, dan Regression Trees. Kemudian Time Series menggunakan
Autoregressice Methods, Averaging Methods, Exponential Smoothing, dan ARIMA. Metode
kedua adalah Association dibagi menjadi tiga subtype yaitu, Market-based, Link analysis, dan
Sequence analysis. Market-based menggunakan Apriory, OneR, ZeroR, Eclat, dan GA. Link
analysis menggunakan Expectation Maximization, Apriory Algorithm, dan Graph-based
Matching. Kemudian Squence analysis menggunakan Apriory Algorithm, FP-Growth,
Grapth-based Matching. Metode ketiga dan terakhir dalah Segmentation yang dibagi menjadi 2
subtype yaitu Clustering dan Outlier analysis. Clustering dan Outlier analysis menggunakan
algoritma yang sama yaitu K-means dan Expectation Maximization. Penelitian yang kami
lakukan menggunakan metode prediksi klasifikasi dengan algoritma decision trees, random
forest, SVM, dan KNN. Menggunakan data dari kaggle yang dikumpulkan secara manual melalui
observasi. Data tersebut terdiri dari pH susu, suhu susu, rasa susu, bau susu, lemak susu,
kekeruhan susu, dan warna susu karena pada umumnya grade atau kualitas susu tergantung pada
parameter ini, maka parameter ini memainkan peran penting dalam prediksi susu. Nilai pH dari
susu segar normal berkisar antara 6.4 hingga 6.8, bergantung pada sumber dari susu tersebut.
Untuk suhu Idealnya, susu disimpan di dalam kulkas pada suhu 40 derajat Fahrenheit atau
dibawahnya. Menyimpan susu pada suhu tersebut dapat memperpanjang masa simpan dan
memaksimalkan rasa. Untuk rasa, susu yang berkualiatas baik memiliki rasa manis yang segar
tanpa ada perbedaan rasa setelahnya. Kemudian bau yang dimiliki susu yang baik adalah aroma
creamy yang khas. Maka ketika bau sudah sedikit masam lebih baik tidak dikonsumsi karena
menandakan susu tersebut sudah tidak layak. Untuk lemak susu, jenis susu bervariasi
berdasarkan kadar lemak yang terdapat di dalamnya, seperti whole milk (3.25% milk fat),
reduced-fat milk (2%), low-fat milk(1%) dan fat-free milk. Informasi itu biasanya tercetak pada
kemasan. Dan untuk Kekeruhan pada susu dipengaruhi oleh kadar lemak yang terkandung dalam
susu.
BAB III

ISI DAN PEMBAHASAN

Langkah pertama yang dilakukan yaitu Import Libraries. Dimana blok diatas merupakan kode
untuk mengimport library yang dibutuhkan. Pandas adalah library yang umum digunakan untuk
memanipulasi data, yang dimana salah satu tipe data berupa dataframe. Pandas sendiri dibangun
diatas numpy dan numpy memiliki tipe data seperti list pada python bernama numpy array yang
hanya berisi angka. Matplotlib dan SNS adalah library yang digunakan untuk plotting visualisasi
hasil pengujian model dan korelasi antara tiap fitur dengan target. Sklearn adalah library yang
berisi algoritma algoritma supervised dan unsupervised learning yang akan digunakan.
Data understanding ini merupakan gambaran awal kekuatan data, dimana kita menggunakan
milk dataset untuk menentukan kualitas susu berdasarkan parameter tertentu. Dimana kolom satu
sampai tujuh merupakan atribut atau fiture dan kolom delapan merupakan target class dari susu
apakah berkualitas low, medium, atau high.

Eksplorasi data, dilakukan untuk memahami data sebelum dilakukan praproses. Dimana Dataset
memiliki 1059 entries dan 8 kolom.
Pada gambar diatas dapat disimpulkan bahwa dari dataset kualitas susu yang ada paling banyak
yaitu susu dengan kualitas rendah.

Pada gambar diatas menjelaskan bahwa mayoritas dari susu memiliki pH < 7 dan dapat
dikatakan bahwa kualitas pH yang ada pada susu yaitu normal.
Untuk gambar diatas menjelaskan bahwa temperature atau suhu susu yang ada pada dataset
dibawah 50 derajat. Maka suhu dari dataset kualitas susu dapat dikatakan baik.

Pada Heatmap diatas turbidity dan odor memiliki korelasi yang paling besar ditandai dengan
kotak berwarna merah yaitu 0.46.
Setelah semua hasil data keluar, selanjutnya melakukan data preparation and cleaning untuk
mengetahui apakah terdapat missing value dalam dataset tersebut. Dan hasilnya yaitu dapat
dilihat bahwa dataset tidak memiliki nilai null atau missinb value. Maka selanjutnya yaitu
mendefinisikan x dan y. x berisi fitur fitur yang akan digunakan yaitu kolom satu sampai tujuh
dan y berisi target class yaitu grade.

Sebelum masuk ke modelling data dataset perlu dibagi menjadi dua kategori yaitu train data dan
test data. Train data digunakan untuk melatih algoritma. Proporsi lebih banyak dari pada test
data. Test data dipakai untuk mengetahui performa algoritma yang sudah dilatih sebelumnya
ketika menemukan data baru yang belum pernah dilihat sebelumnya.
Melakukan modelling, algoritma yang digunakan yaitu Decision tree, Random forest, SVM, dan
KKN. dari hasil tersebut model algoritma dengan akurasi tertinggi adalah Decision tree. Maka
kami melakukan pemodelan menggunakan Decision Tree.
Hasil dari modelling Decision tree, dapat disimpulkan bahwa dalam dataset kualitas susu
didominasi dengan kualitas susu bergrade medium atau sedang. Dimana pH dari susu yaitu >
0.325 dan nilai Fat < 0.377.
BAB IV

KESIMPULAN

Data mining adalah proses penarikan data yang sangat besar untuk diterjemahkan ke dalam
database yang besar sehingga memudahkan pengambilan keputusan suatu masalah dan juga
sebagai prediksi masa depan. Ada tiga metode dari data mining yaitu, Prediction, Association,
dan Segmentation. Kami memilih metode prediction. Tipe Prediction terbelah menjadi tiga yaitu
Classification, Regression, dan Time Series. Dan kami mengambil tipe Classification
menggunakan algoritma Decision Trees. Kasus yang kami ambil yaitu mengklasifikasikan
kualitas susu yang ada pada dataset. Data yang didapatkan dikumpulkan secara manual melalu
observasi. Data tersebut terdiri dari pH susu, suhu susu, rasa susu, bau susu, lemak susu,
kekeruhan susu, dan warna susu karena pada umumnya grade atau kualitas susu tergantung pada
parameter. Hasil dari modelling data set menggunakan decision tree dapat disimpulkan bahwa
dalam dataset kualitas susu didominasi dengan kualitas susu bergrade medium atau sedang.
Dimana pH dari susu yaitu >0.325 dan nilai Fat < 0.377.
DAFTAR PUSTAKA

https://eprints.umm.ac.id/34121/2/jiptummpp-gdl-dheniksafi-45613-2-bab1.pdf

BAB 1 (pendahuluan).pdf

Anda mungkin juga menyukai