Anda di halaman 1dari 12

1.

Judul
“Analisis Dataset Signal Tubuh Merokok”

2. Tujuan
Untuk menganalisis data terhadap perilaku seseorang yang memiliki kebiasaan merokok dan
mengetahui ciri perokok tidaknya melalui bio-signal dengan menggunakan algoritma machine
learning Random Forest Classier.

3. Deskripsi Data
Dataset yang digunakan adalah kumpulan data sinyal biologis kesehatan seseorang dengan
mengetahui seseorang tersebut perokok atau bukan melalui bio-signal. Dataset ini diambil di
Kaggle. Adapun penjelasan featurenya sebagai berikut.

Source : (https://www.kaggle.com/datasets/kukuroo3/body-signal-of-
smoking?resource=download)

1) ID, mencakup data berisi index record.


2) gender, mencakup data jenis kelamin.
3) age, mencakup data umur.
4) height(cm), berisi data tinggi badan dengan satuan centimeter.
5) weight(kg), berisi data berat badan dengan satuan kilogram.
6) waist(cm), berisi data panjang lingkar pinggang dengan satuan centimeter.
7) eyesight(left), berisi data penglihatan khususnya mata sebelah kiri.
8) eyesight(right), berisi data penglihatan khususnya mata sebelah kanan.
9) hearing(left), berisi data pendengaran khususnya telinga sebelah kiri.
10) hearing(right), berisi data pendengaran khususnya telinga sebelah kanan.
11) systolic, berisi data tekanan darah tertinggi yang dicapai saat otot jantung
berkontraksi.
12) relaxation, berisi data tekanan darah saat sedang rileks.
13) fasting blood sugar, berisi data gulah darah saat berpuasa makan sebelum
pengambilan sampel darah.
14) Cholesterol, berisi data total kolestrol.
15) triglyceride, berisi data triglyceride yang berupa data kandungan lemak ataulipid
yang berada dalam darah.
16) HDL, High Density Lipoprotein berisi data kandungan kolestrol yang baik,
disarankan memiliki nilai yang tinggi.
17) LDL, atau Low Density Lipoprotein berisi data kandungan kolestrol jahat.
18) Hemoglobin, berisi data kandungan Hb dalam darah.
19) urine protein, berisi data kandungan protein dalam urine.
20) serum creatinine, berisi data kandungan serum kreatinin yang merupakansampah hasil
metabolism otot yang mengalir pada sirkulasi darah.
21) AST, atau Aspartate transaminase berisi data jumlah kandungan enzim yangberperan
dalam metabolism asam amino.
22) ALT, atau Alanie Aminotransferase berisi data jumlah enzim dalam darah
yang digunakkan sebagai indikator kerusakan hati.
23) GTP, atau Gamma-glutamyltransferase berisa data jumlah enzim untuk
menilaikondisi Kesehatan organ hati.
24) Oral, berisi data apakah pasien ikut dalam pemeriksaan yang dilakukan
dengan komunikasi lisan atau tidak.
25) dental caries, berisi data apakah mengalami gigi berlubang atau tidak.
26) tartar, berisi data apakah pemarah atau tidak
27) smoking, berisi data apakah perokok atau tidak.

Secara keseluruhan dataset dapat dilihat pada gambar dibawah ini:


Gambar 1. Dataset
Pada Gambar 1 terlihat record dari dataset, terdapat 27 atribut yang memiliki jumlah record 55692.

Gambar 2. Jumlah Dataset


Data Visualisasi
1. Data Jenis Kelamin pada dataset

Gambar 3. Data Jenis kelamin


Dari data gender di atas dapat diketahui jumlah Pria lebih banyak yaitu 63.6% dan Wanita 36.4%.
2. Persentasi Perokok dan Non Perokok berdasarkan jenis kelamin dalam dataset

Gambar 4. Data Perokok dan Non Perokok berdasarkan jenis


kelamin Non Perokok = 63.3%
Perokok = 36.7%
3. Data Umur

Gambar 5. Data Usia rata-rata


Deskripsi Usia :
Mean = 44
Min = 20
Max = 85
4. Data Tinggi Badan

Gambar 6. Data Tinggi Badan (Cm)


Deskripsi Tinggi Badan :
Mean = 164
Min = 130
Max = 190
5. Data Berat Badan

Gambar 7. Data Berat Badan (Kg)


Deskripsi Berat Badan
Mean = 65
Min = 30
Max = 135
6. Presentasi Perokok Berdasarkan Umur

Gambar 8. Data Perokok Berdasarkan


Umur Rata-Rata Perokok Berdasarkan usianya
Umur 45 = Non
Perokok Umur 41 =
Perokok
7. Data Non Perokok dan Perokok Berdasarkan jenis kelamin, umur, berat badan dan tinggi badan

Gambar 9. Data Non Perokok dan Perokok Berdasarkan


jenis kelamin, umur, berat badan dan tinggi badan
8. Presentasi Non Perokok dan Perokok Berdasarkan jenis kelamin, umur, berat badan dan
tinggi badan

Gambar 10. Data visualisasi dataset


9. Hasil Analisis dataset
 Dari hasil analisis pertama yakni ada beberapa record yaitu Jenis Kelamin,
Perokok, Usia, Berat badan(Kg), Tinggi Badan(Cm).
 Terdapat 55692 Baris dan 27 Kolom.
 Persentasi jenis kelamin pada
dataset Wanita = 36.4 %
Pria = 63.6 %
 Persentasi perokok berdasarkan jenis kelamin pada
dataset Non Perokok = 63.3%
Perokok = 36.7%
 Berdasarkan Usia
Mean = 44
Min = 20
Max = 85
 Deskripsi Tinggi badan (Cm)
Mean = 164
Min = 130
Max = 190
 Deskripsi Berat
Badan(Kg) Mean = 65
Min = 30
Max = 135
 Rata-rata usia perokok
Usia 45 = Non
Perokok Usia 41 =
Perokok
 Rata-rata Data
Wanita
 Perokok Rata-rata >usia=46, Berat=56kg, Tinggi=157cm
 Non Perokok rata-rata >usia=49, Berat=56kg, Tinggi
165cm Pria
 Perokok Rata-rata >usia=41, Berat=72kg, Tinggi=170cm
 Non Perokok rata-rata >usia=42, Berat=71kg, Tinggi 170cm
4. Pra-pemrosesan Data

Gambar 11. Pengecekan tipe data dan data yang bernilai null

Pada tahap Pre processing, dataset di pisahkan menjadi 2 yakni data training
dan data testing, dari 55692 dataset, data training berjumlah 44553 sedangkan
data testing 11139.
Selanjutnya data training dengan menggunakan tanpa scaler yakni :

Gambar 12. Data Training dengan menggunakan tanpa scaler


5. Membangun Model klasifikasi
 Random Forest Classifier
Tanpa menggunakan data tanpa scaler
6. Kesimpulan analisis Hasil Model
Tanpa Standard Scaler
Random Forest Classifier = 99.2
%

Anda mungkin juga menyukai