Anda di halaman 1dari 5

Nama : Arsyad Muzaffar Basyarudin

NIM : 211127005
Jurusan : Bisnis Digital

UJIAN TENGAH SEMESTER


ANALISIS BIG DATA

SOAL

1. Cari dan tentukan datasheet yang akan digunakan (datasheet bebas dan harus berisi
ratusan data)
2. Tentukan model data mining yang akan dipilih (model prediksi atau klasifikasi)
3. Pahami datasheet tersebut berisi data apa, atribute yang ada dan apa tujuan dari
datasheet tersebut
4. Lakukan proses data preparing (data kosong, data kembar, apakah ada data yang
terlampau jauh/ pencilan), apa perlu dilakukan proses normalisasi dan lainnya
5. Buat model yang dipilih
6. Lakukan proses evaluasi untuk melihat berapa nilai akurasi nya.

JAWABAN

1. Dataset yang saya pilih adalah dataset employe.


2. Data mining yang saya pilih adalah Prediksi.
3. Dataset ini memiliki atribut : Dataset ini memiliki atribut : Dataset ini memiliki
atribut : Joining year, payment tier, eexperience education,city, gender, &
everbenched. Leave or not adalah atribut yang saya gunakan sebagai tujuan atau label
karena pada atribut ini memprediksikan apakah karyawan tersebut akan tetap atau
keluar.
4. Berikut merupakan hasil dari data preparing
Data diatas menunjukkan tidak ada yang missing,namun ada data yang kembar,
maka pada data preparing diatas saya menggunakan remove duplicate.

5. Berikut merupakan model yang saya pakai.


Operator-operator yang digunakan yaitu :

- Operator Set Role. Operator ini saya gunakan untuk memfokuskan atau melabelkan satu
atribut yang memiliki peran khusus yaitu leave or not, setelah itu akan digunakan untuk
mencari tahu tingkat prediksinya.
- Operator remove duplicate saya gunakan untuk menghilangkan data yang sama, agar saat
proses prediksi data tidak terlalu berat.
- Operator Normalize. Operator ini saya gunakan supaya nilai yang tertera pada attribute
tidak terlampau jauh.
- Operator Select Attributes. Operator ini saya gunakan untuk menyeleksi attribute apa saja
yang akan digunakan. Namun karena pada datasets yang saya pilih semua atributenya
dibutuhkan maka saya select semuanya atau All. berfungsi untuk memilih atribut yang
digunakan disini saya memilih subset dan saya memilih attribut yang memiliki nilai karena
nantinya saya akan menggunakan regresi.
- Operator Split data berfungi untuk membagi dataset menjadi partisi data lalu menguji sesuai
dengan rasio yang diberikan misal 0.8 dan 0.2 semakin besar perbandingan rasio maka resiko
juga semakin tinggi.
- Operator Apply Model berfungsi untuk untuk memperoleh hasil prediksi pada data yang
belum memiliki label.
- Operator Decision Tree berfungsi mengubah data menjadi aturan-aturan keputusan dan
untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simple,
sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.
- Operator performance berfungsi untuk mencari untuk mengevaluasi kinerja model yang
memberikan daftar nilai kriteria kinerja secara otomatis sesuai dengan tugas yang diberikan.
Saya menggunakan operator performance ini untuk mengetahui tingkat akurasinya.

Lalu ini merupakan hasil dari apply model dimana kita akan melihat nilai prediksi.

Kemudian ini adalah hasil dari performancenya.


6. Berdasarkan pada analisis data mining pada model Decision Tree pada prediksi
employee/karyawan dapat disimpulkan bahwa tingkat keakuratannya sebesar 80,47%,
bisa dibilang data yang gunakan sudah cukup akurat.

Anda mungkin juga menyukai