Anda di halaman 1dari 18

JUDUL TUGAS UTS

Musfita
H071181012
musfita2103@gmail.com

Abstrak
Tuliskan intisari atau abstrak dari tugas UTS dalam satu paragraph yg tersusun seperti berikut. Pengantar
pendahuluan 1-2 kalimat. Penjelasan permasalahan 1-3 kalimat, Penjelasan ringkas solusi yang digunakan
1-2 kalimat. Penjelasan ringkas metode yg digunakan sesuai dgn usulan solusi 2-6 kalimat. Penjelasan
ringkas hasil dan pembahasan 2-6 kalimat. Terakhir, penjelasan ringkas kesimpulan 1-3 kalimat.
Kata kunci: Data Mining, Pra-pengolahan Data, Algoritma Ekspektasi Maksimisasi, Analisis Komponen
Utama (berikan minimal 5 kata kunci)

1. Pendahuluan
Penjelasan ringkas tentang permasalah dari dataset, rumuskan masalah, jelaskan tujuan penelitian
yg ingin dicapai, batasan masalah, penjelasan metode yg digunakan, dll.

2. Tinjauan Pustaka
2.1. Landasan Teori atau Konsep Dasar
Berikan penjelasan teknis yg detail tentang definisi permasalah, metode-metode yg digunakan
serta ukuran kinerja dalam mengevaluasi hasil yg digunakan utk pembahasan.

2.2. Penelitian Terdahulu


Berikan review artikel ilmiah yg sdh dipublikasi minimal 5 artikel yg relevan dgn permasalahan.
Hasil review dibuat dalam bentuk penjelasan per paragraf (sehingga sub-bab ini minimal 5
paragraf).

3. METODE PENILITIAN
3.1. Sumber Data
Yang dimaksud dengan sumber data dalam penelitian adalah subyek dari mana data
dapat diperoleh. Data untuk penelitian kami diakses dari University OF California Irvine (UCI)
Machine Learning Repository. Data ini sebenarnya diekstraksi oleh Barry Becker menggunakan
database sensus 1994 dengan mengumpulkan catatan bersih menggunakan serangkaian kondisi.
Sensus adalah kegiatan berskala luas, yang berlangsung sekali dalam satu dekade di seluruh
negeri. Ini adalah prosedur yang memperoleh informasi lengkap dan andal seperti karakteristik
demografis, sosial dan ekonomi tentang orang-orang dalam populasi tertentu. Data yang
dikumpulkan meliputi usia, jenis kelamin, status perkawinan, negara asal, pekerjaan, pendidikan,
dll.
Sensus mencakup lebih dari 200 survei berbeda yang diambil oleh banyak enumerator untuk
mendapatkan ukuran yang dapat diandalkan tentang demografi orang Amerika. Peran terpenting
dari Sensus adalah menghitung distribusi penduduk. Informasi memungkinkan untuk
merencanakan layanan yang lebih baik, meningkatkan kualitas hidup masyarakat dan
menyelesaikan masalah yang ada.
3.2. Identifikasi Variabel
Kumpulan data mencakup angka-angka pada 48.842 catatan berbeda dan 14 atribut untuk 42
negara. Ke-14 atribut tersebut terdiri dari 8 kategori dan 6 atribut kontinu yang memuat
informasi mengenai umur, pendidikan, kebangsaan, status perkawinan, status hubungan,
pekerjaan, klasifikasi pekerjaan, jenis kelamin, ras, jam kerja per minggu, capital loss dan capital
gain. Adapun variabel yang akan digunakan dalam penelitian ini adalah dua variabel, yaitu:
1. Variabel terikat atau dependent variable (Y) adalah variabel penelitian yang diukur
untuk mengetahui besarnya efek atau pengaruh variabel lain. Besar efek tersebut
diamati dari adatidaknya, timbul hilangnya, besar-mengecilnya, atau berubahnya
variasi yang tampak sebagai akibat perubahan pada variabel lain termaksud (Azwar,
2007:62).
Yang menjadi Variabel dependent yaitu Age, WorkClass, FnlWgt, Education, Education-
Num, Marital-Status, Occupation, Relationship, Race, Sex, Capital-Gain, Capital-Loss,
Hours-Per-Week, Native-Country.
2. Variabel bebas atau independent variable (X) yaitu suatu variabel yang variasinya
mempengaruhi variabel lain. Dapat pula dikatakan bahwa variabel bebas adalah
variabel yang pengaruhnya terhadap variabel lain ingin diketahui. Variabel ini dipilih
dan sengaja dimanipulasi oleh peneliti agar efeknya terhadap variabel lain tersebut dapat
diamati dan diukur (Azwar, 2007:62).
Yang menjadi Variabel dependent yaitu Income
3.3. Langkah-Langkah Penelitian
Langkah analisis yang dilakukan pada Penilitian ini adalah sebagai berikut :
1. Import libraries
2. Memasukkan data
3. Melakukan eksplorasi data dengan melihat statistik ringkasan data
4. Melakukan pra-pengolahan data
5. Melakukan korelasi matrix
6. Melakukan transformasi data dengan menggunakan seleksi fitur dan normalisasi
7. Melakukan evaluasi model dengan melihat statistik kinerja keseluruhan dan kurva
karakteristik operasi penerima.
3.4. Diagram Alir Penelitian
Tahapan proses yang akan dilakukan dalam penelitian ini yaitu :
1. Import Libraries
Libraries yang digunakan pada penelitian ini antara lain: numpy, pandas, seaborn,
dan lain sebagainya.
2. Memasukkan Data
Langkah ini merupakan langkah yang digunakan untuk memanggil data yang akan
digunakan dalam penelitian.
3. Eksplorasi Data
Sebelum diolah lebih lanjut, perlu diketahui karakteristik dan insight dari data
tersebut. Langkah ini terdiri dari statistika deskriptif dan visualisasi data.
4. Melakukan Pra-Pengolahan Data
Proses penyesuaian data mentah menjadi data yang siap diolah. Langkah ini terdiri
dari:
a. Penanganan Missing Value (null)
Ada beberapa cara untuk menangani nilai yang null seperti menghapus nilai
tersebut kalau sedikit, mengganti dengan nilai pemusatan (misalnya rata-rata,
median dll)
b. Deteksi outlier
Pencilan dapat dideteksi dengan pengelompokan (clustering), misalnya, jika
serupa nilai-nilai diatur ke dalam kelompok, atau "kelompok". Secara intuitif,
nilai yang berada di luar kumpulan cluster dapat dianggap sebagai pencilan
c. Categorical encoding dengan label encoding dan one hot encoding
Label-Encoding mengacu pada pengubahan label menjadi bentuk numerik
untuk mengubahnya menjadi bentuk yang dapat dibaca mesin (computer).
Label-Encoding mengonversi data dalam bentuk yang dapat dibaca mesin,
tetapi memberikan nomor unik (mulai dari 0) untuk setiap kelas data.
One-Hot-Encoding adalah proses di mana variabel kategori diubah menjadi
kolom-kolom baru, Setiap kolom berisi "0" atau "1" yang sesuai dengan
kolom mana label atau kategori tersebut berada.
5. Korelasi Matrix
Korelasi merupakan seberapa kuat hubungan antar variabel satu dengan variabel
lainnya
6. Melakukan Transformasi Data
Langkah ini digunakan untuk mengetahui variabel prediktor apa saja yang paling
berpengaruh signifikan dalam memprediksi variabel respon. Pendekatan yang
digunakan dalam langkah ini adalah Seleksi Fitur dan normalisasi.

7. Melakukan Evaluasi Model


Pada langkah ini tahap akhir untuk menentukan metode yang baik untuk digunakan.
Dengan Melihat Statistik Kinerja Keseluruhan dan Kurva Karakteristik Operasi
Penerima.
8. Reduksi Dimensi
Pada data ini digunakan metode PCA (Principal Components Analysis), PCA bekerja
dengan menghitung variance dari tiap atribut. Variance adalah informasi yang
dimiliki sebuah atribut.Secara sederhana, tujuan dari PCA adalah mengurangi jumlah
atribut pada dataset tanpa mengurangi informasi. Pada PCA setiap atribut disebut
sebagai principal component..
4. Hasil dan Pembahasan
4.1. Hasil Ekplorasi Data
4.1.1. Obyek Data
Menargetkan individu dengan gaji yang melebihi lima puluh ribu dolar AS dengan
menambang sensus anonym data yang berisi informasi demografis seperti usia, jenis kelamin,
tingkat pendidikan dan Jenis Pekerjaan. Atribut gaji asli dalam data sensus telah dianonimkan
menjadi nilai binomial yang menunjukkan jika gaji melebihi lima puluh ribu dolar AS. Sensus
mencakup lebih dari 200 survei berbeda yang diambil oleh banyak enumerator untuk
mendapatkan ukuran yang dapat diandalkan tentang demografi orang Amerika.
4.1.2. Tipe Data Atribut
ID Attribute Attribute Type Definisi
F1 Age Continuous Atribut ini menjelaskan usia setiap individu. Ini
adalah atribut numerik dengan nilai kontinu, dan
karena ini adalah variabel interval di mana
pengukuran nol menunjukkan, tidak ada / nol usia,
itu adalah atribut Rasio.
F2 WorkClass Categorical Atribut ini menjelaskan kelas kerja individu dari
setiap individu. Ini adalah atribut kategorikal,
dengan nilai yang berbeda seperti private, federal-
gov, local-gov, state-gov, dll. Ini adalah atribut
Nominal karena setiap nilai berbeda dan memiliki
arti yang melekat padanya.
F3 FnlWgt Continuous Atribut ini digunakan untuk perkiraan independen
penduduk sipil noninstitusional AS. Orang dengan
fitur demografis yang serupa harus memiliki bobot
yang serupa. Ini adalah atribut numerik dengan nilai
kontinu, dan karena ini adalah variabel interval di
mana pengukuran nol tidak memungkinkan dan
berarti tidak ada bobot akhir, itu adalah atribut
Rasio.
F4 Education Categorical Atribut ini menjelaskan tentang tingkat pendidikan
tertinggi setiap individu. Ini adalah atribut
kategorikal, dengan nilai yang berbeda seperti
Sarjana, Prasekolah, Magister, Doktor, dll. Ini
adalah atribut Nominal karena setiap nilai berbeda
dan memiliki beberapa arti yang melekat padanya.
F5 Education- Continuous Atribut ini adalah representasi numerik dari atribut
num pendidikan, yang menunjukkan tingkat pendidikan
tertinggi dari setiap individu. Semakin tinggi
nilainya, semakin tinggi pula tingkat pendidikannya.
Ini merupakan atribut Ordinal karena setiap nilai
berbeda dan memiliki beberapa urutan di dalamnya,
semakin tinggi nilainya, semakin tinggi tingkat
pendidikannya.
F6 Marital- Categorical Atribut ini tentang status perkawinan seseorang. Ini
Status adalah atribut kategoris, dengan nilai yang berbeda
seperti Menikah-civ-spouse, Perceraian, Belum
pernah menikah, dll. Ini adalah atribut Nominal
karena setiap nilai berbeda dan memiliki beberapa
arti yang melekat padanya.
F7 Occupation Categorical Atribut ini tentang bidang pekerjaan seseorang. Ini
adalah atribut kategorikal, dengan nilai yang
berbeda seperti Dukungan Teknis, Kerajinan-
perbaikan, Penjualan, dll. Ini adalah atribut Nominal
karena setiap nilai berbeda dan memiliki beberapa
arti yang melekat padanya.
F8 Relationship Categorical Atribut ini tentang hubungan individu dalam sebuah
keluarga. Ini adalah atribut kategorikal, dengan nilai
yang berbeda seperti Istri, Suami, Belum Menikah,
dll. Merupakan atribut Nominal karena setiap nilai
berbeda dan memiliki beberapa arti yang melekat
padanya.
F9 Race Categorical Atribut ini tentang ras seseorang. Ini adalah atribut
kategoris, dengan nilai berbeda seperti Putih, Hitam,
Penduduk Kepulauan Asia, dll. Ini adalah atribut
Nominal karena setiap nilai berbeda dan memiliki
beberapa arti yang melekat padanya.
F1 Sex Categorical Atribut ini tentang jenis kelamin / jenis kelamin
0 seseorang. Ini adalah atribut kategoris, dengan dua
nilai Pria, Wanita. Ini adalah atribut Nominal karena
setiap nilai berbeda dan memiliki beberapa arti yang
melekat padanya.
F1 Capital-Gain Continuous Atribut ini tentang keuntungan / pendapatan dari
1 sumber investasi selain gaji. Ini adalah atribut
numerik dengan nilai kontinu, karena ini adalah
variabel interval di mana pengukuran nol berarti
tidak ada capital gain, itu adalah atribut Rasio.
F1 Capital-Loss Continuous Atribut ini tentang kerugian dari sumber investasi
2 selain gaji. Ini adalah atribut numerik dengan nilai
kontinu, karena ini adalah variabel interval di mana
pengukuran nol berarti tidak ada kerugian modal, itu
adalah atribut Rasio.
F1 Hours-Per- Continuous Atribut ini tentang jumlah jam kerja seseorang per
3 Week minggu. Ini adalah atribut numerik dengan nilai
kontinu, karena ini adalah variabel interval di mana
pengukuran nol berarti orang tersebut tidak bekerja,
itu adalah atribut Rasio.
F1 Native- Categorical Atribut ini tentang negara asal / negara asal
4 Country seseorang. Ini adalah atribut kategorikal dengan
nilai-nilai seperti Amerika Serikat, India, Inggris,
dll. Ini adalah atribut Nominal karena setiap nilai
berbeda dan memiliki beberapa arti yang melekat
padanya.
Income Categorical Atribut ini tentang pendapatan individu, apakah
kurang dari 50k atau lebih besar dari 50k. Itu adalah
nilai kategoris, dan atribut nominal.
Gambar 1. Kolom dan Tipenya

4.1.3. Deskripsi Statistik Dasar Dari Data


1. Statistika deskriptif
Statistika deskriptif digunakan untuk mengetahui karakteristik dari data.
Sebelumnya data kategorik sudah didrop, sehingga yang digunakan dalam analisis
statistika deskriptif ini adalah hanya data yang numerik. Tabel 1 merupakan tabel
statistika deskriptif yang terdiri dari count, mean, deviation standard, minimum, q1,
q2, q3, dan maksimum.

Tabel 1. Statistika Deskriptif


2. Normalisasi
Normalisasi terjadi pada set data pelatihan, dengan menghapus mean dan
penskalaan ke varian unit yang ditunjukkan pada Gambar 2. Nilai-nilai ini disimpan
dan kemudian diterapkan ke data pengujian sebelum data pengujian diteruskan ke
model untuk prediksi.
Gambar 2. Box Plot
3. Analisis Bivariate
Pada Gambar adalah perbandingan statistik anatar variabel 1 dengan variabel
yang lainnya bahwa setiap variabel lebih dominan yang melebihi 50K Dollar setiap
tahunnya.

Gambar 3. Analisis Bivariate


4.1.4. Visualisasi Data
Visualisasi atribut numerik memberi sesuatu yang menarik tentang distribusi nilai yang
dapat kita lihat pada Gambar 4. Sebagian besar individu berusia <50 sedangkan usia maksimal
90 tahun. Pada umumnya masyarakat tidak memiliki investasi selain penghasilan tetapnya.
Namun, hanya ada sedikit orang yang berinvestasi, dan ada juga sejumlah kecil pencilan yang
menghasilkan lebih dari 90000 melalui capital gain. Namun, di antara orang-orang yang
mengalami kerugian modal, kerugian rata-rata terlihat sekitar tahun 2000. Rata-rata, sebagian
besar masyarakat telah menempuh pendidikan hingga jenjang pendidikan nomor 9 atau 10 di
wilayah tempat pencacahan dilakukan. Kebanyakan orang bekerja sekitar 40 jam per minggu.
Namun ada beberapa yang tidak bekerja dan beberapa yang bekerja hampir 100 jam seminggu.

Gambar 4. Histogram Nilai Numerik

1. Education vs Income
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh tingkat
pendidikan pada Gambar 5. Seperti yang diharapkan, kami melihat dari grafik
batang di bawah ini bahwa seiring dengan meningkatnya tingkat pendidikan,
proporsi orang yang berpenghasilan lebih dari 50 ribu setahun juga meningkat.
Menarik untuk dicatat bahwa hanya setelah gelar master, proporsi orang yang
berpenghasilan lebih dari 50k setahun, adalah mayoritas.
Gambar 5. Distribusi Proporsi Antar Jenjang Pendidikan

2. Gender vs Income
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh jenis
kelamin pada Gambar 6. Dari grafik tersebut, secara keseluruhan, terdapat
kesenjangan upah antara perempuan dan laki-laki. Karena kami tidak memiliki nilai
pasti dari pendapatannya, kami dibatasi hanya mengamati bahwa proporsi laki-laki
yang berpenghasilan lebih dari 50 ribu setahun lebih dari dua kali lipat dibandingkan
perempuan.

Gambar 6. Distribusi Proporsi Di Seluruh Tingkat Gender

3. Ocupation vs Income
Gambar 7. Distribusi Proporsi Di Seluruh Tingkat Pekerjaan

4. Workclass vs Income

Gambar 8. Distribusi Proporsi Di Seluruh Tingkat Kelas Kerja

5. Race vs Income
Gambar 9. Distribusi Proporsi Di Seluruh Tingkat Ras

6. Native Country
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh negara
asal pada Gambar 10. Dari grafik tersebut, kami melihat tren posisi negara. Negara
Amerika Selatan berada di ujung kiri plot, dengan proporsi populasi yang rendah
yang menghasilkan lebih dari 50 ribu setahun. Amerika Serikat terletak agak di
tengah, dan di sebelah kanan adalah negara-negara dari Eropa dan Asia, dengan
proporsi populasi yang lebih tinggi yang menghasilkan lebih dari 50 ribu per tahun.

Gambar 10. Distribusi Proporsi Di Seluruh Tingkat Negara Asli

7. Hours per Week vs Income


Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh jam
kerja pada Gambar 11 Kami memperkirakan akan melihat tren bahwa semakin
tinggi jam kerja per minggu, semakin tinggi proporsi populasi yang menghasilkan
lebih dari 50 ribu per tahun. Namun, ini belum tentu benar dari grafik. Untuk
beberapa jam misalnya (misalnya, di mana jam kerja adalah 77, 79, 81, 82, 87, 88
dan seterusnya) tidak ada yang berpenghasilan lebih dari 50 ribu setahun.
Gambar 11. Distribusi Proporsi Di Seluruh Jam Per Minggu

a. Hours per week with categories


Mengubah kolom ini menjadi 3 kategori, kurang dari 40 jam, 40 hingga 60 jam,
dan lebih besar dari 60 jam. Merencanakan grafik batang dengan 3 kategori ini,
kita dapat melihat dari gambar di Gambar12. Bahwa ada kecenderungan
peningkatan proporsi populasi yang menghasilkan lebih dari 50 ribu setahun.

Gambar 12. Distribusi Proporsi Di Seluruh Jam Per Minggu

b. Hours worked across working classes


Gambar 13. Distribusi proporsi di seluruh Jam per minggu Gambar 14. Distribusi proporsi di seluruh Jam
perminggu untuk pemerintah lokal

Gambar 15. Distribusi proporsi di seluruh Jam Gambar 16. Distribusi proporsi di seluruh Jam per
per minggu Never-worket minggu untuk self-emp-not-inc

Gambar 17. Distribusi proporsi di seluruh Jam per Gambar 18. Distribusi proporsi di seluruh Jam per
minggu untuk pemerintah federal minggu untuk pemerintah negara bagian

4.1.5. Similaritas Data


Similaritas digunakan untuk mencari keterhubungan atau keterkaitan antara atribut satu
dengan yang lainnya yang berkompetitif. Penggalian informasi pada similaritas melibatkan
pengukuran jarak antara objek yang dapat digunakan untuk melacak asal-usul informasi
tersebut, atau dapat digunakan untuk memprediksi sosial perilaku. Kesamaan dua objek
diukur berdasarkan konsep kedekatan, yang digunakan untuk memberikan nilai yang terbatas.
Ada banyak pengukuran kesamaan, tetapi melibatkan urutan komponen dari objek memerlukan
pendekatan khusus yang dapat dilihat pada Tabel 2.
Tabel 2. Korelasi Matriks

4.2. Pra-proses Data


a. Pembersihan Data
Sebelum mengolah Dataset Adult, pembersihan data dengan teknik preprocessing
tertentu menjadi suatu keharusan. Ini termasuk:
1. Pengkodean Fitur Kategorikal atau Non-Numerik
Pelabelan atau pengkodean data ini menggunakan perintah sebagai berikut :

Setelah melakukan perintah diatas maka akan menghasilkan output

2. Menangani Missing Value


Missing value merupakan nilai yang hilang pada suatu variabel dengan sebab
tertentu. Missing value bisa diatasi ketika dalam suatu variable memiliki missing
value kurang dari 30%, apabila lebih dari 30% data tidak bisa digunakan karena
data yang tidak lengkap terlalu banyak bisa membuat kesalahan dalam melakukan
data mining. Berikut Gambar19 merupakan jumlah missing value pada masing-
masing variabel.
Gambar 19. Missing Value

Dari Gambar 19 diatas menunjukkan bahwa pada tiap variabel tidak ada yang
memiliki missing value lebih dari 30% sehingga missing value dapat diatasi. Cara
mengatasi missing value adalah dengan mengganti data yang missing dengan
mengganti nilai missing value dengan suatu nilai yang dapat dilihat pada Gambar
20.

Gambar 20. Drop The Missing Values


3. Deteksi Data Pencilan
Outlier adalah data dalam suatu variabel yang memiliki nilai ekstrim. Data
outlier bisa dikatakan sebagai data yang yang terpencil yang tidak masuk akal
terjadi pada suatu kejadian dan terindikasi terdapat kesalahan. Pada kasus ini
digunakan Korelasi Matrix pada Tabel 2 untuk mendeteksi data outlier. Berikut
merupakan Tabel 3 hasil outlier.
Tabel 3. Data Pencilan
b. Integrasi Data
c. Transformasi dan Diskritisasi Data

Dari hasil di atas terlihat untuk fitur kategori diubah menjadi bilangan biner yaitu 0 dan 1
sesuai deskripsi dari fitur sehingga tipe data juga akan terubah.

Pada hasil di atas terlihat dilakukan proses one hot encoding dari classification.
d. Reduksi Data atau Seleksi Fitur
Reduksi dimensi yang akan saya gunakan adalah metode PCA
1. Metode PCA (Principal Components Analysis)
Perintah untuk menampilkan graph 2D dan 3D yaitu :

Untuk menampilkan metode PCA, kita harus melakukan pemformatan untuk


tampilan, membuat komponen PCA dan melakukan putar sumbu. Sehingga
menghasilkan seperti Gambar 21 dibawah ini
Seperti terlihat pada hasil di atas, dibutuhkan 10 variabel untuk mencapai lebih dari
90% penjelasan vs. jumlah variabel aslinya adalah 14. Tidak ada pengurangan yang
signifikan yang terjadi karena sifat dari dataset ini, sehingga tidak banyak artinya
dalam pelaksanaannya PCA.
Untuk melihat metode lain dari reduksi data ini yaitu dengan melihat metode t-SNE

e. Resampling
4.3. Pembahasan
Kemukakan temuan2 yg diperoleh dari hasil pra-pengolahan serta jelaskan alasan yg mendukung
temuan tsb.

5. Kesimpulan
Berikan kesimpulan dari hasil dan pembahasan yang menjawab tujuan penelitian

Daftar Pustaka
[1] Lawi, Armin dan Abdallah, M. Khawaritzmi. “Pengantar Data Minig”, Jurnal Catatan
Kuliah, Vol. 1, No. 1, Hal. 10-14, 2020.
[2] Lawi, Armin. “Metode Pra Pengolahan Data: Konsep dan Implementasi”, Proc. Konferensi
Nasional Ilmu Komputer ke-3, Hal. 20-24, Makassar, 28-29 September 2020.
[3] Lawi, Armin. “Konsep Data Mining”, Ilmu Komputer Press, September 2020.

Anda mungkin juga menyukai