Musfita
H071181012
musfita2103@gmail.com
Abstrak
Tuliskan intisari atau abstrak dari tugas UTS dalam satu paragraph yg tersusun seperti berikut. Pengantar
pendahuluan 1-2 kalimat. Penjelasan permasalahan 1-3 kalimat, Penjelasan ringkas solusi yang digunakan
1-2 kalimat. Penjelasan ringkas metode yg digunakan sesuai dgn usulan solusi 2-6 kalimat. Penjelasan
ringkas hasil dan pembahasan 2-6 kalimat. Terakhir, penjelasan ringkas kesimpulan 1-3 kalimat.
Kata kunci: Data Mining, Pra-pengolahan Data, Algoritma Ekspektasi Maksimisasi, Analisis Komponen
Utama (berikan minimal 5 kata kunci)
1. Pendahuluan
Penjelasan ringkas tentang permasalah dari dataset, rumuskan masalah, jelaskan tujuan penelitian
yg ingin dicapai, batasan masalah, penjelasan metode yg digunakan, dll.
2. Tinjauan Pustaka
2.1. Landasan Teori atau Konsep Dasar
Berikan penjelasan teknis yg detail tentang definisi permasalah, metode-metode yg digunakan
serta ukuran kinerja dalam mengevaluasi hasil yg digunakan utk pembahasan.
3. METODE PENILITIAN
3.1. Sumber Data
Yang dimaksud dengan sumber data dalam penelitian adalah subyek dari mana data
dapat diperoleh. Data untuk penelitian kami diakses dari University OF California Irvine (UCI)
Machine Learning Repository. Data ini sebenarnya diekstraksi oleh Barry Becker menggunakan
database sensus 1994 dengan mengumpulkan catatan bersih menggunakan serangkaian kondisi.
Sensus adalah kegiatan berskala luas, yang berlangsung sekali dalam satu dekade di seluruh
negeri. Ini adalah prosedur yang memperoleh informasi lengkap dan andal seperti karakteristik
demografis, sosial dan ekonomi tentang orang-orang dalam populasi tertentu. Data yang
dikumpulkan meliputi usia, jenis kelamin, status perkawinan, negara asal, pekerjaan, pendidikan,
dll.
Sensus mencakup lebih dari 200 survei berbeda yang diambil oleh banyak enumerator untuk
mendapatkan ukuran yang dapat diandalkan tentang demografi orang Amerika. Peran terpenting
dari Sensus adalah menghitung distribusi penduduk. Informasi memungkinkan untuk
merencanakan layanan yang lebih baik, meningkatkan kualitas hidup masyarakat dan
menyelesaikan masalah yang ada.
3.2. Identifikasi Variabel
Kumpulan data mencakup angka-angka pada 48.842 catatan berbeda dan 14 atribut untuk 42
negara. Ke-14 atribut tersebut terdiri dari 8 kategori dan 6 atribut kontinu yang memuat
informasi mengenai umur, pendidikan, kebangsaan, status perkawinan, status hubungan,
pekerjaan, klasifikasi pekerjaan, jenis kelamin, ras, jam kerja per minggu, capital loss dan capital
gain. Adapun variabel yang akan digunakan dalam penelitian ini adalah dua variabel, yaitu:
1. Variabel terikat atau dependent variable (Y) adalah variabel penelitian yang diukur
untuk mengetahui besarnya efek atau pengaruh variabel lain. Besar efek tersebut
diamati dari adatidaknya, timbul hilangnya, besar-mengecilnya, atau berubahnya
variasi yang tampak sebagai akibat perubahan pada variabel lain termaksud (Azwar,
2007:62).
Yang menjadi Variabel dependent yaitu Age, WorkClass, FnlWgt, Education, Education-
Num, Marital-Status, Occupation, Relationship, Race, Sex, Capital-Gain, Capital-Loss,
Hours-Per-Week, Native-Country.
2. Variabel bebas atau independent variable (X) yaitu suatu variabel yang variasinya
mempengaruhi variabel lain. Dapat pula dikatakan bahwa variabel bebas adalah
variabel yang pengaruhnya terhadap variabel lain ingin diketahui. Variabel ini dipilih
dan sengaja dimanipulasi oleh peneliti agar efeknya terhadap variabel lain tersebut dapat
diamati dan diukur (Azwar, 2007:62).
Yang menjadi Variabel dependent yaitu Income
3.3. Langkah-Langkah Penelitian
Langkah analisis yang dilakukan pada Penilitian ini adalah sebagai berikut :
1. Import libraries
2. Memasukkan data
3. Melakukan eksplorasi data dengan melihat statistik ringkasan data
4. Melakukan pra-pengolahan data
5. Melakukan korelasi matrix
6. Melakukan transformasi data dengan menggunakan seleksi fitur dan normalisasi
7. Melakukan evaluasi model dengan melihat statistik kinerja keseluruhan dan kurva
karakteristik operasi penerima.
3.4. Diagram Alir Penelitian
Tahapan proses yang akan dilakukan dalam penelitian ini yaitu :
1. Import Libraries
Libraries yang digunakan pada penelitian ini antara lain: numpy, pandas, seaborn,
dan lain sebagainya.
2. Memasukkan Data
Langkah ini merupakan langkah yang digunakan untuk memanggil data yang akan
digunakan dalam penelitian.
3. Eksplorasi Data
Sebelum diolah lebih lanjut, perlu diketahui karakteristik dan insight dari data
tersebut. Langkah ini terdiri dari statistika deskriptif dan visualisasi data.
4. Melakukan Pra-Pengolahan Data
Proses penyesuaian data mentah menjadi data yang siap diolah. Langkah ini terdiri
dari:
a. Penanganan Missing Value (null)
Ada beberapa cara untuk menangani nilai yang null seperti menghapus nilai
tersebut kalau sedikit, mengganti dengan nilai pemusatan (misalnya rata-rata,
median dll)
b. Deteksi outlier
Pencilan dapat dideteksi dengan pengelompokan (clustering), misalnya, jika
serupa nilai-nilai diatur ke dalam kelompok, atau "kelompok". Secara intuitif,
nilai yang berada di luar kumpulan cluster dapat dianggap sebagai pencilan
c. Categorical encoding dengan label encoding dan one hot encoding
Label-Encoding mengacu pada pengubahan label menjadi bentuk numerik
untuk mengubahnya menjadi bentuk yang dapat dibaca mesin (computer).
Label-Encoding mengonversi data dalam bentuk yang dapat dibaca mesin,
tetapi memberikan nomor unik (mulai dari 0) untuk setiap kelas data.
One-Hot-Encoding adalah proses di mana variabel kategori diubah menjadi
kolom-kolom baru, Setiap kolom berisi "0" atau "1" yang sesuai dengan
kolom mana label atau kategori tersebut berada.
5. Korelasi Matrix
Korelasi merupakan seberapa kuat hubungan antar variabel satu dengan variabel
lainnya
6. Melakukan Transformasi Data
Langkah ini digunakan untuk mengetahui variabel prediktor apa saja yang paling
berpengaruh signifikan dalam memprediksi variabel respon. Pendekatan yang
digunakan dalam langkah ini adalah Seleksi Fitur dan normalisasi.
1. Education vs Income
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh tingkat
pendidikan pada Gambar 5. Seperti yang diharapkan, kami melihat dari grafik
batang di bawah ini bahwa seiring dengan meningkatnya tingkat pendidikan,
proporsi orang yang berpenghasilan lebih dari 50 ribu setahun juga meningkat.
Menarik untuk dicatat bahwa hanya setelah gelar master, proporsi orang yang
berpenghasilan lebih dari 50k setahun, adalah mayoritas.
Gambar 5. Distribusi Proporsi Antar Jenjang Pendidikan
2. Gender vs Income
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh jenis
kelamin pada Gambar 6. Dari grafik tersebut, secara keseluruhan, terdapat
kesenjangan upah antara perempuan dan laki-laki. Karena kami tidak memiliki nilai
pasti dari pendapatannya, kami dibatasi hanya mengamati bahwa proporsi laki-laki
yang berpenghasilan lebih dari 50 ribu setahun lebih dari dua kali lipat dibandingkan
perempuan.
3. Ocupation vs Income
Gambar 7. Distribusi Proporsi Di Seluruh Tingkat Pekerjaan
4. Workclass vs Income
5. Race vs Income
Gambar 9. Distribusi Proporsi Di Seluruh Tingkat Ras
6. Native Country
Plot grafik batang yang menunjukkan proporsi kelas pendapatan di seluruh negara
asal pada Gambar 10. Dari grafik tersebut, kami melihat tren posisi negara. Negara
Amerika Selatan berada di ujung kiri plot, dengan proporsi populasi yang rendah
yang menghasilkan lebih dari 50 ribu setahun. Amerika Serikat terletak agak di
tengah, dan di sebelah kanan adalah negara-negara dari Eropa dan Asia, dengan
proporsi populasi yang lebih tinggi yang menghasilkan lebih dari 50 ribu per tahun.
Gambar 15. Distribusi proporsi di seluruh Jam Gambar 16. Distribusi proporsi di seluruh Jam per
per minggu Never-worket minggu untuk self-emp-not-inc
Gambar 17. Distribusi proporsi di seluruh Jam per Gambar 18. Distribusi proporsi di seluruh Jam per
minggu untuk pemerintah federal minggu untuk pemerintah negara bagian
Dari Gambar 19 diatas menunjukkan bahwa pada tiap variabel tidak ada yang
memiliki missing value lebih dari 30% sehingga missing value dapat diatasi. Cara
mengatasi missing value adalah dengan mengganti data yang missing dengan
mengganti nilai missing value dengan suatu nilai yang dapat dilihat pada Gambar
20.
Dari hasil di atas terlihat untuk fitur kategori diubah menjadi bilangan biner yaitu 0 dan 1
sesuai deskripsi dari fitur sehingga tipe data juga akan terubah.
Pada hasil di atas terlihat dilakukan proses one hot encoding dari classification.
d. Reduksi Data atau Seleksi Fitur
Reduksi dimensi yang akan saya gunakan adalah metode PCA
1. Metode PCA (Principal Components Analysis)
Perintah untuk menampilkan graph 2D dan 3D yaitu :
e. Resampling
4.3. Pembahasan
Kemukakan temuan2 yg diperoleh dari hasil pra-pengolahan serta jelaskan alasan yg mendukung
temuan tsb.
5. Kesimpulan
Berikan kesimpulan dari hasil dan pembahasan yang menjawab tujuan penelitian
Daftar Pustaka
[1] Lawi, Armin dan Abdallah, M. Khawaritzmi. “Pengantar Data Minig”, Jurnal Catatan
Kuliah, Vol. 1, No. 1, Hal. 10-14, 2020.
[2] Lawi, Armin. “Metode Pra Pengolahan Data: Konsep dan Implementasi”, Proc. Konferensi
Nasional Ilmu Komputer ke-3, Hal. 20-24, Makassar, 28-29 September 2020.
[3] Lawi, Armin. “Konsep Data Mining”, Ilmu Komputer Press, September 2020.