Laporan Akhir Penelitian Fixed

BIDANG : ILMU KOMPUTER
LAPORAN AKHIR
PENELITIAN DOSEN PEMULA
ANALISIS PERBANDINGAN MEAN, SINGLE, DAN MULTIPLE IMPUTATION

PADA DATA HISTORI DONATUR DALAM MELAKUKAN PREDIKSI
DONASI MENGGUNAKAN MODEL LOGISTIC REGRESSION
TIM PENGUSUL
Sitti Rahmah Jabir, S.M., M.Sc., MTA (0918109501)

Ir. Huzain Azis, S.Kom., M.Cs., MTA (0920098801)
UNIVERSITAS MUSLIM INDONESIA

JANUARI 2023
i
HALAMAN PENGESAHAN
ii
RINGKASAN
ANALISIS PERBANDINGAN MEAN, SINGLE, DAN MULTIPLE IMPUTATION PADA
DATA HISTORI DONOR DALAM MELAKUKAN PREDIKSI DONASI
MENGGUNAKAN MODEL LOGISTIC REGRESSION
Pada tahap pengumpulkan data seringkali terjadi hambatan, salah satu

hambatannya yaitu fenomena missing data atau data hilang. Missing data adalah
hilangnya sebagian informasi atau data pada suatu penelitian. Beberapa hal yang
menyebabkan missing data, misalnya dari peralatan yang tidak berfungsi dengan baik,
kekurangan fasilitas, tidak terisinya kuesioner karena penolakan responden atau
responden kesulitan untuk menjawab pertanyaan, kesalahan dalam pengambilan data, dan
lain sebagainya.
Akibat dari adanya missing data adalah pendugaan parameter menjadi tidak
efisien. Ukuran data yang berkurang dapat mengakibatkan kesulitan dalam menganalisis,
sehingga hasil yang didapatkan menjadi tidak valid dan tujuan dari penelitian tidak
tercapai. Missing data dapat saja diabaikan, jika data yang hilang sedikit. Namun apabila
missing data berjumlah cukup besar maka data tersebut tidak dapat diabaikan. Oleh
karena itu, perlu dilakukan estimasi untuk mengisi data yang hilang tersebut agar hasil
dari pengolahan data nantinya memiliki hasil yang maksimum (1).
Data yang telah diimputasi menggunakan beberapa metode akan membantu dalam
melakukan prediksi. Dimana algoritma yang digunakan untuk melakukan prediksi ialah
logistic regression. Berdasarkan penelitian yang dilakukan Wan Hanieza (2019), logistic
regression dianggap model yang memberikan hasil yang baik dalam melakukan prediksi
(2).
Tujuan dari penelitian ini adalah melakukan penginputan pada data yang hilang
dengan menggunakan berbagai metode e mean imputation, single imputation, dan
multiple imputation. Data yang telah diimputasi akan digunakan untuk melakukan
perbadingan data dalam melakukan prediksi menggunakan logistic regression.
Hasil dari penelitian menunjukkan data yang hilang diisi dengan menggunakan
nilai rata-rata untuk metode mean imputation, dan menggunaka perhitungan random
untuk data yang diisi dengan metode single dan multiple imputation. Beberapa data
dihilangkan setelah melihat multikolinearitas. Dalam tahap pemodelan dengan
melakukan prediksi menggunakan logistic regression, data mean imputation sebagai
model A berkinerja baik daripada data single imputation sebagai model B. Model A
memperoleh C-statistik tinggi di 0,624 yang lebih tinggi dari Model B di 0,6129. Namun,
perbedaan dari kedua model tidak terlalu tinggi dan model dapat diterima karena C-
statitics lebih besar dari 0, 5. Untuk memprediksi donor, akurasi tinggi diperoleh dengan
set tes yang menggunakan 30% dari data pelatihan dan 70% dari data validasi. Akurasi
model memiliki 62,4% dari model prediksi. Ini memiliki persentase yang sama ketika
menggunakan imputasi rata-rata dalam set pelatihan.
Kata Kunci : missing data, data imputation, logistic regression
iii
DAFTAR ISI
HALAMAN PENGESAHAN .......................................................................................... ii
RINGKASAN .................................................................................................................. iii
BAB I ................................................................................................................................ 1
PENDAHULUAN ............................................................................................................ 1
A. Latar Belakang ................................................................................................... 1
B. Rumusan Masalah ............................................................................................... 3
C. Tujuan Penelitian ................................................................................................ 3
D. Target Luaran ...................................................................................................... 3
BAB II .............................................................................................................................. 4
TINJAUAN PUSTAKA ................................................................................................... 4
1) Data Cleaning ................................................................................................... 4
2) Multicollinearity ................................................................................................ 4
3) Prediction Modelling......................................................................................... 5
4) Logistic Regression ........................................................................................... 5
5) Kerangka Pikir ................................................................................................. 6
BAB III............................................................................................................................. 7
METODE PENELITIAN ................................................................................................ 7
1. Tahap Penelitian .................................................................................................. 7
2. Lokasi Penelitian.................................................................................................. 7
3. Model Penelitian .................................................................................................. 7
4. Rancangan Penelitian .......................................................................................... 7
5. Teknik Pengumpulan Data ................................................................................. 7
6. Susunan Organisasi Peneliti/Pelaksana dan Pembagian Tugas ...................... 8
Tabel 2. Susunan Organisasi ...................................................................................... 8
6) Luaran dan Target Capaian ............................................................................... 9
Tabel 3. Luaran dan Target Capaian ....................................................................... 9
BAB IV ........................................................................................................................... 11
HASIL PENELITIAN DAN PEMBAHASAN ............................................................. 11
A. Data Exploration................................................................................................ 11
1) Missing values .................................................................................................. 12
2) Outlier .............................................................................................................. 13
iv
3) Penghilangan Outlier ....................................................................................... 14
B. Data Cleaning ..................................................................................................... 15
1) Mean imputation .............................................................................................. 15
2) Single imputation ............................................................................................. 16
3) Multiple Imputation ......................................................................................... 16
C. Eksplorasi Data Setelah Data Diimputasi ....................................................... 17
D. Multicollinearity test ........................................................................................... 18
1) Mean imputation .............................................................................................. 18
2) Single Imputation ............................................................................................. 20
E. Pemodelan .......................................................................................................... 22
1. Mean Imputation Data (MID) ......................................................................... 23
2. Single Imputation Data (SID) .......................................................................... 23
3. Test Set............................................................................................................. 23
4. Perbandingan ..................................................................................................... 25
BAB V............................................................................................................................. 26
SIMPULAN DAN SARAN ............................................................................................ 26
A. Simpulan ............................................................................................................. 26
B. Saran ................................................................................................................... 27
C. Ucapan Terima Kasih ....................................................................................... 27
DAFTAR PUSTAKA ..................................................................................................... 28
LAMPIRAN ................................................................................................................... 30
Lampiran 1. Instrumen Penelitian .......................................................................... 30
Lampiran 2. Biodata Ketua/Anggota Tim Peneliti ................................................ 31
LAPORAN KEGIATAN DAN PENGGUNAAN DANA ...................................... 36
PENELITIAN DOSEN PEMULA........................................................................... 36
Log Book Kegiatan Penelitian ................................................................................. 37
RINCIAN PENGGUNAAN DANA ......................................................................... 38
Lampiran 3. Justifikasi Anggaran.......................................................................... 39
Lampiran 4. Bukti Luaran ....................................................................................... 43
Lampiran 5. Hasil Pengolahan Data pada SAS Studio ......................................... 45
v
BAB I
PENDAHULUAN
A. Latar Belakang
Glenegals Disaster Relief Service (GRDS), India meluncurkan cabang Tamil
Nadu (Negara Bagian di India) beberapa tahun yang lalu. Baru-baru ini Tamil Nadu
terkena dampak Topan Gaja. Gaja adalah topan bernama kelima dari musim siklon
Samudra Hindia Utara 2018 yang mempengaruhi sebagian besar tempat di Tamil
Nadu, India selama bulan November 2018. GRDS menghadapi kelangkaan dana,
ketika diperlukan untuk merawat para korban Gaja. Oleh karena itu, pihaknya telah
merencanakan kampanye penggalangan dana untuk melayani para korban. Program
ini bertujuan untuk mengumpulkan sekitar 100,000.00 USD dan kampanye ini
dipromosikan dengan tag line "Be a Hero by Funding". Tim pengumpul bertujuan
untuk menindaklanjuti dengan calon donatur yang ada dengan itu, di samping donatur
baru yang tertarik.
Badan Amal adalah Organisasi Nirlaba yang berfokus pada masalah
kemanusiaan dan sosial yang mereka lakukan amal untuk membantu orang lain.
Kontribusi amal termasuk hadiah uang tunai dan non-tunai. Merujuk dari The National
Center for Charitable Statistics, yang menyatakan di AS, memperoleh total
pendapatan $1,50 triliun dan total $1,49 triliun yang dilaporkan oleh badan amal publik
pada tahun 2011. Pemberian amal telah berkembang tren sejak 1975 dan pada 2014
(3).
Menurut Sargeant (1999), Karakteristik individu dari donor potensial memiliki
efek substansial pada perilaku memberi mereka. Demografis dan sosial ekonomi profil
individu terkait langsung dengan niat mereka untuk mendukung organisasi nirlaba,
serta tingkat dukungan yang diberikan. Misalnya, individu yang lebih muda cenderung
tidak menyumbang ke organisasi nirlaba yang berpotensi dijelaskan oleh fakta bahwa
mereka didorong oleh konsumsi dan karenanya, lebih suka membeli barang untuk diri
mereka sendiri (4). Selain itu, faktor-faktor lain adalah mendorong amal adalah sikap
terhadap organisasi amal dan data historis tentang donasi (3). Tujuan dari penelitian
1
ini adalah untuk menggunakan riwayat donasi untuk menganalisis apakah donator
akan menyumbang atau tidak menggunakan regresi logistik.
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk
menerapkan model yang dibangun untuk memprediksi donator yang paling mungkin
menjadi korban topan Gaja. Dalam himpunan data donasi, ini berisi 3 lembar dalam
format excel yaitu himpunan data pelatihan, himpunan data validasi, dan deskripsi
data. Data tersebut terdiri dari 27 variabel yang 4849 observasi untuk pelatihan dan
4837 observasi untuk validasi. Dimana data tersebut diambil dari Kaggle.com (5).
Pada tahap pengumpulkan data seringkali terjadi hambatan, salah satu
hambatannya yaitu fenomena missing data atau data hilang. Missing data adalah
hilangnya sebagian informasi atau data pada suatu penelitian. Beberapa hal yang
menyebabkan missing data, misalnya dari peralatan yang tidak berfungsi dengan baik,
kekurangan fasilitas, tidak terisinya kuesioner karena penolakan responden atau
responden kesulitan untuk menjawab pertanyaan, kesalahan dalam pengambilan data,
dan lain sebagainya.
Akibat dari adanya missing data adalah pendugaan parameter menjadi tidak
efisien. Ukuran data yang berkurang dapat mengakibatkan kesulitan dalam
menganalisis, sehingga hasil yang didapatkan menjadi tidak valid dan tujuan dari
penelitian tidak tercapai. Missing data dapat saja diabaikan, jika data yang hilang
sedikit. Namun apabila missing data berjumlah cukup besar maka data tersebut tidak
dapat diabaikan. Oleh karena itu, perlu dilakukan estimasi untuk mengisi data yang
hilang tersebut agar hasil dari pengolahan data nantinya memiliki hasil yang
maksimum (1).
Data yang telah diimputasi menggunakan beberapa metode akan membantu
dalam melakukan prediksi. Dimana algoritma yang digunakan untuk melakukan
prediksi ialah logistic regression. Berdasarkan penelitian yang dilakukan Wan Hanieza
(2019), logistic regression dianggap model yang memberikan hasil yang baik dalam
melakukan prediksi (2).
Berdasarkan latar belakang yang telah dikemukakan, maka pada penelitian ini,
penulis akan melakukan penelitian yang berjudul Analisis Perbandingan Mean, Single
2
dan Multiple Imputation pada Data Histori Donatur Dalam Melakukan Prediksi Donasi
Menggunakan Model Logistic Regression.
B. Rumusan Masalah
Berdasarkan uraian latar belakang dan rumusan masalah yang telah dikemukakan,
maka dapat disimpulkan pertanyaan penelitian adalah :
1. Bagiaman menginput data yang hilang dengan metode mean imputation?
2. Bagaimana kondisi data yang telah diimputasi dengan metode single imputation?
3. Bagaimana kondisi data yang telah diimputasi dengan metode multiple
imputation?
4. Bagaimana akurasi dari prediksi menggunakan logistic regression dengan
menggunakan data yang sudah diimputasi menggunakan mean, single dan
multiple imputation?
C. Tujuan Penelitian
Berdasarkan rumusan masalah yang telah dikemukakan, maka dapat
disimpukan tujuan penelitian adalah:
1. Untuk melakukan penginputan data yang hilang dengan metode mean imputation
2. Untuk melakukan penginputan data yang hilang dengan metode single imputation
3. Untuk melakukan penginputan data yang hilang dengan metode multiple
imputation
4. Untuk melihat perbandingan akurasi dalam melakukan prediksi menggunakan
logistic regression dari data yang sudah diimputasi menggunakan mean, single
dan multiple imputation
D. Target Luaran
Yang menjadi target luaran pada penelitian ini adalah:
1. Penerapan mean, single dan multiple imputation diharapkan dapat mengisi data
yang hilang dan membantu dalam melakukan prediksi secara tepat menggunakan
model logistic regression.
2. Jurnal ber ISSN (SINTA 4) sebagai luaran utama dan jurnal ber-ISSN untuk
luaran tambahan serta bahan ajar berupa studi kasus.
3
BAB II
TINJAUAN PUSTAKA
A. Landasan Teori
1) Data Cleaning
Pembersihan data atau yang dikenal sebagai data cleaning merupakan proses
kompleks dan terdiri dari beberapa tahap yang meliputi penentuan aturan kualitas data,
mendeteksi eror/kesalahan data, dan memperbaiki kesalahan (6).
Ada banyak cara untuk memasukkan data, dapat menggunakan mean, listwise,
pairwise, single imputation, multiple imputation, dan sebagainya. Mean imputation
merupakan salah satu metode imputasi yang paling umum digunakan. Imputasi dengan
metode mean mengisi missing data dalam suatu variable dengan nilai rata-rata dari
semua nilai yang diketahui pada suatu variable (7).
Imputasi tunggal (single imputation) adalah imputasi regresi yang dapat
mempertahankan hubungan antara nilai yang hilang dan variabel lainnya. Beberapa
imputasi menyediakan strategi yang berguna untuk menangani kumpulan data dengan
nilai yang hilang. Menurut Rubin's (1987) prosedur imputasi berganda menggantikan
setiap nilai yang hilang dengan satu set nilai yang masuk akal yang mewakili
ketidakpastian tentang nilai yang tepat untuk diperhitungkan (8).
2) Multicollinearity
Multikolinearitas sering digambarkan sebagai fenomena statistik di mana ada
hubungan yang sempurna atau tepat antara variabel prediktor. Dalam kejadian
multikolinearitas, sulit untuk menghasilkan perkiraan koefisien individu yang dapat
diandalkan untuk variabel prediktor dalam model yang menghasilkan kesimpulan
yang salah tentang hubungan antara hasil dan variabel prediktor. Setelah metode
imputasi, maka akan beralih ke langkah selanjutnya yaitu memeriksa kolinearitas
antar variabel (16).
Multikolinearitas dikenal sebagai suatu kondisi dimana terjadi korelasi antara

variable bebas atau antar variable bebas tidak bersifat saling bebas. Dimana besaran
yang dapat digunakan untuk mendeteksi adanya multikolinearitas merupakan faktor
4
inflasi ragam atau yang dikenal sebagai variance inflation factor (VIF). Faktor ini
digunakan sebagai kriteria untuk mendeteksi multikolinearitas pada regresi linier
yang melibatkan lebih dari dua variable bebas (9).
3) Prediction Modelling
Pemodelan prediktif adalah metode untuk memprediksi masa depan dan untuk
melakukan pengambilan keputusan dengan cepat di tingkat pelanggan, klien, dan
lainnya. Untuk memprediksi masa depan, data disambung menjadi dua bagian yaitu
pelatihan atau validasi dan set pengujian. Data pelatihan digunakan untuk pemodelan
dan membandingkan juga memilih validasi dan diuji pada set pengujian di masa
mendatan (10).
Saat memprediksi model, ROC adalah metode untuk membantu akurasi

pengujian. Kurva ROC sering diplot dengan menggunakan true positive rate (TPR)
terhadap false positive rate (FPR) untuk titik potong yang berbeda dari tes diagnostik,
mulai dari koordinat (0, 0) dan berakhir pada koordinat (1, 1). FPR (1 – spesifisitas)
diwakili oleh sumbu x dan TPR (sensitivitas) diwakili oleh sumbu y. Dengan
demikian, kurva ROC adalah plot sensitivitas tes vs. (1-spesifisitas) juga. Interpretasi
kurva ROC mirip dengan satu titik di ruang ROC, semakin dekat titik pada kurva ROC
ke koordinat ideal, semakin akurat pengujiannya (11).
Gambar 1. ROC Curve

4) Logistic Regression
Menurut Ahmad,etl.al (2021), Regresi logistik adalah teknik yang
menggunakan statistik untuk mengembangkan model prediksi pada setiap kejadian
yang biner dalam dirinya sendiri dan sifatnya (12). Regresi logistik bekerja sangat
5
mirip dengan regresi linier, tetapi dengan variabel respons binomial. Masalah utama
saat membangun model logistik adalah memilih variabel mana yang akan disertakan.
Para peneliti biasanya mengumpulkan sebanyak mungkin variabel dalam instrumen
penelitian mereka, kemudian memasukkan semuanya ke dalam model dan mencoba
menemukan sesuatu yang "signifikan". Pendekatan ini meningkatkan munculnya dua
situasi. Pertama, satu atau lebih variabel secara statistik "signifikan", tetapi peneliti
tidak memiliki teori untuk menghubungkan variabel "signifikan" dengan model
peristiwa yang menarik (13).
5)Kerangka Pikir
Untuk lebih memperjelas kerangka pikir yang disajikan, maka berikut ini kami
gambarkan dalam bentuk skema yang dapat dilihat pada gambar 3 sebagai berikut:
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk menerapkan model yang
dibangun untuk memprediksi donator yang paling mungkin menjadi korban topan Gaja. Dalam himpunan data
donasi, ini berisi 3 lembar dalam format excel yaitu himpunan data pelatihan, himpunan data validasi, dan
deskripsi data. Data tersebut terdiri dari 27 variabel yang 4849 observasi untuk pelatihan dan 4837 observasi
untuk validasi.
Data yang didapatkan tidak sepenuhnya sempurna, melainkan perlu dilakukan tahap
pembersihan terhadap data yang hilang
Prediksi menggunakan model logistic regression dengan menggunakan data

yang telah diimputasi
Gambar 2. Kerangka Pikir
6
BAB III
METODE PENELITIAN
1. Tahap Penelitian
Berikut ialah gambaran terkait tahapan pada penelitian ini:
Gambar 3. Tahapan Penelitian
2. Lokasi Penelitian
Penelitian ini dilakukan di Laboratorium Riset Fakultas Ilmu Komputer dengan
mengambil data pada website Kaggle.com.
3. Model Penelitian
Model yang digunakan pada penelitian ini yaitu model prediksi logistic
regression.
4. Rancangan Penelitian
Rancangan penelitian ini yang dilakukan menggunakan beberapa komponen dari
Komponen Perangkat Lunak (software) dan perangkat keras (hardware).
5. Teknik Pengumpulan Data
Jenis penelitian yang kami lakukan adalah penelitian pustaka, dimana penelitian
ini dilakukan dengan mengambil beberapa buku rujukan mengenai definisi dan
7
konsep, serta dari berbagai jurnal di internet yang berhubungan dengan materi,
terkait pelaksanaan pengumpulan data tersebut.
6. Susunan Organisasi Peneliti/Pelaksana dan Pembagian Tugas

Tabel 2. Susunan Organisasi
Nama/NIDN Alokasi Uraian Tugas
Waktu
Pendidikan Terakhir &
(jam/pekan)
Kepakaran
Tim Dosen Peneliti
Ketua Peneliti: 10 Tugas Umum:
Sitti Rahmah Jabir, - Mengkoordinir penelitian secara keseluruhan

S.M., M.Sc., MTA - Mengkoordinasikan pengumpulan data
Tugas khusus:
NIDN: 0918109501
- Membuat desain konseptual penelitian
S2 Data Science and
- Menyiapkan rancangan penelitian
Business Analytics
- Melakukan data pre-processing
- Melakukan prediksi menggunakan model logistic
regression
Kepakaran:
Data Mining &

Business Intelligence
Anggota Peneliti: 8 Tugas Umum:
Ir. Huzain Azis, - Mengkoordinir pelaksanaan penelitian secara

S.Kom., M.Cs., MTA keseluruhan
- Mengkoordinir pengumpulan data
NIDN: 0920098801
Tugas khusus:
S2 Ilmu Komputer
- Mendistribusikan tugas kepada anggota peneliti
8
- Membantu melakukan data pre-preprocessing
- Membantu membandingkan hasil imputasi
- Membantu melakukan prediksi
Mahasiswa yang terlibat dalam penelitian
Mahasiswa S1 10 Tugas Umum:
Muh. Acqmal Fadhilla - Membantu jalannya penelitian secara keseluruhan

Latief Tugas Khusus:
NIM: 130 2020 0061 - Melakukan pengumpulan data

- Melakukan dokumentasi terkait hasil pengolahan
data
- Membantu menyiapkan data untuk penyusunan
laporan dan penyusunan artikel
Mahasiswa S1 10 Tugas Umum:
Muhammad Fahmi - Membantu jalannya penelitian secara keseluruhan

Tugas Khusus:
NIM: 130 2019 0019
- Melakukan pengumpulan data sekunder
- Melakukan ekperimen terhadap imputasi data
- Melakukan data eksplorasi
6) Luaran dan Target Capaian

Tabel 3. Luaran dan Target Capaian
No. Jenis Luaran Indikator Keterangan
Capaian
1 Publikasi Jurnal ber Jurnal Teknik Informatika dan Sistem
Informasi (JUTISI)
ilmiah pada ISSN, SINTA
https://journal.maranatha.edu/index.php/jutisi
jurnal ber 4
ISSN/Prociding
jurnal nasional
9
Luaran Tambahan
1 Publikasi di Junral ber Indonesia Journal of Data Science (IJODAS)
https://jurnal.yoctobrain.org/index.php/ijodas
jurnal nasional ISSN
10
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
A. Data Exploration
Pada penelitian ini digunakan data dengan jumlah 4.849 observasi yang terdiri
dari 27 variabel.
Gambar 4. Metadata Dataset

Gambar di atas memperlihatkan informasi tentang variabel yang terdiri dari jenis,
panjang, format, format dan label variabel. Beberapa data memiliki jenis yang tepat
tetapi beberapa di antaranya tidak. Dalam penelitian ini, data akan diubah bentuknya
menjadi numerik kecuali D_id untuk melakukan regresi logistik menggunakan nilai
numerik.
11
Gambar 5. Perubahan tipe data
Setelah kode dijalankan, data diubah menjadi semua numerik kecuali D-ID
yang tidak digunakan dalam penelitian ini.
1) Missing values
Eksplorasi data lainnya adalah melihat data yang hilang dan outlier. Data
hilang dan outlier sering dijumpai selama fase pengumpulan data studi
observasional atau eksperimental yang dilakukan di semua bidang alam dan social
sciences. Nilai yang hilang dapat timbul dari kehilangan informasi serta dan tidak
ditanggapi oleh peserta penelitian (14) .
12
Gambar 6. Variable yang memiliki missing values
Gambar 7. Kondisi data yang hilang pada tabel

Dari pengamatan di atas, terdeteksi terdapat tiga variabel yang mengandung
missing value yaitu Donor_D yang memiliki 2498 baris data yang hilang, 893
untuk DONAvgCardP1 dan 1128 untuk Age. Variabel yang mengandung nilai
hilang tinggi adalah Donor_D. Ini hampir 52% dari total pengamatan. Pada
gambar.., variable yang ditampilkan yang memiliki data yang hilang ialah variable
yang memiliki nilai numerik. Untuk menginput data, jumlah nilai yang hilang
pada variabel Donor_D adalah 2345, 887 untuk variable DONAvgCardP1, dan
1279 untuk variable Age.
2) Outlier
Untuk outlier, hal ini mengacu pada nilai-nilai ekstrem yang secara tidak
normal terletak di luar pola keseluruhan distribusi variabel (Kwak & Kim, 2017).
13
Pada penelitian ini akan dilakukan pencarian terhhadap outlier pada data untuk
semua variabel kecuali D_ID yang tidak digunakan dalam penelitian ini. Menurut
Auld (2011), analisis kuantil paling berguna digunakan untuk melihat outlier pada
data. Dimana outlier dapat terlihat dari persentil pada 5, 95, 1 atau 99, 10 atau 90
untuk setiap parameter (Auld, 2011).
Source: (Auld, 2011)
Kesenjangan dapat diamati dari tingkat kuantil. Berdasarkan penelitian di atas,

peneliti menemukan kesenjangan yang sangat besar antara 99% dan 100% pada
contoh pertama dan kesenjangan besar dari 0% hingga 1% untuk contoh kedua.
Pada penelitian ini akan diterapkan juga metode kuantil untuk mendeteksi variabel
yang memiliki outlier. Untuk menemukan outlier, plot Q-Q digunakan sebagai
acuan sekaligus melihat variabel berisi outlier dan ukuran data outlier. Perintah
yang digunakan adalah proc univariate yang menunjukkan qq-plot.
Merujuk dari plot, beberapa variabel terdeteksi memiliki outlier. Titik-titik

yang tidak berada dalam garis yang sesuai, disebut sebagai data outlier.
Setidaknya, enam variabel terdeteksi kesenjangan tinggi dari garis yang sesuai,
ada Donor_D, DONAvgLast, DONAvgP1, DONAvgAll, DONAvgCardP1, dan
DONTimeFirst. Meskipun beberapa variabel juga memiliki outlier, tetapi jika
jaraknya tidak terlalu besar dari garis titik, itu dapat diabaikan untuk dihilangkan
atau diperlakukan.
3) Penghilangan Outlier
Untuk outlier, beberapa data yang terdeteksi memiliki gap yang tinggi. Dalam
hal ini, semua outlier akan diperlakukan sebagai nilai yang hilang. Enam variabel
14
terdeteksi gap tinggi dari garis yang sesuai, ada Donor_D, DONAvgLast,
DONAvgP1, DONAvgAll, DONAvgCardP1, dan DONTimeFirst.
Gambar 9. Nilai quantiles dari beberapa variabel

Dalam penelitian ini, variabel yang terdeteksi akan memperlakukan data
sebagai hilang yang semua data < Q1 dan >Q3 akan diubah sebagai nilai yang
hilang. Setelah proses perbaikan data outlier telah dilakukan, maka tahap
selanjutnya ialah mencari seberapa besar nilai yang hilang pada masing-masing
variable untuk menentukan apakah outlier akan diubah menjadi missing value
atau tidak.
B. Data Cleaning
Terdapat beberapa metode yang dapat digunakan dalam mengisi data yang hilang,
diantaranya ialah menggunakan mean, listwise, pairwise, single imputation, multiple
imputation, dan sebagainya. Dalam penelitian ini akan mencoba menginput data
dengan beberapa metode untuk menemukan yang terbaik yang sesuai dengan model.
1) Mean imputation
Langkah pertama adalah imputasi rata-rata. Nilai rata-rata akan diambil dan diisi
ke dalam nilai yang hilang. Untuk Donor_D, nilai meannya ialah 14.86, DONAvgP1
adalah 14.36, DONAvgAll adalah 11.95, DONAvgCardP1 adalah 13.59 dan Age
ialah menjadi 58.797. Di sisi lain, cara lain untuk menghitung data tidak hanya
15
menggunakan metode imputasi rata-rata, tetapi juga imputasi tunggal dan metode
imputasi ganda. Untuk langkah selanjutnya, ia akan mencoba mengisi nilai yang
hilang dengan metode single dan multiple imputasi.
2) Single imputation
Imputasi tunggal atau yang dikenal single imputation adalah imputasi regresi yang
dapat mempertahankan hubungan antara nilai yang hilang dan variabel lainnya.
Imputasi dengan regresi pada satu atau lebih variabel lain dapat menghasilkan nilai
yang lebih baik. Pertama, peneliti perlu melakukan t model regresi dengan menetapkan
variabel minat sebagai variabel respon dan variabel relevan lainnya sebagai kovariat.
Koefisien diperkirakan, dan kemudian nilai yang hilang dapat diprediksi dengan model
yang dipasangkan (15).
Dalam pemrosesan data pada SAS software, perintah “proc mi” akan membantu
melakukan imputasi tunggal, dimana "nimmpute=1" mewakili imputasi tunggal.
Setelah perintah dijalankan, hasilnya akan memiliki pola untuk himpunan data yang
hilang. Data yang hilang akan diisi dengan menggunakan metode imputasi tunggal,
data yang diperhitungkan berbeda dengan imputasi rata-rata yang berarti imputasi
melakukan imputasi dengan satu nilai rata-rata tetapi imputasi tunggal menghitung
data dengan nilai yang berbeda.
Setelah menjalankan perintah, data akan diperhitungkan dan tidak ada nilai yang
hilang yang terdeteksi. Dalam imputasi tunggal, data yang diperhitungkan berbeda
dengan imputasi rata-rata yang berarti imputasi melakukan imputasi dengan satu nilai
rata-rata tetapi imputasi tunggal menghitung data dengan nilai yang berbeda.
3) Multiple Imputation
Multiple imputation (imputasi ganda) memberikan strategi yang berguna untuk
menangani kumpulan data dengan nilai yang hilang. Menurut Rubin (1987), prosedur
imputasi ganda menggantikan setiap nilai yang hilang dengan seperangkat nilai yang
masuk akal yang mewakili ketidakpastian tentang nilai yang tepat untuk
diperhitungkan (8).
Berbeda dari imputasi tunggal, jumlah imputasi dalam imputasi ganda lebih dari 1.
Dalam hal ini, kami menerapkan nimpute=5 seperti yang diketahui itu adalah default
dari multiple imputation.
16
Gambar 10. Pola Data Yang Hilang
Ketika perintah dijalankan, pola yang hilang akan ditampilkan. Dalam prosedur
MI, ada tiga metode yang tersedia. Metode yang dipilih tergantung pada jenis pola data
yang hilang. Dalam penelitian ini diterapkan metode MCMC. Ini menciptakan
beberapa imputasi dengan menggunakan simulasi dari distribusi prediksi Bayesian
untuk data normal. Setelah diperhitungkan, pola yang hilang dalam data akan
diperhitungkan menggunakan metode imputasi ganda. Data yang hilang sudah diisi
menggunakan fungsi proc mi.
C. Eksplorasi Data Setelah Data Diimputasi
Setelah metode imputasi dilakukan, data harus dicek apakah data yang hilang masih
melekat dengan data tersebut atau tidak. Tabel di bawah ini menunjukkan nilai yang hilang
yang tidak ada dalam data lagi setelah mean, single, dan multiple imputation.
17
Gambar 10. Kondisi data setelah dilakukan imputasi
D. Multicollinearity test
Pada penelitian ini akan dilakukan pengecekan terhadap korelasi antara variable bebas
atau antar variable bebas tidak bersifat saling bebas. Dimana besaran yang dapat
digunakan untuk mendeteksi adanya multikolinearitas merupakan faktor inflasi ragam
atau yang dikenal sebagai variance inflation factor (VIF). Ketika nilai VIF > 2 maka akan
dilakukan penghapusan terhadap variable yang memiliki korelasi yang tinggi.
1) Mean imputation
Gambar 11. Nilai Estimasi Parameter beberapa variabel

Untuk mengetahui variabel berkorelasi tinggi, langkah pertama adalah melihat
nilai VIF dari mana ditunjukkan pada tabel. Berdasarkan data, variabel CallCntAll
18
memiliki nilai VIF tertinggi dari variabel lainnya. Langkah selanjutnya yaitu melihat
tabel diagnostik kolinearitas untuk melihat nilai tinggi lainnya secara berurutan.
Gambar 12. Nilai variasi dari beberapa variabel

Di coloumn CallCntCall, terdapat nilai tertinggi yang berada di garis bawah.
Nilainya dapat dilihat pada tabel diagnostik kolinearitas. Nilai tertinggi ada di
CallCntAll dengan kolinearitas adalah 0,67393. Setelah memperoleh nilai tertinggi,
kita merujuk pada coloumn lain dalam baris yang sama yang juga memiliki hasil
tertinggi. Dari hasilnya, CallCntCardAll lebih tinggi dari CallCntAll. Kolinearitas
CallCntCardAll sebesar 0.89213 yaitu hampir 90%. Kami mengambil 2 nilai yang
tinggi dan menghapus salah satunya. Data yang akan dijatuhkan adalah yang
memiliki chi-square rendah.
19
Gambar 13. Nilai chi-square
Karena nilai chi-square CallCntCardAll kurang dari dari CallCntAll, maka
diputuskan untuk menghilangkan variabel CallCntCardAll. Dimana langkah ini akan
diulang sampai semua VIF < 2. Setelah melakukan rotasi, didapatkan beberapa
tersisa yang dapat dilihat pada tabel di bawah ini:
Gambar 14. Hasil Pengurangan Variabel yang memiliki multikolinearitas

Berdasarkan hasil pada gambar 14, maka ditemukan inflasi varians dari semua
variabel <2. Diasumsikan bahwa tidak ada variabel yang memiliki multikolinearitas.
Ketika data bersih dari multikolinearitas, data siap digunakan untuk pemodelan.
Didapatkan variable yang tersisa sebanyak 12 dari 25 variabel sebelumnya.
2) Single Imputation
Perawatan multikolinearitas berikutnya adalah untuk himpunan data imputasi
tunggal.
20
Gambar 15. Nilai estimasi parameter data single imputation
Gambar 16. Nilai variasi dari beberapa variabel
21
Gambar 17. Nilai c-statistics variable data single imputation
Karena CallCntCardAll kurang dari dari CallCntAll, diputuskan untuk

menjatuhkan variabel. Dan langkah itu akan diulang sampai semua VIF < 2.
Gambar 18. Hasil pengurangan variable pada data single imputation
Dalam perkiraan parameter berikutnya, ia mendeteksi semua inflasi varians variabel

adalah < 2. Diasumsikan bahwa tidak ada variabel yang memiliki multikolinearitas.
Ketika data bersih dari multikolinearitas, data siap digunakan untuk pemodelan.
Didapatkan variable yang tersisa sebanyak 13 dari 25 variabel sebelumnya.
E. Pemodelan
22
Pada langkah pemodelan, data akan diterapkan dalam metode regresi logistik untuk
memprediksi variabel "Donor". Baik data imputasi rata-rata dan data imputasi tunggal
akan digunakan untuk pemodelan untuk membandingkan mana yang terbentuk
sebelumnya dengan baik.
1. Mean Imputation Data (MID)

Setelah multikolinearitas, model dapat dibangun untuk memprediksi donator akan
donor atau tidak dari variabel lain. Sebelum dilakukan pemodelan, data perlu dibagi
menjadi pelatihan dan set tes. Set pelatihan akan digunakan untuk membangun model
dan set tes akan digunakan untuk prediksi.
Gambar 19. Nilai C-statistics data mean imputation

Berdasarkan tabel, statistik C dapat memprediksi apakah modelnya bagus atau
tidak. Ketika statistik C lebih besar dari 0,5 maka model dapat diterima. Hasilnya, C
adalah 0,624, itu berarti model data imputasi menggunakan rata-rata dapat diterima.
2. Single Imputation Data (SID)
Gambar 20. Nilai C-statistic data single imputation

Berdasarkan tabel, statistik C dapat memprediksi apakah modelnya bagus atau
tidak. Ketika statistik C lebih besar dari 0,5 maka model dapat diterima. Hasilnya, C
adalah 0,613, hal itu berarti model data imputasi tunggal dapat diterima.
3. Test Set
Saat memprediksi donor, data pelatihan yang telah selesai dengan imputasi rata-
rata digunakan dalam set tes. Data dibagi menjadi 70% dan 30% untuk data pelatihan
dan data tes.
23
Gambar 13. Nilai AUC untuk Model A
Pada hasil pertama, model menggunakan pelatihan yang ditetapkan dalam 70%
dan 30% dari tes. ROC menunjukkan 62,1% data diprediksi benar.
Gambar 14. Nilai AUC untuk Model B

Untuk data kedua menggunakan pembagian data yang sama dengan sebelumnya
yaitu 70% untuk data pelatihan dan 30% untuk data tes. Berbeda dari hasil sebelumnya,
model ini berkinerja baik yaitu dengan hasil 0,6245 atau dengan tingkat akurasi 62,45%.
24
4. Perbandingan
Tabel 2. Perbandingan Nilai C
Model AUC
Mean Imputation Data (Model A) 62.1%
Single Imputation Data (Model B) 62.45%
Perbedaan antara model A dan B tidak jauh berbeda. Dari hasil nilai AUC, data
single imputation berkinerja baik dibandingkan dengan data mean imputation.
25
BAB V
SIMPULAN DAN SARAN
A. Simpulan
Berdasarkan hasil pada bab sebelumnya, kesimpulan yang dapat dirangkum ialah
setiap data yang hilang dapat diisi dengan menggunakan berbagai metode
penginputan data. Dalam penelitian ini data diperhitungkan dalam 3 cara yaitu mean,
single dan multiple imputation. Untuk imputasi rata-rata, nilai yang hilang diisi
dengan dengan nilai rata-rata di masing-masing variabel. Untuk imputasi tunggal,data
dihitung dengan imputasi satu kali sedangkan beberapa kali lebih banyak merujuk
dari jumlah imputasi yang didefinisikan peneliti.
Dalam perlakuan multikolinearitas menggunakan dua data yang diperhitungkan

yaitu data yang telah dilakukan mean imputation dan single imputation. Kedua data
tersebut memiliki nilai multikolinearitas yang berbeda. Menggunakan data mean
imputation, 12 area variabel yang dihilangkan yaitu CallCntCardAll, CallCntP1,
CallCntP2, DonCntAll, CallCntCardP1, DonAvgP1, DonTimeFirst, CallCntAll,
CallCntCardP2, DonCntCardP1, DonCntCardP1, DonAvgCardP1 dan DonAvgAll.
Hal tersebut juga berlaku untuk data single imputation dimana terdapat 12 variabel
yang dihilangkan. Namun, data single imputation tidak menghapus CallCntCardP2
dan DonAvgAll tetapi menhapus DonAvgLast dan DonCntCardAll.
Setelah kedua data bersih dari multikolinearitas, model dibangun menggunakan

kedua data tersebut. Data mean imputation sebagai model A berkinerja baik daripada
data single imputation sebagai model B. Model A memperoleh C-statistik tinggi di
0,624 yang lebih tinggi dari Model B di 0,6129. Namun, perbedaan dari kedua model
tidak terlalu tinggi dan model dapat diterima karena C-statitics lebih besar dari 0, 5.
Untuk memprediksi donor, akurasi tinggi diperoleh dengan set tes yang menggunakan
30% dari data pelatihan dan 70% dari data validasi. Akurasi model memiliki 62,4%
dari model prediksi. Ini memiliki persentase yang sama ketika menggunakan imputasi
rata-rata dalam set pelatihan.
26
B. Saran
Untuk pengamatan berikutnya, dapat menghitung data dengan cara yang berbeda
seperti berpasangan dan listwise untuk melihat apakah c-statistic dapat ditingkatkan.
Untuk jenis kelamin, nilai "tidak diketahui" dapat diubah sebagai laki-laki atau
perempuan. Selain itu, outlier dapat diperbaiki dengan lebih baik.
C. Ucapan Terima Kasih

Ucapan terima kasih yang sebesar-besarnya kepada pihak Lembaga Penelitian dan
Pengembangan Sumberdaya (LP2S) Universitas Muslim Indonesia (UMI) atas
bantuan dana yang diberikan demi terlaksananya penelitian ini.
27
DAFTAR PUSTAKA
1. Eldiyana I, Nurlaelah E, Herrhyanto N. Estimasi Missing Data Dengan Metode
Multivariate Imputation By Chained Equations (Mice) Untuk Membentuk
Persamaan Regresi Linear Berganda. J EurekaMatika. 2020;8(1):97–107.
2. Hanieza W, Sarkan HM, Sjarif NNA, Yahya Y. A Prediction Model for Blood
Donation Using Multiple Logistic Regression. Open Int J Informatics.
2019;7(2):147–57.
3. Farrokhvar L, Ansari A, Kamali B. Predictive models for charitable giving using

machine learning techniques. PLoS One. 2018;13(10):1–14.
4. Schetgen L, Bogaert M, Poel D Van den. Predicting donation behavior:

Acquisition modeling in the nonprofit sector using Facebook data. ELSEVIER.
2021;141.
5. Katil. Predict Donations Using Donors’ Past Behaviour [Internet]. 2018 [cited
2022 May 12]. Available from:
https://www.kaggle.com/code/gauravsalaskar/predict-donations-using-donors-
past-behaviour/data
6. Widiari NPA, Suarjaya IMAD, Githa DP. Teknik Data Cleaning Menggunakan
Snowflake untuk Studi Kasus Objek Pariwisata di Bali. J Ilm Merpati (Menara
Penelit Akad Teknol Informasi). 2020;8(2):137.
7. Mukarromah, Martha S, Ilhamsyah. Perbandingan Imputasi Missing Data

Menggunakan Metode Mean Dan Metode Algoritma K-Means. Bul Ilm Mat Stat
dan Ter. 2015;04(3):305–12.
8. Patrician PA. Multiple imputation for missing data. Res Nurs Heal. 2002;25(1):76–
84.
9. Sriningsih M, Hatidja D, Prang JD. Penanganan Multikolinearitas Dengan

Menggunakan Analisis Regresi Komponen Utama Pada Kasus Impor Beras Di
Provinsi Sulut. J Ilm Sains. 2018;18(1):18.
28
10. SAS. Predictive Modeling using SAS Purpose of Predictive Modeling. 2006;
11. Zhu W, Zeng N, Wang N. Sensitivity, specificity, accuracy, associated confidence

interval and ROC analysis with practical SAS® implementations. Northeast SAS
Users Gr 2010 Heal Care Life Sci. 2010;1–9.
12. Velu A. Application of Logistic Regression Models in Risk. 2021;8(4):251–60.
13. Sperandei S. Understanding logistic regression analysis. Biochem Medica.

2014;24(1):12–8.
14. Kwak SK, Kim JH. Statistical data preparation: Management of missing values
and outliers. Korean J Anesthesiol. 2017;70(4):407–11.
15. Shi Y, Zhang L, Tian Y, Li X. Data Mining and Knowledge Management Data.
Intell Knowl [Internet]. 2015;(Dm):1–11. Available from:
http://link.springer.com/10.1007/978-3-662-46193-8
16. Schreiber-Gregory DN. Multicollinearity: What Is It, Why Should We Care, and
How Can It Be Controlled? SAS Inst INC [Internet]. 2017;1404–2017. Available
from: https://support.sas.com/resources/papers/proceedings17/1404-
2017.pdf%0Ahttps://analytics.ncsu.edu/sesug/2017/SESUG2017_Paper-
160_Final_PDF.pdf
29
LAMPIRAN
Lampiran 1. Instrumen Penelitian
1. Perangkat Keras (Hardware)

a. Komputer/Laptop
b. Printer
2. Perangkat Lunak (Software)
a. MacOS Mojave
b. SAS Studio
30
Lampiran 2. Biodata Ketua/Anggota Tim Peneliti
Biodata Ketua Pengabdian
A. Identitas Diri ( Ketua )
1. Nama Lengkap Sitti Rahmah Jabir, S.M., M.Sc., MTA
2. Jenis Kelamin Perempuan
3. Jabatan Fungsional Non Jabatan Fungsional (NJF)
4. NIP/NIK/Identitas Lainnya 114 21 1629
5. NIDN 0918109501
6. Tempat dan Tanggal Lahir Ujung Pandang, 18 Oktober 1995
7. E-Mail rahmahjabir@umi.ac.id
8. Nomor Telepon/HP 081214614662
9. Alamat Kantor Jl. Urip Sumoharjo Km. 05 Makassar
10. Nomor Telepon 0411-453009
11. Lulusan yang telah dihasilkan -
1. Data Mining
12. Mata Kuliah yang Diampu
2. Business Intelligence
B. Riwayat Pendidikan
31
S-1 S-2
Nama Perguruan Universitas Telkom Asia Pacific University

Tinggi Technology and Innovation
Bidang Ilmu Manajemen Bisnis Data Science and Business

Telekomunikasi dan Informatika Analytics
Tahun Masuk – Lulus 2013 – 2017 2018-2019
Judul Analisis Faktor-Faktor Adopsi Analysis of Predicted Food and

Skripsi/Tesis/Disertasi Tcash Dengan Menggunakan Service Rating by Millennials
Technology Acceptance Model Using Machine Learning
(TAM)(Studi Kasus di Kota Models on Restaurant and
Bandung) Customer Profile Data For
Segmenting Approaches
Nama Osa Omar Sharif, S.Si, M.Sm Dr. Preethi Subramanian

Pembimbing/Promotor
C. Penelitian 5 tahun terakhir
No. Skema Penelitian Kedudukan

Judul Penelitian/Tahun & Sumber dan dalam tim
Besar Dana
1 Analysis of Predicted Food and Service Rating Penelitian Tesis, Ketua

by Millennials Using Machine Learning Models Asia Pacific
on Restaurant and Customer Profile Data For Univesity
Segmenting Approaches (Rp.5.000.000)
32
Pengembangan Solusi Perawatan Kesehatan
2 Pribadi (Rp. Ketua
Terhadap Autism Spectrum Disorder (ASD)
Menggunakan Pendekatan Data Analysis 3.000.000)
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat
dipertanggung jawabkan secara hukum. Apabila dikemudian hari ternyata dijumpai
ketidak sesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata ini
saya buat dengan sebenarnya untuk memenuhi salah satu persyaratan dalam pengajuan
PDP .
Makassar, 20 Januari 2023
(Sitti Rahmah Jabir, S.M., M.Sc., MTA)
33
Biodata Anggota Pengabdian
A. Identitas Diri (Anggota)
1. Nama Lengkap Ir. Huzain Azis, S.Kom., M.Cs., MTA
2. Jenis Kelamin Laki-laki
3. Jabatan Fungsional Asisten Ahli
4. NIP/NIK/Identitas Lainnya 114141304
5. NIDN 0920098801
6. Tempat dan Tanggal Lahir Manado, 20 September 1988
7. E-Mail Huzain.azis@umi.ac.id
8. Nomor Telepon/HP 08114484875
9. Alamat Kantor Jl. Urip Sumoharjo Km. 05 Makassar
10. Nomor Telepon 0411-453009
11. Lulusan yang telah dihasilkan S1 : 200 Orang
1. Datamining
12. Mata Kuliah yang Diampu
2. Multimedia
B. Riwayat Pendidikan
S-1 S-2
Nama Perguruan Tinggi STMIK Dipanegara Universitas Gadjah Mada
34
Bidang Ilmu Sistem Informasi Ilmu Komputer
Tahun Masuk – Lulus 2005 – 2009 2010 - 2013
Judul Forum berbagi video Penerapan modifikasi lack

Skripsi/Tesis/Disertasi berbasis komputer steganography dan message
authentication code pada
komunikasi multimedia
Nama Drs. Suarga M.Sc, Drs. Retantyo Wardoyo,

Pembimbing/Promotor M.Math., Ph.D M.Sc., Ph.D
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat
dipertanggung jawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai
ketidak-sesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata
ini saya buat dengan sebenar-benarnya. Surat pernyataan ini dibuat untuk digunakan
sebagaimana mestinya.
(Ir. Huzain Azis, S.Kom., M.Cs., MTA)
35
Ilmu Komputer
LAPORAN KEGIATAN DAN PENGGUNAAN DANA

PENELITIAN DOSEN PEMULA
ANALISIS PERBANDINGAN MEAN, SINGLE, DAN MULTIPLE

IMPUTATION PADA DATA HISTORI DONATUR DALAM
MELAKUKAN PREDIKSI DONASI MENGGUNAKAN LOGISTIC
REGRESSION
KETUA/ANGGOTA TIM
Ketua : Sitti Rahmah Jabir., S.M., M.Sc., MTA 0918109501
Anggota : Ir. Huzain Azis, S.Kom., M.Cs., MTA 0920098801
UNIVERSITAS MUSLIM INDONESIA

JANUARI 2023
36
Log Book Kegiatan Penelitian
Nama Ketua Peneliti : Sitti Rahmah Jabir., S.M., M.Sc., MTA

NIP/NIK : 114 21 1629
Nama Anggota Peneliti : Ir. Huzain Azis, S.Kom., M.Cs., MTA
Fakultas/Unit Kerja : Ilmu Komputer/ Program Studi Teknik Informatika
Nomor Telephon/ Hp : 0812 1461 4662
Judul penelitian : Analisis Perbandingan Mean, Single, dan Multiple
Imputation pada Data Histori Donatur Dalam Melakukan
Prediksi Donasi Menggunakan Model Logistic Regression
Lokasi Penelitian : Fakultas Ilmu Komputer UMI
Total Dana Penelitian : Rp. 8.000.000,-
Dana Penelitian :
- Tahap I : Rp. 5.600.000,-
- Tahap II : Rp. 2.400.000,-
Sumber Dana : Yayasan Wakaf Universitas Muslim Indonesia
37
RINCIAN PENGGUNAAN DANA
Dana yag disetujui LP2S sebesar Rp. 8.000.000
No. Jenis Pengeluaran Biaya yang digunakan
1 Gaji dan Upah Rp. 3.600.000
2 Bahan Habis Pakai dan Peralatan Rp. 3.274.000
3 Perjalanan Rp. 400.000
4 Penelusuran Pustaka, Publikasi dan lain-lain Rp. 846.000
Jumlah Rp. 8.420.000
Mengetahui,
Ketua Lembaga Penelitian, Ketua Peneliti,
(Prof.Dr.H.Baharuddin Semmaila, SE., M.Si.) (Sitti Rahmah Jabir, S.M., M.Sc.,MTA.)

NIP : 102 86 0205 NIP : 114 21 1629
38
Lampiran 3. Justifikasi Anggaran
A. Anggaran Biaya
1. Honor
Waktu Honor per
Honor/Ja
Honor (jam/mi Kegiatan Tahun (Rp)
m (Rp)
nggu) Tahun ke-1
Ketua Tim Pengusul 3000 15 Membuat desain 1.800.000
jam/40 konseptual penelitian,
minggu Menyiapkan
rancangan penelitian,
Melakukan data pre-
processin, dan
melakukan prediksi
menggunakan model
logistic regression
Anggota Pengusul 1 2000 15 Mendistribusikan 1.200.000
jam/40 tugas kepada anggota
minggu peneliti, membantu
melakukan data pre-
preprocessing,
membantu
membandingkan hasil
imputasi, dan
membantu melakukan
prediksi
Anggota mahasiswa 1 1500 5 Melakukan 300.000

jam/40 pengumpulan data,
minggu melakukan
dokumentasi terkait
39
hasil pengolahan data,
dan membantu
menyiapkan data
untuk penyusunan
laporan dan
penyusunan artikel
Anggota mahasiswa 2 1500 5 Melakukan 300.000

jam/40 pengumpulan data
minggu sekunder, melakukan
ekperimen terhadap
imputasi data, dan
melakukan data
eksplorasi
Subtotal (Rp) 3.600.000

2. Peralatan Penunjang dan Bahan Habis Pakai
Biaya Per
Justifikasi Kuantit
Material Harga Satuan (Rp) tahun (Rp)
pemakaian as
ATK Penyelenggara
Penyusuna 55.000 55.000
1. Kertas HVS (A4) 1 Rim
n Laporan
Penyusuna 65.000 65.000
2. Kertas HVS (F4) 1 Rim
n Laporan
Penyusuna 25.000 250.000
3. Modul / makalah 10 orang
n Laporan
Penyusuna 18.000 180.000
4. Map Plastik berkas 10 Buah
n Laporan
Penyusuna 50.000 50.000
5. Pulpen 1 Dos
n Laporan
40
Penyusuna 10.000 120.000
6. Notebook 1 Lusin
n Laporan
Penyusuna 105.000 210.000
7. Tinta Printer/Inkjet 2 Botol
n Laporan
Penyusuna 125.000 125.000
8. Catrik Hitam 1 Buah
n Laporan
Penyusuna 150.000 150.000
9. Catrik Warna 1 Buah
n Laporan
Bahan dan Alat
1. Layanan Software Penunjang 500.000 500.000
pengolaha 1 Pkt
n data
2. Paket Data Penunjang 15.000 255.000
pengelolaa 17 gb
n data
3. Pengadaan Penunjang 900.000 900.000
Memory alat riset 1 Buah
Pemrosesan Data
3.Perjalanan dan Lain-lain
Justifikas Tahun ke-1

i Kuantit
Material Harga Satuan (Rp)
perjalana as
n
1. Perjalanan Penelitian Transpor 2 200.000 400.000
t
sepanjan
g proses
penelitia
n
41
2. Komunikasi 1 orang 2 220.000 440.000
3. Publikasi Jurnal 1 orang 1 700.000 700.000
Total Biaya 8.000.000
42
Lampiran 4. Bukti Luaran
43
44
Lampiran 5. Hasil Pengolahan Data pada SAS Studio
45
46
47
48
49
Lampiran 6. Bukti Pengeluaran
50
51
Pembayaran
Bukti
Transaksi ID
i11849dd66ad3146620002281819e
fbSac36c6b0R00
Tanggal Transaksi : 22-Nov-2022, 12:36:26
(Selasa)
Rincian Pelanggan Metode Pembayaran

Nama : rahmah jabir Metode
: BA LA NCE
Nomor HP : 081214614662 P embayaran
Status : Lunas
Rincian Pembelian
No Deskripsi Item Harga
1 Internet OMG! Rp 80.500
Total Rp 80.500
Jumlah Pembayaran Rp 80.500
Harga sudah termasuk P P N 11% untuk transaksi dengan pembayaran non pulsa dan non tagihan
kartuHALO.
Bukti pembayaran elektronik ini sah tanpa tanda tangan dan cap. Jika memerlukan bukti pembayaran
dengan tanda tangan dan cap dapat menghubungi GraP ARI terdekat.
52
Pembayaran
Bukti
Transaksi ID
i11849dd744911466200023843028
a8Sae400000000
Tanggal Transaksi : 22-Nov-2022, 12:37:21
(Selasa)

: BA LA NCE
Status : Lunas
Rincian Pembelian
1 P aket Spesial Rp 75.000
Total Rp 75.000
kartuHALO.
53
Pembayaran
Bukti
Transaksi ID
i118402c1317d14662000369861ee
d1Sac300000000
Tanggal Transaksi : 23-Okt-2022, 09:52:06
(Minggu)

: BA LA NCE
Status : Lunas
Rincian Pembelian
1 Internet Sakti Rp 122.000
Total Rp 122.000
kartuHALO.
54
55
56
57

Laporan Akhir Penelitian Fixed

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan Akhir Penelitian Fixed

Diunggah oleh

Hak Cipta:

Format Tersedia

BIDANG : ILMU KOMPUTER

ANALISIS PERBANDINGAN MEAN, SINGLE, DAN MULTIPLE IMPUTATION

Sitti Rahmah Jabir, S.M., M.Sc., MTA (0918109501)

UNIVERSITAS MUSLIM INDONESIA

Pada tahap pengumpulkan data seringkali terjadi hambatan, salah satu

Kata Kunci : missing data, data imputation, logistic regression

Yang menjadi target luaran pada penelitian ini adalah:

Multikolinearitas dikenal sebagai suatu kondisi dimana terjadi korelasi antara

Saat memprediksi model, ROC adalah metode untuk membantu akurasi

Gambar 1. ROC Curve

Prediksi menggunakan model logistic regression dengan menggunakan data

Gambar 2. Kerangka Pikir

Gambar 3. Tahapan Penelitian

6. Susunan Organisasi Peneliti/Pelaksana dan Pembagian Tugas

Tim Dosen Peneliti

Ketua Peneliti: 10 Tugas Umum:

Sitti Rahmah Jabir, - Mengkoordinir penelitian secara keseluruhan

Data Mining &

Anggota Peneliti: 8 Tugas Umum:

Ir. Huzain Azis, - Mengkoordinir pelaksanaan penelitian secara

Mahasiswa S1 10 Tugas Umum:

Muh. Acqmal Fadhilla - Membantu jalannya penelitian secara keseluruhan

NIM: 130 2020 0061 - Melakukan pengumpulan data

Muhammad Fahmi - Membantu jalannya penelitian secara keseluruhan

6) Luaran dan Target Capaian

HASIL PENELITIAN DAN PEMBAHASAN

Gambar 4. Metadata Dataset

Gambar 7. Kondisi data yang hilang pada tabel

Source: (Auld, 2011)

Kesenjangan dapat diamati dari tingkat kuantil. Berdasarkan penelitian di atas,

Merujuk dari plot, beberapa variabel terdeteksi memiliki outlier. Titik-titik

Gambar 9. Nilai quantiles dari beberapa variabel

Gambar 11. Nilai Estimasi Parameter beberapa variabel

Gambar 12. Nilai variasi dari beberapa variabel

Gambar 14. Hasil Pengurangan Variabel yang memiliki multikolinearitas

Gambar 16. Nilai variasi dari beberapa variabel

Karena CallCntCardAll kurang dari dari CallCntAll, diputuskan untuk

Gambar 18. Hasil pengurangan variable pada data single imputation

Dalam perkiraan parameter berikutnya, ia mendeteksi semua inflasi varians variabel

1. Mean Imputation Data (MID)

Gambar 19. Nilai C-statistics data mean imputation

2. Single Imputation Data (SID)

Gambar 20. Nilai C-statistic data single imputation

Gambar 14. Nilai AUC untuk Model B

Dalam perlakuan multikolinearitas menggunakan dua data yang diperhitungkan

Setelah kedua data bersih dari multikolinearitas, model dibangun menggunakan

C. Ucapan Terima Kasih

3. Farrokhvar L, Ansari A, Kamali B. Predictive models for charitable giving using

4. Schetgen L, Bogaert M, Poel D Van den. Predicting donation behavior:

7. Mukarromah, Martha S, Ilhamsyah. Perbandingan Imputasi Missing Data

9. Sriningsih M, Hatidja D, Prang JD. Penanganan Multikolinearitas Dengan

11. Zhu W, Zeng N, Wang N. Sensitivity, specificity, accuracy, associated confidence

12. Velu A. Application of Logistic Regression Models in Risk. 2021;8(4):251–60.

13. Sperandei S. Understanding logistic regression analysis. Biochem Medica.

1. Perangkat Keras (Hardware)

A. Identitas Diri ( Ketua )

1. Nama Lengkap Sitti Rahmah Jabir, S.M., M.Sc., MTA

2. Jenis Kelamin Perempuan

3. Jabatan Fungsional Non Jabatan Fungsional (NJF)

4. NIP/NIK/Identitas Lainnya 114 21 1629

6. Tempat dan Tanggal Lahir Ujung Pandang, 18 Oktober 1995

8. Nomor Telepon/HP 081214614662

9. Alamat Kantor Jl. Urip Sumoharjo Km. 05 Makassar