LAPORAN AKHIR
PENELITIAN DOSEN PEMULA
TIM PENGUSUL
i
HALAMAN PENGESAHAN
ii
RINGKASAN
ANALISIS PERBANDINGAN MEAN, SINGLE, DAN MULTIPLE IMPUTATION PADA
DATA HISTORI DONOR DALAM MELAKUKAN PREDIKSI DONASI
MENGGUNAKAN MODEL LOGISTIC REGRESSION
iii
DAFTAR ISI
HALAMAN PENGESAHAN .......................................................................................... ii
RINGKASAN .................................................................................................................. iii
BAB I ................................................................................................................................ 1
PENDAHULUAN ............................................................................................................ 1
A. Latar Belakang ................................................................................................... 1
B. Rumusan Masalah ............................................................................................... 3
C. Tujuan Penelitian ................................................................................................ 3
D. Target Luaran ...................................................................................................... 3
BAB II .............................................................................................................................. 4
TINJAUAN PUSTAKA ................................................................................................... 4
1) Data Cleaning ................................................................................................... 4
2) Multicollinearity ................................................................................................ 4
3) Prediction Modelling......................................................................................... 5
4) Logistic Regression ........................................................................................... 5
5) Kerangka Pikir ................................................................................................. 6
BAB III............................................................................................................................. 7
METODE PENELITIAN ................................................................................................ 7
1. Tahap Penelitian .................................................................................................. 7
2. Lokasi Penelitian.................................................................................................. 7
3. Model Penelitian .................................................................................................. 7
4. Rancangan Penelitian .......................................................................................... 7
5. Teknik Pengumpulan Data ................................................................................. 7
6. Susunan Organisasi Peneliti/Pelaksana dan Pembagian Tugas ...................... 8
Tabel 2. Susunan Organisasi ...................................................................................... 8
6) Luaran dan Target Capaian ............................................................................... 9
Tabel 3. Luaran dan Target Capaian ....................................................................... 9
BAB IV ........................................................................................................................... 11
HASIL PENELITIAN DAN PEMBAHASAN ............................................................. 11
A. Data Exploration................................................................................................ 11
1) Missing values .................................................................................................. 12
2) Outlier .............................................................................................................. 13
iv
3) Penghilangan Outlier ....................................................................................... 14
B. Data Cleaning ..................................................................................................... 15
1) Mean imputation .............................................................................................. 15
2) Single imputation ............................................................................................. 16
3) Multiple Imputation ......................................................................................... 16
C. Eksplorasi Data Setelah Data Diimputasi ....................................................... 17
D. Multicollinearity test ........................................................................................... 18
1) Mean imputation .............................................................................................. 18
2) Single Imputation ............................................................................................. 20
E. Pemodelan .......................................................................................................... 22
1. Mean Imputation Data (MID) ......................................................................... 23
2. Single Imputation Data (SID) .......................................................................... 23
3. Test Set............................................................................................................. 23
4. Perbandingan ..................................................................................................... 25
BAB V............................................................................................................................. 26
SIMPULAN DAN SARAN ............................................................................................ 26
A. Simpulan ............................................................................................................. 26
B. Saran ................................................................................................................... 27
C. Ucapan Terima Kasih ....................................................................................... 27
DAFTAR PUSTAKA ..................................................................................................... 28
LAMPIRAN ................................................................................................................... 30
Lampiran 1. Instrumen Penelitian .......................................................................... 30
Lampiran 2. Biodata Ketua/Anggota Tim Peneliti ................................................ 31
LAPORAN KEGIATAN DAN PENGGUNAAN DANA ...................................... 36
PENELITIAN DOSEN PEMULA........................................................................... 36
Log Book Kegiatan Penelitian ................................................................................. 37
RINCIAN PENGGUNAAN DANA ......................................................................... 38
Lampiran 3. Justifikasi Anggaran.......................................................................... 39
Lampiran 4. Bukti Luaran ....................................................................................... 43
Lampiran 5. Hasil Pengolahan Data pada SAS Studio ......................................... 45
v
BAB I
PENDAHULUAN
A. Latar Belakang
Glenegals Disaster Relief Service (GRDS), India meluncurkan cabang Tamil
Nadu (Negara Bagian di India) beberapa tahun yang lalu. Baru-baru ini Tamil Nadu
terkena dampak Topan Gaja. Gaja adalah topan bernama kelima dari musim siklon
Samudra Hindia Utara 2018 yang mempengaruhi sebagian besar tempat di Tamil
Nadu, India selama bulan November 2018. GRDS menghadapi kelangkaan dana,
ketika diperlukan untuk merawat para korban Gaja. Oleh karena itu, pihaknya telah
merencanakan kampanye penggalangan dana untuk melayani para korban. Program
ini bertujuan untuk mengumpulkan sekitar 100,000.00 USD dan kampanye ini
dipromosikan dengan tag line "Be a Hero by Funding". Tim pengumpul bertujuan
untuk menindaklanjuti dengan calon donatur yang ada dengan itu, di samping donatur
baru yang tertarik.
Badan Amal adalah Organisasi Nirlaba yang berfokus pada masalah
kemanusiaan dan sosial yang mereka lakukan amal untuk membantu orang lain.
Kontribusi amal termasuk hadiah uang tunai dan non-tunai. Merujuk dari The National
Center for Charitable Statistics, yang menyatakan di AS, memperoleh total
pendapatan $1,50 triliun dan total $1,49 triliun yang dilaporkan oleh badan amal publik
pada tahun 2011. Pemberian amal telah berkembang tren sejak 1975 dan pada 2014
(3).
Menurut Sargeant (1999), Karakteristik individu dari donor potensial memiliki
efek substansial pada perilaku memberi mereka. Demografis dan sosial ekonomi profil
individu terkait langsung dengan niat mereka untuk mendukung organisasi nirlaba,
serta tingkat dukungan yang diberikan. Misalnya, individu yang lebih muda cenderung
tidak menyumbang ke organisasi nirlaba yang berpotensi dijelaskan oleh fakta bahwa
mereka didorong oleh konsumsi dan karenanya, lebih suka membeli barang untuk diri
mereka sendiri (4). Selain itu, faktor-faktor lain adalah mendorong amal adalah sikap
terhadap organisasi amal dan data historis tentang donasi (3). Tujuan dari penelitian
1
ini adalah untuk menggunakan riwayat donasi untuk menganalisis apakah donator
akan menyumbang atau tidak menggunakan regresi logistik.
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk
menerapkan model yang dibangun untuk memprediksi donator yang paling mungkin
menjadi korban topan Gaja. Dalam himpunan data donasi, ini berisi 3 lembar dalam
format excel yaitu himpunan data pelatihan, himpunan data validasi, dan deskripsi
data. Data tersebut terdiri dari 27 variabel yang 4849 observasi untuk pelatihan dan
4837 observasi untuk validasi. Dimana data tersebut diambil dari Kaggle.com (5).
Pada tahap pengumpulkan data seringkali terjadi hambatan, salah satu
hambatannya yaitu fenomena missing data atau data hilang. Missing data adalah
hilangnya sebagian informasi atau data pada suatu penelitian. Beberapa hal yang
menyebabkan missing data, misalnya dari peralatan yang tidak berfungsi dengan baik,
kekurangan fasilitas, tidak terisinya kuesioner karena penolakan responden atau
responden kesulitan untuk menjawab pertanyaan, kesalahan dalam pengambilan data,
dan lain sebagainya.
Akibat dari adanya missing data adalah pendugaan parameter menjadi tidak
efisien. Ukuran data yang berkurang dapat mengakibatkan kesulitan dalam
menganalisis, sehingga hasil yang didapatkan menjadi tidak valid dan tujuan dari
penelitian tidak tercapai. Missing data dapat saja diabaikan, jika data yang hilang
sedikit. Namun apabila missing data berjumlah cukup besar maka data tersebut tidak
dapat diabaikan. Oleh karena itu, perlu dilakukan estimasi untuk mengisi data yang
hilang tersebut agar hasil dari pengolahan data nantinya memiliki hasil yang
maksimum (1).
Data yang telah diimputasi menggunakan beberapa metode akan membantu
dalam melakukan prediksi. Dimana algoritma yang digunakan untuk melakukan
prediksi ialah logistic regression. Berdasarkan penelitian yang dilakukan Wan Hanieza
(2019), logistic regression dianggap model yang memberikan hasil yang baik dalam
melakukan prediksi (2).
Berdasarkan latar belakang yang telah dikemukakan, maka pada penelitian ini,
penulis akan melakukan penelitian yang berjudul Analisis Perbandingan Mean, Single
2
dan Multiple Imputation pada Data Histori Donatur Dalam Melakukan Prediksi Donasi
Menggunakan Model Logistic Regression.
B. Rumusan Masalah
Berdasarkan uraian latar belakang dan rumusan masalah yang telah dikemukakan,
maka dapat disimpulkan pertanyaan penelitian adalah :
1. Bagiaman menginput data yang hilang dengan metode mean imputation?
2. Bagaimana kondisi data yang telah diimputasi dengan metode single imputation?
3. Bagaimana kondisi data yang telah diimputasi dengan metode multiple
imputation?
4. Bagaimana akurasi dari prediksi menggunakan logistic regression dengan
menggunakan data yang sudah diimputasi menggunakan mean, single dan
multiple imputation?
C. Tujuan Penelitian
Berdasarkan rumusan masalah yang telah dikemukakan, maka dapat
disimpukan tujuan penelitian adalah:
1. Untuk melakukan penginputan data yang hilang dengan metode mean imputation
2. Untuk melakukan penginputan data yang hilang dengan metode single imputation
3. Untuk melakukan penginputan data yang hilang dengan metode multiple
imputation
4. Untuk melihat perbandingan akurasi dalam melakukan prediksi menggunakan
logistic regression dari data yang sudah diimputasi menggunakan mean, single
dan multiple imputation
D. Target Luaran
1. Penerapan mean, single dan multiple imputation diharapkan dapat mengisi data
yang hilang dan membantu dalam melakukan prediksi secara tepat menggunakan
model logistic regression.
2. Jurnal ber ISSN (SINTA 4) sebagai luaran utama dan jurnal ber-ISSN untuk
luaran tambahan serta bahan ajar berupa studi kasus.
3
BAB II
TINJAUAN PUSTAKA
A. Landasan Teori
1) Data Cleaning
Pembersihan data atau yang dikenal sebagai data cleaning merupakan proses
kompleks dan terdiri dari beberapa tahap yang meliputi penentuan aturan kualitas data,
mendeteksi eror/kesalahan data, dan memperbaiki kesalahan (6).
Ada banyak cara untuk memasukkan data, dapat menggunakan mean, listwise,
pairwise, single imputation, multiple imputation, dan sebagainya. Mean imputation
merupakan salah satu metode imputasi yang paling umum digunakan. Imputasi dengan
metode mean mengisi missing data dalam suatu variable dengan nilai rata-rata dari
semua nilai yang diketahui pada suatu variable (7).
Imputasi tunggal (single imputation) adalah imputasi regresi yang dapat
mempertahankan hubungan antara nilai yang hilang dan variabel lainnya. Beberapa
imputasi menyediakan strategi yang berguna untuk menangani kumpulan data dengan
nilai yang hilang. Menurut Rubin's (1987) prosedur imputasi berganda menggantikan
setiap nilai yang hilang dengan satu set nilai yang masuk akal yang mewakili
ketidakpastian tentang nilai yang tepat untuk diperhitungkan (8).
2) Multicollinearity
Multikolinearitas sering digambarkan sebagai fenomena statistik di mana ada
hubungan yang sempurna atau tepat antara variabel prediktor. Dalam kejadian
multikolinearitas, sulit untuk menghasilkan perkiraan koefisien individu yang dapat
diandalkan untuk variabel prediktor dalam model yang menghasilkan kesimpulan
yang salah tentang hubungan antara hasil dan variabel prediktor. Setelah metode
imputasi, maka akan beralih ke langkah selanjutnya yaitu memeriksa kolinearitas
antar variabel (16).
4
inflasi ragam atau yang dikenal sebagai variance inflation factor (VIF). Faktor ini
digunakan sebagai kriteria untuk mendeteksi multikolinearitas pada regresi linier
yang melibatkan lebih dari dua variable bebas (9).
3) Prediction Modelling
Pemodelan prediktif adalah metode untuk memprediksi masa depan dan untuk
melakukan pengambilan keputusan dengan cepat di tingkat pelanggan, klien, dan
lainnya. Untuk memprediksi masa depan, data disambung menjadi dua bagian yaitu
pelatihan atau validasi dan set pengujian. Data pelatihan digunakan untuk pemodelan
dan membandingkan juga memilih validasi dan diuji pada set pengujian di masa
mendatan (10).
5
mirip dengan regresi linier, tetapi dengan variabel respons binomial. Masalah utama
saat membangun model logistik adalah memilih variabel mana yang akan disertakan.
Para peneliti biasanya mengumpulkan sebanyak mungkin variabel dalam instrumen
penelitian mereka, kemudian memasukkan semuanya ke dalam model dan mencoba
menemukan sesuatu yang "signifikan". Pendekatan ini meningkatkan munculnya dua
situasi. Pertama, satu atau lebih variabel secara statistik "signifikan", tetapi peneliti
tidak memiliki teori untuk menghubungkan variabel "signifikan" dengan model
peristiwa yang menarik (13).
5)Kerangka Pikir
Untuk lebih memperjelas kerangka pikir yang disajikan, maka berikut ini kami
gambarkan dalam bentuk skema yang dapat dilihat pada gambar 3 sebagai berikut:
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk menerapkan model yang
dibangun untuk memprediksi donator yang paling mungkin menjadi korban topan Gaja. Dalam himpunan data
donasi, ini berisi 3 lembar dalam format excel yaitu himpunan data pelatihan, himpunan data validasi, dan
deskripsi data. Data tersebut terdiri dari 27 variabel yang 4849 observasi untuk pelatihan dan 4837 observasi
untuk validasi.
Data yang didapatkan tidak sepenuhnya sempurna, melainkan perlu dilakukan tahap
pembersihan terhadap data yang hilang
6
BAB III
METODE PENELITIAN
1. Tahap Penelitian
Berikut ialah gambaran terkait tahapan pada penelitian ini:
2. Lokasi Penelitian
Penelitian ini dilakukan di Laboratorium Riset Fakultas Ilmu Komputer dengan
mengambil data pada website Kaggle.com.
3. Model Penelitian
Model yang digunakan pada penelitian ini yaitu model prediksi logistic
regression.
4. Rancangan Penelitian
Rancangan penelitian ini yang dilakukan menggunakan beberapa komponen dari
Komponen Perangkat Lunak (software) dan perangkat keras (hardware).
5. Teknik Pengumpulan Data
Jenis penelitian yang kami lakukan adalah penelitian pustaka, dimana penelitian
ini dilakukan dengan mengambil beberapa buku rujukan mengenai definisi dan
7
konsep, serta dari berbagai jurnal di internet yang berhubungan dengan materi,
terkait pelaksanaan pengumpulan data tersebut.
8
- Membantu melakukan data pre-preprocessing
- Membantu membandingkan hasil imputasi
- Membantu melakukan prediksi
Mahasiswa yang terlibat dalam penelitian
9
Luaran Tambahan
1 Publikasi di Junral ber Indonesia Journal of Data Science (IJODAS)
https://jurnal.yoctobrain.org/index.php/ijodas
jurnal nasional ISSN
10
BAB IV
A. Data Exploration
Pada penelitian ini digunakan data dengan jumlah 4.849 observasi yang terdiri
dari 27 variabel.
11
Gambar 5. Perubahan tipe data
Setelah kode dijalankan, data diubah menjadi semua numerik kecuali D-ID
yang tidak digunakan dalam penelitian ini.
1) Missing values
Eksplorasi data lainnya adalah melihat data yang hilang dan outlier. Data
hilang dan outlier sering dijumpai selama fase pengumpulan data studi
observasional atau eksperimental yang dilakukan di semua bidang alam dan social
sciences. Nilai yang hilang dapat timbul dari kehilangan informasi serta dan tidak
ditanggapi oleh peserta penelitian (14) .
12
Gambar 6. Variable yang memiliki missing values
2) Outlier
Untuk outlier, hal ini mengacu pada nilai-nilai ekstrem yang secara tidak
normal terletak di luar pola keseluruhan distribusi variabel (Kwak & Kim, 2017).
13
Pada penelitian ini akan dilakukan pencarian terhhadap outlier pada data untuk
semua variabel kecuali D_ID yang tidak digunakan dalam penelitian ini. Menurut
Auld (2011), analisis kuantil paling berguna digunakan untuk melihat outlier pada
data. Dimana outlier dapat terlihat dari persentil pada 5, 95, 1 atau 99, 10 atau 90
untuk setiap parameter (Auld, 2011).
3) Penghilangan Outlier
Untuk outlier, beberapa data yang terdeteksi memiliki gap yang tinggi. Dalam
hal ini, semua outlier akan diperlakukan sebagai nilai yang hilang. Enam variabel
14
terdeteksi gap tinggi dari garis yang sesuai, ada Donor_D, DONAvgLast,
DONAvgP1, DONAvgAll, DONAvgCardP1, dan DONTimeFirst.
B. Data Cleaning
Terdapat beberapa metode yang dapat digunakan dalam mengisi data yang hilang,
diantaranya ialah menggunakan mean, listwise, pairwise, single imputation, multiple
imputation, dan sebagainya. Dalam penelitian ini akan mencoba menginput data
dengan beberapa metode untuk menemukan yang terbaik yang sesuai dengan model.
1) Mean imputation
Langkah pertama adalah imputasi rata-rata. Nilai rata-rata akan diambil dan diisi
ke dalam nilai yang hilang. Untuk Donor_D, nilai meannya ialah 14.86, DONAvgP1
adalah 14.36, DONAvgAll adalah 11.95, DONAvgCardP1 adalah 13.59 dan Age
ialah menjadi 58.797. Di sisi lain, cara lain untuk menghitung data tidak hanya
15
menggunakan metode imputasi rata-rata, tetapi juga imputasi tunggal dan metode
imputasi ganda. Untuk langkah selanjutnya, ia akan mencoba mengisi nilai yang
hilang dengan metode single dan multiple imputasi.
2) Single imputation
Imputasi tunggal atau yang dikenal single imputation adalah imputasi regresi yang
dapat mempertahankan hubungan antara nilai yang hilang dan variabel lainnya.
Imputasi dengan regresi pada satu atau lebih variabel lain dapat menghasilkan nilai
yang lebih baik. Pertama, peneliti perlu melakukan t model regresi dengan menetapkan
variabel minat sebagai variabel respon dan variabel relevan lainnya sebagai kovariat.
Koefisien diperkirakan, dan kemudian nilai yang hilang dapat diprediksi dengan model
yang dipasangkan (15).
Dalam pemrosesan data pada SAS software, perintah “proc mi” akan membantu
melakukan imputasi tunggal, dimana "nimmpute=1" mewakili imputasi tunggal.
Setelah perintah dijalankan, hasilnya akan memiliki pola untuk himpunan data yang
hilang. Data yang hilang akan diisi dengan menggunakan metode imputasi tunggal,
data yang diperhitungkan berbeda dengan imputasi rata-rata yang berarti imputasi
melakukan imputasi dengan satu nilai rata-rata tetapi imputasi tunggal menghitung
data dengan nilai yang berbeda.
Setelah menjalankan perintah, data akan diperhitungkan dan tidak ada nilai yang
hilang yang terdeteksi. Dalam imputasi tunggal, data yang diperhitungkan berbeda
dengan imputasi rata-rata yang berarti imputasi melakukan imputasi dengan satu nilai
rata-rata tetapi imputasi tunggal menghitung data dengan nilai yang berbeda.
3) Multiple Imputation
Multiple imputation (imputasi ganda) memberikan strategi yang berguna untuk
menangani kumpulan data dengan nilai yang hilang. Menurut Rubin (1987), prosedur
imputasi ganda menggantikan setiap nilai yang hilang dengan seperangkat nilai yang
masuk akal yang mewakili ketidakpastian tentang nilai yang tepat untuk
diperhitungkan (8).
Berbeda dari imputasi tunggal, jumlah imputasi dalam imputasi ganda lebih dari 1.
Dalam hal ini, kami menerapkan nimpute=5 seperti yang diketahui itu adalah default
dari multiple imputation.
16
Gambar 10. Pola Data Yang Hilang
Ketika perintah dijalankan, pola yang hilang akan ditampilkan. Dalam prosedur
MI, ada tiga metode yang tersedia. Metode yang dipilih tergantung pada jenis pola data
yang hilang. Dalam penelitian ini diterapkan metode MCMC. Ini menciptakan
beberapa imputasi dengan menggunakan simulasi dari distribusi prediksi Bayesian
untuk data normal. Setelah diperhitungkan, pola yang hilang dalam data akan
diperhitungkan menggunakan metode imputasi ganda. Data yang hilang sudah diisi
menggunakan fungsi proc mi.
C. Eksplorasi Data Setelah Data Diimputasi
Setelah metode imputasi dilakukan, data harus dicek apakah data yang hilang masih
melekat dengan data tersebut atau tidak. Tabel di bawah ini menunjukkan nilai yang hilang
yang tidak ada dalam data lagi setelah mean, single, dan multiple imputation.
17
Gambar 10. Kondisi data setelah dilakukan imputasi
D. Multicollinearity test
Pada penelitian ini akan dilakukan pengecekan terhadap korelasi antara variable bebas
atau antar variable bebas tidak bersifat saling bebas. Dimana besaran yang dapat
digunakan untuk mendeteksi adanya multikolinearitas merupakan faktor inflasi ragam
atau yang dikenal sebagai variance inflation factor (VIF). Ketika nilai VIF > 2 maka akan
dilakukan penghapusan terhadap variable yang memiliki korelasi yang tinggi.
1) Mean imputation
18
memiliki nilai VIF tertinggi dari variabel lainnya. Langkah selanjutnya yaitu melihat
tabel diagnostik kolinearitas untuk melihat nilai tinggi lainnya secara berurutan.
19
Gambar 13. Nilai chi-square
Karena nilai chi-square CallCntCardAll kurang dari dari CallCntAll, maka
diputuskan untuk menghilangkan variabel CallCntCardAll. Dimana langkah ini akan
diulang sampai semua VIF < 2. Setelah melakukan rotasi, didapatkan beberapa
tersisa yang dapat dilihat pada tabel di bawah ini:
2) Single Imputation
Perawatan multikolinearitas berikutnya adalah untuk himpunan data imputasi
tunggal.
20
Gambar 15. Nilai estimasi parameter data single imputation
21
Gambar 17. Nilai c-statistics variable data single imputation
E. Pemodelan
22
Pada langkah pemodelan, data akan diterapkan dalam metode regresi logistik untuk
memprediksi variabel "Donor". Baik data imputasi rata-rata dan data imputasi tunggal
akan digunakan untuk pemodelan untuk membandingkan mana yang terbentuk
sebelumnya dengan baik.
3. Test Set
Saat memprediksi donor, data pelatihan yang telah selesai dengan imputasi rata-
rata digunakan dalam set tes. Data dibagi menjadi 70% dan 30% untuk data pelatihan
dan data tes.
23
Gambar 13. Nilai AUC untuk Model A
Pada hasil pertama, model menggunakan pelatihan yang ditetapkan dalam 70%
dan 30% dari tes. ROC menunjukkan 62,1% data diprediksi benar.
24
4. Perbandingan
Tabel 2. Perbandingan Nilai C
Model AUC
Mean Imputation Data (Model A) 62.1%
Single Imputation Data (Model B) 62.45%
Perbedaan antara model A dan B tidak jauh berbeda. Dari hasil nilai AUC, data
single imputation berkinerja baik dibandingkan dengan data mean imputation.
25
BAB V
SIMPULAN DAN SARAN
A. Simpulan
Berdasarkan hasil pada bab sebelumnya, kesimpulan yang dapat dirangkum ialah
setiap data yang hilang dapat diisi dengan menggunakan berbagai metode
penginputan data. Dalam penelitian ini data diperhitungkan dalam 3 cara yaitu mean,
single dan multiple imputation. Untuk imputasi rata-rata, nilai yang hilang diisi
dengan dengan nilai rata-rata di masing-masing variabel. Untuk imputasi tunggal,data
dihitung dengan imputasi satu kali sedangkan beberapa kali lebih banyak merujuk
dari jumlah imputasi yang didefinisikan peneliti.
26
B. Saran
Untuk pengamatan berikutnya, dapat menghitung data dengan cara yang berbeda
seperti berpasangan dan listwise untuk melihat apakah c-statistic dapat ditingkatkan.
Untuk jenis kelamin, nilai "tidak diketahui" dapat diubah sebagai laki-laki atau
perempuan. Selain itu, outlier dapat diperbaiki dengan lebih baik.
27
DAFTAR PUSTAKA
1. Eldiyana I, Nurlaelah E, Herrhyanto N. Estimasi Missing Data Dengan Metode
Multivariate Imputation By Chained Equations (Mice) Untuk Membentuk
Persamaan Regresi Linear Berganda. J EurekaMatika. 2020;8(1):97–107.
2. Hanieza W, Sarkan HM, Sjarif NNA, Yahya Y. A Prediction Model for Blood
Donation Using Multiple Logistic Regression. Open Int J Informatics.
2019;7(2):147–57.
5. Katil. Predict Donations Using Donors’ Past Behaviour [Internet]. 2018 [cited
2022 May 12]. Available from:
https://www.kaggle.com/code/gauravsalaskar/predict-donations-using-donors-
past-behaviour/data
6. Widiari NPA, Suarjaya IMAD, Githa DP. Teknik Data Cleaning Menggunakan
Snowflake untuk Studi Kasus Objek Pariwisata di Bali. J Ilm Merpati (Menara
Penelit Akad Teknol Informasi). 2020;8(2):137.
8. Patrician PA. Multiple imputation for missing data. Res Nurs Heal. 2002;25(1):76–
84.
28
10. SAS. Predictive Modeling using SAS Purpose of Predictive Modeling. 2006;
14. Kwak SK, Kim JH. Statistical data preparation: Management of missing values
and outliers. Korean J Anesthesiol. 2017;70(4):407–11.
15. Shi Y, Zhang L, Tian Y, Li X. Data Mining and Knowledge Management Data.
Intell Knowl [Internet]. 2015;(Dm):1–11. Available from:
http://link.springer.com/10.1007/978-3-662-46193-8
16. Schreiber-Gregory DN. Multicollinearity: What Is It, Why Should We Care, and
How Can It Be Controlled? SAS Inst INC [Internet]. 2017;1404–2017. Available
from: https://support.sas.com/resources/papers/proceedings17/1404-
2017.pdf%0Ahttps://analytics.ncsu.edu/sesug/2017/SESUG2017_Paper-
160_Final_PDF.pdf
29
LAMPIRAN
Lampiran 1. Instrumen Penelitian
30
Lampiran 2. Biodata Ketua/Anggota Tim Peneliti
Biodata Ketua Pengabdian
5. NIDN 0918109501
7. E-Mail rahmahjabir@umi.ac.id
1. Data Mining
12. Mata Kuliah yang Diampu
2. Business Intelligence
B. Riwayat Pendidikan
31
S-1 S-2
32
Pengembangan Solusi Perawatan Kesehatan
2 Pribadi (Rp. Ketua
Terhadap Autism Spectrum Disorder (ASD)
Menggunakan Pendekatan Data Analysis 3.000.000)
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat
dipertanggung jawabkan secara hukum. Apabila dikemudian hari ternyata dijumpai
ketidak sesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata ini
saya buat dengan sebenarnya untuk memenuhi salah satu persyaratan dalam pengajuan
PDP .
33
Biodata Anggota Pengabdian
A. Identitas Diri (Anggota)
1. Nama Lengkap Ir. Huzain Azis, S.Kom., M.Cs., MTA
5. NIDN 0920098801
7. E-Mail Huzain.azis@umi.ac.id
1. Datamining
12. Mata Kuliah yang Diampu
2. Multimedia
B. Riwayat Pendidikan
S-1 S-2
34
Bidang Ilmu Sistem Informasi Ilmu Komputer
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat
dipertanggung jawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai
ketidak-sesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata
ini saya buat dengan sebenar-benarnya. Surat pernyataan ini dibuat untuk digunakan
sebagaimana mestinya.
35
Ilmu Komputer
KETUA/ANGGOTA TIM
36
Log Book Kegiatan Penelitian
37
RINCIAN PENGGUNAAN DANA
Dana yag disetujui LP2S sebesar Rp. 8.000.000
Mengetahui,
38
Lampiran 3. Justifikasi Anggaran
A. Anggaran Biaya
1. Honor
Waktu Honor per
Honor/Ja
Honor (jam/mi Kegiatan Tahun (Rp)
m (Rp)
nggu) Tahun ke-1
Ketua Tim Pengusul 3000 15 Membuat desain 1.800.000
jam/40 konseptual penelitian,
minggu Menyiapkan
rancangan penelitian,
Melakukan data pre-
processin, dan
melakukan prediksi
menggunakan model
logistic regression
Anggota Pengusul 1 2000 15 Mendistribusikan 1.200.000
jam/40 tugas kepada anggota
minggu peneliti, membantu
melakukan data pre-
preprocessing,
membantu
membandingkan hasil
imputasi, dan
membantu melakukan
prediksi
39
hasil pengolahan data,
dan membantu
menyiapkan data
untuk penyusunan
laporan dan
penyusunan artikel
ATK Penyelenggara
Penyusuna 55.000 55.000
1. Kertas HVS (A4) 1 Rim
n Laporan
Penyusuna 65.000 65.000
2. Kertas HVS (F4) 1 Rim
n Laporan
Penyusuna 25.000 250.000
3. Modul / makalah 10 orang
n Laporan
Penyusuna 18.000 180.000
4. Map Plastik berkas 10 Buah
n Laporan
Penyusuna 50.000 50.000
5. Pulpen 1 Dos
n Laporan
40
Penyusuna 10.000 120.000
6. Notebook 1 Lusin
n Laporan
Penyusuna 105.000 210.000
7. Tinta Printer/Inkjet 2 Botol
n Laporan
Penyusuna 125.000 125.000
8. Catrik Hitam 1 Buah
n Laporan
Penyusuna 150.000 150.000
9. Catrik Warna 1 Buah
n Laporan
Bahan dan Alat
1. Layanan Software Penunjang 500.000 500.000
pengolaha 1 Pkt
n data
2. Paket Data Penunjang 15.000 255.000
pengelolaa 17 gb
n data
3. Pengadaan Penunjang 900.000 900.000
Memory alat riset 1 Buah
Pemrosesan Data
Subtotal (Rp) 2.860.000
3.Perjalanan dan Lain-lain
41
2. Komunikasi 1 orang 2 220.000 440.000
3. Publikasi Jurnal 1 orang 1 700.000 700.000
Subtotal (Rp) 1.540.000
Total Biaya 8.000.000
42
Lampiran 4. Bukti Luaran
43
44
Lampiran 5. Hasil Pengolahan Data pada SAS Studio
45
46
47
48
49
Lampiran 6. Bukti Pengeluaran
50
51
Pembayaran
Bukti
Transaksi ID
i11849dd66ad3146620002281819e
fbSac36c6b0R00
(Selasa)
Status : Lunas
Rincian Pembelian
Total Rp 80.500
Harga sudah termasuk P P N 11% untuk transaksi dengan pembayaran non pulsa dan non tagihan
kartuHALO.
Bukti pembayaran elektronik ini sah tanpa tanda tangan dan cap. Jika memerlukan bukti pembayaran
dengan tanda tangan dan cap dapat menghubungi GraP ARI terdekat.
52
Pembayaran
Bukti
Transaksi ID
i11849dd744911466200023843028
a8Sae400000000
(Selasa)
Status : Lunas
Rincian Pembelian
Total Rp 75.000
Harga sudah termasuk P P N 11% untuk transaksi dengan pembayaran non pulsa dan non tagihan
kartuHALO.
Bukti pembayaran elektronik ini sah tanpa tanda tangan dan cap. Jika memerlukan bukti pembayaran
dengan tanda tangan dan cap dapat menghubungi GraP ARI terdekat.
53
Pembayaran
Bukti
Transaksi ID
i118402c1317d14662000369861ee
d1Sac300000000
(Minggu)
Status : Lunas
Rincian Pembelian
Total Rp 122.000
Harga sudah termasuk P P N 11% untuk transaksi dengan pembayaran non pulsa dan non tagihan
kartuHALO.
Bukti pembayaran elektronik ini sah tanpa tanda tangan dan cap. Jika memerlukan bukti pembayaran
dengan tanda tangan dan cap dapat menghubungi GraP ARI terdekat.
54
55
56
57