Proposal Penelitian 2022
Proposal Penelitian 2022
Analisis Perbandingan Mean, Single dan Multiple Imputation pada Data Histori Donatur
Dalam Melakukan Prediksi Donasi Menggunakan Model Logistic Regression
Oleh :
1
2
DAFTAR ISI
2. Lokasi Penelitian................................................................................................................ 14
3
Lampiran 1. Halaman Sampul PDP .............................................................................................. 20
4
BAB I. PENDAHULUAN
1. Latar Belakang
Glenegals Disaster Relief Service (GRDS), India meluncurkan cabang Tamil Nadu (Negara
Bagian di India) beberapa tahun yang lalu. Baru-baru ini Tamil Nadu terkena dampak Topan
Gaja. Gaja adalah topan bernama kelima dari musim siklon Samudra Hindia Utara 2018 yang
mempengaruhi sebagian besar tempat di Tamil Nadu, India selama bulan November 2018.
GRDS menghadapi kelangkaan dana, ketika diperlukan untuk merawat para korban Gaja. Oleh
karena itu, pihaknya telah merencanakan kampanye penggalangan dana untuk melayani para
korban. Program ini bertujuan untuk mengumpulkan sekitar 100,000.00 USD dan kampanye ini
dipromosikan dengan tag line "Be a Hero by Funding". Tim pengumpul bertujuan untuk
menindaklanjuti dengan calon donatur yang ada dengan itu, di samping donatur baru yang
tertarik.
Badan Amal adalah Organisasi Nirlaba yang berfokus pada masalah kemanusiaan dan sosial
yang mereka lakukan amal untuk membantu orang lain. Kontribusi amal termasuk hadiah uang
tunai dan non-tunai. Merujuk dari The National Center for Charitable Statistics, yang
menyatakan di AS, memperoleh total pendapatan $1,50 triliun dan total $1,49 triliun yang
dilaporkan oleh badan amal publik pada tahun 2011. Pemberian amal telah berkembang tren
sejak 1975 dan pada 2014 . [1]
Menurut Sargeant (1999), Karakteristik individu dari donor potensial memiliki efek
substansial pada perilaku memberi mereka. Demografis dan sosial ekonomi profil individu
terkait langsung dengan niat mereka untuk mendukung organisasi nirlaba, serta tingkat
dukungan yang diberikan. Misalnya, individu yang lebih muda cenderung tidak menyumbang
ke organisasi nirlaba yang berpotensi dijelaskan oleh fakta bahwa mereka didorong oleh
konsumsi dan karenanya, lebih suka membeli barang untuk diri mereka sendiri [2]. Selain itu,
faktor-faktor lain adalah mendorong amal adalah sikap terhadap organisasi amal dan data
historis tentang donasi [1]. Tujuan dari penelitian ini adalah untuk menggunakan riwayat donasi
untuk menganalisis apakah donator akan menyumbang atau tidak menggunakan regresi logistik.
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk menerapkan
model yang dibangun untuk memprediksi donator yang paling mungkin menjadi korban topan
Gaja. Dalam himpunan data donasi, ini berisi 3 lembar dalam format excel yaitu himpunan data
5
pelatihan, himpunan data validasi, dan deskripsi data. Data tersebut terdiri dari 27 variabel yang
4849 observasi untuk pelatihan dan 4837 observasi untuk validasi.
Pada tahap pengumpulkan data seringkali terjadi hambatan, salah satu hambatannya yaitu
fenomena missing data atau data hilang. Missing data adalah hilangnya sebagian informasi atau
data pada suatu penelitian. Beberapa hal yang menyebabkan missing data, misalnya dari
peralatan yang tidak berfungsi dengan baik, kekurangan fasilitas, tidak terisinya kuesioner
karena penolakan responden atau responden kesulitan untuk menjawab pertanyaan, kesalahan
dalam pengambilan data, dan lain sebagainya.
Akibat dari adanya missing data adalah pendugaan parameter menjadi tidak efisien. Ukuran
data yang berkurang dapat mengakibatkan kesulitan dalam menganalisis, sehingga hasil yang
didapatkan menjadi tidak valid dan tujuan dari penelitian tidak tercapai. Missing data dapat saja
diabaikan, jika data yang hilang sedikit. Namun apabila missing data berjumlah cukup besar
maka data tersebut tidak dapat diabaikan. Oleh karena itu, perlu dilakukan estimasi untuk
mengisi data yang hilang tersebut agar hasil dari pengolahan data nantinya memiliki hasil yang
maksimum [3].
Beberapa data yang hilang dapat diisi dengan menggunakan beberapa metode. Pada
penelitian ini, penulis akan melakukan penelitian yang berjudul Analisis Perbandingan Mean,
Single dan Multiple Imputation pada Data Histori Donatur Dalam Melakukan Prediksi Donasi
Menggunakan Model Logistic Regression.
2. Rumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan sebelumnya, penelitian ini akan
memanfaatkan data histori donator untuk memprediksi apakah seseorang akan melakukan
donasi atau sebaliknya dengan menggunakan model logistic regression. Namun, pada dataset
yang akan digunakan terdapat beberapa data yang hilang. Oleh karena itu, data tersebut akan
melalui tahap data pre-processing dengan mengisi data-data yang hilang. Pengisian data yang
hilang menggunakan beberapa metode.
3. Tujuan Penelitian
Peneliti akan menganalisis ketepatan dalam melakukan prediksi dengan menggunakan data
yang telah dibersihkan terlebih dahulu menggunakan beberapa metode data imputation.
Penggunaan berbagai metode diterapkan untuk membandingkan hasil akurasi dari masing-
maing data yang telah diimputasi.
6
BAB 2. TINJAUAN PUSTAKA
1. Landasan Teori
A. Data Cleaning
Ada banyak cara untuk memasukkan data, dapat menggunakan mean, listwise, pairwise,
single imputation, multiple imputation, dan sebagainya. Imputasi tunggal (single imputation)
adalah imputasi regresi yang dapat mempertahankan hubungan antara nilai yang hilang dan
variabel lainnya. Beberapa imputasi menyediakan strategi yang berguna untuk menangani
kumpulan data dengan nilai yang hilang. Menurut Rubin's (1987) prosedur imputasi
berganda menggantikan setiap nilai yang hilang dengan satu set nilai yang masuk akal yang
mewakili ketidakpastian tentang nilai yang tepat untuk diperhitungkan [4].
B. Prediction Modelling
Pemodelan prediktif adalah metode untuk memprediksi masa depan dan untuk
melakukan pengambilan keputusan dengan cepat di tingkat pelanggan, klien, dan lainnya.
Untuk memprediksi masa depan, data disambung menjadi dua bagian yaitu pelatihan atau
validasi dan set pengujian. Data pelatihan digunakan untuk pemodelan dan membandingkan
juga memilih validasi dan diuji pada set pengujian di masa mendatan [5].
Saat memprediksi model, ROC adalah metode untuk membantu akurasi pengujian.
Kurva ROC sering diplot dengan menggunakan true positive rate (TPR) terhadap false
positive rate (FPR) untuk titik potong yang berbeda dari tes diagnostik, mulai dari koordinat
(0, 0) dan berakhir pada koordinat (1, 1). FPR (1 – spesifisitas) diwakili oleh sumbu x dan
TPR (sensitivitas) diwakili oleh sumbu y. Dengan demikian, kurva ROC adalah plot
sensitivitas tes vs. (1-spesifisitas) juga. Interpretasi kurva ROC mirip dengan satu titik di
ruang ROC, semakin dekat titik pada kurva ROC ke koordinat ideal, semakin akurat
pengujiannya [6].
7
C. Logistic Regression
Regresi logistik digunakan untuk mendapatkan odds ratio dengan adanya lebih dari satu
variabel penjelas. Regresi logistik bekerja sangat mirip dengan regresi linier, tetapi dengan
variabel respons binomial. Masalah utama saat membangun model logistik adalah memilih
variabel mana yang akan disertakan. Para peneliti biasanya mengumpulkan sebanyak
mungkin variabel dalam instrumen penelitian mereka, kemudian memasukkan semuanya ke
dalam model dan mencoba menemukan sesuatu yang "signifikan". Pendekatan ini
meningkatkan munculnya dua situasi. Pertama, satu atau lebih variabel secara statistik
"signifikan", tetapi peneliti tidak memiliki teori untuk menghubungkan variabel "signifikan"
dengan model peristiwa yang menarik [7].
2. Kerangka Pikir
Data yang diberikan diperoleh dari Gujarat. Data Tamil Nadu diberikan untuk menerapkan model yang
dibangun untuk memprediksi donator yang paling mungkin menjadi korban topan Gaja. Dalam himpunan data
donasi, ini berisi 3 lembar dalam format excel yaitu himpunan data pelatihan, himpunan data validasi, dan
deskripsi data. Data tersebut terdiri dari 27 variabel yang 4849 observasi untuk pelatihan dan 4837 observasi
untuk validasi.
Data yang didapatkan tidak sepenuhnya sempurna, melainkan perlu dilakukan tahap
pembersihan terhadap data yang hilang
8
learning pribadi, dan di antara variabel variabel independen yang
techniques mekanisme yang tersedia, paling signifikan.
prediksi yang berdasarkan model Berdasarkan kriteria
andal terkadang prediksi yang evaluasi, dengan
tidak dikembangkan. menggunakan kumpulan
memberikan Multiple Linear data uji, ANN
hasil yang Regression (MLR) mengungguli SVR dan
mudah dan teknik MLR dalam memprediksi
dipahami. pembelajaran jumlah pemberian amal
mesin, termasuk di tahun berikutnya
Artificial Neural
Network (ANN)
dan Support Vector
Regression (SVR)
digunakan untuk
mengembangkan
model prediktif.
2 Predicting Penelitian yang mengevaluasi tiga Hasilnya menunjukkan
donation dilakukan untuk teknik pengurangan bahwa kombinasi
behavior: menguji model dimensi yang dekomposisi nilai tunggal
Acquisition dimana data yan berbeda (yaitu, dan regresi logistik
modeling in digunakan dekomposisi nilai mengungguli semua
the nonprofit menggunakan tunggal, faktorisasi metodologi analitik
sector using nilai data matriks non- lainnya dengan area di
Facebook Facebook negatif, dan alokasi bawah karakteristik
data dalam Dirichlet laten) operasi penerima 0,72
memprediksi melalui tujuh dan peningkatan desil
perilaku donasi teknik klasifikasi teratas 3,33. Hasilnya
pertama kali. (yaitu, regresi menunjukkan bahwa
Lebih khusus logistik, k-tetangga halaman Facebook dan
lagi, kami terdekat, bagged kategori halaman
memberikan tree, random forest, Facebook adalah tipe
bukti bahwa adaboost, data yang paling penting.
9
data Facebook peningkatan Prediktor yang paling
dapat gradien ekstrem, penting adalah dimensi
digunakan dan jaringan saraf yang berkaitan dengan
sebagai sumber tiruan) usia, pendidikan, tempat
data berharga menggunakan lima tinggal, materialisme,
bagi organisasi kali validasi silang konsumsi yang
nirlaba dalam dua kali lipat bertanggung jawab, dan
memperoleh minat pada organisasi
donor baru. nirlaba.
3 Missing data Complete case Pada artikel Penggunaan mputasi
imputation: analysis tersebut dilakukan dengan mean, median
focusing on biasanya penerapan single dan modus dianggap
single digunakan imputation untuk sederhana tetapi pada
imputation untuk menanagi data-data complete case analysis
menangani yang hilang. hal tersebut dapat
missing data menimbulkan bias pada
namun, metode mean dan deviasi dan
ini dapat mengabaikan hubungan
menimbulkan dengan variabel lain.
bias dan Imputasi regresi dapat
beberapa menjaga hubungan antara
informasi yang nilai yang hilang dan
berguna akan variabel lainnya. Ada
dihilangkan dari banyak metode canggih
analisis. Oleh yang ada untuk
karena itu, menangani nilai yang
banyak metode hilang dalam data
imputasi longitudinal.
dikembangkan
untuk membuat
gap end.
4 Estimasi Terdapatnya Metode yang Hasil perbandingan
Missing Data beberapa data digunakan untuk menunjukkan bahwa
10
dengan yang hilang mengatasi missing persamaan linear
Metode dimana perlu data pada artikel ini berganda dengan missing
Multivariate dilakukan Multivariate data yang diestimasi
Imputation by pemulihan Imputation by metode MICE mendekati
Chained untuk Chained Equation persamaan liner berganda
Equations mendapatkan (MICE). Penerapan yang disusun dari data
(Mice) untuk hasil yag baik MICE terdiri dari awal, dengan demikian
Membentuk terhadap tiga langkah utama, estimasi missing data
Persamaan pengolahan data yaitu imputasi, dengan metode MICE
Regresi nantinya. analisis, dan dapat dikatakan baik
Linear pooling. untuk digunakan.
Berganda
11
dikenal dengan
imputasi.
12
4. Roadmap Penelitian
13
BAB 3. METODE PENELITIAN
1. Tahap Penelitian
Berikut ialah gambaran terkait tahapan pada penelitian ini:
2. Lokasi Penelitian
Penelitian ini dilakukan di Laboratorium Riset Fakultas Ilmu Komputer dengan mengambil
data pada website Kaggle.com.
3. Model Penelitian
Model yang digunakan pada penelitian ini yaitu model prediksi logistic regression.
4. Rancangan Penelitian
Rancangan penelitian ini yang dilakukan menggunakan beberapa komponen dari
Komponen Perangkat Lunak 9software) dan perangkat keras (Hargdware)
5. Teknik Pengumpulan Data
Jenis penelitian yang kami lakukan adalah penelitian pustaka, dimana penelitian ini
dilakukan dengan mengambil beberapa buku rujukan mengenai definisi dan konsep, serta
dari berbagai jurnal di internet yang berhubungan dengan materi, terkait pelaksanaan
pengumpulan data tersebut.
14
6. Susunan Organisasi Peneliti/Pelaksana dan Pembagian Tugas
Tabel 2. Susunan Organisasi
Nama/NIDN Alokasi Uraian Tugas
Pendidikan Terakhir & Waktu
Kepakaran (jam/pekan)
Tim Dosen Peneliti
Ketua Peneliti: 10 Tugas Umum:
Sitti Rahmah Jabir, - Mengkoordinir penelitian secara keseluruhan
S.M., M.Sc., MTA - Mengkoordinasikan pengumpulan data
NIDN: 0918109501 Tugas khusus:
S2 Data Science and - Membuat desain konseptual penelitian
Business Analytics - Menyiapkan rancangan penelitian
- Melakukan data pre-processing
Kepakaran: - Melakukan prediksi menggunakan model logistic
Data Mining & regression
Business Intelligence
Anggota Peneliti: 8 Tugas Umum:
Ir. Huzain Azis, - Mengkoordinir pelaksanaan penelitian secara
S.Kom., M.Cs., MTA keseluruhan
NIDN: 0920098801 - Mengkoordinir pengumpulan data
S2 Ilmu Komputer Tugas khusus:
- Mendistribusikan tugas kepada anggota peneliti
- Membantu melakukan data pre-preprocessing
- Membantu membandingkan hasil imputasi
- Membantu melakukan prediksi
Mahasiswa yang terlibat dalam penelitian
Mahasiswa S1 10 Tugas Umum:
Muh. Acqmal Fadhilla - Membantu jalannya penelitian secara keseluruhan
Latief Tugas Khusus:
NIM: 130 2020 0061 - Melakukan pengumpulan data
- Melakukan dokumentasi terkait hasil pengolahan
data
15
- Membantu menyiapkan data untuk penyusunan
laporan dan penyusunan artikel
Mahasiswa S1 10 Tugas Umum:
Muhammad Fahmi - Membantu jalannya penelitian secara keseluruhan
NIM: 130 2019 0019 Tugas Khusus:
- Melakukan pengumpulan data sekunder
- Melakukan ekperimen terhadap imputasi data
- Melakukan data eksplorasi
16
BAB 4. LUARAN DAN TARGET CAPAIAN
Layanan
Tambahan
1 Publikasi di Tidak ada
jurnal
internasional
2 Hak kekayaan Draf hakcipta.dgip.go.id.
intelektual
17
BAB 5. BIAYA DAN JADWAL PENELITIAN
1. Anggaran Biaya
Ringkasan Anggaran Biaya Penelitian Dosen Pemula yang diusulkan dapat dilihat pada
Tabel 4.
Tabel 4. Anggara Biaya PDP
No. Jenis Pengeluaran Biaya yang Diusulkan (Rp)
1. Gaji dan upah Rp. 3.000.000
2. Bahan habis pakai dan peralatan Rp. 4.000.000
3. Perjalanan dan lain-lain Rp. 3.000.000
Jumlah Rp. 10.000.000
2. Jadwal Penelitian
Tabel 5. Jadwal Penelitian
No. Jadwal Penelitian Bulan
(ke)
1 2 3 4 5 6 7 8
1 Pengajual Proposal
Penelitian
2 Penelusuran
Dokumen Sumber
3 Pengamnbilan Data
4 Ekplorasi Data
5 Data Pre-processing
6 Prediksi Data
7 Penyempurnaan
laporan
8 Seminar
18
Daftar Pustaka
[1] L. Farrorkhvar, A. Ansari and B. Kamali, "Predictive Models For Charitable Giving Using
Machine Learning Techniques," PLOS ONE, vol. XIII, no. 10, pp. 1-14, 2018.
[2] L. Schetgen, "Predicting Donation Behavior: Acquisition Modeling In The Nonprofit Sector
Based On Facebook Data," 2018.
[3] I. Eldiyana, E. Nurlaelah and N. Herrhyanto, "Estimation of Missing Data Using Multivariate
Imputation by Chained Equations Method to Form Multiple Linear Regression Equations,"
vol. IX, no. 1, pp. 96-107, 2021.
[4] Y. C. Yuan, " Multiple Imputation for Missing Data: Concepts and New Development," 2016.
[5] L. Rothman, "Predictive Modeling with SAS," 2006. [Online]. Available:
https://www.sas.com/content/dam/SAS/en_ca/User%20Group%20Presentations/Health-User-
Groups/Rothman-PredictiveModelling-Apr2015.pdf. [Accessed 7 April 2019].
[6] W. Zhu, N. Zeng and N. Wang, "Sensitivity, Specificity, Accuracy, Associated Confidence
Interval and ROC Analysis with Practical SAS® Implementations," Health Care and Life
Sciences, 2010.
[7] S. Sperandei, "Understanding Logistic Regression Analysis," Biochemia Medica, vol. XXIV,
no. 1, pp. 12-18, 2014.
19
Lampiran 1. Halaman Sampul PDP
20
Lampiran 2. Halaman Pengesahan PDP
21
Lampiran 3. Justifikasi Anggaran Penelitian
1. Honor
Honor per
Honor/Jam Waktu
Honor Minggu Tahun (Rp)
(Rp) (jam/minggu)
Tahun ke-1
Ketua Tim Pengusul 2000 15 jam 40 minggu 1.200.000
Anggota Pengusul 1 1500 15 jam 40 minggu 900.000
Anggota mahasiswa 1 1200 5 jam 40 minggu 240.000
Anggota mahasiswa 2 1200 5 jam 40 minggu 240.000
Subtotal (Rp) 2.580.000
2. Peralatan Penunjang dan Bahan Habis Pakai
Biaya Per
Justifikasi Harga Satuan
Material Kuantitas tahun (Rp)
pemakaian (Rp)
ATK Penyelenggara
Penyusunan 55.000 55.000
1. Kertas HVS (A4) 1 Rim
Laporan
Penyusunan 65.000 65.000
2. Kertas HVS (F4) 1 Rim
Laporan
Penyusunan 25.000 250.000
3. Modul / makalah 10 orang
Laporan
Penyusunan 18.000 180.000
4. Map Plastik berkas 10 Buah
Laporan
Penyusunan 50.000 50.000
5. Pulpen 1 Dos
Laporan
Penyusunan 10.000 120.000
6. Notebook 1 Lusin
Laporan
Penyusunan 105.000 210.000
7. Tinta Printer/Inkjet 2 Botol
Laporan
Penyusunan 134.000 134.000
8. Catrik Hitam 1 Buah
Laporan
22
Penyusunan 150.000 150.000
9. Catrik Warna 1 Buah
Laporan
23
Lampiran 4. Susunan Organisasi Tim Peneliti dan Uraian Tugas
24
- Membantu menyiapkan data untuk penyusunan
laporan dan penyusunan artikel
Mahasiswa S1 10 Tugas Umum:
Muhammad Fahmi - Membantu jalannya penelitian secara keseluruhan
NIM: 130 2019 0019 Tugas Khusus:
- Melakukan pengumpulan data sekunder
- Melakukan ekperimen terhadap imputasi data
- Melakukan data eksplorasi
25
Lampiran 5. Biodata Ketua dan Anggota Tim Pengusul
5. NIDN 0918109501
7. E-Mail rahmahjabir@umi.ac.id
1. Data Mining
12. Mata Kuliah yang Diampu
2. Business Intelligence
B. Riwayat Pendidikan
S-1 S-2
26
Judul Analisis Faktor-Faktor Adopsi Analysis of Predicted Food
Skripsi/Tesis/Disertasi Tcash Dengan Menggunakan and Service Rating by
Technology Acceptance Model Millennials Using Machine
(TAM)(Studi Kasus di Kota Learning Models on
Bandung) Restaurant and Customer
Profile Data For Segmenting
Approaches
5. NIDN 0920098801
7. E-Mail Huzain.azis@umi.ac.id
1. Datamining
12. Mata Kuliah yang Diampu
2. Multimedia
B. Riwayat Pendidikan
S-1 S-2
28
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat dipertanggung
jawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai ketidak-sesuaian dengan
kenyataan, saya sanggup menerima sanksi. Demikian biodata ini saya buat dengan sebenar-
benarnya. Surat pernyataan ini dibuat untuk digunakan sebagaimana mestinya.
29
Lampiran 6. Surat Pernyataan Ketua Pengusul
30
Lampiran 7. Format Penilaian Proposal Penelitian Dosen Pemula (PDP)
Makassar, ………………
Penilai,
Tanda tangan
( …………………….)
31
Lampiran 8. Format Catatan Harian (Logbook)
Keterangan: hasil yang dicapai pada setiap kegiatan (foto, grafik, tabel,
catatan,dokumen, data dan sebagainya) dilampirkan
32