Statistik 2

Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 DOI: 10.
5923 /
j.statistics.20201005.02
Determinan Kematian Balita dari Data KDHS: Hutan

Bertahan Hidup Acak yang Seimbang
(BRSF) Teknik
Hellen Wanjiru Waititu 1, *, Joseph K. Arap Koskei 1, Nelson Owuor Onyango 2
1 Sekolah Ilmu Fisika dan Biologi, Universitas Moi, Eldoret, Kenya

2 Sekolah Matematika, Universitas Nairobi, Nairobi, Kenya
Abstrak Penelitian ini bertujuan untuk mengidentifikasi determinan kematian Balita (U5CM) berdasarkan Survei Demografi dan Kesehatan Kenya
(KDHS, 2014). Salah satu tantangan utama dengan kumpulan data Survei Demografi dan Kesehatan melibatkan ketidakseimbangan yang ekstrim antara
kelas kematian dan non-kematian. Dalam penelitian khusus ini, hanya 6,4% anak yang mengalami kematian balita sedangkan 94,6% yang bertahan
hidup lebih dari lima tahun. Untuk menetapkan determinan U5CM, kami memilih untuk menangani ketidakseimbangan kelas menggunakan empat teknik
penyeimbangan yang berbeda: Teknik Under-sampling Random, Random Over-sampling, Both-sampling, dan Synthetic Minority Over-sampling. Kami
kemudian melakukan seleksi variabel menggunakan Random Survival Forests mengikuti empat teknik. Variabel yang dipilih dari masing-masing empat
dataset kemudian digunakan dalam regresi Cox-PH untuk menentukan pengaruh kovariat terpilih terhadap kematian anak, setelah melakukan diagnostik
model yang sesuai. Setelah dilakukan analisis, variabel yang menyebabkan peningkatan bahaya kematian anak antara lain V206 (Jumlah anak yang
meninggal), V207 (Jumlah anak perempuan yang meninggal), V203 (Jumlah anak perempuan yang tinggal di rumah), V218 (Jumlah anak yang ada),
V238 (Jumlah persalinan dalam 3 tahun terakhir), HW72 (Berat badan untuk standar deviasi tinggi) dan interaksi antara B1 (Bulan Anak Lahir) dan V206.
Berdasarkan indeks pemilihan model, skema under-sampling balancing berkinerja baik untuk identifikasi determinan U5CM. Dengan mengelompokkan
variabel-variabel tersebut, penelitian ini mengidentifikasi karakteristik lahir anak (seperti umur saat lahir),
Kata kunci Kematian balita, Balanced Random Survival Forests, Ketidakseimbangan Kelas dalam data, regresi Cox-PH dalam analisis Survival
kelompok non-mortalitas dari data KDHS 2014. Kelompok kematian merupakan
1. Perkenalan kelas yang sangat minoritas (kurang dari 7%) dari seluruh populasi, sedangkan
non-mortalitas merupakan kelas mayoritas. Klasifikasi yang tidak seimbang
1.1. Latar Belakang adalah masalah umum dengan sebagian besar kumpulan data termasuk data
kematian, data penipuan, deteksi penipuan, prediksi klaim, prediksi default,
Keinginan untuk memahami determinan dari Under 5 Child Mortality
deteksi spam, dan lain-lain. Penanganan klasifikasi yang tidak seimbang telah
(U5CM) merupakan aspek penelitian yang sangat penting, seiring dengan
menjadi terkenal dalam banyak penelitian ([1], [2], [3], [4], [5]).
tujuan negara untuk mencapai Millennium Development Goals (MDG 2015
- 2030). Program Survei Demografi dan Kesehatan (DHS) sangat berperan
dalam memperoleh dan menyebarkan data perwakilan nasional yang
Data KDHS dikaitkan dengan 1.099 variabel dan
otentik tentang keluarga berencana, kesuburan, kesehatan ibu dan anak,
20.964 baris data. Karena data berdimensi tinggi, seseorang perlu
di antara masalah kesehatan lainnya. Survei DHS terbaru yang dilakukan
mengidentifikasi teknik pemilihan variabel yang efektif untuk menangani
di Kenya adalah KDHS
masalah seperti untuk mengidentifikasi determinan kematian anak.
Teknik pembelajaran mesin (yang tidak memerlukan asumsi distribusi
2014.
pada data) seperti Random Survival Forests, dukungan mesin vektor
Penelitian ini bertujuan untuk mengidentifikasi determinan U5CM di Kenya.
antara lain telah menerima aplikasi yang luas dalam studi yang
Perbandingan harus dibuat antara kematian dan
melibatkan dataset dimensi tinggi ([6], [7], [8], [9], [10], [11], [12]). Teknik
pembelajaran mesin ini berguna saat menangani masalah seperti
* Penulis yang sesuai:
hwaititu@cuea.edu (Hellen Wanjiru Waititu) imputasi data yang hilang, ketidakseimbangan klasifikasi, dan pemilihan
Diterima: 11 Sep 2020; Diterima: 30 Sep 2020; Diterbitkan: 15 Oktober 2020 Diterbitkan online variabel.
di http://journal.sapub.org/statistics
Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 119
Selain itu, data DHS sering dikaitkan dengan masalah data yang hilang. Ini sering menjadi sangat tidak seimbang dengan kelas kematian yang memiliki 871
menjadi salah satu tugas analisis data utama sebelum menjalankan model yang pengamatan, merupakan 4% dari keseluruhan data sedangkan kelas mayoritas
diinginkan. Dalam hal ini, dilakukan beberapa imputasi dengan menggunakan algoritma memiliki 20.093 pengamatan merupakan 96%. Untuk analisis ini, kami memilih
RF, sebelum dilanjutkan dengan klasifikasi RSF. Namun dalam studi ini, kami kumpulan data Nairobi hanya dari data KDHS (2014). Kovariat yang berbeda
membahas lebih banyak tentang penanganan tantangan klasifikasi tidak seimbang antara lain wilayah, tempat tinggal, jenis kelamin, tingkat pendidikan, indeks
dalam data kematian. kekayaan, antara lain ditemukan juga memiliki ketimpangan kelas yang tinggi
(antara survivor dan non survivor), dengan ukuran kelas minoritas berkisar
Bagian selanjutnya dari makalah ini adalah sebagai berikut: Bagian 2 antara 3% dan 6%.
membahas metodologi yang digunakan dalam penelitian ini, mulai dari
deskripsi data, analisis data eksplorasi, efek ketidakseimbangan data, teori di Tujuan dari penelitian ini adalah untuk menemukan cara yang efektif dalam
balik Random Survival Forests, struktur COX- Model PH digunakan, dan menerapkan teknik pemilihan variabel yang disebut Random Survival Forest (RSF),
terakhir kriteria pemilihan model menggunakan statistik konkordansi. Bagian 3 untuk menganalisis data dengan ketidakseimbangan. Data KDHS merupakan data
merangkum hasil penelitian baik dari pemilihan variabel menggunakan RSF survei nasional yang diklasifikasikan menjadi 8 wilayah yang merupakan bekas
hingga kecocokan Cox-PH. Terakhir, bagian 4 menawarkan diskusi tentang provinsi di Kenya. Untuk pekerjaan ini, kami menganalisis data hanya untuk wilayah
hasil kami terhadap penelitian lain yang sedang berlangsung tentang Nairobi, sebagai sistem perkotaan yang unik di Kenya. Ini adalah wilayah metropolitan
determinan U5CM. dengan fasilitas dan akses kesehatan yang lebih baik, sementara juga memiliki tingkat
kesenjangan sosial ekonomi yang tinggi di antara penduduk. Nairobi menjadi tuan
rumah beberapa pemukiman slam terbesar di dunia termasuk Kibera, Mukuru,
Mathare dan Kangemi. Namun, mayoritas masyarakat Nairobians berada pada
2. Metodologi golongan menengah ke atas berdasarkan klasifikasi status sosial ekonomi yang
2.1. Deskripsi Data dan Persetujuan Etis menikmati akses kesehatan dan gizi yang memadai bagi anak-anaknya.
Data untuk penelitian ini diambil dari data Survei Demografi dan
Kesehatan Kenya (KDHS) 2014 [13]. Ini adalah Survei Demografi dan
Kesehatan (DHS) keenam yang dilakukan di Kenya sejak 1989. KDHS
Dalam data KDHS 2014, wilayah Nairobi sendiri dikaitkan dengan 788
adalah penelitian nasional yang dilakukan setiap lima tahun dengan tujuan
kovariat dan 532 observasi. Beberapa variabel dalam subset data ini
mengumpulkan berbagai data dengan minat yang kuat pada indikator
ditemukan memiliki 100% informasi yang hilang dan yang lainnya sangat
kesehatan reproduksi, kesuburan, kematian , kesehatan ibu dan anak,
berkorelasi. Variabel-variabel ini dihapus menyisakan 757 variabel.
nutrisi dan kebiasaan kesehatan yang dilaporkan sendiri di antara orang
Beberapa variabel yang dihapus dari data Nairobi antara lain variabel
dewasa [14]. Merupakan data survei sampel rumah tangga dengan
yang terkait dengan pengobatan demam yang saat ini sudah tidak
representasi nasional dimana rumah tangga dipilih secara acak dari
digunakan, misalnya ML15A (waktu individu memulai obat malaria),
kerangka sampling Badan Pusat Statistik (KNBS).
ML15B (hari ketika anak mengonsumsi obat malaria), ML15C (pertama
sumber fansidar), ML23C (sumber pertama anti malaria lainnya) antara
lain. Variabel lain seperti V000 (kode negara), V024 (De facto region of
Prosedur survei, instrumen, dan metode pengambilan sampel
residence), antara lain juga dihapus dari kumpulan data Nairobi.
yang digunakan dalam KDHS 2014 memperoleh rekomendasi etis
dari Institutional Review Board of Opinion Research Corporation
(ORC) Macro International Incorporated, sebuah perusahaan
kesehatan, demografis, riset pasar, dan konsultasi yang berlokasi di
Data ditemukan memiliki tingkat informasi yang hilang. Algoritme
New Jersey, AS. Kami mencari pendaftaran resmi di situs web DHS
"missForest," yang merupakan algoritme berbasis hutan acak untuk
dan mendapat izin untuk menggunakan data KDHS 2014. Data
imputasi data yang hilang [15] diterapkan untuk menangani data yang
diunduh dalam format SPSS dan terdiri dari 1.099 variabel dan
hilang.
20.964 observasi. Menggunakan paket asing, data diimpor ke
Dataset Nairobi sama-sama menunjukkan ketidakseimbangan kelas yang tinggi.
perangkat lunak R versi 3.6 untuk analisis. Variabel dengan 100%
Ketidakseimbangan antara kelas mortalitas dan survivor ini secara jelas ditunjukkan pada
observasi yang hilang dan yang berkorelasi dihapus dari data yang
Tabel 1 (a) dengan representasi kelas minoritas 6,4% (kelas mortalitas). Demikian pula,
mengurangi jumlah variabel menjadi 786.
variabel dalam data (kovariat) menunjukkan ketidakseimbangan yang tinggi pada kelas
mortalitas. Tabel 1 (b) menunjukkan ketidakseimbangan antara kelas kematian dan yang
selamat di salah satu kovariat - jenis kelamin anak.
Tabel 1 (a). Ketidakseimbangan dalam data wilayah KDHS 2014 Nairobi
Status Total Persentase

2.2. Eksplorasi dan Analisis Data
Korban (Kasus yang disensor) 498 93,6%
Data dieksplorasi dan dianalisis menggunakan software R. Ini
Kematian (Jumlah Peristiwa yang diamati) Jumlah 34 6,4%
melibatkan meringkas dan memvisualisasikan karakteristik variabel
total 532 100%
dalam dataset. Seluruh set data ditemukan
120 Hellen Wanjiru Waititu dkk .: Penentu Kematian Balita dari Data KDHS: Teknik
ABalanced Random Survival Forests (BRSF)
Tabel 1 (b). Ketidakseimbangan dalam data KDHS 2014 wilayah Nairobi oleh
efek dari ukuran ini. Namun, ketika data seimbang, tingkat akurasi cenderung
Kovariat (Seks Anak)
menurun [25]. Hal ini dikaitkan dengan fakta bahwa data yang seimbang
Status / Jenis Kelamin Anak Perempuan Pria Total
mengurangi ukuran set pelatihan yang menyebabkan kemunduran model melalui
Korban (Kasus yang disensor) 254 244 498 penghilangan kasus yang ditemukan ke set pengujian.
Kematian (Jumlah Peristiwa yang diamati) Jumlah 17 17 34
Total 271 261 532 Algoritme pembelajaran mesin bertujuan untuk meminimalkan tingkat kesalahan
Persentase Peristiwa 6,3% 6,5% 6,4% secara keseluruhan daripada memperhatikan kelas minoritas. Oleh karena itu,
mereka tidak membuat prediksi yang akurat untuk kelas minoritas jika mereka tidak
Ketidakseimbangan seperti itu dapat menyebabkan kurangnya informasi dan kurang mendapatkan informasi yang cukup.
terwakili dalam kelas kematian yang merupakan minat besar dalam penelaahan kita. Hal ini
pada gilirannya dapat mengarah pada kesimpulan yang salah. [25] dalam penelitiannya menunjukkan masalah yang dihadapi ketika data
Data yang tidak seimbang telah terlihat sangat menghambat kinerja ketidakseimbangan digunakan dalam algoritma data mining menemukan bahwa
klasifikasi algoritma pembelajaran, termasuk Random Forests dan metode algoritma cenderung merosot dengan menempatkan semua kasus ke kelas mayoritas
ensemble lainnya, karena pendapat mereka ditentukan dari kesalahan ketika data sangat tidak seimbang dan masih mencapai skor akurasi yang tinggi.
klasifikasi [16]. Dalam set data yang tidak seimbang, pengklasifikasi sering Karenanya, mengevaluasi kinerja algoritme dengan menggunakan akurasi prediksi saja
menunjukkan perilaku bias yang mendukung kelas mayoritas dan tidak tepat ketika data tidak seimbang.
menampilkan kelas minoritas dengan ringan [17]. Oleh karena itu, kami
tertarik pada konstruksi pengklasifikasi yang condong ke kelas minoritas, Untuk mengatasi masalah ini, penting ketika bekerja dengan
dengan tetap menjaga ketepatan kelas mayoritas. algoritma pembelajaran mesin untuk bekerja dengan klasifikasi
seimbang. Namun, ini dalam banyak kasus terlewatkan. Oleh karena
itu, kami tertarik pada konstruksi pengklasifikasi yang condong ke
kelas minoritas, dengan tetap menjaga ketepatan kelas mayoritas.
2.3. Ketidakseimbangan dan Pengaruhnya dalam Kumpulan Data
Sebuah dataset dikatakan tidak seimbang secara teknis jika distribusi

kelasnya tidak sama. Namun, ketika ada disproporsi yang signifikan, atau 2.4. Teknik Penyeimbangan Data
dalam beberapa kasus ekstrim, di antara jumlah contoh dari setiap kelas
Berbagai teknik telah disarankan untuk memecahkan masalah yang terkait
masalah, maka dataset dikatakan tidak seimbang [18]. Misalnya, dalam
dengan ketidakseimbangan kelas. Kita dapat mengelompokkan teknik-teknik ini
kohort yang terdiri dari 1000 anak, seringkali kasus bahwa kelompok
menjadi empat kategori, tergantung bagaimana teknik tersebut menangani
kematian selama periode penelitian terdiri dari kurang dari 50 anak (mewakili
ketidakseimbangan. Kategori tersebut mencakup level data (atau teknik eksternal /
kurang dari 5%) atau kurang, sehingga menyisakan 95% plus sebagai
re-sampling), teknik level algoritme (atau internal), teknik pembelajaran sensitif
kelompok non-kematian. .
biaya dan metode berbasis ansambel. Tidak ada arahan terbuka yang
menunjukkan strategi terbaik untuk digunakan. Namun, banyak penelitian telah
Kelas data yang tidak seimbang adalah umum dalam banyak situasi
menunjukkan bahwa, teknik eksternal sangat meningkatkan kinerja akhir klasifikasi
kehidupan nyata termasuk data kematian di mana jumlah korban selamat
dibandingkan dengan kumpulan data yang tidak diproses sebelumnya untuk
melebihi angka kematian, catatan data diagnosis penyakit langka di mana
berbagai jenis pengklasifikasi [18]. Selain itu, teknik pengambilan sampel ulang
sejumlah besar pasien tidak memiliki penyakit, deteksi penipuan, dan lain-lain.
tidak bergantung pada pengklasifikasi, dapat dengan mudah diterapkan untuk
Dalam sebagian besar situasi data yang tidak seimbang, kelas yang kurang
masalah apa pun dan tidak memerlukan adaptasi algoritme apa pun ke kumpulan
terwakili adalah yang paling menarik, karena meskipun jarang, kelas minoritas
data [26]. Mereka juga mampu secara efektif menyeimbangkan dataset sehingga
dapat membawa pengetahuan penting dan berguna yang diperlukan dalam
menghasilkan set pelatihan yang sesuai untuk kalibrasi algoritma pembelajaran
prediksi.
mesin yang memuaskan [27]. [28], [29] dan [16] telah membuktikan keefektifan
distribusi kelas keseimbangan menggunakan teknik tingkat data.
Ketika kumpulan data tidak seimbang dan satu kelas mendominasi yang lain,
algoritme pembelajaran mesin seperti hutan acak antara lain memiliki masalah
dalam mengklasifikasikan dengan benar. Algoritme sensitif terhadap proporsi
kelas yang berbeda. Mereka sering menunjukkan perilaku bias yang mendukung
Dalam penelitian ini kami menerapkan teknik Data level Preprocessing (atau
kelas mayoritas dan menampilkan kelas minoritas dengan ringan [16], [19]. Hal ini
eksternal). Metode menyeimbangkan kembali ruang sampel dengan tujuan untuk
menyebabkan tingkat kesalahan klasifikasi yang lebih tinggi pada sampel kelas
mengurangi pengaruh distribusi kelas yang tidak seimbang dalam proses
minoritas [20], [21] yang pada gilirannya menghasilkan akurasi prediksi yang
pembelajaran. Teknik tingkat data selanjutnya diklasifikasikan menjadi tiga
lemah dari kelas minoritas dan akurasi prediksi tinggi yang menyesatkan di kelas
kelompok [30] yaitu: metode under-sampling, metode over-sampling dan metode
mayoritas, sebagai hasil dari klasifikasi yang benar [22] , [23], [24]. Dengan
hybrids yang menggabungkan kedua metode sampling. Teknik level data yang
demikian, kinerja algoritma tersebut menurun secara signifikan dalam hal
digunakan dalam penelitian ini adalah:
memprediksi kelas minoritas.
a) Pengambilan sampel secara acak
Banyak algoritme pembelajaran mesin dirancang untuk memaksimalkan akurasi Ini bertujuan untuk menyeimbangkan set data dengan secara acak
secara keseluruhan. Ini bisa menyesatkan dalam set data yang tidak seimbang karena menghilangkan contoh dari kelas mayoritas hingga saat set data seimbang.
kelas minoritas memiliki nilai yang kecil Kelemahan utama dari metode ini adalah adanya
kemungkinan besar untuk membuang data yang berpotensi berguna yang berkaitan titik sampel di sepanjang segmen garis antara dua sampel minoritas
dengan kelas mayoritas yang mengarah pada kemungkinan hilangnya informasi. di ruang fitur.
Di lingkungan R, Paket DMwR [33] dan paket ROSE [34] digunakan untuk
meningkatkan penyeimbangan data. Paket ROSE [34] digunakan untuk
b) Over-sampling acak
meningkatkan penyeimbangan data menggunakan metode under-sampling,
Sementara metode under-sampling melibatkan pengambilan sampel dari over-sampling dan both-sampling. Di sisi lain, paket DMwR [33], membantu
kelompok mayoritas, metode over-sampling menghasilkan sampel baru untuk penyeimbangan data menggunakan SMOTE. Di SMOTE parameter
kelas minoritas. Untuk menyeimbangkan data menggunakan metode ini,
observasi dari kelas minoritas digandakan. Instance baru dibuat dari yang sudah ••••. •••• dan ••••. ••••• masing-masing mengontrol
ada; karena itu pengambilan sampel yang berlebihan tidak menambah informasi jumlah pengambilan sampel berlebih dan pengambilan sampel sedang harus dilakukan.
tetapi meningkatkan bobot kelas minoritas dengan replikasi. Salah satu Jika kumpulan data yang benar-benar seimbang diperlukan, kasus minoritas digandakan
keuntungan dari metode pengambilan sampel yang berlebihan adalah tidak sementara kelas mayoritas dibelah dua.
adanya kehilangan informasi. Namun, karena pengambilan sampel yang Dalam studi ini, kami menggunakan metode under-sampling, over-sampling,
berlebihan hanya membuat salinan yang tepat dari pengamatan kelas minoritas, both-sampling dan SMOTE untuk menyeimbangkan data wilayah Nairobi. Data yang
hal itu meningkatkan kemungkinan pemasangan berlebih karena replikasi. Oleh seimbang dianalisis menggunakan algoritma RSF.
karena itu, meskipun akan ada peningkatan dalam akurasi pelatihan data,
keakuratan data secara keseluruhan mungkin lebih buruk. Selain itu, saat
2.5. Algoritma Hutan Bertahan Hidup Acak
menangani kumpulan data besar yang tidak seimbang,
Dataset KDHS memiliki total 1099 variabel yang berpotensi untuk
memprediksi kematian anak. Setelah beberapa latihan manajemen data,
jumlah kovariat kandidat dikurangi menjadi 757 kovariat yang mungkin.
c) Kedua-pengambilan sampel Sebelum menyesuaikan model tipe regresi untuk memulai latihan
menentukan efek prediktor kematian anak, kami perlu melakukan latihan
Metode ini menggabungkan kedua metode pengambilan sampel berlebih di bawahdan
pemilihan variabel untuk lebih mengurangi variabel penting ke subset
pengambilan sampel dengan melakukan penggantian pengambilan sampel berlebih dengan
pada
variabel penting yang dapat dikelola. Teknik Random Survival Forest,
kelas minoritas sementara kelas mayoritas menjalani pengambilan sampel tanpa
yang dilengkapi dengan intuisi kita tentang kovariat yang masuk akal
penggantian.
untuk kematian anak menghasilkan sekumpulan maksimal 20 kovariat
d) Teknik Synthetic Minority Oversampling (SMOTE). yang berkurang untuk langkah-langkah regresi yang diikuti.
Ini adalah metode hybrid dalam teknik pengambilan sampel ulang di mana
pendekatan under-sampling dan over-sampling digabungkan dengan tujuan untuk
mengatasi kekurangannya. SMOTE telah menjadi salah satu pendekatan paling Algoritma Random Survival Forest dijelaskan sebagai berikut [35]:
menonjol di bidang penyeimbangan data [18]. Ide kunci dalam SMOTE yang diusulkan
oleh [32] adalah untuk menghasilkan sampel baru dari kelas minoritas secara artifisial. Prosedur dimulai dengan menggambar secara acak •••••
Sebuah)
Ini membantu untuk menghindari penyesuaian berlebihan yang disebabkan oleh contoh bootstrap dari data awal yang terdiri dari •
penggandaan ulang instance kelas minoritas. Selain itu, contoh kelas mayoritas kurang sampel. Rata-rata, setiap sampel bootstrap menyisihkan 37% dari data
diambil sampelnya, sehingga menghasilkan kumpulan data yang lebih seimbang. yang disebut data dari tas (OOB) sehubungan dengan sampel bootstrap
dan setiap sampel memiliki •
prediktor.
Pembuatan sampel Sintetis mengambil langkah-langkah berikut: b) Untuk setiap sampel yang diambil, pohon kelangsungan hidup ditanam.
Konstruksi pohon kelangsungan hidup dimulai dengan pemilihan secara
• Pilih minoritas dan minoritasnya secara acak • tetangga kelas minoritas
acak •••• dari • bisa jadi
terdekat. Nilai dari • ditentukan oleh jumlah oversampling yang
prediktor di • untuk berpisah. Nilai dari ••••
dibutuhkan.
tergantung pada jumlah prediktor yang tersedia dan data spesifik.
• Hitung selisih antara vektor minoritas terpilih dan vektor
Semua ••••• sampel bootstrap ditetapkan ke simpul paling atas dari
tetangga terdekatnya.
pohon yang juga disebut sebagai simpul akar. Node root ini kemudian
• Selisih yang didapat kemudian dikalikan dengan angka acak antara 0
dipisahkan menjadi dua node anak yang masing-masing secara
dan 1. Hasilnya ditambahkan ke vektor minoritas terpilih. Dengan
rekursif dipisahkan secara progresif untuk memaksimalkan perbedaan
demikian, titik acak baru ditambahkan di sepanjang garis yang
kelangsungan hidup antara node anak / meningkatkan homogenitas
menghubungkan dua vektor yang dipertimbangkan.
dalam node.
SMOTE dengan demikian diimplementasikan sebagai berikut. Membiarkan • • jadilah c) Pohon tumbuh hingga ukuran penuh hingga titik ketika tidak ada simpul
vektor fitur untuk minoritas yang dipilih dan • • menjadi vektor fitur anak baru yang dapat terbentuk karena kriteria penghentian bahwa simpul
tetangga yang dipilih secara acak. Sintetis baru akhir (simpul paling ekstrim dalam pohon jenuh) harus lebih besar dari
minoritas • • dihasilkan di ruang fitur sebagai: • • = • • + atau sama dengan
• (• • - • •) dimana • ∼ Seragam (0; 1), adalah acak seragam •••••••• acara unik.
variabel. Sebuah titik sembarang dipilih di sepanjang segmen garis antara dua d) Setelah pohon tumbuh dewasa, fungsi bahaya kumulatif (CHF)
titik yang dipertimbangkan. Dengan demikian, data yang dihasilkan secara dihitung serta mean dari semua CHF untuk ••••• pohon. Ini
sintetis dapat diartikan secara acak dilakukan untuk mencapai
ansambel CHF. node homogen di pohon yang terdiri dari kasus dengan
e) Dengan menggunakan data out-of-bag (OOB) saja, kelangsungan hidup ensemble serupa. Kesalahan OOB
dihitung menggunakan yang pertama • pohon, dimana Kriteria pemisahan merupakan salah satu aspek dalam menumbuhkan pohon. Dalam
• = 1,. . . , •••••. penelitian ini, digunakan aturan pemisahan log rank dalam pemisahan node.
2.5.1. Pemisahan Node

2.5.2. Aturan Pemisahan Peringkat Log
Dari algoritma RSF, sebuah hutan berasal dari gambar secara
acak ••••• sampel bootstrap. Setiap sampel bootstrap menjadi root Aturan pemisahan log-rank memisahkan node dengan memilih pemisahan yang
dari setiap pohon di hutan. Ada menghasilkan pengujian log rank terbesar. Uji peringkat log adalah uji statistik yang paling
• prediktor di setiap sampel bootstrap. Dari • sering digunakan untuk membandingkan dua atau lebih sampel secara non-parametrik
prediktor, kami pilih secara acak •••• prediktor untuk pemisahan. Misalkan kita dalam data yang disensor. Asumsi PH adalah persyaratan kunci untuk optimalitas uji
ambil ℎ untuk menjadi ℎ •ℎ node untuk dipecah menjadi dua node anak. Di dalam peringkat log. Untuk pemisahan menggunakan kovariat • dan nilai pemisahannya
node ℎ, biarkan disana ada •
pengamatan masing-masing dengan waktu kelangsungan hidup dilambangkan dengan • •, dan •, kebaikan kecocokan akan diukur menggunakan statistik peringkat log yang
status sensor diberikan oleh
direpresentasikan sebagai;
0 jika individu l disensor •• •
••= •
1 jika individu l mengalami kematian • = 1 • •, 1 -
• ••, 1
• (•, •) =
Dalam data yang disensor kanan, semua detail pengembangan hutan
•
• • , 1 1 -, ••1 • •- • • •
mempertimbangkan hasilnya. Untuk data yang disensor dengan benar, hasilnya adalah •=1•• •• • •- 1 •
waktu bertahan hidup dan status sensor [36].

Persamaan ini mengukur besarnya pemisahan
Informasi pada waktunya • • dapat diringkas seperti pada Tabel 2 di bawah ini.
antara dua simpul anak. Pembagian terbaik diberikan oleh selisih
terbesar antara dua node anak yang diberikan oleh nilai terbesar L
Meja 2. Tabel ringkasan informasi pada saat itu • • (x, c).
RSF memberikan ukuran kepentingan variabel (VIMP) yang sama sekali
Waktu • • Set acara Selamat Set Risiko
nonparametrik. Dalam studi ini, dengan menggunakan model RSF, faktor risiko
Simpul 1 • •, 1 • •, 1 - • •, 1 • •, 1
yang sangat prediktif dari empat dataset yang seimbang diekstraksi. Prediktor
Simpul 2 • •, 2 • •, 2 - • •, 2 • •, 2
penting yang diekstraksi kemudian dipasang dalam model Cox PH untuk
Total •• ••- •• •• memperkirakan pengaruh prediktor yang signifikan secara statistik.
Dimana, • •, • singkatan dari jumlah peristiwa di anak perempuan
simpul • = 1,2 pada waktu • •, • • = • •, 1 + • •, 2 2.6. Menentukan Prediktor Kematian Anak

• •, • mewakili individu yang hidup di simpul anak perempuan
Model Cox ph [38] sering digunakan untuk menentukan
j, • = 1,2 pada waktu • •, • •, 1 adalah jumlah • • ≥ • •, • • ≤ •, secara kolektif pengaruh berbagai faktor risiko pada kelangsungan hidup
dimana • • adalah durasi bertahan hidup • •ℎ durasi individu. Rumus untuk model Cox ph ditulis sebagai dan • • waktu acara yang berbeda di
node ℎ •
• •, 2 adalah jumlah • • ≥ • •, • •> •
ℎ (•, •) = ℎ 0 ( •) exp (• • • •)
• • = • •, 1 + • •, 2 •=1
Dari •••• prediktor di node ℎ, ambil prediktor apapun Rumus ini menampilkan risiko pada waktunya • untuk seorang individu
• ( misalnya usia). Menggunakan prediktor x, temukan nilai pemisahan ditentukan oleh satu set kovariat X. Dalam hal ini, • adalah sekelompok variabel
• ( misalnya dari umur prediktor, nilai pemisahannya bisa 2 tahun). Nilai yang digunakan dalam model untuk memprediksi risiko dari pengamatan yang
pemisahan • dipilih sedemikian rupa sehingga perbedaan kelangsungan diberikan. Dari rumusnya, risiko di
hidup untuk prediktor • antara • ≤ • waktu • adalah produk dari ℎ 0 •, fungsi bahaya dasar
dan •> • dimaksimalkan. • ≤ • memisahkan ke node kiri sementara •> • pergi ke dan exp • • = 1 ( • • • •), eksponensial dengan jumlah dari •
simpul kanan. Perbedaan kelangsungan hidup antara dua node dihitung variabel prediktor di •. fungsi dasar bahaya menunjukkan risiko apa
menggunakan metode pemisahan yang telah ditentukan. Prosedur ini diulangi yang akan terjadi bila tidak ada kovariat.
dengan nilai pemisahan lainnya • sampai kita mendapatkan nilai yang Koefisien • • memberikan besarnya pengaruh kovariat.
menghasilkan perbedaan kelangsungan hidup maksimum dalam prediktor •. Prosedur
yang sama diulangi untuk sisanya •••• - 1
2.6.1. Memeriksa Asumsi COX-PH
prediktor di node ℎ. Ini dilakukan sampai kita mendapatkan prediktor
Untuk penggunaan yang tepat dari model regresi bahaya
• ∗ dan nilai split • ∗ yang menghasilkan perbedaan kelangsungan hidup maksimum
proporsional Cox, ada beberapa asumsi penting yang perlu
antara dua simpul anak [37]. Proses ini diulangi di setiap node. Ketika perbedaan
diperiksa.
kelangsungan hidup maksimum, tidak seperti kasus yang berkaitan dengan
Ini termasuk:
kelangsungan hidup yang didorong oleh pohon. Peningkatan jumlah node
menyebabkan kasus yang berbeda memisahkan lebih banyak. Ini menghasilkan • Asumsi bahaya proporsional. Residu Schoenfeld digunakan
untuk menguji asumsi ini.
• Hubungan fungsional antara log hazard dan kovariat. Sisa 3. Hasil

martingale digunakan untuk menilai asumsi ini.
3.1. Skema Penyeimbangan
• Kemungkinan adanya pencilan atau observasi yang berpengaruh. Deviance Ukuran sampel diperoleh setelah penyeimbangan yang berbeda
residual digunakan untuk memeriksa kemungkinan adanya observasi yang metode ditunjukkan pada Tabel 3 (a) dan 3 (b)
berpengaruh.
Tabel 3 (a). Data wilayah KDHS 2014 yang seimbang
2.7. Kriteria Pemilihan Model
Metode Penyeimbangan Status Total Persentase
Perbandingan akurasi prediksi model yang berbeda dilakukan berdasarkan indeks Disensor 34 50%
konkordansi. Dalam analisis kelangsungan hidup, sepasang pengamatan dikatakan
Di bawah pengambilan sampel Tidak disensor 34 50%
sesuai jika untuk individu yang mendapatkan peristiwa dengan cepat model
Total 68 100%
memprediksi risiko peristiwa yang lebih tinggi. Indeks konkordansi Harrell (C-index)
Disensor 498 50%
[39] digunakan untuk memperkirakan kesalahan prediksi. Ini memperkirakan
kemungkinan bahwa dalam sepasang kasus yang dipilih secara acak, kasus yang Pengambilan sampel berlebihan Tidak disensor 498 50%
memiliki peristiwa pertama kali memiliki hasil prediksi yang lebih buruk. Misalkan kita Total 996 100%
memiliki dua pengamatan yang hasilnya diprediksi. Jika observasi yang diprediksi Disensor 520 52%
memiliki hasil terburuk mengalami suatu peristiwa terlebih dahulu, maka kedua Keduanya pengambilan sampel Tidak disensor 480 48%
observasi tersebut dikatakan sesuai (yaitu memiliki praktik yang sesuai). Perhitungan
Total 1000 100%
tingkat kesalahan konkordansi seperti yang diberikan di bawah ini.
Disensor 68 50%
SMOTE Tidak disensor 68 50%
Total 136 100%

a) Prosedur dimulai dengan membentuk semua pasangan pengamatan
potensial dari seluruh data. Tabel 3 (b). Keseimbangan dalam KDHS 2014 data kelangsungan hidup Nairobi dikelompokkan berdasarkan jenis kelamin anak
b) Pasangan dihilangkan jika:

Status Pria
• Pengamatan dengan durasi hidup yang lebih pendek disensor. Metode Penyeimbangan Perempuan Jumlah
Disensor 17 17 34
• Durasi bertahan hidup sama untuk pasangan tetapi satu atau kedua Di bawah pengambilan sampel Tidak disensor 17 17 34
observasi disensor. Total 34 34 68
c) Setelah penghilangan selesai, kami tetap dengan semua pasangan lainnya yang Disensor 254 244 498
disebut sebagai pasangan yang diizinkan. Pengambilan sampel berlebihan Tidak disensor 242 256 498
Skor nilai 1 diberikan kepada pasangan yang diizinkan jika: Total 496 500 996
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang tidak sama Tidak disensor 275 245 520
sehingga prediksi menjadi lebih buruk untuk pengamatan dengan durasi Keduanya pengambilan sampel Disensor 248 232 480
kelangsungan hidup yang lebih pendek. Total 523 477 1000

• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang seragam
Disensor 28 40 68
sehingga menghasilkan hasil prediksi yang serupa.
SMOTE Tidak disensor 33 35 68
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang sama
Total 61 75 136
mengingat tidak kedua pengamatan tersebut adalah peristiwa, pengamatan dengan
peristiwa menghasilkan hasil prediksi yang lebih buruk.

Metode penyeimbangan data yang berbeda menghasilkan ukuran sampel
Skor nilai 0,5 diberikan kepada pasangan yang diizinkan jika:
yang berbeda. Metode under-sampling menghasilkan
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup tidak sama, hasil
ukuran sampel terkecil 68 dengan kedua kelas kematian dan kelangsungan hidup
prediksinya sama.
masing-masing mengambil 34 observasi. Dua tabel 3 (a) dan 3 (b) menunjukkan
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang sama, hasil
keseimbangan dalam kelas mortalitas dan non mortalitas dalam keseluruhan data serta
prediksi tidak sama.
dalam kovariat sampel.
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang sama
Data yang seimbang kemudian dianalisis untuk pemilihan variabel menggunakan
mengingat tidak kedua pengamatan tersebut adalah peristiwa, hasil prediksi lebih
algoritma RSF. Hasil dari menjalankan algoritma RSF dengan menggunakan data
buruk untuk pengamatan dengan hasil yang disensor.
berimbang diberikan pada Tabel 4.
Jika kita menunjukkan jumlah semua pasangan yang diperbolehkan sebagai
Konkordansi, maka indeks konkordansi, C didefinisikan sebagai 3.2. Pemilihan Variabel Menggunakan RSF setelah Skema
••••••••••• Penyeimbangan Berbeda

•=
••••••••••• Dari hasil pada tabel 4 didapatkan hutan sebanyak 1000 pohon
Tingkat kesalahan, • diberikan oleh • = 1 - • tempat berkembang untuk setiap kumpulan data. Ini dilakukan dengan menggambar 1000
0 ≤ • ≤ 1. • = 0 menunjukkan akurasi yang sempurna saat sampel bootstrap dari masing-masing data awal dengan file
• = 0,5 setara dengan tebakan acak. ukuran sampel diberikan dalam tabel. Ukuran masing-masing bootstrap
sampel yang diambil diberikan sebagai ukuran resample yang digunakan untuk peristiwa, semakin besar jumlah rata-rata node terminal dan semakin kecil tingkat
menumbuhkan pohon pada tabel 4. Sampel bootstrap memiliki ukuran yang berbeda kesalahannya. Metode over-sampling dengan jumlah kejadian terbesar memiliki
tergantung pada ukuran sampel dari data awal dan metode balancing yang digunakan. tingkat kesalahan terkecil sedangkan metode under-sampling dengan jumlah
Masing-masing dari 1000 sampel bootstrap ditetapkan ke root pohon. Untuk kejadian terkecil memiliki tingkat kesalahan tertinggi. Meskipun ukuran sampel
mengembangkan setiap pohon, 28 dari 757 kemungkinan prediktor dipilih secara acak berbeda, namun jumlah variabel pada keempat sampel tersebut tetap sama. Ini
untuk dipisahkan. Node akar kemudian dipecah menjadi dua simpul anak yang menjelaskan mengapa jumlah variabel yang dicoba pada setiap pemisahan dan
masing-masing secara rekursif dipisahkan secara progresif untuk memaksimalkan jumlah titik pemisahan acak sama dalam keempat sampel.
perbedaan kelangsungan hidup antara simpul anak. Pembelahan node berlanjut hingga
setiap pohon tumbuh sempurna. Ini dicapai ketika node paling ekstrim memiliki tidak
kurang dari 15 kejadian berbeda. Artinya, sampel dengan jumlah kejadian lebih banyak Prediktor yang diidentifikasi berdasarkan Balancing Random Survival Forest
akan membentuk pohon yang lebih besar. Oleh karena itu, semakin banyak jumlahnya (BRSF) dengan menggunakan metode balancing yang berbeda disajikan pada tabel 5.
Tabel 4. Penerapan RSF dalam kumpulan data yang seimbang
Deskripsi Under-sampling Over-sampling Both sampling SMOTE
Ukuran sampel 68 996 1000 136
Jumlah kematian 34 498 480 68
Jumlah pohon 1000 1000 1000 1000
Ukuran simpul terminal hutan Rata-rata no. 15 15 15 15
node terminal Jumlah variabel yang dicoba di 2.518 20.461 19.867 5.41
setiap pemisahan 28 28 28 28
Jumlah tidak. variabel 757 757 757 757
Resample size used to grow trees 43 629 632 86
No. of random split points 10 10 10 10
Error rate 13.33% 7.11% 7.5% 13.32%
Table 5. Important variables from the different balanced datasets (selected variables had a variable importance > 0.02. For variable names, refer to the Appendix)
Balancing method
Under- sampling Over-sampling Both sampling SMOTE
Variable Importance Variable Importance Variable Importance Variable Importance
1 B7 0.0029 B7 0.0251 B7 0.0219 V206 0.0153
2 HW72 0.0086 HW71 0.0157 HW70 0.0105 V207 0.0103
3 HW70 0.0079 HW70 0.0124 HW73 0.0103 V219 0.0055
4 B12 0.0076 HW73 0.0111 HW72 0.0091 B7 0.0055
5 V219 0.0069 HW72 0.0111 HW71 0.0086 V218 0.0044
6 HW71 0.0057 B12 0.0075 V206 0.0063 V419 0.0038
7 HW73 0.0052 V206 0.0074 V214 0.0062 V238 0.0037
8 B8 0.0052 V214 0.0057 B12 0.0056 V203 0.0024
9 V206 0.0042 B8 0.0049 V207 0.0039 V417 0.0022
10 V207 0.0024 M1E 0.0035 B1 0.0035
11 V419 0.0029 V218 0.0035
12 H4M 0.0029 B8 0.0034
13 V208 0.0028 V419 0.0031
14 V218 0.0027 M1E 0.0026
15 V418 0.0024 V219 0.0026
16 V219 0.0024 HW1 0.0024
17 HW1 0.0022 V208 0.0024
18 B1 0.0020 V418 0.0023
19 V230 0.0020 V417 0.0021
20 V207 0.0020
International Journal of Statistics and Applications 2020, 10(5): 118-130 125
The bigger the importance value, the higher the predictive ability of removal of variable B7 from the model which had a p.value less than 0.05
the variable. Variables with VIMP exceeding showing statistical significance hence did not meet the requirements of PH
0.002 were considered predictive. From table 5, the oversampling assumption and was deleted from the model. In SMOTE method, two
method which resulted to 498 events, extracted the highest number of variables did not meet the PH assumptions and are not included in table 6.
important predictors (20 predictors). Both-sampling method, which
resulted into 480 events, extracted 19 important variables. SMOTE In over-sampling and both sampling methods, quite a number of
method extracted the smallest number of predictors (9 predictors) variables as well as the global p.value resulted in statistically significant
followed by under sampling method (10 samples). test. Only a few which are given in table 6 satisfy the PH assumption
which is supported by a non significant test of hypothesis result. We
therefore assume proportional hazard assumption is met for the
3.3. Determining the Variable Effects
In order to measure the effects of the selected variables on child variables in table 6. Column “Rho” represents the Pearson product
mortality, we fit a Cox PH model on the covariates from each variable moment correlation between the scaled Schoenfeld residuals and log
selection exercise. Before the predictors are fitted in the Cox model, ph (time) for each predictor.
assumptions were tested. In the Schoenfeld residuals graphs shown in Fig 1, the broken lines
representing a standard error band around the fit while the continuous line
3.3.1. Testing Cox Proportional Hazards (PH) Assumptions represents a smoothing spline fit to
the plot. The line of fit is expected to stay close to the horizontal axis
Table 6 displays the results of proportional hazards assumption. The
within the whole expanse of time, in order to conclude that the PH
global test gives a general picture of proportional hazards violations
assumption holds. This is the case for all covariates selected from the
among the variables in the model. Therefore, p.value < 0.05 suggests
Under-sampling scheme.
one or more violations. For variables that do not satisfy the assumption,
The pattern of the deviance residuals shown in Fig 2 looks fairly
interaction with time varying covariate is included. Variables that finally
symmetric around zero. The positive values represent individuals who
do not satisfy the assumption even after interaction with time varying
died too soon compared to the expected survival times while the
covariate are not supposed to be included in the model.
negative values represent individuals who lived too long. The very large
or very small values are the outliers which are poorly predicted in the
model. In general, we have symmetry along the zero – line and have no
From table 6, the test is observed to be statistically insignificant for
fear for presence of outliers or influential observations in the data.
each of the predictors in the Under-sampling method (p.values >0.05).
The global test is also statistically insignificant in Under-sampling
method. This is after
Table 6. Statistical tests
Under sampling method SMOTE
Covariate Rho Chi-square P.Value Covariate Rho Chi-square P.Value
V206 0.1609 0.872 0.350 V206 - 0.0166 0.0136 0.9073
V207 0.1956 0.888 0.346 V207 0.0740 0.1944 0.6593
V219 - 0.1931 0.856 0.355 V203 0.2104 2.8585 0.0909
B8 - 0.2369 1.075 0.300 V218 - 0.2186 3.5175 0.0607
B12 - 0.2004 2.322 0.128 V219 0.1316 1.0958 0.2952
HW70 - 0.0496 0.177 0.674 V238 0.1183 0.9276 0.3355
HW71 - 0.1515 1.285 0.257 V419 0.0684 0.2812 0.5959
HW72 0.0529 0.153 0.695 Global NA 12.8034 0.0770
HW73 0.1674 1.870 0.171
Global NA 10.882 0.284
Over sampling method Both sampling method
Covariate Rho Chi-square P.Value Covariate Rho Chi-square P.Value
HW72 - 0.1667 0.9343 0.334 V206 0.101 3.05 0.0807
H4M - 0.0355 0.0474 0.828 V207 0.136 4.85 0.0277
B1:V206 - 0.0248 0.2277 0.633 Global NA 5.54 0.0627
Global NA 1.0825 0.781

126 Hellen Wanjiru Waititu et al.: Determinants of Under Five Child Mortality from KDHS Data:
ABalanced Random Survival Forests (BRSF) Technique
Figure 1. Schoenfeld residuals for variables in under sampling method
Figure 2. Deviance residuals for under sampling method
3.3.2. Parameter Estimates negative coefficient reduces the risk of death and thus raises the expected
survival span.
From the previous section, we noted that the different balancing
In explaining the determinants of child mortality, one therefore is
methods yielded different sample sizes and different predictors from the
interested in the variables with positive coefficient, which are
RSF classification. After diagnostic tests on Cox PH models, the
positively related with the event (mortality) probability, and
respective predictors were fitted to the parsimonious Cox PH model [37]
consequently negatively related with the length of survival. From table
in order to check concurrently the effect of different risk factors on
7, under-sampling method resulted in 9 predictors, out of which only 3
survival time.
were likely to increase the risk of death. Similarly, SMOTE returned 5
predictors that are likely to increase the risk of death out of 7
The results of fitting the Cox model are shown in Table 7. The
important variables which satisfy PH assumptions. Over-sampling and
regression coefficient column marked “Coefficient” gives estimates of the
both-sampling method had 3 and 2 predictors respectively all of which
logarithm of the hazard ratio between the two groups. From the estimates,
had positive coefficients.
a positive coefficient is said to increase the risk of death (hazard) and thus
decrease the expected (average) survival time. On the other hand, a
Table 7. Result of fitting the respective predictors in Cox PH model
Under sampling method SMOTE
Predictor Coefficient Exp(coefficient) Se(coefficient) ••(> • ) Predictor Coefficient Exp(coefficient Se(coefficient) ••(> • )
V206 2.0637 7.8753 0.3988 2.29e-07 V206 2.2819 9.7956 0.3499 6.94e-11
V207 1.5189 4.5675 0.3728 4.61e-05 V207 1.8688 6.4805 0.3111 1.88e-09
V219 - 0.1912 0.8259 0.2032 0.3466 V203 0.0922 1.0966 0.2903 0.7509
B8 - 0.8111 0.4444 0.3636 0.0257 V218 0.3171 1.3732 0.4721 0.5017
B12 - 0.0589 0.9428 0.3246 0.0697 V219 - 0.1723 0.8418 0.4972 0.7289
HW70 - 0.0002 0.9998 0.0014 0.8667 V238 0.6561 1.9273 0.2286 0.0041
HW71 - 0.0005 0.9995 0.0011 0.6490 V419 - 0.6068 0.5451 0.3061 0.0474
HW72 0.0022 1.0022 0.0010 0.0340
HW73 - 0.0013 0.9987 0.0010 0.2124
Over sampling method Both sampling method
Predictor Coefficient Exp (coefficient) Se(coefficient) ••(> • ) Predictor Coefficient Exp (coefficient Se (coefficient) ••(> • )
HW72 0.0001 1.0000 2.152e-05 4.4e-09 V206 1.8300 6.2339 0.0763 <2e-16
H4M 0.0244 1.025 0.02115 0.25 V207 1.5285 4.6112 0.0730 <2e-16
B1:V206 0.1854 1.025 0.01161 <2e-16
Its often useful for interpretation to look at the “Exp(coefficient)” good fit according to the concordance Index. Under-sampling
column, which indicates the actual hazard ratio (HR) associated with method gives largest concordance value of
the covariates. A value of regression coefficient greater than zero is 0.91 indicating the best model fit while over-sampling had the smallest
equivalent to a hazard ratio greater than one, which shows that as the concordance value. SMOTE and both-sampling methods have almost
value of the • •ℎ predictor increases (for continuous type covariates), the equal concordance value.
event hazard increases and thus the length of survival decreases.
Table 8. Model fit statistics: Concordance measure
Description/ Under- Over- Both-

SMOTE
From table 6 for example, variable V206, in Method sampling sampling sampling
under-sampling method has ( •••••••••••) = •••(2.0637) Sample size 68 996 1000 136
= 7.8753. HR value which is clearly greater than 1 implies that variable
Concordance 0.91 0.781 0.8644 0.8645
V206 increases the hazard by a factor 7.8753. This is deduced from the
Standard error 0.0262 0.01206 0.0091 0.0243
fact that a predictor is related with increased risk when the value of HR>1,
and decreased risk when HR<1. When the HR value is close to 1, the Discordant 1386 248084 257769 5325
predictor has no impact on survival. From our results, there are 2 Concordant 137 69549 26991 830
predictors in under-sampling method associated with increased risk, 0 in Tied.x 0 0 31815 13

over-sampling, 2 in both-sampling and 4 in SMOTE (refer to Table 6
Tied.y 158 33849 23690 471
above).
Tied.xy 0 3621 10434 6
The column marked ••(> • ) gives the value of the

Wald statistic. Wald statistic evaluates whether the 4. Discussions
explanatory variables in a model are significant. A variable is
said to be statistically significant when its p.value is less than The study attempts to understand the determinants of under five
0.05. mortality using survey data from DHS. In this case, Kenya DHS survey
2014 dataset was used for the analysis. The dataset (after variable
3.3.3. Model Goodness of Fit Statistic
cleaning) is composed of
The concordance statistic was used to analyze the performance of 757 variables that are candidate determinants of Under five Child
the models on prediction of mortality. Concordance values are given mortality. This poses a problem of variable selection from such high
in Table 8 below. dimensional datasets preceding a proper analysis in which the intention is
High values of concordance indicate that for higher observed survival to explain variable effects. Besides, there is too much class imbalance in
duration, the model predicts higher probabilities of survival. the datasets particularly where interest is to compare mortality and non
Concordance values ranges from 0 to 1. A perfect Concordance results mortality groups. For instance, 6.4% of children experience mortality while
in a value of 1 while 0.5 is as good as random guessing. All our models 93.6% survived up to the age of 5 years. This imbalance is too huge that
gave high concordance values above 0.7 with standard errors less than a direct comparison (before balancing) between two such groups is likely
to yield biased
0.02 as shown in Table 7. Hence all the models represent a
results. the effect of mother’s education, child's sex, rural/urban

Two challenges were addressed in this study. One problem involved residence, household wealth index, regions ecological zones and
trying to balance the dataset classes before making comparisons development.
between mortality and non mortality cases. The other challenge was due It’s worth to note that even though most of the studies that rely on DHS
to variable selection. One needs to conduct a proper variable selection datasets ([6], [7], [8]) are challenged with high dimensional data and a
exercise in order to identify the correct set of variables to use for the variable selection dilemma, there is no mention of any statistical form of
regression analysis. variable selection. DHS datasets typically are composed of over 700
variables that are candidate determinants of child mortality and one need
Most studies explore determinants of child mortality using DHS survey to carefully select which variables to include in the resultant regression
data. [6] used Uganda 1996, 2000, 2006 DHS dataset, [7] used Uganda type models. Majority of the studies explore the effect of a predetermined,
2011 DHS, [8] analyzed the data from complete birth histories of four select group set of covariates, based on self intuition or variables explored
Nepal Demographic and Health Surveys (NDHS) done in the years 1996, from previous studies. We attempted to do a variable selection using a
2001, 2006 and 2011, among many other studies. In this study, we have machine learning algorithm, before subjecting the selected variables to
also tapped into the richness of KDHS (2014) dataset, to establish the Cox PH regression.
determinants of U5CM. The key improvement over many studies that
have used DHS data to answer the same question lies in our choice to
ensure the following remedies are done: (i) class imbalance is eliminated Other than finding the determinants of under five mortality, different
before comparisons are done, (ii) imputation for missing data is done data balancing methods were used and model selection done using
using a machine learning approach (the missForest package in R concordance index. In their research [40] used SMOTE to balance data
software used), (iii) variable selection is accomplished again using a before integrating it with RSF. In this research, under-sampling method
machine learning algorithm (RSF). In most studies, researchers often use resulted in a better model with a concordance index of 0.91 as
self intuition or previous studies to determine which covariates to add to compared to other balancing methods used. SMOTE generates
their regression models. All these remedies were done before applying a synthetic samples along the line segment joining two minority samples.
Cox PH regression on the data to reduce chance of reporting biased By so doing there is a tendency of generating a decimal value in factor
findings. or numeric variables which are not meant to be in decimal form. In as
much as under-sampling method may discard potentially useful data in
majority class there is no loss of data in the minority class which is our
main class of interest.
Many studies commonly employed regression techniques to explore
the determinants of U5CM. Cox PH regression was used by [6], [7], [8] among
others. Although we also used the Cox PH model, we preceded it
diagnostics including multiple imputation, classification balancing,
5. Conclusions
variable selection, and Cox PH assumptions tests, to ensure that the
results from the Cox PH are more reliable. In this research, we presented a framework for determination of
under five child mortality using the 2014 KDHS data. The framework
Our findings show that child mortality is associated with variables involved data balancing, variable selection using RSF method and
related to: child characteristics at birth (such as age at birth), variable prediction using Cox PH model. Various challenges and
reproduction factors of the mother (such as number of siblings born effects of working with imbalanced data are discussed in this research
before), feeding characteristics and anthropometric measurements. This as well as the various data balancing methods. Analysis of four data
is in line with other findings such as [6] who used Cox PH regression and balancing methods; over-sampling, under-sampling both-sampling and
established that region of residence, sex of the child, type of birth SMOTE techniques was conducted where under-sampling model
(multiple), birth interval (less than 24 months after the preceding birth), emerged the best with a concordance index of 0.91. Based on this
and mother's education were related with an increased risk of children research, child mortality is associated with variables related to child
mortality before their fifth birthday. [7] also established that factors characteristics at birth (such as age at birth), reproduction factors of
related to mother characteristics and previous births such as sex of the the mother (such as number of siblings born before), feeding
child, sex of the head of the household and the number of births in the characteristics and anthropometric measurements.
past one year was found to be significant. [8] explored
Appendix
Table 9. Description of Important variables
Category Variable Description
B1 Month of birth of child.
B7 Age at death of the child in completed months.

Child characteristics
B8 Current age of the child in single years for all living children.
at birth
Succeeding birth interval is calculated as the difference in months between the current birth and the
B12
following birth, counting twins as one birth.
V203 Total number of daughters living at home. Total
V206 number of sons who have died. Total number of
V207 daughters who have died.
Total number of births in the last five years is defined as all births in the months 0 to 59 prior to the month
V208
Reproduction of interview, where month 0 is the month of interview.
(siblings
V214 Imputed duration of the current pregnancy. Total
information)
V218 number of living children.
V219 Total number of living children including current pregnancy. Year of the last
V230 pregnancy termination.
V238 Total number of births in the last three years.
V417 Number of entries in the pregnancy and postnatal care history. Number of entries
Maternity and
V418 in the immunization history.
Feeding
V419 Number of entries in the height and weight table. Height for age standard
HW70 deviation (according to WHO). Weight for age standard deviation (according
HW71 to WHO). Weight for height standard deviations (according to WHO). BMI
Height and Weight
HW72 standard deviations (according to WHO).
and Hemoglobin
HW73
HW1 Age in months of the child.
Maternity M1E Last tetanus injection before last pregnancy (CMC).
journal of public health, 6(2), 136-140.
[7] Nasejje, J. B., Mwambi, H. G., & Achia, T. N. (2015). Understanding the
determinants of under-five child mortality in Uganda including the
REFERENCES estimation of unobserved household and community effects using both
frequentist and Bayesian survival analysis approaches. BMC public
[1] Lessmann, S. (2004). Solving Imbalanced Classification health, 15(1),
Problems with Support Vector Machines. In IC-AI ( Vol. 4, pp. 214-220). 1003.
[8] Sreeramareddy, C.T., Kumar, H.N., & Sathian, B. (2013). Time Trends
[2] Tang, Y., Zhang, Y. Q., Chawla, N. V., & Krasser, S. (2008). and Inequalities of Under-Five Mortality in Nepal: A Secondary Data
SVMs modeling for highly imbalanced classification. IEEE Transactions Analysis of Four Demographic and Health Surveys between 1996 and
on Systems, Man, and Cybernetics, Part B (Cybernetics), 39( 1), 281-288. 2011. PLoS ONE, 8(11): e79818. doi:10.1371/journal.pone.0079818.
[3] López, V., Fernández, A., Moreno-Torres, J. G., & Herrera, [9] Gawande, R., Indulkar, S., Keswani, H., Khatri, M.,
F. (2012). Analysis of preprocessing vs. cost-sensitive learning for & Saindane, P. (2019). Analysis and Prediction of Child Mortality in
imbalanced classification. Open problems on intrinsic data India. International Research Journal of Engineering and Technology,
characteristics. Expert Systems with 6(3), 5071-5074.
Applications, 39( 7), 6585-6608.
[10] Zhang, X., Tang, F., Ji, J., Han, W., & Lu, P. (2019). Risk
[4] Yan, Y., Liu, R., Ding, Z., Du, X., Chen, J., & Zhang, Y. Prediction of Dyslipidemia for Chinese Han Adults Using Random Forest
(2019). A parameter-free cleaning method for SMOTE in imbalanced Survival Model. Clinical Epidemiology, 11,
classification. IEEE Access, 7, 23537-23548. 1047.
[5] Lin, E., Chen, Q., & Qi, X. (2020). Deep reinforcement [11] Cassy, A., Saifodine, A., Candrinho, B., do Rosário Martins,
learning for imbalanced classification. Applied Intelligence, M., da Cunha, S., Pereira, F. M., & Gudo, E. S. (2019). Care-seeking
1-15. behaviour and treatment practices for malaria in children under 5 years
in Mozambique: a secondary analysis of 2011 DHS and 2015 IMASIDA
[6] Ayiko, R., Antai, D., & Kulane, A. (2009). Trends and datasets. Malaria journal, 18( 1), 115.
determinants of under-five mortality in Uganda. East African
[12] Liu, V. (2019). Predicting ovarian cancer survival times: [26] Ofek, N., Rokach, L., Stern, R., Shabtai, A. Fast-CBUS: A
Feature selection and performance of parametric, semi-parametric, fast clustering-based undersampling method for addressing the class
and random survival forest methods. imbalance problem. Neurocomputing 2017, 243, 88–102.
Master Thesis, Simon Fraser University.
[13] Kenya National Bureau of Statistics, Ministry of Health[Kenya], [27] Fiorentini, N.; Losa, M. Handling Imbalanced Data in Road
National AIDS Control Council [Kenya], Kenya Medical Research Crash Severity Prediction by Machine Learning Algorithms.
Institute, National Council for Population and Development [Kenya], Infrastructures 2020, 5, 61.
ICF International.
Kenya demographic and health survey 2014. Nairobi, Kenya, [28] Chawla, N.V., Cieslak, D.A., Hall, L.O., Joshi, A.:
2015. Automatically countering imbalance and its empirical relationship to
cost. Data Min. Knowl. Disc. 17(2), 225–252 (2008)
[14] Corsi, D. J., Neuman, M., Finlay, J. E., & Subramanian,
S. (2012). Demographic and health surveys: A profile.
International Journal of Epidemiology, 41, 1602–1613. [29] Estabrooks, A., Jo, T., Japkowicz, N. A multiple resampling
method for learning from imbalanced data sets. Comput. Intell. 20(1),
[15] Stekhoven, D. J., & Bühlmann, P. (2012). MissForest— 18–36 (2004).
non-parametric missing value imputation for mixed-type data. Bioinformatics,
28(1), 112–118. [30] Batista, G.E.A.P.A., Prati, R.C., Monard, M.C.: A study of
the behaviour of several methods for balancing machine learning training
[16] Ali, H., Salleh, M. N. M., Saedudin, R., Hussain. K., & data. SIGKDD Explor. 6(1), 20–29 (2004).
Mushtaq, M. F. (2019). Imbalance class problems in data mining: a
review. Indonesian Journal of Electrical Engineering and Computer [31] Yen, S.J., Lee, Y.S. Cluster-based under-sampling
Science. 14(2), 1560-1571. approaches for imbalanced data distributions. Expert Syst. Appl. 2009, 36,
5718–5727.
[17] Galar, M., Ferńandez, A., Barrenechea, E., Bustince, H., &
Herrera, F. (2012). A Review on Ensembles for the Class Imbalance [32] Chawla, N.V., Bowyer, K.W., Hall, L.O., & Kegelmeyer,
Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE W.P. (2002). Synthetic Minority Over-sampling Technique.
TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART Journal of Artificial Intelligence Research, 16, 321-357.
C: APPLICATIONS AND REVIEWS.
[33] Torgo, L. (2010). Data Mining using R: learning with
case studies. CRC Press ( ISBN: 9781439810187).
[18] Fernández, H. A., García, L. S., Galar, M., Prati, R. C., http://www.dcc.fc.up.pt/~ltorgo/DataMiningWithR.
Krawczyk, B., & Herrera, F. (2018). Learning from Imbalanced Data
[34] Lunardon, N., Menardi, G., & Torelli, N. (2013). R package
Sets. Springer, Gewerbestrasse 11, 6330 Cham, Switzerland.
ROSE: Random Over-Sampling Examples (version 0.0-3). Università di
Trieste and Università di Padova, Italia.
[19] Zhao, Y., Cen, Y. Data Mining Applications with R; http://cran.r-project.org/web/packages/ROSE/index.html. [p79].
Academic Press: Cambridge, MA, USA, 2013; ISBN
9780124115118.
[35] Ishwaran, H., Kogalurt, U. B., Blackstone, E. H., & Lauer,
[20] Datta, S., Das, S. Near-Bayesian support vector machines for M.S. (2008). Random Survival Forests. The Annals of Applied Statistics, 2(3),
imbalanced data classification with equal or unequal misclassification 841-860.
costs. Neural Netw. 70, 39–52 (2015).
[36] Breiman, L. (2003b). Setting up, using, and understanding
[21] Ertekin, S., Huang, J., Bottou, L., Giles, C.L.: Learning on random forests V4.0. https://www.stat.berkeley.edu/~breima
the border: active learning in imbalanced data classification. In: n/Using_random_forests_v4.0.pdf.
Proceedings of the Sixteenth ACM Conference on Information and
[37] Weathers, W. & Cutler, R. (2017). Comparison of Survival
Knowledge Management, CIKM 2007, Lisbon, 6–10 Nov 2007, pp.
Curves Between Cox Proportional Hazards, Random Forests, and
127–136 (2007).
Conditional Inference Forests in Survival Analysis.
[22] Cateni, S., Colla, V., Vannucci, M. A method for resampling All Graduate Plan B and other reports, 927.
imbalanced datasets in binary classification tasks for real-world https://digitalcommons.usu.edu/gradreports/927.
problems. Neurocomputing 2014, 135, 32–41.
[38] Cox, D. R. (1972). Regression models and life-tables.
[23] He, H., Garcia, E.A. Learning from imbalanced data. IEEE Journal of the Royal Statistical Society. Series B (Methodological),
Trans. Knowl. Data Eng. 2009. 34(2), 187 {220. URL: http://www.jstor.org/stable/2985181.
[24] Japkowicz, N.; Stephen, S. The class imbalance problem:

A systematic study. Intell. Data Anal. 2002. [39] Harrell, F. E., Califf, R. M., Pryor, D. B., Lee, K.L. & Rosati,
R.A. (1982). Evaluating the yield of medical tests. Journal of American
[25] Olson, D.L. Data Set Balancing. In: Shi Y., Xu W., Chen Medical Association, 247(18), 2543—2546.
Z. (eds) Data Mining and Knowledge Management. CASDMKM 2004.
Lecture Notes in Computer Science, [40] Afrin, K., Illangovan G., Srivatsa S. S., and Bukkapatnam S.
3327, 71-80, (2005). Springer, Berlin, Heidelberg. T. (2018) Balanced random survival forests for extremely unbalanced,
https://doi.org/10.1007. right censored data," arXiv preprint arXiv:
1803.09177.
Copyright © 2020 The Author(s). Published by Scientific &Academic Publishing

This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/

Statistik 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Statistik 2

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 DOI: 10.

Determinan Kematian Balita dari Data KDHS: Hutan

Hellen Wanjiru Waititu 1, *, Joseph K. Arap Koskei 1, Nelson Owuor Onyango 2

1 Sekolah Ilmu Fisika dan Biologi, Universitas Moi, Eldoret, Kenya

kelompok non-mortalitas dari data KDHS 2014. Kelompok kematian merupakan

Tabel 1 (a). Ketidakseimbangan dalam data wilayah KDHS 2014 Nairobi

Status Total Persentase

Sebuah dataset dikatakan tidak seimbang secara teknis jika distribusi

a) Pengambilan sampel secara acak

2.5.1. Pemisahan Node

waktu bertahan hidup dan status sensor [36].

Dimana, • •, • singkatan dari jumlah peristiwa di anak perempuan

simpul • = 1,2 pada waktu • •, • • = • •, 1 + • •, 2 2.6. Menentukan Prediktor Kematian Anak

• Hubungan fungsional antara log hazard dan kovariat. Sisa 3. Hasil

SMOTE Tidak disensor 68 50%

Total 136 100%

b) Pasangan dihilangkan jika:

observasi disensor. Total 34 34 68

kelangsungan hidup yang lebih pendek. Total 523 477 1000

peristiwa menghasilkan hasil prediksi yang lebih buruk.

••••••••••• Penyeimbangan Berbeda

Tabel 4. Penerapan RSF dalam kumpulan data yang seimbang

Deskripsi Under-sampling Over-sampling Both sampling SMOTE

Ukuran sampel 68 996 1000 136

Jumlah kematian 34 498 480 68

Jumlah pohon 1000 1000 1000 1000

Ukuran simpul terminal hutan Rata-rata no. 15 15 15 15

Jumlah tidak. variabel 757 757 757 757

Resample size used to grow trees 43 629 632 86

No. of random split points 10 10 10 10

Error rate 13.33% 7.11% 7.5% 13.32%

Under- sampling Over-sampling Both sampling SMOTE

Variable Importance Variable Importance Variable Importance Variable Importance

1 B7 0.0029 B7 0.0251 B7 0.0219 V206 0.0153

2 HW72 0.0086 HW71 0.0157 HW70 0.0105 V207 0.0103

3 HW70 0.0079 HW70 0.0124 HW73 0.0103 V219 0.0055

4 B12 0.0076 HW73 0.0111 HW72 0.0091 B7 0.0055

5 V219 0.0069 HW72 0.0111 HW71 0.0086 V218 0.0044

6 HW71 0.0057 B12 0.0075 V206 0.0063 V419 0.0038

7 HW73 0.0052 V206 0.0074 V214 0.0062 V238 0.0037

8 B8 0.0052 V214 0.0057 B12 0.0056 V203 0.0024

9 V206 0.0042 B8 0.0049 V207 0.0039 V417 0.0022

10 V207 0.0024 M1E 0.0035 B1 0.0035

11 V419 0.0029 V218 0.0035

12 H4M 0.0029 B8 0.0034

13 V208 0.0028 V419 0.0031

14 V218 0.0027 M1E 0.0026

15 V418 0.0024 V219 0.0026

16 V219 0.0024 HW1 0.0024

17 HW1 0.0022 V208 0.0024

18 B1 0.0020 V418 0.0023

19 V230 0.0020 V417 0.0021

Table 6. Statistical tests

Under sampling method SMOTE

Covariate Rho Chi-square P.Value Covariate Rho Chi-square P.Value

V206 0.1609 0.872 0.350 V206 - 0.0166 0.0136 0.9073

V207 0.1956 0.888 0.346 V207 0.0740 0.1944 0.6593

V219 - 0.1931 0.856 0.355 V203 0.2104 2.8585 0.0909

B8 - 0.2369 1.075 0.300 V218 - 0.2186 3.5175 0.0607

B12 - 0.2004 2.322 0.128 V219 0.1316 1.0958 0.2952

HW70 - 0.0496 0.177 0.674 V238 0.1183 0.9276 0.3355

HW71 - 0.1515 1.285 0.257 V419 0.0684 0.2812 0.5959

HW72 0.0529 0.153 0.695 Global NA 12.8034 0.0770

HW73 0.1674 1.870 0.171