Statistik 2
Statistik 2
5923 /
j.statistics.20201005.02
Abstrak Penelitian ini bertujuan untuk mengidentifikasi determinan kematian Balita (U5CM) berdasarkan Survei Demografi dan Kesehatan Kenya
(KDHS, 2014). Salah satu tantangan utama dengan kumpulan data Survei Demografi dan Kesehatan melibatkan ketidakseimbangan yang ekstrim antara
kelas kematian dan non-kematian. Dalam penelitian khusus ini, hanya 6,4% anak yang mengalami kematian balita sedangkan 94,6% yang bertahan
hidup lebih dari lima tahun. Untuk menetapkan determinan U5CM, kami memilih untuk menangani ketidakseimbangan kelas menggunakan empat teknik
penyeimbangan yang berbeda: Teknik Under-sampling Random, Random Over-sampling, Both-sampling, dan Synthetic Minority Over-sampling. Kami
kemudian melakukan seleksi variabel menggunakan Random Survival Forests mengikuti empat teknik. Variabel yang dipilih dari masing-masing empat
dataset kemudian digunakan dalam regresi Cox-PH untuk menentukan pengaruh kovariat terpilih terhadap kematian anak, setelah melakukan diagnostik
model yang sesuai. Setelah dilakukan analisis, variabel yang menyebabkan peningkatan bahaya kematian anak antara lain V206 (Jumlah anak yang
meninggal), V207 (Jumlah anak perempuan yang meninggal), V203 (Jumlah anak perempuan yang tinggal di rumah), V218 (Jumlah anak yang ada),
V238 (Jumlah persalinan dalam 3 tahun terakhir), HW72 (Berat badan untuk standar deviasi tinggi) dan interaksi antara B1 (Bulan Anak Lahir) dan V206.
Berdasarkan indeks pemilihan model, skema under-sampling balancing berkinerja baik untuk identifikasi determinan U5CM. Dengan mengelompokkan
variabel-variabel tersebut, penelitian ini mengidentifikasi karakteristik lahir anak (seperti umur saat lahir),
Kata kunci Kematian balita, Balanced Random Survival Forests, Ketidakseimbangan Kelas dalam data, regresi Cox-PH dalam analisis Survival
1. Perkenalan kelas yang sangat minoritas (kurang dari 7%) dari seluruh populasi, sedangkan
non-mortalitas merupakan kelas mayoritas. Klasifikasi yang tidak seimbang
1.1. Latar Belakang adalah masalah umum dengan sebagian besar kumpulan data termasuk data
kematian, data penipuan, deteksi penipuan, prediksi klaim, prediksi default,
Keinginan untuk memahami determinan dari Under 5 Child Mortality
deteksi spam, dan lain-lain. Penanganan klasifikasi yang tidak seimbang telah
(U5CM) merupakan aspek penelitian yang sangat penting, seiring dengan
menjadi terkenal dalam banyak penelitian ([1], [2], [3], [4], [5]).
tujuan negara untuk mencapai Millennium Development Goals (MDG 2015
- 2030). Program Survei Demografi dan Kesehatan (DHS) sangat berperan
dalam memperoleh dan menyebarkan data perwakilan nasional yang
Data KDHS dikaitkan dengan 1.099 variabel dan
otentik tentang keluarga berencana, kesuburan, kesehatan ibu dan anak,
20.964 baris data. Karena data berdimensi tinggi, seseorang perlu
di antara masalah kesehatan lainnya. Survei DHS terbaru yang dilakukan
mengidentifikasi teknik pemilihan variabel yang efektif untuk menangani
di Kenya adalah KDHS
masalah seperti untuk mengidentifikasi determinan kematian anak.
Teknik pembelajaran mesin (yang tidak memerlukan asumsi distribusi
2014.
pada data) seperti Random Survival Forests, dukungan mesin vektor
Penelitian ini bertujuan untuk mengidentifikasi determinan U5CM di Kenya.
antara lain telah menerima aplikasi yang luas dalam studi yang
Perbandingan harus dibuat antara kematian dan
melibatkan dataset dimensi tinggi ([6], [7], [8], [9], [10], [11], [12]). Teknik
pembelajaran mesin ini berguna saat menangani masalah seperti
* Penulis yang sesuai:
hwaititu@cuea.edu (Hellen Wanjiru Waititu) imputasi data yang hilang, ketidakseimbangan klasifikasi, dan pemilihan
Diterima: 11 Sep 2020; Diterima: 30 Sep 2020; Diterbitkan: 15 Oktober 2020 Diterbitkan online variabel.
di http://journal.sapub.org/statistics
Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 119
Selain itu, data DHS sering dikaitkan dengan masalah data yang hilang. Ini sering menjadi sangat tidak seimbang dengan kelas kematian yang memiliki 871
menjadi salah satu tugas analisis data utama sebelum menjalankan model yang pengamatan, merupakan 4% dari keseluruhan data sedangkan kelas mayoritas
diinginkan. Dalam hal ini, dilakukan beberapa imputasi dengan menggunakan algoritma memiliki 20.093 pengamatan merupakan 96%. Untuk analisis ini, kami memilih
RF, sebelum dilanjutkan dengan klasifikasi RSF. Namun dalam studi ini, kami kumpulan data Nairobi hanya dari data KDHS (2014). Kovariat yang berbeda
membahas lebih banyak tentang penanganan tantangan klasifikasi tidak seimbang antara lain wilayah, tempat tinggal, jenis kelamin, tingkat pendidikan, indeks
dalam data kematian. kekayaan, antara lain ditemukan juga memiliki ketimpangan kelas yang tinggi
(antara survivor dan non survivor), dengan ukuran kelas minoritas berkisar
Bagian selanjutnya dari makalah ini adalah sebagai berikut: Bagian 2 antara 3% dan 6%.
membahas metodologi yang digunakan dalam penelitian ini, mulai dari
deskripsi data, analisis data eksplorasi, efek ketidakseimbangan data, teori di Tujuan dari penelitian ini adalah untuk menemukan cara yang efektif dalam
balik Random Survival Forests, struktur COX- Model PH digunakan, dan menerapkan teknik pemilihan variabel yang disebut Random Survival Forest (RSF),
terakhir kriteria pemilihan model menggunakan statistik konkordansi. Bagian 3 untuk menganalisis data dengan ketidakseimbangan. Data KDHS merupakan data
merangkum hasil penelitian baik dari pemilihan variabel menggunakan RSF survei nasional yang diklasifikasikan menjadi 8 wilayah yang merupakan bekas
hingga kecocokan Cox-PH. Terakhir, bagian 4 menawarkan diskusi tentang provinsi di Kenya. Untuk pekerjaan ini, kami menganalisis data hanya untuk wilayah
hasil kami terhadap penelitian lain yang sedang berlangsung tentang Nairobi, sebagai sistem perkotaan yang unik di Kenya. Ini adalah wilayah metropolitan
determinan U5CM. dengan fasilitas dan akses kesehatan yang lebih baik, sementara juga memiliki tingkat
kesenjangan sosial ekonomi yang tinggi di antara penduduk. Nairobi menjadi tuan
rumah beberapa pemukiman slam terbesar di dunia termasuk Kibera, Mukuru,
Mathare dan Kangemi. Namun, mayoritas masyarakat Nairobians berada pada
2. Metodologi golongan menengah ke atas berdasarkan klasifikasi status sosial ekonomi yang
2.1. Deskripsi Data dan Persetujuan Etis menikmati akses kesehatan dan gizi yang memadai bagi anak-anaknya.
Data untuk penelitian ini diambil dari data Survei Demografi dan
Kesehatan Kenya (KDHS) 2014 [13]. Ini adalah Survei Demografi dan
Kesehatan (DHS) keenam yang dilakukan di Kenya sejak 1989. KDHS
Dalam data KDHS 2014, wilayah Nairobi sendiri dikaitkan dengan 788
adalah penelitian nasional yang dilakukan setiap lima tahun dengan tujuan
kovariat dan 532 observasi. Beberapa variabel dalam subset data ini
mengumpulkan berbagai data dengan minat yang kuat pada indikator
ditemukan memiliki 100% informasi yang hilang dan yang lainnya sangat
kesehatan reproduksi, kesuburan, kematian , kesehatan ibu dan anak,
berkorelasi. Variabel-variabel ini dihapus menyisakan 757 variabel.
nutrisi dan kebiasaan kesehatan yang dilaporkan sendiri di antara orang
Beberapa variabel yang dihapus dari data Nairobi antara lain variabel
dewasa [14]. Merupakan data survei sampel rumah tangga dengan
yang terkait dengan pengobatan demam yang saat ini sudah tidak
representasi nasional dimana rumah tangga dipilih secara acak dari
digunakan, misalnya ML15A (waktu individu memulai obat malaria),
kerangka sampling Badan Pusat Statistik (KNBS).
ML15B (hari ketika anak mengonsumsi obat malaria), ML15C (pertama
sumber fansidar), ML23C (sumber pertama anti malaria lainnya) antara
lain. Variabel lain seperti V000 (kode negara), V024 (De facto region of
Prosedur survei, instrumen, dan metode pengambilan sampel
residence), antara lain juga dihapus dari kumpulan data Nairobi.
yang digunakan dalam KDHS 2014 memperoleh rekomendasi etis
dari Institutional Review Board of Opinion Research Corporation
(ORC) Macro International Incorporated, sebuah perusahaan
kesehatan, demografis, riset pasar, dan konsultasi yang berlokasi di
Data ditemukan memiliki tingkat informasi yang hilang. Algoritme
New Jersey, AS. Kami mencari pendaftaran resmi di situs web DHS
"missForest," yang merupakan algoritme berbasis hutan acak untuk
dan mendapat izin untuk menggunakan data KDHS 2014. Data
imputasi data yang hilang [15] diterapkan untuk menangani data yang
diunduh dalam format SPSS dan terdiri dari 1.099 variabel dan
hilang.
20.964 observasi. Menggunakan paket asing, data diimpor ke
Dataset Nairobi sama-sama menunjukkan ketidakseimbangan kelas yang tinggi.
perangkat lunak R versi 3.6 untuk analisis. Variabel dengan 100%
Ketidakseimbangan antara kelas mortalitas dan survivor ini secara jelas ditunjukkan pada
observasi yang hilang dan yang berkorelasi dihapus dari data yang
Tabel 1 (a) dengan representasi kelas minoritas 6,4% (kelas mortalitas). Demikian pula,
mengurangi jumlah variabel menjadi 786.
variabel dalam data (kovariat) menunjukkan ketidakseimbangan yang tinggi pada kelas
mortalitas. Tabel 1 (b) menunjukkan ketidakseimbangan antara kelas kematian dan yang
selamat di salah satu kovariat - jenis kelamin anak.
Tabel 1 (b). Ketidakseimbangan dalam data KDHS 2014 wilayah Nairobi oleh
efek dari ukuran ini. Namun, ketika data seimbang, tingkat akurasi cenderung
Kovariat (Seks Anak)
menurun [25]. Hal ini dikaitkan dengan fakta bahwa data yang seimbang
Status / Jenis Kelamin Anak Perempuan Pria Total
mengurangi ukuran set pelatihan yang menyebabkan kemunduran model melalui
Korban (Kasus yang disensor) 254 244 498 penghilangan kasus yang ditemukan ke set pengujian.
Kematian (Jumlah Peristiwa yang diamati) Jumlah 17 17 34
Total 271 261 532 Algoritme pembelajaran mesin bertujuan untuk meminimalkan tingkat kesalahan
Persentase Peristiwa 6,3% 6,5% 6,4% secara keseluruhan daripada memperhatikan kelas minoritas. Oleh karena itu,
mereka tidak membuat prediksi yang akurat untuk kelas minoritas jika mereka tidak
Ketidakseimbangan seperti itu dapat menyebabkan kurangnya informasi dan kurang mendapatkan informasi yang cukup.
terwakili dalam kelas kematian yang merupakan minat besar dalam penelaahan kita. Hal ini
pada gilirannya dapat mengarah pada kesimpulan yang salah. [25] dalam penelitiannya menunjukkan masalah yang dihadapi ketika data
Data yang tidak seimbang telah terlihat sangat menghambat kinerja ketidakseimbangan digunakan dalam algoritma data mining menemukan bahwa
klasifikasi algoritma pembelajaran, termasuk Random Forests dan metode algoritma cenderung merosot dengan menempatkan semua kasus ke kelas mayoritas
ensemble lainnya, karena pendapat mereka ditentukan dari kesalahan ketika data sangat tidak seimbang dan masih mencapai skor akurasi yang tinggi.
klasifikasi [16]. Dalam set data yang tidak seimbang, pengklasifikasi sering Karenanya, mengevaluasi kinerja algoritme dengan menggunakan akurasi prediksi saja
menunjukkan perilaku bias yang mendukung kelas mayoritas dan tidak tepat ketika data tidak seimbang.
menampilkan kelas minoritas dengan ringan [17]. Oleh karena itu, kami
tertarik pada konstruksi pengklasifikasi yang condong ke kelas minoritas, Untuk mengatasi masalah ini, penting ketika bekerja dengan
dengan tetap menjaga ketepatan kelas mayoritas. algoritma pembelajaran mesin untuk bekerja dengan klasifikasi
seimbang. Namun, ini dalam banyak kasus terlewatkan. Oleh karena
itu, kami tertarik pada konstruksi pengklasifikasi yang condong ke
kelas minoritas, dengan tetap menjaga ketepatan kelas mayoritas.
2.3. Ketidakseimbangan dan Pengaruhnya dalam Kumpulan Data
Banyak algoritme pembelajaran mesin dirancang untuk memaksimalkan akurasi Ini bertujuan untuk menyeimbangkan set data dengan secara acak
secara keseluruhan. Ini bisa menyesatkan dalam set data yang tidak seimbang karena menghilangkan contoh dari kelas mayoritas hingga saat set data seimbang.
kelas minoritas memiliki nilai yang kecil Kelemahan utama dari metode ini adalah adanya
Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 121
kemungkinan besar untuk membuang data yang berpotensi berguna yang berkaitan titik sampel di sepanjang segmen garis antara dua sampel minoritas
dengan kelas mayoritas yang mengarah pada kemungkinan hilangnya informasi. di ruang fitur.
Di lingkungan R, Paket DMwR [33] dan paket ROSE [34] digunakan untuk
meningkatkan penyeimbangan data. Paket ROSE [34] digunakan untuk
b) Over-sampling acak
meningkatkan penyeimbangan data menggunakan metode under-sampling,
Sementara metode under-sampling melibatkan pengambilan sampel dari over-sampling dan both-sampling. Di sisi lain, paket DMwR [33], membantu
kelompok mayoritas, metode over-sampling menghasilkan sampel baru untuk penyeimbangan data menggunakan SMOTE. Di SMOTE parameter
kelas minoritas. Untuk menyeimbangkan data menggunakan metode ini,
observasi dari kelas minoritas digandakan. Instance baru dibuat dari yang sudah ••••. •••• dan ••••. ••••• masing-masing mengontrol
ada; karena itu pengambilan sampel yang berlebihan tidak menambah informasi jumlah pengambilan sampel berlebih dan pengambilan sampel sedang harus dilakukan.
tetapi meningkatkan bobot kelas minoritas dengan replikasi. Salah satu Jika kumpulan data yang benar-benar seimbang diperlukan, kasus minoritas digandakan
keuntungan dari metode pengambilan sampel yang berlebihan adalah tidak sementara kelas mayoritas dibelah dua.
adanya kehilangan informasi. Namun, karena pengambilan sampel yang Dalam studi ini, kami menggunakan metode under-sampling, over-sampling,
berlebihan hanya membuat salinan yang tepat dari pengamatan kelas minoritas, both-sampling dan SMOTE untuk menyeimbangkan data wilayah Nairobi. Data yang
hal itu meningkatkan kemungkinan pemasangan berlebih karena replikasi. Oleh seimbang dianalisis menggunakan algoritma RSF.
karena itu, meskipun akan ada peningkatan dalam akurasi pelatihan data,
keakuratan data secara keseluruhan mungkin lebih buruk. Selain itu, saat
2.5. Algoritma Hutan Bertahan Hidup Acak
menangani kumpulan data besar yang tidak seimbang,
Dataset KDHS memiliki total 1099 variabel yang berpotensi untuk
memprediksi kematian anak. Setelah beberapa latihan manajemen data,
jumlah kovariat kandidat dikurangi menjadi 757 kovariat yang mungkin.
c) Kedua-pengambilan sampel Sebelum menyesuaikan model tipe regresi untuk memulai latihan
menentukan efek prediktor kematian anak, kami perlu melakukan latihan
Metode ini menggabungkan kedua metode pengambilan sampel berlebih di bawahdan
pemilihan variabel untuk lebih mengurangi variabel penting ke subset
pengambilan sampel dengan melakukan penggantian pengambilan sampel berlebih dengan
pada
variabel penting yang dapat dikelola. Teknik Random Survival Forest,
kelas minoritas sementara kelas mayoritas menjalani pengambilan sampel tanpa
yang dilengkapi dengan intuisi kita tentang kovariat yang masuk akal
penggantian.
untuk kematian anak menghasilkan sekumpulan maksimal 20 kovariat
d) Teknik Synthetic Minority Oversampling (SMOTE). yang berkurang untuk langkah-langkah regresi yang diikuti.
Ini adalah metode hybrid dalam teknik pengambilan sampel ulang di mana
pendekatan under-sampling dan over-sampling digabungkan dengan tujuan untuk
mengatasi kekurangannya. SMOTE telah menjadi salah satu pendekatan paling Algoritma Random Survival Forest dijelaskan sebagai berikut [35]:
menonjol di bidang penyeimbangan data [18]. Ide kunci dalam SMOTE yang diusulkan
oleh [32] adalah untuk menghasilkan sampel baru dari kelas minoritas secara artifisial. Prosedur dimulai dengan menggambar secara acak •••••
Sebuah)
Ini membantu untuk menghindari penyesuaian berlebihan yang disebabkan oleh contoh bootstrap dari data awal yang terdiri dari •
penggandaan ulang instance kelas minoritas. Selain itu, contoh kelas mayoritas kurang sampel. Rata-rata, setiap sampel bootstrap menyisihkan 37% dari data
diambil sampelnya, sehingga menghasilkan kumpulan data yang lebih seimbang. yang disebut data dari tas (OOB) sehubungan dengan sampel bootstrap
dan setiap sampel memiliki •
prediktor.
Pembuatan sampel Sintetis mengambil langkah-langkah berikut: b) Untuk setiap sampel yang diambil, pohon kelangsungan hidup ditanam.
Konstruksi pohon kelangsungan hidup dimulai dengan pemilihan secara
• Pilih minoritas dan minoritasnya secara acak • tetangga kelas minoritas
acak •••• dari • bisa jadi
terdekat. Nilai dari • ditentukan oleh jumlah oversampling yang
prediktor di • untuk berpisah. Nilai dari ••••
dibutuhkan.
tergantung pada jumlah prediktor yang tersedia dan data spesifik.
• Hitung selisih antara vektor minoritas terpilih dan vektor
Semua ••••• sampel bootstrap ditetapkan ke simpul paling atas dari
tetangga terdekatnya.
pohon yang juga disebut sebagai simpul akar. Node root ini kemudian
• Selisih yang didapat kemudian dikalikan dengan angka acak antara 0
dipisahkan menjadi dua node anak yang masing-masing secara
dan 1. Hasilnya ditambahkan ke vektor minoritas terpilih. Dengan
rekursif dipisahkan secara progresif untuk memaksimalkan perbedaan
demikian, titik acak baru ditambahkan di sepanjang garis yang
kelangsungan hidup antara node anak / meningkatkan homogenitas
menghubungkan dua vektor yang dipertimbangkan.
dalam node.
SMOTE dengan demikian diimplementasikan sebagai berikut. Membiarkan • • jadilah c) Pohon tumbuh hingga ukuran penuh hingga titik ketika tidak ada simpul
vektor fitur untuk minoritas yang dipilih dan • • menjadi vektor fitur anak baru yang dapat terbentuk karena kriteria penghentian bahwa simpul
tetangga yang dipilih secara acak. Sintetis baru akhir (simpul paling ekstrim dalam pohon jenuh) harus lebih besar dari
minoritas • • dihasilkan di ruang fitur sebagai: • • = • • + atau sama dengan
• (• • - • •) dimana • ∼ Seragam (0; 1), adalah acak seragam •••••••• acara unik.
variabel. Sebuah titik sembarang dipilih di sepanjang segmen garis antara dua d) Setelah pohon tumbuh dewasa, fungsi bahaya kumulatif (CHF)
titik yang dipertimbangkan. Dengan demikian, data yang dihasilkan secara dihitung serta mean dari semua CHF untuk ••••• pohon. Ini
sintetis dapat diartikan secara acak dilakukan untuk mencapai
122 Hellen Wanjiru Waititu dkk .: Penentu Kematian Balita dari Data KDHS: Teknik
ABalanced Random Survival Forests (BRSF)
ansambel CHF. node homogen di pohon yang terdiri dari kasus dengan
e) Dengan menggunakan data out-of-bag (OOB) saja, kelangsungan hidup ensemble serupa. Kesalahan OOB
dihitung menggunakan yang pertama • pohon, dimana Kriteria pemisahan merupakan salah satu aspek dalam menumbuhkan pohon. Dalam
• = 1,. . . , •••••. penelitian ini, digunakan aturan pemisahan log rank dalam pemisahan node.
Dari •••• prediktor di node ℎ, ambil prediktor apapun Rumus ini menampilkan risiko pada waktunya • untuk seorang individu
• ( misalnya usia). Menggunakan prediktor x, temukan nilai pemisahan ditentukan oleh satu set kovariat X. Dalam hal ini, • adalah sekelompok variabel
• ( misalnya dari umur prediktor, nilai pemisahannya bisa 2 tahun). Nilai yang digunakan dalam model untuk memprediksi risiko dari pengamatan yang
pemisahan • dipilih sedemikian rupa sehingga perbedaan kelangsungan diberikan. Dari rumusnya, risiko di
hidup untuk prediktor • antara • ≤ • waktu • adalah produk dari ℎ 0 •, fungsi bahaya dasar
dan •> • dimaksimalkan. • ≤ • memisahkan ke node kiri sementara •> • pergi ke dan exp • • = 1 ( • • • •), eksponensial dengan jumlah dari •
simpul kanan. Perbedaan kelangsungan hidup antara dua node dihitung variabel prediktor di •. fungsi dasar bahaya menunjukkan risiko apa
menggunakan metode pemisahan yang telah ditentukan. Prosedur ini diulangi yang akan terjadi bila tidak ada kovariat.
dengan nilai pemisahan lainnya • sampai kita mendapatkan nilai yang Koefisien • • memberikan besarnya pengaruh kovariat.
menghasilkan perbedaan kelangsungan hidup maksimum dalam prediktor •. Prosedur
yang sama diulangi untuk sisanya •••• - 1
2.6.1. Memeriksa Asumsi COX-PH
prediktor di node ℎ. Ini dilakukan sampai kita mendapatkan prediktor
Untuk penggunaan yang tepat dari model regresi bahaya
• ∗ dan nilai split • ∗ yang menghasilkan perbedaan kelangsungan hidup maksimum
proporsional Cox, ada beberapa asumsi penting yang perlu
antara dua simpul anak [37]. Proses ini diulangi di setiap node. Ketika perbedaan
diperiksa.
kelangsungan hidup maksimum, tidak seperti kasus yang berkaitan dengan
Ini termasuk:
kelangsungan hidup yang didorong oleh pohon. Peningkatan jumlah node
menyebabkan kasus yang berbeda memisahkan lebih banyak. Ini menghasilkan • Asumsi bahaya proporsional. Residu Schoenfeld digunakan
untuk menguji asumsi ini.
Jurnal Internasional Statistik dan Aplikasi 2020, 10 (5): 118-130 123
• Kemungkinan adanya pencilan atau observasi yang berpengaruh. Deviance Ukuran sampel diperoleh setelah penyeimbangan yang berbeda
residual digunakan untuk memeriksa kemungkinan adanya observasi yang metode ditunjukkan pada Tabel 3 (a) dan 3 (b)
berpengaruh.
Tabel 3 (a). Data wilayah KDHS 2014 yang seimbang
2.7. Kriteria Pemilihan Model
Metode Penyeimbangan Status Total Persentase
Perbandingan akurasi prediksi model yang berbeda dilakukan berdasarkan indeks Disensor 34 50%
konkordansi. Dalam analisis kelangsungan hidup, sepasang pengamatan dikatakan
Di bawah pengambilan sampel Tidak disensor 34 50%
sesuai jika untuk individu yang mendapatkan peristiwa dengan cepat model
Total 68 100%
memprediksi risiko peristiwa yang lebih tinggi. Indeks konkordansi Harrell (C-index)
Disensor 498 50%
[39] digunakan untuk memperkirakan kesalahan prediksi. Ini memperkirakan
kemungkinan bahwa dalam sepasang kasus yang dipilih secara acak, kasus yang Pengambilan sampel berlebihan Tidak disensor 498 50%
memiliki peristiwa pertama kali memiliki hasil prediksi yang lebih buruk. Misalkan kita Total 996 100%
memiliki dua pengamatan yang hasilnya diprediksi. Jika observasi yang diprediksi Disensor 520 52%
memiliki hasil terburuk mengalami suatu peristiwa terlebih dahulu, maka kedua Keduanya pengambilan sampel Tidak disensor 480 48%
observasi tersebut dikatakan sesuai (yaitu memiliki praktik yang sesuai). Perhitungan
Total 1000 100%
tingkat kesalahan konkordansi seperti yang diberikan di bawah ini.
Disensor 68 50%
Disensor 17 17 34
• Durasi bertahan hidup sama untuk pasangan tetapi satu atau kedua Di bawah pengambilan sampel Tidak disensor 17 17 34
c) Setelah penghilangan selesai, kami tetap dengan semua pasangan lainnya yang Disensor 254 244 498
disebut sebagai pasangan yang diizinkan. Pengambilan sampel berlebihan Tidak disensor 242 256 498
Skor nilai 1 diberikan kepada pasangan yang diizinkan jika: Total 496 500 996
• Untuk semua pasangan yang memiliki durasi kelangsungan hidup yang tidak sama Tidak disensor 275 245 520
sehingga prediksi menjadi lebih buruk untuk pengamatan dengan durasi Keduanya pengambilan sampel Disensor 248 232 480
Konkordansi, maka indeks konkordansi, C didefinisikan sebagai 3.2. Pemilihan Variabel Menggunakan RSF setelah Skema
sampel yang diambil diberikan sebagai ukuran resample yang digunakan untuk peristiwa, semakin besar jumlah rata-rata node terminal dan semakin kecil tingkat
menumbuhkan pohon pada tabel 4. Sampel bootstrap memiliki ukuran yang berbeda kesalahannya. Metode over-sampling dengan jumlah kejadian terbesar memiliki
tergantung pada ukuran sampel dari data awal dan metode balancing yang digunakan. tingkat kesalahan terkecil sedangkan metode under-sampling dengan jumlah
Masing-masing dari 1000 sampel bootstrap ditetapkan ke root pohon. Untuk kejadian terkecil memiliki tingkat kesalahan tertinggi. Meskipun ukuran sampel
mengembangkan setiap pohon, 28 dari 757 kemungkinan prediktor dipilih secara acak berbeda, namun jumlah variabel pada keempat sampel tersebut tetap sama. Ini
untuk dipisahkan. Node akar kemudian dipecah menjadi dua simpul anak yang menjelaskan mengapa jumlah variabel yang dicoba pada setiap pemisahan dan
masing-masing secara rekursif dipisahkan secara progresif untuk memaksimalkan jumlah titik pemisahan acak sama dalam keempat sampel.
perbedaan kelangsungan hidup antara simpul anak. Pembelahan node berlanjut hingga
setiap pohon tumbuh sempurna. Ini dicapai ketika node paling ekstrim memiliki tidak
kurang dari 15 kejadian berbeda. Artinya, sampel dengan jumlah kejadian lebih banyak Prediktor yang diidentifikasi berdasarkan Balancing Random Survival Forest
akan membentuk pohon yang lebih besar. Oleh karena itu, semakin banyak jumlahnya (BRSF) dengan menggunakan metode balancing yang berbeda disajikan pada tabel 5.
node terminal Jumlah variabel yang dicoba di 2.518 20.461 19.867 5.41
setiap pemisahan 28 28 28 28
Table 5. Important variables from the different balanced datasets (selected variables had a variable importance > 0.02. For variable names, refer to the Appendix)
Balancing method
20 V207 0.0020
International Journal of Statistics and Applications 2020, 10(5): 118-130 125
The bigger the importance value, the higher the predictive ability of removal of variable B7 from the model which had a p.value less than 0.05
the variable. Variables with VIMP exceeding showing statistical significance hence did not meet the requirements of PH
0.002 were considered predictive. From table 5, the oversampling assumption and was deleted from the model. In SMOTE method, two
method which resulted to 498 events, extracted the highest number of variables did not meet the PH assumptions and are not included in table 6.
important predictors (20 predictors). Both-sampling method, which
resulted into 480 events, extracted 19 important variables. SMOTE In over-sampling and both sampling methods, quite a number of
method extracted the smallest number of predictors (9 predictors) variables as well as the global p.value resulted in statistically significant
followed by under sampling method (10 samples). test. Only a few which are given in table 6 satisfy the PH assumption
which is supported by a non significant test of hypothesis result. We
therefore assume proportional hazard assumption is met for the
3.3. Determining the Variable Effects
In order to measure the effects of the selected variables on child variables in table 6. Column “Rho” represents the Pearson product
mortality, we fit a Cox PH model on the covariates from each variable moment correlation between the scaled Schoenfeld residuals and log
selection exercise. Before the predictors are fitted in the Cox model, ph (time) for each predictor.
assumptions were tested. In the Schoenfeld residuals graphs shown in Fig 1, the broken lines
representing a standard error band around the fit while the continuous line
3.3.1. Testing Cox Proportional Hazards (PH) Assumptions represents a smoothing spline fit to
the plot. The line of fit is expected to stay close to the horizontal axis
Table 6 displays the results of proportional hazards assumption. The
within the whole expanse of time, in order to conclude that the PH
global test gives a general picture of proportional hazards violations
assumption holds. This is the case for all covariates selected from the
among the variables in the model. Therefore, p.value < 0.05 suggests
Under-sampling scheme.
one or more violations. For variables that do not satisfy the assumption,
The pattern of the deviance residuals shown in Fig 2 looks fairly
interaction with time varying covariate is included. Variables that finally
symmetric around zero. The positive values represent individuals who
do not satisfy the assumption even after interaction with time varying
died too soon compared to the expected survival times while the
covariate are not supposed to be included in the model.
negative values represent individuals who lived too long. The very large
or very small values are the outliers which are poorly predicted in the
model. In general, we have symmetry along the zero – line and have no
From table 6, the test is observed to be statistically insignificant for
fear for presence of outliers or influential observations in the data.
each of the predictors in the Under-sampling method (p.values >0.05).
The global test is also statistically insignificant in Under-sampling
method. This is after
3.3.2. Parameter Estimates negative coefficient reduces the risk of death and thus raises the expected
survival span.
From the previous section, we noted that the different balancing
In explaining the determinants of child mortality, one therefore is
methods yielded different sample sizes and different predictors from the
interested in the variables with positive coefficient, which are
RSF classification. After diagnostic tests on Cox PH models, the
positively related with the event (mortality) probability, and
respective predictors were fitted to the parsimonious Cox PH model [37]
consequently negatively related with the length of survival. From table
in order to check concurrently the effect of different risk factors on
7, under-sampling method resulted in 9 predictors, out of which only 3
survival time.
were likely to increase the risk of death. Similarly, SMOTE returned 5
predictors that are likely to increase the risk of death out of 7
The results of fitting the Cox model are shown in Table 7. The
important variables which satisfy PH assumptions. Over-sampling and
regression coefficient column marked “Coefficient” gives estimates of the
both-sampling method had 3 and 2 predictors respectively all of which
logarithm of the hazard ratio between the two groups. From the estimates,
had positive coefficients.
a positive coefficient is said to increase the risk of death (hazard) and thus
decrease the expected (average) survival time. On the other hand, a
International Journal of Statistics and Applications 2020, 10(5): 118-130 127
Predictor Coefficient Exp(coefficient) Se(coefficient) ••(> • ) Predictor Coefficient Exp(coefficient Se(coefficient) ••(> • )
V206 2.0637 7.8753 0.3988 2.29e-07 V206 2.2819 9.7956 0.3499 6.94e-11
V207 1.5189 4.5675 0.3728 4.61e-05 V207 1.8688 6.4805 0.3111 1.88e-09
V219 - 0.1912 0.8259 0.2032 0.3466 V203 0.0922 1.0966 0.2903 0.7509
B12 - 0.0589 0.9428 0.3246 0.0697 V219 - 0.1723 0.8418 0.4972 0.7289
HW70 - 0.0002 0.9998 0.0014 0.8667 V238 0.6561 1.9273 0.2286 0.0041
HW71 - 0.0005 0.9995 0.0011 0.6490 V419 - 0.6068 0.5451 0.3061 0.0474
Predictor Coefficient Exp (coefficient) Se(coefficient) ••(> • ) Predictor Coefficient Exp (coefficient Se (coefficient) ••(> • )
HW72 0.0001 1.0000 2.152e-05 4.4e-09 V206 1.8300 6.2339 0.0763 <2e-16
H4M 0.0244 1.025 0.02115 0.25 V207 1.5285 4.6112 0.0730 <2e-16
Its often useful for interpretation to look at the “Exp(coefficient)” good fit according to the concordance Index. Under-sampling
column, which indicates the actual hazard ratio (HR) associated with method gives largest concordance value of
the covariates. A value of regression coefficient greater than zero is 0.91 indicating the best model fit while over-sampling had the smallest
equivalent to a hazard ratio greater than one, which shows that as the concordance value. SMOTE and both-sampling methods have almost
value of the • •ℎ predictor increases (for continuous type covariates), the equal concordance value.
event hazard increases and thus the length of survival decreases.
Table 8. Model fit statistics: Concordance measure
predictor has no impact on survival. From our results, there are 2 Concordant 137 69549 26991 830
Appendix
Table 9. Description of Important variables
Total number of births in the last five years is defined as all births in the months 0 to 59 prior to the month
V208
Reproduction of interview, where month 0 is the month of interview.
(siblings
V214 Imputed duration of the current pregnancy. Total
information)
V218 number of living children.
V219 Total number of living children including current pregnancy. Year of the last
V417 Number of entries in the pregnancy and postnatal care history. Number of entries
Maternity and
V418 in the immunization history.
Feeding
V419 Number of entries in the height and weight table. Height for age standard
HW70 deviation (according to WHO). Weight for age standard deviation (according
HW71 to WHO). Weight for height standard deviations (according to WHO). BMI
Height and Weight
HW72 standard deviations (according to WHO).
and Hemoglobin
HW73
[7] Nasejje, J. B., Mwambi, H. G., & Achia, T. N. (2015). Understanding the
determinants of under-five child mortality in Uganda including the
REFERENCES estimation of unobserved household and community effects using both
frequentist and Bayesian survival analysis approaches. BMC public
[1] Lessmann, S. (2004). Solving Imbalanced Classification health, 15(1),
Problems with Support Vector Machines. In IC-AI ( Vol. 4, pp. 214-220). 1003.
[8] Sreeramareddy, C.T., Kumar, H.N., & Sathian, B. (2013). Time Trends
[2] Tang, Y., Zhang, Y. Q., Chawla, N. V., & Krasser, S. (2008). and Inequalities of Under-Five Mortality in Nepal: A Secondary Data
SVMs modeling for highly imbalanced classification. IEEE Transactions Analysis of Four Demographic and Health Surveys between 1996 and
on Systems, Man, and Cybernetics, Part B (Cybernetics), 39( 1), 281-288. 2011. PLoS ONE, 8(11): e79818. doi:10.1371/journal.pone.0079818.
[3] López, V., Fernández, A., Moreno-Torres, J. G., & Herrera, [9] Gawande, R., Indulkar, S., Keswani, H., Khatri, M.,
F. (2012). Analysis of preprocessing vs. cost-sensitive learning for & Saindane, P. (2019). Analysis and Prediction of Child Mortality in
imbalanced classification. Open problems on intrinsic data India. International Research Journal of Engineering and Technology,
characteristics. Expert Systems with 6(3), 5071-5074.
Applications, 39( 7), 6585-6608.
[10] Zhang, X., Tang, F., Ji, J., Han, W., & Lu, P. (2019). Risk
[4] Yan, Y., Liu, R., Ding, Z., Du, X., Chen, J., & Zhang, Y. Prediction of Dyslipidemia for Chinese Han Adults Using Random Forest
(2019). A parameter-free cleaning method for SMOTE in imbalanced Survival Model. Clinical Epidemiology, 11,
classification. IEEE Access, 7, 23537-23548. 1047.
[5] Lin, E., Chen, Q., & Qi, X. (2020). Deep reinforcement [11] Cassy, A., Saifodine, A., Candrinho, B., do Rosário Martins,
learning for imbalanced classification. Applied Intelligence, M., da Cunha, S., Pereira, F. M., & Gudo, E. S. (2019). Care-seeking
1-15. behaviour and treatment practices for malaria in children under 5 years
in Mozambique: a secondary analysis of 2011 DHS and 2015 IMASIDA
[6] Ayiko, R., Antai, D., & Kulane, A. (2009). Trends and datasets. Malaria journal, 18( 1), 115.
determinants of under-five mortality in Uganda. East African
130 Hellen Wanjiru Waititu et al.: Determinants of Under Five Child Mortality from KDHS Data:
ABalanced Random Survival Forests (BRSF) Technique
[12] Liu, V. (2019). Predicting ovarian cancer survival times: [26] Ofek, N., Rokach, L., Stern, R., Shabtai, A. Fast-CBUS: A
Feature selection and performance of parametric, semi-parametric, fast clustering-based undersampling method for addressing the class
and random survival forest methods. imbalance problem. Neurocomputing 2017, 243, 88–102.
Master Thesis, Simon Fraser University.
[13] Kenya National Bureau of Statistics, Ministry of Health[Kenya], [27] Fiorentini, N.; Losa, M. Handling Imbalanced Data in Road
National AIDS Control Council [Kenya], Kenya Medical Research Crash Severity Prediction by Machine Learning Algorithms.
Institute, National Council for Population and Development [Kenya], Infrastructures 2020, 5, 61.
ICF International.
Kenya demographic and health survey 2014. Nairobi, Kenya, [28] Chawla, N.V., Cieslak, D.A., Hall, L.O., Joshi, A.:
2015. Automatically countering imbalance and its empirical relationship to
cost. Data Min. Knowl. Disc. 17(2), 225–252 (2008)
[14] Corsi, D. J., Neuman, M., Finlay, J. E., & Subramanian,
S. (2012). Demographic and health surveys: A profile.
International Journal of Epidemiology, 41, 1602–1613. [29] Estabrooks, A., Jo, T., Japkowicz, N. A multiple resampling
method for learning from imbalanced data sets. Comput. Intell. 20(1),
[15] Stekhoven, D. J., & Bühlmann, P. (2012). MissForest— 18–36 (2004).
non-parametric missing value imputation for mixed-type data. Bioinformatics,
28(1), 112–118. [30] Batista, G.E.A.P.A., Prati, R.C., Monard, M.C.: A study of
the behaviour of several methods for balancing machine learning training
[16] Ali, H., Salleh, M. N. M., Saedudin, R., Hussain. K., & data. SIGKDD Explor. 6(1), 20–29 (2004).
Mushtaq, M. F. (2019). Imbalance class problems in data mining: a
review. Indonesian Journal of Electrical Engineering and Computer [31] Yen, S.J., Lee, Y.S. Cluster-based under-sampling
Science. 14(2), 1560-1571. approaches for imbalanced data distributions. Expert Syst. Appl. 2009, 36,
5718–5727.
[17] Galar, M., Ferńandez, A., Barrenechea, E., Bustince, H., &
Herrera, F. (2012). A Review on Ensembles for the Class Imbalance [32] Chawla, N.V., Bowyer, K.W., Hall, L.O., & Kegelmeyer,
Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE W.P. (2002). Synthetic Minority Over-sampling Technique.
TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART Journal of Artificial Intelligence Research, 16, 321-357.
C: APPLICATIONS AND REVIEWS.
[33] Torgo, L. (2010). Data Mining using R: learning with
case studies. CRC Press ( ISBN: 9781439810187).
[18] Fernández, H. A., García, L. S., Galar, M., Prati, R. C., http://www.dcc.fc.up.pt/~ltorgo/DataMiningWithR.
Krawczyk, B., & Herrera, F. (2018). Learning from Imbalanced Data
[34] Lunardon, N., Menardi, G., & Torelli, N. (2013). R package
Sets. Springer, Gewerbestrasse 11, 6330 Cham, Switzerland.
ROSE: Random Over-Sampling Examples (version 0.0-3). Università di
Trieste and Università di Padova, Italia.
[19] Zhao, Y., Cen, Y. Data Mining Applications with R; http://cran.r-project.org/web/packages/ROSE/index.html. [p79].
Academic Press: Cambridge, MA, USA, 2013; ISBN
9780124115118.
[35] Ishwaran, H., Kogalurt, U. B., Blackstone, E. H., & Lauer,
[20] Datta, S., Das, S. Near-Bayesian support vector machines for M.S. (2008). Random Survival Forests. The Annals of Applied Statistics, 2(3),
imbalanced data classification with equal or unequal misclassification 841-860.
costs. Neural Netw. 70, 39–52 (2015).
[36] Breiman, L. (2003b). Setting up, using, and understanding
[21] Ertekin, S., Huang, J., Bottou, L., Giles, C.L.: Learning on random forests V4.0. https://www.stat.berkeley.edu/~breima
the border: active learning in imbalanced data classification. In: n/Using_random_forests_v4.0.pdf.
Proceedings of the Sixteenth ACM Conference on Information and
[37] Weathers, W. & Cutler, R. (2017). Comparison of Survival
Knowledge Management, CIKM 2007, Lisbon, 6–10 Nov 2007, pp.
Curves Between Cox Proportional Hazards, Random Forests, and
127–136 (2007).
Conditional Inference Forests in Survival Analysis.
[22] Cateni, S., Colla, V., Vannucci, M. A method for resampling All Graduate Plan B and other reports, 927.
imbalanced datasets in binary classification tasks for real-world https://digitalcommons.usu.edu/gradreports/927.
problems. Neurocomputing 2014, 135, 32–41.
[38] Cox, D. R. (1972). Regression models and life-tables.
[23] He, H., Garcia, E.A. Learning from imbalanced data. IEEE Journal of the Royal Statistical Society. Series B (Methodological),
Trans. Knowl. Data Eng. 2009. 34(2), 187 {220. URL: http://www.jstor.org/stable/2985181.