Arlandionurfauzi (078) Dianrizky

1
PRE-PROCESSING DATA FOREST

FIRES
Arlandio Nur Fawzi (0621154000078)(1), Dian Rizky Maulina (06211540000091)(2)
Dr. Bambang Widjanarko Otok S.Si.,M.Si.(3)
(1)(2)
Statistika, Fakultas Matematika, Komputasi, dan Sains Data,
Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111
E-mail: (1)arlandiofawzi@gmail.com, (2) deemaulina@gmail.com
Abstrak — di Indonesia, kebakaran hutan merupakan bencana Setelah didapatkan data dari pengecekan berkala perlu
yang sering terjadi. Kebakaran hutan bisa terjadi karena dilakukan pre-processing data.
kelalaian manusia atau memang terjadi secara alami. Untuk Pre-processing data merupakan tahapan awal dalam
mengetahui kondisi ini lebih lanjut supaya dapat mencegah mengolah data input sebelum memasuki proses untuk
kebakaran hutan maka diperlukan catatan mengenai hal-hal
metode selanjutnya. Proses ini perlu dilakukan untuk
yang berhubungan dengan hutan. Untuk mencegahnya, maka
dilakukan pengecekan berkala terhadap beberapa variabel mengetahui apakah ada missing data atau missing value,
yang dapat memicu terjadinya kebakaran hutan. Selain itu, outlier, data mengikuti sebaran normal atau tidak. Data
dicatat juga beberapa indeks yang didasari oleh Canadian yang tidak tercatat atau biasa disebut missing data adalah
Forest Fire Weather Index (FWI) system. Setelah didapatkan kejadian dimana terdapat nilai valid di satu atau lebih
data dari pengecekan berkala perlu dilakukan pre-processing variabel tidak ada untuk dianalisis (Hair, 1995)[3]. Apabila
data yang merupakan tahapan awal dalam mengolah data ada missing data maka perlu dilakukan tindakan untuk
input sebelum memasuki proses untuk metode selanjutnya. mengatasi hal tersebut agar tidak menimbulkan dampak
Proses ini perlu dilakukan untuk mengetahui apakah ada dalam hasil analisis. Setelah itu dilakukan pengecekan
missing data, outlier, dan data telah mengikuti sebaran normal
outlier yang dilakukan secara univariate dan multivariate,
atau tidak. Data yang tidak tercatat atau biasa disebut missing
data adalah kejadian dimana terdapat nilai valid di satu atau selanjutnya dilakukan uji distribusi normal univariate dan
lebih variabel tidak ada untuk dianalisis (Hair, 1995). uji distribusi normal multivariate dan tahap terakhir dari
Pengecekan data yang dilakukan oleh peneliti adalah dengan pre-processing data adalah uji homogenitas.
mendeteksi adanya data yang hilang dengan menggunakan Pembuatan laporan ini ditujukan untuk mengetahui
teknik pairwise, mendeteksi data outlier dengan boxplot, dan tahapan-tahapan dalam pre-processing data, mulai dari
menguji kenormalan data dengan uji Kolomogorov dan uji pengecekan missing value, pengecekan outlier secara
Anderson Darling, QQ Plot, uji Shapiro-Wilks. Dari pengujian univariate dan multivariate, data sudah mengikuti sebaran
tersebut didapatkan informasi bahwa variabel FFMC, DC, distribusi normal univariate dan sebaran distribusi normal
DMC memiliki masalah missing value dan temperature tidak
multivariate, dan uji homogenitas data. Selain itu,
ada missing value. Diharapkan dengan adanya pengecekan
secara berkala maka data yang nantinya akan diolah adalah diharapkan dalam pembuatan laporan ini dapat mengasah
data yang valid sehingga tidak menghasilkan kesimpulan yang kompetensi mahasiswa dan membantu mahasiswa dalam
bias. memahami pre-processing data.
Kata kunci — Data, Kebakaran Hutan , Missing Value, Normal, II. TINJAUAN PUSTAKA
Pencilan. A. Missing value
I. PENDAHULUAN Missing value adalah hilangnya informasi atau data
pada sebuah kasus (subjek). Data hilang dapat terjadi
Dewasa ini, banyak terjadi bencana di sekitar kita. Baik karena informasi yang dibutuhkan pada satu atau
itu bencana yang disebabkan oleh manusia maupun yang beberapa variabel tidak diberikan, sulit dicari atau
terjadi secara alami. Salah satu bencana yang terjadi di memang informasi tersebut tidak tersedia.
Indonesia belakangan ini adalah kebakaran hutan. a. Mekanisme Missing Value
Kebakaran itu menimbulkan banyak dampak diantaranya Terdapat tiga mekanisme missing value yaitu:
adalah asap tebal yang mengganggu sistem pernapasan dan 1) Missing Completely at Random (MCAR)
penglihatan. Penyebab terjadinya kebakaran hutan sendiri Sebagai contoh, jika data hilang ditentukan oleh
bisa dikarenakan ulah manusia atau dikarenakan penyebab sebuah koin, maka mekanisme data hilangnya
alami. Ada beberapa variabel yang mempengaruhi adalah MCAR.
terjadinya kebakaran hutan secara alami diantaranya adalah 2) Missing at Random (MAR)
tingkat curah hujan, kecepatan angin, tingkat temperature Sebagai contoh, pada responden perempuan
(Paulo Cortez, 2008)[1]. menolak untuk menjawab pertanyaan tentang berat
Untuk mencegah terjadinya kebakaran hutan, dilakukan badan atau tinggi badan.
pengecekan berkala terhadap beberapa variabel yang dapat 3) Missing Nonignorable at Random (MNAR)
memicu terjadinya kebakaran hutan. Selain itu, dicatat juga Contohnya seseorang tidak menjawab karena
beberapa indeks yang didasari oleh Canadian Forest Fire pendapatan yang diperoleh sangat rendah.
Weather Index (FWI) system. Beberapa indeks yang diukur
tersebut merupakan komponen yang memperhitungkan efek
kelembaban dan bahan bakar pada api (Anonim, 2008)[2].
2
b. Listwise Keterangan :
Listwise adalah teknik yang paling umum untuk dj = mahalanobis distance
menangani missing value (Peugh & Enders, 2004)[4]. 𝑋𝑗 − 𝑋̅ = vektor transpose
Penting memhami bahwa dalam sebagian besar kasus, S = Matriks kovarians
asumsi penting untuk menggunakan salah satu dari teknik Hasil tersebut akan di evaluasi, jika terdapat nilai kurang
ini adalah bahwa Missing Nonignorable at Random dari 0,001 maka observasi tersebut dikatakan multivariate
(MCAR). Dengan kata lain, peneliti harus mendukung outlier.
bahwa probabilitas data yang hilang pada variabel
dependen mereka tidak berhubungan dengan variabel C. Uji Normalitas
independen lainnya serta variabel dependen sendiri. Tujuan dari uji normalitas adalah untuk mengetahui
Teknik listwise menambah semua data untuk kasus yang apakah distribusi sebuah data mengikuti atau mendekati
memiliki satu atau lebih missing value. distribusi normal, yakni distribusi data dengan bentuk
c. Pairwise lonceng. Data yang baik adalah data yang mempunyai pola
Pariwise merupakan teknik penambahan data yang seperti distribusi normal. Uji normilitas dibagi menjadi dua
berpasangan untuk meminimalkan kerugian yang terjadi uji normalitas univariate dan multivariate.
dalam penghapusan listwise dengan menggunakan matriks a. Normal Univariate
korelasi. Korelasi mengukur kekuatan hubungan antara Distribusi normal adalah distribusi normal yang
dua variabel. Untuk setiap pasangan variabel dimana data memiliki rata-rata nol dan simpangan baku satu. Distribusi
tersedia, koefisien korelasi akan memperhitungkan data ini juga dijuluki kurva lonceng (bell curve) karena
tersebut. Dengan demikian, penghapusan berpasangan grafik fungsi kepekatan probabilitasnya mirip dengan
memaksimalkan semua data yang tersedia (Hawkins, bentuk lonceng. Pengujian normal secara univariate dapat
1980)[6]. dilakukan dengan uji Kolmogorov Smirnov.
1. Uji Kolmogorov Smirnov
B. Outlier Uji Kolmogorov-Smirnov biasa digunakan untuk
Outlier adalah data yang secara signifikan berbeda dari memutuskan jika sampel berasal dari populasi dengan
data lainnya yang ada (Hawkins, 1980). Outlier dapat
distribusi tertentu juga digunakan untuk
ditemukan antara situasi univariate dan multivariate.
menguji ‘goodness of fit‘ antar distribusi sampel dan
a. Outlier Univariate
distribusi lainnya, Uji ini membandingkan serangkaian
Deteksi terhadap ada tidaknya univariate outlier dapat
data pada sampel terhadap distribusi normal serangkaian
dilakukan dengan menentukan nilai ambang batas yang
akan dikategorikan sebagai outlier dengan cara nilai dengan mean dan standar deviasi yang sama.
mengkonversi nilai data penelitian ke dalam standard Singkatnya uji ini dilakukan.
score atau z-score. (Hair, 1995)[3]. Observasi data yang b. Normal Mutivariate
memiliki nilai z-score ≥ ± 3,0 akan dikategorikan sebagai Normal multvariate merupakan suatu distribusi yang
univariate outlier. Rumus untuk mengkonversikan data diperoleh dari perluasan distribusi normal univariate.
menjadi z-score adalah sebagai berikut. Beerikut adalah hipotesis untuk uji normal multivariat,
𝑋 −𝜇
𝑧 − 𝑠𝑐𝑜𝑟𝑒 = 𝑖 (1) - Hipotesis
𝜎
Keterangan : H0:Data mengikuti sebaran distribusi
x = variabel independent normal multivariate.
i = observasi ke , i= 1,2,3, … H1 :Data tidak mengikuti sebaran distribusi
𝜇 = rata-rata hasil obervasi variabel x normal multivariate.
𝜎 = standart deviasi hasil obervasi variabel x. - Statistik uji
b. Outlier Multivariate 𝑑𝑗 2 = (𝑋𝑗 − 𝑋̅)′𝑆 −1 (𝑋𝑗 − 𝑋̅) (2.5)
Evaluasi terhadap multivariate outlier perlu dilakukan Keterangan :
karena walaupun data yang dianalisis menunjukkan tidak dj = mahalanobis distance
ada outlier pada tingkat univariate, namun observasi- 𝑋𝑗 − 𝑋̅ = vektor transpose
observasi tersebut dapat menjadi outlier bila sudah S = Matriks kovarians
dikombinasikan. Jarak mahalanobis (The Mahalanobis - Keputusan
2
Distance) untuk tiap-tiap observasi dapat dihitung dan Tolak H0 jika dj2 > 𝑋(𝑝,0.5) , dimana p adalah banyaknya
akan menunjukkan jarak sebuah observasi dari rata-rata variabel independen.
semua variabel dalam sebuah ruang multidimensional
(Ferdinand, 2000)[5]. D. Fire Weather Index
Evaluasi multivariate outlier dengan cara deteksi Fire Weather Index (FWI) atau indeks cuaca kebakaran
outlier dari hasil scatter plot dan dengan bantuan software pada hutan adalah sistem Canada dalam tingkat bahaya
SPSS. Evaluasi dengan scatter plot dikatakatan terdapat kebakaran. Terdapat beberapa komponen dalam penentuan
outlier jika terlihat nilai z data bernilai diatas 3. Sementara indeks tersebut. Komponen tersebut adalah FFMC, DMC,
dari hasil SPSS akan diperoleh jarak mahalonobis DC, ISI, dan BUI. FFMC atau Fine Fuel Moisture Code
berdasarakan chi-square pada derajat bebas sebesar jumlah menunjukkn kadar air permukaan sampah yang
variabel independen pada tingkat p <0,001 (tergantung mempengaruhi munculnya api dan penyebaran api. DMC
peneliti). Jarak mahalonobis dapat dihitung dengan rumus atau Duff Moisture Code dan DC atau Drought Code
sebagai berikut. mewakili kadar air dari lapisan organik baik dangkal atau
𝑑𝑗 2 = (𝑋𝑗 − 𝑋̅)′𝑆 −1 (𝑋𝑗 − 𝑋̅) (2) dalam yang bisa mempengaruhi intensitas kebakaran.
Sementara ISI atau Initial Spread Index adalah skore
3
kecepatan menyebarnya suatu kebakaran. Dan BUI atau Untuk mengisi missing value pada data, dapat
Buildup Index merupakan jumlah bahan bakar yang menggunakan Tabel 3 yaitu output dari listwise. Untuk
tersedia (Anonim, 2008)[2]. tahap selanjutnya, kami menggunakan pairwise karena
Indeks FWI menjadi indikator intensitas kebakaran. pada listwise pengisian missing value hanya dengan
Meskipun skala yang digunakan berbeda-beda, nilai-nilai listwise measn saja tanpa melihat korelasi antar variabel-
yang tinggi menunjukkan kondisi kebakaran yang semakin variabel nya sehingga kurang representatif terhadap
parah. Penyebab terjadinya kebakaran hutan dan luasan variabel.
area yang terjadi kebakaran dapat diindikasi dengan indeks b. Pairwise
FWI dan faktor lainnya seperti suhu udara, kecepatan Dengan menggunakan pairwise maka untuk mengisi
angina, dan hujan (Paulo Cortez, 2008)[1]. missing value berdasarkan tabel pairwise means pada
Tabel 4 dengan melihat pairwise correlations variabel nya
III. . METODELOGI PENELITIAN pada Tabel 5. Pada data ke-3, terdapat 3 variabel missing
A. Sumber Data value, yaitu pada variabel FFMC dan DC.. Pertama akan
Sumber data yang digunakan dalam laporan ini adalah mengisi data pada FFMC dengan melihat korelasi antara
data sekunder yang diperoleh dari UCI Data Sets yaitu data FFMC dengan DC pada pairwise correlations.
Forest Fires tahun 2008. Sampel data pada Forest Fires Tabel 4. Pairwise Mean
sebanyak 200 data. FFMC DMC DC Temperature
B. Variabel Penelitian FFMC 91,1236 115,9312 526,1026 18,3184
Variabel penelitian yang digunakan ditunjukkan pada DMC 91,0236 114,8483 522,3050 18,3584
Tabel 1 sebagai berikut. DC 91,1128 114,1321 530,5352 18,7575
Tabel 1. Variabel Penelitian Temperatur 91,1236 114,8483 530,5352 18,5410
No Variabel Deskripsi
1 X1 FFMC (The Fuel Fine Moisture Code). Tabel 5. Pairwise Correlations
2 X2 DMC (The Duff Moisture Code)
3 X3 DC (The Drought Code) FFMC DMC DC Temperature
4 X4 Temperatur atau suhu dalam celciu FFMC 1
5 Y Area hutan yang terbakar dalam ha. DMC ,141 1
C. Langkah Analisis DC ,067 ,009 1
Langkah analisis pada pembuatan laporan ini adalah: Temperature -,043 ,074 -,037 1
1. Melakukan input data yang telah didapat.
2. Melakukan deteksi missing value. Lalu dengan melihat Tabel 4, nilai FFMC dengan DC
3. Melakukan imputasi missing value. yaitu 91,0236. Untuk mengisi data pada DC dengan
4. Melakukan deteksi outlier secara univariate. melihat kolom DC dengan baris DC yaitu 114,8483.
5. Melakukan deteksi outlier secara multivariate. Begitu seterusnya hingga data tidak terdapat missing value.
6. Melakukan identifikasi dan pengujian normal B. Outlier
univariate. a. Univariate
7. Melakukan identifikasi dan pengujian normal secara Untuk mengetahui apakah terdapat outlier pada
multivariate. variabel Y dapat menggunakan standardized value. Jika
8. Interpretasi data standardize value (|Z|) > 3 pada minimal n=100 maka
9. Membuat kesimpulan terdapat outlier. Dengan menggunakan software SPSS
dapat diketahui standardize value pada variabel Y. Hasil
IV. ANALISIS DAN PEMBAHASAN dari output SPSS dengan |Z| > 3 yang ditampilkan dalam
A. Missing Value Tabel 6.
Total missing value pada tiap variabel dapat Tabel 6 Data Outlier Univariate
diketahui degan software SPSS dan ditampilkan dalam Data ke- Zarea
Tabel 2. 1 -0,30927
Tabel 2. Total Missing Value
2 -0,30927
Missing
Count Percent 3 -0,30927
FFMC 26 13,0 6 -0,30927
DMC 22 11,0 : :
DC 21 10,5
Temperature 0 ,0 191 3,80431
192 -0,30927
Dalam mengisi value terdapat berbagai cara agar
data tidak menghasilkan missing value 197 -0,30927
a. Listwise
Tabel 3. Listwise Means b. Multivariate
Number of Pada kasus multivariate, agar dapat mendeteksi outlier
cases FFMC DMC DC Temperature maka digunakan mahalanobis dengan variabel dependent
141 91,0383 114,7681 522,2418 18,3270 adalah Y dan variabel independent adalah X1 – X4.
Dengan menggunakan software SPSS dapat maka didapat
4
hasil square distane dan terdapat sebanyak 2 data outlier

dengan p < 0,001 seperti pada Tabel 7.
Tabel 7. Data Outlier Multivariate
p Data ke-
0 14
0 26
Dari pengecekan outlier secara univariate dan
multivariate, data akan dihapus apabila hasil dari
pengujian outlier univariate muncul pada pengujian Gambar 2. Normal Q-Q Plot dj2
outlier multivariate dan didapat data ke-26 muncul di Berdasarkan Gambar 2 dapat diketahui bahwa
kedua pengujian outlier maka data ke-26 dihapus. mahalonobis distance tidak berada pada garis normal
C. Uji Normal karena plot data tidak linier. sehingga dapat dikatahui pada
Tahapan berikutnya dilakukan pengujian normalitas Tabel 9 yaitu hasil dari Shapiro-Wilks yaitu P-value (sig.)
terhadap seluruh variabel X. Pengujin normal dilakukan < 0,05. Sehingga dapat dikatakan bahwa data tidak
secara univariate dan multivariate. Berikut hasil pengujian berdistribusi normal multivariate.
Tabel 9. Uji Shapiro-Wilks
normal.
a. Uji Normal Univariate dengan Kolmogorov-Smirnov data: x
dan Anderson-Darling MVW = 0.80503, p-value < 2.2e-16
Pegujian normal univariate dengan Kolmogorov-
V. KESIMPULAN DAN SARAN
Smirnov dilakukan dengan bantuan software MINITAB.
Hasil pengujian terlihat pada Gambar 1. A. Kesimpulan
1. Pada data Forest Fire terdapat variabel idependent
yang memiliki masalah missing value yaitu FFMC,
DC, dan DMC sedangkan untuk variabel temperature
tidak ada missing value. Variabel yang memiliki
missing value dilakukan imputasi dengan metode
pairwise karena penanganan missing value akan lebih
representatif dengan melihat korelasi antar variabel
nya.
2. Hasil pengujian outlier terhadap variabel data Forest
Fire terdapat banyak data dinyatakan outlier univariate
Gambar 1. Scatter Plot Uji Normalitas Univariat dan 2 data dinyatakan outlier multivariate. Dari
pengecekan outlier secara univariate dan multivariate,
Tabel 8. Uji Normalitas Anderson-Darling data akan dihapus apabila hasil dari pengujian outlier
Variabel P-Value univariate muncul pada pengujian outlier multivariate
<0,005
Area dan didapat data ke-26 muncul di kedua pengujian
<0,005 outlier maka data ke-26 dihapus.
FFMC
3. Hasil pengujian normal univariate menunjukkan
<0,005
DMC bahwa variabel temperature memiliki sebaran data
<0,005 berdistribusi normal dengan menggunakan
DC
Kolmogorov-Smirnov dan Anderson-Darling.
0,182
Tempereatur Sementara secara multivariate data Forest Fire tidak
mengikuti sebaran distribusi normal karena P-value
Berdasarkan Gambar 1 dapat diketahui bahwa variabel
dari jarak mahalanobis kurang dari 0,05
bahwa variabel temperature berdistribusi normal dengan
B. Saran
nilai P-value > 0,05 dan variabe lainnya seperti area,
Hasil analisa data Forest Fire menunjukkan bahwa
FFMC, DMC, dan DC tidak berdistribusi normal karena P-
data tidak memenuhi asumsi distribusi normal, sehingga
value < 0,05. Hasil ini memperkuat kesimpulan bahwa
saran dari peniliti sebaiknya data tidak digunakan untuk
variabel FFMC, DMS, DC, nilai observasinya belum
penelitian selanjutnya karena bisa menghasilkan estimasi
mengikuti sebaran distribusi normal univariate.
yang kurang tepat dan bias.
Hal itu juga ditegaskan saat peneliti melakukan
pengujian normalitas dengan uji Anderson Darling. Dilihat
dari nilai p-value pada Tabel 8 bahwa hanya variabel
temperatur saja yang memiliki nilai lebih dari taraf DAFTAR PUSTAKA
signifikansi (0,005) dan variabel lainnya memiliki nilai [1] Paulo Cortez, A. M. (2008, 2 9). Forest Fire Data Set.
kurang dari taraf signifikansi. Retrieved from UCI Data: https://archive.ics.uci.edu/
b. Normal Multivariate dengan Q-Q Plot dan Shapiro- ml/datasets/Forest+Fires
Wilks [2]Anonim. (2008, 07 11). Forest. Retrieved from Naturals
Resource Canada http://cwfis.cfs.nrcan.gc.ca/
background/summary/fwi
5
[3] Hair, J. (1995). Multivariate Analysis with Reading.

New Jersey: Pearson Prentice Hall.
[4] Peugh, J., & Enders, C. (2004). Missing Data in
Educational Research. Review of Educational
Reasearch.
[5] Ferdinand, A. (2000). Structural Equation Modeling
dalam Penelitian Manajemen. Semarang: BP
Universitas Diponegoro.
[6] Hawkins, D. M. (1980). Identification of Outliers.
London: Chapman and Hall.

Arlandionurfauzi (078) Dianrizky

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Arlandionurfauzi (078) Dianrizky

Diunggah oleh

Hak Cipta:

Format Tersedia

1

PRE-PROCESSING DATA FOREST

hasil square distane dan terdapat sebanyak 2 data outlier

[3] Hair, J. (1995). Multivariate Analysis with Reading.

Anda mungkin juga menyukai