Anda di halaman 1dari 41

LAPORAN PRAKTIKUM

METODE MULTIVARIATE TERAPAN

MODUL I

ANALISIS PRE PROCESSING DATA KUALITAS UDARA DI


BEIJING MUNICIPAL ENVIRONMENTAL MONITORING
CENTER

Oleh :
Fita Asri Karomah 10611910000008
Lidwina Galuh Wandira 10611810000023

Asisten Dosen
Fifi Dwi Haryanti

Dosen :
Ir. Sri Pingit Wulandari, M.Si
Mike Prastuti, S.Si, M.Si

Program Studi Sarjana Terapan


Departemen Statistika Bisnis
Fakultas Vokasi
Institut Teknologi Sepuluh Nopember
Surabaya
2022
ABSTRAK
Salah satu hal yang memiliki peran besar bagi kesehatan adalah udara.
Tidak hanya berdampak bagi kesehatan manusia, kondisi udara yang baik
akan memberikan dampak yang baik bagi kehidupan di alam. Baik tidaknya
suatu udara dapat dilihat dari kandungannya. Oleh karena itu, dilakukan
pengamatan berdasarkan data sekunder dari UCL Machine Learning
berupa kualitas udara di Beijing menyangkut lima variabel berupa PM10
concentration (ug/m3), SO2 concentration (ug/m3), NO2 concentration
(ug/m3), CO concentration (ug/m3), dan O3 concentration (ug/m3). Karena
jumlah data kualitas udara di Beijing dalam jumlah besar, analisis
dilakukan menggunakan teknologi komputasi dan media penyimpanan
yang memungkinkan kita untuk melakukan penyimpanan data dalam jumlah
besar. Analisis dilakukan dengan data pre processing. Data pre processing
adalah suatu proses atau langkah yang dilakukan untuk membuat data
mentah menjadi data yg berkualitas. Berdasarkan metode tersebut maka
informasi yang dapat diambil dari data kualitas udara di Beijing adalah hasil
analisis missing value baik secara univariate maupun multivariate tidak
terdapat variabel yang perlu dihapus dalam proses analisis. Hasil deteksi
outlier menunjukkan terdapat data outlier pada variabel PM10, SO2, NO2, dan
CO. Adapun untuk hasil pemeriksaan dan pengujian distribusi normal secara
univariate maupun multivariate data untuk variabel PM 10, SO2, NO2, dan CO
tidak berdistribusi normal.
Kata kunci: Kualitas Udara, Missing Value , Preprocessing Data, Outlier.

ii
DAFTAR ISI
Halaman
ABSTRAK..............................................................................................................ii
DAFTAR ISI.........................................................................................................iii
DAFTAR TABEL...................................................................................................v
DAFTAR GAMBAR.............................................................................................vi
DAFTAR LAMPIRAN.......................................................................................viii
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang.........................................................................................1
1.2 Rumusan Masalah....................................................................................2
1.3 Tujuan......................................................................................................2
1.4 Manfaat....................................................................................................2
1.5 Batasan Masalah......................................................................................3
BAB II TINJAUAN PUSTAKA............................................................................4
2.1 Missing Value..........................................................................................4
2.1.1 Deteksi Missing Value....................................................................4
2.1.2 Penanganan Missing Value............................................................4
2.2 Deteksi Outlier........................................................................................6
2.2.1 Deteksi Outlier Data Univariat......................................................6
2.2.2 Deteksi Outlier Data Multivariat...................................................6
2.3 Pemeriksaan dan Pengujian Asumsi..........................................................7
2.3.1 Pemeriksaan dan Pengujian Asumsi Distribusi Normal
Univariat.........................................................................................7
2.3.2 Pemeriksaan dan Pengujian Asumsi Distribusi Normal
Multivariat......................................................................................8
2.4 Boxplot.......................................................................................................9
2.5 Scatterplot..................................................................................................9
2.6 Kualitas Udara..........................................................................................10
2.6.1 PM10 concentration (ug/m3)..........................................................10
2.6.2 SO2 concentration (ug/m3)............................................................10
2.6.3 NO2 concentration (ug/m3)...........................................................11
2.6.4 CO concentration (ug/m3)............................................................11
iii
Halaman
BAB III METODOLOGI PENELITIAN..........................................................12
3.1 Sumber Data.............................................................................................12
3.2 Variabel Penelitian...................................................................................12
3.3 Struktur Data............................................................................................12
3.4 Langkah Analisis......................................................................................12
3.5 Diagram Alir............................................................................................13
BAB IV ANALISIS DAN PEMBAHASAN.......................................................14
4.1 Analisis Missing Value pada Data Kualitas Udara di Beijing
Secara Univariate dan Multivariate.........................................................14
4.1.1 Deteksi Missing value..................................................................14
4.1.2 Mengatasi Missing value..............................................................15
4.2 Deteksi Outlier pada Data Kualitas Udara di Beijing Secara
Univariate dan Multivariate.....................................................................16
4.2.1 Deteksi Outlier Secara Univariate...............................................16
4.2.2 Deteksi Outlier Secara Multivariate............................................17
4.3 Pemeriksaan dan Pengujian Distribusi Normal pada Data
Kualitas Udara di Beijing.........................................................................18
4.3.1 Pemeriksaan dan Pengujian Distribusi Normal Secara
Univariate....................................................................................18
4.3.2 Pemeriksaan dan Pengujian Secara Multivariate.........................22
BAB V KESIMPULAN DAN SARAN...............................................................24
5.1 Kesimpulan..............................................................................................
5.2 Saran.........................................................................................................
DAFTAR PUSTAKA
LAMPIRAN

iv
DAFTAR TABEL

Halaman
Tabel 3.1 Variabel Penelitian................................................................................12
Tabel 3.2 Struktur Data.........................................................................................12
Tabel 4.3 Uji Little's MCAR.................................................................................15
Tabel 4.4 Penaganan Missing Value.....................................................................15
Tabel 4.5 Deteksi Outlier Secara Univariate.........................................................17

v
DAFTAR GAMBAR

Halaman
Gambar 2.1 Contoh Boxplot...................................................................................9
Gambar 2.2 Contoh Scatterplot............................................................................12
Gambar 3.1 Diagram Alir.....................................................................................15
Gambar 4.1 Boxplot Deteksi Outlier....................................................................15
Gambar 4.2 Q-Q plot PM10...................................................................................17
Gambar 4.3 Q-Q plot SO2
Gambar 4.4 Q-Q plot NO2
Gambar 4.5 Q-Q plot CO20
Gambar 4.6 Q-Q plot O3
Gambar 4.7 Scatterplot Data Variabel

vi
DAFTAR LAMPIRAN

.....................................................................................................................Halaman
Lampiran 1. Data Kualitas Udara di Beijing
Lampiran 2. Data Setelah ditangani Missing Value
Lampiran 3. Output Software SPSS
Lampiran 4. Output Software Minitab
Lampiran 5. Perhitungan Manual
Lampiran 6. Dokumentasi

vii
BAB I
PENDAHULUAN

1.1 Latar Belakang


Udara yang kita hirup belum tentu sepenuhnya bersih. Terkadang tanpa
disadari, kita lebih sering menghirup udara yang sudah tercemar atau terkena
polusi, sehingga dapat membahayakan kesehatan tubuh. Tentunya udara yang baik
ialah yang memiliki kualitas baik dan tidak mengandung unsur berbahaya.
Semakin baik kualitasnya, udara yang dihirup tidak akan membahayakan
kesehatan tubuh. Sebaliknya, jika kualitasnya buruk, udara tersebut dapat
menimbulkan dampak negatif bagi makhluk hidup. Oleh karena itu, data
mengenai kondisi udara diperlukan sehingga tidak heran di era perkembangan
tekonologi informasi ini beberapa negara telah mencatat dan menyimpan data
tersebut dalam jumlah yang cukup besar. Hal tersebut mengakibatkan jumlah data
berkembang pesat, sehingga menyebabkan detonasi data. Detonasi data tersebut
menyebabkan masalah pada kualitas data yang tidak menentu, sehingga perlu
adanya pembenahan data atau lebih dikenal dengan istilah Pre processing data.
Berkaitan dengan hal tersebut pada kesempatan ini akan dilakukan pre processing
data kualitas udara dari Beijing Municipal Environmental Monitoring Center
tahun 2013 hingga 2017.
Pre processing data adalah suatu proses atau langkah yang dilakukan untuk
membuat data mentah menjadi data yang berkualitas. Deteksi outlier masuk dalam
proses Pre-processing data. Deteksi outlier dapat didefinisikan sebagai pencarian
terhadap sebagian kecil data yang memiliki sifat berbeda jika dibandingkan
dengan keseluruhan data. Sebelum dilakukan analisis, sebuah data harus
dipersiapkan melalui tahapan Pre-processing dengan meninjau kelayakan data,
sehingga layak dan memenuhi syarat untuk dilakukan analisis lebih lanjut (Ian H
& Frank, 2005).. Selain itu Pre-processing data juga menangani terkait missing
value yang merupakan kejadian dimana informasi yang tidak tersedia untuk
sebuah pengamatan (kasus). Missing value menyebabkan adanya sel-sel kosong
pada satu atau beberapa variabel (Johnson & Winchern, 2007).
Data yang digunakan dalam penelitian ini adalah data sekunder dari UCL
Machine Learning. Variabel yang digunakan dalam penelitian ini adalah PM10
1
concentration (ug/m3), SO2 concentration (ug/m3), NO2 concentration (ug/m3), CO
concentration (ug/m3), dan O3 concentration (ug/m3). Data yang diperoleh
kemudian dianalisis menggunakan analisis missing value, selanjutnya dilakukan
deteksi outlier terhadap data tersebut dilakukan pemeriksaan dan pengujian
distribusi normal sehingga dapat dilakukan penarikan kesimpulan dan saran.
1.2 Rumusan Masalah
Rumusan masalah pada praktikum Pre processing data analisis kualitas
udara Beijing berdasarkan data dari Beijing Municipal Environmental Monitoring
Center pada tanggal 1 Maret 2013 sampai 28 Februari 2017 adalah sebagai
berikut.
1. Bagaimana hasil deteksi dan cara penanganan adanya missing value pada
data analisis kualitas udara di Beijing?
2. Bagaimana hasil deteksi adanya kasus outlier secara univariat dan
multivariat pada data analisis kualitas udara di Beijing?
3. Bagaimana hasil pemeriksaan dan pengujian asumsi distribusi normal secara
univariat dan multivariat pada data analisis kualitas udara di Beijing?
1.3 Tujuan
Tujuan yang ingin dicapai berdasarkan rumusan masalah yang telah dibuat
adalah sebagai berikut:
1. Mengetahui hasil deteksi dan cara penanganan adanya missing value pada
data analisis kualitas udara di Beijing.
2. Mengetahui hasil deteksi adanya kasus outlier secara univariat dan
multivariat pada data analisis kualitas udara di Beijing.
3. Mengetahui hasil pemeriksaan dan pengujian asumsi distribusi normal
secara univariat dan multivariat pada data analisis kualitas udara di Beijing.
1.4 Manfaat
Manfaat dari praktikum ini bagi peneliti adalah dapat mengaplikasikan ilmu
mengenai Pre processing pada data analisis kualitas udara di Beijing pada tanggal
1 Maret 2013 sampai 28 Februari 2017. Manfaat bagi pembaca adalah agar
pembaca mengetahui jika terdapat data yang hilang atau tidak lengkap sehingga
diharapkan lebih berhati-hati dalam memperhatikan data untuk mencari informasi
yang dibutuhkan.
2
1.5 Batasan Masalah
Batasan masalah pada praktikum ini menggunakan lima variabel, yaitu
PM10 concentration (ug/m3), SO2 concentration (ug/m3), NO2 concentration
(ug/m3), CO concentration (ug/m3), dan O3 concentration (ug/m3) serta diambil
300 data tentang analisis kualitas udara di Beijing pada tanggal 1 Maret 2013
sampai 28 Februari 2017.

3
BAB II
TINJAUAN PUSTAKA

2.1 Missing Value


Missing value merupakan kejadian dimana informasi tidak tersedia untuk
sebuah pengamatan atau kasus. Missing data terjadi karena beberapa sebab antara
lain informasi tentang suatu objek tidak diberikan, sulit dicari bahkan memang
informasi tersebut tidak ada. Missing value menyebabkan adanya sel-sel kosong
pada satu atau beberapa variabel. Tahap analisis missing value adalah
mengatasinya dengan mengisi missing data (Johnson & Winchen, 2007).
2.1.1 Deteksi Missing Value
Data hilang atau Missing Data atau Missing value dapat diartikan
sebagai data atau informasi yang “hilang” atau tidak tersedia mengenai subjek
penelitian pada variabel tertentu akibat faktor non sampling error. Faktor non
sampling error yang dimaksud adalah interviewer recording error,
respondent inability error, dan respondent unwillingness error. Dalam
beberapa kasus, cara yang paling sederhana untuk mengatasi data tidak lengkap
dengan menghilangkan data tersebut dan membatasi perhatian pada data yang
mengandung pengamatan lengkap saja. Namun, jika data yang hilang dalam
jumlah yang cukup besar menyebabkan terjadinya peringkatan kesalahan secara
keseluruhan dan dapat menurunkan ketepatan pendugaan (Judith dkk, 2009).
2.1.2 Penanganan Missing Value
Dalam beberapa kasus, nilai tidak tersedia sama sekali untuk observasi.
Meski demikian, kita tetap perlu menangani nilai-nilai yang hilang tersebut
sebelum melangkah lebih jauh. Tidak ada satu teknik standar atau solusi umum
untuk menangani nilai yang hilang, tetapi ada beberapa cara yang dapat kita
gunakan bergantung pada kasus yang kita hadapi untuk menangani nilai yang
hilang dalam data (Judith dkk, 2009). Beberapa teori menyatakan syarat-syarat
dalam pengisian missing value sebagai berikut (Johnson & Winchen, 2007).
A. Variabel kategorik:
i) Jika missing value < 5%, menggunakan List-wise option.
ii) Jika missing ≥ 5%, definisikan missing value sebagai sebuah kategori baru.

4
B. Variable kuantitatif:
i) Jika missing value < 5%, menggunakan List-wise option.
ii) Jika antara 5% dan 15%, menggunakan replace missing value. Jika lebih
dari 15%, hapus variabel atau observasi.
Berikut merupakan beberapa tipe penanganan missing value.
1. Missing Completely at Random (MCAR)
Missing Completely at Random (MCAR) yang berarti bahwa missing
data terjadi secara acak dari sampel lengkap. Berikut penulisan hipotesis secara
statistik.
H0: Data yg hilang bersifat random atau MCAR
H1: Data yg hilang bersifat non-random atau MARET
Jika probabilitas hilang sama untuk semua kasus, maka data dikatakan
hilang seluruhnya secara acak (MCAR). Secara efektif menyiratkan bahwa
penyebab data yang hilang tidak terkait dengan data. Akibatnya, kita dapat
mengabaikan banyak kerumitan yang muncul karena data hilang, selain hilangnya
informasi secara nyata (Judith dkk, 2009).
2. Missing at Random (MAR)
Missing at Random (MAR) merupakan distribusi data yang hilang pada
suatu atribut tergantung pada data pengamatan tetapi tidak tergantung pada
missing data. MAR yang berarti bahwa probabilitas sebuah observasi dari
missing data biasanya berkaitan dengan informasi yang diberikan responden
dengan suatu alasan untuk tidak memberikan data. Mekanisme missing data pada
MAR yang mana data yang hilang tidak tergantung pada nilai data yang
hilang, tetapi tergantung pada nilai data yang teramati (Judith dkk, 2009).
3. Missing Not at Random (MNAR)
Missing not at Random (MNAR) yang berarti bahwa probabilitas dari
sebuah observasi yang hilang tidak derkaitan dengan hasil observasi lain.
Sehingga nilainya tersebut berkaitan dengan dirinya sendiri. data MNAR bahwa
data yang hilang secara sistematis berkaitan dengan data yang belum teramati,
yaitu terkait dengan peristiwa atau faktor yang tidak diukur oleh peneliti. Namun,
jika analisis kasus lengkap bias, namun fakta bahwa sumber data yang hilang itu

5
sendiri tidak terukur berarti bahwa (secara umum) masalah ini tidak dapat
ditangani dalam analisis dan perkiraan efeknya kemungkinan besar akan bias
(Judith dkk, 2009).

2.2 Deteksi Outlier


Data outlier disebut juga dengan data pencilan. Pengertian dari outlier
adalah data observasi yang muncul dengan nilai-nilai ekstrim, baik secara
univariat ataupun multivariat, yang dimaksud dengan nilai-nilai ekstrim dalam
observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai
lain dalam kelompoknya. Untuk mendeteksi adanya data outlier atau tidak
dapat diidentifikasi dari perspektif univariat, bivariat atau multivariate
berdasarkan pertimbangan banyak variable atau karakteristik. Peneliti
sebaiknya menggunakan perspektif tersebut untuk mencari pola yang konsisten
untuk mengidentifikasi data outlier (Abraham & Steiner, 2000).
2.2.1 Deteksi Outlier Data Univariat
Outlier univariat adalah outlier yang disebabkan oleh variabel terikat atau
variabel dependen. Dapat diartikan yaitu apabila variabel dependen terdapat
outlier, maka besar kemungkinan akan terjadi outlier univariat. Identifikasi
univariat untuk mengidentifikasi distribusi dari masing-masing variable pada
analisis dan memilih data outlier yang memiliki range tinggi atau rendah dari
distribusi tersebut. Masalah utama yaitu membuat ambang batas untuk data
outlier tersebut. Pendekatan pertama mengkonversikan data ke nilai yang
standar, dengan nilai rata-rata 0 dan deviasi standar 1 (Abraham & Steiner,
2000).
2.2.2 Deteksi Outlier Data Multivariat
Outlier Multivariat adalah outlier yang disebabkan oleh sekumpulan
variabel bebas atau variabel independen. Apabila satu atau beberapa variabel
bebas terdapat nilai-nilai ekstrim, maka ada kemungkinan bisa terjadi outlier
multivariat. Karena analisis multivariate melibatkan lebih dari dua
variabel, metode bivariat menjadi tidak cocok karena beberapa alasan.
Pertama, mereka membutuhkan banyak grafik, seperti yang telah dijelaskan
sebelumnya, ketika banyak variabel mencapai ukuran yang cukup. Kedua,
mereka dibatasi pada dua dimensi (variabel). Walaupun demikian, ketika
6
lebih dari dua variabel dipertimbangkan, peneliti membutuhkan rata-rata untuk
mengukur posisi multidimensional untuk masing-masing observasi yang relative
terhadap beberapa poin. Kejadian ini disebut dengan ukuran D2 Mahalanobis,
taksiran multivariate untuk masing-masing observasi pada setiap data set
variabel. Metode ini untuk mengukur jarak dari masing-masing observasi pada
ruang multidimensional dari tengah rata-rata untuk semua observasi, menyediakan
nilai sendiri untuk masing-masing observasi tidak peduli berapa banyak variabel
yang dipertimbangkan. Semakin tinggi nilai D2 mempresentasikan observasi yang
semakin jauh dibuang dari distribusi general dari observasi pada ruang
multidimensional. Metode ini juga memiliki kekurangan yaitu hanya
menyediakan taksiran secara keseluruhan (Abraham & Steiner, 2000).

2.3 Pemeriksaan dan Pengujian Asumsi


Memeriksa residual berdistribusi normal dilakukan untuk melihat apakah
residual memenuhi asumsi berdistribusi normal dan apakah varians dari variabel
pengamatan memenuhi asumsi homoskedastisitas. Berikut ini pengujian asumsi
yang perlu dilakukan agar memenuhi asumsi residual.
2.3.1 Pemeriksaan dan Pengujian Asumsi Distribusi Normal Univariat
Distribusi normal merupakan suatu alat statistika yang sangat penting untuk
menaksi dan meramalkan peristiwa-peristiwa yang lebih luas. Distribusi normal
memiliki kurva yang simetris membentuk suatu lonceng. Uji distribusi normal
merupakan pengujian yang digunakan untuk mengetahui apakah distribusi nilai
dalam sampel sesuai dengan distribusi teoritis, biasanya distribusi normal.
Distribusi ini bertujuan untuk mengetahui apakah sebaran data berdistribusi
normal atau tidak (Gaspersz, 2001). Untuk pengujian distribusi normal secara
univariat dapat dilakukan dengan menggunakan Q-Q Plot dan uji Kolmogorov-
Smirnov.
1. Q-Q Plot
QQ-Plot, depat diketahui simpangan terbesar dari garis normalnya. Semakin
jauh suatu titik dari garis normalnya, maka data pengamatan tersebut memiliki
variabilitas yang lebih besar dari data pengamatan yang dekat dengan garis
normal. Pengujian QQ-plot menggunakan pengujian hipotesis sebagai berikut.
(Zelterman, 2015).
7
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
Statistik uji :
n
r =∑ (x j−x)¿ ¿ ¿ (2.1)
j =1

Daerah Kritis: Tolak H0 jika r < r (α, n) yang berarti data tidak berdistribusi
normal multivariat.
Keterangan :
x = data pengamatan
q = kuantil normal standar
2. Uji Kolmogorov-Smirnov
Uji ini dilakukan untuk melihat apakah data memenuhi asumsi distribusi
normal atau tidak. Dilakukan pengujian masing-masing variabel, untuk
mengetahui variabel mana yang tidak berdistribusi normal, apakah keduanya atau
hanya salah satu variabel saja. Pengujian dapat dilakukan dengan uji Kolmogorov-
Smirnov. Uji ini dilakukan untuk melihat apakah data memenuhi asumsi distribusi
normal univariat atau tidak. (Augusty, 2006)
Hipotesis:
H0: Data berdistribusi normal univariat
H1: Data tidak berdistribusi normal univariat
Statistik uji :
D0 = max | F(x)– S(x) | atau p-value (2.2)
Daerah Kritis : Tolak H0 jika D0 > D(α,n) atau p-value < α yang berarti data tidak
berdistribusi normal univariat.
Keterangan :
F(x) = probabilitas kumulatif normal
S(x) = probabilitas kumulatif empiris
2.3.2 Pemeriksaan dan Pengujian Asumsi Distribusi Normal Multivariat
Uji normalitas multivariat harus dilakukan pada seluruh variabel secara
bersama-sama. Namun uji ini juga bisa dilakukan pada setiap variabel (univariat),
dengan logika bahwa jika masing-masing variabel memenuhi asumsi nomalitas
maka secara bersama-sama (multivariat) variabel tersebut juga dianggap

8
memenuhi asumsi normalitas (Augusty, 2006). Uji normalitas multivariat dapat
dilakukan menggunakan scatterplot dan uji t proporsi. Adapun untuk penjelasan
dari uji t proporsi adalah sebagai berikut.

1. Uji T-Proporsi
Proporsi adalah suatu pecahan, rasio atau persentase yang menunjukkan
suatu bagian populasi atau sampel yang mempunyai sifat luas. Perumusan
hipotesis dan statistik uji secara statistik adalah sebgai berikut.
Hipotesis:
H0: Data beberapa variabel berdistribusi normal multivariate.
H1: Data beberapa variabel tidak berdistribusi normal multivariate.
Dengan penetapan taraf signifikan α sebesar 0,05 maka di dapatkan daerah
penolakan tolak H0 jika nilai T proporsi berada diluar 45%<α<55%.

2.4 Boxplot
Boxplot (juga dikenal sebagai diagram box-and-whisker) merupakan suatu
box (kotak berbentuk bujur sangkar). Boxplot adalah salah satu cara dalam
statistik deskriptif untuk menggambarkan secara grafik dari data numeris melalui
lima ukuran yaitu nilai observasi terkecil, kuartil terendah atau kuartil pertama
(Q1), yang memotong 25 % dari data terendah, median (Q2) atau nilai
pertengahan, kuartil tertinggi atau kuartil ketiga (Q3), yang memotong 25 % dari
data tertinggi, nilai observasi terbesar. Selain itu, dalam boxplot juga ditunjukkan
apabila nilai outlier dari observasi. (Badri, 2012). Contoh Boxplot ditunjukkan
pada gambar 2.1.

Gambar 2.1. Contoh Boxplot

9
2.5 Scatterplot
Scatterplot adalah grafis yang digunakan untuk mengilistrasikan asosiasi
dua variabel. Data dipresentasikan secara visual dengan menggunakan grafik
yaitu, x (horizontal) dan y (vertical). Setiap titik mempresentasikan satu
observasi. Bila semua observasi disusun dalam satu diagram akan menyampaikan
informasi tentang arah dan besar dari kedua variabel (Walpole, 2016). Contoh
scatterplot dintujukkan pada Gmbar 2.2.

Gambar 2.2 Contoh Scatterplot

2.6 Kualitas Udara


Definisi kualitas udara bisa dipahami dari pengertian kata ‘kualitas’ dan
‘udara’. Dikutip dari Kamus Besar Bahasa Indonesia (KBBI), kualitas merupakan
tingkat baik atau buruk dari suatu hal. Sedangkan udara diartikan sebagai
campuran berbagai gas yang tidak berwarna dan tidak berbau, memenuhi seluruh
ruang di atas bumi. Berdasarkan hal tersebut dapat diketahui bahwa pencemaran
udara atau menurunnya kualitas udara dapat berakibat pada berbagai sendi
kehidupan. Perubahan suatu prameter memiliki rentetan perubahan parameter
lainnya (Tri Cahyono, 2017). Berapa hal yang menjadi salah satu faktor terkait
pendukung kualitas udara dapat dilihat dari kandungan kimi di dalamnya,
diantaranya adalah PM10 concentration (ug/m3), SO2 concentration (ug/m3), NO2
concentration (ug/m3), CO concentration (ug/m3), dan O3 concentration (ug/m3).
Penjelasan lebih rinci terkait kandungan tersebut adalah sebagai berikut.
2.6.1 PM10 concentration (ug/m3)

10
Suspended Perticulates (PM10) adalah partikel kecil dari bahan padat dan
cair yang ada dalam emisi pembakaran bahan bakar (Saryanto, 2018). NAB
PM10 = 150 µgram/m3. Nilai Ambang Batas (NAB) adalah Batas konsentrasi
polusi udara yang diperbolehkan berada dalam udara ambien. 
2.6.2 SO2 concentration (ug/m3)
Sulfur dioksida (SO2) adalah gas yang tidak berwarna dan berbau
merangsang yang dapat berasal dari pembakaran hasil fosil, pembakaran batu
bara, dan minyak (Mukono, 2014). Gas ini sangat mudah terlarut dalam air,
memiliki bau namun tidak berwarna.
2.6.3 NO2 concentration (ug/m3)
NO2 adalah gas beracun yang berasal dari bahan bakar fosil (Mukono,
2014).  Gas ini berwarna merah-kecoklatan dan merupakan gas beracun, baunya
menyengat, dan merupakan salah satu polutan udara utama.
2.6.4 CO concentration (ug/m3)
CO adalah gas yang tak berwarna, tak berbau, dan tak berasa (Saryanto,
2018). Gas ini banyak dihasilkan pada saat terjadi kebakaran pada tambang bawah
tanah dan menyebabkan tingkat kematian yang tinggi.
2.6.5 O3 concentration (ug/m3)
Ozon (O3) adalah molekul yang terdiri atas tiga atom oksigen yang tidak
stabil (Saryanto, 2018). Ozon adalah molekul anorganik dengan rumus kimia O3.
Ozon (O3) terdiri dari 3 molekul oksigen dan berbahaya pada kesehatan manusia.
Ozon melindungi kehidupan di Bumi dari radiasi ultraviolet (UV) Matahari.

11
BAB III
METODOLOGI PENELITIAN

3.1 Sumber Data


Data yang digunakan dalam praktikum ini adalah data sekunder yang
diperoleh dari website UCI Machine Learning Repository dengan judul ‘Beijing
Multi-Site Air-Quality Data Data Set’. Data yang digunakan sebanyak 300 data.
Pengambilan data dilakukan pada Selasa, 24 Februari 2022 pukul 08.32 WIB di
Surabaya, Jawa Timur.

3.2 Variabel Penelitian


Variabel penelitian yang digunakan dalam praktikum ini disajikan pada
Tabel 3.1 berikut.
Tabel 3.1 Variabel Penelitian
Variabe Skala Data Satuan
Keterangan
l
PM10
X1
concentration
X2 SO2 concentration (ug/
Rasio
X3 NO2 concentration m3)
X4 CO concentration
X5 O3 concentration
3.3 Struktur Data
Struktur data yang digunakan pada penelitian ini adalah sebagai berikut.
Tabel 3.2 Struktur Data
Data
X1 X2 X3 X4 X5
ke-
1 X11 X21 X31 X41 X51
2 X12 X22 X32 X42 X52
3 X13 X23 X33 X43 X53
⁞ ⁞ ⁞ ⁞ ⁞ ⁞
300 X1 300 X2 300 X3 300 X4 300 X5 300

3.4 Langkah Analisis


Langkah analisis yang dilakukan pada penelitian ini adalah sebagai berikut.
Langkah analisis yang dilakukan pada penelitian ini adalah sebagai berikut.
1. Mengumpulkan data Beijing Municipal Environmental Monitoring Center
pada tanggal 1 Maret 2013 sampai 28 Februari 2017.

12
2. Melakukan deteksi missing value dan uji keacakan. Jika tolak Ho dilakukan
EM dilanjutkan deteksi outlier. Akan tetapi jika gagal tolak Ho dilakukan
Listwise.
3. Melakukan deteksi outlier secara univariate menggunakan boxplot dan nilai
standarisasi dan melakukan deteksi secara multivariate.
4. Melakukan pengujian distribusi normal secara univariate menggunakan Q-
Q plot dan uji Kolmogorv-Smirnov.
5. Melakukan pemeriksaan distribusi normal secara multivariate menggunakan
scatterplot dan uji t-proporsi.
6. Menarik kesimpulan dan saran.

3.5 Diagram Alir


Langkah analisis tersebut divisualisasikan dalam bentuk diagram alir yang
ditunjukkan oleh Gambar 3.1 berikut.

Mulai

Mengumpulkan Data

Deteksi Missing Value

Tolak Ho
Apakah Missing
EM
Value Acak?

Galak Tolak Ho

Listwise

Deteksi Outlier

Pemeriksaan dan pengujian


distribusi normal

Kesimpulan

Selesai

Gambar 3.1 Diagram Alir

13
BAB IV
ANALISIS DAN PEMBAHASAN

4.1 Analisis Missing Value pada Data Kualitas Udara di Beijing Secara
Univariate dan Multivariate
Analisis untuk mendeteksi adanya missing value dan cara penanganan
terhadap data missing value secara univariate dan multivariate adalah sebagai
berikut.
4.1.1 Deteksi Missing value
Deteksi missing value variabel pada pada data kualitas udara di Beijing
secara univariate dan multivariate adalah berikut.
Tabel 4.1 Deteksi Missing Value secara Univariate
Missing
Variabel Percen
Count
t
PM10 1 0,3%
SO2 3 1%
NO2 3 1%
CO 9 3%
O3 2 0,7%
Tabel 4.1 menunjukkan bahwa secara univariate persentase missing value
pada variabel data kualitas udara di Beijing tidak terdapat missing value yang
lebih dari 30%, sehingga tidak ada variabel yang harus dihilangkan. Berikut
adalah deteksi missing value secara multivariat ditampilkan pada tabel berikut ini.
Tabel 4.2 Deteksi Missing Value secara Multivariate
Data Missin Persentas Jumlah Hilang
Baris
ke- g e Hilang (%)
3 1 20 289 1 20
98 1 20 290 1 20
193 1 20 4 2 40
99 1 20 299 2 40
194 1 20 100 1 20
223 1 20 195 1 20
250 1 20 5 1 20
288 1 20 203 1 20
Tabel 4.2 menunjukkan bahwa secara multivariate persentase missing value
pada setiap baris variabel data kualitas udara di Beijing tidak terdapat missing
value yang lebih dari 50%, sehingga tidak ada baris yang harus dihilangkan atau
dihapus.
14
4.1.2 Mengatasi Missing value
Sebelum Mengatasi missing value, terlebih dahulu dilakukan pengujian
keacakan. Berikut adalah hasil uji keacakan dan penanganan missing value.
a. Uji Little’s MCAR atau Uji Keacakan
Mengatasi missing value dilakukan dengan menggunakan uji little’s MCAR
atau uji keacakan. Hasil uji little’s MCAR missing value pada data kualitas udara
di Beijing adalah sebagai berikut.
Hipotesis :
H0 : Missing value pada setiap variabel data kualitas udara di Beijing bersifat
random atau MCAR
H1 : Missing value pada setiap variabel data kualitas udara di Beijing bersifat non
random atau MAR
Taraf Signifikan : α  0,05
Daerah Penolakan : Tolak H 0 jika χ2  χ20,05;19 atau P-value < α
Statistik Uji :
Tabel 4.3 Uji Little's MCAR
χ2 χ20,05;19 P-
value
21,815 30,144 0,294

Tabel 4.3 menunjukkan bahwa nilai χ2 sebesar 21,815 lebih kecil dari χ20,05;19
sebesar 30,144 dan diperkuat oleh nilai P-value sebesar 0,294 lebih kecil dari α
sebesar 0,05 sehingga diperoleh keputusan gagal tolak H0 yang artinya missing
value data kualitas udara di Beijing bersifat random atau MCAR.
b. Penanganan Missing Value
Setelah mengetahui bahwa data missing value bersifat random atau MCAR,
maka penanganan untuk mengatasi data yang hilang yaitu dengan memasukkan
nilai rata-rata dalam metode listwise pada tabel 4.4 berikut ini.
Tabel 4.4 Penaganan Missing Value
PM10 SO2 NO2 CO O3
141,5 49,54 94,07 1820,22 64,34
4

15
Tabel 4.4 menunjukkan nilai rata-rata dengan metode listwise tiap variabel
indikator pada data kualitas udara di Beijing. Nilai rata-rata dengan metode
listwise tersebut akan dimasukkan pada kolom data yang hilang sehingga variabel
indikator pada data kualitas udara di Beijing telah lengkap.
4.2 Deteksi Outlier pada Data Kualitas Udara di Beijing Secara Univariate
dan Multivariate
Deteksi data outlier pada data kualitas udara di Beijing dilakukan secara
univariate dan multivariate adalah sebagai berikut.
4.2.1 Deteksi Outlier Secara Univariate
Deteksi data outlier secara univariate dapat dilihat melalui boxplot dan nilai
standarisasi. Deteksi outlier pada data kualitas udara di Beijing adalah sebagai
berikut.
a. Deteksi Outlier Menggunakan Boxplot
Deteksi data outlier pada data kualitas udara di Beijing secara visual
menggunakan boxplot adalah sebagai berikut.

7000
6599,00
6200,00
6000 6000,00

5500,00
5500,00
5400,00
5400,00
5000

4000
Data

3000

2000

1000
602,00
585,00
587,00
556,00
552,00
518,00
495,00
493,00
455,00
198,00 254,00
257,00
258,00
249,00
0

PM10 SO2 NO2 CO O3

Gambar 4.1 Boxplot Deteksi Outlier


Gambar 4.1 menunjukkan bahwa terdapat 9 data outlier pada variabel PM10,
1 data outlier pada variabel SO2, 5 data outlier pada variabel NO2, dan 8 data
outlier pada variabel CO.
b. Deteksi Outlier Menggunakan Nilai Standarisasi
Deteksi outlier berdasarkan nilai standarisasi secara univariate dengan
menggunakan nilai Z. Berikut adalah deteksi outlier menggunakan nilai Z pada
data data kualitas udara di Beijing adalah sebagai berikut.
16
Hipotesis :
H0 : Tidak terdapat data outlier
H1 : Terdapat data outlier
Taraf Signifikan : α  0,05
Daerah Penolakan : Tolak H0 jika Z > 2,5 atau Z < -2,5
Statistik Uji :
Tabel 4.5 Deteksi Outlier Secara Univariate
Variabe Jumlah Data
Data ke- Z
l Outlier
167 3,49332
168 3,77166
169 3,20655
170 2,67518
PM10 9 182 2,99569
203 3,52706
205 3,78853
206 3,91504
207 3,01256
SO2 1 252 4,00493
157 2,83517
166 2,88772
NO2 5 167 2,90523
168 2,74759
169 2,60746
151 2,7145
152 3,22867
153 3,52175
154 2,56686
CO 8
167 2,7145
168 2,64105
177 3,08177
178 2,64105
Tabel 4.5 menunjukkan bahwa setiap variabel memiliki data outlier pada
data kualitas udara di Beijing. Variabel PM10 merupakan variabel dengan jumlah
nilai outlier terbanyak yaitu sebanyak 9 baris, variabel CO sebanyak 8 baris,
variabel NO2 sebanyak 5 baris, dan variabel SO2 sebanyak 1 baris.
4.2.2 Deteksi Outlier Secara Multivariate
Deteksi Outlier secara multivariate yaitu dengan melihat nilai Mahalanobis.
Deteksi data outlier dengan nilai Mahalanobis pada data kualitas udara di Beijing
adalah sebagai berikut.

17
Hipotesis :
H0 : Data kualitas udara di Beijing tidak terdapat data outlier
H1 : Data kualitas udara di Beijing terdapat data outlier
Taraf Signifikan : α  0,05
Daerah Penolakan : Tolak H0 jika Z > 2,5
Statistik Uji :
Tabel 4.6 Deteksi Outlier Secara Multivariate
Z
Data ke-
Mahalanobis
73 2,592466
149 2,517826
150 4,05406
151 4,860012
152 5,298538
165 2,75102
166 3,249872
167 3,534006
168 2,629904
174 3,320528
175 5,583352
176 4,372558
181 2,861786
202 6,736082
204 9,329198
205 9,942624
206 6,678106
251 12,18713
256 3,76807
Tabel 4.6 menunjukkan bahwa terdapat 19 data outlier yakni pada baris 283
sampai baris 300 karena nilai Z Mahalanobis lebih dari 2,5. Data yang ternyata
memang benar-benar data outlier baik secara univariate dan multivariate pada
data kualitas udara di Beijing dapat ditangani dengan menghilangkan baris-baris
yang mengandung data outlier.
4.3 Pemeriksaan dan Pengujian Distribusi Normal pada Data Kualitas
Udara di Beijing
Pemeriksaan dan pengujian distribusi normal data kualitas udara di Beijing
dengan menggunakan 2 cara yaitu secara univariate dan multivariate adalah
sebagai berikut.

18
4.3.1 Pemeriksaan dan Pengujian Distribusi Normal Secara Univariate
Pemeriksaan dan pengujian distribusi normal data kualitas udara di Beijing
secara univariate adalah sebagai berikut.

a. Q-Q plot
Pemeriksaan dan pengujian distribusi normal data kualitas udara di Beijing
secara visual menggunakan boxplot adalah sebagai berikut.

Gambar 4.2 Q-Q plot PM10


Gambar 4.2 menunjukkan Q-Q plot variabel PM10 tidak mendekati garis
linear. Sehingga dapat disimpulkan bahwa data PM10 tidak berdistribusi normal
univariate.

Gambar 4.3 Q-Q plot SO2

19
Gambar 4.3 menunjukkan Q-Q plot variabel SO2 tidak mendekati garis
linear. Sehingga dapat disimpulkan bahwa data SO2 tidak berdistribusi normal
univariate.

Gambar 4.4 Q-Q plot NO2


Gambar 4.4 menunjukkan Q-Q plot variabel NO2 tidak mendekati garis
linear. Sehingga dapat disimpulkan bahwa data NO2 tidak berdistribusi normal
univariate.

Gambar 4.5 Q-Q plot CO

Gambar 4.5 menunjukkan Q-Q plot variabel CO tidak mendekati garis


linear. Sehingga dapat disimpulkan bahwa data CO tidak berdistribusi normal
univariate.

20
Gambar 4.6 Q-Q plot O3

Gambar 4.6 menunjukkan Q-Q plot variabel O3 tidak mendekati garis linear.
Sehingga dapat disimpulkan bahwa data O3 tidak berdistribusi normal univariate.
b. Uji Kolmogorov Smirnov
Pemeriksaan yang telah dilakukan dengan melihat qq plot belum mampu
menjelaskan secara jelas mengenai distribusi normal univariate dari setiap
variabel penelitian. Oleh sebab itu, perlu dilakukan pengujian menggunakan uji
Kolmogorov Smirnov.
Hipotesis:
H0 : Data ke-i berdistribusi normal univariate , i = 1, 2, 3, 4, 5
H1 : Data ke-i tidak berdistribusi normal univariate , i = 1, 2, 3, 4, 5
Taraf signifikan : α = 0,05
Daerah Penolakan : Tolak H0 jika KS > KS α (n) atau P-value <α
Statistik uji:
Tabel 4.7 Uji Distribusi Normal Univariate
P-
Variabel KS KStabel
value
0.10
PM10 0.000
5
0.14
SO2 0.000
9
0.09 0,0785
NO2 0.000
0
0.13
CO 0.000
2
0.17
O3 0.000
4

21
Tabel 4.7 menunjukkan hasil uji distribusi normal univariate dengan p-
value untuk variabel PM10, variabel SO2, variabel NO2, variabel CO, dan variabel
O3 memiliki nilai p-value yang sama yaitu sebesar 0.000 yang lebih kecil dari α
sebesar 0,05 maka diputuskan tolak H0 yang artinya data PM10, SO2, NO2, CO, dan
O3 tidak berdistribusi normal univariate.
4.3.2 Pemeriksaan dan Pengujian Secara Multivariate
Pemeriksaan dan pengujian distribusi normal data kualitas udara di Beijing
secara multivariate adalah sebagai berikut.
a. Scatterplot
Pemeriksaan dan pengujian distribusi normal data kualitas udara di Beijing
secara visual menggunakan scatterplot adalah sebagai berikut.

20

15

10
C6

0 5 10 15 20 25 30 35
C7

Gambar 4.7 Scatterplot Data Variabel

Gambar 4.3 menunjukkan scatter plot antara nilai qc dan dj tidak mendekati
garis linear. Sehingga dapat disimpulkan bahwa data PM10, SO2, NO2, CO, dan O3
tidak berdistribusi normal multivariate.
b. Uji T-proporsi
Pemeriksaan yang telah dilakukan dengan melihat scatter plot belum
mampu menjelaskan secara jelas mengenai distribusi normal multivariate dari
setiap variabel penelitian. Oleh sebab itu, perlu dilakukan pengujian menggunakan
T proporsi.
Hipotesis:
H0: Data PM10, SO2, NO2, CO, dan O3 berdistribusi normal multivariate.
H1: Data PM10, SO2, NO2, CO, dan O3 tidak berdistribusi normal multivariate.
22
Ditetapkan taraf signifikan α sebesar 0,05 maka di dapatkan daerah
penolakan tolak H0 jika nilai T proporsi berada diluar 45%≤α≤55%.
Statistik uji:
Tabel 4.8 Uji Distribusi Normal Multivariate
T proporsi Ttabel
0,587 45%≤α≤55%
Tabel 4.8 menunjukkan hasil uji distribusi normal multivariate, karena
nilai T proporsi sebesar 0,587 lebih besar dari 58,7% maka dapat diputuskan tolak
H0 yang artinya data PM10, SO2, NO2, CO, dan O3 tidak berdistribusi normal
multivariate.

23
BAB V
KESIMPULAN DAN SARAN

5.1 Kesimpulan
Hasil analisis data analisis mobil di kota Washington DC tahun 2003
didapatkan kesimpulan sebagai berikut.
1. Hasil analisis missing value secara univariat dan multivariat diperoleh
bahwa tidak terdapat variabel yang harus dihapus dalam proses analsis.
Penanganan missing value dilakukan dengan metode pairwise.
2. Hasil deteksi outlier secara univariat menggunakan boxplot dan nilai
standarisasi terdapat data outlier pada variabel PM10, SO2, NO2, dan CO,
variabel yang memiliki data outlier terbanyak adalah PM10. Deteksi outlier
secara multivariat terdapat 19 data outlier.
3. Hasil pemeriksaan dan pengujian berdistribusi normal secara univariate
maupun secara multivariate adalah data PM10, SO2, NO2, dan CO tidak
berdistribusi normal.

5.2 Saran
Saran bagi pihak terkait yaitu pemerintahan maupun masyarakat Beijing
dapat memperhatikan kualitas udara di Beijing dengan cara mengurangi polusi
kendaraan, pembakaran sampah, membuka lahan dengan cara pembakaran laha,
dan lain-lain. Untuk peneliti lebih teliti dalam melihat data karena terdapat banyak
data hilang dan memiliki nilai outlier.

24
DAFTAR PUSTAKA

Abraham, X., & Steiner. (2000). Outlier Detection Methods in Multivariate


Regresi Models. New York: RA Publisher.
Augusty, F. (2006). Metode Penelitian Manajemen. Semarang: Badan Penerbit
Universitas Dipenogoro.
Badri, S. (2012). Metode Statistika dan Penelitian Kuantitatif. Yogyakarta:
Penerbit Ombak.
Erlangga. (n.d.). Prinsip Statistik untuk Teknik dan Sains. Erlangga.
Gaspersz, V. (2001). Teknik Analisis dalam Penelitian Percobaan. Bandung:
Tarsito.
Gujarati, D. N. (2004). Basic Econometrics, Fourth Edition. Singapore: McGraw-
Hill Inc.
Heizer, J. D. (2006). Operation Management. Jakarta: Salemba Empat.
Ismail, F. (2018). Statistika untuk Penelitian Pendidikan dan Ilmu-Ilmu Sosial.
Jakarta: Prenadamedia Group.
Johnson, R., & Winchen, D. (2007). Applied Multivariate Statistical Analysis (6
ed.). United State of America: Pearson Prentice Hall.
Mikha Agus Widiyanto, M. (2013). Statistika Terapan. Elex Media Komputindo.
Montgomery, D. C. (2011). Applied Statistics and Probability For Engineers.
USA: R. R. Donnelley.
Montgomery, D. C. (2014). Applied Statistics and Probability for Engineers.
Morrizan, M. d. (n.d.). Metode Penelitian Survei. Kencana.
Mukono, H. (2014). PENCEMARAN UDARA DALAM RUANGAN. Surabaya:
Airlangga University Press (AUP).
Saryanto, S. M. (2018). PEMELIHARAAAN MESIN SEPEDA MOTOR untuk
SMK/MAK Kelas XII. Jakarta: PT Gramedia Widiasarana.
Tri Cahyono, S. M. (2017). PENYEHATAN UDARA. Yogyakarta: Penerbit ANDI.
Walpole, R. E. (2003). Probabilitas dan Statistika untuk Teknik dan Sains.
Jakarta: PT. Prehallindo.
Walpole, R. E. (2016). Probability & Statistics for Engineer & Statistics.
England: Pearson Education Limited.
Zelterman, D. (2015). Applied Multivariate Statistics with R. USA: Springer.

25
LAMPIRAN

Lampiran 1. Data Kualitas Udara di Beijing


NO PM10 SO2 NO2 CO O3
1 9 3 17 300 89
2 4 3 16 300 88
3 7 NA 17 300 60
4 3 5 18 NA NA
5 3 7 NA 200 84
6 4 9 25 300 78
7 5 10 29 400 67
8 6 12 40 400 52
9 6 12 41 500 54
10 6 9 31 400 69
: :  :  :  :  : 
190 53 50 84 1700 99
191 69 51 104 2299 99
192 77 55 79 2399 99
193 93 NA 76 2399 99
194 98 52 89 NA 99
195 99 59 NA 2100 99
196 108 71 110 2799 99
197 112 69 125 3000 99
198 135 60 118 2399 99
199 140 60 116 2399 99
200 158 74 110 2100 99
201 365 92 105 2100 99
202 556 51 48 800 99
203 NA 8 23 400 99
204 587 3 19 300 99
205 602 3 17 300 95
 : :  :  :  :  : 
290 6 9 19 NA  76
291 7 8 19 300 79
292 10 9 28 400 79
293 14 15 35 500 79
294 20 19 59 600 79
295 31 22 57 600 79
296 30 18 43 500 79
297 26 11 32 400 79
298 16 7 25 400 79
299 75 15 44 NA  NA 
300 72 12 45 600 18

26
Lampiran 2. Data Setelah ditangani Missing Value
NO PM10 SO2 NO2 CO O3
1 9 3 17 300 89
2 4 3 16 300 88
3 7 49,54 17 300 60
4 3 5 18 1820,22 64,34
5 3 7 94,07 200 84
6 4 9 25 300 78
7 5 10 29 400 67
8 6 12 40 400 52
9 6 12 41 500 54
10 6 9 31 400 69
:  :  :  :  :  : 
190 53 50 84 1700 99
191 69 51 104 2299 99
192 77 55 79 2399 99
193 93 49,54 76 2399 99
194 98 52 89 1820,22 99
195 99 59 94,07 2100 99
196 108 71 110 2799 99
197 112 69 125 3000 99
198 135 60 118 2399 99
199 140 60 116 2399 99
200 158 74 110 2100 99
201 365 92 105 2100 99
202 556 51 48 800 99
203 141,54 8 23 400 99
204 587 3 19 300 99
205 602 3 17 300 95
:  :  :  :  :  : 
290 6 9 19 1820,22 76
291 7 8 19 300 79
292 10 9 28 400 79
293 14 15 35 500 79
294 20 19 59 600 79
295 31 22 57 600 79
296 30 18 43 500 79
297 26 11 32 400 79
298 16 7 25 400 79
299 75 15 44 1820,22 64,34
300 72 12 45 600 18

Lampiran 3. Output Software SPSS


 Deteksi Missing Value
27
Univariate Statistics
Missing No. of Extremesa
N Mean Std. Deviation Count Percent Low High
PM10 299 137.81 118.760 1 .3 0 9
SO2 297 48.89 37.418 3 1.0 0 1
NO2 297 92.12 57.379 3 1.0 0 4
CO 291 1803.92 1382.386 9 3.0 0 3
O3 298 65.56 34.174 2 .7 0 0
a. Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

Missing Patterns (cases with missing values)


Missing and Extreme Value Patternsa
Case # Missing % Missing PM10 O3 NO2 SO2 CO
3 1 20.0 S
98 1 20.0 S
193 1 20.0 S
99 1 20.0 S
194 1 20.0 S
223 1 20.0 S
250 1 20.0 S
288 1 20.0 S
289 1 20.0 S
290 1 20.0 S
4 2 40.0 S S
299 2 40.0 S S
100 1 20.0 S
195 1 20.0 S
5 1 20.0 S
203 1 20.0 S
- indicates an extreme low value, while + indicates an extreme high value. The range used is (Q1
- 1.5*IQR, Q3 + 1.5*IQR).
a. Cases and variables are sorted on missing patterns.
 Nilai Little’s MCAR atau Uji Keacakan
EM Meansa
PM10 SO2 NO2 CO O3
137.52 48.69 91.92 1775.92 65.61
a. Little's MCAR test: Chi-Square = 21.815, DF = 19, Sig. = .294
Lampiran 3. Output Software SPSS (lanjutan)
 Penanganan Missing Value Metode Pairwise
Listwise Means

28
Number of
cases PM10 SO2 NO2 CO O3

284 141.54 49.54 94.07 1820.22 64.34

 Uji Kolmogorov Smirnov


One-Sample Kolmogorov-Smirnov Test

PM10 SO2 NO2 CO O3

N 281 281 281 281 281


Normal Parameters a,b
Mean 123.9058 47.0627 88.6662 1670.9181 64.5860
Std. Deviation 96.58237 35.70265 53.46978 1175.22592 33.59516
Most Extreme Differences Absolute .105 .149 .090 .132 .174
Positive .096 .149 .090 .132 .103
Negative -.105 -.109 -.084 -.118 -.174
Test Statistic .105 .149 .090 .132 .174
Asymp. Sig. (2-tailed) .000 c
.000 c
.000 c
.000 c
.000c

a. Test distribution is Normal.


b. Calculated from data.
c. Lilliefors Significance Correction.

Lampiran 4. Output Software Minitab


 Nilai T-proporsi
Data Display
Prop    0,587189
Lampiran 5. Perhitungan Manual
 Nilai Standarisasi
NO PM10 SO2 NO2 CO O3
1 -1,08656 -1,23286 -1,3161 -1,10502 0,68843
-
2
-1,12874 -1,23286 1,33361 -1,10502 0,65907
3 -1,10343 0,01722 -1,3161 -1,10502 -0,16301
-
4
-1,13717 -1,17914 1,29858 0,01162 -0,03559
5 -1,13717 -1,12542 0,03385 -1,17848 0,54163
-
6
-1,12874 -1,0717 1,17597 -1,10502 0,36547
-
7
-1,1203 -1,04484 1,10591 -1,03157 0,04251
-
8
-1,11187 -0,99112 0,91323 -1,03157 -0,3979
-
9
-1,11187 -0,99112 0,89572 -0,95812 -0,33918
-
10
-1,11187 -1,0717 1,07088 -1,03157 0,10123
:  :  :  :  :  : 
190 -0,71545 0,02958 - -0,07669 0,98203
29
0,14253
191 -0,5805 0,05644 0,20778 0,36329 0,98203
-
192
-0,51302 0,16388 0,23011 0,43674 0,98203
-
193
-0,37807 0,01722 0,28266 0,43674 0,98203
-
194
-0,3359 0,0833 0,05495 0,01162 0,98203
195 -0,32747 0,27132 0,03385 0,21712 0,98203
196 -0,25156 0,59365 0,31288 0,73055 0,98203
197 -0,21782 0,53993 0,57562 0,87819 0,98203
198 -0,02383 0,29818 0,45301 0,43674 0,98203
199 0,01834 0,29818 0,41798 0,43674 0,98203
200 0,17016 0,67423 0,31288 0,21712 0,98203
201 1,91609 1,15772 0,2253 0,21712 0,98203
-
202
3,52706 0,05644 0,77311 -0,73776 0,98203
203 0,03133 -1,09856 -1,211 -1,03157 0,98203
-
204
3,78853 -1,23286 1,28107 -1,10502 0,98203
205 3,91504 -1,23286 -1,3161 -1,10502 0,86459
 : :  :  :  :  : 
-
290
-1,11187 -1,0717 1,28107 0,01162 0,30675
-
291
-1,10343 -1,09856 1,28107 -1,10502 0,39483
-
292
-1,07813 -1,0717 1,12342 -1,03157 0,39483
-
293
-1,04439 -0,91054 1,00081 -0,95812 0,39483
-
294
-0,99379 -0,80309 0,58043 -0,88467 0,39483
-
295
-0,90101 -0,72251 0,61546 -0,88467 0,39483
-
296
-0,90944 -0,82995 0,86069 -0,95812 0,39483
-
297
-0,94318 -1,01798 1,05336 -1,03157 0,39483
-
298
-1,02752 -1,12542 1,17597 -1,03157 0,39483
-
299
-0,52989 -0,91054 0,84317 0,01162 -0,03559
-
300
-0,5552 -0,99112 0,82565 -0,88467 -1,39614

Lampiran 5. Perhitungan Manual (lanjutan)


 Nilai Mahalanobis
NO PM10 SO2 NO2 CO O3 dj2 dj2/5
1 9 3 17 300 89 2,10764 0,421528
2 4 3 16 300 88 2,15812 0,431624
3 7 49,54 17 300 60 5,50307 1,100614
30
4 3 5 18 1820,22 64,3 8,65823 1,731646
4
5 3 7 94,07 200 84 10,85116 2,170232
6 4 9 25 300 78 1,63118 0,326236
7 5 10 29 400 67 1,51124 0,302248
8 6 12 40 400 52 1,82231 0,364462
9 6 12 41 500 54 1,67553 0,335106
10 6 9 31 400 69 1,49477 0,298954
:  :  :  :  :  :  :  : 
190 53 50 84 1700 99 2,45469 0,490938
191 69 51 104 2299 99 3,04546 0,609092
192 77 55 79 2399 99 4,22571 0,845142
193 93 49,54 76 2399 99 3,91958 0,783916
194 98 52 89 1820,22 99 1,60543 0,321086
195 99 59 94,07 2100 99 2,16454 0,432908
196 108 71 110 2799 99 3,87552 0,775104
197 112 69 125 3000 99 3,9208 0,78416
198 135 60 118 2399 99 1,95699 0,391398
199 140 60 116 2399 99 1,81917 0,363834
200 158 74 110 2100 99 2,1508 0,43016
201 365 92 105 2100 99 8,64655 1,72931
202 556 51 48 800 99 33,68041 6,736082
203 141,5 8 23 400 99 3,31963 0,663926
4
204 587 3 19 300 99 46,64599 9,329198
205 602 3 17 300 95 49,71312 9,942624
:  :  :  :  :  :  :  : 
290 6 9 19 1820,22 76 8,32551 1,665102
291 7 8 19 300 79 1,78262 0,356524
292 10 9 28 400 79 1,53036 0,306072
293 14 15 35 500 79 1,3303 0,26606
294 20 19 59 600 79 1,76192 0,352384
295 31 22 57 600 79 1,39642 0,279284
296 30 18 43 500 79 1,15297 0,230594
297 26 11 32 400 79 1,31578 0,263156
298 16 7 25 400 79 1,57712 0,315424
299 75 15 44 1820,22 64,3 3,83788 0,767576
4
300 72 12 45 600 18 4,12055 0,82411

Lampiran 6. Dokumentasi
 UCI Machine Learning

31
32
LEMBAR ASISTENSI
PRAKTIKUM METODE MULTIVARIATE TERAPAN
SEMESTER GENAP 2021/2022

Modul Ke-/Judul : 1/ PREPROCESSING DATA KUALITAS


UDARA DI BEIJING
Nama Asdos : Fifi Dwi Haryanti
Nama Praktikan 1/NRP : Fita Asri K/10611910000008
Nama Praktikan 2/NRP : Lidwina Galuh W /10611810000023
ASISTENSI 1
1. Fita Asri K

Kehadiran 2. Lidwina Galuh W

1. Judul
2. Abstrak
3. Latar Belakang
4. Diagram Alir
5. Bab IV
Materi yang 6. Lampiran
direvisi

33
34

Anda mungkin juga menyukai