LANDASAN TEORI
Bab ini akan membahas tentang teori-teori pendukung dan penelitian sebelumnya
yang berhubungan dengan polusi udara, Web Scraping, Distibuted System dan
penerapan Naïve Bayes Classifier dalam melakukan klasifikasi kualitas udara.
Pencemaran udara adalah suatu kondisi yang menyebabkan perubahan pada komposisi
udara dibandingkan keadaan normal sehingga membahayakan kehidupan dan
kesehatan masyarakat. Menurut PP No. 41 Tahun 1999, pencemaran udara adalah
masuknya atau dimasukkannya zat, energi, dan/atau komponen lain ke dalam udara
ambien oleh kegiatan manusia, sehingga mutu udara ambien turun sampai ke tingkat
tertentu yang menyebabkan udara ambien tidak dapat memenuhi fungsinya. Sumber
polusi utama berasal dari transportasi di mana hampir 60 % dari polutan yang
dihasilkan terdiri dari karbon monoksida dan sekitar 15 % terdiri dari hidrokarbon.
Gambar 2.1 menjelaskan sumber – sumber polusi lainnya seperti pembakaran, proses
industri, pembuangan limbah dan lain – lain (Fardiaz, 2003).
Keterangan :
+ = menghasilkan
- = tidak menghasilkan
Indeks kualitas udara (AQI) adalah nilai yang digunakan oleh instansi pemerintah
untuk memberikan gambaran kepada masyarakat tentang kondisi udara atau
bagaimana prediksi pencemaran yang akan terjadi. Perhitungan AQI membutuhkan
nilai konsentrasi polutan pada rata rata periode tertentu yang didapatkan dari hasil
monitoring udara. Polutan udara memiliki potensi yang berbeda beda dan rumus yang
digunakan untuk mengubah konsentrasi polutan ke nilai AQI berbeda di setiap
polutannya. Setiap rentang nilai aqi digambarkan dengan warna warna tertentu sesuai
dengan ketetapan (Liao, 2014).
𝐶 = Konsentrasi Polutan,
Jika beberapa pollutan diukur pada sistem monitoring, maka nilai AQI yang
paling besar atau dominan yang akan dikirimkan untuk lokasi terntentu. Data
monitoring secara real time pada umumnya tersedia pada rata-rata waktu 1 jam.
Namun, perhitungan AQI bagi beberapa pollutan membutuhkan nilai rata-rata dari
waktu yang cukup lama. Sebagai contoh untuk melakukan perhitungan AQI ozone
membutuhkan perhitungan rata-rata selama 8 jam., sementara PM2.5 membutuhkan
rata-rata waktu 24 jam.
Web scraping atau disebut juga dengan web harvesting atau web data extraction
adalah sebuah teknik program komputer untuk melakukan ekstraksi informasi dari
sebuah halaman website. Web Scraping tidak dapat dimasukkan dalam bidang data
mining karena data mining menyiratkan upaya untuk memahami pola semantik atau
tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping (juga
2.3.1 Raspberry Pi
Menurut Silberchatz proses di dalam sistem operasi dieksekusi secara konkuren dan
mungkin berbeda antara proses independen dan proses yang saling bekerjasama.
Sebuah proses dikatakan independen apabila tidak mempengaruhi dan dipengaruhi
oleh proses lain yang diekseskusi di dalam sistem. Setiap proses yang tidak membagi
data dengan proses lainnya dikatakan independen. Sebuah proses dikatakan
bekerjasama apabila proses tersebut dapat mempengaruhi dan dipengaruhi oleh proses
yang lainnya di dalam sistem yakni dengan ditandai adanya data yang dibagi antar
proses. Proses yang saling bekerjasama membutuhkan mekanisme komunikasi antar
proses (IPC) yang memungkinkan mereka saling berbagi data dan informasi. Ada 2
model fundamental mengenai komunikasi antar proses yaitu : Shared Memory dan
Message Passing.
2.3.3 Multithreading
Jika sebuah proses mempunyai banyak control thread, maka proses tersebut dapat
mengerjakan banyak task dalam suatu waktu. Gambar 2.5 menggambarkan sebuah
proses secara single-threaded dan multithreaded.
Misalkan sebuah masalah supervised learning yang mana ingin kita tentukan
fungsi target f : X !Y, atau sama seperti P(Y|X). Diasumsikan Y merupakan sebuah
variabel bernilai boolean random dan X merupakan vektor yang menyimpan atribut
boolean atau X = hX1;X2 : : : ;Xni, dimana Xi merupakan boolean. Dengan
𝑃(𝑋 = 𝑥𝑘 |𝑌 = 𝑦𝑖 )𝑃(𝑦 = 𝑦𝑖 )
𝑃(𝑌 = 𝑦𝑖 |𝑋 = 𝑥𝑘 ) =
∑ 𝑗𝑃�𝑋 = 𝑥𝑘 �𝑌 = 𝑦𝑗 �𝑃(𝑌 = 𝑦𝑗 )
Beberapa penelitian terkait Web Scraping dan klasifikasi telah banyak dilakukan oleh
beberapa peneliti, diantara peneliti tersebut penulis menggunakan beberapa penelitian
sebagai sumber referensi pada penelitian ini. Pereira pada penelitiannya menggunakan
teknik web scraping untuk melakukan ekstraksi data pada media sosial.
Pada penelitian tersebut dijelaskan melalui web scraping, data yang tidak
terstruktur dikonversikan menjadi data yang lebih terstruktur dan dapat disimpan serta
diverifikasi pada bank data yang tersentralisasi. Tujuannya untuk mengumpulkan,
menyimpan dan menganalisis data dari social media dikarenakan social media
merupakan tempat data yang dibagikan secara bebas. Dengan demikian ekstraksi data
web merupakan sebuah proses untuk mengubah konten yang bermanfaat pada website
menjadi aset bisnis yang sangat berharga (Pereira, 2015). Sementara pada penelitian
Abdillah Josi, teknik web scraping diimplementasikan pada mesin pencari artikel
ilmiah seperti portal garuda, Indonesian scientific journal databases (ISJD), dan
google scholar (Josi, 2014).
Untuk data yang telah dikumpulkan menggunakan teknik web scraping,
penelitian menggunakan hybrid model proses dengan mengaplikasikan Bayessian
Networks untuk menganalisis pengetahuan sehingga menghasilkan model yang dapat
memberikan peramalan secara multi-class. (Welter, 2013). Berdasarkan hasil tersebut,
algoritma naïve bayes dapat memberikan bentuk peramalan yang efektif dengan
dikarenakan naïve bayes menggunakan teorema Bayes untuk mendapatkan tabel
ramalan pada model klasifikasinya. Dengan menggabungkan literatur penelitian yang
dilakukan oleh Corani, kualitas udara dapat diklasifikasikan dengan membaginya
dalam beberapa class (Corani, 2016).
Setelah mengolah data kualitas udara dengan model tersebut, makan
selanjutnya visualisasi hasil data diperlukan. Penelitian Liao memberikan contoh
teknik dalam visualisasi data kualitas udara dalam melakukan monitoring. Penelitian