Anda di halaman 1dari 6

1. A.

Tahapan CRISPDM
a) Business understanding
Tujuan : Melakukan pemodelan untuk memprediksi jumlah kasus dan pola penyebaran
penyakit demam berdarah di Indonesia
Manfaat : Untuk mencegah terjadinya peningkatanpenyakit DHF dalam waktu terdekat.
Agar pemerintah dapat mengeluarkan kebijakan pencegahan yang tepat
b) Data Understanding
 Data iklim diperoleh dari dataonline.bmkg.go.id tahun 2010-2015 (data bulanan)
Data tersebut memuat data minimal, maksimal, rata-rata temperature, curah hujan,
kelembapan, waktu penyinaran,
 Data kasus DHF
 Data kepadatan penduduk dari 17 daerah di Sleman yaitu Minggir, Seyegan, Godean,
Gamping, Mlati, Depok, Berbah, Prambanan, Kalasan, Ngemplak, Ngaglik, Sleman, Tempel,
Turi, Pakem, dan Cangkringan
c) Data preparation
 Menggunakan 2 metode linear regresi dan smoothing spline
 Input data iklim, jumlah kasus dhf dan kepadatan penduduk.
 Mengganti misiing value dengan interpolasi smooting spline dan korelasi antar
ariabel menggunakan Keyser Meyer Olkin
 Jumlah kasus DHF di proses dengan data bulanan perdaerah
 Kepadatan penduduk dipisahkan dengan data bulanan per daerah
d) Modelling
Menggunakan metode Vector Auto Regresion (VAR)

Diperoleh hasil peramalan DHF sebagai berikut

Figure 1. Depok
Figure 2 Kalasan

Figure 3. Mlati

Berikut merupakan table korelasi


e) Evaluasi
Menggunakan RMSE dan MAE
Berikut merupakan Komparasi Error Fiting Value peramalan dengan regresi linear dan
algoritma arima

Berikut merupakan komparasi error peramalan dengan regresi linear dan algoritma arima

Pada table diatas menunjukaan model memiliki error yang relative kecil menggunakan
regresi linear dan algoritma arima
f) Kesimpulan
 Peramalan menggunakan VARSA telah membuktikan dapat digunakan untuk
periode pendek atau jangka Panjang dengan error yang relative kecil.
 Model tersebut juga dapat menampilkan pola penyebaran penyakit
 Spatial Autocorelation Analisis menunjukkan ada 3 daerah di Sleman yang signifikan
tinggi
1. B. Sebutkan cara agar model tersebut dapat di deploy dalam aplikasi berbasis web.
Jawab : Agar model dapat dideploy maka diperlukan sumber informasi yang tersedia secara real
time juga misalnya harian, mingguan, atau bulanan.
 Data iklim dari dataonline.bmkg.go.id harus dapat di lihat secara online di website tidak
harus download lebih dulu, kemudian data diambil dengan Teknik scraping
 Data kasus DHF harus tersedia secara realtime juga bias dari website pemerintah kota
bagian kesehatan
 Data kepadatan penduduk harus dibuatkan sistem agar dapat input secara online
apabila ada pertambahan penduduk

2. A. Data yang diperlukan


a. Sumber data
i. Portal Makanan yang ada di Jogja (www.jejakpiknik.com)
ii. Twitter
b. Metode
i. Scrapping
ii. Twitter API

B. Jelaskan proses preparasi data

1. Mencari keyword sebagai bahan untuk mencari tweet pada twitter yang relevan

Mulai

Artikel dari Portal


Artikel portal Kuliner
Pariwisata

Ektaraksi
Tourism Informasi
Information Kuliner
Extraction

Daftar Kata Kunci Final


sebagai keyword
pencarian di Twitter

Pencarian Tweet di Twitter


Berdasarkan Keyword

Daftar Tweet

Selesei

2.Menscrapping data pada portal kuliner


Scrapping menggunakan tool Beautiful Soup – Phyton dan tool NLTK Phyton

Mulai

Artikel dari Portal


Artikel portal Kuliner
Pariwisata

Preprocesing (scaffolding,
tokenezing, stop word removal,
stemming)

Tourism InformationTFExtraction
Perankingan IDF
(perangkingan TF-IDF)

Daftar Kata Kunci Urut


berdasarkan rangking

Seleksi manual oleh


peneliti

Daftar Kata Kunci Final sebagai


keyword pencarian di Twitter

Selesei
3. Scraping tweet
Mulai

Daftar Tweet dari


hasil pencarian

Scaffolding

Tokenizing

Stemming
(Nazief dan Andriani)

Stop Word Removal

Daftar Tweet yang


telah di preprocesing

Selesei

C. Modelling

C1. Modelling : Rule based Filtering


1. menghapus tweet yang tidak mengandung informasi on-site
2. pendekatan rule based filtering
deletion rule
 linguistic rule
 length rule
number of noun
 non-deletion rule
 precense of activity

C2. Modelling : Data Set information

1. BOW (Bag Of Words) -> term frequency


2. Specific Words -> “di”, “sekarang”, “berada”, “lagi”
3. PostTime -> hubungan waktu kunjung dengan waktu posting
4. PostRange -> (1) 4 a.m - 9 a.m; (2) 10 a.m - 9 p.m ; (3) 10 p.m - 3 a.m
5. Length -> Panjang karakter pada tweet yang diposting di lokasi cenderung lebih
pendek.
6. NumVerb -> Jumlah kata kerja yang digunakan cenderung lebih sedikit.
7. NumNoun -> Jumlah kata benda yang menunjukkan benda atau tempat yang
berkaitan dengan topik pembicaraan tweet.
8. LocName -> Tweet yang mengandung tag lokasi dan diawali dengan nama
makanan

C. EVALUASI

Digunakan 10 Fold Cross Validation

D. RANCANGAN DEPLOY

Anda mungkin juga menyukai