Uas BPDS - Endra Pratama

1. A.
Tahapan CRISPDM
a) Business understanding
Tujuan : Melakukan pemodelan untuk memprediksi jumlah kasus dan pola penyebaran
penyakit demam berdarah di Indonesia
Manfaat : Untuk mencegah terjadinya peningkatanpenyakit DHF dalam waktu terdekat.
Agar pemerintah dapat mengeluarkan kebijakan pencegahan yang tepat
b) Data Understanding
 Data iklim diperoleh dari dataonline.bmkg.go.id tahun 2010-2015 (data bulanan)
Data tersebut memuat data minimal, maksimal, rata-rata temperature, curah hujan,
kelembapan, waktu penyinaran,
 Data kasus DHF
 Data kepadatan penduduk dari 17 daerah di Sleman yaitu Minggir, Seyegan, Godean,
Gamping, Mlati, Depok, Berbah, Prambanan, Kalasan, Ngemplak, Ngaglik, Sleman, Tempel,
Turi, Pakem, dan Cangkringan
c) Data preparation
 Menggunakan 2 metode linear regresi dan smoothing spline
 Input data iklim, jumlah kasus dhf dan kepadatan penduduk.
 Mengganti misiing value dengan interpolasi smooting spline dan korelasi antar
ariabel menggunakan Keyser Meyer Olkin
 Jumlah kasus DHF di proses dengan data bulanan perdaerah
 Kepadatan penduduk dipisahkan dengan data bulanan per daerah
d) Modelling
Menggunakan metode Vector Auto Regresion (VAR)
Diperoleh hasil peramalan DHF sebagai berikut
Figure 1. Depok
Figure 2 Kalasan
Figure 3. Mlati
Berikut merupakan table korelasi

e) Evaluasi
Menggunakan RMSE dan MAE
Berikut merupakan Komparasi Error Fiting Value peramalan dengan regresi linear dan
algoritma arima
Berikut merupakan komparasi error peramalan dengan regresi linear dan algoritma arima
Pada table diatas menunjukaan model memiliki error yang relative kecil menggunakan
regresi linear dan algoritma arima
f) Kesimpulan
 Peramalan menggunakan VARSA telah membuktikan dapat digunakan untuk
periode pendek atau jangka Panjang dengan error yang relative kecil.
 Model tersebut juga dapat menampilkan pola penyebaran penyakit
 Spatial Autocorelation Analisis menunjukkan ada 3 daerah di Sleman yang signifikan
tinggi
1. B. Sebutkan cara agar model tersebut dapat di deploy dalam aplikasi berbasis web.
Jawab : Agar model dapat dideploy maka diperlukan sumber informasi yang tersedia secara real
time juga misalnya harian, mingguan, atau bulanan.
 Data iklim dari dataonline.bmkg.go.id harus dapat di lihat secara online di website tidak
harus download lebih dulu, kemudian data diambil dengan Teknik scraping
 Data kasus DHF harus tersedia secara realtime juga bias dari website pemerintah kota
bagian kesehatan
 Data kepadatan penduduk harus dibuatkan sistem agar dapat input secara online
apabila ada pertambahan penduduk
2. A. Data yang diperlukan

a. Sumber data
i. Portal Makanan yang ada di Jogja (www.jejakpiknik.com)
ii. Twitter
b. Metode
i. Scrapping
ii. Twitter API
B. Jelaskan proses preparasi data
1. Mencari keyword sebagai bahan untuk mencari tweet pada twitter yang relevan
Mulai
Artikel dari Portal

Artikel portal Kuliner
Pariwisata
Ektaraksi
Tourism Informasi
Information Kuliner
Extraction
Daftar Kata Kunci Final

sebagai keyword
pencarian di Twitter
Pencarian Tweet di Twitter

Berdasarkan Keyword
Daftar Tweet
Selesei
2.Menscrapping data pada portal kuliner

Scrapping menggunakan tool Beautiful Soup – Phyton dan tool NLTK Phyton
Mulai
Artikel dari Portal

Artikel portal Kuliner
Pariwisata
Preprocesing (scaffolding,
tokenezing, stop word removal,
stemming)
Tourism InformationTFExtraction
Perankingan IDF
(perangkingan TF-IDF)
Daftar Kata Kunci Urut

berdasarkan rangking
Seleksi manual oleh

peneliti
Daftar Kata Kunci Final sebagai

keyword pencarian di Twitter
Selesei
3. Scraping tweet
Mulai
Daftar Tweet dari

hasil pencarian
Scaffolding
Tokenizing
Stemming
(Nazief dan Andriani)
Stop Word Removal
Daftar Tweet yang

telah di preprocesing
Selesei
C. Modelling
C1. Modelling : Rule based Filtering

1. menghapus tweet yang tidak mengandung informasi on-site
2. pendekatan rule based filtering
deletion rule
 linguistic rule
 length rule
number of noun
 non-deletion rule
 precense of activity
C2. Modelling : Data Set information
1. BOW (Bag Of Words) -> term frequency

2. Specific Words -> “di”, “sekarang”, “berada”, “lagi”
3. PostTime -> hubungan waktu kunjung dengan waktu posting
4. PostRange -> (1) 4 a.m - 9 a.m; (2) 10 a.m - 9 p.m ; (3) 10 p.m - 3 a.m
5. Length -> Panjang karakter pada tweet yang diposting di lokasi cenderung lebih
pendek.
6. NumVerb -> Jumlah kata kerja yang digunakan cenderung lebih sedikit.
7. NumNoun -> Jumlah kata benda yang menunjukkan benda atau tempat yang
berkaitan dengan topik pembicaraan tweet.
8. LocName -> Tweet yang mengandung tag lokasi dan diawali dengan nama
makanan
C. EVALUASI
Digunakan 10 Fold Cross Validation
D. RANCANGAN DEPLOY

Uas BPDS - Endra Pratama

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Uas BPDS - Endra Pratama

Diunggah oleh

Hak Cipta:

Format Tersedia

1. A.

Diperoleh hasil peramalan DHF sebagai berikut

Berikut merupakan table korelasi

2. A. Data yang diperlukan

B. Jelaskan proses preparasi data

Artikel dari Portal

Daftar Kata Kunci Final

Pencarian Tweet di Twitter

2.Menscrapping data pada portal kuliner

Artikel dari Portal

Daftar Kata Kunci Urut

Seleksi manual oleh

Daftar Kata Kunci Final sebagai

Daftar Tweet dari

Stop Word Removal

Daftar Tweet yang

C1. Modelling : Rule based Filtering

C2. Modelling : Data Set information

1. BOW (Bag Of Words) -> term frequency

Digunakan 10 Fold Cross Validation

Anda mungkin juga menyukai