Anda di halaman 1dari 21

Studi Kasus CRISP-DM

City Group – Association Rules


(Matthew North, Data Mining for the Masses 1nd Edition, 2012,
Chapter 5 Association Rules, pp. 73-89)
Dataset: CityGroup.csv
CRISP-DM
1. Business Understanding
• Masalah:
• Roger adalah seorang manejer pada sebuah kota berukuran sedang,
yang sedang berkembang.
• Kebutuhan masyarakat banyak tetapi sumber daya yang tersedia
sedikit.
• Roger percaya bahwa dia bisa bekerjasama dengan masyarakat
setempat untuk memenuhi beberapa kebutuhan di masyarakat,
karena mereka cukup aktif dalam kegiatan komunitas.
• Roger belum tahu apakah ada hubungan antar berbagai jenis
kelompok masyarakat di daerah tersebut yang memungkinkan untuk
bekerja sama.

• Objektif:
• Untuk mengetahui asosiasi atau hubungan antara berbagai jenis
kelompok masyarakat di daerah tersebut agar bisa dilakukan kerja
sama untuk kebaikan Bersama.
2. Data Understanding
Untuk menjawab pertanyaannya, Roger telah meminta bantuan
kami dalam membuat model penambangan data aturan asosiasi.
• Bekerja sama, kami menggunakan pengetahuan Roger tentang
komunitas lokal untuk membuat survei singkat yang akan kami
kelola secara online melalui situs web. Setelah dilakukan survei,
kami memiliki kumpulan data yang terdiri dari atribut berikut:
1. Elapsed_Time: Ini adalah jumlah waktu yang dihabiskan setiap
responden untuk menyelesaikan survei kami. Hal ini dinyatakan
dalam menit desimal (misalnya 4,5 dalam atribut ini akan menjadi
empat menit, tiga puluh detik).
2. Time_in_Community: Merupakan lama waktu mereka menetap
atau tinggal di daerah ini, apakah mereka telah tinggal di daerah
tersebut selama 0-2 tahun, 3-9 tahun, atau 10+ tahun; dan
dikategorikan sebagai Pendek, Menengah, atau Panjang.
3. Gender: Jenis kelamin responden survei.
4. Working: Kolom ya / tidak yang menunjukkan apakah responden
saat ini memiliki pekerjaan berbayar atau tidak.
Age: Merupakan usia responden saat dilakukan survei.
5. Family: Kolom ya/tidak yang menunjukkan apakah
responden saat ini adalah anggota komunitas masyarakat
yang berorientasi keluarga, seperti Big Brothers / Big Sisters,
rekreasi anak-anak atau liga olahraga, kelompok silsilah, dll.
6. Hobbies: Kolom ya/tidak yang menunjukkan apakah
responden saat ini adalah anggota komunitas masyarakat
yang berorientasi hobi, seperti radio amatir, rekreasi luar
ruangan, mengendarai sepeda motor atau sepeda, dll.
7. Social_Club: Kolom ya/tidak yang menunjukkan apakah
responden saat ini adalah anggota komunitas masyarakat
yang berorientasi sosial, seperti Rotary International, Lion's
Club, dll.
8. Political: Kolom ya/tidak yang menunjukkan apakah
responden saat ini adalah anggota komunitas masyarakat
yang berorientasi politik dengan pertemuan rutin di
masyarakat, seperti partai politik, kelompok aksi akar rumput,
upaya lobi, dll.
10. Professional: Kolom ya/tidak yang menunjukkan
apakah responden saat ini adalah anggota komunitas
profesional dengan pertemuan bab lokal, seperti bab
hukum atau masyarakat medis, kelompok pemilik
usaha kecil, dll.
11. Religious: Kolom ya/tidak yang menunjukkan apakah
responden saat ini adalah anggota gereja di komunitas
atau tidak.
12. Support_Group: Kolom ya/tidak yang menunjukkan
apakah responden saat ini adalah anggota komunitas
masyarakat yang berorientasi dukungan, seperti
Alcoholics Anonymous, kelompok manajemen
kemarahan, dll.
3. Data Preparation
Data set: CityGroup.csv
Kumpulan data tampaknya sangat bersih dengan:
Tidak ada nilai yang hilang/missing di salah satu dari enam
atribut.
• Tidak ada data yang noise atau diluar dari range yang
seharusnya, dilihat dari (Min-Max).
• Menghilangkan atribut yang tidak terkait dengan
pertanyaan yang diajukan kepada responden saat survei
• Mengubah tipe data pada atribut yang telah kita
pilih dari tipe Integer menjadi tipe Binomial
Setelah di running:
4. Modeling
• Algoritma FP Growth
• Hasil pemodelan menggunakan FP Growth
• Terlihat bahwa ada atribut yang memiliki asosiasi
• Ada 3 atribut yang memiliki asosiasi satu sama lain
yaitu komunitas Religioun dengan komunitas Family
dan Hobbies
• Untuk memastikan diperlukan satu operator lagi
yaitu ‘Create Association’
5. Evaluation
• Setelah dijalankan ternyata tidak ditemukan aturan
untuk model tadi

• Untuk mendapatkan aturan maka, ubah model


dengan cara melihat pada interval kepercayaan
• Interval kepercayaan diubah dari 0,8 menjadi 0,5
• Terlihat bahwa antara komunitas Religious, Family, dan
Hobbies ternayata memiliki asosiasi satu sama lain
• Asosiasi nomor 4 nyaris tidak dianggap sebagai aturan
dengan ambang batas 80 % karena nilainya 79,6 %
• Asosiasi 2 dan 3 memiliki presentase kepercayaan yang lebih
rendah, tetapi masih cukup baik.
• Dapat dikatakan bahwa resentase dukungan aturan
3 = presentase dukungan aturan 2 dan 4
• Asosiasi akhir yang didapat adalah Family-Religious
bisa jadi aturan karena dukungan tidak timbal balik.
6. Deployment
• Terlihat bahwa antara komunitas Churches, Family, dan
Hobbies memiliki anggota yang sama.
• Komunitas Political dan Proffesional tampaknya tidak
memiliki asosiasi.
• Roger akan mendapatkan keuntungan apabila ia
menemukan komunitas yang akan berkolaborasi
dan dapat membantunya dalam proyek disekitar
kota dengan melibatkan komunitas yang saling ber
asosiasi yaitu Churches, Family, dan Hobbies.
• Roger bisa menghubungi pendeta di kota itu untuk
meminta sukarelawan dari jemaat gereja untuk
mempelopori proyek membersihkan kota yang akan
digunakan untuk olahraga pemuda atau untuk
meningkatkan jalur bersepeda lokal
THANK YOU 

Anda mungkin juga menyukai