Aktivitas
Menilai struktur data - ini menentukan alat dan teknik analitik
untuk fase selanjutnya
Pastikan teknik analitik memungkinkan tim untuk memenuhi
tujuan bisnis dan menerima atau menolak hipotesis kerja
Tentukan apakah situasinya memerlukan model tunggal atau
serangkaian teknik sebagai bagian dari alur kerja analitik yang
lebih besar
2.4 Phase 3: Model Planning
Model Planning in Industry Verticals
Apakah
modelnya cukup
kuat?
2.5 Phase 4: Model Building
Commercial Tools
SAS Enterprise Miner – built for enterprise-level computing and analytics
SPSS Modeler (IBM) – provides enterprise-level computing and analytics
Matlab – high-level language for data analytics, algorithms, data exploration
Alpine Miner – provides GUI frontend for backend analytics tools
STATISTICA and MATHEMATICA – popular data mining and analytics tools
Free or Open Source Tools
R and PL/R - PL/R is a procedural language for PostgreSQL with R
Octave – language for computational modeling
WEKA – data mining software package with analytic workbench
Python – language providing toolkits for machine learning and analysis
SQL – in-database implementations provide an alternative tool (see Chap 11)
2.6 Phase 5: Communicate Results
2.6 Phase 5: Communicate Results
46
CRISP-DM
47
DISCOVERY
DISCOVERY
Business User/Business Understanding
Problems:
Budi adalah Rektor di Universitas Suka Belajar
Universitas Suka Belajar memiliki masalah besar karena rasio
kelulusan mahasiswa tiap angkatan sangat rendah
Budi ingin memahami dan membuat pola dari profile mahasiswa
yang bisa lulus tepat waktu dan yang tidak lulus tepat waktu
Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan
memberi peringatan dini kepada mahasiswa kemungkinan tidak
lulus tepat waktu untuk memperbaiki diri, sehingga akhirnya bisa
lulus tepat waktu
Objective:
Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak
DISCOVERY
Identifying Potential Data Sources/Data Understanding
51
3. Data Preparation
Terdapat 379 data mahasiswa dengan 15 atribut
Missing Value sebayak 10 data, dan tidak terdapat data noise
52
3. Data Preparation
Missing Value dipecahkan dengan menambahkan
data dengan nilai rata-rata
Hasilnya adalah data bersih tanpa missing value
4. Modeling
Modelkan dataset dengan Decision Tree
Pola yang dihasilkan bisa berbentuk tree atau
if-then
4. Modeling
Hasil pola dari data berupa berupa decision tree (pohon keputusan)
55
5. Evaluation
Hasil pola dari data berupa berupa peraturan if-then
56
5. Evaluation
Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak
pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswa supaya
memiliki pengalaman kerja. Dan yang paling penting mahasiswa tidak meninggalkan
kuliah karena pekerjaan
Budi memasukkan pola dan model yang terbentuk ke dalam sistem informasi
kademik, dimana sistem dibuat cerdas, sehingga bisa mengirimkan email analisis
pola secara otomatis ke mahasiswa sesuai profilnya
Exercises: Solve Problem Organization