Notebook
KELOMPOK 2
Farhan Yumna (193303040264)
Ben Jua Ivand Manihuruk (193303040275)
Lolo Frans M. Brutu (193303040283)
Reinhard Halomoan Napitupulu (193303040316)
Penulis
ii
DAFTAR ISI
COVER
KATA PENGANTAR......................................................................................................ii
DAFTAR ISI....................................................................................................................iii
DAFTAR GAMBAR.......................................................................................................iii
1.1 Fase dalam CRIPS DM...............................................................................................1
3.2 Phase of Data Modeling..............................................................................................3
4.3 From Modeling to Evaluation.....................................................................................4
5.4 Fase Program menentukan Sertifikasi.........................................................................5
DAFTAR TABEL...........................................................................................................iii
2.1 Jenis Data Kuantitatif Dan Data Kualitatif.................................................................2
6.3 Data hasil uji sertifikasi di laboratorium ITCC pada tahun 2017 – 2018...................6
7.4 Data Selection.............................................................................................................7
8.5 Kriteria 1.....................................................................................................................8
8.6 Kriteria 2.....................................................................................................................8
9.6 Kriteria 3.....................................................................................................................9
9.7 Kriteria 4.....................................................................................................................0
9.8 Kriteria 5.....................................................................................................................9
10.9 Variable Kelulusan....................................................................................................10
BAB I.................................................................................................................................1
PENDAHULUAN.............................................................................................................1
1.1 Business Understanding..............................................................................................1
1.2 Data Understanding.....................................................................................................2
1.3 Data Prepation.............................................................................................................3
1.4 Modeling.....................................................................................................................4
1.5 Evaluation....................................................................................................................4
1.6 Deployment.................................................................................................................4
1.7 Contoh Penerapan Business Understanding................................................................5
1.8 Perbedaan Google Colab Dengan Jupyter Notebook................................................11
BAB II................................................................................................................................8
KESIMPULAN.................................................................................................................8
DAFTAR PUSTAKA.......................................................................................................9
iii
iii
BAB I
PENDAHULUAN
1
2
Jenis Data Deskripsi Hal yang perlu diperhatikan Catatan bagi data analist
· Posisi data setara untuk setiap subtype.
· Hanya untuk memberikan label pada • Penggunaan jenis data ini untuk Data
variable mining dengan tujuan prediction dan
· lebih tepat menggunakan kode biner forecasting mengacu pada aturan
Contoh misalkan terdapat 4 tipe bahwa Jumlah variabel biner harus
data yang berasal dari peruntukan lahan maka digunakan kurang 1 dari jumlah kategori yang akan
Nominal proses kategorisasi atau kode seperti ini: dikuantitatifkan (Gujarati dan Porter
klasifikasi Komersial 1 0 0 2010; 358).
Residensial 0 1 0 • Sangat baik untuk data mining dengan
Perkantoran 0 0 1 tujuan asosiasi dan klasifikasi yang
Campuran 0 0 0 menggunakan jenis data categorical
· Tidak bisa dilakukan operasi (tidak dinyatakan dalam angka)
matematika
· Posisi data untuk setiap subtype tidak
setara namun tidak diketahui berapa
jarak antar subtype
data yang berasal dari Apabila menggunakan Algoritma Konstanta
· Memiliki urutan dan tidak memiliki
proses kategorisasi atau Nearest Neigborhood, perlu disadari bahwa
nilai Nol, contoh posisi tanah
klasifikasi namun jarak antara sub type tidak diketahui artinya
terhadap elevasi jalan dinyatakan
Ordinal diantara data tersebut hubungan antar dua objek dengan dengan
sebagai berikut:
terdapat hubungan perbedaan kode 3 dan 2 adalah sama dengan
Lebih tinggi 3
(misalnya hubungan hubungan antara dua objek dengan kode 2
Sejajar 2
bertingkat) dan 1.
Lebih rendah 1
· Tidak bisa dilakukan operasi
matematika
Perlu kehati-hatian dalam menggunakan
Data interval adalah Konstanta Nearest Neigborhood karena
· Tidak memiliki nilai Nol absolut
data yang diperoleh tanda plus dan minus untuk angka yang
sebagai contoh data pertumbuhan
dengan cara sama tidak berbeda contoh:
Interval ekonomi dimana terdapat nilai negatif
pengukuran namun negara dengan tingkat pertumbuhan positif
· Bisa dilakukan operasi matematika
tidak ada titik nol yang 2 dan negara dengan tingkat pertumbuhan
terbatas
absolut minus 2 akan terkumpul dalam kelompok
yang sama.
data yang diperoleh
dengan cara
pengukuran, dimana · Merupakan peringkat teratas dari Tepat untuk digunakan pada data mining
Rasio jarak dua titik pada semua jenis data dengan algoritma yang berdasar pada semua
skala sudah diketahui, · Bisa dilakukan operasi matematika jenis operasi matematika.
dan mempunyai titik
nol yang absolut
yang berguna. Tahapan ini adalah yang paling menguras resources dari tim analisis.
Model yang baik dan akurat berawal dari data preparasi yang baik. Beberapa hal yang
umum dilakukan pada tahapan ini adalah:
1. Melakukan pengecekan kembali pada kebenaran data;
Pengecekan pada data perlu di desain bertingkat sehingga akuntabilitas terjaga.
Pengecekan juga diperlukan terhadap konsistensi inputing data. System yang baik
dalam pengumpulan data antara lain menggunakan default akan dapat menjaga
konsistensi data.
2. Mengelola data outlier
Data Outlier perlu dikelola dengan baik. Data Outlier dapat berupa Univariate
Outlier, dan Multivariate Outlier serta dapat berada pada variable dependent
maupun variable independent. Data Mining untuk tujuan generalisir akan
terpengaruh dengan dengan Data Outlier sehingga perlu dinetralisir. Sebelum
melakukan treatment atas data Outlier alangkah baiknya terlebih dahulu dilakukan
pengecekan terhadap pengambilan dan pengisian data.
3. Memberlakukan data missing dan data inkonsistensi
Perlakuan terhadap data missing harus match dengan tujuan dari data mining itu
sendiri. Misalkan data missing yang di isi dengan average mungkin masih dapat
diterima untuk tujuan prediction dan forecasting, namun untuk klastering bisa jadi
akan mengarahkan pada kelompok yang kurang tepat. Sebaliknya menggunakan
data yang sering muncul untuk mengisi missing data untuk multi variable data
mining akan berpengaruh pada hasil untuk tujuan prediction dan forecast.
1.4 Modeling
Model adalah deskripsi atau knowledge berkualitas yang dibangun oleh system
atau process dari kalkulasi dan prediksi yang berterima. Kata sifat berterima disini
mengacu pada sedikitnya beberapa hal yaitu technically correct dan economically
correct (pada penelitian ekonomi).
1.5 Evaluation
Pada tahap ini akan dilakukan evaluasi terhadap kualitas dan efektivitas satu
atau lebih model yang dikirim dalam fase pemodelan sebelum menempatakan untuk
digunakan di lapangan. Tentukan apakah model tersebut benar benar mencapai tujuan
yang ditetapkan pada fase pertama, yakni tahap Business Understanding. Menetapkan
beberapa aspek penting dari masalah bisnis atau penelitian belum diperhitungkan secara
1.6 Deployment
Tahap terakhir dalam model CRISP-DM adalah Deployment. Tahap Deployment
adalah saat dimana para analyst dan engineer mempacking dan menyampaikan proses
data analisis yang telah dilakukan Perencanaan untuk Deployment dimulai selama
Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk
menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan
bagaimana untuk menggabungkan keputusan dalam sistem operasional.
Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak ada model
yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu tertentu,
sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data. Modelpun
harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.
5
Tabel 6.3 data hasil uji sertifikasi di laboratorium ITCC pada tahun 2017 – 2018
c. Data Preparation Phase (Fase Pengolahan Data)
7
Pada tahap pengolahan data dilakukan proses data selection dan data
transformation. Data yang sudah digabungkan akan diolah di fase
pengolahan data ini.
1. Data Selection (Seleksi Data)
Pada tahap pengolahan data dilakukan proses data selection dan
data transformation. Data yang sudah digabungkan akan diolah di
fase pengolahan data ini.
No K1 K2 K3 K4 K5 Keterangan Nilai
1 100% 100% 100% 100% 100% Lulus 1000
2 93% 94% 98% 92% 85% Lulus 924
3 96% 93% 97% 96% 68% Lulus 900
4 93% 97% 99% 95% 61% Lulus 890
5 93% 90% 94% 83% 91% Lulus 902
… …… …… …… …… …… …… ……
… ……. ……. ……. ……. ……. ……. …….
… ……. ……. ……. ……. ……. ……. …….
… …….. …….. …….. …….. …….. …….. ……..
1022 58% 58% 57% 61% 84% Tidak 637
1023 57% 63% 55% 61% 71% Tidak 614
1023 56% 58% 61% 64% 61% Tidak 600
K1 Kategori
90%-100% A
80%-89% B
65-79% C
55-64% D
<55% E
K2 Kategori
90%-100% A
80%-89% B
65-79% C
55-64% D
<55% E
K3 Kategori
90%-100% A
80%-89% B
65-79% C
55-64% D
<55% E
9
d.) Kriteria 4
Variabel ini berisi range nilai yang telah diklasifikasikan menjadi
5 Kategori, yaitu A, B, C, D dan E. Berikut kriteria 4 yang telah
di klasifikasi sebagai berikut:
K4 Kategori
90%-100% A
80%-89% B
65-79% C
55-64% D
<55% E
e.) Kriteria 5
Variabel ini berisi range nilai yang telah diklasifikasikan menjadi
5 Kategori, yaitu A, B, C, D dan E. Berikut kriteria 5 yang telah
di klasifikasi sebagai berikut:
K5 Kategori
90%-100% A
80%-89% B
65-79% C
55-64% D
<55% E
No K1 K2 K3 K4 K5 Keterangan
1 A A A A A Lulus
2 A A A A B Lulus
3 A A A A C Lulus
4 A A A A D Lulus
5 A A A B A Lulus
… …… …… …… …… …… ……
… ……. ……. ……. ……. ……. …….
… ……. ……. ……. ……. ……. …….
… …….. …….. …….. …….. …….. ……..
1022 D D D D D Tidak
1023 D D D D D Tidak
1023 D D D D D Tidak
1) Google Colab
2) Jupyter Notebook
Selain itu, Jupyter juga mempermudah kerja sama antara insinyur dan data
scientist karena kemudahannya dalam menulis dan berbagi teks dan kode.
12
DAFTAR PUSTAKA
[1]. Dapat diaksesnpada website: https://www.djkn.kemenkeu.go.id/artikel/baca/
[2]. Dapat diakses pada website : https://dqlab.id/teknik-analisis-data-crisp-dm-dalam-
data-mining
[3]. Dapat diakses pada website : https://flinsetyadi.com/metodologi-crisp-dm-beserta-
contoh-kasusnya/
[4]. Dapat diakses pada website : https://glints.com/id/lowongan/google-colab-adalah/
[5]. Dapat diakses pada website : https://glints.com/id/lowongan/jupyter-adalah/
[6]. Dapat diakses pada website : https://www.studocu.com/id/document/universitas-
lambung-mangkurat/ilmu-komputer/contoh-kasus-naive-bayes-menggunakan-
metode-crisp-dm-analisis-kebutuhan/37420177
13