Anda di halaman 1dari 77

BAB 1

BIG DATA AND DATA ANALYTICS

Tatap Muka ke : 1 Waktu : 150 menit

Sub Pokok Bahasan 1. Data, Information, Knowledge,


Insight and Wisdom
2. Konsep Big Data
3. Teknologi Big Data
4. Data Mining dan Data Analytics
5. Machine Learning
6. Sources of Data
7. Types of Data

Tujuan Pembelajaran Kompetensi yang hendak dicapai


Mahasiswa mampu:
- menjelaskan tentang konsep big data
dan data analytics
- menjelaskan konsep analisis data
dengan teknologi big data dan data
analytics dengan tepat
- menjelaskan sumber data dan jenis
data

Sebelum kita membahas tentang data analytics, kita akan membahas terlebih dahulu
tentang data, informasi, knowledge dan wisdom.

1️⃣Data, Information, Knowledge, Insight dan Wisdom


Manusia memproduksi beragam data dalam
berbagai bidang, termasuk astronomi, bisnis,
kedokteran, ekonomi, olahraga, cuaca,
keuangan, dan banyak lagi. Data ini bisa
berupa data terstruktur dan tidak terstruktur,
terdiri dari berbagai jenis seperti teks, gambar,
audio, dan video. Dalam beberapa tahun
terakhir, jumlah dan ukuran data yang
dihasilkan manusia semakin meningkat secara
signifikan, dan teknologi seperti data mining,
big data, dan machine learning digunakan
untuk mengelola dan menganalisis data ini
sehingga dapat memberikan wawasan dan keuntungan yang berharga bagi organisasi
dan bisnis.
Perkembangan teknologi digital, khususnya ponsel pintar dan internet, telah
menyebabkan ledakan dalam jumlah data yang dihasilkan setiap hari. Banyak data ini
berasal dari pasar elektronik mobile, dengan 7 miliar langganan ponsel pintar pada
tahun 2015.

Selain itu, web dan jejaring sosial seperti Google, Facebook,


dan YouTube menghasilkan jumlah data yang luar biasa.
Google misalnya, memproses 100 petabyte (PB) data setiap
hari dengan menggunakan 3 juta server, sedangkan
Facebook memiliki 300 PB data pengguna setiap hari.
YouTube memiliki penyimpanan video sebesar 1000 PB
atau 1 eksabyte (EB). Ledakan tsunami data ini menuntut
kemampuan pengelolaan data dan analisis yang lebih baik
untuk memahami pola dan tren dari data yang dihasilkan
untuk tujuan bisnis dan organisasi.

Data harus kita olah menjadi


pengetahuan supaya bisa bermanfaat
bagi manusia. Data yang tidak diolah dan
tidak dianalisis memiliki nilai yang
terbatas dan tidak memberikan banyak
manfaat bagi manusia. Namun, ketika
data diolah dan dianalisis dengan baik,
data dapat memberikan wawasan dan
informasi yang penting, yang dapat
membantu manusia dalam membuat
keputusan yang lebih baik, mengembangkan bisnis, meningkatkan efisiensi operasi,
dan mengidentifikasi tren dan pola dalam data yang dapat dimanfaatkan untuk
mencapai tujuan yang lebih besar. Oleh karena itu, penting bagi kita untuk memiliki
keterampilan dan kemampuan dalam mengolah data agar kita dapat
memanfaatkan potensi data secara maksimal.

Dengan pengetahuan tersebut, manusia dapat:


1. Melakukan estimasi dan prediksi apa yang terjadi di depan
2. Melakukan analisis tentang asosiasi, korelasi dan pengelompokan antar data
dan atribut
3. Membantu pengambilan keputusan dan pembuatan kebijakan

Dengan menggunakan teknik-teknik seperti analisis data, data mining, machine


learning, dan statistik, manusia dapat memanfaatkan data untuk mengidentifikasi tren,
pola, dan relasi yang mungkin sulit ditemukan secara manual. Hal ini dapat membantu
dalam mengambil keputusan yang lebih baik dan dalam memformulasikan kebijakan
yang lebih efektif dan efisien.

💡Contoh Kasus dari Data menjadi Kebijakan


Data Kehadiran Pegawai

Informasi Akumulasi Bulanan Kehadiran Pegawai


Pola Kebiasaan Kehadiran Mingguan Pegawai

Kebijakan penataan jam kerja karyawan khusus untuk hari Senin dan Jumat.
Peraturan jam kerja:
★ Hari Senin dimulai jam 10:00
★ Hari Jumat diakhiri jam 14:00
★ Sisa jam kerja dikompensasi ke hari lain
Gambar diatas menggambarkan bagaimana data dapat diubah menjadi kebijakan
melalui beberapa tahap. Data yang mentah tidak memiliki makna atau nilai yang
signifikan tanpa diolah dan dianalisis terlebih dahulu. Dalam proses tersebut, data
diubah menjadi informasi, yaitu data yang telah dianalisis dan diorganisir sehingga
memiliki makna dan konteks tertentu. Kemudian, informasi tersebut dapat dijadikan
pengetahuan ketika kita memahami dan menginterpretasikan informasi tersebut untuk
tujuan tertentu. Akhirnya, dengan menggunakan pengetahuan tersebut, kebijakan
dapat dibuat dan diterapkan untuk mencapai tujuan yang diinginkan.
Dalam keseluruhan proses ini, penting untuk mengumpulkan data yang akurat,
memproses data dengan benar, dan memahami konteks dalam data dan informasi
yang dihasilkan, sehingga kebijakan yang dibuat dapat didasarkan pada informasi dan
pengetahuan yang akurat dan valid.

Dari penjelasan diatas dapat disimpulkan bahwa:


★ Data adalah kumpulan fakta mentah yang belum diorganisir atau diolah.
★ Informasi adalah data yang telah diolah dan memiliki konteks atau makna.
★ Pengetahuan adalah pemahaman atau pengertian yang didapat dari informasi.
★ Insight adalah pemahaman mendalam atau wawasan yang didapat dari
pengetahuan dan pengalaman.
★ Wisdom adalah kemampuan untuk mengambil keputusan yang tepat berdasarkan
insight dan nilai-nilai yang dimiliki.

📝Discussion: Beri contoh kasus lain tentang penggunaan data


sampai menjadi kebijakan!

📌Quiz Time
1. Apa yang dimaksud dengan big data?
A. Data mentah yang belum diolah
B. Data yang dihasilkan manusia dalam berbagai bidang
C. Data yang dihasilkan manusia dalam bidang ekonomi
D. Data terstruktur yang dihasilkan manusia

2. Apa saja jenis-jenis data yang dapat dihasilkan manusia?


A. Data struktur dan terstruktur
B. Data teks, gambar, audio, dan video
C. Data terstruktur dan audio
E. Data teks dan gambar

3. Apa yang menyebabkan ledakan data dalam jumlah yang signifikan?


A. Ponsel pintar dan internet
B. Facebook dan Google
C. YouTube dan jejaring sosial
D. Kedokteran dan olahraga
4. Apa keuntungan dari pengelolaan dan analisis data dengan teknologi seperti big
data dan machine learning?
A. Memberikan wawasan dan keuntungan yang berharga bagi organisasi dan
bisnis
B. Memproduksi data yang akurat dan valid
C. Meningkatkan efisiensi operasi bisnis
D. Menyimpan data dalam jumlah besar

5. Apa manfaat dari pengolahan dan analisis data dengan baik?


A. Memberikan wawasan dan informasi yang penting
B. Meningkatkan nilai data yang tidak diolah
C. Menghasilkan data yang tidak terstruktur
D. Membantu mengidentifikasi data yang tidak penting
2️⃣Konsep Big Data
Definisi yang sangat mendasar adalah bahwa “big data" merupakan kumpulan data
yang begitu besar dan kompleks sehingga sulit atau bahkan tidak mungkin untuk
memprosesnya menggunakan teknik perangkat lunak tradisional. Dalam konteks ini,
"teknik perangkat lunak tradisional" mengacu pada pemrosesan data pada satu
komputer ("traditional software techniques" refer to the processing of data on a single
computer).

Big Data adalah istilah yang digunakan untuk merujuk pada volume, kecepatan, dan
keragaman data yang sangat besar dan kompleks. Konsep ini melibatkan pengolahan,
analisis, dan manajemen data yang lebih besar dan lebih kompleks dari metode
tradisional. Pentingnya Big Data telah meningkat karena munculnya teknologi seperti
sensor internet, machine learning, dan analisis data yang canggih, yang
memungkinkan organisasi untuk mengambil keputusan berdasarkan data secara lebih
efektif dan efisien.

Berikut adalah beberapa contoh "Big Data":


1. Facebook (user logon, likes, comments, ads) - Facebook mengumpulkan data
dari miliaran pengguna yang menggunakan platform mereka, termasuk data
tentang siapa yang masuk, apa yang mereka sukai, apa yang mereka komentari,
dan iklan yang mereka lihat. Data ini kemudian digunakan untuk mempersonalisasi
pengalaman pengguna dan menargetkan iklan.
2. Google (search queries) - Google mengumpulkan data tentang apa yang dicari
pengguna di mesin pencari mereka, termasuk kata kunci yang digunakan, waktu
pencarian, lokasi, dan perangkat yang digunakan. Data ini digunakan untuk
memperbaiki hasil pencarian dan menargetkan iklan.
3. Gmail (emails sent) - Gmail mengumpulkan data tentang email yang dikirim dan
diterima oleh pengguna, termasuk siapa yang mengirim email, kapan email
tersebut dikirim, dan konten email. Data ini kemudian digunakan untuk menyaring
spam dan menampilkan iklan yang relevan.
4. Youtube (video watched) - Youtube mengumpulkan data tentang video yang
ditonton oleh pengguna, termasuk judul video, tautan video, durasi video, dan
perangkat yang digunakan. Data ini digunakan untuk merekomendasikan video
lain kepada pengguna dan menargetkan iklan.
5. Sensor IoT (Internet of Things) - Data dari jutaan sensor yang terpasang pada
perangkat seperti kendaraan, peralatan rumah tangga pintar, dan infrastruktur kota
(seperti lampu jalan pintar) menghasilkan jumlah data yang sangat besar. Data ini
dapat digunakan untuk melakukan perawatan preventif pada perangkat,
memperkirakan biaya pemakaian, dan memantau kondisi lingkungan sekitar
perangkat.
6. E-commerce - Data pembelian dan riwayat perambanan dari jutaan pengguna
yang berbelanja di situs web e-commerce seperti Amazon, Alibaba, dan eBay.
Data e-commerce digunakan untuk memahami perilaku belanja pengguna,
menganalisis tren pasar, dan memprediksi permintaan untuk produk tertentu. Data
ini juga dapat digunakan untuk mempersonalisasi pengalaman belanja dan
menargetkan promosi yang lebih efektif.
7. Penelitian ilmiah - Data yang dihasilkan dari eksperimen dan simulasi di berbagai
bidang seperti genetika, meteorologi, astronomi, dan fisika nuklir. Data penelitian
ilmiah digunakan untuk mengembangkan pemahaman baru tentang fenomena
alam dan untuk memvalidasi atau mengembangkan teori yang ada. Data ini juga
dapat digunakan untuk memprediksi perilaku sistem yang kompleks seperti cuaca,
penyebaran penyakit, dan perubahan iklim.
8. Pemerintah - Data dari pemerintah seperti data sensus, data kesehatan, data
kejahatan, dan data lingkungan. Data pemerintah digunakan untuk membuat
kebijakan publik yang lebih baik, memantau dan mengevaluasi kinerja pemerintah,
serta memperbaiki layanan publik. Data ini juga dapat digunakan untuk
menganalisis tren sosial dan ekonomi dalam masyarakat.
9. Perbankan - Data transaksi keuangan dan riwayat kredit dari jutaan nasabah
bank. Data perbankan digunakan untuk mengembangkan model risiko dan untuk
melakukan analisis keuangan yang rumit, seperti analisis kredit dan pengelolaan
portofolio. Data ini juga dapat digunakan untuk mengembangkan strategi
pemasaran yang lebih efektif.
10. Transportasi - Data dari kendaraan yang terhubung dengan internet seperti data
telematika dan data navigasi. Data transportasi digunakan untuk memperkirakan
dan memperbaiki waktu perjalanan, memantau kinerja kendaraan, dan
meningkatkan keamanan jalan. Data ini juga dapat digunakan untuk
mengoptimalkan rute dan mengurangi kemacetan.
11. Industri media - Data tentang konsumsi konten media seperti musik, film, dan
buku dari jutaan pengguna. Data industri media digunakan untuk mengembangkan
konten media yang lebih menarik, menargetkan audiens yang tepat, dan
memperoleh penghasilan dari iklan dan penjualan. Data ini juga dapat digunakan
untuk memahami tren konsumsi media dan mengembangkan strategi pemasaran
yang lebih baik.

📝Discussion: Sebutkan beberapa contoh big data yang lain!

3 V’s of Big Data (Karakteristik Big Data)


Tiga karakteristik utama dari Big Data dikenal sebagai 3 V's, yaitu:
1. Volume (Volume) – V pertama mengacu pada "volume" atau jumlah data yang
besar. Big Data berisi data dalam skala yang sangat besar, terkadang mencapai
ratusan terabyte atau bahkan petabyte. Volume yang besar ini dapat berasal dari
berbagai sumber, seperti sensor IoT, platform media sosial, dan perangkat
penyimpanan yang sangat besar. Dengan data besar, akan sering harus dilakukan
proses data dalam jumlah besar, sebagian besar tidak terstruktur dan dengan
kepadatan informasi yang rendah. Data tidak terstruktur memerlukan pengolahan
khusus agar dapat memberikan wawasan yang berarti.
2. Velocity (Kecepatan) – Ini mengacu pada tingkat kecepatan di mana data
diterima, disimpan, dan digunakan. Big Data dihasilkan dalam waktu nyata dan
diperbarui dengan cepat, sehingga perlu diproses dan dianalisis dengan cepat
agar tetap relevan. Contoh data real-time yang dihasilkan secara cepat termasuk
data lalu lintas, data transaksi keuangan, dan data media sosial. Dalam era Big
Data, kecepatan ini sangat penting untuk memungkinkan pengambilan keputusan
yang cepat dan akurat.
3. Variety (Ragam) – Variety (keragaman) mengacu pada banyak jenis data yang
tersedia untuk diolah. Contohnya termasuk data numerik, teks biasa, audio,
gambar dan video. Data dapat berasal dari berbagai sumber dan format, seperti
data dari internet, data transaksi, data sosial media, data teks, dan banyak lagi.
Kekayaan jenis data ini memerlukan alat dan teknologi khusus untuk
mengintegrasikan dan menganalisis data.
V lain yang terkadang ditambahkan ke V's of Big Data adalah Veracity. Veracity
mengacu pada keakuratan atau kualitas data. Dengan berlalunya waktu, kebenaran
atau kualitas data dapat menurun karena semakin banyak data yang dihasilkan. Data
dapat menjadi tidak akurat atau tidak bermakna jika tidak diproses dengan benar, dan
veracity penting untuk memastikan bahwa hasil analisis data benar dan dapat
diandalkan.

Untuk penjelasan lebih jelas tonton


video berikut:
What is Big Data?
https://www.youtube.com/watch?
v=TzxmjbL-i4Y
📌Quiz Time
6. Apa yang dimaksud dengan Big Data?
A. Data yang terkumpul dari mesin pencari
B. Kumpulan data yang kecil dan mudah diolah
C. Kumpulan data yang sangat besar dan kompleks
D. Data yang dihasilkan dari eksperimen dan simulasi di berbagai bidang

7. Mengapa Big Data semakin penting saat ini?


A. Karena teknologi sensor internet dan analisis data yang canggih
B. Karena data semakin mudah diolah dengan teknologi terbaru
C. Karena data semakin sedikit dan mudah dikelola
D. Karena data sudah tidak diperlukan lagi dalam pengambilan keputusan

8. Apa yang dimaksud dengan volume dalam karakteristik Big Data?


A. Jumlah data yang besar
B. Tingkat kecepatan data diterima, disimpan, dan digunakan
C. Banyak jenis data yang tersedia untuk diolah
D. Proses pengolahan data dalam jumlah besar

9. Contoh big data yang berasal dari data transaksi keuangan adalah...
A. Facebook
B. Google
C. Gmail
E. Data transaksi keuangan dari jutaan nasabah bank

10. Apa yang dimaksud dengan kecepatan dalam karakteristik Big Data?
A. Banyak jenis data yang tersedia untuk diolah
B. Jumlah data yang besar
C.
D. Tingkat kecepatan data diterima, disimpan, dan digunakan
E. Proses pengolahan data dalam jumlah besar

3️⃣Teknologi Big Data


Berikut adalah teknologi Big Data:
★ SQL (Structured Query Language) - https://dev.mysql.com/downloads/.:
SQL adalah bahasa pemrograman standar yang digunakan untuk mengelola data
dalam database. Dengan SQL, pengguna dapat membuat tabel, memasukkan
data ke dalam tabel, mengambil data dari tabel, dan melakukan banyak operasi
lainnya. SQL adalah teknologi penting dalam Big Data karena sebagian besar data
yang disimpan di database.
★ Hadoop Distributed File System - https://hadoop.apache.org/releases.html:
HDFS adalah sistem file terdistribusi yang digunakan untuk menyimpan data
dalam klaster komputer yang terdiri dari banyak node. HDFS memungkinkan
pengguna menyimpan data dalam file besar yang dapat terdiri dari milyaran baris
atau ribuan kolom. Sistem file ini juga sangat tahan terhadap kegagalan, karena
menyimpan data secara terdistribusi di seluruh klaster. HDFS adalah teknologi
penting dalam Big Data karena memungkinkan penyimpanan data yang sangat
besar.
★ MapReduce: MapReduce adalah model pemrograman yang digunakan untuk
memproses data dalam lingkungan Hadoop. Dengan MapReduce, pemrosesan
data didistribusikan ke beberapa node dalam klaster. Setiap node memproses
data yang berbeda, dan hasilnya kemudian digabungkan menjadi satu output.
MapReduce adalah teknologi penting dalam Big Data karena memungkinkan
pemrosesan data yang sangat besar.
★ Hive - https://hive.apache.org/downloads.html - Data Query Language: Hive
adalah alat kueri Big Data yang menggunakan bahasa mirip SQL. Hive
memungkinkan pengguna menganalisis data yang disimpan di HDFS dengan
menggunakan bahasa yang sudah dikenal banyak pengguna. Ini membuatnya
lebih mudah bagi orang untuk beradaptasi dengan teknologi Big Data.
★ Pig - https://pig.apache.org/releases.html: Pig adalah bahasa pemrograman
tingkat tinggi untuk Big Data yang dapat digunakan untuk mengolah data dalam
cluster Hadoop. Pig adalah bahasa data flow yang memungkinkan pengguna
untuk menentukan alur data dari satu tugas ke tugas lainnya. Pig memungkinkan
Anda memproses data secara paralel di beberapa node dalam klaster, sehingga
mempercepat waktu pemrosesan data.
★ Hbase - https://hbase.apache.org/downloads.html: Hbase adalah database
NoSQL yang berjalan di cluster Hadoop. Hbase dapat menyimpan data dengan
skala yang sangat besar dan dapat diakses dengan cepat. Hbase menyimpan data
dalam tabel, dan setiap kolom disimpan sebagai file fisik yang terpisah. Ini
membuatnya lebih mudah untuk mengakses kolom tertentu dari tabel dengan
kecepatan yang tinggi.
★ Drill - https://drill.apache.org/download/ Drill adalah lingkungan pengolahan
data Big Data yang digunakan untuk pemrosesan data skala besar. Drill
memungkinkan pengguna untuk menganalisis data dari berbagai sumber,
termasuk file teks, JSON, Parquet, dan banyak lagi. Drill dapat memproses data
yang tersebar di ribuan node dalam klaster dan dapat menghasilkan hasil dalam
hitungan detik.
★ Dan masih banyak lagi teknologi big data yang lain seperti: Spark, Cassandra,
Kafka, Flink, Storm, Elasticsearch, Splunk dan lain-lain.

4️⃣Perbedaan Data Mining & Data Analytics


Big data, data mining, dan data analytics merupakan konsep yang erat kaitannya. Big
data menyediakan sumber data yang besar dan kompleks yang memungkinkan
perusahaan dan organisasi untuk menggali wawasan baru dan membuat keputusan
bisnis yang lebih baik.
Dalam konteks Big Data, data mining dan data analytics seringkali digunakan untuk
membantu mengelola dan menganalisis data yang sangat besar dan kompleks. Data
mining memungkinkan perusahaan untuk menemukan pola dan wawasan baru dari
data yang ada, sedangkan data analytics memungkinkan perusahaan untuk
menganalisis data yang ada untuk membuat keputusan bisnis yang lebih baik dan
mengoptimalkan kinerja perusahaan. Dengan demikian, big data, data mining, dan
data analytics saling berkaitan dan seringkali digunakan bersama-sama untuk
mengelola dan menganalisis data besar.

Lebih detailnya, data mining adalah proses mengidentifikasi hubungan dan pola
dalam kumpulan data yang besar, secara efektif mengubah data mentah menjadi
informasi penting yang berguna. Nama lain data mining:
● Knowledge Discovery in Database (KDD)
● Big data
● Business intelligence
● Knowledge extraction
● Pattern analysis
● Information harvesting
● Data Analysis

Secara umum, tujuan dari data mining adalah untuk mengekstrak informasi dan
wawasan dari data yang ada dan membantu dalam membuat keputusan yang lebih
baik. Tergantung pada tujuan spesifik, teknik yang berbeda dapat digunakan untuk
mencapai hasil yang diinginkan. Dapat disimpulkan data mining adalah proses
menemukan pola yang tersembunyi dalam data untuk mengidentifikasi hubungan dan
informasi baru yang tidak dapat ditemukan dengan metode analisis tradisional.
Data analytics adalah proses menggunakan data untuk mengekstrak wawasan dan
mendapatkan pemahaman tentang perilaku atau kinerja bisnis, serta melakukan
analisis yang terkait dengan tujuan bisnis tertentu, seperti membuat keputusan atau
mengembangkan strategi. Dengan demikian, data mining lebih fokus pada
identifikasi pola dan hubungan baru dalam data, sedangkan data analytics lebih
fokus pada penggunaan data untuk mendapatkan wawasan yang dapat digunakan
untuk mengambil keputusan atau mengembangkan strategi. Data mining adalah
proses ekstraksi informasi yang berguna dari data besar, sedangkan data analytics
adalah proses analisis data yang dilakukan untuk mengambil kesimpulan dan
membuat keputusan bisnis.

Data mining adalah salah satu teknik yang digunakan dalam proses data analytics.
Data mining membantu dalam menemukan pola dan informasi baru dalam data, yang
dapat digunakan untuk memahami perilaku dan kinerja bisnis, serta mendukung
pengambilan keputusan yang lebih baik. Data mining juga dapat membantu
mengidentifikasi variabel penting yang mempengaruhi hasil bisnis tertentu, yang
kemudian dapat dimasukkan ke dalam model analisis data yang lebih luas. Dengan
demikian, data mining dan data analytics saling terkait dan dapat digunakan bersama-
sama untuk menghasilkan wawasan bisnis yang lebih baik.

Dalam konteks Big Data, data mining dan data analytics seringkali digunakan untuk
membantu mengelola dan menganalisis data yang sangat besar dan kompleks. Data
mining memungkinkan perusahaan untuk menemukan pola dan wawasan baru dari
data yang ada, sedangkan data analytics memungkinkan perusahaan untuk
menganalisis data yang ada untuk membuat keputusan bisnis yang lebih baik dan
mengoptimalkan kinerja perusahaan. Dengan demikian, big data, data mining, dan
data analytics saling berkaitan dan seringkali digunakan bersama-sama untuk
mengelola dan menganalisis data besar.

📌Quiz Time
11. Apa yang dimaksud dengan Big Data?
A. Sumber data yang besar dan kompleks
B. Proses mengidentifikasi hubungan dan pola dalam kumpulan data yang besar
C. Teknik yang digunakan dalam proses data analytics
D. Prosedur analisis data untuk mengambil kesimpulan

12. Apa perbedaan antara data mining dan data analytics?


A. Data mining lebih fokus pada penggunaan data untuk mendapatkan wawasan
yang dapat digunakan untuk mengambil keputusan atau mengembangkan
strategi, sedangkan data analytics lebih fokus pada identifikasi pola dan
hubungan baru dalam data.
B. Data mining lebih fokus pada identifikasi pola dan hubungan baru dalam data,
sedangkan data analytics lebih fokus pada penggunaan data untuk
mendapatkan wawasan yang dapat digunakan untuk mengambil keputusan
atau mengembangkan strategi.
C. Data mining dan data analytics adalah proses yang sama.
D. Data mining dan data analytics tidak memiliki hubungan yang erat.

13. Apa tujuan dari data mining?


A. Mengekstrak wawasan dan mendapatkan pemahaman tentang perilaku atau
kinerja bisnis
B. Menemukan pola dan informasi baru dalam data
C. Mengidentifikasi variabel penting yang mempengaruhi hasil bisnis tertentu
E. Semua jawaban benar

14. Apa peran data mining dalam proses data analytics?


A. Data mining membantu dalam proses identifikasi pola dan hubungan baru
dalam data
B. Data mining membantu dalam proses pengambilan keputusan bisnis
C. Data mining membantu dalam proses analisis data yang dilakukan untuk
mengambil kesimpulan dan membuat keputusan bisnis
F. Data mining tidak memiliki peran dalam proses data analytics.

15. Apa yang dimaksud dengan Knowledge Discovery in Database (KDD)?


A. Nama lain untuk Big Data
B. Proses mengidentifikasi hubungan dan pola dalam kumpulan data yang besar
C. Proses menggunakan data untuk mengekstrak wawasan dan mendapatkan
pemahaman tentang perilaku atau kinerja bisnis
D. Proses menemukan pola yang tersembunyi dalam data untuk mengidentifikasi
hubungan dan informasi baru yang tidak dapat ditemukan dengan metode
analisis tradisional.

5️⃣Machine Learning
Machine learning adalah penggunaan model statistik dan algoritma lain untuk
memungkinkan komputer belajar dari data. Hal ini dibagi menjadi dua jenis yang
berbeda, pembelajaran tanpa pengawasan dan terawasi.

★ Unsupervised Learning menarik kesimpulan dan mempelajari struktur dari


data tanpa diberi label, klasifikasi, atau kategori apa pun. Dengan kata lain,
pembelajaran tanpa pengawasan dapat terjadi tanpa diberikan pengetahuan
sebelumnya tentang data atau pola yang mungkin dikandungnya. Unsupervised
learning tidak memiliki label atau kategori untuk data.

Contoh Unsupervised Learning:


➔ Clustering: Misalnya, kita memiliki kumpulan data pelanggan toko online
yang berisi informasi tentang produk yang dibeli, jumlah uang yang
dihabiskan, lokasi pengiriman, dan sebagainya. Dengan menggunakan
clustering, kita dapat mengelompokkan pelanggan menjadi beberapa
kelompok berdasarkan perilaku pembelian mereka tanpa mengetahui
kelompok mana yang sebenarnya diinginkan.
➔ Anomaly detection: Misalnya, kita memiliki kumpulan data tentang transaksi
kartu kredit yang mencakup informasi seperti tanggal, waktu, jumlah, dan
jenis pembelian. Dengan menggunakan anomaly detection, kita dapat
mendeteksi transaksi yang tidak biasa, seperti pembelian besar yang tidak
biasa atau pembelian yang dilakukan di lokasi yang tidak biasa.

Kedua contoh tersebut termasuk dalam unsupervised learning karena


keduanya melibatkan pengelompokan atau klasifikasi data tanpa label atau
pengawasan sebelumnya. Dalam clustering, tidak ada kelompok yang
diinginkan sebelumnya dan algoritma harus menemukan kelompok atau cluster
yang optimal berdasarkan kesamaan fitur atau perilaku pembelian. Sedangkan
pada anomaly detection, tidak ada informasi sebelumnya tentang transaksi
yang tidak biasa atau anomali yang harus ditemukan. Algoritma harus
mengidentifikasi pola tidak biasa atau anomali dari data yang tersedia tanpa
adanya informasi tentang label anomali atau data pelatihan yang diawasi
sebelumnya.
★ Supervised Learning mirip dengan tugas yang dilakukan manusia untuk
belajar konsep. Pada tingkat yang paling dasar, memungkinkan komputer untuk
mempelajari fungsi yang memetakan satu set variable input ke variabel output
menggunakan satu set contoh pasangan input-output. Supervised learning
melibatkan input data yang diberi label dan output yang diharapkan.

Contoh Supervised Learning:


➔ Klasifikasi: Misalnya, kita memiliki kumpulan data pelanggan toko online
yang berisi informasi tentang produk yang dibeli, jumlah uang yang
dihabiskan, lokasi pengiriman, dan sebagainya, serta label yang
menunjukkan apakah pelanggan itu loyal atau tidak. Dengan menggunakan
klasifikasi, kita dapat membangun model yang dapat memprediksi apakah
seorang pelanggan baru akan menjadi pelanggan yang loyal berdasarkan
data yang tersedia.
➔ Regresi: Misalnya, kita memiliki kumpulan data tentang harga rumah yang
mencakup informasi seperti ukuran rumah, jumlah kamar tidur, dan lokasi.
Dengan menggunakan regresi, kita dapat membangun model yang dapat
memprediksi harga rumah berdasarkan fitur-fitur tersebut.

Kedua jenis machine learning ini berhubungan erat dengan big data, karena big data
memberikan sumber daya yang cukup besar untuk pelatihan model dan membuat
prediksi yang lebih akurat. Selain itu, data mining dan data analytics juga dapat
digunakan untuk menganalisis data yang dihasilkan dari machine learning.

📌Quiz Time
16. Apa definisi machine learning?
A. Penggunaan model statistik dan algoritma lain untuk memungkinkan komputer
belajar dari data
B. Penggunaan komputer untuk mempelajari konsep
C. Penggunaan label dan kategori untuk mengelompokkan data
D. Penggunaan data untuk membuat prediksi tanpa algoritma

17. Apa yang dimaksud dengan unsupervised learning?


A. Menggunakan label atau kategori untuk mengelompokkan data
B. Menggunakan data untuk membuat prediksi tanpa algoritma
C. Menggunakan algoritma untuk mempelajari struktur dari data tanpa label atau
kategori
E. Menggunakan data untuk mengklasifikasikan output yang diharapkan

18. Apa contoh unsupervised learning?


A. Klasifikasi
B. Regresi
C. Clustering
F. Anomaly detection

19. Apa definisi machine learning?


A. Penggunaan model statistik dan algoritma lain untuk memungkinkan komputer
belajar dari data
B. Penggunaan komputer untuk mempelajari konsep
C. Penggunaan label dan kategori untuk mengelompokkan data
G. Penggunaan data untuk membuat prediksi tanpa algoritma

20. Apa yang dimaksud dengan unsupervised learning?


A. Menggunakan label atau kategori untuk mengelompokkan data
B. Menggunakan data untuk membuat prediksi tanpa algoritma
C. Menggunakan algoritma untuk mempelajari struktur dari data tanpa label atau
kategori
D. Menggunakan data untuk mengklasifikasikan output yang diharapkan

6️⃣Sources of Data
Sumber data:

Internal Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem
informasi perusahaan, seperti yang digunakan untuk perencanaan sumber daya
perusahaan, manajemen hubungan pelanggan, dan manajemen sumber daya
manusia. Data yang diekstraksi dari sistem seperti itu umumnya sangat terstruktur,
atau setidaknya semi terstruktur, yang berarti relatif mudah untuk mempersiapkan
tugas tugas data mining.

★ Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber
bisnis yang digunakan bersama untuk membantu proses pengambilan
keputusan manajemen. Data dari penyimpanan data semacam itu sering
digunakan dalam proyek data mining.

★ Sumber data internal lainnya termasuk email, spreadsheet, dan dokumen


pengolah kata. Dengan pengecualian spreadsheet, data dari sumber sumber ini
tidak memiliki struktur nyata, sehingga sulit tetapi bukan tidak mungkin untuk
menggunakannya untuk tugas tugas data mining.

★ Web server logs memelihara riwayat permintaan halaman ke situs web. Data
yang disimpan termasuk alamat IP klien, tanggal dan waktu permintaan,
halaman yang diminta , jumlah byte yang dilayani, jenis dan versi browser web
yang digunakan , dan detail situs yang dibuka oleh klien. Log server web tidak
sulit untuk diproses, tetapi dapat berisi sejumlah data besar, seringkali
membutuhkan penggunaan pemrosesan big data.

★ Customer surveys, baik online maupun berbasis kertas, dapat membuktikan


sumber data yang berguna untuk data mining. Kompleksitas pemrosesan yang
diperlukan untuk menyiapkan data survei untuk data mining tergantung pada
desain survei. Survei dengan jawaban ya tidak sederhana atau yang
menggunakan skala Likert seperti 1 hingga 5) adalah yang paling mudah
digunakan dan memerlukan sedikit pemrosesan sebelumnya. Mereka yang
memiliki jawaban open text akan memerlukan penggunaan metode analisis
teks.

External Sources
Sumber data eksternal merujuk pada data yang diperoleh dari luar organisasi atau
perusahaan. Ada banyak sumber data eksternal yang tersedia, seperti sumber data
pemerintah, situs web publik, media sosial, dan sumber data komersial.

★ Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat
menjelajah. Setiap kali pengguna mengklik tautan atau objek lain apa pun di
halaman web, tindakannya direkam. Fasilitas ini memerlukan penggunaan
layanan analisis web seperti Google Analytics dan menganggap bahwa
pengguna web tidak memblokir domain web yang digunakan oleh layanan atau
“cookie" yang memungkinkannya berfungsi.

★ Google Finance menawarkan 40 tahun data pasar saham, diperbarui hampir


secara real time. Yahoo Finance adalah sumber lain yang umum digunakan
untuk data pasar saham. Keduanya menyediakan data dalam format terstruktur
tanpa data yang hilang, memungkinkannya digunakan untuk data mining
dengan sedikit pra pemrosesan.

★ Google Trends menyediakan data tentang volume penelusuran web untuk


istilah tertentu, yang mencakup periode dari tahun 2004 dan seterusnya secara
terstruktur dan lengkap, membuatnya mudah untuk dimasukkan ke dalam
proyek data mining apa pun.

★ Climate data tersedia dari layanan meteorologi nasional dan menyediakan


pengamatan antara lain untuk curah hujan, kecepatan arah angin, tekanan
udara, radiasi matahari. Meskipun kumpulan data tersebut biasanya terstruktur,
karena kerusakan sensor, kumpulan data tersebut seringkali berisi data yang
hilang atau di luar jangkauan dan karenanya harus diproses dengan hati hati
sebelum digunakan.

★ Data dari Sosial Media dapat digunakan untuk data mining, tetapi
penggunaannya diperumit oleh kurangnya struktur dan harus hati hati dalam
penggunaannya karena terkait undang undang di bidang tersebut dan masalah
etika yang ditimbulkan oleh cara penggunaan data tersebut.

★ Dan banyak lagi sumber data eksternal seperti sumber data pemerintah
termasuk Badan Statistik Nasional, Kementerian, situs web publik dan sumber
data komersial.

Penting untuk dicatat bahwa data eksternal dapat lebih rumit daripada data internal.
Data eksternal mungkin tidak terstruktur atau tidak lengkap, dan dapat memerlukan
proses pengolahan dan pembersihan yang lebih rumit sebelum dapat digunakan untuk
analisis bisnis. Namun, sumber data eksternal dapat memberikan wawasan yang lebih
luas dan mendalam tentang pasar, pelanggan, dan lingkungan bisnis Anda.

Beberapa contoh sumber data eksternal:

1. Open Data KOMINFO


2. Badan Pusat Statistik (bps.go.id)
3. PERPUSNAS
4. Data Indonesia: Data Indonesia for Better Decision. Valid, Accurate, Relevant
5. Pusat Data Ekonomi dan Bisnis Indonesia | Databoks (katadata.co.id)
6. Portal Data LAN
7. Satu Data Portal
8. Open Data Jabar (jabarprov.go.id)
9. Statistik (idx.co.id)

📝Discussion:
📌Quiz Time
21. Apa saja sumber data internal yang umum digunakan dalam perusahaan?
A. Spreadsheet dan dokumen pengolah kata
B. Data Warehouse dan email
C. Sistem informasi perusahaan dan web server logs
D. Customer surveys dan sumber data komersial

22. Apa yang dimaksud dengan data warehouse?


A. Gudang data yang diambil dari berbagai sumber bisnis yang digunakan
bersama untuk membantu proses pengambilan keputusan manajemen
B. Sumber data yang diperoleh dari luar organisasi atau perusahaan
C. Data yang diekstraksi dari sistem informasi perusahaan
D. Data yang disimpan oleh layanan analisis web seperti Google Analytics

23. Apa yang dimaksud dengan clickstreams?


A. Catatan dari semua yang diklik oleh pengguna web saat menjelajah
B. Sumber data eksternal yang tersedia, seperti sumber data pemerintah, situs
web publik, media sosial, dan sumber data komersial
C. Data yang tersedia dari layanan meteorologi nasional dan menyediakan
pengamatan untuk curah hujan, kecepatan arah angin, tekanan udara, radiasi
matahari
D. Data yang diambil dari email, spreadsheet, dan dokumen pengolah kata

24. Apa yang dimaksud dengan descriptive analytics?


A. Jenis analitik data yang menggambarkan atau merangkum data mentah untuk
memberikan informasi yang berguna tentang masa lalu
B. Jenis analitik data yang mengidentifikasi pola dan tren dalam data
C. Jenis analitik data yang memprediksi hasil masa depan berdasarkan data
masa lalu
D. Jenis analitik data yang memungkinkan pengguna untuk melakukan
pertanyaan bebas pada data mentah

25. Mengapa penggunaan data eksternal dapat lebih rumit daripada data internal?
A. Karena data eksternal mungkin tidak terstruktur atau tidak lengkap, dan dapat
memerlukan proses pengolahan dan pembersihan yang lebih rumit sebelum
dapat digunakan untuk analisis bisnis
B. Karena data eksternal biasanya mengandung informasi yang tidak dapat
dipercaya
C. Karena data eksternal tidak diperoleh langsung dari sumbernya, dan dapat
memerlukan proses pengambilan data yang lebih rumit
D. Karena data eksternal cenderung mengandung banyak noise yang dapat
mengganggu analisis bisnis

7️⃣Types of Analytics

Descriptive analytics mengambil data mentah dan meringkas atau


menggambarkannya untuk memberikan informasi yang berguna tentang masa lalu.
Intinya, jenis analitik ini mencoba menjawab pertanyaan Apa yang telah terjadi di masa
lalu ?"

---"What has happened in the past?“---

Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat mempengaruhi hasil di masa
depan. Analisis deskriptif dapat digunakan untuk menunjukkan berbagai macam data
bisnis, seperti total penjualan berdasarkan volume atau nilai, perincian biaya, jumlah
rata-rata belanja per customer, dan profitabilitas per produk. Data-data tersebut dapat
diperoleh misalnya dengan menggunakan fitur Pivot table atau filter pada spreadsheet.

Contoh dari descriptive analysis: Analisis penjualan bulanan dari toko retail. Melalui
analisis ini, dapat diketahui total penjualan bulanan, jenis produk yang paling laris,
waktu paling sibuk, dan toko mana yang paling banyak menghasilkan penjualan.
Analisis ini membantu dalam pemahaman bisnis dan pengambilan keputusan untuk
meningkatkan penjualan.

Predictive analytics membangun model statistik dari data mentah yang diproses
dengan tujuan untuk dapat memperkirakan hasil di masa mendatang. Tipe analitik ini
mencoba menjawab pertanyaan Apa yang akan terjadi di masa depan ?"

---"What will happen in the Future?“---


Predictive analytics memungkinkan analis memperkirakan hasil di masa depan dengan
menggunakan teknik historis (data deskriptif ) dan statistik untuk memperkirakan hasil
masa depan berdasarkan hubungan antara atribut atau variabel.

Predictive Analytics-Linear Regression Analysis

Microsoft Excel menyediakan fitur Analisis Regresi untuk melakukan analisis prediktif

Linear equation

Dependent Variable (Y) = Intercept + (Coefficient x Independent Variable (X))

Prediksi dengan Analisis Regresi akan lebih meyakinkan dipercaya jika


● Nilai R2 ( koefisien determinasi ) lebih tinggi (R2 values are higher)
R2 atau R Square berguna untuk melihat seberapa besar kontribusi pengaruh
yang diberikan oleh sejumlah variabel X independent variable(s)] terhadap
variabel Y [dependent variable]. Rentang nilai R2 adalah 0 1, dan akan semakin
baik jika nilai lebih dari 0,5.
● P Values lebih kecil Lebih kecil dari 0.05. Variabel X yang mempunyai P Values
lebih besar dari 0.05 dapat dikeluarkan.
Contoh: Regression

Prescriptive analytics adalah pengembangan analitik prediktif untuk memperkirakan


beberapa hasil di masa depan berdasarkan data masa lalu dan tindakan yang
disarankan untuk menentukan tindakan terbaik yang dapat diambil. Tipe analitik ini
membantu menjawab pertanyaan Apa yang harus kita lakukan?"
---" What should we do?“---

Prescriptive analytics mencoba mengukur pengaruh keputusan masa depan dengan


memberi saran tentang kemungkinan hasil sebelum keputusan benar benar dibuat.
Contoh: Goal Seek dan Solver

📌Quiz Time
26. Apa yang dimaksud dengan descriptive analytics?
A. Jenis analitik yang membangun model statistik dari data mentah
B. Jenis analitik yang mengambil data mentah dan meringkasnya untuk
memberikan informasi tentang masa lalu
C. Jenis analitik yang membantu menjawab pertanyaan tentang masa depan
D. Jenis analitik yang membantu memperkirakan beberapa hasil di masa depan

27. Apa manfaat dari descriptive analytics?


A. Memberikan saran tentang tindakan terbaik yang dapat diambil
B. Membantu memperkirakan hasil di masa depan
C. Memungkinkan analis untuk belajar dari perilaku masa lalu
D. Mengukur pengaruh keputusan masa depan
28. Apa yang dimaksud dengan predictive analytics?
A. Jenis analitik yang membangun model statistik dari data mentah
B. Jenis analitik yang mengambil data mentah dan meringkasnya untuk
memberikan informasi tentang masa lalu
C. Jenis analitik yang membantu menjawab pertanyaan tentang masa depan
D. Jenis analitik yang membantu memperkirakan beberapa hasil di masa depan
berdasarkan data masa lalu

29. Apa yang dimaksud dengan R2 pada analisis regresi?


A. Rentang nilai yang digunakan untuk melihat seberapa besar kontribusi
pengaruh yang diberikan oleh sejumlah variabel independen terhadap variabel
dependen
B. Teknik historis dan statistik yang digunakan untuk memperkirakan hasil di
masa depan
C. Pengembangan analitik prediktif untuk memperkirakan beberapa hasil di masa
depan berdasarkan data masa lalu dan tindakan yang disarankan untuk
menentukan tindakan terbaik yang dapat diambil
D. Model persamaan linear yang digunakan untuk melakukan analisis prediktif

30. Apa yang dimaksud dengan prescriptive analytics?


A. Jenis analitik yang membangun model statistik dari data mentah
B. Jenis analitik yang mengambil data mentah dan meringkasnya untuk
memberikan informasi tentang masa lalu
C. Jenis analitik yang membantu menjawab pertanyaan tentang masa depan
D. Jenis analitik yang membantu memberikan tindakan terbaik yang dapat
diambil berdasarkan analisis prediktif
😉Praktikum
Descriptive Analytics
Langkah-langkah dalam descriptive analytics dengan contoh data kelulusan
mahasiswa adalah sebagai berikut:

1. Download dataset (Data Kelulusan Mahasiswa) dari link berikut:

https://docs.google.com/spreadsheets/d/
1MJWOu6HjplH3m2mR1v1TIsyMZ4EhPAtk/edit?
usp=share_link&ouid=101490258413463766036&rtpof=true&sd=true

2. Tampilkan data

Data yang ada dalam file dapat ditampilkan dalam program yang digunakan,
seperti Excel. Dalam Excel, data dapat dibuka dengan memilih File -> Open dan
memilih file yang berisi data.

3. Pahami struktur data

Setelah data ditampilkan, langkah selanjutnya adalah memahami struktur data.


Dalam contoh data di atas, terdapat beberapa kolom yang berisi informasi tentang
mahasiswa, seperti nama, jenis kelamin, status mahasiswa, umur, status menikah,
IPS 1 sampai IPS 8, IPK, dan status kelulusan. Setiap kolom ini memiliki tipe data
yang berbeda, seperti string, integer, atau float.

● Nama: tipe data string atau karakter


● Jenis Kelamin: tipe data string atau karakter
● Status Mahasiswa: tipe data string atau karakter
● Umur: tipe data numerik
● Status Menikah: tipe data string atau karakter
● IPS 1 sampai IPS 8: tipe data numerik
● IPK: tipe data numerik
● Status Kelulusan: tipe data string atau karakter

4. Lakukan eksplorasi data

Eksplorasi data dilakukan dengan tujuan untuk memahami karakteristik data


secara umum, seperti statistik deskriptif, visualisasi data, atau pemilihan atribut.
Beberapa teknik yang dapat dilakukan dalam eksplorasi data adalah sebagai
berikut:

➢ Statistik deskriptif: meliputi nilai rata-rata, median, modus, kuartil, standar


deviasi, dan sebagainya. Contoh: rata-rata IPK adalah 3.10, nilai IPS tertinggi
adalah 3.81, dan nilai IPS terendah adalah 0.
○ Untuk menghitung nilai rata-rata, dapat menggunakan formula AVERAGE.
Contohnya, jika data IPS 1 sampai IPS 8 berada pada kolom B2 sampai
B9, maka formula yang digunakan adalah =AVERAGE(B2:B9)
○ Untuk menghitung nilai median, dapat menggunakan formula MEDIAN.
Contohnya, jika data IPS 1 sampai IPS 8 berada pada kolom B2 sampai
B9, maka formula yang digunakan adalah =MEDIAN(B2:B9)
○ Untuk menghitung nilai modus, dapat menggunakan formula MODE.
Contohnya, jika data IPS 1 sampai IPS 8 berada pada kolom B2 sampai
B9, maka formula yang digunakan adalah =MODE(B2:B9)
○ Untuk menghitung nilai standar deviasi, dapat menggunakan formula
STDEV atau STDEVP. Formula STDEV digunakan jika data merupakan
sampel, sedangkan formula STDEVP digunakan jika data merupakan
populasi. Contohnya, jika data IPS 1 sampai IPS 8 berada pada kolom B2
sampai B9, maka formula yang digunakan untuk menghitung standar
deviasi adalah =STDEV(B2:B9) atau =STDEVP(B2:B9)
➢ Visualisasi data: meliputi grafik, histogram, boxplot, dan sebagainya. Contoh:
histogram umur mahasiswa menunjukkan bahwa mayoritas mahasiswa berusia
26-29 tahun, dan boxplot IPS menunjukkan bahwa nilai IPS mahasiswa relatif
stabil.

5. Menyajikan hasil analisis

Hasil analisis yang diperoleh dari eksplorasi data dapat disajikan dalam bentuk
tabel, grafik, atau laporan. Contoh: tabel menunjukkan rata-rata nilai IPS dan IPK
mahasiswa, grafik menunjukkan persebaran nilai IPS mahasiswa, dan laporan
menunjukkan kesimpulan tentang karakteristik mahasiswa berdasarkan data yang
diperoleh.

Dalam contoh data di atas, beberapa contoh analisis yang dapat dilakukan dalam
descriptive analytics adalah:

➢ Statistik deskriptif: rata-rata IPK mahasiswa adalah 3.10, nilai IPS tertinggi
adalah 3.81, dan nilai IPS terendah adalah 0.
➢ Visualisasi data: histogram umur mahasiswa menunjukkan bahwa mayoritas
mahasiswa berusia 26-29 tahun, dan boxplot IPS menunjukkan bahwa nilai IPS
mahasiswa relatif stabil. Note: Sebelum buat grafik, buat dulu pivot table. Grafik
mengambil source datanya dari pivot table.

6. Mengkomunikasikan hasil

Setelah membuat visualisasi data, penting untuk mengkomunikasikan hasilnya


agar dapat dipahami oleh orang lain dengan mudah dan akurat. Berikut adalah
beberapa tips untuk mengkomunikasikan hasil visualisasi data dengan baik:

● Pilih visualisasi yang tepat: pastikan visualisasi yang dipilih dapat memperjelas
informasi yang ingin disampaikan. Misalnya, jika ingin menunjukkan
perbandingan antara dua atau lebih kategori, maka diagram batang atau pie
chart mungkin cocok digunakan. Jika ingin menunjukkan distribusi data, maka
histogram atau boxplot mungkin lebih sesuai.
● Gunakan judul yang jelas: judul visualisasi harus mencerminkan informasi yang
ingin disampaikan dan dapat memotivasi pembaca untuk membaca lebih lanjut.
● Sertakan sumbu dan label yang jelas: sumbu dan label harus jelas dan mudah
dipahami, termasuk satuan pengukuran dan informasi yang ingin disampaikan.
● Hindari clutter: visualisasi yang terlalu ramai dapat mengaburkan informasi
penting. Gunakan hanya informasi yang diperlukan dan jangan terlalu banyak
menggunakan warna dan efek visual.
● Sertakan kesimpulan: setelah menyajikan visualisasi, sertakan kesimpulan atau
interpretasi informasi yang disajikan. Jangan anggap bahwa pembaca dapat
dengan mudah menginterpretasikan visualisasi tanpa panduan.
● Sesuaikan gaya dengan audiens: pastikan bahwa visualisasi data yang dibuat
disesuaikan dengan gaya dan kebutuhan audiens. Misalnya, presentasi untuk
manajemen dapat menggunakan visualisasi data yang lebih abstrak dan
konseptual, sementara presentasi untuk ilmuwan mungkin perlu menggunakan
detail teknis yang lebih spesifik.

Predictive Analytics
Langkah-langkah untuk melakukan regresi linear pada data kelulusan mahasiswa
menggunakan Microsoft Excel:

1. Siapkan data kelulusan mahasiswa yang telah diolah pada tahapan sebelumnya di
dalam lembar kerja Excel.
2. Buat grafik scatter plot untuk melihat hubungan antara IPK Akhir dengan umur
mahasiswa. Caranya pilih kolom umur dan IPK Akhir, kemudian pilih tab "Insert"
pada menu Excel, pilih "Scatter Plot" dan pilih jenis grafik yang diinginkan.
3. Pilih elemen grafik scatter plot dan tambahkan trendline dengan mengklik kanan
elemen dan memilih "Add Trendline". Kemudian pilih jenis regresi linear pada
jendela pop-up yang muncul.
klik salah satu titik pada grafik, kemudian klik tombol "+" di pojok kanan atas grafik
untuk menambahkan elemen chart. Kemudian pilih "Trendline" pada opsi yang
muncul.
Pilih jenis trendline yang diinginkan, dalam hal ini regresi linear.
4. Periksa nilai R-Squared (R2) pada elemen trendline untuk mengetahui seberapa
besar nilai korelasi antara umur dan IPK Akhir. Nilai R2 berkisar antara 0 hingga 1,
dimana semakin tinggi nilainya semakin baik korelasinya.

Caranya:

Setelah trendline muncul pada grafik, klik kanan trendline tersebut dan pilih opsi
"Format Trendline" di menu yang muncul.
Di jendela Format Trendline, pilih tab "Options".
Pada bagian "Trendline Options", aktifkan opsi "Display R-squared value on
chart".
Nilai R-Squared (R2) akan muncul di grafik, di sebelah persamaan regresi linear
yang digunakan.
5. Lakukan uji signifikansi untuk menentukan apakah koefisien regresi bermakna
secara statistik atau tidak.

Caranya:
Pilih "Data Analysis" pada menu "Data" pada menu Excel.
Kemudian pilih "Regression" dan masukkan range sel yang berisi data IPK Akhir
dan umur.
Pilih opsi "Labels" untuk menyertakan label pada data. Pada opsi "Output Range",
pilih sel untuk menampilkan hasil output, dan pastikan opsi "Residuals" dan
"Line Fit Plots" tidak dipilih.
Klik "OK" untuk memulai analisis regresi.
6. Periksa nilai signifikansi (P-value) pada hasil output analisis regresi. Jika nilai P-
value kurang dari alpha (level of significance) yang ditetapkan (biasanya 0.05),
maka koefisien regresi dianggap signifikan secara statistik, dan model regresi
linear dapat digunakan untuk memprediksi kelulusan mahasiswa.
7. Gunakan model regresi linear untuk memprediksi kelulusan mahasiswa. Caranya,
masukkan nilai umur mahasiswa pada sel yang telah disediakan dan gunakan
rumus regresi linear yang telah dihasilkan pada output analisis regresi untuk
memprediksi nilai IPK Akhir. Jika nilai IPK Akhir lebih besar dari nilai ambang
batas yang ditetapkan (misalnya 2,75), maka mahasiswa diprediksi lulus tepat
waktu. Jika tidak, mahasiswa diprediksi lulus terlambat.

Demikian langkah-langkah melakukan regresi linear pada data kelulusan mahasiswa


menggunakan Microsoft Excel.

🧹Tips:
Untuk mengaktifkan menu Data Analysis di Excel, pertama pastikan bahwa add-in
Data Analysis sudah di-install. Caranya adalah sebagai berikut:

1. Buka Excel, kemudian pilih menu File di pojok kiri atas.


2. Pilih Options (Opsi) di menu tersebut.
3. Pada jendela Excel Options, pilih Add-Ins.
4. Pada pilihan Manage, pilih Excel Add-ins, kemudian klik tombol Go.
5. Cari Add-in bernama Analysis ToolPak, kemudian centang kotak di samping
nama tersebut.
6. Klik OK, sehingga add-in akan di-install dan dapat digunakan di Excel.
7. Setelah add-in terinstall, menu Data Analysis dapat diaktifkan dengan langkah-
langkah berikut:
8. Klik tab Data di menu utama Excel.
9. Pada grup Analysis, klik Data Analysis.

Jika muncul pesan error "Data Analysis" tidak ditemukan, coba klik "Browse"
dan cari file "Analysis ToolPak" pada lokasi instalasi Microsoft Excel, biasanya
berada di "C:\Program Files\Microsoft Office\OfficeXX\Library", dan pilih file
"ANALYS32.XLL" atau "ANALYS32.XLAM" tergantung versi Excel yang
digunakan.

10. Setelah itu, pilih analisis yang ingin dilakukan dari daftar yang tersedia pada
jendela Data Analysis.
Dengan demikian, Anda dapat mengaktifkan menu Data Analysis di Excel dan
melakukan berbagai analisis data dengan mudah.

Prescriptive Analytics
Prescriptive analysis merupakan tahapan analisis yang lebih kompleks daripada
descriptive analysis dan predictive analysis. Pada tahap ini, goal seek dan solver
digunakan untuk menemukan solusi terbaik atau rekomendasi terbaik untuk suatu
masalah berdasarkan hasil analisis yang telah dilakukan pada tahap sebelumnya.
Berikut adalah langkah-langkah untuk melakukan prescriptive analysis menggunakan
Microsoft Excel dengan data kelulusan mahasiswa yang diberikan:

1. Buatlah kolom baru bernama "Prediksi Kelulusan" atau gunakan kolom Status
Kelulusan untuk menampung hasil prediksi kelulusan mahasiswa.
2. Gunakan rumus regresi untuk memprediksi kelulusan mahasiswa berdasarkan
data nilai IPS 1 hingga IPS 8. Untuk melakukan ini, klik pada sel di bawah
"Prediksi Kelulusan" pada baris pertama dan ketikkan rumus =REGRESSION
(B2:I2,$B$15:$I$26) di dalam sel tersebut. Selanjutnya, tekan tombol "Enter"
pada keyboard untuk menghitung hasilnya. Rumus ini akan menghasilkan
koefisien regresi untuk setiap nilai IPS serta nilai konstanta untuk menghitung
prediksi kelulusan.
3. Selanjutnya, gunakan rumus prediksi untuk menghitung nilai prediksi kelulusan
mahasiswa berdasarkan nilai IPS yang ada. Ketikkan rumus =SUMPRODUCT
(B3:I3,$B$2:$I$2)+$J$2 pada sel "Prediksi Kelulusan" di bawah baris pertama.
Rumus ini akan mengalikan setiap nilai IPS dengan koefisien regresi yang
sesuai dan menambahkan nilai konstanta untuk menghasilkan prediksi
kelulusan.
4. Setelah itu, gunakan Goal Seek untuk mencari nilai IPS rata-rata yang
diperlukan untuk mencapai nilai IPK minimal yang diperlukan untuk lulus. Untuk
melakukan ini, klik pada tab "Data" pada menu bar di bagian atas Microsoft
Excel, kemudian klik pada "What-If Analysis" dan pilih "Goal Seek". Isi kotak
dialog Goal Seek seperti berikut:
a. Set Cell: Pilih sel IPK yang terletak pada baris pertama.
b. To Value: Isi dengan nilai IPK minimal yang diperlukan untuk lulus.
c. By Changing Cell: Pilih sel IPS 1 yang terletak pada baris pertama.

Setelah itu, tekan tombol "OK" untuk memulai Goal Seek. Excel akan mencoba
mencari nilai IPS 1 yang dibutuhkan untuk mencapai IPK minimal yang
diperlukan untuk lulus.

5. Terakhir, gunakan Solver untuk menemukan kombinasi nilai IPS yang paling
optimal untuk mencapai nilai IPK tertinggi. Untuk melakukan ini, klik pada tab
"Data" pada menu bar di bagian atas Microsoft Excel, kemudian klik pada
"Solver". Isi kotak dialog Solver seperti berikut:
a. Set Objective: Pilih sel IPK yang terletak pada baris pertama dan pilih
"Max" untuk mengoptimalkan nilai IPK.
b. By Changing Variable Cells: Pilih sel IPS 1 hingga IPS 8 yang terletak pada
baris kedua dan ketikkan $B$2:$I$2 di dalam kotak By Changing Variable
Cells. Ini akan memilih sel IPS 1 hingga IPS 8 sebagai sel variabel yang
akan diubah nilainya oleh Solver.
c. Subject to the Constraints: Klik pada tombol "Add" dan masukkan sel IPS 1
hingga IPS 8 pada baris kedua sebagai sel yang akan dibatasi nilainya.
Pilih ">= " dan masukkan nilai 2.5 pada kotak Constraint. Ini akan
memastikan bahwa setiap nilai IPS tidak kurang dari 2.5. Klik "Add" lagi
dan tambahkan sel IPK pada baris pertama sebagai sel yang akan dibatasi
nilainya. Pilih "<= " dan masukkan nilai 4 pada kotak Constraint. Ini akan
memastikan bahwa nilai IPK tidak melebihi 4.
d. Klik "OK" untuk menutup kotak dialog, lalu klik "Solve" untuk memulai
Solver. Solver akan mencoba menemukan kombinasi nilai IPS yang paling
optimal untuk mencapai nilai IPK tertinggi, dengan memperhatikan batasan
yang telah ditetapkan sebelumnya. Setelah Solver selesai, Anda akan
melihat nilai-nilai IPS yang dihasilkan pada sel IPS 1 hingga IPS 8 pada
baris kedua.

Referensi:

Modul CertDA Ikatan Akuntan Indonesia

Slide PPT Romi Satria Wahono di https://romisatriawahono.net/dm/

dan sumber lain dari artikel di website


BAB 2
THE CRISP-DM FRAMEWORK

Tatap Muka ke : 1 Waktu : 150 menit

Sub Pokok Bahasan 1. What is Data Mining?


2. Introduction to the CRISP-DM
framework
3. Business understanding
4. Data understanding
5. Data preparation
6. Modeling
7. Evaluation
8. Deployment

Tujuan Pembelajaran Kompetensi yang hendak dicapai

1. Mahasiswa memahami CRISP-DM 1. Mahasiswa mampu memahami


framework CRISP-DM framework
2. Mahasiswa memahami langkah- 2. Mahasiswa mampu menjelaskan
langkah dalam CRISP-DM yang CRISP-DM
terdiri dari business understanding, 3. Mahasiswa mampu mengidentifikasi
data understanding, data langkah-langkah dalam CRISP-DM
preparation, modeling, evaluation,
dan deployment

1️⃣What is Data Mining?


Data mining adalah proses mengidentifikasi hubungan dan pola dalam kumpulan data
yang besar, secara efektif mengubah data mentah menjadi informasi penting yang
berguna. Pengertian data mining ini juga dikenal dengan istilah lain, seperti Knowledge
Discovery in Databases (KDD) dan Data Analysis.

Secara umum, tujuan


dari data mining
adalah untuk
mengekstrak
informasi dan
wawasan dari data
yang ada dan
membantu dalam
membuat keputusan
yang lebih baik.
Tergantung pada
tujuan spesifik, teknik
yang berbeda dapat
digunakan untuk
mencapai hasil yang diinginkan. Dapat disimpulkan data mining adalah proses
menemukan pola yang tersembunyi dalam data untuk mengidentifikasi hubungan dan
informasi baru yang tidak dapat ditemukan dengan metode analisis tradisional.
Sedangkan data analytics adalah proses menggunakan data untuk mengekstrak
wawasan dan mendapatkan pemahaman tentang perilaku atau kinerja bisnis, serta
melakukan analisis yang terkait dengan tujuan bisnis tertentu, seperti membuat
keputusan atau mengembangkan strategi. Dengan demikian, data mining lebih fokus
pada identifikasi pola dan hubungan baru dalam data, sedangkan data analytics
lebih fokus pada penggunaan data untuk mendapatkan wawasan yang dapat
digunakan untuk mengambil keputusan atau mengembangkan strategi.

Data mining adalah salah satu teknik yang digunakan dalam proses data analytics.
Data mining membantu dalam menemukan pola dan informasi baru dalam data, yang
dapat digunakan untuk memahami perilaku dan kinerja bisnis, serta mendukung
pengambilan keputusan yang lebih baik. Data mining juga dapat membantu
mengidentifikasi variabel penting yang mempengaruhi hasil bisnis tertentu, yang
kemudian dapat dimasukkan ke dalam model analisis data yang lebih luas. Dengan
demikian, data mining dan data analytics saling terkait dan dapat digunakan bersama-
sama untuk menghasilkan wawasan bisnis yang lebih baik.

Proses data mining menggunakan berbagai metode seperti statistik, matematika,


Artificial Intelligence (AI), dan sistem basis data. Berikut adalah beberapa contoh
penerapan data mining:

Retail Industry: Penggunaan data mining untuk memprediksi tren belanja dan
mempersonalisasi pengalaman belanja bagi pelanggan.
Healthcare: Penggunaan data mining untuk memprediksi dan mencegah penyakit
berdasarkan data medis seperti riwayat medis, pola diet, dan gaya hidup.
Finance: Penggunaan data mining untuk menganalisis data keuangan dan
memprediksi tren pasar saham, pengambilan keputusan investasi dan deteksi
penipuan keuangan.
E-Commerce: Penggunaan data mining untuk menganalisis data transaksi pelanggan
dan membuat rekomendasi produk serta meningkatkan strategi pemasaran.
Manufacturing: Penggunaan data mining untuk meningkatkan efisiensi produksi dan
memprediksi tren permintaan produk.
Telecommunications: Penggunaan data mining untuk menganalisis data panggilan
dan teks untuk meningkatkan layanan pelanggan dan memprediksi tren
penggunaan.
Gaming Industry: Penggunaan data mining untuk menganalisis data pemain untuk
meningkatkan pengalaman bermain dan meningkatkan strategi pemasaran.

💡Contoh dalam industri syariah, data mining dapat digunakan untuk membantu
dalam berbagai hal seperti:

Analisis profil nasabah: Data mining dapat digunakan untuk menganalisis profil
nasabah dan menentukan segmen pasar yang potensial. Ini membantu
perusahaan dalam memahami preferensi nasabah dan membuat strategi
pemasaran yang sesuai.
Identifikasi risiko: Data mining juga dapat digunakan untuk membantu dalam
identifikasi risiko dalam industri keuangan syariah. Ini membantu perusahaan
dalam mengambil tindakan yang tepat untuk mengurangi risiko dan
memastikan stabilitas bisnis.
Analisis performa: Data mining dapat digunakan untuk menganalisis performa
produk dan layanan syariah, membantu perusahaan dalam memahami
bagaimana produk dan layanannya diterima oleh nasabah dan membuat
keputusan untuk peningkatan.
Fraud detection: Data mining juga dapat digunakan untuk membantu dalam
deteksi penipuan dalam industri keuangan syariah. Ini membantu perusahaan
dalam memastikan bahwa transaksi yang terjadi adalah benar dan sah.

Secara umum, penerapan data mining dalam industri keuangan syariah membantu
dalam memahami dan meningkatkan efisiensi bisnis, meminimalkan risiko, dan
memastikan kualitas layanan yang diberikan kepada nasabah
Dari penjelasan diatas dapat disimpulkan lima peran data mining sebagai berikut:

1. Estimasi
Memprediksi nilai variabel dependen berdasarkan variabel independen dengan
memodelkan hubungan linear atau nonlinear antara keduanya. Contoh: Regresi
linear untuk estimasi performa CPU

2.
Forecasting

Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan tren,


siklus, atau pola periodik. Contoh: Forecast harga saham, forecast cuaca.
3.

Classification
Memodelkan hubungan antara variabel independen (fitur) dan variabel
dependen (kelas) untuk memprediksi kelas pada data yang belum dikenal.
Contoh: Klasifikasi kelulusan mahasiswa dengan Decision Tree

4. Clustering
Mencari kelompok homogen dalam data dengan cara membagi data ke dalam
kelompok yang mirip satu sama lain berdasarkan kemiripan atribut atau jarak.
Contoh: Clustering jenis pelanggan
5. Asosiasi → Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi, seperti A Priori, yang dapat digunakan untuk
merekomendasikan produk atau layanan.

🤩Quiz
1. Apa tujuan dari data mining?
A. Mengekstrak informasi dan wawasan dari data
B. Mengolah data mentah menjadi informasi
C. Menganalisis data transaksi pelanggan
D. Menganalisis data panggilan dan teks

2. Apa yang dapat dilakukan data mining dalam industri syariah?


A. Analisis profil nasabah
B. Identifikasi risiko
C. Analisis performa
D. Semua jawaban diatas benar

3. Apa yang dimaksud dengan estimasi?


A. Memprediksi nilai variabel dependen dengan memodelkan hubungan linear
antara keduanya
B. Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan pola
periodik
C. Mencari kelompok homogen dalam data berdasarkan kemiripan atribut atau
jarak
D. Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi

4. Apa yang dimaksud dengan forecasting?


A. Memprediksi nilai variabel dependen dengan memodelkan hubungan linear
antara keduanya
B. Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan pola
periodik
C. Mencari kelompok homogen dalam data berdasarkan kemiripan atribut atau
jarak
D. Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi

5. Apa yang dimaksud dengan classification?


A. Memprediksi nilai variabel dependen dengan memodelkan hubungan linear
antara keduanya
B. Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan pola
periodik
C. Mencari kelompok homogen dalam data berdasarkan kemiripan atribut atau
jarak
D. Memodelkan hubungan antara variabel independen dan variabel dependen
untuk memprediksi kelas pada data yang belum dikenal

6. Apa yang dimaksud dengan clustering?


A. Memprediksi nilai variabel dependen dengan memodelkan hubungan linear
antara keduanya
B. Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan pola
periodik
C. Mencari kelompok homogen dalam data berdasarkan kemiripan atribut atau
jarak
D. Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi

7. Apa yang dimaksud dengan asosiasi?


A. Memprediksi nilai variabel dependen dengan memodelkan hubungan linear
antara keduanya
B. Menganalisis data yang diurutkan berdasarkan waktu untuk menemukan pola
periodik
C. Mencari kelompok homogen dalam data berdasarkan kemiripan atribut atau
jarak
D. Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi

2️⃣Teknik pengolahan dan ekstraksi data dalam Data


Analytics
Teknik pengolahan data dalam data analytics mencakup beberapa tahapan yang
bertujuan untuk mempersiapkan data sebelum dianalisis, antara lain:

1. Identifikasi sumber data (data source identification): Memilih sumber data yang
akan digunakan dan mengidentifikasi cara untuk mengakses data tersebut,
misal melalui query database atau mengumpulkan data dari web
2. Pemilihan data (data selection): Memilih subset data yang akan digunakan
dalam analisis, dengan mempertimbangkan kriteria seperti kualitas data,
relevansi, dan representativitas.
3. Pembersihan data (data cleaning): Membersihkan data dari nilai yang hilang,
duplikat, atau tidak valid, dan memperbaiki kesalahan atau inkonsistensi data.
4. Transformasi data (data transformation): Mengubah format atau ukuran data
untuk memudahkan analisis, seperti normalisasi data atau pengkodean
variabel.
5. Integrasi data (data integration): Menggabungkan data dari berbagai sumber
dan mengatasi masalah konsistensi data yang mungkin terjadi.
6. Reduksi dimensi data (dimensionality reduction): Mengurangi dimensi data
dengan teknik seperti analisis faktor atau analisis komponen utama (PCA)
untuk meningkatkan efisiensi dan akurasi analisis.
7. Pemilihan fitur (feature selection): Memilih fitur atau atribut yang paling relevan
atau signifikan dalam data untuk mencegah overfitting dan meningkatkan
keakuratan analisis.
8. Pemrosesan teks (text processing): Mengubah data teks menjadi bentuk yang
dapat dianalisis, seperti dengan teknik tokenisasi, stemming, atau pemisahan
kalimat.
9. Pemrosesan gambar dan suara (image and sound processing): Mengubah data
gambar atau suara menjadi fitur atau atribut yang dapat digunakan dalam
analisis data.
10. Penambangan data (data mining): Menemukan pola, korelasi, atau informasi
penting dengan teknik seperti clustering, klasifikasi, atau asosiasi.
11. Evaluasi model (model evaluation): Mengukur kinerja model dan menguji
keakuratan hasil data mining.

Tujuan dari teknik pengolahan data dalam data analytics adalah untuk memastikan
bahwa data yang akan dianalisis adalah data yang valid, relevan, dan terstruktur
dengan baik, serta siap digunakan untuk tujuan analisis. Dengan mempersiapkan data
dengan baik, hasil analisis dapat lebih akurat dan memberikan wawasan yang lebih
berharga.

3️⃣The CRISP-DM Framework


Cross-Industry Standard Process for Data Mining (CRISP-DM) adalah proses standar
yang banyak digunakan dalam data mining. Proses ini dapat digunakan di berbagai
industri dan bersifat netral dalam hal alat, aplikasi, serta strategi pemecahan masalah
bisnis dengan menggunakan data mining. CRISP-DM pertama kali diperkenalkan pada
tahun 1996 dan telah menjadi salah satu standar industri yang paling umum digunakan
untuk mengembangkan solusi data mining.

CRISP-DM (Cross-Industry Standard Process for Data Mining) yang dikembangkan


oleh Chapman (2000) adalah model/metode standar yang memberikan gambaran
tentang tahapan dan siklus proses data mining. Model ini memberikan kerangka kerja
yang bisa diikuti untuk mengatasi tantangan dan memastikan bahwa proses data
mining dilakukan dengan benar dan efisien.
Langkah-langkah CRISP-DM

▶️Business Understanding
Business Understanding adalah fase pertama yang penting dan wajib dalam setiap
kegiatan data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah
mengidentifikasi dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi
kebutuhan data dan bagaimana memperoleh data, menentukan batasan kegiatan dan
faktor/data pendukung.

Tahap business understanding dalam memprediksi volume penjualan atau


mengoptimalkan penjualan dengan menggunakan data mining adalah sebagai berikut:

1. Menentukan tujuan dan persyaratan proyek


Pada tahap ini, tujuan dan persyaratan proyek harus dijelaskan dengan jelas. Hal
ini dilakukan agar tim proyek dapat memahami dan mengidentifikasi kebutuhan
bisnis atau unit penelitian secara keseluruhan. Misalnya, apakah tujuannya untuk
meningkatkan penjualan (memahami faktor-faktor yang mempengaruhi keputusan
pelanggan), mengurangi biaya, atau memprediksi perilaku konsumen (memahami
segmen pelanggan yang paling rentan untuk membeli produk). Dengan mengenali
tujuan bisnis yang spesifik, tim proyek dapat memastikan bahwa proyek data
mining dapat membantu mencapai tujuan tersebut.
2. Merumuskan definisi masalah data mining
Setelah tujuan dan persyaratan proyek diketahui, tahap selanjutnya adalah
merumuskan definisi masalah data mining. Definisi masalah harus
menggambarkan secara jelas masalah bisnis yang ingin dipecahkan, seperti
prediksi perilaku konsumen atau klasifikasi pelanggan. Definisi masalah ini harus
sesuai dengan tujuan dan persyaratan proyek dan harus dirumuskan dengan cara
yang dapat diukur. Dalam tahap ini, perusahaan menentukan apa yang ingin
dicapai dengan menggunakan data mining. Misalnya, perusahaan ingin
meningkatkan tingkat penjualan atau memahami faktor-faktor yang mempengaruhi
keputusan pembelian pelanggan.
3. Mempersiapkan strategi awal untuk mencapai tujuan
Tahap selanjutnya adalah mempersiapkan strategi awal untuk mencapai tujuan.
Strategi ini harus menjelaskan bagaimana tim proyek akan menggunakan teknik
data mining untuk menyelesaikan masalah bisnis. Misalnya, tim proyek dapat
memilih algoritma tertentu untuk mengidentifikasi pola dalam data atau melakukan
analisis regresi untuk memprediksi hasil bisnis. Strategi ini harus melibatkan juga
pemilihan teknik data mining yang tepat dan persiapan data yang diperlukan untuk
menerapkan strategi tersebut. Dalam tahap ini, perusahaan juga menentukan data
yang diperlukan untuk menjawab masalah bisnis. Misalnya, perusahaan perlu data
tentang sejarah penjualan, demografi pelanggan, dan informasi promosi untuk
memahami faktor-faktor yang mempengaruhi keputusan pembelian pelanggan.
4. Merancang solusi data mining yang akan dibangun
Tahap terakhir adalah merancang solusi data mining yang akan dibangun. Solusi
ini harus mengintegrasikan strategi awal dan definisi masalah, serta
memperhitungkan persyaratan dan batasan bisnis. Solusi ini juga harus mencakup
bagaimana data akan diproses dan dianalisis, serta hasil akhir yang diharapkan
dari proyek data mining. Pada tahap ini, tim proyek juga harus mempertimbangkan
keterbatasan teknis, anggaran, dan sumber daya yang tersedia untuk
mengembangkan solusi data mining.

Tahap business understanding merupakan tahap yang sangat penting dalam proses
data mining, karena memastikan bahwa analisis data dilakukan dengan benar dan
sesuai dengan tujuan dan kebutuhan bisnis. Ini memastikan bahwa hasil analisis data
dapat digunakan untuk membuat keputusan yang lebih baik dan membantu
perusahaan mencapai tujuannya. Dapat disimpulkan bahwa tahapan memahami
masalah (business understanding) merupakan tahap yang berkaitan dengan
pemahaman tujuan dan kebutuhan bisnis, serta menentukan area yang akan dianalisis
menggunakan data mining.
💡Contoh penerapan data mining pada industri syariah
1. Menentukan tujuan dan persyaratan proyek
Meningkatkan efektivitas pemasaran produk keuangan syariah dengan
memahami faktor-faktor yang mempengaruhi keputusan nasabah dalam memilih
produk keuangan syariah.
2. Merumuskan definisi masalah data mining
Membuat model prediksi perilaku konsumen untuk memahami faktor-faktor yang
mempengaruhi keputusan nasabah dalam memilih produk keuangan syariah.
Definisi masalah ini akan fokus pada pemodelan perilaku nasabah untuk
menemukan pola-pola yang ada dalam data historis dan mencari tahu faktor-
faktor yang mempengaruhi keputusan nasabah dalam memilih produk keuangan
syariah.
3. Mempersiapkan strategi awal untuk mencapai tujuan
Data yang diperlukan untuk menjawab masalah bisnis adalah data transaksi
nasabah, data demografi, informasi produk keuangan syariah, dan data promosi.
Selain itu, tim proyek harus memilih algoritma klasifikasi yang tepat untuk
membangun model prediksi perilaku nasabah. Proses pengumpulan data dan
persiapan data akan dilakukan untuk memastikan data yang akan digunakan
dalam proyek data mining berkualitas.
4. Merancang solusi data mining yang akan dibangun
Tim proyek akan menggunakan algoritma klasifikasi untuk memprediksi perilaku
nasabah dan menganalisis faktor-faktor yang mempengaruhi keputusan
pemilihan produk. Dengan menggunakan model prediksi perilaku nasabah,
perusahaan dapat menentukan rekomendasi produk keuangan syariah yang
cocok untuk setiap segmen nasabah, serta strategi pemasaran yang efektif
untuk meningkatkan penjualan produk keuangan syariah.
Dalam industri keuangan syariah, data mining dapat membantu perusahaan untuk
memahami perilaku konsumen dan menentukan rekomendasi produk yang tepat
untuk setiap segmen nasabah. Dengan menggunakan data mining, perusahaan
dapat meningkatkan efektivitas pemasaran produk keuangan syariah dan
meningkatkan penjualan produk. Namun, perlu diingat bahwa solusi data mining
yang dibangun harus mempertimbangkan keterbatasan teknis, anggaran, dan
sumber daya yang tersedia untuk mengembangkan solusi data mining.

🤩Quiz
8. Dalam tahap business understanding, bagaimana perusahaan dapat memastikan
bahwa hasil analisis data dapat digunakan untuk membuat keputusan yang lebih
baik?
A. Mengumpulkan data yang benar
B. Mengidentifikasi informasi yang diperlukan dengan benar
C. Menentukan tujuan akhir dari analisis data yang benar
D. Menentukan kriteria sukses yang benar
9. Apa yang harus dilakukan dalam tahap business understanding untuk memastikan
bahwa analisis data dilakukan dengan benar dan sesuai dengan tujuan dan
kebutuhan bisnis?
A. Mengumpulkan data yang benar
B. Mengidentifikasi informasi yang diperlukan dengan benar
C. Menentukan tujuan akhir dari analisis data yang benar
D. Semua jawaban diatas benar

▶️
Data Understanding
Data understanding yaitu memperoleh dan mengeksplorasi data yang diidentifikasi
sebagai bagian dari fase sebelumnya dan memiliki tiga langkah terpisah yang masing-
masing menghasilkan laporan. Sumber data meliputi web server logs, situs web seperti
Facebook, Google, database seperti pembelian oleh pelanggan, keluhan, dan lainnya.

● Data Acquisition
Pengambilan data dari sumbernya masing-masing dan pembuatan laporan akuisisi
data yang mencantumkan sumber data, alat atau teknik yang digunakan untuk
memperolehnya. Contohnya: Sebuah perusahaan yang menjual produk online
ingin mengetahui perilaku pembelian pelanggannya. Mereka memperoleh data
dari web server logs dan database pembelian pelanggan. Dalam tahap data
acquisition, mereka mengumpulkan data dari sumber-sumber tersebut
menggunakan teknik scraping data dan membuat laporan akuisisi data yang
mencantumkan sumber data dan teknik yang digunakan untuk memperolehnya.
● Data Description
Langkah selanjutnya menampilkan data dalam bentuk tampilan yang mudah
terbaca, baik data kualitatif (narasi) maupun kuantitatif (angka) dan melakukan
pemeriksaan data untuk membantu menghasilkan laporan kualitas data.
Contohnya: Perusahaan menampilkan data dalam bentuk tabel dan grafik yang
menggambarkan jumlah pembelian oleh pelanggan, produk terlaris, dan tanggal
pembelian. Mereka juga melakukan pemeriksaan data untuk memastikan bahwa
data yang diterima sudah benar dan tidak memiliki kecacatan atau kesalahan.
● Data Exploration
Langkah ini didasarkan pada deskripsi data dan melibatkan penggunaan teknik
statistik dan visualisasi untuk mengembangkan pemahaman yang lebih dalam
tentang data dan kesesuaiannya untuk analisis. Contohnya: Perusahaan
menggunakan teknik statistik seperti analisis korelasi dan visualisasi untuk
mengidentifikasi pola pembelian pelanggan dan memahami bagaimana faktor-
faktor seperti harga, promosi, dan musim berpengaruh pada perilaku pembelian.
Mereka juga menggunakan teknik clustering untuk mengelompokkan pelanggan
berdasarkan perilaku pembelian mereka dan menganalisis bagaimana kelompok-
kelompok ini berbeda satu sama lain.

💡Contoh pada industri syariah


Implementasi dari data understanding adalah: Sebuah bank syariah ingin
mengetahui perilaku pembiayaan nasabahnya.

1. Dalam tahap data acquisition, bank syariah memperoleh data dari database
pembiayaan nasabah dan membuat laporan akuisisi data yang mencantumkan
sumber data dan teknik yang digunakan untuk memperolehnya.
2. Dalam tahap data description, bank syariah menampilkan data dalam bentuk
tabel dan grafik yang menggambarkan jumlah pembiayaan oleh nasabah, jenis
pembiayaan terlaris, dan tanggal pembiayaan. Bank syariah juga melakukan
pemeriksaan data untuk memastikan bahwa data yang diterima sudah benar
dan tidak memiliki kecacatan atau kesalahan.
3. Dalam tahap data exploration, bank syariah menggunakan teknik statistik seperti
analisis korelasi dan visualisasi untuk mengidentifikasi pola pembiayaan
nasabah dan memahami bagaimana faktor-faktor seperti usia, pendapatan, dan
jenis pekerjaan berpengaruh pada perilaku pembiayaan. Bank syariah juga
menggunakan teknik clustering untuk pengelompokan nasabah berdasarkan
perilaku pembiayaan mereka dan menganalisis bagaimana kelompok-kelompok
ini berbeda satu sama lain.

Hasil dari tahap ini dapat digunakan untuk meningkatkan layanan pembiayaan dan
membuat keputusan bisnis yang lebih baik, seperti menentukan produk pembiayaan
baru, memperbaiki proses pembiayaan, dan memprioritaskan pemasaran kepada
nasabah dengan perilaku pembiayaan yang lebih aktif.

🤩Quiz
10. Apa yang dimaksud dengan tahap data understanding dalam proses data
science?
A. Mengeksplorasi data dari sumber-sumber terpisah dan membuat laporan
akuisisi data
B. Pengambilan data dari sumber-sumber data
C. Menampilkan data dalam bentuk tampilan yang mudah terbaca
D. Memperoleh dan mengeksplorasi data yang diidentifikasi sebagai bagian dari
fase sebelumnya

11. Apa yang dilakukan dalam tahap data description?


A. Mengeksplorasi data dari sumber-sumber terpisah dan membuat laporan
akuisisi data
B. Pengambilan data dari sumber-sumber data
C. Menampilkan data dalam bentuk tampilan yang mudah terbaca dan
melakukan pemeriksaan data
D. Memperoleh dan mengeksplorasi data yang diidentifikasi sebagai bagian dari
fase sebelumnya

12. Bagaimana tahap data exploration dilakukan dalam proses data science?
A. Mengeksplorasi data dari sumber-sumber terpisah dan membuat laporan
akuisisi data
B. Pengambilan data dari sumber-sumber data
C. Menampilkan data dalam bentuk tampilan yang mudah terbaca dan
melakukan pemeriksaan data
D. Menggunakan teknik statistik dan visualisasi untuk mengembangkan
pemahaman yang lebih dalam tentang data dan kesesuaiannya untuk analisis

▶️Data Preparation
Seperti fase eksplorasi data, fase persiapan data terdiri dari beberapa langkah untuk
memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang benar
agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll,
sehingga data siap untuk digunakan. Proses persiapan data ini adalah tahap kunci
dalam proses data mining. Pada tahap ini, data mentah awal diolah menjadi kumpulan
data akhir yang akan digunakan pada tahap selanjutnya.

Data preparation terdiri dari data selection, data cleaning, data integration, data
engineering.
● Data Selection
Langkah pertama dalam persiapan data adalah menentukan data yang akan
digunakan dalam analisis, dengan cara memilih kasus dan variabel yang sesuai
dengan kebutuhan analisis data. Pada tahap ini, data awal harus disaring untuk
memilih kasus atau objek yang relevan dan variabel yang berkaitan dengan
masalah yang ingin dipecahkan. Selain laporan hasil dari fase pemahaman data
(data understanding), pemilihan data yang digunakan juga harus didasarkan pada
relevansi kumpulan data atau atribut tertentu untuk tujuan proyek data mining,
serta kemampuan alat dan sistem yang digunakan untuk membangun model
analisis.
● Data Cleaning
Langkah selanjutnya setelah fase pemahaman atau pengumpulan data adalah
melakukan pembersihan data (data cleaning) dengan memproses data yang
hilang dan salah yang telah diidentifikasi. Pada tahap ini, data yang tidak valid,
duplikat, atau tidak diperlukan akan dihapus untuk memastikan kualitas data yang
digunakan. Pembersihan data juga melibatkan koreksi kesalahan dan pengisian
data yang hilang. Proses pembersihan data (data cleaning) ini sangat penting
untuk memastikan data dapat digunakan secara efektif dalam model analitis.
Seluruh kegiatan yang dilakukan dan keputusan yang diambil pada tahap ini harus
didokumentasikan dalam laporan pembersihan data agar dapat memberikan
pemahaman yang jelas mengenai data yang digunakan pada tahap selanjutnya
dalam proses analisis.
● Data Integration
Pada algoritma data mining, penting untuk menggunakan satu sumber data yang
diatur ke dalam baris dan kolom. Jika terdapat beberapa sumber data yang akan
digunakan dalam analisis, perlu dilakukan penggabungan menggunakan fitur
umum pada setiap kumpulan data untuk menggabungkan data secara
menyeluruh. Sebagai contoh, data detail pelanggan dapat digabungkan dengan
catatan pembelian mereka. Setelah proses penggabungan, akan terbentuk satu
set data tunggal yang memiliki satu baris untuk setiap pembelian yang berisi
atribut pembelian yang digabungkan dengan atribut yang terkait dengan
pelanggan. Proses penggabungan data ini disebut dengan integrasi data, yang
bertujuan memastikan bahwa semua data yang dibutuhkan tergabung dalam satu
set data.
● Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan
variabel baru atau atribut yang diturunkan ke dalam variabel atau fitur yang ada
untuk meningkatkan kemampuan model. Selanjutnya, melakukan reduksi data
dengan menghilangkan variabel yang tidak relevan atau redundan, sehingga
mengurangi dimensi data dan membuat analisis data lebih mudah dan efisien.
Selanjutnya, melakukan transformasi data untuk mengubah format data atau
menstandarkan data. Contohnya, normalisasi atau standarisasi data, pengubahan
skala data, atau membuat data baru dari gabungan data yang telah ada.
Transformasi data juga dapat meliputi pengkodean ulang atau penggantian nilai
yang hilang dengan nilai yang sesuai, mengubah tipe data, atau menyeimbangkan
kelas target jika terdapat ketidakseimbangan dalam data.

▶️
Modelling
Langkah selanjutnya adalah memilih teknik pemodelan yang paling tepat berdasarkan
sifat analisis dan data yang digunakan. Banyak metode pemodelan membuat asumsi
tentang sifat data. Sebagai contoh, beberapa metode dapat bekerja dengan baik
dengan adanya data yang hilang sedangkan yang lain akan gagal menghasilkan model
yang valid.

Pada tahap ini, pemilihan dan penerapan teknik pemodelan yang tepat menjadi sangat
penting. Teknik pemodelan yang dipilih harus sesuai dengan masalah data mining
yang dihadapi. Selain itu, pengaturan model juga harus dikalibrasi agar menghasilkan
hasil optimal. Perlu diingat bahwa seringkali beberapa teknik yang berbeda dapat
digunakan untuk masalah data mining yang sama. Jika diperlukan, dapat dilakukan
iterasi kembali ke tahap persiapan data untuk memastikan bahwa format data sesuai
dengan persyaratan teknik pemodelan tertentu. Hal ini penting untuk memastikan
kualitas data dan model prediksi yang akurat.
▶️
Evaluation
Pada tahap evaluasi akan dilakukan evaluasi terhadap kualitas dan efektivitas satu
atau lebih model yang dikirim dalam fase pemodelan (modelling) sebelum digunakan di
lapangan. Dan perlu dilakukan verifikasi dan mendokumentasikan bahwa hasil yang
diperoleh dari pemodelan memiliki kebenaran (cukup andal) untuk membuktikan
apakah model tersebut benar-benar mencapai tujuan yang ditetapkan pada fase
pertama, yakni tahap Business Understanding.

Setelah membuat model analitis, langkah selanjutnya adalah memanfaatkan model


tersebut. Pembuatan model bukan berarti proyek telah selesai. Ada beberapa cara
untuk memanfaatkan model, tergantung pada tingkat kompleksitas dan kebutuhan
organisasi. Salah satu contoh penerapan model yang sederhana adalah dengan
menghasilkan laporan (report) berdasarkan hasil analisis dari model. Laporan ini dapat
digunakan oleh manajemen atau tim yang membutuhkan informasi dari hasil analisis
tersebut. Namun, jika tingkat kompleksitas proyek lebih tinggi, maka penerapan model
dapat lebih kompleks pula. Contohnya, implementasi proses data mining paralel di
departemen lain yang membutuhkan model analitis tersebut. Untuk bisnis, seringkali
pelanggan yang akan melakukan penerapan model berdasarkan hasil analisis yang
telah dilakukan oleh organisasi. Namun demikian, organisasi perlu tetap memberikan
dukungan dan mengoptimalkan penerapan model tersebut untuk memastikan
keberhasilan penerapan model dan meningkatkan nilai bisnis.

▶️
Deployment
Pada dasarnya, tujuan dari fase deployment adalah untuk menjadikan model data
mining yang telah dibuat dapat digunakan secara luas dan berkelanjutan dalam
organisasi atau perusahaan. Jika penerapan sederhana, seperti menghasilkan laporan,
maka model dapat dengan mudah diterapkan. Namun, jika penerapan lebih kompleks,
seperti mengimplementasikan proses penambangan data secara paralel di
departemen lain, maka lebih banyak upaya dan sumber daya akan diperlukan untuk
menerapkan model tersebut.

Di perusahaan, seringkali pelanggan lah yang akan menggunakan model tersebut


untuk mengambil keputusan atau untuk meningkatkan kinerja mereka. Oleh karena itu,
penting bagi pengguna model untuk memahami cara menggunakan model dengan
benar dan memperoleh manfaat maksimal dari analisis data yang telah dilakukan.

😉Studi Kasus dan Praktikum CRISP-DM di Universitas Suka Belajar


Judul : Kelulusan Mahasiswa di Universitas Suka Belajar
Dataset : datakelulusanmahasiswa.xls (Download dataset (Data Kelulusan
Mahasiswa) dari link berikut:
https://docs.google.com/spreadsheets/d/
1MIJXHJcnlfB1c0juoMXKuRsm73rr7AoY/edit?
usp=sharing&ouid=101490258413463766036&rtpof=true&sd=true

Software : RapidMiner (download di


https://my.rapidminer.com/nexus/account/index.html#downloads )

a. Business Understanding
Problems:
● Budi adalah Rektor di Universitas Suka Belajar
● Universitas Suka Belajar memiliki masalah besar karena rasio kelulusan
mahasiswa tiap angkatan sangat rendah
● Budi ingin memahami dan membuat pola dari profil mahasiswa yang bisa lulus
tepat waktu dan yang tidak lulus tepat waktu
● Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan memberi
peringatan dini kepada mahasiswa kemungkinan tidak lulus tepat waktu untuk
memperbaiki diri, sehingga akhirnya bisa lulus tepat waktu
Objective:
● Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak

b. Data Understanding
Untuk menyelesaikan masalah, Budi mengambil data dari sistem informasi
akademik di universitasnya. Data-data dikumpulkan dari data profil mahasiswa dan
indeks prestasi semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat

Tahap Data Understanding: Mengumpulkan data dari sistem informasi akademik


universitas, memahami karakteristik data, termasuk jumlah baris dan kolom, jenis
data, dan struktur data, melakukan explorasi data untuk memahami hubungan
antara variabel, dan menentukan variabel yang relevan untuk analisis data.

Langkah menggunakan software RapidMiner sebagai berikut:


1. Buka RapidMiner dan buat project baru dengan mengklik File > New >
Process > Blank Process.
2. Pada tahap Data Understanding, tambahkan dataset ke dalam project dengan
mengklik ikon "Import Data" dan memilih file data yang sudah dikumpulkan.
RapidMiner akan secara otomatis membaca struktur data dan jenis variabel.
3. Setelah menambahkan dataset pada tahap Data Understanding, pilih "Excel"
sebagai tipe file dan tentukan lokasi penyimpanan data. Selanjutnya, pilih
"Sheet 1" sebagai worksheet yang akan digunakan dan pilih rentang sel data
dari A1 hingga O terakhir. Jangan lupa atur opsi header row menjadi 1, lalu
klik "Next".
4. Sesuaikan format kolom untuk setiap variabel pada dataset, beri label pada
data Status Kelulusan (jika diperlukan atau bisa dilakukan nanti). Cara
mengubah label pada dataset dengan mengklik action menu > change type:
Nama : Polynomial
Jenis Kelamin : Binominal (Laki-laki/Perempuan)
Status Mahasiswa : Binominal (Bekerja/Mahasiswa)
Umur : Integer
Status Nikah : Binominal (Menikah/Belum Menikah)
IPS1 - IPK : Real
Status Kelulusan : Binominal (Tepat/Terlambat) dan
Change Rolenya jadi label
Setelah itu, klik "Next".
5. Tentukan tempat penyimpanan data dan beri nama file, lalu klik "Finish" untuk
menyimpan dataset tersebut
c. Data Preparation
Dataset : datakelulusanmahasiswa.xls
● Terdapat 379 data mahasiswa dengan 15 atribut
● Missing Value sebanyak 10 data, dan tidak terdapat data noise.

● Missing Value dipecahkan dengan menambahkan data dengan nilai rata-rata


● Hasilnya adalah data bersih tanpa missing value
Langkah menggunakan software RapidMiner sebagai berikut:
a. Drag datakelulusanmahasiswa.xls ke workspace RapidMiner.
b. Untuk menghilangkan missing value, masukkan operator "Replace Missing
Values" dengan cara mengetikkan "replace missing values" pada panel alat
cari (search panel).
c. Sambungkan operator "Replace Missing Values" dengan data yang sudah
diimport dengan mengklik dan menyeret output "Retrieve" ke input
"ExampleSet" pada operator "Replace Missing Values".
d. Atur parameter "replacement_method" pada operator "Replace Missing
Values" menjadi "Mean/Average" untuk mengisi nilai yang hilang dengan nilai
rata-rata. Jika ada atribut yang bukan numerik atau tidak relevan, bisa
diabaikan dengan menghapusnya dari daftar atribut yang ada.
e. Selanjutnya, lakukan pengaturan lainnya pada operator "Replace Missing
Values", seperti mengatur nilai pengganti jika data missing, menghapus kolom
yang mengandung terlalu banyak nilai hilang, dan lain-lain.
f. Setelah selesai mengatur parameter, klik tombol "Run" pada RapidMiner
untuk menjalankan proses.
g. Data yang telah diolah dengan mengganti nilai missing value dengan nilai
rata-rata akan muncul di panel "Results" pada RapidMiner.
h. Data yang sudah diolah ini bisa disimpan di dalam berbagai format, seperti
CSV, Excel, dan lain-lain, dengan cara menambahkan operator "Write CSV"
atau "Write Excel" dan menyambungkannya dengan output dari operator
"Replace Missing Values".

d. Modeling
● Modelkan dataset dengan Decision Tree
● Pola yang dihasilkan bisa berbentuk tree atau if-then
● Hasil pola dari data berupa berupa decision tree (pohon keputusan)

Langkah menggunakan software RapidMiner sebagai berikut:

a. Pada tahap "Modelling", tambahkan operator "Decision Tree" ke dalam panel


kerja. Sambungkan operator "Decision Tree" dengan operator "Replace
Missing Values" untuk mengambil data dari dataset kelulusan mahasiswa.
b. Konfigurasikan operator "Decision Tree" dengan mengatur parameter yang
diperlukan, seperti target variabel (STATUS KELULUSAN), metode pruning,
dan kriteria pemilihan node. Jangan lupa untuk mengklik "Apply" setelah
selesai mengatur parameter.
c. Jalankan proses modelling dengan mengklik tombol "Run" pada bagian bawah
panel kerja. Setelah proses selesai, RapidMiner akan menampilkan decision
tree yang dihasilkan pada bagian "Results".
d. Untuk menyimpan hasil modelling, klik kanan pada operator "Decision Tree"
dan pilih "Store Model" untuk menyimpan model ke dalam repository
RapidMiner.
e. Dengan mengikuti langkah-langkah di atas, kamu dapat melakukan modelling
dengan Decision Tree pada dataset kelulusan mahasiswa dan mendapatkan
hasil pola berupa decision tree (pohon keputusan) yang dapat digunakan
untuk memprediksi status kelulusan mahasiswa berikutnya.

Penjelasan:
Pada contoh yang diberikan, terdapat sebuah pohon keputusan yang digunakan
untuk mengklasifikasikan status keberhasilan dalam menyelesaikan studi
mahasiswa berdasarkan dua fitur, yaitu "status mahasiswa" (mahasiswa atau
sudah bekerja) dan "IPS" (indeks prestasi semester).

Pohon keputusan terdiri dari beberapa node, dimulai dari node akar, cabang, dan
daun. Setiap node pada pohon keputusan merepresentasikan aturan atau kondisi
yang harus dipenuhi untuk memutuskan cabang mana yang harus diambil.
Cabang yang diambil akan membawa ke node berikutnya atau ke daun yang berisi
hasil klasifikasi.

Pertama-tama, pohon keputusan membagi data berdasarkan fitur "status


mahasiswa". Jika seorang mahasiswa, maka pohon keputusan akan
mempertimbangkan nilai IPS-nya.
Jika IPS 5 lebih besar dari 2,380, maka pohon keputusan akan
mempertimbangkan fitur IPS lainnya untuk menentukan apakah mahasiswa
tersebut terlambat menyelesaikan studi atau tepat waktu. Jika IPS 5 lebih besar
dari 2,635, pohon keputusan akan melihat IPS 1, IPS 2, dan IPS 4 untuk
menentukan apakah mahasiswa tersebut terlambat atau tepat waktu. Jika IPS 1
lebih besar dari 3,250, maka mahasiswa tersebut dinyatakan telah menyelesaikan
studi tepat waktu. Jika tidak, maka pohon keputusan akan melihat nilai IPS
lainnya. Jika IPS 2 lebih besar dari 3,260 dan IPS 4 lebih besar dari 3,365, maka
mahasiswa tersebut dinyatakan telah menyelesaikan studi tepat waktu. Jika tidak,
pohon keputusan akan melihat nilai IPS lainnya. Jika IPS 5 lebih besar dari 3,195
dan IPS 3 lebih besar dari 3,155, maka mahasiswa tersebut dinyatakan telah
menyelesaikan studi tepat waktu. Jika IPS 5 lebih besar dari 3,195 dan IPS 3 lebih
kecil dari atau sama dengan 3,155, maka mahasiswa tersebut dinyatakan
terlambat menyelesaikan studi. Jika IPS 2 lebih kecil dari atau sama dengan 3,260
dan IPS 8 lebih besar dari 2,125, maka mahasiswa tersebut dinyatakan telah
menyelesaikan studi tepat waktu. Jika IPS 2 lebih kecil dari atau sama dengan
3,260 dan IPS 8 lebih kecil dari atau sama dengan 2,125, maka pohon keputusan
akan melihat nilai IPS lainnya. Jika IPS 8 lebih besar dari 1,900 dan IPS 4 lebih
besar dari 2,345, maka mahasiswa tersebut dinyatakan telah menyelesaikan studi
tepat waktu. Jika tidak, maka mahasiswa tersebut dinyatakan terlambat
menyelesaikan studi. Jika IPS 5 lebih kecil dari atau sama dengan 2,635 dan IPS
3 lebih besar dari 2,480, maka mahasiswa tersebut dinyatakan terlambat
menyelesaikan studi. Jika tidak, maka mahasiswa tersebut dinyatakan telah
menyelesaikan studi tepat waktu.
e. Evaluation
● Hasil pola dari data berupa berupa peraturan if-then
● Atribut atau faktor yang paling berpengaruh adalah Status Mahasiswa, IPS2,
IPS5, IPS1
● Atribut atau faktor yang tidak berpengaruh adalah Nama, Jenis Kelamin,
Umur, IPS6, IPS7, IPS8

Langkah menggunakan software RapidMiner sebagai berikut:


1. Hasil dari model Decision Tree akan ditampilkan di panel "Results" pada
bagian kanan layar. Klik pada tab "Rules" untuk melihat peraturan if-then yang
dihasilkan oleh model tersebut.
f. Deployment
● Budi membuat program peningkatan disiplin dan pendampingan ke
mahasiswa di semester awal (1-2) dan semester 5, karena faktor yang paling
menentukan kelulusan mahasiswa ada di dua semester itu
● Budi membuat peraturan melarang mahasiswa bekerja paruh waktu di
semester awal perkuliahan, karena beresiko tinggi di kelulusan tepat waktu
● Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak
pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswa
supaya memiliki pengalaman kerja. Dan yang paling penting mahasiswa tidak
meninggalkan kuliah karena pekerjaan
● Budi memasukkan pola dan model yang terbentuk ke dalam sistem informasi
akademik, secara berkala diupdate setiap semester. Sistem informasi
akademik dibuat cerdas, sehingga bisa mengirimkan email analisis pola
kelulusan secara otomatis ke mahasiswa sesuai profilnya.

😉Diskusi:
1. Analisis masalah dan kebutuhan yang ada di organisasi lingkungan sekitar ada
atau dari dataset di rapidminer yang tersedia

2. Kumpulkan dan review dataset yang tersedia, dan hubungkan masalah dan
kebutuhan tadi dengan data yang tersedia (analisis dari 5 peran data mining).

● Bila memungkinkan pilih beberapa peran sekaligus untuk mengolah data


tersebut, misalnya: lakukan association (analisis faktor), sekaligus estimation
atau clustering

3. Lakukan proses CRISP-DM untuk menyelesaikan masalah yang ada di organisasi


sesuai dengan data yang didapatkan

● Pada proses data preparation, lakukan data cleaning (replace missing value,
replace, filter attribute) sehingga data siap dimodelkan
● Lakukan juga komparasi algoritma untuk memilih algoritma terbaik

Referensi:

1. Apa itu data mining? https://www.dicoding.com/blog/apa-itu-data-mining/


2. Slide Data Mining Pak Romi
3. Modul CertDA dari Ikatan Akuntan Indonesia
4. CRISP DM Salah Satu Metodologi Data Mining (414) CRISP DM Salah Satu
Metodologi Data Mining - YouTube
BAB 3
MAINSTREAM TOOLS AND KEY APPLICATIONS

1️⃣Alat dan Aplikasi untuk Analisis Deskriptif

Terdapat banyak alat yang tersedia untuk analisis deskriptif, beberapa diantaranya
dijelaskan secara singkat di bawah ini:
1. Microsoft Excel dengan Paket Alat Analisis Data (Data Analysis Tool Pack)
adalah aplikasi yang relatif mudah digunakan namun sangat kuat untuk analisis
deskriptif. Salah satu kekurangannya adalah jumlah baris data yang dapat
diproses terbatas hingga satu juta. Namun, itu adalah alat yang layak dan mudah
tersedia untuk analisis statistik deskriptif dari dataset yang lebih kecil.

Contoh kasusnya adalah seorang analis data ingin menganalisis data penjualan
produk selama satu tahun terakhir di sebuah toko retail kecil. Data tersebut terdiri
dari 500.000 baris data transaksi yang mencakup tanggal transaksi, nama produk,
harga produk, dan jumlah produk yang terjual. Dalam hal ini, analis data dapat
menggunakan Microsoft Excel dengan Data Analysis Tool Pack untuk
menganalisis data tersebut. Dengan menggunakan fitur Deskriptif Statistik Excel,
analis data dapat dengan mudah menghitung statistik deskriptif seperti mean,
median, modus, standar deviasi, dan kuartil dari data penjualan produk tersebut.
Selain itu, analis data dapat menggunakan fitur Regresi Linier Excel untuk
menganalisis hubungan antara harga produk dan jumlah produk yang terjual, dan
fitur Grafik Excel untuk membuat visualisasi data yang mudah dipahami seperti
diagram batang, diagram garis, dan diagram lingkaran. Namun, analis data harus
memperhatikan batasan alat ini, yaitu hanya dapat memproses hingga satu juta
baris data. Oleh karena itu, jika data penjualan produk melebihi jumlah tersebut,
analis data harus mencari alternatif alat analisis yang lebih kuat.
2. RapidMiner adalah platform perangkat lunak sains data yang dikembangkan oleh
perusahaan dengan nama yang sama yang menyediakan lingkungan terpadu
untuk persiapan data, pembelajaran mesin, pembelajaran mendalam,
penambangan teks, dan analisis prediktif.

Sebuah perusahaan e-commerce ingin meningkatkan penjualan mereka dengan


mengidentifikasi faktor-faktor yang mempengaruhi perilaku pembelian pelanggan
mereka. Data yang tersedia meliputi riwayat pembelian pelanggan, demografi,
preferensi produk, dan informasi lainnya. Mereka menggunakan RapidMiner untuk
melakukan analisis prediktif. Pertama-tama, mereka memuat data ke dalam
RapidMiner dan melakukan pembersihan dan persiapan data. Kemudian, mereka
menggunakan algoritma pembelajaran mesin untuk membangun model prediktif
yang dapat memprediksi perilaku pembelian pelanggan.

Setelah model selesai dibangun, mereka menguji model dengan menggunakan


data yang tidak terlihat sebelumnya untuk melihat seberapa baik model tersebut
dapat memprediksi perilaku pembelian pelanggan. Mereka menemukan bahwa
model mereka memiliki akurasi yang cukup baik dan dapat memberikan informasi
yang berguna tentang faktor-faktor yang mempengaruhi perilaku pembelian
pelanggan. Berdasarkan hasil analisis prediktif, perusahaan e-commerce dapat
membuat strategi pemasaran yang lebih efektif dan mengoptimalkan pengalaman
pelanggan untuk meningkatkan penjualan mereka.

3. WEKA, Waikato Environment for Knowledge Analysis, adalah seperangkat


perangkat lunak pembelajaran mesin yang ditulis dalam bahasa Java, yang
dikembangkan di Universitas Waikato, Selandia Baru.
Sebagai contoh kasus penggunaan WEKA, misalkan seorang peneliti ingin
mengembangkan sebuah model prediktif untuk memprediksi apakah seorang
pelanggan akan membeli produk tertentu berdasarkan data historis penjualan.
Peneliti dapat menggunakan algoritma pembelajaran mesin yang tersedia di dalam
WEKA, seperti Decision Tree atau Random Forest, untuk mengembangkan model
prediktifnya. Peneliti dapat memanfaatkan fitur-fitur WEKA, seperti pengolahan
data, eksplorasi data, dan validasi model untuk meningkatkan kualitas model yang
dihasilkan. Dengan menggunakan WEKA, peneliti dapat memperoleh informasi
yang berharga tentang perilaku pelanggan dan meningkatkan keputusan bisnis
mereka.

4. KNIME, Konstanz Information Miner, adalah platform analisis data, pelaporan, dan
integrasi gratis dan sumber terbuka. KNIME mengintegrasikan berbagai komponen
untuk pembelajaran mesin dan penambangan data melalui konsep pipelining data
modularnya.
Contoh kasus penggunaan KNIME adalah di industri farmasi, di mana data yang
diperoleh dari uji klinis harus diproses dan dianalisis dengan cermat sebelum
dipublikasikan. KNIME dapat digunakan untuk mengintegrasikan data dari
berbagai sumber, termasuk catatan kesehatan elektronik, data sensor, dan hasil
uji klinis. Kemudian, alur kerja KNIME dapat digunakan untuk membersihkan dan
mengolah data, melakukan analisis eksplorasi dan visualisasi, serta membangun
model pembelajaran mesin untuk memprediksi hasil uji klinis berikutnya. Dengan
menggunakan KNIME, para peneliti di industri farmasi dapat memperoleh
wawasan yang lebih baik dari data yang ada dan membuat keputusan yang lebih
baik mengenai produk-produk baru yang akan diperkenalkan ke pasar.

5. R adalah bahasa pemrograman statistik dan lingkungan komputasi yang dibuat


oleh Yayasan R untuk Komputasi Statistik. Bahasa R banyak digunakan di
kalangan ahli statistik dan penambang data untuk mengembangkan perangkat
lunak statistik. Bahasa R sangat berguna bagi analis data karena dapat membaca
jenis data apa pun dan mendukung set data yang jauh lebih besar dari yang saat
ini mungkin dengan spreadsheet.

Contoh kasusnya adalah Seorang analis data ingin melakukan analisis data yang
lebih kompleks pada dataset yang sangat besar yang tidak dapat diproses
menggunakan spreadsheet. Mereka memutuskan untuk menggunakan bahasa
pemrograman statistik R untuk melakukan analisis data. Dalam analisis ini,
mereka ingin mengidentifikasi faktor-faktor apa yang memengaruhi kepuasan
pelanggan dengan produk baru perusahaan mereka. Mereka mengambil data dari
survei pelanggan dan menggunakan R untuk memproses dan menganalisis data.

Mereka menggunakan beberapa paket R, seperti ggplot2 untuk membuat


visualisasi data yang menarik dan mempermudah pemahaman hasil analisis.
Mereka juga menggunakan paket randomForest untuk melakukan analisis regresi
acak dan menemukan faktor-faktor kunci yang memengaruhi kepuasan
pelanggan. Hasil analisis mereka menunjukkan bahwa faktor utama yang
memengaruhi kepuasan pelanggan adalah harga, kualitas produk, dan layanan
pelanggan. Berdasarkan hasil ini, perusahaan dapat mengambil tindakan yang
diperlukan untuk meningkatkan kepuasan pelanggan, seperti menawarkan harga
yang lebih kompetitif, meningkatkan kualitas produk, dan meningkatkan layanan
pelanggan.

2️⃣Alat dan Aplikasi untuk Analisis Prediktif

Semua alat yang disebutkan di bagian sebelumnya juga dapat digunakan untuk
analisis prediktif. Beberapa di antaranya, seperti Excel dan SPSS Statistics, terbatas
pada rentang tugas analisis prediktif yang dapat dilakukan. Terutama, alat-alat ini tidak
menawarkan berbagai pilihan untuk klasifikasi atau regresi lanjutan yang tersedia.
Fitur analisis prediktif juga disediakan oleh aplikasi dan layanan seperti IBM Predictive
Analytics, SAS Predictive Analytics, Salford Systems SPM 8, SAP Predictive Analytics,
Google Cloud Prediction API. R dan Python juga dapat digunakan untuk melakukan
analisis prediktif.

Alat lain di ruang analisis prediktif termasuk SPSS Modeler dari IBM, Oracle Data
Mining, Microsoft Azure Machine Learning, dan TIBCO Spotfire.

Gambar Prediksi Harga Saham Menggunakan Software Python

3️⃣Alat dan Aplikasi untuk Analisis Preskriptif

Alat-alat di ruang analisis preskriptif lebih sedikit jumlahnya. Salah satu solusi yang
sering terlupakan adalah alat analisis "what if" yang merupakan bagian dari Analysis
Tool Pack di Excel. Alat analisis prediktif kecil skala ini yang sederhana namun efektif
memungkinkan pengguna untuk memodelkan skenario yang berbeda dengan
memasukkan nilai yang berbeda ke dalam formula lembar kerja.
Seperti yang disebutkan sebelumnya dalam unit ini, ada juga 'Scenario Manager' yang
memungkinkan analis untuk menguji hasil dari skenario yang berbeda, namun alat
terkuat di Tool Pack adalah 'Solver' yang merupakan alat optimasi yang fleksibel dan
kuat. Contoh-contoh bagaimana 'Solver' dapat membantu menyelesaikan masalah
bisnis dan menentukan solusi optimal telah diilustrasikan.

Meskipun spreadsheet adalah alat serbaguna yang dapat diakses oleh kebanyakan
orang dan mudah digunakan, R dan Python adalah dua alat lain yang banyak
digunakan untuk analisis preskriptif yang lebih canggih karena menggunakan bahasa
pemrograman yang memungkinkan pengguna untuk merancang model analitis
preskriptif, hanya dibatasi oleh keterampilan, kecerdasan, dan imajinasi programmer
atau pengkode.

🤩Quiz

Microsoft Excel dengan Paket Alat Analisis Data (Data Analysis Tool Pack) adalah
aplikasi yang relatif mudah digunakan namun sangat kuat untuk analisis deskriptif.
Kekurangan dari alat ini adalah ...
A. Hanya dapat memproses data dengan jumlah kurang dari 500.000 baris
B. Tidak dapat menghitung statistik deskriptif seperti mean, median, modus, standar
deviasi, dan kuartil
C. Hanya dapat menghasilkan visualisasi data dalam bentuk diagram garis
D. Tidak tersedia untuk diunduh dan digunakan secara gratis

RapidMiner adalah platform perangkat lunak sains data yang dikembangkan oleh
perusahaan dengan nama yang sama yang menyediakan lingkungan terpadu untuk
persiapan data, pembelajaran mesin, pembelajaran mendalam, penambangan teks,
dan analisis prediktif. Sebuah perusahaan e-commerce ingin meningkatkan penjualan
mereka dengan mengidentifikasi faktor-faktor yang mempengaruhi perilaku pembelian
pelanggan mereka. Mereka menggunakan RapidMiner untuk melakukan analisis ...
A. Deskriptif
B. Regresi Linier
C. Prediktif
D. Inferensial

WEKA, Waikato Environment for Knowledge Analysis, adalah seperangkat perangkat


lunak pembelajaran mesin yang ditulis dalam bahasa Java, yang dikembangkan di
Universitas Waikato, Selandia Baru. WEKA dapat digunakan untuk ...
A. Analisis Deskriptif
B. Regresi Linier
C. Prediksi Perilaku Pelanggan
D. Pembersihan dan Persiapan Data
E. Semuanya benar
😉Cara Install Python di Windows
Python adalah bahasa pemrograman yang digunakan oleh Anaconda dan Jupyter
Notebook. Python adalah bahasa pemrograman yang populer dan sering digunakan
untuk data science, machine learning, dan pengembangan web.

Anaconda adalah platform open source untuk data science yang mencakup Python
dan beberapa library populer untuk analisis data seperti Pandas, NumPy, Matplotlib,
dan lainnya. Anaconda memudahkan instalasi dan manajemen library Python dan juga
menyediakan lingkungan kerja yang ramah pengguna untuk bekerja dengan data.

Jupyter Notebook adalah aplikasi web interaktif yang digunakan untuk


mengembangkan dan berbagi dokumen yang menggabungkan kode, teks, dan
visualisasi. Jupyter Notebook memungkinkan pengguna untuk membuat dan
menjalankan kode Python, serta menampilkan hasilnya dalam format yang dapat
diakses dan dipahami. Jupyter Notebook juga dapat diakses secara online oleh pelajar
di https://jupyter.org/try-jupyter/retro/notebooks/?path=Latihan.ipynb.

Berikut adalah langkah-langkah untuk menginstal Python, Anaconda, dan Jupyter


Notebook di Windows:

Install Python
1. Buka situs web resmi Python di https://www.python.org/downloads/
2. Unduh versi terbaru dari Python sesuai dengan sistem operasi Windows Anda.
3. Jalankan file installer dan ikuti petunjuknya. Pastikan Anda memilih opsi "Add
Python to PATH" saat ditawarkan.

Tampilan Python

Install Anaconda
1. Buka situs web resmi Anaconda di
https://www.anaconda.com/products/distribution
2. Unduh versi terbaru dari Anaconda sesuai dengan sistem operasi Windows Anda.
3. Jalankan file installer dan ikuti petunjuknya. Pastikan Anda memilih opsi "Add
Anaconda to my PATH environment variable" saat ditawarkan.

Tampilan Anaconda

Install Jupyter Notebook


1. Buka command prompt atau terminal di komputer Anda.
2. Ketik perintah berikut untuk menginstal Jupyter Notebook melalui pip:

3. Tunggu hingga proses instalasi selesai.

Tampilan Jupiter Notebook


Setelah mengikuti langkah-langkah di atas, Python, Anaconda, dan Jupyter Notebook
akan terinstal di komputer Anda dan siap digunakan. Anda dapat membuka Jupyter
Notebook dengan menjalankan perintah "jupyter notebook" di command prompt atau
terminal. Atau buka Anaconda, klik launch pada Jupyter Notebook.

Apakah bisa digunakan Jupyter Notebook di lokal tanpa menginstall Python dan
Anaconda?

Tidak, Jupyter Notebook tidak dapat digunakan di lokal tanpa menginstall Python atau
Anaconda terlebih dahulu. Python merupakan bahasa pemrograman utama yang
digunakan dalam Jupyter Notebook, sehingga Python harus diinstal terlebih dahulu
sebelum dapat menggunakan Jupyter Notebook.

Anaconda, di sisi lain, adalah platform yang menyediakan berbagai package atau
library untuk Python serta pengaturan environment yang lengkap. Jika ingin
menggunakan Anaconda untuk pengembangan dan analisis data, maka Anaconda
juga harus diinstal terlebih dahulu sebelum menggunakan Jupyter Notebook.

Setelah menginstal Python atau Anaconda, dapat menginstal Jupyter Notebook


dengan perintah pip install jupyter atau menggunakan Anaconda Navigator untuk
menginstal Jupyter Notebook. Jadi, singkatnya, Python atau Anaconda harus diinstal
terlebih dahulu sebelum dapat menggunakan Jupyter Notebook di lokal.

Jika laptop/komputer Anda tidak memenuhi persyaratan untuk menginstall Python,


maka dapat menggunakan Google Collabs atau Jupyter Notebook secara online,
namun terdapat kekurangan dari segi kapasitas penyimpanan data dan resources-nya
yang terbatas, dan juga tidak lazim digunakan di dunia kerja.

LATIHAN PYTHON DI JUPYTER NOTEBOOK

1. Membuat visualisasi data scatter plot

from matplotlib import pyplot as plt


import numpy as np

x, y, scale = np.random.randn(3, 100)


fig, ax = plt.subplots()

ax.scatter(x=x, y=y, c=scale, s=np.abs(scale)*500)


ax.set(title="Some random data, create with JupiterLab!")
plt.show()
Penjelasan
Program tersebut menggunakan library matplotlib dan numpy pada bahasa
pemrograman Python untuk membuat scatter plot dari data acak. Scatter plot
adalah jenis grafik yang menunjukkan hubungan antara dua set data dengan
menampilkan titik-titik di bidang kartesian. Pada program ini, terdapat tiga set
data acak, yaitu x, y, dan scale, masing-masing terdiri dari 100 nilai.

Dalam pembuatan scatter plot, nilai x digunakan sebagai nilai pada sumbu x,
nilai y digunakan sebagai nilai pada sumbu y, dan nilai scale digunakan untuk
memberikan warna pada setiap titik pada scatter plot. Semakin besar nilai
scale, semakin gelap warna titik pada scatter plot.

Selain memberikan warna pada titik, nilai scale juga digunakan untuk
menentukan ukuran titik pada scatter plot. Semakin besar nilai absolut dari
scale, semakin besar pula ukuran titik pada scatter plot. Pada program ini,
ukuran titik pada scatterplot dihitung dengan mengalikan nilai absolut scale
dengan 500.

Terakhir, program ini menampilkan scatter plot dengan menggunakan fungsi


plt.scatter() dari library matplotlib. Titik-titik pada scatterplot akan ditampilkan
pada area kerja (axes) yang dibuat dengan fungsi plt.subplots(). Kemudian,
judul pada scatter plot ditentukan dengan menggunakan fungsi ax.set() dengan
parameter title. Setelah itu, scatter plot ditampilkan dengan menggunakan
fungsi plt.show().

2. Membuat visualisasi data bar plot

import matplotlib.pyplot as plt

# Data yang akan di-visualisasikan


data = {'Kucing': 25, 'Anjing': 30, 'Burung': 10, 'Ikan': 20, 'Hamster': 15}
# Mengambil kunci dan nilai dari data
names = list(data.keys())
values = list(data.values())

# Membuat diagram batang dengan warna-warni yang lembut


colors = ['cornflowerblue', 'coral', 'lightskyblue', 'khaki', 'plum']
plt.bar(names, values, color=colors)

# Menambahkan judul dan label pada diagram


plt.title('Jumlah Hewan Peliharaan')
plt.xlabel('Jenis Hewan')
plt.ylabel('Jumlah')

# Menampilkan diagram
plt.show()

Penjelasan:
Script tersebut adalah contoh penggunaan pustaka Matplotlib pada bahasa
pemrograman Python untuk membuat sebuah diagram batang yang
menunjukkan jumlah hewan peliharaan dari beberapa jenis hewan.
Data yang akan di-visualisasikan adalah sebuah dictionary yang bernama data,
di mana setiap key merupakan jenis hewan peliharaan dan value-nya
merupakan jumlah hewan peliharaan dari jenis tersebut.

Kemudian, data tersebut diubah menjadi dua list terpisah yaitu names dan
values, dengan names berisi daftar jenis hewan dan values berisi daftar jumlah
hewan peliharaan.

Untuk membuat diagram batang, digunakan fungsi plt.bar dari pustaka


Matplotlib dengan argumen names dan values, dan warna yang diatur dengan
menggunakan parameter color.

Selanjutnya, judul diagram, label sumbu x, dan label sumbu y ditambahkan


dengan menggunakan fungsi plt.title, plt.xlabel, dan plt.ylabel.

Terakhir, diagram ditampilkan menggunakan fungsi plt.show.


BAB 4
DATA VISUALIZATION AND COMMUNICATION

1️⃣What is Data Visualization?


Pakar visualisasi data, Andy Kirk, menggambarkan visualisasi data sebagai
"representasi dan presentasi data untuk memfasilitasi pemahaman."

Data visualization atau visualisasi data adalah praktik mempresentasikan data dalam
format visual seperti grafik, diagram, peta, dan infografis untuk memudahkan
pemahaman dan ekstraksi insight dari data. Tujuan dari visualisasi data adalah untuk
mengkomunikasikan informasi yang kompleks dengan cara yang jelas dan ringkas,
sehingga memungkinkan pembaca/penonton untuk dengan cepat memahami dan
menarik kesimpulan dari data.

Dengan menggunakan elemen visual seperti warna, bentuk, dan ukuran, visualisasi
data membantu menyoroti pola dan tren yang mungkin sulit terlihat dalam tabel angka
atau laporan tertulis. Visualisasi data juga dapat membantu mengidentifikasi nilai yang
jauh dari rata-rata, anomali, dan korelasi yang tidak langsung terlihat dalam data
mentah.

Spesialis pengalaman pengguna (User-experience/UX), Vitaly Friedman, menjelaskan


manfaat utama dari visualisasi data sebagai "kemampuannya dalam
memvisualisasikan data, mengkomunikasikan informasi dengan jelas dan efektif."
Visualisasi data yang efektif sangat penting untuk pengambilan keputusan, pemecahan
masalah, dan pembuatan cerita dalam berbagai industri, mulai dari ilmu pengetahuan
dan kesehatan hingga bisnis dan pemasaran. Ini membantu membawa data menjadi
hidup, membuatnya lebih menarik dan mudah diingat untuk pembaca/penonton, dan
memungkinkan mereka untuk melihat gambaran besar dan membuat keputusan yang
informasional.

Secara keseluruhan, visualisasi data adalah alat yang sangat kuat yang membantu
orang untuk lebih memahami data dan mengkomunikasikan wawasan dan temuan
dengan cara yang memikat, informatif, dan dapat diambil tindakan.

Contoh visualisasi data


2️⃣The purpose and Benefits of Data Visualization
Tujuan dari visualisasi data adalah untuk:

1. Merangkum jumlah data yang besar dengan efektif


2. Menjawab pertanyaan yang sulit, jika tidak mustahil, dijawab menggunakan
analisis non-visual
3. Menemukan pertanyaan yang sebelumnya tidak tampak dan mengungkapkan
pola yang sebelumnya tidak teridentifikasi
4. Melihat data dalam konteksnya.

Dalam poin pertama, visualisasi data membantu merangkum jumlah data yang besar
dengan efektif. Daripada mempresentasikan data dalam bentuk angka atau teks,
visualisasi data memudahkan penonton untuk memahami data secara keseluruhan
dengan melihatnya dalam bentuk grafik atau diagram.

Pada poin kedua, visualisasi data membantu menjawab pertanyaan yang sulit, bahkan
tidak mungkin dijawab menggunakan analisis non-visual. Misalnya, visualisasi data
dapat membantu menjawab pertanyaan yang kompleks seperti "apa hubungan antara
tingkat pendidikan dan penghasilan seseorang?"

Pada poin ketiga, visualisasi data dapat membantu menemukan pertanyaan yang
sebelumnya tidak tampak. Visualisasi data dapat membantu menyoroti pola yang
mungkin tidak terlihat dalam data mentah, sehingga membuka peluang untuk
menemukan pertanyaan baru yang belum teridentifikasi sebelumnya.
Pada poin keempat, visualisasi data memungkinkan kita untuk melihat data dalam
konteksnya. Data seringkali memiliki konteks yang penting untuk dipertimbangkan
ketika melakukan analisis. Visualisasi data dapat membantu menunjukkan hubungan
dan keterkaitan antara data dalam konteks yang lebih luas.

Manfaat dari visualisasi data adalah sebagai berikut:


1. Dengan menggunakan teknik visualisasi data, kita dapat dengan cepat
mengidentifikasi tren baru dan pola yang tersembunyi dalam data. Pola dan tren
ini mungkin tidak terlihat dalam data mentah, tetapi dengan visualisasi, kita dapat
menyoroti dan menganalisisnya dengan lebih mudah dan efektif.
2. Dengan visualisasi data, kita dapat memperoleh wawasan yang cepat tentang
data yang relevan dan tepat waktu. Ini memungkinkan kita untuk mengambil
tindakan atau membuat keputusan dengan cepat, terutama ketika ada kebutuhan
untuk menanggapi situasi yang cepat berubah.
3. Visualisasi data memungkinkan kita untuk dengan cepat memproses jumlah data
yang sangat besar. Sebagai contoh, dalam bisnis atau ilmu pengetahuan, terdapat
banyak data yang dihasilkan setiap hari. Dengan visualisasi data, kita dapat
dengan mudah menganalisis data tersebut dan menemukan wawasan yang
berguna untuk memecahkan masalah yang dihadapi.
4. Visualisasi data juga dapat membantu kita mengidentifikasi masalah kualitas data.
Dalam beberapa kasus, data mungkin tidak lengkap atau tidak akurat, dan
visualisasi data dapat membantu mengidentifikasi area-area yang perlu perbaikan.
Dengan memperbaiki masalah kualitas data, kita dapat meningkatkan
kepercayaan pada wawasan dan keputusan yang diambil berdasarkan data
tersebut.

3️⃣Types of Data Visualization


Jenis dari visualisasi data ada tiga yaitu:
a. Comparison
b. Composition
c. Relationship

Penjelasan tiga jenis utama visualisasi data, yaitu:


1. Perbandingan (Comparison): Visualisasi perbandingan digunakan untuk
membandingkan data yang berbeda dan menunjukkan perbedaan antara
kumpulan data. Contoh visualisasi perbandingan termasuk diagram batang,
diagram garis, dan diagram kotak serta whisker.
Sebagai contoh, visualisasi perbandingan dapat digunakan untuk
membandingkan penjualan tahun lalu dan tahun ini, atau menggambarkan
perbedaan jumlah pengguna aplikasi di dua negara berbeda.
2. Komposisi (Composition): Visualisasi komposisi digunakan untuk menunjukkan
bagaimana kumpulan data dibagi menjadi bagian-bagian yang lebih kecil.
Contoh visualisasi komposisi termasuk diagram lingkaran atau pie chart, dan
stacked bar chart.
Sebagai contoh, visualisasi komposisi dapat digunakan untuk menunjukkan
bagaimana pengeluaran bisnis dibagi menjadi bagian-bagian yang berbeda
seperti gaji karyawan, biaya operasional, dan pengeluaran pemasaran.
3. Hubungan (Relationship): Visualisasi hubungan digunakan untuk menunjukkan
hubungan antara dua atau lebih variabel dalam satu set data. Contoh
visualisasi hubungan termasuk scatter plot, heatmap, dan network diagram.
Sebagai contoh, visualisasi hubungan dapat digunakan untuk menunjukkan
hubungan antara umur dan penghasilan, atau hubungan antara lokasi dan
jumlah pengunjung dalam sebuah acara.
Setiap jenis visualisasi memiliki kekuatan dan kelemahan masing-masing, dan pilihan
tergantung pada jenis data yang dihadapi serta tujuan dari visualisasi tersebut. Oleh
karena itu, pemilihan jenis visualisasi data yang tepat dapat membantu memperjelas
dan memperkuat pesan yang ingin disampaikan melalui data.

😉Praktikum untuk Visualisasi Data Comparison


Dari data berikut (link), beberapa grafik komparatif yang dapat dibuat menggunakan
Excel, RapidMiner, dan Python adalah sebagai berikut: grafik batang horizontal, grafik
batang vertikal, grafik pie dan grafik garis, grafik stacked bar.

Untuk membuat grafik-gambar tersebut, langkah-langkah yang perlu dilakukan


tergantung pada platform yang digunakan, tetapi secara umum, kita harus mengimpor
data ke aplikasi dan membuat pivot table dari data tersebut. Setelah itu, kita dapat
membuat grafik yang diinginkan dengan memilih jenis grafik yang sesuai dan mengatur
data dan label sesuai dengan preferensi kita.

Microsoft Excel
Berikut adalah langkah-langkah untuk membuat grafik untuk memvisualisasikan data
tersebut di Excel menggunakan data di atas:

1. Buka Excel dan impor data ke dalam spreadsheet. Pastikan data Anda memiliki
judul kolom dan tidak ada judul kolom yang duplikat atau kosong.
2. Pilih sel mana pun dalam data Anda, dan klik "Insert" di menu bar di bagian
atas, kemudian klik "PivotTable".
3. Di jendela "Create PivotTable", pastikan bahwa rentang sel data Anda sudah
terdeteksi dengan benar. Pilih "New worksheet" sebagai lokasi PivotTable baru
dan klik "OK".
4. Anda akan dibawa ke lembar kerja PivotTable baru. Di sini, Anda dapat memilih
kolom yang ingin Anda masukkan ke dalam "Rows" dan "Values" fields pada
panel PivotTable Fields di sebelah kanan. Untuk membuat grafik batang
horizontal untuk membandingkan total penjualan masing-masing merek laptop
selama periode 4 tahun, ikuti langkah-langkah di bawah ini:
5. Seret kolom "Years" ke bidang "Rows".
6. Seret kolom "Laptop brands" ke bidang "Columns".
7. Seret kolom "Sales" ke bidang "Values".
8. Klik pada salah satu sel data pada kolom "Sales", dan klik "Insert" pada menu
bar di bagian atas.
9. Pilih jenis grafik batang horizontal yang diinginkan dari daftar grafik yang
tersedia.
10. Anda dapat menyesuaikan label, tampilan grafik, dan informasi lain sesuai
kebutuhan Anda.

Untuk membuat grafik yang lain, ikuti langkah-langkah yang serupa dengan langkah-
langkah di atas, tetapi pilih kolom yang berbeda untuk dimasukkan ke dalam bidang
PivotTable yang berbeda, dan pilih jenis grafik yang berbeda pula.
1. Grafik batang horizontal untuk membandingkan total penjualan masing-masing
merek laptop selama periode 4 tahun (2018-2021).
Latihan:
Lakukan dengan data dan langkah yang sama menggunakan Excel untuk grafik
dibawah ini:
2. Grafik batang vertikal untuk membandingkan penjualan merek laptop di tahun
2020 saja.
3. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
4. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
5. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.

RapidMiner
Berikut adalah langkah-langkah sederhana untuk membuat grafik untuk
memvisualisasikan data tersebut di RapidMiner menggunakan data di atas:
1. Buka RapidMiner
2. Klik Blank Process
3. Klik import data, pilih lokasi penyimpanan data yang ingin diolah
4. Klik next, pilih data yang ingin diimport
5. Klik next, format columns
6. Klik next, tentukan tempat penyimpanan data
7. Klik Finish
8. Pilih visualization
9. Pilih plot type yang diinginkan, dan color groupnya.

Bisa juga mengikuti langkah berikut ini menggunakan RapidMiner yang lebih detail
untuk membuat visualisasi data menggunakan RapidMiner:
1. Buka RapidMiner Studio dan buat sebuah proses baru dengan memilih "Blank
Process".
2. Seret operator "Read Excel" atau "Read CSV" dari menu "Operators" di
sebelah kiri ke dalam panel kerja proses baru.
3. Klik dua kali pada operator yang telah ditambahkan untuk membuka dialog
konfigurasi.
4. Pilih lokasi file data yang akan digunakan pada tab "Parameters".
5. Jika diperlukan, tentukan opsi lain seperti jenis pemisah kolom dan encoding
pada tab "Advanced".
6. Klik "Run" untuk menjalankan operator Read Excel atau Read CSV dan
memuat data ke dalam RapidMiner.
7. Klik tab result dan pilih "Visualization" untuk membuka dialog konfigurasi.
8. Pilih jenis plot yang diinginkan, misalnya "Horizontal Bar Chart", pada tab
"Parameters".
9. Atur kolom-kolom yang ingin ditampilkan pada plot dan kelompokkan warnanya
pada tab "Color Groups".
10. Klik "Run" untuk menjalankan operator "Visualization" dan menampilkan plot
hasil visualisasi.
Dengan menggunakan langkah-langkah ini, Anda dapat membuat berbagai jenis grafik
dan visualisasi data lainnya dengan cara yang serupa di RapidMiner.
1. Grafik batang horizontal untuk membandingkan total penjualan masing-masing
merek laptop selama periode 4 tahun (2018-2021).

Latihan:
Lakukan dengan data dan langkah yang hampir sama menggunakan RapidMiner untuk
grafik dibawah ini:
2. Grafik batang vertikal untuk membandingkan penjualan merek laptop di tahun
2020 saja.
3. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
4. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
5. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.

*hint: gunakan operator “Filter Examples”


Python (optional karena Python akan ada bab sendiri di DQLAB).

Berikut adalah langkah-langkah untuk membuat grafik batang horizontal untuk


membandingkan total penjualan masing-masing merek laptop selama periode 4 tahun
(2018-2021) dengan menggunakan Python:

1. Pertama-tama, pastikan Anda sudah menginstal matplotlib, yaitu library yang


digunakan untuk membuat grafik. Jika belum terinstal, Anda bisa menginstalnya
menggunakan pip dengan mengetikkan perintah berikut di terminal atau
command prompt:
pip install matplotlib

2. Selanjutnya, import library matplotlib dan numpy ke dalam script Python:


import matplotlib.pyplot as plt
import numpy as np

Library numpy digunakan untuk memproses data yang akan ditampilkan pada
grafik.

3. Siapkan data yang akan ditampilkan pada grafik. Misalnya, kita ingin
menampilkan penjualan laptop dari tahun 2018 hingga 2021, dibagi
berdasarkan merek. Maka, data yang akan kita gunakan adalah sebagai
berikut:
years = [2018, 2019, 2020, 2021]
brands = ['Lenovo', 'HP', 'Dell', 'Acer', 'Apple', 'MSI']
sales = np.array([[11, 15, 12, 19], [29, 8, 28, 28], [20, 4, 4, 17], [2, 3, 45, 6], [55, 16, 51, 38], [12, 12, 16,
3]])

Variabel years digunakan untuk menyimpan tahun penjualan, brands digunakan


untuk menyimpan merek laptop, dan sales digunakan untuk menyimpan jumlah
penjualan tiap merek pada setiap tahun. Variabel sales disimpan dalam bentuk
array numpy untuk mempermudah proses manipulasi data.

4. Selanjutnya, tentukan posisi dari bar pada grafik menggunakan fungsi


np.arange dan atur lebar bar menggunakan variabel bar_width:
pos = np.arange(len(years))
bar_width = 0.12

Variabel pos akan menyimpan array berisi posisi untuk setiap bar pada grafik.
Variabel bar_width digunakan untuk menentukan lebar bar pada grafik.

5. Membuat figure dan axis menggunakan fungsi plt.subplots:


fig, ax = plt.subplots(figsize=(10, 8))

Variabel fig akan menyimpan figure, sementara variabel ax akan menyimpan


axis pada figure tersebut.
6. Membuat bar chart untuk setiap brand menggunakan perulangan for:
for i in range(len(brands)):
ax.bar(pos + i * bar_width,
sales[i],
width=bar_width,
label=brands[i])

Perulangan ini akan membuat bar chart untuk setiap merek laptop pada setiap
tahun. Pada setiap iterasi, fungsi ax.bar akan dipanggil untuk membuat satu bar
chart pada posisi yang sesuai, dengan lebar yang sudah ditentukan.

7. Menambahkan label pada axis menggunakan fungsi ax.set_xticks dan


ax.set_xticklabels:
ax.set_xticks(pos + len(brands) / 2 * bar_width)
ax.set_xticklabels(years)
ax.set_ylabel('Sales')
ax.set_xlabel('Years')

Fungsi ax.set_xticksakan menentukan posisi dari setiap tick pada axis x,


sementara fungsiax.set_xticklabelsakan menampilkan label untuk setiap tick.
Fungsiax.set_ylabeldanax.set_xlabel` akan menambahkan label pada axis y
dan axis x.

8. Menambahkan legend pada grafik menggunakan fungsi ax.legend:


ax.legend()

Fungsi ini akan menampilkan legend pada grafik yang berisi label untuk setiap
merek laptop.

9. Menampilkan grafik menggunakan fungsi plt.show:


plt.show()

Fungsi ini akan menampilkan grafik yang sudah dibuat pada jendela plot.

Berikut adalah kode lengkap untuk membuat grafik batang vertical dari data penjualan
laptop:

import matplotlib.pyplot as plt


import numpy as np

# Data
years = [2018, 2019, 2020, 2021]
brands = ['Lenovo', 'HP', 'Dell', 'Acer', 'Apple', 'MSI']
sales = np.array([[11, 15, 12, 19], [29, 8, 28, 28], [20, 4, 4, 17], [2, 3, 45, 6], [55, 16, 51, 38], [12, 12, 16, 3]])
# Posisi dan lebar bar
pos = np.arange(len(years))
bar_width = 0.12

# Figure dan axis


fig, ax = plt.subplots(figsize=(10, 8))

# Bar chart
for i in range(len(brands)):
ax.bar(pos + i * bar_width,
sales[i],
width=bar_width,
label=brands[i])

# Label dan legend


ax.set_xticks(pos + len(brands) / 2 * bar_width)
ax.set_xticklabels(years)
ax.set_ylabel('Sales')
ax.set_xlabel('Years')
ax.legend()

# Tampilkan grafik
plt.show()

Berikut hasilnya berupa grafik batang horizontal untuk membandingkan total penjualan
masing-masing merek laptop selama periode 4 tahun (2018-2021).

Latihan:
Lakukan dengan data dan langkah yang sama menggunakan Python dengan bantuan
ChatGPT untuk grafik dibawah ini:
1. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
2. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
3. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.

😉Praktikum untuk Visualisasi Data Composition


😉Praktikum untuk Visualisasi Data Relationship

Anda mungkin juga menyukai