Sebelum kita membahas tentang data analytics, kita akan membahas terlebih dahulu
tentang data, informasi, knowledge dan wisdom.
Kebijakan penataan jam kerja karyawan khusus untuk hari Senin dan Jumat.
Peraturan jam kerja:
★ Hari Senin dimulai jam 10:00
★ Hari Jumat diakhiri jam 14:00
★ Sisa jam kerja dikompensasi ke hari lain
Gambar diatas menggambarkan bagaimana data dapat diubah menjadi kebijakan
melalui beberapa tahap. Data yang mentah tidak memiliki makna atau nilai yang
signifikan tanpa diolah dan dianalisis terlebih dahulu. Dalam proses tersebut, data
diubah menjadi informasi, yaitu data yang telah dianalisis dan diorganisir sehingga
memiliki makna dan konteks tertentu. Kemudian, informasi tersebut dapat dijadikan
pengetahuan ketika kita memahami dan menginterpretasikan informasi tersebut untuk
tujuan tertentu. Akhirnya, dengan menggunakan pengetahuan tersebut, kebijakan
dapat dibuat dan diterapkan untuk mencapai tujuan yang diinginkan.
Dalam keseluruhan proses ini, penting untuk mengumpulkan data yang akurat,
memproses data dengan benar, dan memahami konteks dalam data dan informasi
yang dihasilkan, sehingga kebijakan yang dibuat dapat didasarkan pada informasi dan
pengetahuan yang akurat dan valid.
📌Quiz Time
1. Apa yang dimaksud dengan big data?
A. Data mentah yang belum diolah
B. Data yang dihasilkan manusia dalam berbagai bidang
C. Data yang dihasilkan manusia dalam bidang ekonomi
D. Data terstruktur yang dihasilkan manusia
Big Data adalah istilah yang digunakan untuk merujuk pada volume, kecepatan, dan
keragaman data yang sangat besar dan kompleks. Konsep ini melibatkan pengolahan,
analisis, dan manajemen data yang lebih besar dan lebih kompleks dari metode
tradisional. Pentingnya Big Data telah meningkat karena munculnya teknologi seperti
sensor internet, machine learning, dan analisis data yang canggih, yang
memungkinkan organisasi untuk mengambil keputusan berdasarkan data secara lebih
efektif dan efisien.
9. Contoh big data yang berasal dari data transaksi keuangan adalah...
A. Facebook
B. Google
C. Gmail
E. Data transaksi keuangan dari jutaan nasabah bank
10. Apa yang dimaksud dengan kecepatan dalam karakteristik Big Data?
A. Banyak jenis data yang tersedia untuk diolah
B. Jumlah data yang besar
C.
D. Tingkat kecepatan data diterima, disimpan, dan digunakan
E. Proses pengolahan data dalam jumlah besar
Lebih detailnya, data mining adalah proses mengidentifikasi hubungan dan pola
dalam kumpulan data yang besar, secara efektif mengubah data mentah menjadi
informasi penting yang berguna. Nama lain data mining:
● Knowledge Discovery in Database (KDD)
● Big data
● Business intelligence
● Knowledge extraction
● Pattern analysis
● Information harvesting
● Data Analysis
Secara umum, tujuan dari data mining adalah untuk mengekstrak informasi dan
wawasan dari data yang ada dan membantu dalam membuat keputusan yang lebih
baik. Tergantung pada tujuan spesifik, teknik yang berbeda dapat digunakan untuk
mencapai hasil yang diinginkan. Dapat disimpulkan data mining adalah proses
menemukan pola yang tersembunyi dalam data untuk mengidentifikasi hubungan dan
informasi baru yang tidak dapat ditemukan dengan metode analisis tradisional.
Data analytics adalah proses menggunakan data untuk mengekstrak wawasan dan
mendapatkan pemahaman tentang perilaku atau kinerja bisnis, serta melakukan
analisis yang terkait dengan tujuan bisnis tertentu, seperti membuat keputusan atau
mengembangkan strategi. Dengan demikian, data mining lebih fokus pada
identifikasi pola dan hubungan baru dalam data, sedangkan data analytics lebih
fokus pada penggunaan data untuk mendapatkan wawasan yang dapat digunakan
untuk mengambil keputusan atau mengembangkan strategi. Data mining adalah
proses ekstraksi informasi yang berguna dari data besar, sedangkan data analytics
adalah proses analisis data yang dilakukan untuk mengambil kesimpulan dan
membuat keputusan bisnis.
Data mining adalah salah satu teknik yang digunakan dalam proses data analytics.
Data mining membantu dalam menemukan pola dan informasi baru dalam data, yang
dapat digunakan untuk memahami perilaku dan kinerja bisnis, serta mendukung
pengambilan keputusan yang lebih baik. Data mining juga dapat membantu
mengidentifikasi variabel penting yang mempengaruhi hasil bisnis tertentu, yang
kemudian dapat dimasukkan ke dalam model analisis data yang lebih luas. Dengan
demikian, data mining dan data analytics saling terkait dan dapat digunakan bersama-
sama untuk menghasilkan wawasan bisnis yang lebih baik.
Dalam konteks Big Data, data mining dan data analytics seringkali digunakan untuk
membantu mengelola dan menganalisis data yang sangat besar dan kompleks. Data
mining memungkinkan perusahaan untuk menemukan pola dan wawasan baru dari
data yang ada, sedangkan data analytics memungkinkan perusahaan untuk
menganalisis data yang ada untuk membuat keputusan bisnis yang lebih baik dan
mengoptimalkan kinerja perusahaan. Dengan demikian, big data, data mining, dan
data analytics saling berkaitan dan seringkali digunakan bersama-sama untuk
mengelola dan menganalisis data besar.
📌Quiz Time
11. Apa yang dimaksud dengan Big Data?
A. Sumber data yang besar dan kompleks
B. Proses mengidentifikasi hubungan dan pola dalam kumpulan data yang besar
C. Teknik yang digunakan dalam proses data analytics
D. Prosedur analisis data untuk mengambil kesimpulan
5️⃣Machine Learning
Machine learning adalah penggunaan model statistik dan algoritma lain untuk
memungkinkan komputer belajar dari data. Hal ini dibagi menjadi dua jenis yang
berbeda, pembelajaran tanpa pengawasan dan terawasi.
Kedua jenis machine learning ini berhubungan erat dengan big data, karena big data
memberikan sumber daya yang cukup besar untuk pelatihan model dan membuat
prediksi yang lebih akurat. Selain itu, data mining dan data analytics juga dapat
digunakan untuk menganalisis data yang dihasilkan dari machine learning.
📌Quiz Time
16. Apa definisi machine learning?
A. Penggunaan model statistik dan algoritma lain untuk memungkinkan komputer
belajar dari data
B. Penggunaan komputer untuk mempelajari konsep
C. Penggunaan label dan kategori untuk mengelompokkan data
D. Penggunaan data untuk membuat prediksi tanpa algoritma
6️⃣Sources of Data
Sumber data:
Internal Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem
informasi perusahaan, seperti yang digunakan untuk perencanaan sumber daya
perusahaan, manajemen hubungan pelanggan, dan manajemen sumber daya
manusia. Data yang diekstraksi dari sistem seperti itu umumnya sangat terstruktur,
atau setidaknya semi terstruktur, yang berarti relatif mudah untuk mempersiapkan
tugas tugas data mining.
★ Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber
bisnis yang digunakan bersama untuk membantu proses pengambilan
keputusan manajemen. Data dari penyimpanan data semacam itu sering
digunakan dalam proyek data mining.
★ Web server logs memelihara riwayat permintaan halaman ke situs web. Data
yang disimpan termasuk alamat IP klien, tanggal dan waktu permintaan,
halaman yang diminta , jumlah byte yang dilayani, jenis dan versi browser web
yang digunakan , dan detail situs yang dibuka oleh klien. Log server web tidak
sulit untuk diproses, tetapi dapat berisi sejumlah data besar, seringkali
membutuhkan penggunaan pemrosesan big data.
External Sources
Sumber data eksternal merujuk pada data yang diperoleh dari luar organisasi atau
perusahaan. Ada banyak sumber data eksternal yang tersedia, seperti sumber data
pemerintah, situs web publik, media sosial, dan sumber data komersial.
★ Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat
menjelajah. Setiap kali pengguna mengklik tautan atau objek lain apa pun di
halaman web, tindakannya direkam. Fasilitas ini memerlukan penggunaan
layanan analisis web seperti Google Analytics dan menganggap bahwa
pengguna web tidak memblokir domain web yang digunakan oleh layanan atau
“cookie" yang memungkinkannya berfungsi.
★ Data dari Sosial Media dapat digunakan untuk data mining, tetapi
penggunaannya diperumit oleh kurangnya struktur dan harus hati hati dalam
penggunaannya karena terkait undang undang di bidang tersebut dan masalah
etika yang ditimbulkan oleh cara penggunaan data tersebut.
★ Dan banyak lagi sumber data eksternal seperti sumber data pemerintah
termasuk Badan Statistik Nasional, Kementerian, situs web publik dan sumber
data komersial.
Penting untuk dicatat bahwa data eksternal dapat lebih rumit daripada data internal.
Data eksternal mungkin tidak terstruktur atau tidak lengkap, dan dapat memerlukan
proses pengolahan dan pembersihan yang lebih rumit sebelum dapat digunakan untuk
analisis bisnis. Namun, sumber data eksternal dapat memberikan wawasan yang lebih
luas dan mendalam tentang pasar, pelanggan, dan lingkungan bisnis Anda.
📝Discussion:
📌Quiz Time
21. Apa saja sumber data internal yang umum digunakan dalam perusahaan?
A. Spreadsheet dan dokumen pengolah kata
B. Data Warehouse dan email
C. Sistem informasi perusahaan dan web server logs
D. Customer surveys dan sumber data komersial
25. Mengapa penggunaan data eksternal dapat lebih rumit daripada data internal?
A. Karena data eksternal mungkin tidak terstruktur atau tidak lengkap, dan dapat
memerlukan proses pengolahan dan pembersihan yang lebih rumit sebelum
dapat digunakan untuk analisis bisnis
B. Karena data eksternal biasanya mengandung informasi yang tidak dapat
dipercaya
C. Karena data eksternal tidak diperoleh langsung dari sumbernya, dan dapat
memerlukan proses pengambilan data yang lebih rumit
D. Karena data eksternal cenderung mengandung banyak noise yang dapat
mengganggu analisis bisnis
7️⃣Types of Analytics
Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat mempengaruhi hasil di masa
depan. Analisis deskriptif dapat digunakan untuk menunjukkan berbagai macam data
bisnis, seperti total penjualan berdasarkan volume atau nilai, perincian biaya, jumlah
rata-rata belanja per customer, dan profitabilitas per produk. Data-data tersebut dapat
diperoleh misalnya dengan menggunakan fitur Pivot table atau filter pada spreadsheet.
Contoh dari descriptive analysis: Analisis penjualan bulanan dari toko retail. Melalui
analisis ini, dapat diketahui total penjualan bulanan, jenis produk yang paling laris,
waktu paling sibuk, dan toko mana yang paling banyak menghasilkan penjualan.
Analisis ini membantu dalam pemahaman bisnis dan pengambilan keputusan untuk
meningkatkan penjualan.
Predictive analytics membangun model statistik dari data mentah yang diproses
dengan tujuan untuk dapat memperkirakan hasil di masa mendatang. Tipe analitik ini
mencoba menjawab pertanyaan Apa yang akan terjadi di masa depan ?"
Microsoft Excel menyediakan fitur Analisis Regresi untuk melakukan analisis prediktif
Linear equation
📌Quiz Time
26. Apa yang dimaksud dengan descriptive analytics?
A. Jenis analitik yang membangun model statistik dari data mentah
B. Jenis analitik yang mengambil data mentah dan meringkasnya untuk
memberikan informasi tentang masa lalu
C. Jenis analitik yang membantu menjawab pertanyaan tentang masa depan
D. Jenis analitik yang membantu memperkirakan beberapa hasil di masa depan
https://docs.google.com/spreadsheets/d/
1MJWOu6HjplH3m2mR1v1TIsyMZ4EhPAtk/edit?
usp=share_link&ouid=101490258413463766036&rtpof=true&sd=true
2. Tampilkan data
Data yang ada dalam file dapat ditampilkan dalam program yang digunakan,
seperti Excel. Dalam Excel, data dapat dibuka dengan memilih File -> Open dan
memilih file yang berisi data.
Hasil analisis yang diperoleh dari eksplorasi data dapat disajikan dalam bentuk
tabel, grafik, atau laporan. Contoh: tabel menunjukkan rata-rata nilai IPS dan IPK
mahasiswa, grafik menunjukkan persebaran nilai IPS mahasiswa, dan laporan
menunjukkan kesimpulan tentang karakteristik mahasiswa berdasarkan data yang
diperoleh.
Dalam contoh data di atas, beberapa contoh analisis yang dapat dilakukan dalam
descriptive analytics adalah:
➢ Statistik deskriptif: rata-rata IPK mahasiswa adalah 3.10, nilai IPS tertinggi
adalah 3.81, dan nilai IPS terendah adalah 0.
➢ Visualisasi data: histogram umur mahasiswa menunjukkan bahwa mayoritas
mahasiswa berusia 26-29 tahun, dan boxplot IPS menunjukkan bahwa nilai IPS
mahasiswa relatif stabil. Note: Sebelum buat grafik, buat dulu pivot table. Grafik
mengambil source datanya dari pivot table.
6. Mengkomunikasikan hasil
● Pilih visualisasi yang tepat: pastikan visualisasi yang dipilih dapat memperjelas
informasi yang ingin disampaikan. Misalnya, jika ingin menunjukkan
perbandingan antara dua atau lebih kategori, maka diagram batang atau pie
chart mungkin cocok digunakan. Jika ingin menunjukkan distribusi data, maka
histogram atau boxplot mungkin lebih sesuai.
● Gunakan judul yang jelas: judul visualisasi harus mencerminkan informasi yang
ingin disampaikan dan dapat memotivasi pembaca untuk membaca lebih lanjut.
● Sertakan sumbu dan label yang jelas: sumbu dan label harus jelas dan mudah
dipahami, termasuk satuan pengukuran dan informasi yang ingin disampaikan.
● Hindari clutter: visualisasi yang terlalu ramai dapat mengaburkan informasi
penting. Gunakan hanya informasi yang diperlukan dan jangan terlalu banyak
menggunakan warna dan efek visual.
● Sertakan kesimpulan: setelah menyajikan visualisasi, sertakan kesimpulan atau
interpretasi informasi yang disajikan. Jangan anggap bahwa pembaca dapat
dengan mudah menginterpretasikan visualisasi tanpa panduan.
● Sesuaikan gaya dengan audiens: pastikan bahwa visualisasi data yang dibuat
disesuaikan dengan gaya dan kebutuhan audiens. Misalnya, presentasi untuk
manajemen dapat menggunakan visualisasi data yang lebih abstrak dan
konseptual, sementara presentasi untuk ilmuwan mungkin perlu menggunakan
detail teknis yang lebih spesifik.
Predictive Analytics
Langkah-langkah untuk melakukan regresi linear pada data kelulusan mahasiswa
menggunakan Microsoft Excel:
1. Siapkan data kelulusan mahasiswa yang telah diolah pada tahapan sebelumnya di
dalam lembar kerja Excel.
2. Buat grafik scatter plot untuk melihat hubungan antara IPK Akhir dengan umur
mahasiswa. Caranya pilih kolom umur dan IPK Akhir, kemudian pilih tab "Insert"
pada menu Excel, pilih "Scatter Plot" dan pilih jenis grafik yang diinginkan.
3. Pilih elemen grafik scatter plot dan tambahkan trendline dengan mengklik kanan
elemen dan memilih "Add Trendline". Kemudian pilih jenis regresi linear pada
jendela pop-up yang muncul.
klik salah satu titik pada grafik, kemudian klik tombol "+" di pojok kanan atas grafik
untuk menambahkan elemen chart. Kemudian pilih "Trendline" pada opsi yang
muncul.
Pilih jenis trendline yang diinginkan, dalam hal ini regresi linear.
4. Periksa nilai R-Squared (R2) pada elemen trendline untuk mengetahui seberapa
besar nilai korelasi antara umur dan IPK Akhir. Nilai R2 berkisar antara 0 hingga 1,
dimana semakin tinggi nilainya semakin baik korelasinya.
Caranya:
Setelah trendline muncul pada grafik, klik kanan trendline tersebut dan pilih opsi
"Format Trendline" di menu yang muncul.
Di jendela Format Trendline, pilih tab "Options".
Pada bagian "Trendline Options", aktifkan opsi "Display R-squared value on
chart".
Nilai R-Squared (R2) akan muncul di grafik, di sebelah persamaan regresi linear
yang digunakan.
5. Lakukan uji signifikansi untuk menentukan apakah koefisien regresi bermakna
secara statistik atau tidak.
Caranya:
Pilih "Data Analysis" pada menu "Data" pada menu Excel.
Kemudian pilih "Regression" dan masukkan range sel yang berisi data IPK Akhir
dan umur.
Pilih opsi "Labels" untuk menyertakan label pada data. Pada opsi "Output Range",
pilih sel untuk menampilkan hasil output, dan pastikan opsi "Residuals" dan
"Line Fit Plots" tidak dipilih.
Klik "OK" untuk memulai analisis regresi.
6. Periksa nilai signifikansi (P-value) pada hasil output analisis regresi. Jika nilai P-
value kurang dari alpha (level of significance) yang ditetapkan (biasanya 0.05),
maka koefisien regresi dianggap signifikan secara statistik, dan model regresi
linear dapat digunakan untuk memprediksi kelulusan mahasiswa.
7. Gunakan model regresi linear untuk memprediksi kelulusan mahasiswa. Caranya,
masukkan nilai umur mahasiswa pada sel yang telah disediakan dan gunakan
rumus regresi linear yang telah dihasilkan pada output analisis regresi untuk
memprediksi nilai IPK Akhir. Jika nilai IPK Akhir lebih besar dari nilai ambang
batas yang ditetapkan (misalnya 2,75), maka mahasiswa diprediksi lulus tepat
waktu. Jika tidak, mahasiswa diprediksi lulus terlambat.
🧹Tips:
Untuk mengaktifkan menu Data Analysis di Excel, pertama pastikan bahwa add-in
Data Analysis sudah di-install. Caranya adalah sebagai berikut:
Jika muncul pesan error "Data Analysis" tidak ditemukan, coba klik "Browse"
dan cari file "Analysis ToolPak" pada lokasi instalasi Microsoft Excel, biasanya
berada di "C:\Program Files\Microsoft Office\OfficeXX\Library", dan pilih file
"ANALYS32.XLL" atau "ANALYS32.XLAM" tergantung versi Excel yang
digunakan.
10. Setelah itu, pilih analisis yang ingin dilakukan dari daftar yang tersedia pada
jendela Data Analysis.
Dengan demikian, Anda dapat mengaktifkan menu Data Analysis di Excel dan
melakukan berbagai analisis data dengan mudah.
Prescriptive Analytics
Prescriptive analysis merupakan tahapan analisis yang lebih kompleks daripada
descriptive analysis dan predictive analysis. Pada tahap ini, goal seek dan solver
digunakan untuk menemukan solusi terbaik atau rekomendasi terbaik untuk suatu
masalah berdasarkan hasil analisis yang telah dilakukan pada tahap sebelumnya.
Berikut adalah langkah-langkah untuk melakukan prescriptive analysis menggunakan
Microsoft Excel dengan data kelulusan mahasiswa yang diberikan:
1. Buatlah kolom baru bernama "Prediksi Kelulusan" atau gunakan kolom Status
Kelulusan untuk menampung hasil prediksi kelulusan mahasiswa.
2. Gunakan rumus regresi untuk memprediksi kelulusan mahasiswa berdasarkan
data nilai IPS 1 hingga IPS 8. Untuk melakukan ini, klik pada sel di bawah
"Prediksi Kelulusan" pada baris pertama dan ketikkan rumus =REGRESSION
(B2:I2,$B$15:$I$26) di dalam sel tersebut. Selanjutnya, tekan tombol "Enter"
pada keyboard untuk menghitung hasilnya. Rumus ini akan menghasilkan
koefisien regresi untuk setiap nilai IPS serta nilai konstanta untuk menghitung
prediksi kelulusan.
3. Selanjutnya, gunakan rumus prediksi untuk menghitung nilai prediksi kelulusan
mahasiswa berdasarkan nilai IPS yang ada. Ketikkan rumus =SUMPRODUCT
(B3:I3,$B$2:$I$2)+$J$2 pada sel "Prediksi Kelulusan" di bawah baris pertama.
Rumus ini akan mengalikan setiap nilai IPS dengan koefisien regresi yang
sesuai dan menambahkan nilai konstanta untuk menghasilkan prediksi
kelulusan.
4. Setelah itu, gunakan Goal Seek untuk mencari nilai IPS rata-rata yang
diperlukan untuk mencapai nilai IPK minimal yang diperlukan untuk lulus. Untuk
melakukan ini, klik pada tab "Data" pada menu bar di bagian atas Microsoft
Excel, kemudian klik pada "What-If Analysis" dan pilih "Goal Seek". Isi kotak
dialog Goal Seek seperti berikut:
a. Set Cell: Pilih sel IPK yang terletak pada baris pertama.
b. To Value: Isi dengan nilai IPK minimal yang diperlukan untuk lulus.
c. By Changing Cell: Pilih sel IPS 1 yang terletak pada baris pertama.
Setelah itu, tekan tombol "OK" untuk memulai Goal Seek. Excel akan mencoba
mencari nilai IPS 1 yang dibutuhkan untuk mencapai IPK minimal yang
diperlukan untuk lulus.
5. Terakhir, gunakan Solver untuk menemukan kombinasi nilai IPS yang paling
optimal untuk mencapai nilai IPK tertinggi. Untuk melakukan ini, klik pada tab
"Data" pada menu bar di bagian atas Microsoft Excel, kemudian klik pada
"Solver". Isi kotak dialog Solver seperti berikut:
a. Set Objective: Pilih sel IPK yang terletak pada baris pertama dan pilih
"Max" untuk mengoptimalkan nilai IPK.
b. By Changing Variable Cells: Pilih sel IPS 1 hingga IPS 8 yang terletak pada
baris kedua dan ketikkan $B$2:$I$2 di dalam kotak By Changing Variable
Cells. Ini akan memilih sel IPS 1 hingga IPS 8 sebagai sel variabel yang
akan diubah nilainya oleh Solver.
c. Subject to the Constraints: Klik pada tombol "Add" dan masukkan sel IPS 1
hingga IPS 8 pada baris kedua sebagai sel yang akan dibatasi nilainya.
Pilih ">= " dan masukkan nilai 2.5 pada kotak Constraint. Ini akan
memastikan bahwa setiap nilai IPS tidak kurang dari 2.5. Klik "Add" lagi
dan tambahkan sel IPK pada baris pertama sebagai sel yang akan dibatasi
nilainya. Pilih "<= " dan masukkan nilai 4 pada kotak Constraint. Ini akan
memastikan bahwa nilai IPK tidak melebihi 4.
d. Klik "OK" untuk menutup kotak dialog, lalu klik "Solve" untuk memulai
Solver. Solver akan mencoba menemukan kombinasi nilai IPS yang paling
optimal untuk mencapai nilai IPK tertinggi, dengan memperhatikan batasan
yang telah ditetapkan sebelumnya. Setelah Solver selesai, Anda akan
melihat nilai-nilai IPS yang dihasilkan pada sel IPS 1 hingga IPS 8 pada
baris kedua.
Referensi:
Data mining adalah salah satu teknik yang digunakan dalam proses data analytics.
Data mining membantu dalam menemukan pola dan informasi baru dalam data, yang
dapat digunakan untuk memahami perilaku dan kinerja bisnis, serta mendukung
pengambilan keputusan yang lebih baik. Data mining juga dapat membantu
mengidentifikasi variabel penting yang mempengaruhi hasil bisnis tertentu, yang
kemudian dapat dimasukkan ke dalam model analisis data yang lebih luas. Dengan
demikian, data mining dan data analytics saling terkait dan dapat digunakan bersama-
sama untuk menghasilkan wawasan bisnis yang lebih baik.
Retail Industry: Penggunaan data mining untuk memprediksi tren belanja dan
mempersonalisasi pengalaman belanja bagi pelanggan.
Healthcare: Penggunaan data mining untuk memprediksi dan mencegah penyakit
berdasarkan data medis seperti riwayat medis, pola diet, dan gaya hidup.
Finance: Penggunaan data mining untuk menganalisis data keuangan dan
memprediksi tren pasar saham, pengambilan keputusan investasi dan deteksi
penipuan keuangan.
E-Commerce: Penggunaan data mining untuk menganalisis data transaksi pelanggan
dan membuat rekomendasi produk serta meningkatkan strategi pemasaran.
Manufacturing: Penggunaan data mining untuk meningkatkan efisiensi produksi dan
memprediksi tren permintaan produk.
Telecommunications: Penggunaan data mining untuk menganalisis data panggilan
dan teks untuk meningkatkan layanan pelanggan dan memprediksi tren
penggunaan.
Gaming Industry: Penggunaan data mining untuk menganalisis data pemain untuk
meningkatkan pengalaman bermain dan meningkatkan strategi pemasaran.
💡Contoh dalam industri syariah, data mining dapat digunakan untuk membantu
dalam berbagai hal seperti:
Analisis profil nasabah: Data mining dapat digunakan untuk menganalisis profil
nasabah dan menentukan segmen pasar yang potensial. Ini membantu
perusahaan dalam memahami preferensi nasabah dan membuat strategi
pemasaran yang sesuai.
Identifikasi risiko: Data mining juga dapat digunakan untuk membantu dalam
identifikasi risiko dalam industri keuangan syariah. Ini membantu perusahaan
dalam mengambil tindakan yang tepat untuk mengurangi risiko dan
memastikan stabilitas bisnis.
Analisis performa: Data mining dapat digunakan untuk menganalisis performa
produk dan layanan syariah, membantu perusahaan dalam memahami
bagaimana produk dan layanannya diterima oleh nasabah dan membuat
keputusan untuk peningkatan.
Fraud detection: Data mining juga dapat digunakan untuk membantu dalam
deteksi penipuan dalam industri keuangan syariah. Ini membantu perusahaan
dalam memastikan bahwa transaksi yang terjadi adalah benar dan sah.
Secara umum, penerapan data mining dalam industri keuangan syariah membantu
dalam memahami dan meningkatkan efisiensi bisnis, meminimalkan risiko, dan
memastikan kualitas layanan yang diberikan kepada nasabah
Dari penjelasan diatas dapat disimpulkan lima peran data mining sebagai berikut:
1. Estimasi
Memprediksi nilai variabel dependen berdasarkan variabel independen dengan
memodelkan hubungan linear atau nonlinear antara keduanya. Contoh: Regresi
linear untuk estimasi performa CPU
2.
Forecasting
Classification
Memodelkan hubungan antara variabel independen (fitur) dan variabel
dependen (kelas) untuk memprediksi kelas pada data yang belum dikenal.
Contoh: Klasifikasi kelulusan mahasiswa dengan Decision Tree
4. Clustering
Mencari kelompok homogen dalam data dengan cara membagi data ke dalam
kelompok yang mirip satu sama lain berdasarkan kemiripan atribut atau jarak.
Contoh: Clustering jenis pelanggan
5. Asosiasi → Menemukan keterkaitan antara item atau atribut dalam data dengan
menggunakan aturan asosiasi, seperti A Priori, yang dapat digunakan untuk
merekomendasikan produk atau layanan.
🤩Quiz
1. Apa tujuan dari data mining?
A. Mengekstrak informasi dan wawasan dari data
B. Mengolah data mentah menjadi informasi
C. Menganalisis data transaksi pelanggan
D. Menganalisis data panggilan dan teks
1. Identifikasi sumber data (data source identification): Memilih sumber data yang
akan digunakan dan mengidentifikasi cara untuk mengakses data tersebut,
misal melalui query database atau mengumpulkan data dari web
2. Pemilihan data (data selection): Memilih subset data yang akan digunakan
dalam analisis, dengan mempertimbangkan kriteria seperti kualitas data,
relevansi, dan representativitas.
3. Pembersihan data (data cleaning): Membersihkan data dari nilai yang hilang,
duplikat, atau tidak valid, dan memperbaiki kesalahan atau inkonsistensi data.
4. Transformasi data (data transformation): Mengubah format atau ukuran data
untuk memudahkan analisis, seperti normalisasi data atau pengkodean
variabel.
5. Integrasi data (data integration): Menggabungkan data dari berbagai sumber
dan mengatasi masalah konsistensi data yang mungkin terjadi.
6. Reduksi dimensi data (dimensionality reduction): Mengurangi dimensi data
dengan teknik seperti analisis faktor atau analisis komponen utama (PCA)
untuk meningkatkan efisiensi dan akurasi analisis.
7. Pemilihan fitur (feature selection): Memilih fitur atau atribut yang paling relevan
atau signifikan dalam data untuk mencegah overfitting dan meningkatkan
keakuratan analisis.
8. Pemrosesan teks (text processing): Mengubah data teks menjadi bentuk yang
dapat dianalisis, seperti dengan teknik tokenisasi, stemming, atau pemisahan
kalimat.
9. Pemrosesan gambar dan suara (image and sound processing): Mengubah data
gambar atau suara menjadi fitur atau atribut yang dapat digunakan dalam
analisis data.
10. Penambangan data (data mining): Menemukan pola, korelasi, atau informasi
penting dengan teknik seperti clustering, klasifikasi, atau asosiasi.
11. Evaluasi model (model evaluation): Mengukur kinerja model dan menguji
keakuratan hasil data mining.
Tujuan dari teknik pengolahan data dalam data analytics adalah untuk memastikan
bahwa data yang akan dianalisis adalah data yang valid, relevan, dan terstruktur
dengan baik, serta siap digunakan untuk tujuan analisis. Dengan mempersiapkan data
dengan baik, hasil analisis dapat lebih akurat dan memberikan wawasan yang lebih
berharga.
▶️Business Understanding
Business Understanding adalah fase pertama yang penting dan wajib dalam setiap
kegiatan data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah
mengidentifikasi dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi
kebutuhan data dan bagaimana memperoleh data, menentukan batasan kegiatan dan
faktor/data pendukung.
Tahap business understanding merupakan tahap yang sangat penting dalam proses
data mining, karena memastikan bahwa analisis data dilakukan dengan benar dan
sesuai dengan tujuan dan kebutuhan bisnis. Ini memastikan bahwa hasil analisis data
dapat digunakan untuk membuat keputusan yang lebih baik dan membantu
perusahaan mencapai tujuannya. Dapat disimpulkan bahwa tahapan memahami
masalah (business understanding) merupakan tahap yang berkaitan dengan
pemahaman tujuan dan kebutuhan bisnis, serta menentukan area yang akan dianalisis
menggunakan data mining.
💡Contoh penerapan data mining pada industri syariah
1. Menentukan tujuan dan persyaratan proyek
Meningkatkan efektivitas pemasaran produk keuangan syariah dengan
memahami faktor-faktor yang mempengaruhi keputusan nasabah dalam memilih
produk keuangan syariah.
2. Merumuskan definisi masalah data mining
Membuat model prediksi perilaku konsumen untuk memahami faktor-faktor yang
mempengaruhi keputusan nasabah dalam memilih produk keuangan syariah.
Definisi masalah ini akan fokus pada pemodelan perilaku nasabah untuk
menemukan pola-pola yang ada dalam data historis dan mencari tahu faktor-
faktor yang mempengaruhi keputusan nasabah dalam memilih produk keuangan
syariah.
3. Mempersiapkan strategi awal untuk mencapai tujuan
Data yang diperlukan untuk menjawab masalah bisnis adalah data transaksi
nasabah, data demografi, informasi produk keuangan syariah, dan data promosi.
Selain itu, tim proyek harus memilih algoritma klasifikasi yang tepat untuk
membangun model prediksi perilaku nasabah. Proses pengumpulan data dan
persiapan data akan dilakukan untuk memastikan data yang akan digunakan
dalam proyek data mining berkualitas.
4. Merancang solusi data mining yang akan dibangun
Tim proyek akan menggunakan algoritma klasifikasi untuk memprediksi perilaku
nasabah dan menganalisis faktor-faktor yang mempengaruhi keputusan
pemilihan produk. Dengan menggunakan model prediksi perilaku nasabah,
perusahaan dapat menentukan rekomendasi produk keuangan syariah yang
cocok untuk setiap segmen nasabah, serta strategi pemasaran yang efektif
untuk meningkatkan penjualan produk keuangan syariah.
Dalam industri keuangan syariah, data mining dapat membantu perusahaan untuk
memahami perilaku konsumen dan menentukan rekomendasi produk yang tepat
untuk setiap segmen nasabah. Dengan menggunakan data mining, perusahaan
dapat meningkatkan efektivitas pemasaran produk keuangan syariah dan
meningkatkan penjualan produk. Namun, perlu diingat bahwa solusi data mining
yang dibangun harus mempertimbangkan keterbatasan teknis, anggaran, dan
sumber daya yang tersedia untuk mengembangkan solusi data mining.
🤩Quiz
8. Dalam tahap business understanding, bagaimana perusahaan dapat memastikan
bahwa hasil analisis data dapat digunakan untuk membuat keputusan yang lebih
baik?
A. Mengumpulkan data yang benar
B. Mengidentifikasi informasi yang diperlukan dengan benar
C. Menentukan tujuan akhir dari analisis data yang benar
D. Menentukan kriteria sukses yang benar
9. Apa yang harus dilakukan dalam tahap business understanding untuk memastikan
bahwa analisis data dilakukan dengan benar dan sesuai dengan tujuan dan
kebutuhan bisnis?
A. Mengumpulkan data yang benar
B. Mengidentifikasi informasi yang diperlukan dengan benar
C. Menentukan tujuan akhir dari analisis data yang benar
D. Semua jawaban diatas benar
▶️
Data Understanding
Data understanding yaitu memperoleh dan mengeksplorasi data yang diidentifikasi
sebagai bagian dari fase sebelumnya dan memiliki tiga langkah terpisah yang masing-
masing menghasilkan laporan. Sumber data meliputi web server logs, situs web seperti
Facebook, Google, database seperti pembelian oleh pelanggan, keluhan, dan lainnya.
● Data Acquisition
Pengambilan data dari sumbernya masing-masing dan pembuatan laporan akuisisi
data yang mencantumkan sumber data, alat atau teknik yang digunakan untuk
memperolehnya. Contohnya: Sebuah perusahaan yang menjual produk online
ingin mengetahui perilaku pembelian pelanggannya. Mereka memperoleh data
dari web server logs dan database pembelian pelanggan. Dalam tahap data
acquisition, mereka mengumpulkan data dari sumber-sumber tersebut
menggunakan teknik scraping data dan membuat laporan akuisisi data yang
mencantumkan sumber data dan teknik yang digunakan untuk memperolehnya.
● Data Description
Langkah selanjutnya menampilkan data dalam bentuk tampilan yang mudah
terbaca, baik data kualitatif (narasi) maupun kuantitatif (angka) dan melakukan
pemeriksaan data untuk membantu menghasilkan laporan kualitas data.
Contohnya: Perusahaan menampilkan data dalam bentuk tabel dan grafik yang
menggambarkan jumlah pembelian oleh pelanggan, produk terlaris, dan tanggal
pembelian. Mereka juga melakukan pemeriksaan data untuk memastikan bahwa
data yang diterima sudah benar dan tidak memiliki kecacatan atau kesalahan.
● Data Exploration
Langkah ini didasarkan pada deskripsi data dan melibatkan penggunaan teknik
statistik dan visualisasi untuk mengembangkan pemahaman yang lebih dalam
tentang data dan kesesuaiannya untuk analisis. Contohnya: Perusahaan
menggunakan teknik statistik seperti analisis korelasi dan visualisasi untuk
mengidentifikasi pola pembelian pelanggan dan memahami bagaimana faktor-
faktor seperti harga, promosi, dan musim berpengaruh pada perilaku pembelian.
Mereka juga menggunakan teknik clustering untuk mengelompokkan pelanggan
berdasarkan perilaku pembelian mereka dan menganalisis bagaimana kelompok-
kelompok ini berbeda satu sama lain.
1. Dalam tahap data acquisition, bank syariah memperoleh data dari database
pembiayaan nasabah dan membuat laporan akuisisi data yang mencantumkan
sumber data dan teknik yang digunakan untuk memperolehnya.
2. Dalam tahap data description, bank syariah menampilkan data dalam bentuk
tabel dan grafik yang menggambarkan jumlah pembiayaan oleh nasabah, jenis
pembiayaan terlaris, dan tanggal pembiayaan. Bank syariah juga melakukan
pemeriksaan data untuk memastikan bahwa data yang diterima sudah benar
dan tidak memiliki kecacatan atau kesalahan.
3. Dalam tahap data exploration, bank syariah menggunakan teknik statistik seperti
analisis korelasi dan visualisasi untuk mengidentifikasi pola pembiayaan
nasabah dan memahami bagaimana faktor-faktor seperti usia, pendapatan, dan
jenis pekerjaan berpengaruh pada perilaku pembiayaan. Bank syariah juga
menggunakan teknik clustering untuk pengelompokan nasabah berdasarkan
perilaku pembiayaan mereka dan menganalisis bagaimana kelompok-kelompok
ini berbeda satu sama lain.
Hasil dari tahap ini dapat digunakan untuk meningkatkan layanan pembiayaan dan
membuat keputusan bisnis yang lebih baik, seperti menentukan produk pembiayaan
baru, memperbaiki proses pembiayaan, dan memprioritaskan pemasaran kepada
nasabah dengan perilaku pembiayaan yang lebih aktif.
🤩Quiz
10. Apa yang dimaksud dengan tahap data understanding dalam proses data
science?
A. Mengeksplorasi data dari sumber-sumber terpisah dan membuat laporan
akuisisi data
B. Pengambilan data dari sumber-sumber data
C. Menampilkan data dalam bentuk tampilan yang mudah terbaca
D. Memperoleh dan mengeksplorasi data yang diidentifikasi sebagai bagian dari
fase sebelumnya
12. Bagaimana tahap data exploration dilakukan dalam proses data science?
A. Mengeksplorasi data dari sumber-sumber terpisah dan membuat laporan
akuisisi data
B. Pengambilan data dari sumber-sumber data
C. Menampilkan data dalam bentuk tampilan yang mudah terbaca dan
melakukan pemeriksaan data
D. Menggunakan teknik statistik dan visualisasi untuk mengembangkan
pemahaman yang lebih dalam tentang data dan kesesuaiannya untuk analisis
▶️Data Preparation
Seperti fase eksplorasi data, fase persiapan data terdiri dari beberapa langkah untuk
memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang benar
agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll,
sehingga data siap untuk digunakan. Proses persiapan data ini adalah tahap kunci
dalam proses data mining. Pada tahap ini, data mentah awal diolah menjadi kumpulan
data akhir yang akan digunakan pada tahap selanjutnya.
Data preparation terdiri dari data selection, data cleaning, data integration, data
engineering.
● Data Selection
Langkah pertama dalam persiapan data adalah menentukan data yang akan
digunakan dalam analisis, dengan cara memilih kasus dan variabel yang sesuai
dengan kebutuhan analisis data. Pada tahap ini, data awal harus disaring untuk
memilih kasus atau objek yang relevan dan variabel yang berkaitan dengan
masalah yang ingin dipecahkan. Selain laporan hasil dari fase pemahaman data
(data understanding), pemilihan data yang digunakan juga harus didasarkan pada
relevansi kumpulan data atau atribut tertentu untuk tujuan proyek data mining,
serta kemampuan alat dan sistem yang digunakan untuk membangun model
analisis.
● Data Cleaning
Langkah selanjutnya setelah fase pemahaman atau pengumpulan data adalah
melakukan pembersihan data (data cleaning) dengan memproses data yang
hilang dan salah yang telah diidentifikasi. Pada tahap ini, data yang tidak valid,
duplikat, atau tidak diperlukan akan dihapus untuk memastikan kualitas data yang
digunakan. Pembersihan data juga melibatkan koreksi kesalahan dan pengisian
data yang hilang. Proses pembersihan data (data cleaning) ini sangat penting
untuk memastikan data dapat digunakan secara efektif dalam model analitis.
Seluruh kegiatan yang dilakukan dan keputusan yang diambil pada tahap ini harus
didokumentasikan dalam laporan pembersihan data agar dapat memberikan
pemahaman yang jelas mengenai data yang digunakan pada tahap selanjutnya
dalam proses analisis.
● Data Integration
Pada algoritma data mining, penting untuk menggunakan satu sumber data yang
diatur ke dalam baris dan kolom. Jika terdapat beberapa sumber data yang akan
digunakan dalam analisis, perlu dilakukan penggabungan menggunakan fitur
umum pada setiap kumpulan data untuk menggabungkan data secara
menyeluruh. Sebagai contoh, data detail pelanggan dapat digabungkan dengan
catatan pembelian mereka. Setelah proses penggabungan, akan terbentuk satu
set data tunggal yang memiliki satu baris untuk setiap pembelian yang berisi
atribut pembelian yang digabungkan dengan atribut yang terkait dengan
pelanggan. Proses penggabungan data ini disebut dengan integrasi data, yang
bertujuan memastikan bahwa semua data yang dibutuhkan tergabung dalam satu
set data.
● Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan
variabel baru atau atribut yang diturunkan ke dalam variabel atau fitur yang ada
untuk meningkatkan kemampuan model. Selanjutnya, melakukan reduksi data
dengan menghilangkan variabel yang tidak relevan atau redundan, sehingga
mengurangi dimensi data dan membuat analisis data lebih mudah dan efisien.
Selanjutnya, melakukan transformasi data untuk mengubah format data atau
menstandarkan data. Contohnya, normalisasi atau standarisasi data, pengubahan
skala data, atau membuat data baru dari gabungan data yang telah ada.
Transformasi data juga dapat meliputi pengkodean ulang atau penggantian nilai
yang hilang dengan nilai yang sesuai, mengubah tipe data, atau menyeimbangkan
kelas target jika terdapat ketidakseimbangan dalam data.
▶️
Modelling
Langkah selanjutnya adalah memilih teknik pemodelan yang paling tepat berdasarkan
sifat analisis dan data yang digunakan. Banyak metode pemodelan membuat asumsi
tentang sifat data. Sebagai contoh, beberapa metode dapat bekerja dengan baik
dengan adanya data yang hilang sedangkan yang lain akan gagal menghasilkan model
yang valid.
Pada tahap ini, pemilihan dan penerapan teknik pemodelan yang tepat menjadi sangat
penting. Teknik pemodelan yang dipilih harus sesuai dengan masalah data mining
yang dihadapi. Selain itu, pengaturan model juga harus dikalibrasi agar menghasilkan
hasil optimal. Perlu diingat bahwa seringkali beberapa teknik yang berbeda dapat
digunakan untuk masalah data mining yang sama. Jika diperlukan, dapat dilakukan
iterasi kembali ke tahap persiapan data untuk memastikan bahwa format data sesuai
dengan persyaratan teknik pemodelan tertentu. Hal ini penting untuk memastikan
kualitas data dan model prediksi yang akurat.
▶️
Evaluation
Pada tahap evaluasi akan dilakukan evaluasi terhadap kualitas dan efektivitas satu
atau lebih model yang dikirim dalam fase pemodelan (modelling) sebelum digunakan di
lapangan. Dan perlu dilakukan verifikasi dan mendokumentasikan bahwa hasil yang
diperoleh dari pemodelan memiliki kebenaran (cukup andal) untuk membuktikan
apakah model tersebut benar-benar mencapai tujuan yang ditetapkan pada fase
pertama, yakni tahap Business Understanding.
▶️
Deployment
Pada dasarnya, tujuan dari fase deployment adalah untuk menjadikan model data
mining yang telah dibuat dapat digunakan secara luas dan berkelanjutan dalam
organisasi atau perusahaan. Jika penerapan sederhana, seperti menghasilkan laporan,
maka model dapat dengan mudah diterapkan. Namun, jika penerapan lebih kompleks,
seperti mengimplementasikan proses penambangan data secara paralel di
departemen lain, maka lebih banyak upaya dan sumber daya akan diperlukan untuk
menerapkan model tersebut.
a. Business Understanding
Problems:
● Budi adalah Rektor di Universitas Suka Belajar
● Universitas Suka Belajar memiliki masalah besar karena rasio kelulusan
mahasiswa tiap angkatan sangat rendah
● Budi ingin memahami dan membuat pola dari profil mahasiswa yang bisa lulus
tepat waktu dan yang tidak lulus tepat waktu
● Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan memberi
peringatan dini kepada mahasiswa kemungkinan tidak lulus tepat waktu untuk
memperbaiki diri, sehingga akhirnya bisa lulus tepat waktu
Objective:
● Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak
b. Data Understanding
Untuk menyelesaikan masalah, Budi mengambil data dari sistem informasi
akademik di universitasnya. Data-data dikumpulkan dari data profil mahasiswa dan
indeks prestasi semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat
d. Modeling
● Modelkan dataset dengan Decision Tree
● Pola yang dihasilkan bisa berbentuk tree atau if-then
● Hasil pola dari data berupa berupa decision tree (pohon keputusan)
Penjelasan:
Pada contoh yang diberikan, terdapat sebuah pohon keputusan yang digunakan
untuk mengklasifikasikan status keberhasilan dalam menyelesaikan studi
mahasiswa berdasarkan dua fitur, yaitu "status mahasiswa" (mahasiswa atau
sudah bekerja) dan "IPS" (indeks prestasi semester).
Pohon keputusan terdiri dari beberapa node, dimulai dari node akar, cabang, dan
daun. Setiap node pada pohon keputusan merepresentasikan aturan atau kondisi
yang harus dipenuhi untuk memutuskan cabang mana yang harus diambil.
Cabang yang diambil akan membawa ke node berikutnya atau ke daun yang berisi
hasil klasifikasi.
😉Diskusi:
1. Analisis masalah dan kebutuhan yang ada di organisasi lingkungan sekitar ada
atau dari dataset di rapidminer yang tersedia
2. Kumpulkan dan review dataset yang tersedia, dan hubungkan masalah dan
kebutuhan tadi dengan data yang tersedia (analisis dari 5 peran data mining).
● Pada proses data preparation, lakukan data cleaning (replace missing value,
replace, filter attribute) sehingga data siap dimodelkan
● Lakukan juga komparasi algoritma untuk memilih algoritma terbaik
Referensi:
Terdapat banyak alat yang tersedia untuk analisis deskriptif, beberapa diantaranya
dijelaskan secara singkat di bawah ini:
1. Microsoft Excel dengan Paket Alat Analisis Data (Data Analysis Tool Pack)
adalah aplikasi yang relatif mudah digunakan namun sangat kuat untuk analisis
deskriptif. Salah satu kekurangannya adalah jumlah baris data yang dapat
diproses terbatas hingga satu juta. Namun, itu adalah alat yang layak dan mudah
tersedia untuk analisis statistik deskriptif dari dataset yang lebih kecil.
Contoh kasusnya adalah seorang analis data ingin menganalisis data penjualan
produk selama satu tahun terakhir di sebuah toko retail kecil. Data tersebut terdiri
dari 500.000 baris data transaksi yang mencakup tanggal transaksi, nama produk,
harga produk, dan jumlah produk yang terjual. Dalam hal ini, analis data dapat
menggunakan Microsoft Excel dengan Data Analysis Tool Pack untuk
menganalisis data tersebut. Dengan menggunakan fitur Deskriptif Statistik Excel,
analis data dapat dengan mudah menghitung statistik deskriptif seperti mean,
median, modus, standar deviasi, dan kuartil dari data penjualan produk tersebut.
Selain itu, analis data dapat menggunakan fitur Regresi Linier Excel untuk
menganalisis hubungan antara harga produk dan jumlah produk yang terjual, dan
fitur Grafik Excel untuk membuat visualisasi data yang mudah dipahami seperti
diagram batang, diagram garis, dan diagram lingkaran. Namun, analis data harus
memperhatikan batasan alat ini, yaitu hanya dapat memproses hingga satu juta
baris data. Oleh karena itu, jika data penjualan produk melebihi jumlah tersebut,
analis data harus mencari alternatif alat analisis yang lebih kuat.
2. RapidMiner adalah platform perangkat lunak sains data yang dikembangkan oleh
perusahaan dengan nama yang sama yang menyediakan lingkungan terpadu
untuk persiapan data, pembelajaran mesin, pembelajaran mendalam,
penambangan teks, dan analisis prediktif.
4. KNIME, Konstanz Information Miner, adalah platform analisis data, pelaporan, dan
integrasi gratis dan sumber terbuka. KNIME mengintegrasikan berbagai komponen
untuk pembelajaran mesin dan penambangan data melalui konsep pipelining data
modularnya.
Contoh kasus penggunaan KNIME adalah di industri farmasi, di mana data yang
diperoleh dari uji klinis harus diproses dan dianalisis dengan cermat sebelum
dipublikasikan. KNIME dapat digunakan untuk mengintegrasikan data dari
berbagai sumber, termasuk catatan kesehatan elektronik, data sensor, dan hasil
uji klinis. Kemudian, alur kerja KNIME dapat digunakan untuk membersihkan dan
mengolah data, melakukan analisis eksplorasi dan visualisasi, serta membangun
model pembelajaran mesin untuk memprediksi hasil uji klinis berikutnya. Dengan
menggunakan KNIME, para peneliti di industri farmasi dapat memperoleh
wawasan yang lebih baik dari data yang ada dan membuat keputusan yang lebih
baik mengenai produk-produk baru yang akan diperkenalkan ke pasar.
Contoh kasusnya adalah Seorang analis data ingin melakukan analisis data yang
lebih kompleks pada dataset yang sangat besar yang tidak dapat diproses
menggunakan spreadsheet. Mereka memutuskan untuk menggunakan bahasa
pemrograman statistik R untuk melakukan analisis data. Dalam analisis ini,
mereka ingin mengidentifikasi faktor-faktor apa yang memengaruhi kepuasan
pelanggan dengan produk baru perusahaan mereka. Mereka mengambil data dari
survei pelanggan dan menggunakan R untuk memproses dan menganalisis data.
Semua alat yang disebutkan di bagian sebelumnya juga dapat digunakan untuk
analisis prediktif. Beberapa di antaranya, seperti Excel dan SPSS Statistics, terbatas
pada rentang tugas analisis prediktif yang dapat dilakukan. Terutama, alat-alat ini tidak
menawarkan berbagai pilihan untuk klasifikasi atau regresi lanjutan yang tersedia.
Fitur analisis prediktif juga disediakan oleh aplikasi dan layanan seperti IBM Predictive
Analytics, SAS Predictive Analytics, Salford Systems SPM 8, SAP Predictive Analytics,
Google Cloud Prediction API. R dan Python juga dapat digunakan untuk melakukan
analisis prediktif.
Alat lain di ruang analisis prediktif termasuk SPSS Modeler dari IBM, Oracle Data
Mining, Microsoft Azure Machine Learning, dan TIBCO Spotfire.
Alat-alat di ruang analisis preskriptif lebih sedikit jumlahnya. Salah satu solusi yang
sering terlupakan adalah alat analisis "what if" yang merupakan bagian dari Analysis
Tool Pack di Excel. Alat analisis prediktif kecil skala ini yang sederhana namun efektif
memungkinkan pengguna untuk memodelkan skenario yang berbeda dengan
memasukkan nilai yang berbeda ke dalam formula lembar kerja.
Seperti yang disebutkan sebelumnya dalam unit ini, ada juga 'Scenario Manager' yang
memungkinkan analis untuk menguji hasil dari skenario yang berbeda, namun alat
terkuat di Tool Pack adalah 'Solver' yang merupakan alat optimasi yang fleksibel dan
kuat. Contoh-contoh bagaimana 'Solver' dapat membantu menyelesaikan masalah
bisnis dan menentukan solusi optimal telah diilustrasikan.
Meskipun spreadsheet adalah alat serbaguna yang dapat diakses oleh kebanyakan
orang dan mudah digunakan, R dan Python adalah dua alat lain yang banyak
digunakan untuk analisis preskriptif yang lebih canggih karena menggunakan bahasa
pemrograman yang memungkinkan pengguna untuk merancang model analitis
preskriptif, hanya dibatasi oleh keterampilan, kecerdasan, dan imajinasi programmer
atau pengkode.
🤩Quiz
Microsoft Excel dengan Paket Alat Analisis Data (Data Analysis Tool Pack) adalah
aplikasi yang relatif mudah digunakan namun sangat kuat untuk analisis deskriptif.
Kekurangan dari alat ini adalah ...
A. Hanya dapat memproses data dengan jumlah kurang dari 500.000 baris
B. Tidak dapat menghitung statistik deskriptif seperti mean, median, modus, standar
deviasi, dan kuartil
C. Hanya dapat menghasilkan visualisasi data dalam bentuk diagram garis
D. Tidak tersedia untuk diunduh dan digunakan secara gratis
RapidMiner adalah platform perangkat lunak sains data yang dikembangkan oleh
perusahaan dengan nama yang sama yang menyediakan lingkungan terpadu untuk
persiapan data, pembelajaran mesin, pembelajaran mendalam, penambangan teks,
dan analisis prediktif. Sebuah perusahaan e-commerce ingin meningkatkan penjualan
mereka dengan mengidentifikasi faktor-faktor yang mempengaruhi perilaku pembelian
pelanggan mereka. Mereka menggunakan RapidMiner untuk melakukan analisis ...
A. Deskriptif
B. Regresi Linier
C. Prediktif
D. Inferensial
Anaconda adalah platform open source untuk data science yang mencakup Python
dan beberapa library populer untuk analisis data seperti Pandas, NumPy, Matplotlib,
dan lainnya. Anaconda memudahkan instalasi dan manajemen library Python dan juga
menyediakan lingkungan kerja yang ramah pengguna untuk bekerja dengan data.
Install Python
1. Buka situs web resmi Python di https://www.python.org/downloads/
2. Unduh versi terbaru dari Python sesuai dengan sistem operasi Windows Anda.
3. Jalankan file installer dan ikuti petunjuknya. Pastikan Anda memilih opsi "Add
Python to PATH" saat ditawarkan.
Tampilan Python
Install Anaconda
1. Buka situs web resmi Anaconda di
https://www.anaconda.com/products/distribution
2. Unduh versi terbaru dari Anaconda sesuai dengan sistem operasi Windows Anda.
3. Jalankan file installer dan ikuti petunjuknya. Pastikan Anda memilih opsi "Add
Anaconda to my PATH environment variable" saat ditawarkan.
Tampilan Anaconda
Apakah bisa digunakan Jupyter Notebook di lokal tanpa menginstall Python dan
Anaconda?
Tidak, Jupyter Notebook tidak dapat digunakan di lokal tanpa menginstall Python atau
Anaconda terlebih dahulu. Python merupakan bahasa pemrograman utama yang
digunakan dalam Jupyter Notebook, sehingga Python harus diinstal terlebih dahulu
sebelum dapat menggunakan Jupyter Notebook.
Anaconda, di sisi lain, adalah platform yang menyediakan berbagai package atau
library untuk Python serta pengaturan environment yang lengkap. Jika ingin
menggunakan Anaconda untuk pengembangan dan analisis data, maka Anaconda
juga harus diinstal terlebih dahulu sebelum menggunakan Jupyter Notebook.
Dalam pembuatan scatter plot, nilai x digunakan sebagai nilai pada sumbu x,
nilai y digunakan sebagai nilai pada sumbu y, dan nilai scale digunakan untuk
memberikan warna pada setiap titik pada scatter plot. Semakin besar nilai
scale, semakin gelap warna titik pada scatter plot.
Selain memberikan warna pada titik, nilai scale juga digunakan untuk
menentukan ukuran titik pada scatter plot. Semakin besar nilai absolut dari
scale, semakin besar pula ukuran titik pada scatter plot. Pada program ini,
ukuran titik pada scatterplot dihitung dengan mengalikan nilai absolut scale
dengan 500.
# Menampilkan diagram
plt.show()
Penjelasan:
Script tersebut adalah contoh penggunaan pustaka Matplotlib pada bahasa
pemrograman Python untuk membuat sebuah diagram batang yang
menunjukkan jumlah hewan peliharaan dari beberapa jenis hewan.
Data yang akan di-visualisasikan adalah sebuah dictionary yang bernama data,
di mana setiap key merupakan jenis hewan peliharaan dan value-nya
merupakan jumlah hewan peliharaan dari jenis tersebut.
Kemudian, data tersebut diubah menjadi dua list terpisah yaitu names dan
values, dengan names berisi daftar jenis hewan dan values berisi daftar jumlah
hewan peliharaan.
Data visualization atau visualisasi data adalah praktik mempresentasikan data dalam
format visual seperti grafik, diagram, peta, dan infografis untuk memudahkan
pemahaman dan ekstraksi insight dari data. Tujuan dari visualisasi data adalah untuk
mengkomunikasikan informasi yang kompleks dengan cara yang jelas dan ringkas,
sehingga memungkinkan pembaca/penonton untuk dengan cepat memahami dan
menarik kesimpulan dari data.
Dengan menggunakan elemen visual seperti warna, bentuk, dan ukuran, visualisasi
data membantu menyoroti pola dan tren yang mungkin sulit terlihat dalam tabel angka
atau laporan tertulis. Visualisasi data juga dapat membantu mengidentifikasi nilai yang
jauh dari rata-rata, anomali, dan korelasi yang tidak langsung terlihat dalam data
mentah.
Secara keseluruhan, visualisasi data adalah alat yang sangat kuat yang membantu
orang untuk lebih memahami data dan mengkomunikasikan wawasan dan temuan
dengan cara yang memikat, informatif, dan dapat diambil tindakan.
Dalam poin pertama, visualisasi data membantu merangkum jumlah data yang besar
dengan efektif. Daripada mempresentasikan data dalam bentuk angka atau teks,
visualisasi data memudahkan penonton untuk memahami data secara keseluruhan
dengan melihatnya dalam bentuk grafik atau diagram.
Pada poin kedua, visualisasi data membantu menjawab pertanyaan yang sulit, bahkan
tidak mungkin dijawab menggunakan analisis non-visual. Misalnya, visualisasi data
dapat membantu menjawab pertanyaan yang kompleks seperti "apa hubungan antara
tingkat pendidikan dan penghasilan seseorang?"
Pada poin ketiga, visualisasi data dapat membantu menemukan pertanyaan yang
sebelumnya tidak tampak. Visualisasi data dapat membantu menyoroti pola yang
mungkin tidak terlihat dalam data mentah, sehingga membuka peluang untuk
menemukan pertanyaan baru yang belum teridentifikasi sebelumnya.
Pada poin keempat, visualisasi data memungkinkan kita untuk melihat data dalam
konteksnya. Data seringkali memiliki konteks yang penting untuk dipertimbangkan
ketika melakukan analisis. Visualisasi data dapat membantu menunjukkan hubungan
dan keterkaitan antara data dalam konteks yang lebih luas.
Microsoft Excel
Berikut adalah langkah-langkah untuk membuat grafik untuk memvisualisasikan data
tersebut di Excel menggunakan data di atas:
1. Buka Excel dan impor data ke dalam spreadsheet. Pastikan data Anda memiliki
judul kolom dan tidak ada judul kolom yang duplikat atau kosong.
2. Pilih sel mana pun dalam data Anda, dan klik "Insert" di menu bar di bagian
atas, kemudian klik "PivotTable".
3. Di jendela "Create PivotTable", pastikan bahwa rentang sel data Anda sudah
terdeteksi dengan benar. Pilih "New worksheet" sebagai lokasi PivotTable baru
dan klik "OK".
4. Anda akan dibawa ke lembar kerja PivotTable baru. Di sini, Anda dapat memilih
kolom yang ingin Anda masukkan ke dalam "Rows" dan "Values" fields pada
panel PivotTable Fields di sebelah kanan. Untuk membuat grafik batang
horizontal untuk membandingkan total penjualan masing-masing merek laptop
selama periode 4 tahun, ikuti langkah-langkah di bawah ini:
5. Seret kolom "Years" ke bidang "Rows".
6. Seret kolom "Laptop brands" ke bidang "Columns".
7. Seret kolom "Sales" ke bidang "Values".
8. Klik pada salah satu sel data pada kolom "Sales", dan klik "Insert" pada menu
bar di bagian atas.
9. Pilih jenis grafik batang horizontal yang diinginkan dari daftar grafik yang
tersedia.
10. Anda dapat menyesuaikan label, tampilan grafik, dan informasi lain sesuai
kebutuhan Anda.
Untuk membuat grafik yang lain, ikuti langkah-langkah yang serupa dengan langkah-
langkah di atas, tetapi pilih kolom yang berbeda untuk dimasukkan ke dalam bidang
PivotTable yang berbeda, dan pilih jenis grafik yang berbeda pula.
1. Grafik batang horizontal untuk membandingkan total penjualan masing-masing
merek laptop selama periode 4 tahun (2018-2021).
Latihan:
Lakukan dengan data dan langkah yang sama menggunakan Excel untuk grafik
dibawah ini:
2. Grafik batang vertikal untuk membandingkan penjualan merek laptop di tahun
2020 saja.
3. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
4. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
5. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.
RapidMiner
Berikut adalah langkah-langkah sederhana untuk membuat grafik untuk
memvisualisasikan data tersebut di RapidMiner menggunakan data di atas:
1. Buka RapidMiner
2. Klik Blank Process
3. Klik import data, pilih lokasi penyimpanan data yang ingin diolah
4. Klik next, pilih data yang ingin diimport
5. Klik next, format columns
6. Klik next, tentukan tempat penyimpanan data
7. Klik Finish
8. Pilih visualization
9. Pilih plot type yang diinginkan, dan color groupnya.
Bisa juga mengikuti langkah berikut ini menggunakan RapidMiner yang lebih detail
untuk membuat visualisasi data menggunakan RapidMiner:
1. Buka RapidMiner Studio dan buat sebuah proses baru dengan memilih "Blank
Process".
2. Seret operator "Read Excel" atau "Read CSV" dari menu "Operators" di
sebelah kiri ke dalam panel kerja proses baru.
3. Klik dua kali pada operator yang telah ditambahkan untuk membuka dialog
konfigurasi.
4. Pilih lokasi file data yang akan digunakan pada tab "Parameters".
5. Jika diperlukan, tentukan opsi lain seperti jenis pemisah kolom dan encoding
pada tab "Advanced".
6. Klik "Run" untuk menjalankan operator Read Excel atau Read CSV dan
memuat data ke dalam RapidMiner.
7. Klik tab result dan pilih "Visualization" untuk membuka dialog konfigurasi.
8. Pilih jenis plot yang diinginkan, misalnya "Horizontal Bar Chart", pada tab
"Parameters".
9. Atur kolom-kolom yang ingin ditampilkan pada plot dan kelompokkan warnanya
pada tab "Color Groups".
10. Klik "Run" untuk menjalankan operator "Visualization" dan menampilkan plot
hasil visualisasi.
Dengan menggunakan langkah-langkah ini, Anda dapat membuat berbagai jenis grafik
dan visualisasi data lainnya dengan cara yang serupa di RapidMiner.
1. Grafik batang horizontal untuk membandingkan total penjualan masing-masing
merek laptop selama periode 4 tahun (2018-2021).
Latihan:
Lakukan dengan data dan langkah yang hampir sama menggunakan RapidMiner untuk
grafik dibawah ini:
2. Grafik batang vertikal untuk membandingkan penjualan merek laptop di tahun
2020 saja.
3. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
4. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
5. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.
Library numpy digunakan untuk memproses data yang akan ditampilkan pada
grafik.
3. Siapkan data yang akan ditampilkan pada grafik. Misalnya, kita ingin
menampilkan penjualan laptop dari tahun 2018 hingga 2021, dibagi
berdasarkan merek. Maka, data yang akan kita gunakan adalah sebagai
berikut:
years = [2018, 2019, 2020, 2021]
brands = ['Lenovo', 'HP', 'Dell', 'Acer', 'Apple', 'MSI']
sales = np.array([[11, 15, 12, 19], [29, 8, 28, 28], [20, 4, 4, 17], [2, 3, 45, 6], [55, 16, 51, 38], [12, 12, 16,
3]])
Variabel pos akan menyimpan array berisi posisi untuk setiap bar pada grafik.
Variabel bar_width digunakan untuk menentukan lebar bar pada grafik.
Perulangan ini akan membuat bar chart untuk setiap merek laptop pada setiap
tahun. Pada setiap iterasi, fungsi ax.bar akan dipanggil untuk membuat satu bar
chart pada posisi yang sesuai, dengan lebar yang sudah ditentukan.
Fungsi ini akan menampilkan legend pada grafik yang berisi label untuk setiap
merek laptop.
Fungsi ini akan menampilkan grafik yang sudah dibuat pada jendela plot.
Berikut adalah kode lengkap untuk membuat grafik batang vertical dari data penjualan
laptop:
# Data
years = [2018, 2019, 2020, 2021]
brands = ['Lenovo', 'HP', 'Dell', 'Acer', 'Apple', 'MSI']
sales = np.array([[11, 15, 12, 19], [29, 8, 28, 28], [20, 4, 4, 17], [2, 3, 45, 6], [55, 16, 51, 38], [12, 12, 16, 3]])
# Posisi dan lebar bar
pos = np.arange(len(years))
bar_width = 0.12
# Bar chart
for i in range(len(brands)):
ax.bar(pos + i * bar_width,
sales[i],
width=bar_width,
label=brands[i])
# Tampilkan grafik
plt.show()
Berikut hasilnya berupa grafik batang horizontal untuk membandingkan total penjualan
masing-masing merek laptop selama periode 4 tahun (2018-2021).
Latihan:
Lakukan dengan data dan langkah yang sama menggunakan Python dengan bantuan
ChatGPT untuk grafik dibawah ini:
1. Grafik pie untuk menunjukkan persentase penjualan masing-masing merek
laptop pada tahun 2021.
2. Grafik garis untuk menunjukkan tren penjualan setiap merek laptop selama
periode 4 tahun.
3. Grafik stacked bar untuk membandingkan penjualan masing-masing merek
laptop dalam satu tahun tertentu, misalnya pada tahun 2021.