Laporan Tugas Akhir Data Science Boe (Amir Mahmud)

PENERAPAN DATA MINING DENGAN ALGORITMA
EXPLORATORY DATA ANALYSIS (EDA)
UNTUK KLASIFIKASI FAKTOR PENGARUH PRESTASI SISWA
Oleh :
AMIR MAHMUD
PROGRAM DIKLAT PEMROGRAMAN PYTHON UNTUK DATA SCIENCE
PROGRAM KEAHLIAN TEKNOLOGI INFORMASI
2022
BAB 1 PEDAHULUAN
1.1. Latar Belakang
Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi
untuk melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus
untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.
Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan
untuk mengambil keputusan. Data mining adalah suatu konsep yang digunakan untuk
menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses
semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna
yang tersimpan di dalam database besar. Data mining adalah bagian dari proses KDD
( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data,
pra pengolahan, transformasi, data mining, dan evaluasi hasil. KDD secara umum juga dikenal
sebagai pangkalan data. Exploratory Data Analysis (EDA) adalah bagian dari proses data science.
EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena
dalam tahap ini kita harus memahami datanya terlebih dahulu. Exploratory Data Analysis
memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi,
korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman
konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar.
1.2. Tujuan
Tujuan dari laporan ini adalah Untuk meningkatkan pemahaman terhadap ilmu Data Mining
menggunakan Exploratory Data Analysis (EDA) di Python dengan mengolah data siswa
mengetahui faktor mana yang dapat mempengaruhi prestasi siswa, dengan mengklasifikasikan
skor menjadi beberapa peringkat dan mencari tahu fitur mana yang mempengaruhi skor secara
lebih signifikan.
1.3. Data yang digunakan
Data yang digunakan adalah data dari tiga kelas yang berbeda, yaitu di kelas X RPL, X TKJ, dan
X AKL yang diambil dari hasil ujian akhir semester Genap tahun 2022 dan data dari Dapodik
tahun 2022.
BAB II LANDASAN TEORI
2.1 Pengertian Data Mining dan Exploratory Data Analys (EDA)
a. Pengertian Data Mining
Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi untuk
melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus
untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.
Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan
untuk mengambil keputusan. Data mining adalah merupakanproses atau “aplikasi algoritma
khusus untuk mengekstraksi pola dari data” yang berpotensi bernilai dan disimpan dalam
kumpulan data. Data mining merupakan salah satu proses eksplorasi dan analisis data yang
memiliki banyak metode dengan kegunaan masing-masing. Data mining merupakan gabungan
dari berbagai bidang ilmu, antara lain basis data, information retrieval, statistika, machine
learning dan sebagainya. Data mining dapat diterapkan di berbagai bidang, seperti bisnis,
kesehatan, asuransi, pemasaran dan perbankan.
Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita
harus memahami datanya terlebih dahulu.
Proses Data Science :
1. Data Preparation
2. Data Cleansing
3. Exploratory Data Analysis (EDA)
4. Feature Engineering
5. Modeling
6. Evaluation
7. Deployment
b. Pengertian Exploratory Data Analysis
Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk
mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan
melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat
mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor
penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik.
Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering
menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis.
Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan
statistik deskriptif, univariat analysis, dan multivariat analysis.
1. Pentingnya Exploratory Data Analysis
Ketika seseorang melakukan proses analisis data, salah satu proses yang sebaiknya tidak
terlewatkan adalah exploratory data analysis (EDA). EDA merupakan salah satu proses penting
dalam analisis data dikarenakan dengan melakukan EDA pengguna akan dapat lebih menghemat
waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti
adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll. Salah
satu hal yang dikhawatirkan jika tidak melalui proses EDA adalah terjadinya error yang
berulang-ulang dalam proses analisis, atau hasil analisis menjadi kurang valid dan kurang
relevan dengan tujuan bisnis dikarenakan data yang digunakan masih benar-benar belum siap.
Selain itu dengan melakukan EDA, pengguna akan terbantu dalam melihat data sebelum
membuat asumsi apapun sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data.
2. Teknik Exploratory Data Analysis
Pada proses pengolahan data, dalam melakukan exploratory data analysis dapat menggunakan
beberapa teknik yang tersedia, yaitu:
a. Statistik deskriptif, yaitu mendeskripsikan atau merangkum data sehingga menghasilkan
informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif
dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus,
standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam
berbagai bentuk seperti tabel, diagram, grafik, dll.
b. Univariate analysis, yaitu menganalisis kolom secara terpisah dan melihat distribusi
datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik.
Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan
menggunakan beberapa analisis inferensial yang mungkin digunakan.
c. Multivariate analysis, yaitu menggabungkan beberapa kolom dengan tujuan menemukan
hubungan antara satu kolom dengan kolom lainnya. Analisis multivariat ini melibatkan
variabel dalam jumlah lebih atau sama dengan tiga variabel

BAB III PEMBAHASAN
Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Data yang akan
diproses perlu dibersihkan sebelum diproses. Hal ini terjadi karena biasanya data yang akan
digunakan belum baik, penyebabnya antara lain :
a. Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.
b. Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
c. Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse
memerlukan integrasi kualitas data yang konsisten. Teknik atau metode yang digunakan dalam
data preprocessing, diantaranya:
a. Data cleaning
Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa
data yang tidak konsisten.
b. Data integrasi
Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam
penyimpanan data yang sesuai.
c. Data transformasi
Normalisasi dan pengumpulan data sehingga menjadi sama.
d. Data reduksi
Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan
hasil analitis yang sama.

e. Data diskretisasi
Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data
numerik.
Dari data yang kita dapat dari beberapa siswa setelah kita masukan kedalam aplikasi
Menggunakan Google Colaboratory di https://colab.research.google.com, maka pada tab menu
awal akan terlihat seperti berikut,
1. Memanggil Notebook Google Colab
Google Colab dapat diakses secara gratis oleh semua pengguna yang memiliki akun Google.
Setiap Google Colab terdiri atas dokumen yang disebut dengan notebook, yang sebenarnya
merupakan sebuah dokumen Interactive Python Notebook (ipynb). Oleh Google Colab, notebook
tersebut dapat dijalankan layaknya sebuah dokumen yang dipanggil menggunakan interpreter
bahasa Python.
Untuk memanggil Google Colab, dapat dilakukan dengan cara membuka Google
Drive pada folder tertentu, kemudian klik kanan pada folder tersebut, dan pilih New > Google
Colaboratory. Selanjutnya, Google Colab siap untuk digunakan

Apabila pilihan Google Colaboratory tidak dijumpai, maka terlebih dahulu lakukan instalasi
melalui Connect more Apps. Selanjutnya, Google akan membuat sebuah file dengan ekstensi
ipynb pada folder tersebut. File ini adalah sebuah Notebook iPython yang dapat digunakan untuk
menjalankan perintah-perintah dalam bahasa Python.
2. Memanggil file yang tersimpan pada GDrive di Google Colab
Untuk memanggil file di Google Drive pada GColab, terlebih dahulu harus dilakukan 'Mounting'
untuk menghubungkan antara Google Drive dan Google Colab. Hal ini dapat dilakukan
menggunakan menu Mount Drive pada bagian kanan Notebook
Cara lain yaitu dengan cara mengupload dataset format CSV kedalam drive atau folder di Google
Drive dengan nama yang sudah ditentukan. Saya contohkan filenya dengan nama
“DATASET14”.
Kemudian buka halaman Google Colab lalu masukkan kode berikut untuk menghubungkan
Google colab dengan Google Drive.
Setelah itu baru kita masukkan data yang adadi google drive dengan cara menggunakan library
Python Pandas
Setelah itu data kita proses Data untuk melakukan Exploratory Data Analysis (EDA)
Eksplorasi Dataset
Setelah data muncul kita cek apakah data sudah sesuai, antara colom dan baris. Kita lihat didata
ada data “Null”, maka harus kita hilangkan dulu dengan cara seperti digambar
Selanjutnya kita tampilkan tipe data
Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan
summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean,
nilai minimum dan maksimum, serta nilai2 persentilnya.
Distribusi Data
Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya
berdasarkan kelas sbb:

Visualisasi Data
Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya.
Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam
bentuk Barplot, correlation colum dan pairplot Seaborn.
Dari histogram di atas tampak bahwa ada perbedaan nilai di tiga kelas
Interaksi Antar Variabel
Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini
bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya
korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal. Disini kita
akan melihat Variabel laki-laki dan perempuan.

Selanjutnya menampilkan plotdiagram nilai Matematika antara Laki-laki dan perempuan.
Selanjutnya menampilkan Nilai Berdasarkan beberapa Faktor yaitu faktor “Les persiapan ujian”
dan “Makan sebelum ujian” pada siswa laki-laki dan perempuan

Selanjutnya menampilkan Scatterplot untuk melihat sebaran data Laki-laki dan perempuan pada
nilai matematika dan bahasa inggris.

Selanjutnya menampilkan Scatterplot untuk melihat sebaran data nilai dari yang terendah sampai
tertinggi antara 45 – 80 yang terdiri dari 4 klaster.

Dari data diatas kita dapat membandingkan kinerja siswa Laki-laki dan perempuan berdasarkan
les persiapan ujian siswa dan makan sebelum ujian di mata pelajaran matematika, bahasa
indonesia dan bahasa inggris.
Terakhir kita akan menampilkan pengaruh “Tingkat pendidikan orang tua”
Berdasarkan hasil diagram diatas dapat dilihat bahwa tingkat pendidikan orang tua dapat
mempengaruhi prestasi siswa. Jumlah orang tua tidak sekolah sangat signifikan dan siswa
mendapatkan nilai antara 45 – 55. Berbeda dengan orang tua pendidikan smp yang mendapatkan
nilai antara 70 – 80.

BAB IV
KESIMPULAN
Berdasarkan dari penelitian yang telah dilaksanakan dan sudah diuraikan dalam penerapan
Exploratory Data Analysis (EDA) dari data yang sudah dihasilkan dapat disimpulkan bahwa :
1. Menyelesaikan persiapan Les belajar sebelum ujian sangat bermanfaat. motivasi belajar
berpengaruh secara signifikan terhadap prestasi belajar siswa. Dan cara belajar siswa
berpengaruh terhadap prestasi belajar siswa,
2. Makan yang layak sebelum ujian merupakan hal penting bagi siswa. Kesimpulannya, jika
siswa ingin memiliki prestasi yang baik, mereka harus memiliki nutrisi yang cukup dan berusaha
untuk mempersiapkan segala macam kebutuhan menghadapi ujian sekolah.
3. Tingkat pendidikan orang tua dapat mempengaruhi kinerja siswa. Berdasarkan hasil peneliti
dapat menyimpulkan bahwa terdapat pengaruh yang signifikan antara tingkat pendidikan orang
tua terhadap prestasi belajar siswa. Jadi Sebagai Orang tua memberikan bimbingan dan
membantu anaknya belajar dirumah untuk mengerjakan tugas dari sekolah agar anaknya
mendapat prestasi yang baik di sekolah.

Laporan Tugas Akhir Data Science Boe (Amir Mahmud)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan Tugas Akhir Data Science Boe (Amir Mahmud)

Diunggah oleh

Hak Cipta:

Format Tersedia

PENERAPAN DATA MINING DENGAN ALGORITMA

EXPLORATORY DATA ANALYSIS (EDA)

UNTUK KLASIFIKASI FAKTOR PENGARUH PRESTASI SISWA

PROGRAM DIKLAT PEMROGRAMAN PYTHON UNTUK DATA SCIENCE

PROGRAM KEAHLIAN TEKNOLOGI INFORMASI

1.1. Latar Belakang

1.3. Data yang digunakan

2.1 Pengertian Data Mining dan Exploratory Data Analys (EDA)

a. Pengertian Data Mining

kesehatan, asuransi, pemasaran dan perbankan.

harus memahami datanya terlebih dahulu.

Proses Data Science :

b. Pengertian Exploratory Data Analysis

statistik deskriptif, univariat analysis, dan multivariat analysis.

1. Pentingnya Exploratory Data Analysis

membuat asumsi apapun sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data.

2. Teknik Exploratory Data Analysis

beberapa teknik yang tersedia, yaitu:

a. Statistik deskriptif, yaitu mendeskripsikan atau merangkum data sehingga menghasilkan

berbagai bentuk seperti tabel, diagram, grafik, dll.

menggunakan beberapa analisis inferensial yang mungkin digunakan.

c. Multivariate analysis, yaitu menggabungkan beberapa kolom dengan tujuan menemukan

variabel dalam jumlah lebih atau sama dengan tiga variabel

digunakan belum baik, penyebabnya antara lain :

a. Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.

c. Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.

data preprocessing, diantaranya:

data yang tidak konsisten.

penyimpanan data yang sesuai.

Normalisasi dan pengumpulan data sehingga menjadi sama.

hasil analitis yang sama.

Menggunakan Google Colaboratory di https://colab.research.google.com, maka pada tab menu

awal akan terlihat seperti berikut,

1. Memanggil Notebook Google Colab

Colaboratory. Selanjutnya, Google Colab siap untuk digunakan

menjalankan perintah-perintah dalam bahasa Python.

2. Memanggil file yang tersimpan pada GDrive di Google Colab

menggunakan menu Mount Drive pada bagian kanan Notebook

Google colab dengan Google Drive.

nilai minimum dan maksimum, serta nilai2 persentilnya.

berdasarkan kelas sbb:

bentuk Barplot, correlation colum dan pairplot Seaborn.

Interaksi Antar Variabel

akan melihat Variabel laki-laki dan perempuan.

dan “Makan sebelum ujian” pada siswa laki-laki dan perempuan

nilai matematika dan bahasa inggris.

tertinggi antara 45 – 80 yang terdiri dari 4 klaster.

indonesia dan bahasa inggris.

Terakhir kita akan menampilkan pengaruh “Tingkat pendidikan orang tua”

nilai antara 70 – 80.

berpengaruh terhadap prestasi belajar siswa,

untuk mempersiapkan segala macam kebutuhan menghadapi ujian sekolah.

mendapat prestasi yang baik di sekolah.

Anda mungkin juga menyukai