Oleh :
AMIR MAHMUD
2022
BAB 1 PEDAHULUAN
Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi
untuk melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus
untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.
Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan
untuk mengambil keputusan. Data mining adalah suatu konsep yang digunakan untuk
menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses
semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna
yang tersimpan di dalam database besar. Data mining adalah bagian dari proses KDD
( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data,
pra pengolahan, transformasi, data mining, dan evaluasi hasil. KDD secara umum juga dikenal
sebagai pangkalan data. Exploratory Data Analysis (EDA) adalah bagian dari proses data science.
EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena
dalam tahap ini kita harus memahami datanya terlebih dahulu. Exploratory Data Analysis
memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi,
korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman
konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar.
1.2. Tujuan
Tujuan dari laporan ini adalah Untuk meningkatkan pemahaman terhadap ilmu Data Mining
menggunakan Exploratory Data Analysis (EDA) di Python dengan mengolah data siswa
mengetahui faktor mana yang dapat mempengaruhi prestasi siswa, dengan mengklasifikasikan
skor menjadi beberapa peringkat dan mencari tahu fitur mana yang mempengaruhi skor secara
lebih signifikan.
Data yang digunakan adalah data dari tiga kelas yang berbeda, yaitu di kelas X RPL, X TKJ, dan
X AKL yang diambil dari hasil ujian akhir semester Genap tahun 2022 dan data dari Dapodik
tahun 2022.
BAB II LANDASAN TEORI
Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi untuk
melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus
untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.
Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan
untuk mengambil keputusan. Data mining adalah merupakanproses atau “aplikasi algoritma
khusus untuk mengekstraksi pola dari data” yang berpotensi bernilai dan disimpan dalam
kumpulan data. Data mining merupakan salah satu proses eksplorasi dan analisis data yang
memiliki banyak metode dengan kegunaan masing-masing. Data mining merupakan gabungan
dari berbagai bidang ilmu, antara lain basis data, information retrieval, statistika, machine
learning dan sebagainya. Data mining dapat diterapkan di berbagai bidang, seperti bisnis,
Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita
1. Data Preparation
2. Data Cleansing
3. Exploratory Data Analysis (EDA)
4. Feature Engineering
5. Modeling
6. Evaluation
7. Deployment
Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk
mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan
melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat
mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor
penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik.
Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering
menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis.
Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan
Ketika seseorang melakukan proses analisis data, salah satu proses yang sebaiknya tidak
terlewatkan adalah exploratory data analysis (EDA). EDA merupakan salah satu proses penting
dalam analisis data dikarenakan dengan melakukan EDA pengguna akan dapat lebih menghemat
waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti
adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll. Salah
satu hal yang dikhawatirkan jika tidak melalui proses EDA adalah terjadinya error yang
berulang-ulang dalam proses analisis, atau hasil analisis menjadi kurang valid dan kurang
relevan dengan tujuan bisnis dikarenakan data yang digunakan masih benar-benar belum siap.
Selain itu dengan melakukan EDA, pengguna akan terbantu dalam melihat data sebelum
Pada proses pengolahan data, dalam melakukan exploratory data analysis dapat menggunakan
informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif
dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus,
standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam
b. Univariate analysis, yaitu menganalisis kolom secara terpisah dan melihat distribusi
datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik.
Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan
hubungan antara satu kolom dengan kolom lainnya. Analisis multivariat ini melibatkan
Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Data yang akan
diproses perlu dibersihkan sebelum diproses. Hal ini terjadi karena biasanya data yang akan
b. Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse
memerlukan integrasi kualitas data yang konsisten. Teknik atau metode yang digunakan dalam
a. Data cleaning
Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa
b. Data integrasi
Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam
c. Data transformasi
d. Data reduksi
Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan
Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data
numerik.
Dari data yang kita dapat dari beberapa siswa setelah kita masukan kedalam aplikasi
Google Colab dapat diakses secara gratis oleh semua pengguna yang memiliki akun Google.
Setiap Google Colab terdiri atas dokumen yang disebut dengan notebook, yang sebenarnya
merupakan sebuah dokumen Interactive Python Notebook (ipynb). Oleh Google Colab, notebook
tersebut dapat dijalankan layaknya sebuah dokumen yang dipanggil menggunakan interpreter
bahasa Python.
Untuk memanggil Google Colab, dapat dilakukan dengan cara membuka Google
Drive pada folder tertentu, kemudian klik kanan pada folder tersebut, dan pilih New > Google
melalui Connect more Apps. Selanjutnya, Google akan membuat sebuah file dengan ekstensi
ipynb pada folder tersebut. File ini adalah sebuah Notebook iPython yang dapat digunakan untuk
Untuk memanggil file di Google Drive pada GColab, terlebih dahulu harus dilakukan 'Mounting'
untuk menghubungkan antara Google Drive dan Google Colab. Hal ini dapat dilakukan
Cara lain yaitu dengan cara mengupload dataset format CSV kedalam drive atau folder di Google
Drive dengan nama yang sudah ditentukan. Saya contohkan filenya dengan nama
“DATASET14”.
Kemudian buka halaman Google Colab lalu masukkan kode berikut untuk menghubungkan
Setelah itu baru kita masukkan data yang adadi google drive dengan cara menggunakan library
Python Pandas
Setelah itu data kita proses Data untuk melakukan Exploratory Data Analysis (EDA)
Eksplorasi Dataset
Setelah data muncul kita cek apakah data sudah sesuai, antara colom dan baris. Kita lihat didata
ada data “Null”, maka harus kita hilangkan dulu dengan cara seperti digambar
Selanjutnya kita tampilkan tipe data
Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan
summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean,
Distribusi Data
Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya
Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya.
Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam
Dari histogram di atas tampak bahwa ada perbedaan nilai di tiga kelas
Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini
bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya
korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal. Disini kita
les persiapan ujian siswa dan makan sebelum ujian di mata pelajaran matematika, bahasa
Berdasarkan hasil diagram diatas dapat dilihat bahwa tingkat pendidikan orang tua dapat
mempengaruhi prestasi siswa. Jumlah orang tua tidak sekolah sangat signifikan dan siswa
mendapatkan nilai antara 45 – 55. Berbeda dengan orang tua pendidikan smp yang mendapatkan
KESIMPULAN
Berdasarkan dari penelitian yang telah dilaksanakan dan sudah diuraikan dalam penerapan
Exploratory Data Analysis (EDA) dari data yang sudah dihasilkan dapat disimpulkan bahwa :
1. Menyelesaikan persiapan Les belajar sebelum ujian sangat bermanfaat. motivasi belajar
berpengaruh secara signifikan terhadap prestasi belajar siswa. Dan cara belajar siswa
2. Makan yang layak sebelum ujian merupakan hal penting bagi siswa. Kesimpulannya, jika
siswa ingin memiliki prestasi yang baik, mereka harus memiliki nutrisi yang cukup dan berusaha
3. Tingkat pendidikan orang tua dapat mempengaruhi kinerja siswa. Berdasarkan hasil peneliti
dapat menyimpulkan bahwa terdapat pengaruh yang signifikan antara tingkat pendidikan orang
tua terhadap prestasi belajar siswa. Jadi Sebagai Orang tua memberikan bimbingan dan
membantu anaknya belajar dirumah untuk mengerjakan tugas dari sekolah agar anaknya