Anda di halaman 1dari 21

PENERAPAN DATA MINING DENGAN ALGORITMA

EXPLORATORY DATA ANALYSIS (EDA)

UNTUK KLASIFIKASI FAKTOR PENGARUH PRESTASI SISWA

Oleh :

AMIR MAHMUD

PROGRAM DIKLAT PEMROGRAMAN PYTHON UNTUK DATA SCIENCE

PROGRAM KEAHLIAN TEKNOLOGI INFORMASI

2022
BAB 1 PEDAHULUAN

1.1. Latar Belakang

Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi

untuk melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus

untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.

Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan

untuk mengambil keputusan. Data mining adalah suatu konsep yang digunakan untuk

menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses

semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine

learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna

yang tersimpan di dalam database besar. Data mining adalah bagian dari proses KDD

( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data,

pra pengolahan, transformasi, data mining, dan evaluasi hasil. KDD secara umum juga dikenal

sebagai pangkalan data. Exploratory Data Analysis (EDA) adalah bagian dari proses data science.

EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena

dalam tahap ini kita harus memahami datanya terlebih dahulu. Exploratory Data Analysis

memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi,

korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman

konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar.
1.2. Tujuan

Tujuan dari laporan ini adalah Untuk meningkatkan pemahaman terhadap ilmu Data Mining

menggunakan Exploratory Data Analysis (EDA) di Python dengan mengolah data siswa

mengetahui faktor mana yang dapat mempengaruhi prestasi siswa, dengan mengklasifikasikan

skor menjadi beberapa peringkat dan mencari tahu fitur mana yang mempengaruhi skor secara

lebih signifikan.

1.3. Data yang digunakan

Data yang digunakan adalah data dari tiga kelas yang berbeda, yaitu di kelas X RPL, X TKJ, dan

X AKL yang diambil dari hasil ujian akhir semester Genap tahun 2022 dan data dari Dapodik

tahun 2022.
BAB II LANDASAN TEORI

2.1 Pengertian Data Mining dan Exploratory Data Analys (EDA)

a. Pengertian Data Mining

Data Mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi untuk

melihat pola darikumpulan data yang sangat besar dan data dicovery.Data mining fokus

untukmengekstrak pola dari data dengan menggunakanmetode statistika agar dapat dianalisa.

Hasil dari analisa ini akan digunakan untuk mencari prediksi yang tepat agardapat digunakan

untuk mengambil keputusan. Data mining adalah merupakanproses atau “aplikasi algoritma

khusus untuk mengekstraksi pola dari data” yang berpotensi bernilai dan disimpan dalam

kumpulan data. Data mining merupakan salah satu proses eksplorasi dan analisis data yang

memiliki banyak metode dengan kegunaan masing-masing. Data mining merupakan gabungan

dari berbagai bidang ilmu, antara lain basis data, information retrieval, statistika, machine

learning dan sebagainya. Data mining dapat diterapkan di berbagai bidang, seperti bisnis,

kesehatan, asuransi, pemasaran dan perbankan.

Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi

sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita

harus memahami datanya terlebih dahulu.

Proses Data Science :

1. Data Preparation

2. Data Cleansing
3. Exploratory Data Analysis (EDA)

4. Feature Engineering

5. Modeling

6. Evaluation

7. Deployment

b. Pengertian Exploratory Data Analysis

Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk

mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan

melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat

mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor

penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik.

Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering

menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis.

Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan

statistik deskriptif, univariat analysis, dan multivariat analysis.

1. Pentingnya Exploratory Data Analysis

Ketika seseorang melakukan proses analisis data, salah satu proses yang sebaiknya tidak

terlewatkan adalah exploratory data analysis (EDA). EDA merupakan salah satu proses penting

dalam analisis data dikarenakan dengan melakukan EDA pengguna akan dapat lebih menghemat

waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti

adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll. Salah

satu hal yang dikhawatirkan jika tidak melalui proses EDA adalah terjadinya error yang

berulang-ulang dalam proses analisis, atau hasil analisis menjadi kurang valid dan kurang
relevan dengan tujuan bisnis dikarenakan data yang digunakan masih benar-benar belum siap.

Selain itu dengan melakukan EDA, pengguna akan terbantu dalam melihat data sebelum

membuat asumsi apapun sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data.

2. Teknik Exploratory Data Analysis

Pada proses pengolahan data, dalam melakukan exploratory data analysis dapat menggunakan

beberapa teknik yang tersedia, yaitu:

a. Statistik deskriptif, yaitu mendeskripsikan atau merangkum data sehingga menghasilkan

informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif

dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus,

standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam

berbagai bentuk seperti tabel, diagram, grafik, dll.

b. Univariate analysis, yaitu menganalisis kolom secara terpisah dan melihat distribusi

datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik.

Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan

menggunakan beberapa analisis inferensial yang mungkin digunakan.

c. Multivariate analysis, yaitu menggabungkan beberapa kolom dengan tujuan menemukan

hubungan antara satu kolom dengan kolom lainnya. Analisis multivariat ini melibatkan

variabel dalam jumlah lebih atau sama dengan tiga variabel


BAB III PEMBAHASAN

Tahapan dalam melakukan data mining salah satunya adalah preprosesing data. Data yang akan

diproses perlu dibersihkan sebelum diproses. Hal ini terjadi karena biasanya data yang akan

digunakan belum baik, penyebabnya antara lain :

a. Incomplete : kekurangan nilai-nilai atribut atau atribut tertentu lainnya.

b. Noisy : berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang diharapkan.

c. Inconsisten : ketidakcocokan dalam penggunaan kode atau nama.

Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse

memerlukan integrasi kualitas data yang konsisten. Teknik atau metode yang digunakan dalam

data preprocessing, diantaranya:

a. Data cleaning

Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa

data yang tidak konsisten.

b. Data integrasi

Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam

penyimpanan data yang sesuai.

c. Data transformasi

Normalisasi dan pengumpulan data sehingga menjadi sama.

d. Data reduksi

Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan

hasil analitis yang sama.


e. Data diskretisasi

Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data

numerik.

Dari data yang kita dapat dari beberapa siswa setelah kita masukan kedalam aplikasi

Menggunakan Google Colaboratory di https://colab.research.google.com, maka pada tab menu

awal akan terlihat seperti berikut,

1. Memanggil Notebook Google Colab

Google Colab dapat diakses secara gratis oleh semua pengguna yang memiliki akun Google.

Setiap Google Colab terdiri atas dokumen yang disebut dengan notebook, yang sebenarnya

merupakan sebuah dokumen Interactive Python Notebook (ipynb). Oleh Google Colab, notebook

tersebut dapat dijalankan layaknya sebuah dokumen yang dipanggil menggunakan interpreter

bahasa Python.

Untuk memanggil Google Colab, dapat dilakukan dengan cara membuka Google

Drive pada folder tertentu, kemudian klik kanan pada folder tersebut, dan pilih New > Google

Colaboratory. Selanjutnya, Google Colab siap untuk digunakan


Apabila pilihan Google Colaboratory tidak dijumpai, maka terlebih dahulu lakukan instalasi

melalui Connect more Apps. Selanjutnya, Google akan membuat sebuah file dengan ekstensi

ipynb pada folder tersebut. File ini adalah sebuah Notebook iPython yang dapat digunakan untuk

menjalankan perintah-perintah dalam bahasa Python.

2. Memanggil file yang tersimpan pada GDrive di Google Colab

Untuk memanggil file di Google Drive pada GColab, terlebih dahulu harus dilakukan 'Mounting'

untuk menghubungkan antara Google Drive dan Google Colab. Hal ini dapat dilakukan

menggunakan menu Mount Drive pada bagian kanan Notebook

Cara lain yaitu dengan cara mengupload dataset format CSV kedalam drive atau folder di Google

Drive dengan nama yang sudah ditentukan. Saya contohkan filenya dengan nama

“DATASET14”.
Kemudian buka halaman Google Colab lalu masukkan kode berikut untuk menghubungkan

Google colab dengan Google Drive.

Setelah itu baru kita masukkan data yang adadi google drive dengan cara menggunakan library

Python Pandas
Setelah itu data kita proses Data untuk melakukan Exploratory Data Analysis (EDA)

Eksplorasi Dataset

Setelah data muncul kita cek apakah data sudah sesuai, antara colom dan baris. Kita lihat didata

ada data “Null”, maka harus kita hilangkan dulu dengan cara seperti digambar
Selanjutnya kita tampilkan tipe data

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan

summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean,

nilai minimum dan maksimum, serta nilai2 persentilnya.

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya

berdasarkan kelas sbb:


Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya.

Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam

bentuk Barplot, correlation colum dan pairplot Seaborn.

Dari histogram di atas tampak bahwa ada perbedaan nilai di tiga kelas

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini

bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya

korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal. Disini kita

akan melihat Variabel laki-laki dan perempuan.


Selanjutnya menampilkan plotdiagram nilai Matematika antara Laki-laki dan perempuan.
Selanjutnya menampilkan Nilai Berdasarkan beberapa Faktor yaitu faktor “Les persiapan ujian”

dan “Makan sebelum ujian” pada siswa laki-laki dan perempuan


Selanjutnya menampilkan Scatterplot untuk melihat sebaran data Laki-laki dan perempuan pada

nilai matematika dan bahasa inggris.


Selanjutnya menampilkan Scatterplot untuk melihat sebaran data nilai dari yang terendah sampai

tertinggi antara 45 – 80 yang terdiri dari 4 klaster.


Dari data diatas kita dapat membandingkan kinerja siswa Laki-laki dan perempuan berdasarkan

les persiapan ujian siswa dan makan sebelum ujian di mata pelajaran matematika, bahasa

indonesia dan bahasa inggris.

Terakhir kita akan menampilkan pengaruh “Tingkat pendidikan orang tua”

Berdasarkan hasil diagram diatas dapat dilihat bahwa tingkat pendidikan orang tua dapat

mempengaruhi prestasi siswa. Jumlah orang tua tidak sekolah sangat signifikan dan siswa

mendapatkan nilai antara 45 – 55. Berbeda dengan orang tua pendidikan smp yang mendapatkan

nilai antara 70 – 80.


BAB IV

KESIMPULAN

Berdasarkan dari penelitian yang telah dilaksanakan dan sudah diuraikan dalam penerapan

Exploratory Data Analysis (EDA) dari data yang sudah dihasilkan dapat disimpulkan bahwa :

1. Menyelesaikan persiapan Les belajar sebelum ujian sangat bermanfaat. motivasi belajar

berpengaruh secara signifikan terhadap prestasi belajar siswa. Dan cara belajar siswa

berpengaruh terhadap prestasi belajar siswa,

2. Makan yang layak sebelum ujian merupakan hal penting bagi siswa. Kesimpulannya, jika

siswa ingin memiliki prestasi yang baik, mereka harus memiliki nutrisi yang cukup dan berusaha

untuk mempersiapkan segala macam kebutuhan menghadapi ujian sekolah.

3. Tingkat pendidikan orang tua dapat mempengaruhi kinerja siswa. Berdasarkan hasil peneliti

dapat menyimpulkan bahwa terdapat pengaruh yang signifikan antara tingkat pendidikan orang

tua terhadap prestasi belajar siswa. Jadi Sebagai Orang tua memberikan bimbingan dan

membantu anaknya belajar dirumah untuk mengerjakan tugas dari sekolah agar anaknya

mendapat prestasi yang baik di sekolah.

Anda mungkin juga menyukai