Disusun Oleh :
DEPARTEMEN STATISTIKA
UNIVERSITAS DIPONEGORO
2023
TINJAUAN PUSTAKA
1.1. Data Mining
Data mining merupakan proses penambangan data. Dalam penambangan data
sumber yang digunakan dapat bermacam-macam mulai dari data yang diambil dari
sebuah website hingga aplikasi. Menurut Turban dkk (2005), data mining adalah proses
yang menggunakan teknik statistic, matematika, kecerdasan buatan, machine learning,
untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan
yang terkait dari berbagai database besar.
Data mining ini juga dapat disebut sebagai knowledge discovery atau proses
pengambilan pola pada data yang kemudian diproses sehingga output yang dihasilkan
dapat berupa informasi yang sangat penting. Berikut adalah gambaran dari tahapan data
mining:
Data yang digunakan adalah data penjualan dari video games yang didapat dari
Kaggle.com. Data tersebut memiliki sampel sebanyak 16719 dengan 16 variabel yang telah
dikumpulkan, yaitu:
1. Import Library
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.impute import KNNImputer
from sklearn.metrics import accuracy_score, roc_auc_score,
classification_report,confusion_matrix, precision_score, f1_score, recall_score
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from xgboost import XGBClassifier
2. Import Data
3. Menghitung Jumlah Baris dan Kolom
Berdasarkan output di atas, dapat diketahui bahwa terdapat sebanyak 16.719 baris dan
16 kolom yang menyatakan jumlah variabel.
4. Mengecek Duplikasi Data
Berdasarkan output di atas, dapat diketahui bahwa tidak terdapat duplikasi pada data.
5. Mengetahui Tipe Data
Berdasarkan output di atas, dapat diketahui bahwa data terdiri dari dua tipe data. Selain
itu, dari output tersebut juga dapat diketahui bahwa terdapat beberapa missing value
pada beberapa variabel yang memiliki jumlah data kurang dari 16719.
6. Data Agregasi
Berdasarkan output di atas, dapat diketahui banyaknya data, nilai mean, standar deviasi,
nilai minimum, Q1, Q2, Q3, dan nilai maksimum dari data di tiap variabelnya.
7. Mendeteksi Missing Value
Berdasarkan output di atas, dapat diketahui bahwa jumlah missing value pada variabel
“Name” sebanyak 2 baris (0,00012), “Years_of_Release” sebanyak 269 baris (0,016),
“Genre” sebanyak 2 baris (0,00012), “Publisher” sebanyak 54 baaris (0,00323),
“Critic_Score” sebanyak 8582 baris (0,5133), “Critic_Count” sebanyak 8582 baris
(0,5133), “User_Score” sebanyak 6704 baris (0,4009), “User_Count” sebanyak 9129
baris (0,546), “Developer” sebanyak 6623 baris (0,3961), dan “Rating” sebanyak 6769
baris (0,4049).
Untuk melihat posisi missing value, dapat digunakan fitur “Conditional Formating”
pada Microsoft Excel dengan memasukkan new formatting rule, seperti gambar di
bawah ini.
Output dari perintah tersebut adalah memberikan warna pada cells yang memenuhi
kondisi tersebut.
Berdasarkan hasil conditional formatting di atas, dapat diketahui pada baris ke berapa
missing value berada.
8. Mendeteksi Outlier
Pengecekan outlier pada penelitian ini menggunakan perhitungan nilai mean, nilai
standar deviasi, nilai standarisasi, dan niali absolute melalui Microsoft Excel. Berikut
hasil dari pendeteksian outlier pada data:
Berdasarkan hasil perhitungan di atas, dapat diketahui bahwa masih terdapat outlier
pada variabel dengan tipe data numerik. Akan tetapi, sebelum melakukan penanganan
terhadap outlier, perlu dipastikan terlebih dahulu terkait alasan dari timbulnya outlier
tersebut, apakah outlier tersebut muncul karena kesalahan input data atau memang
merupakan bagian asli dari dataset karena memiliki nilai yang masih berada dalam
batas wajar. Setelah dilakukan pengecekan, dapat disimpulkan bahwa data-data
tersebut bukanlah data outlier karena nilai dari data merupakan bagian dari dataset.
9. Mendeteksi Inconsistency Data
Inconsistency data adalah perbedaan tipe data dalam satu variabel. Jika hal ini tidak
diatasi, maka akan memengaruhi hasil dari analisis. Pada penelitian ini, pendeteksian
inconsistency data dilakukan dengan menggunakan Microsoft Excel dengan menyortir
tiap variabel secara ascending dan descending.
Berdasarkan hasil penyortiran pada variabel “Years_of_Release”, dapat diketahui
bahwa pada variabel tersebut berisi data selain data tahun, sehingga dapat disimpulkan
bahwa terdapat inconsistency pada data.
10. Data Training dan Testing
Dalam proses ini, data dibagi menjadi dua bagian, yaitu data training dan data testing.
Kedua bagian tersebut memiliki perbandingan 7:3, dimana data training sebanyak 70%
dan data testing sebanyak 30%.
11. Mendeteksi Missing Value Data Training
Berdasarkan output di atas, dapat diketahui bahwa missing value pada variabel “Name”
sebanyak 0,008545%, “Year_of_Release” sebanyak 1,623515%, “Genre” sebanyak
0,008545%, “Publisher” sebanyak 0,307613%, “Critic_Score” dan “Critic_Count”
sebanyak 51,277450%, “User_Score” sebanyak 40,015381%, “User_Count” sebanyak
54,507391%, dan “Developer” sebanyak 39,528326%.
Setelah dilakukan pengecekan pada data, dapat diketahui bahwa data yang digunakan
memiliki beberapa missing value, outlier, dan inconsistency data. Setelah mengetahui letak dari
kesalahan-kesalahan tersebut, dilakukan pengurangan data yang tidak dapat diperbaiki agar
data tersebut dapat diolah. Sehingga, hasil dari prepocessing pada data penjualan video games
adalah sebagai berikut: