Anda di halaman 1dari 13

MAKALAH DATA MINING

PREPROCESSING DATA PENJUALAN VIDEO GAMES

Disusun Oleh :

Nurfian Dwi Noviani (24050120130090)

Febby Salma Nadia (24050120140146)

Adinda Nur Halisyah (24050120140166)

DEPARTEMEN STATISTIKA

FAKULTAS SAINS DAN MATEMATIKA

UNIVERSITAS DIPONEGORO

2023
TINJAUAN PUSTAKA
1.1. Data Mining
Data mining merupakan proses penambangan data. Dalam penambangan data
sumber yang digunakan dapat bermacam-macam mulai dari data yang diambil dari
sebuah website hingga aplikasi. Menurut Turban dkk (2005), data mining adalah proses
yang menggunakan teknik statistic, matematika, kecerdasan buatan, machine learning,
untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan
yang terkait dari berbagai database besar.
Data mining ini juga dapat disebut sebagai knowledge discovery atau proses
pengambilan pola pada data yang kemudian diproses sehingga output yang dihasilkan
dapat berupa informasi yang sangat penting. Berikut adalah gambaran dari tahapan data
mining:

1.2. Prepocessing Data


Preprocessing adalah sebuah langkah penting dalam proses penambangan data.
Data yang akan digunakan dalam proses penambangan data tidak selalu dalam kondisi
terbaik untuk diproses. Ada kalanya dalam data tersebut terdapat beberapa masalah yang
nantinya dapat mempengaruhi hasil yang diberikan dari proses penambangan itu sendiri
seperti terdapat nilai yang hilang, data yang berlebihan, outliner, atau format data yang
tidak sesuai dengan sistem. Oleh karena itu, untuk mengatasi masalah tersebut perlu
dilakukan tahap preprocessing. Preprocessing adalah salah satu langkah dalam
menghilangkan masalah yang dapat mengganggu hasil dari pada proses klasifikasi data.
Dalam preprocessing data, terdapat beberapa masalah yang biasanya ditemukan, salah
satunya adalah nilai yang hilang atau kosong (missing value) dan nilai ekstrim (outlier).
Dalam berbagai literatur, missing value sering terjadi karena adanya nilai-nilai
yang hilang di atribut, kesalahan sering terjadi dalam prosedur entri data secara manual,
kesalahan peralatan atau pengukuran yang salah. Data yang hilang lebih dikenal dengan
sebutan missing value dalam data mining dapat menyebabkan terjadinya hasil atau
keputusan yang bias disebabkan oleh missing value pada data yang lengkap. Berikut
adalah beberapa alasan mengapa proses preprocessing data dibutuhkan:
1. Mendeteksi adanya pengulangan data (redundant)
2. Mendeteksi adanya data yang hilang atau kosong (missing value)
3. Mendeteksi adanya data ekstrim atau outlier
4. Untuk mengetahui metode atau analisis yang tepat untuk dataset yang akan
digunakan
5. Mendeteksi nilai data / value yang tidak konsisten
Dalam preprocessing data, terdapat beberapa masalah yang biasanya ditemukan,
salah satunya adalah nilai yang hilang atau koson (missing value) dan nilai ekstrim
(outlier). Berikut adalah cara penanganan terhadap dua masalah yang seringg terjadi
tersebut:
1. Mengatasi Missing Value
Cara mengatasi missing value dapat dilakukan dengan beberapa cara antara lain:
a. Mengganti missing value dengan angka konstan, hal ini terhantung dengan
analisis yang dilakukan. Angka kontan ini dapat berupa bilangan random yang
memperhatikan data-data lain.
b. Mengganti missing value dengan rata-rata apabila variabel merupakan variabel
numerik dan dengan modus apabila variabel merupakan variabel kategori.
c. Mengganti missing value dengan angka random yang dibangkitkan dengan
sebuah distribusi dari variabel tersebut.
Dalam mengganti sebuah missing value dengan suatu angka kita perlu
mempertimbangkan juga data yang dihasilkan. Apabila nilai dari variabel yang
terdapat missing value tersebut dirasa memiliki kolerasi dengan variabel lain,
mengganti nilai dengan rata-rata bukanlah ide yang bagus. Kita dapat menggunakan
regresi contohnya Ketika suatu variabel missing mempunyai kolerasi dengan variabel
lainnya.
2. Mendeteksi Outlier
Dalam kasus outlier bisa jadi nilai tersebut merupakan indikasi keerroran dalam suatu
data, jadi kita dapat melakukan pengecekan keberadaan outlier ini. Penentuan model
yang sesuai dengan adanya outlier ini sangat diperlukan karena outlier memiliki
sensitivitas yang biasanya berpengaruh pada model.
a. Graphical Method
Pengecekan keberadaannya dapat dilakukan dengan membuat grafik fari data
tersebut, biasanya nilai outlier akan berada jauh dari data lainnya. Grafik yang
digunakan untuk pengecekan outlier biasanya adalah scatter plot atau dapat pula
digunakan histogram.
b. Numerical Method
Salah satu cara untuk mendeteksi outlier dengan numerical method adalah dengan
metode Interquartile Range (IQR). Nilai IQR ini lebih robust atau kokoh daripada
standar deviasi. IQR dapat dihitung dengan rumus berikut:
1𝑄𝑅 = 𝑄3 − 𝑄1
Penanganan dari adanya outlier ini dapat dilakukan dengan menggunakan
transformasi. Transformasi yang umum digunakan antara lain dengan Z-Score
Standardization.
ANALISIS PEMBAHASAN
2.1. Data Awal

Data yang digunakan adalah data penjualan dari video games yang didapat dari
Kaggle.com. Data tersebut memiliki sampel sebanyak 16719 dengan 16 variabel yang telah
dikumpulkan, yaitu:

• Nama video games


• Platform jual beli
• Tahun rilis
• Genre
• Publisher
• Penjualan di negara Namibia, Jepang, Uni Eropa, negara lain, dan penjualan secara
global
• Critic Score
• Critic Count
• User Score
• User Count
• Developer
• Rating

2.2. Prepocessing Data

Prepocessing data dilakukan sebelum mengolah data tersebut menggunakan metode


statistika. Hal ini dilakukan dengan tujuan untuk mengetahui apakah terdapat nilai yang hilang
(missing value), nilai ekstrim (outlier), dan lain sebagainya. Pada penelitian ini, prepocessing
data dilakukan dengan bantuan software Python dan Microsoft Excel.

1. Import Library

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.impute import KNNImputer
from sklearn.metrics import accuracy_score, roc_auc_score,
classification_report,confusion_matrix, precision_score, f1_score, recall_score
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from xgboost import XGBClassifier
2. Import Data
3. Menghitung Jumlah Baris dan Kolom

Berdasarkan output di atas, dapat diketahui bahwa terdapat sebanyak 16.719 baris dan
16 kolom yang menyatakan jumlah variabel.
4. Mengecek Duplikasi Data

Berdasarkan output di atas, dapat diketahui bahwa tidak terdapat duplikasi pada data.
5. Mengetahui Tipe Data

Berdasarkan output di atas, dapat diketahui bahwa data terdiri dari dua tipe data. Selain
itu, dari output tersebut juga dapat diketahui bahwa terdapat beberapa missing value
pada beberapa variabel yang memiliki jumlah data kurang dari 16719.
6. Data Agregasi

Berdasarkan output di atas, dapat diketahui banyaknya data, nilai mean, standar deviasi,
nilai minimum, Q1, Q2, Q3, dan nilai maksimum dari data di tiap variabelnya.
7. Mendeteksi Missing Value

Berdasarkan output di atas, dapat diketahui bahwa jumlah missing value pada variabel
“Name” sebanyak 2 baris (0,00012), “Years_of_Release” sebanyak 269 baris (0,016),
“Genre” sebanyak 2 baris (0,00012), “Publisher” sebanyak 54 baaris (0,00323),
“Critic_Score” sebanyak 8582 baris (0,5133), “Critic_Count” sebanyak 8582 baris
(0,5133), “User_Score” sebanyak 6704 baris (0,4009), “User_Count” sebanyak 9129
baris (0,546), “Developer” sebanyak 6623 baris (0,3961), dan “Rating” sebanyak 6769
baris (0,4049).

Untuk melihat posisi missing value, dapat digunakan fitur “Conditional Formating”
pada Microsoft Excel dengan memasukkan new formatting rule, seperti gambar di
bawah ini.

Output dari perintah tersebut adalah memberikan warna pada cells yang memenuhi
kondisi tersebut.
Berdasarkan hasil conditional formatting di atas, dapat diketahui pada baris ke berapa
missing value berada.
8. Mendeteksi Outlier
Pengecekan outlier pada penelitian ini menggunakan perhitungan nilai mean, nilai
standar deviasi, nilai standarisasi, dan niali absolute melalui Microsoft Excel. Berikut
hasil dari pendeteksian outlier pada data:

Berdasarkan hasil perhitungan di atas, dapat diketahui bahwa masih terdapat outlier
pada variabel dengan tipe data numerik. Akan tetapi, sebelum melakukan penanganan
terhadap outlier, perlu dipastikan terlebih dahulu terkait alasan dari timbulnya outlier
tersebut, apakah outlier tersebut muncul karena kesalahan input data atau memang
merupakan bagian asli dari dataset karena memiliki nilai yang masih berada dalam
batas wajar. Setelah dilakukan pengecekan, dapat disimpulkan bahwa data-data
tersebut bukanlah data outlier karena nilai dari data merupakan bagian dari dataset.
9. Mendeteksi Inconsistency Data
Inconsistency data adalah perbedaan tipe data dalam satu variabel. Jika hal ini tidak
diatasi, maka akan memengaruhi hasil dari analisis. Pada penelitian ini, pendeteksian
inconsistency data dilakukan dengan menggunakan Microsoft Excel dengan menyortir
tiap variabel secara ascending dan descending.
Berdasarkan hasil penyortiran pada variabel “Years_of_Release”, dapat diketahui
bahwa pada variabel tersebut berisi data selain data tahun, sehingga dapat disimpulkan
bahwa terdapat inconsistency pada data.
10. Data Training dan Testing
Dalam proses ini, data dibagi menjadi dua bagian, yaitu data training dan data testing.
Kedua bagian tersebut memiliki perbandingan 7:3, dimana data training sebanyak 70%
dan data testing sebanyak 30%.
11. Mendeteksi Missing Value Data Training

Berdasarkan output di atas, dapat diketahui bahwa missing value pada variabel “Name”
sebanyak 0,008545%, “Year_of_Release” sebanyak 1,623515%, “Genre” sebanyak
0,008545%, “Publisher” sebanyak 0,307613%, “Critic_Score” dan “Critic_Count”
sebanyak 51,277450%, “User_Score” sebanyak 40,015381%, “User_Count” sebanyak
54,507391%, dan “Developer” sebanyak 39,528326%.

2.3. Data Hasil Prepocessing

Setelah dilakukan pengecekan pada data, dapat diketahui bahwa data yang digunakan
memiliki beberapa missing value, outlier, dan inconsistency data. Setelah mengetahui letak dari
kesalahan-kesalahan tersebut, dilakukan pengurangan data yang tidak dapat diperbaiki agar
data tersebut dapat diolah. Sehingga, hasil dari prepocessing pada data penjualan video games
adalah sebagai berikut:

Anda mungkin juga menyukai