Anda di halaman 1dari 24

Analisis Data

Mengapa data di proses awal?

Pembersihan data

Reduksi data
Integrasi dan transformasi data
Mengapa Data Diproses Awal?

• Data dalam dunia nyata kotor, missal banyak simbol-symbol yang tidak dibutuhkan, banyak noise
atau outlier dll
• Data Tak-konsisten: memuat perbedaan dalam kode atau nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
• Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining yang lebih baik
• Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah
kesalahan didalam data mining.

9/74
VISUALISASI DATA

Visualisasi data adalah salah satu teknik dalam eksplorasi data.

Manfaat visualisasi data:


§ Dapat mendeteksi general pola dan trends
§ Dapat mendeteksi outlier atau unusual trends
Exploratory Data Analysis
• EDA merupakan langkah yang penting dalah menganalisis awal data
yang akan di proses.
• Dengan EDA kita bisa tahu bagaimana data kita, seperti
• Distribusinya, normal atau tidak
• Kualiats data
• Outlier
• Korelasi data
• dll
Statistik
• Dengan menggunakan statistic kita bis memperoleh ringaksan
property dari data, seperti

FREKUENSI MODUS MEAN


Presentase nilai Nilai atribut yang
atribut tersebut paling sering muncul
muncul pada dataset

RANGE
MEDIAN VARIANCE
Jarak antara nilai
maks dan min
Normalisasi Data
Normalisasi data adalah elemen dasar data mining untuk memastikan record pada dataset tetap
konsisten.

Anda mungkin juga menyukai