LN2-Data and Pre-Processing Data-R1
LN2-Data and Pre-Processing Data-R1
Session 02
Bab II
Overview
Pada pertemuan ini akan disampaikan pengertian data, penyiapan data dan
bagaimana cara melakukan perlakuan pertama pada sekumpulan data. Data
dan pre-processing data adalah tahap yang paling menentukan dalam data
science. Sehingga, pada pembahasan ini akan disampaikan beberapa aspek
meliputi objek dan atribut data, statistika dasar yang diperlukan dalam data
dan Teknik dasar dalam pre-processing data.
dengan median yang terletak pada nilai tengah dari distribusi data. Quartil
ke tiga terletak pada persentil ke 75 atau memotong 25% data paling tinggi.
Selain quartil dan persentil, juga dikenal dengan istilan interquartil
range. Ini dihitung berdasarkan jarak antara quartil ketiga (Q3) dengan
quartil pertama (Q1), yang dirumuskan sebagai berikut:
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Tabel 1 Nilai harga & jumlah item yang terjual pada Branch 1 perusahaan A
Unit price ($) Count of item sold
40 275
43 300
47 250
- -
74 360
75 515
78 540
- -
115 320
117 270
120 350
Histogram atau secara umum juga dikenal dengan Bar Chart untuk
menampilkan data dalam dua sumbu x dan y secara grafis. Pada sumbu x,
ditampilkan nilai atau data sedangkan pada sumbu y ditampilkan
frequensinya. Histogram untuk data pada Tabel 1 ada pada Gambar 5.
Gambar 5. Histogram
Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.