Part #1
Ida Lumintu, S.T., M.T., Ph.D.
Rencana Kuliah
Dasar-Dasar Statistika:
• Pengertian Statistik
• Jenis-jenis Data
• Estimasi karakteristik Data
Pendahuluan
Statistika adalah ilmu yang mempelajari cara pengumpulan data, menganalisis data untuk mendapatkan kesimpulan
informasi sampai dapat dijadikan dasar pembuatan kebijakan.
Definisi diatas mirip dengan tugas dari seorang Data Science yaitu mulai dari ekplorasi data, modelling untuk
mendapatakan pola yang tersembunyi dari data kemudian menemukan Insight untuk dasar kebijakan (data-driven).
Ilmu Statistik fungsinya untuk mengolah data, yang bisa angka maupun bukan angka. Statistik merupakan pondasi awal
sebelum belajar Data Science.
Alasannya, banyak tools data science merupakan pengembangan dari teknik statistik, mulai dari sederhana sampai yang
rumit.
Agar dapat memahami konsep-konsep tersebut, pada bab ini juga disertakan satu dataset file dengan nama data_intro.csv
yang akan dijadikan file praktik menggunakan R.
Statistik sebagai Ilmu Peluang
Statistik merupakan ilmu peluang, yaitu untuk mendapatkan generalisasi populasi dari sampel yang kita miliki.
Statistik banyak kaitannya dengan sampel dan populasi, berikut pengertiannya.
Statistik lebih banyak digunakan secara langsung daripada parameter, alasannya adalah lebih menghemat biaya,
waktu dan tenaga.
Selain itu, pengambilan sampel yang benar sudah dapat mewakili populasi.
Secara praktis, dalam beberapa hal kita tidak bisa melakukan pengambilan populasi.
Contohnya apabila pengumpulan data populasi (atau yang biasa disebut sebagai sensus) bersifat merusak.
Contoh: pengambilan sampel dari produksi seluruh bola lampu untuk menguji kandungan di dalamnya.
Contoh lain yaitu pengambilan seluruh populasi udang dari suatu tambak.
Data kuantitatif dan kualitatif
Bagaimana kita mendapatkan nilai karakteristik dari data kuantitatif dan kualitatif? Jawabannya yaitu kita harus
menggolongkan ke dalam skala pengukuran data.
Tiap data perlu suatu standar untuk melakukan pengukuran, ini disebut skala.
Jenis data menurut skala pengukuran data terbagi menjadi empat golongan:
• Nominal: adalah skala yang diberikan hanya sebagai label saja, tidak mengandung pengertian tingkatan.
Contoh: Jika pria =1 dan wanita = 2, artinya disini 1 dan 2 adalah nominal yang mewakili pria dan wanita.
Disini nilai 2 tidak lebih besar dari nilai 1.
Contoh: Data kepuasan, 1 = tidak puas, 2 = puas, dan 3 = sangat puas, artinya 1<2<3.
Jenis data menurut skala pengukuran data
• Interval: adalah skala yang mempunyai sifat ordinal dan mengandung jarak (interval).
Misalnya: harga pakaian merk A 100 ribu, harga pakaian merk C 200 ribu, artinya harga pakian merk A dan C
memiliki interval 100 ribu.
• Rasio: adalah skala yang mempunyai sifat nominal, ordinal, dan interval, serta mempunyai nilai rasio antar
objek yang diukur.
Contoh: harga pakaian merk A 100 ribu, harga pakaian merk C 200 ribu. Rasio harga pakaian A dengan pakaian
C adalah ½. Sehingga dapat dikatakan bahwa harga pakaian C harganya 2 kali pakaian A.
Dengan demikian, data kualitatif dapat kita golongkan menjadi skala nominal dan ordinal.
Skala pengukuran nominal dan ordinal pada R di definisikan sebagai factor atau sering disebut data kategorik
sedangkan interval dan rasio didefinisikan sebagai data numerik.
Data set tingkat kepuasan pelanggan
Dataset yang akan di pakai dalam bab ini adalah data tentang kepuasan konsumen terhadap suatu produk pakaian.
Dataset ini ada dalam file bentuk format file CSV yang disimpan pada direktori laptop D:/Kuliah/Data
Analytics/Slide Kuliah/data_intro.csv.
Berikut adalah tampilan data set tersebut jika dibuka dengan spreadsheet Excel.
Data set tingkat kepuasan pelanggan
Data set di atas terdiri dari sembilan kolom dengan detail berikut:
• ID Pelanggan: Kode pelanggan yang sifatnya unik, tidak ada data lain dengan kode yang sama. Kode ini
dalam bentuk yang sangat sederhana berupa angka integer (bilangan bulat).
• Nama: Nama pelanggan dalam bentuk teks
• Jenis Kelamin: Jenis kelamin dari pelanggan, dalam bentuk angka integer. Disini 1 mewakili laki-laki dan 2
mewakili perempuan.
• Pendapatan: Nilai pendapatan per bulan dari tiap pelanggan (??).
• Produk: Produk yang disurvei.
• Harga: Harga produk yang dibeli.
• Jumlah: Jumlah produk yang dibeli.
• Total: Total harga pembelian.
• Tingkat Kepuasan: Indeks tingkat kepuasan pelanggan tersebut terhadap produk yang dibeli.
Membaca data set dengan read.csv
Syntax:
data_intro <- read.csv("D:/Kuliah/Data Analytics/Slide Kuliah/data_intro.csv
,sep=";")
Membaca data set dengan read.csv
Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama data_intro.
Script:
Membaca data set dengan read.csv
Di Rstudio console hasilnya tampak sebagai berikut.
Melihat tipe data dengan function str
Tiap data set yang sudah dibaca dengan R sebaiknya dikenali atau dilakukan profiling terhadap data itu.
Function str akan menyajikan informasi tiap kolom data set dalam format yang compact – satu baris informasi saja
per row.
Pendekatan singkat dan jelas ini membuat str menjadi function favorit dan efektif untuk mengenal data di tahap awal.
Syntax-nya juga cukup sederhana, cukup masukkan dataset ke dalam function ini seperti pada contoh berikut.
Syntax:
str(data_intro)
Melihat tipe data dengan function str
Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama data_intro.
Tampilkan profile / informasi tipe data tiap kolom data set variabel data_intro dengan function str.
Script:
Melihat tipe data dengan function str
Di Rstudio console hasilnya tampak sebagai berikut.
Melihat tipe data dengan function str
Penjelasan hasil dalam bentuk ilustrasi dari 3 kolom, yaitu ID.Pelanggan, Nama, dan Jenis.Kelamin.
Mengubah tipe data kolom ID.Pelanggan menjadi character
Variabel ID.Pelanggan merupakan kode unik dari setiap variabel dan tidak bisa dicari nilai statistiknya.
Sehingga tipe data ID.Pelanggan perlu diubah menjadi character agar tidak ikut di analisis.
Syntax:
data_intro$ID.Pelanggan <-as.character(data_intro$ID.Pelanggan)
Latihan
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama data_intro
## Mengubah data menjadi karakter karena tidak dilakukan analisis statistik pada variabel ID Pelanggan dan
Nama
Script:
Mengubah tipe data kolom ID.Pelanggan dan Nama menjadi character
Di Rstudio console hasilnya tampak sebagai berikut.
Mengubah sejumlah kolom menjadi data kategorik (factor)
Pada data_intro beberapa variabelnya bersifat kualitatif yaitu variabel jenis kelamin, produk, dan Tingkat_Kepuasan.
Variabel tersebut harus diubah jenis datanya menjadi factor untuk mendapatkan karakteristik dari setiap pelanggan
(observasi).
Syntax:
Latihan:
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama
data_intro
## Mengubah data menjadi factor untuk membedakan data kualitatif dengan menggunakan function
as.factor
## Melihat apakah sudah berhasil dalam mengubah variabel tersebut dengan menggunakan function str
Mengubah sejumlah kolom menjadi data kategorik (factor)
Script:
Mengubah sejumlah kolom menjadi data kategorik (factor)
Di Rstudio console hasilnya tampak sebagai berikut.
Skala pengukuran data
Setelah data diubah jenis tipe datanya, selanjutnya adalah pemeriksaan untuk memastikan apakah tipe data setiap
variabel sudah sesuai dengan skala pengukuran masing-masing.
Syntax:
data_intro
str(data_intro)
Skala pengukuran data
Latihan:
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama
data_intro
Script:
Skala pengukuran data
Di Rstudio console hasilnya tampak sebagai berikut.
.
.
.
Estimasi karakteristik
Ukuran pemusatan (mean, modus, median)
1. Modus adalah nilai yang sering muncul dari suatu distribusi (data nominal-data ordinal).
2. Median adalah nilai tengah dari suatu distribusi (data interval dan rasio).
3. Mean adalah rata-rata aritmatik dari suatu distribusi (data interval dan rasio).
Contoh:
Modus merupakan nilai yang menunjukan nilai yang sering muncul. Modus digunakan untuk data bertipe nominal
dan ordinal.
Syntax:
Mode(data_intro$Produk)
Script:
“Provides a large number of functions from numerical analysis and linear algebra, numerical optimization, differential
equations, time series, plus some well-known special mathematical functions. Uses 'MATLAB' function names where
appropriate to simplify porting.”
Source: https://cran.r-project.org/web/packages/pracma/pracma.pdf
Estimasi nilai statistik modus
Di Rstudio console hasil instalasinya tampak sebagai berikut.
Estimasi nilai statistik modus
Latihan
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama
data_intro
Median merupakan nilai tengah dari suatu kumpulan data. median digunakan untuk data bertipe interval dan rasio.
Syntax:
median(data_intro$Pendapatan)
Latihan
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama
data_intro
Rata-rata merupakan nilai yang menunjukan nilai rata-rata aritmatik. Rata-rata/mean digunakan untuk data bertipe
interval dan rasio.
Syntax:
mean(data_intro$Pendapatan)
Berikut penjelasan function diatas:
• mean akan menampilkan nilai rata-rata pada variabel yang diamati.
• data_intro$Pendapatan, merupakan kolom Pendapatan dari variabel data_intro.
Estimasi nilai statistik rata-rata
Latihan
# Membaca data set data_intro.csv dengan function read.csv dan dimasukkan ke variable bernama data_intro.
Dari contoh praktik sebelumnya ada perbedaan hasil median dan mean untuk data interval dan rasio.
Maka perlu diperhatikan untuk penggunaanya yaitu penggunaan mean sebaiknya digunakan jika tidak ada outlier.
3. Simpangan baku adalah simpangan data dari nilai rata-ratanya, simpangan baku nama lainnya
adalah standard deviation.
Standard deviation dapat digunakan untuk melihat keakuratan dari hasil estimasi, semakin kecil standard
deviation semakin akurat hasil estimasi.
Estimasi nilai sebaran data range
Range adalah selisih antara nilai terbesar dan nilai terendah. Untuk menampilkan range dari data dapat
menggunakan syntax sebagai berikut :
Syntax:
max(data_intro$Jumlah)-min(data_intro$Jumlah)
Berikut penjelasan function diatas:
Latihan:
Varians merupakan simpangan kuadrat data dari nilai rata-ratanya. Untuk menampilkan varians dari data dapat
menggunakan syntax sebagai berikut :
Syntax:
var(data_intro$Pendapatan)
dimana:
Latihan:
Standard deviasi dapat digunakan untuk melihat keakuratan dari hasil estimasi, semakin kecil standard deviasi
semakin akurat hasil estimasi.
Syntax:
sd(data_intro$Jumlah)
dimana:
Latihan:
Script:
Takeaways
Dari pembahasan sebelumnya pada bab ini, kita belajar hal-hal berikut: