NPM : 11222305
Kelas : 2EA31
Pertemuan III
Deskripsi Dataset
Dataset ini berisi data hasil survei terhadap lebih dari 100 responden untuk perilaku pembelian mereka di
Starbucks. Pendapatan ditampilkan dalam Ringgit Malaysia (RM).
Konteks
Data ini dapat digunakan untuk memperoleh informasi yang dapat digunakan oleh pemangku kepentingan guna
menganalisis dan mengetahui perilaku data pelanggan, mempertahankan pelanggan yang ada serta
mengembangkan program marketing untuk menarik pelanggan tepat sasaran
Isi
Info demografis tentang pelanggan – jenis kelamin, rentang usia, status pekerjaan, rentang pendapatan
Perilaku mereka saat ini dalam membeli Starbucks
Fasilitas dan fitur Starbucks yang berkontribusi pada perilaku
Pada praktikum ini, Anda akan melakukan beberapa operasi dasar yaitu :
Histogram
Outliers
Box Plot
Summary Statistics
Effect size
Relationship Between Variables
Correlation
Covariance
Pearson Correlation
Spearman's Rank Correlation
Mean VS Median
Hypothesis Testing
Normal(Gaussian) Distribution and z-score
Panduan Praktikum
Bacalah instruksi praktikum dengan seksama.
Lakukan instruksi pengerjaan ada pada setiap checkpoint (tips : cari tanda <> atau '...' dan isilah dengan
perintah yang tepat)
notes : kode program akan memberikan informasi error jika Anda belum mengisi tanda <> atau '..'
dengan perintah yang tepat
3. Lakukan perhitungan summary nilai statistik (mean, standar deviasi, dan variance) dari fitur ...
4. Berdasarkan hasil ploting diagram heatmap, jelaskan korelasi yang ada antara fitur ... dan ...
5. Hitung nilai pearson correlation dari fitur ... dan ... Jelaskan arti dari nilai tersebut.
6. Lakukan uji hipotesis untuk kolom fitur ... dan ... serta berikan penjelasan terhadap hasil dari uji
hipotesis yang dilakukan.
7. Tulis laporan hasil praktikum kalian dalam bentuk file .pdf dan silahkan Anda submit melalui akun v-
class praktikum.
Instuksi 1
Instruksi 2
Tampilkan 5 baris awal dari dataset yang digunakan dengan perintah head()
Instruksi 2
Instruksi 3
Tampilkan kolom apa saja yang dimiliki oleh dataset yang digunakan dengan perintah columns()
Instruksi 4
Tampilkan nilai berapa saja yang dimiliki oleh kolom dimiliki oleh timeSpend.
Histogram
Menampilkan Berapa kali (frekuensi) setiap nilai muncul dalam kumpulan data.
Jenis deskripsi ini disebut distribusi variabel
Cara paling umum untuk merepresentasikan distribusi variabel adalah histogram yaitu grafik yang
menunjukkan frekuensi dari setiap nilai.
Frequency = berapa kali setiap nilai muncul
Contoh: [1,1,1,1,2,2,2]. Frequency dari 1 adalah empat dan frequency dari 2 adalah tiga.
Instruksi 5
Instruksi 7
Instruksi 8
Buatlah kesimpulan dari informasi yang Anda dapatkan dari perhitungan nilai outliers dari variabel timeSpend
pada data customer dengan gender laki-laki
Instruksi 9
Hitungnilai outliers dari variabel timeSpend pada data customer dengan gender laki-laki
Summary Statistics
Mean/rata-rata
Variance: penyebaran distribusi
Standart deviation square root dari variance
Mari kita lihat ringkasan statistik rata-rata pancaran tumor jinak:
Instruksi 11
Hitung nilai karakteristik statistik untuk variabel visitNo untuk gender laki-laki
Effect size
Instruksi 10
Jalankan perhitungan dibawah ini. Buatlah kesimpulan dari informasi yang Anda dapatkan dari perhitungan
nilai effect size dari variabel visitNo pada data customer dengan gender laki-laki. Apa terdapat perbedaan antara
jumlah kedatangan dari pelanggan wanita dan pria?
Kita dapat mengatakan bahwa dua variabel terkait satu sama lain, jika salah satunya memberikan
informasi tentang yang lain
Misalnya, harga dan jarak. Jika Anda pergi jarak jauh dengan taksi Anda akan membayar lebih. Oleh
karena itu kita dapat mengatakan bahwa harga dan jarak berhubungan positif satu sama lain.
Scatter Plot, Cara termudah untuk memeriksa hubungan antara dua variabel
Matriks korelasi besar yang mencakup banyak angka
Kisaran angka ini adalah -1 hingga 1.
Arti dari 1 adalah dua variabel yang saling berkorelasi positif seperti mean radius dan mean area
Arti dari nol adalah tidak ada korelasi antara variabel seperti productRate dengan income
Arti dari -1 adalah dua variabel berkorelasi negatif satu sama lain seperti income dan membershipCard.
Sebenarnya korelasi antara keduanya bukan -1, melainkan -0,3 tetapi idenya adalah jika tanda korelasi
negatif berarti ada adalah korelasi negatif.
Instruksi 11
Tuliskan kesimpulan dari hasil diagram heatmap korelasi yang ada. Variabel mana saja yang saling berkorelasi?
Jelaskan pendapat Anda.
Covariance
Instruksi 11
Hitung nilai covariance antara variabel timeSpend dengan income dan timeSpend dengan visitNo
Pearson Correlation
Instruksi 12
Pada contoh dibawah ini kita melakukan perhitungan pearson correlation pada variabel timeSpend dan
serviceRate
1. Sesuaikan perintah untuk melakukan perhitungan pearson correlation pada variabel wifiRate dan
serviceRate.
2. Kesimpulan apa yang dapat Anda tarik dari dua percobaan diatas.
Pearson correlation bekerja dengan baik jika hubungan antara variabel linier dan variabel kira-kira
normal. Tapi itu tidak kuat, jika ada outlier
Untuk menghitung korelasi spearman, kita perlu menghitung peringkat dari setiap nilai
Instruksi 13
Pada contoh dibawah ini kita melakukan perhitungan spearman correlation pada variabel timeSpend dan
serviceRate
1. Sesuaikan perintah untuk melakukan perhitungan pearson correlation pada variabel priceRate dan
productRate.
2. Kesimpulan apa yang dapat Anda tarik dari dua percobaan diatas.
Hypothesis Testing
Instruksi 14
Pada contoh dibawah ini kita melakukan pengujian hipotesis keterhubungan variabel timeSpend dan
serviceRate.
1. Sesuaikan perintah untuk melakukan perhitungan pengujian hipotesis pada variabel gender dan
productRate.
2. Kesimpulan apa yang dapat Anda tarik dari dua percobaan diatas.