Anda di halaman 1dari 6

Nama : Dikha Rizki Setyadi

NPM : 20422424

Kelas : 2IC03

1. Diagram Hours per Week

Pada kode data['hours-per-week'].hist(figsize=(8,8)), diagram yang dihasilkan


adalah histogram. Histogram adalah jenis grafik yang digunakan untuk
menggambarkan distribusi frekuensi dari data numerik tertentu. Dalam hal ini,
diagram menampilkan distribusi jumlah jam kerja per minggu (hours per week)
dalam dataset. Beberapa poin penting untuk menjelaskan diagram tersebut:

1. Variabel pada Sumbu X: Sumbu horizontal (X) pada diagram akan


menunjukkan rentang nilai jam kerja per minggu. Rentang ini akan dibagi
menjadi beberapa interval atau "bin" yang berisi rentang jam kerja.
2. Variabel pada Sumbu Y: Sumbu vertikal (Y) menunjukkan frekuensi atau
jumlah data yang jatuh ke dalam setiap interval. Ini menggambarkan seberapa
sering nilai jam kerja per minggu muncul dalam dataset.
3. Ukuran dan Skala Diagram: Dengan figsize=(8,8), kita mengatur ukuran
diagram menjadi persegi dengan lebar dan tinggi masing-masing 8 unit.

Melalui diagram histogram ini, Anda dapat melihat distribusi jam kerja per
minggu dalam dataset, termasuk apakah ada puncak atau tren tertentu dalam data. Ini
membantu dalam pemahaman pola dalam data yang dapat berguna dalam analisis
statistik dan pengambilan keputusan.

2. Diagram Income

Diagram yang dijelaskan dalam kode di atas adalah diagram "countplot" yang
digunakan untuk memvisualisasikan jumlah pengamatan dalam setiap kategori
dalam data kategori. Diagram ini sangat berguna untuk memahami sebaran data
kategori dan seberapa sering setiap kategori muncul dalam dataset. Berikut
penjelasan komponen-komponen utama dalam diagram countplot tersebut:

1. Variabel pada Sumbu X: Pada sumbu horizontal (X) terdapat kategori


yang akan dihitung dan divisualisasikan. Dalam contoh ini, kategori
tersebut adalah "income" (pendapatan), yang mungkin memiliki dua nilai
seperti ">50K" dan "<=50K."
2. Tinggi Batang: Tinggi setiap batang dalam diagram countplot
menunjukkan jumlah pengamatan (frekuensi) yang masuk ke dalam
kategori tersebut.
3. Anotasi Data: Dalam kode, terdapat bagian ax.text yang digunakan untuk
menambahkan anotasi (teks) di atas setiap batang. Anotasi ini berisi
persentase dari jumlah pengamatan dalam kategori tersebut terhadap
jumlah total pengamatan dalam dataset. Ini membantu dalam memberikan
informasi lebih lanjut tentang sebaran data.
4. Ukuran dan Estetika: Dengan plt.figure(figsize=(7,7)), kita mengatur
ukuran diagram. Penggunaan warna dan estetika dapat disesuaikan sesuai
kebutuhan.

Melalui diagram countplot ini, Anda dapat dengan mudah membandingkan


frekuensi kategori yang berbeda dalam dataset, sehingga dapat memberikan
wawasan tentang distribusi kategori dalam data pendapatan (income) Anda.

3. Diagram Hours per Week income (Hubungan)

Diagram di atas adalah diagram "boxplot" yang digunakan untuk


memvisualisasikan hubungan antara variabel "hours-per-week" (jumlah jam kerja
per minggu) dengan variabel "income" (pendapatan) dalam dataset. Berikut
penjelasan diagram tersebut:

1. Variabel pada Sumbu X ("income"): Pada sumbu horizontal (X) terdapat


kategori pendapatan, yaitu ">50K" (penghasilan lebih dari 50 ribu) dan
"<=50K" (penghasilan kurang dari atau sama dengan 50 ribu). Ini adalah
kategori yang ingin dianalisis dalam hubungannya dengan jumlah jam
kerja per minggu.
2. Variabel pada Sumbu Y ("hours-per-week"): Sumbu vertikal (Y)
menunjukkan jumlah jam kerja per minggu. Boxplot menggambarkan
sebaran data jam kerja dalam setiap kategori pendapatan.
3. Kotak (Box): Kotak pada diagram mewakili interkuartil range (IQR), yang
merupakan kisaran nilai data yang terletak antara kuartil 1 (25%) dan
kuartil 3 (75%). Ini memberi tahu kita tentang sebaran data di tengah.
Tinggi kotak menunjukkan variabilitas data dalam setiap kategori
pendapatan.
4. Garis Tengah Kotak (Median): Garis horizontal di tengah kotak adalah
median, yaitu nilai tengah dari data. Ini memberikan informasi tentang
nilai jam kerja rata-rata dalam setiap kategori.
5. Whiskers (Jenggot): Garis yang menghubungkan kotak ke titik-titik di atas
dan di bawahnya menggambarkan rentang data di luar IQR. Mereka
membantu mengidentifikasi nilai-nilai ekstrem atau outlier dalam data.

Dengan diagram ini, Anda dapat melihat perbedaan dalam jam kerja antara
kategori pendapatan ">50K" dan "<=50K." Jika median atau garis tengah kotak
berbeda antara kedua kategori, ini menunjukkan perbedaan dalam rata-rata jam
kerja. Jika terdapat outlier, itu mungkin menunjukkan situasi di mana ada individu
yang bekerja jam yang sangat lama atau sangat pendek di luar kebanyakan kasus.
Boxplot adalah alat yang berguna untuk membandingkan distribusi data antara
kategori yang berbeda.
4. Uji Hipotesis

Dari kode yang diberikan, tampaknya tidak ada informasi yang cukup untuk
mengidentifikasi atau merumuskan uji hipotesis spesifik. Untuk merumuskan uji
hipotesis, Anda perlu memiliki data yang ingin diuji dan pertanyaan penelitian
yang jelas. Proses merumuskan uji hipotesis melibatkan langkah-langkah berikut:

1. Identifikasi Variabel: Tentukan variabel yang ingin Anda uji hipotesisnya.


Variabel ini dapat menjadi data yang ingin Anda bandingkan atau
hubungan yang ingin Anda teliti.
2. Hipotesis Nol (Null Hypothesis): Rumuskan hipotesis nol yang
menyatakan tidak adanya efek atau perbedaan yang ingin Anda uji. Ini
sering disimbolkan sebagai "H0" dan mewakili status quo.
3. Hipotesis Alternatif (Alternative Hypothesis): Rumuskan hipotesis
alternatif yang menyatakan adanya efek atau perbedaan yang ingin Anda
uji. Ini sering disimbolkan sebagai "H1" atau "Ha."
4. Tentukan Tingkat Signifikansi: Tentukan tingkat signifikansi yang
menentukan ambang batas untuk menerima atau menolak hipotesis nol.

Contoh

a. Hipotesis Nol (H0): "Rata-rata berat badan penduduk kota A sama dengan
rata-rata berat badan penduduk kota B."
b. Hipotesis Alternatif (Ha): "Rata-rata berat badan penduduk kota A
berbeda dengan rata-rata berat badan penduduk kota B."
c. Dengan informasi tambahan mengenai variabel dan data yang ingin Anda
uji hipotesisnya, Anda dapat merumuskan hipotesis nol dan alternatif
dengan lebih tepat.
5. Kesimpulan

Dari praktikum yang telah dilakukan, kita dapat menyimpulkan langkah-


langkah dan hasil dari analisis data yang dilakukan:
1. Mengimpor pustaka dan data: Kode dimulai dengan mengimpor
pustaka seperti NumPy, Pandas, Seaborn, Matplotlib, dan lainnya.
Kemudian, data dibaca dari URL yang diberikan.
2. Eksplorasi awal data: Data dijelajahi dengan cara menampilkan 10
baris pertama dari data menggunakan data.head(10) dan membuat
histogram dari kolom "age" untuk melihat distribusinya.
3. Analisis usia: Dilakukan pengecekan jumlah data yang memiliki nilai
"age" di atas 70.
4. Visualisasi data: Dengan bantuan Seaborn, dibuat visualisasi dengan
countplot dan boxplot yang membandingkan kolom "income" dengan
"age."
5. Analisis rata-rata usia: Dengan menggunakan groupby, dihitung rata-
rata usia berdasarkan kategori "income."
6. Uji hipotesis: Dilakukan uji hipotesis t-test (ttest_ind) antara dua
kelompok data berdasarkan kategori "income" (<=50K dan >50K).
Hasilnya adalah nilai t-test (ttest) dan nilai p (pval).
7. Kesimpulan uji hipotesis: Jika nilai p (pval) kurang dari 0.05, maka
null hypothesis ditolak; jika tidak, null hypothesis diterima.
8. Visualisasi "hours-per-week": Data "hours-per-week" juga
divisualisasikan dengan histogram dan countplot.

Selanjutnya, kesimpulan dari analisis data ini akan bergantung pada nilai p
(pval) yang diperoleh dari uji hipotesis. Jika pval kurang dari 0.05, ini
menunjukkan perbedaan yang signifikan antara dua kelompok usia
berdasarkan kategori pendapatan. Jika pval lebih besar dari 0.05, maka tidak
ada perbedaan signifikan.

Anda mungkin juga menyukai