Anda di halaman 1dari 47

CASE

STUDY
ANALISIS DATA STATISTIK B

Putri Herliani Nabilla (5003201014)


Rahma Zidny Taqiya (5003201104)
Nevisra Najwa (5003201124)
Objectives

01 02 03 04
Principal Factor Cluster Analisis
Component Analysis (FA) Analysis Diskriminan
Analysis (PCA)
Deskripsi

Sungai Shuangji adalah sungai yang tercemar. Sumber air utamanya berasal dari pabrik
pengolahan limbah perkotaan dan pabrik pengolahan limbah pembuatan kertas. Suatu
penelitian dilakukan pada sungai Suangi China untuk mengetahui kualitas air sungai.
Titik-titik pengamatan disepanjang sungai dapat dilihat pada gambar diatas.
Pengamatan dilakukan selama 2 tahun.
Variabel Penelitian
Preprocessing Data
Pada analisis kali ini akan dilakukan dengan menggunakan Melakukan cek missing value, dimana ditemukan
variabel numerik. Sehingga perlu dilakukan perubahan data tidak adanya missing value pada data. Sehingga
dari kategorik menjadi numerik. dapat dilanjutkan ke langkah berikutnya.
Statistik Descriptive
PCA
KMO dan Barlett Test
Pada pengujian KMO telah terpenuhi,
dimana nilai all over MSA > 0,5 yaitu 0,75.
Nilai MSA pada masing-masing variabel
juga telah bernilai > 0,05 sehingga tidak
adanya penghapusan variabel.

P-value uji Barlett lebih kecil dari tingkat


signifikansi yang digunakan (< 0,05)
sehingga dapat disimpulkan bahwa Barlett
Test telah memenuhi persyaratan
Matriks Korelasi

Matriks ini menunjukkan nilai kedekatan hubungan antar variabel. Matriks korelasi berisi
koefisien semua pasangan variabel.
Korelasi tertinggi : Variabel VP dan Variabel CN (0.606)
Korelasi terendah : Variabel DO dan Variabel CN (-0.323)
Eigenvalue dan Eigenvector
eigenvalue

eigenvector

Eigen value digunakan untuk menentukan berapa faktor yang akan terbentuk. Hal
tersebut dapat dilihat dari nilai eigen value yang lebih dari 1.
Berdasarkan hasil dari eigen value, didapatkan 6 faktor yang terbentuk
Proporsi Varians dan
Kumulatifnya

Dapat dilihat bahwa yang digunakan adalah Component 6,


dikarenakan mempunyai gap yang setimbang antar Component
Scree Plot

Berdasarkan Scree Plot diatas, banyaknya komponen utama yang dipilih adalah 6. Hal ini
karena titik ekstrim dimana garis kurva mulai melandai ditunjukkan pada komponen ke 6.
Berdasarkan informasi ini jumlah komponen yang dipilih berdasarkan metode proporsi
kumulatif varians dengan metode Scree Plot yaitu 6 komponen utama.
Membentuk Model

Model yang terbentuk adalah sebagai berikut.


PC1 = 0.085 PH + 0.137 DO + ... -0.28 S - 0.147 Se
PC2 = 0-0.223 PH - 0.162 DO + ... + 0.204 S - 0.238 Se
PC3 = - 0.0423 PH + 0.001 DO + ... - 0.321 S - 0.25 Se
PC4 = 0.036 PH + 0.17 DO + ... - 0.071 S + 0.508 Se
PC5 = -0.157 PH + 0.61 DO + ... + 0.168 S - 0.223 Se
PC6 = -0.217 PH + 0.345 DO + ... + 0.088 S + 0.304 Se
Factor
Analysis
Matriks Korelasi

Matriks ini menunjukkan nilai kedekatan hubungan antar variabel. Matriks korelasi berisi
koefisien semua pasangan variabel.

Korelasi tertinggi : Variabel VP dan Variabel CN (0.606)


Korelasi terendah : Variabel DO dan Variabel CN (-0.323)
Eigenvalues dan Eigenvector

Eigen value digunakan untuk menentukan berapa faktor yang akan terbentuk. Hal
tersebut dapat dilihat dari nilai eigen value yang lebih dari 1.

Berdasarkan hasil dari eigen value, didapatkan 6 faktor yang terbentuk


Matriks Loading Factors

Loading factor adalah besaran korelasi antara variabel (indikator) dengan kontruks latennya (faktor).

Berdasarkan nilai loading factor yang diperoleh terlihat bahwa antara variabel (indikator)
dengan konstruks latennya (faktor) menghasilkan nilai korelasi yang bervariasi
Rotasi orthogonal

Faktor-faktor yang diperoleh masih sulit diinterpretasikan secara langsung. Untuk itu
dilakukan manipulasi dengan cara merotasi loading dengan menggunakan metode
Varimax Orthogonal Rotation, karena rotasi tegak lurus varimax lebih mendekati kenyataan
dibanding yang lain.
Berdasarkan nilai rotasi varimax yang diperoleh terlihat bahwa korelasi yang dihasilkan
cukup rendah.
Nilai Communality

Komunalitas menunjukkan proporsi variabilitas setiap variabel.

Nilai komunalitas dari 19 variabel menunjukkan persentase


varians sampel yang relatif besar untuk setiap variabel.
Variabel Berpengaruh
Cluster
Analysis
K Optimum
CLUSTERING SPASIAL
Elbow Method Sillhoute Method

Berdasarkan grafik dengan metode Elbow, Berdasarkan grafik dengan metode sillhoute,
terlihat penurunan paling tajam membentuk terlihat garis yang terbentuk menunjukan
pada jumlah k cluter k=2. Sehingga untuk jumlah cluster optimal pada k=2. Sehingga
metode elbow diperoleh hasil k optimal 2 untuk metode sillhoute diperoleh hasil k
optimal 2
K-Means Clustering Spasial
Berdasarkan gambar di
samping, didapatkan nilai
silhoutte score sebesar 0,678
atau mendekati satu.
Sehingga dapat disimpulkan
bahwa hasil clustering spasial
telah berhasil dilakukan. Hal
tersebut juga
mengindikasikan bahwa
titik-titik yang terbentuk
pada satu kelompok berada
di dekat satu sama lain dan
tidak berdekatan dengan
kelompok lainnya.
Visualisasi Clustering Spasial

Gambar di samping menunjukkan


bahwa data terbagi menjadi dua
cluster tanpa adanya overlap.
Sehingga dapat dinyatakan bahwa
proses clustering spasial dilakukan
dengan baik. Berdasarkan gambar
di samping, cluster 1 terdiri dari 6
titik pengamatan dan cluester 2
terdiri dari 8 titik pengamatan.
Dendogram Clustering Spasial

Jumlas cluster yang optimal


sebanyak 2. Pada cluster 1 terdiri
dari titik pengamtan 2, 3, 10, 11, 12
dan 13. Sedangkan pada cluster 2
terdiri dari 1, 4, 5, 6, 7, 8, 9 dan 14
K Optimum
CLUSTERING Temporal
Elbow Method Sillhoute Method

Berdasarkan grafik dengan metode Elbow, Berdasarkan grafik dengan metode sillhoute,
terlihat penurunan paling tajam membentuk terlihat garis yang terbentuk menunjukan
pada jumlah k cluter k=2. Sehingga untuk jumlah cluster optimal pada k=2. Sehingga
metode elbow diperoleh hasil k optimal 2 untuk metode sillhoute diperoleh hasil k
optimal 2
K-Means Clustering Temporal

Silhouette score yang diperoleh


mendekati +1, sehingga dapat
disimpulkan bahwa pengelompokan
(clustering) temporal telah berhasil
dilakukan dengan baik. Hal ini
menandakan bahwa titik-titik dalam
satu kelompok berada di dekat satu
sama lain dan jauh dari kelompok
lain.
K-Means Clustering Temporal
Gambar di samping menunjukkan
bahwa data terbagi menjadi dua
cluster tanpa adanya overlap. Maka,
dapat dikatakan bahwa proses
clustering temporal telah dilakukan
dengan baik. Dimana, cluster 1 terdiri
dari 4 waktu pengamatan dan cluster
2 terdiri dari 8 waktu pengamatan.
Dendogram Clustering Temporal

Berdasarkan output di samping, diperoleh


jumlah cluster yang optimal sebanyak 2.
Dimana, cluster 1 terdiri dari waktu
pengamatan 4, 5, 6, 7, 12. Sedangkan, cluster
2 terdiri dari waktu pengamatan 1, 2, 3, 8, 9,
10, 11.
Analisis
Diskriminan
Spasial
Uji Normalitas
Berdasarkan uji Kolmogorov-
Smirnov dengan taraf signifikansi
sebesar 5%, diperoleh informasi
bahwa sebagian besar variabel
prediktor berdistribusi normal.
Namun, ada beberapa variabel
yang tidak mengikuti distribusi
normal, yaitu Cr6+ (1), LAS (1).

Meskipun terdapat variabel-


variabel yang tidak memenuhi
distribusi normal, data akan
diasumsikan berdistribusi
normal.
Multikolinearitas

Terpenuhinya asumsi multikolinearitas adalah ketika data memiliki nilai VIF < 10.
Berdasarkan output di atas, dapat dilihat bahwa banyak dari nilai VIF yang melebihi 10.
Artinya, terjadi kasus multikolinearitas. Namun, pada analisis ini, data akan diasumsikan
tidak terjadi multikolinearitas.
Kesamaan Matriks Varians
Kovarians
Untuk menguji kesamaan varian digunakan angka
Box’ M dengan ketentuan sebagai berikut:
• Jika signifikansi > 0,05 maka HO diterima
• Jika signifikansi < 0,05 maka H0 ditolak
Hipotesis:
H0 : Varians kedua kelompok data
identik/homogen
H1 : Varians kedua kelompok data tidak
sama/heterogen.
Dari nilai p-value statistik uji Box’ M diketahui nilai
p-value > 0,05 maka gagal tolak H0.

Dengan demikian varians kelompok data adalah


sama.
Signifikansi Variabel
Uji ini menggunakan Wilks’ lambda dan nilai
signifikansi. Jika angka Wilks’ Lambda mendekati
angka 0 maka cenderung ada perbedaan dalam
kelompok.

Keputusan Hipotesis dengan nilai signifikansi:


Jika signifikansi > 0,05 maka tidak ada
perbedaan dalam kelompok
Jika signifikansi < 0,05 maka ada perbedaan
dalam kelompok

Berdasarkan hasil disamping variabel COD,


CODMn, Oil, Cr6+, LAS, As, CN, VP, Se. Nilai sig <
0,05, maka variabel tersebut memberikan
perbedaan pada pengambilan keputusan (Y).
Variabel yang Masuk
ke Model
Berdasarkan output yang
diperoleh, variabel signifikan
yang dimasukkan ke dalam
model adalah COD, Cr6+, PH, Zn,
dan CN.
Persamaan Diskriminan

Persamaan diskriminan yang diperolah adalah sebagai berikut:


Ketepatan Klasifikasi
Ketepatan Klasifikasi
Analisis
Diskriminan
Temporal
Uji Normalitas
Berdasarkan hasil pengujian
disamping dengan taraf
signifikansi sebesar 0,05
terdapat beberapa variabel
yang tidak memenuhi
asumsi normalitas, yaitu,
COD(2), F(2), Zn(2), VP(1),
VP(2) dan Se(2). Namun,
pada pengerjaan kali ini
data yang digunakan
dianggap memenuhi
asumsi normalitas.
Multikolinearitas

Terpenuhinya asumsi multikolinearitas adalah ketika data memiliki nilai VIF < 10.
Berdasarkan output di atas, dapat dilihat bahwa terdapat variabel pH, Cr6+, VP dan S
yang mengalami multikolinearitas. Namun pada pengerjaan kali ini, data dianggap
memenuhi asumsi multikolinearitas.
Kesamaan Matriks Varians
Kovarians
Untuk menguji kesamaan varian digunakan angka Box’
M dengan ketentuan sebagai berikut:
• Jika signifikansi > 0,05 maka HO diterima
• Jika signifikansi < 0,05 maka H0 ditolak
Hipotesis:
H0 : Varians kedua kelompok data identik/homogen
H1 : Varians kedua kelompok data tidak
sama/heterogen.
Dari nilai p-value statistik uji Box’ M diketahui nilai p-
value > 0,05 maka gagal tolak H0.

Dengan demikian varians kelompok data adalah sama.


Signifikansi Variabel
Uji ini menggunakan Wilks’ lambda dan nilai signifikansi. Jika
angka Wilks’ Lambda mendekati angka 0 maka cenderung ada
perbedaan dalam kelompok.

Keputusan Hipotesis dengan nilai signifikansi:


Jika signifikansi > 0,05 maka tidak ada perbedaan dalam
kelompok
Jika signifikansi < 0,05 maka ada perbedaan dalam kelompok

Berdasarkan hasil disamping variabel COD, NH3-N, Cr6+, Cd, dan


As nilai sig < 0,05, maka variabel tersebut memberikan
perbedaan pada pengambilan keputusan (Y).
Variabel yang Masuk
ke Model

Berdasarkan output yang


diperoleh, variabel signifikan
yang dimasukkan ke dalam
model adalah COD dan As.
Persamaan Diskriminan
Berdasarkan gambar di samping, akan menghasilkan
persamaan sebagai berikut.
Ketepatan Klasifikasi
Terima
Kasih

Anda mungkin juga menyukai