Anda di halaman 1dari 15

Tentang analisis statistik multivariabel

untuk data kualitas air


Dasapta Erwin Irawan ITB/RINarxiv

1
Sekilas tentang statistik multivariabel

1. Analisis Beberapa Variabel: Multivariate statistics adalah cabang statistika yang mempelajari
hubungan antara beberapa variabel dalam suatu data. Ini memungkinkan untuk menganalisis
bagaimana satu variabel dipengaruhi oleh variabel lain, dan bagaimana kombinasi variabel
mempengaruhi suatu fenomena.
2. Visualisasi Data: Multivariate statistics memanfaatkan teknik visualisasi seperti scatter plot,
heatmap, dan grafik batang 3D untuk memvisualisasikan hubungan antar variabel. Ini membantu
untuk memahami dan menjelaskan fenomena yang kompleks.
3. Metode Analisis: Multivariate statistics menggunakan metode analisis seperti analisis regresi,
analisis varian, dan analisis komponen utama untuk mengungkap hubungan antar variabel dan
untuk menentukan variabel yang paling penting dalam suatu data. Ini membantu untuk membuat
keputusan berdasarkan data dan untuk memahami pola dan tren dalam data yang kompleks.

2
Sekilas tentang Principal Component Analysis (PCA)
Principal Component Analysis (PCA) = Analisis Komponen Utama (AKU)

1. Reduksi Dimensi: Principal Component Analysis (PCA) digunakan untuk mengurangi dimensi dari
data dengan memperkenalkan konsep komponen utama. Ini memungkinkan data untuk diolah dan
dipahami dengan lebih mudah.
2. Transformasi Linier: PCA melakukan transformasi linier pada data, memindahkan sumbu dari data
dan menemukan komponen utama baru yang memiliki variansi tertinggi. Transformasi ini membantu
menghilangkan noise dan korelasi antar fitur dalam data.
3. Analisis Variance: PCA memperhatikan variansi dalam data untuk menentukan komponen utama
yang memiliki variansi tertinggi. Komponen utama yang memiliki variansi tertinggi akan
dipertahankan, sementara komponen lain akan dibuang atau diringkas. Ini membantu
mengidentifikasi pola dan struktur dalam data.

3
Sekilas tentang Cluster Analysis (CL)
Cluster Analysis (CL) = Analisis Klaster (AKL)

1. Pemgroupan Data: Cluster analysis adalah teknik analisis data yang digunakan untuk
memgroupkan item-item atau observasi yang serupa bersama dalam suatu kelompok atau cluster.
Ini membantu untuk mengidentifikasi pola dan tren dalam data yang sulit dikenali.
2. Metode Pemgroupan: Ada beberapa metode pemgroupan yang digunakan dalam cluster analysis,
seperti k-means clustering, hierarchical clustering, dan density-based clustering. Masing-masing
metode memiliki kelebihan dan kekurangan yang berbeda, dan memerlukan pemilihan yang tepat
untuk memastikan hasil yang akurat.
3. Aplikasi: Cluster analysis banyak digunakan dalam berbagai aplikasi, seperti marketing, kesehatan,
dan penelitian ilmu pengetahuan. Ini membantu untuk memahami pola perilaku konsumen,
mengidentifikasi populasi spesifik dalam suatu studi medis, dan menemukan hubungan antar
variabel dalam suatu penelitian ilmu pengetahuan. Cluster analysis juga banyak digunakan dalam
analisis data text untuk mengkategorikan dokumen atau teks berdasarkan tema yang serupa.
4
Aplikasi yang dapat digunakan
1. Microsoft Excel
2. SPSS -> PSPP
3. Statistica
4. R
5. Python-Pandas
6. Statcal

5
Mengapa menggunakan Orange?

Pengguna dapat **membuka** data


yang sama dan **mengulang**
Kenapa pakai Orange?
prosedurnya yang sama, seperti
yang kita lakukan sekarang.
Salah satunya alasannya adalah
__REPRODUCIBILITY__
Kemudian pengguna ke-2 dapat
mengembangkannya.

6
Format data
Kurang lebih begini.

7
Format data
Bukan begini

8
Prinsip penggunaan Orange Data Mining
1. Orange Data Mining adalah sebuah perangkat lunak open source yang dapat digunakan
untuk melakukan analisis statistik multivariabel, termasuk Analisis Komponen Prinsipal (AKP)
dan Analisis Klaster. Orange Data Mining menyediakan alat visual untuk mengidentifikasi
pola dan hubungan yang mungkin ada di data Anda.
2. Orange Data Mining dapat menggabungkan data dari berbagai sumber, seperti database dan
file Excel, dan menggunakan berbagai algoritma untuk melakukan analisis statistik. Algoritma
yang tersedia termasuk Analisis Komponen Prinsipal (PCA), Analisis Faktor, Analisis Klaster,
dan Regresi. Alat visual yang tersedia meliputi diagram kerucut, diagram batang, dan peta
korelasi.
3. Pendekatan yang digunakan adalah non-programming, tapi berbasis kanvas.

9
Antarmuka Orange Data Mining

10
Antarmuka Orange Data Mining

Kanvas

Widget

11
Latihan 1 Membuka dan melihat isi file

12
Latihan 2 Membuat grafik

13
Latihan 3 Melakukan Principal Component Analysis

14
Latihan 4 Melakukan Cluster Analysis

15

Anda mungkin juga menyukai