Anda di halaman 1dari 11

Nama : Noor Rifki Budiarto

Kelas : 3B
Nim : 20090074

MATERI ANALISIS DATA

1.1 Import Data


Disini kita dapat melakukan import data dalam berbagai macam format R. Namun,
pada sub-chapter ini hanya akan dibahas bagaimana cara mengimport data dari file dengan
format .csv dan .txt. Secara umum fungsi-fungsi yang digunakan untuk membaca data
pada file dengan format tersebut adalah sebagai berikut:

Kelima fungsi tersebut digunakan untuk membaca data tabular atau data yang disusun
kedalam format tabel. Fungsi read.table() merupakan bentuk umum dari keempat fungsi
lainnya. Fungsi tersebut dapat digunakan untuk membaca data dalam kedua format yang
telah disebutkan sebelumnya. Fungsi lainnya lebih spesifi, dimana
fungsi read.csv() dan read.csv2() digunakan untuk membaca data dengan ekstensi .csv,
sedangkan read.delim() dan read.delim2() untuk membaca data dengan ekstensi .txt.
Berikut adalah contoh bagaimana cara membaca data dengan nama data.csv yang ada
pada working directory dengan pemisah antar data berupa ; dan tanda koma berupa ,:
Catatan :

 file : lokasi dan nama file yang akan dibaca diakhiri dengan format file.
Secara default fungsi akan membaca file yang ada pada working directory. Untuk
mengetahui lokasi working directory, jalankan fungsi getwd(). Salin file yang akan
dibaca pada lokasi working directory.
 header : nilai logik yang menunjukkan apakah baris pertama pada file yang dibaca
akan dibaca sebagai nama kolom.
 sep : simbol yang menujukkan pemisah antar data. Pemisah antar data dapat berupa
“",”;“,”.", dll.
 dec : simbol yang menujukkan desimal. Pemisah desimal dapat berupa “.” atau “,”.
 stringsAsFactors : nilai logik yang menunjukkan apakah jenis data string akan
dikonversi menjadi factor.
1.2 Membaca Data Dari Library
Untuk keperluan pendidikan atau pengujian sebuah fungsi biasanya dalam
sebuah library disediakan dataset yang siap
digunakan. R melalui library datasets menyediakan sejumlah data yang dapat
digunakan untuk berlatih menggunakan R. Berikut adalah fungsi yang digunakan untuk
mengecek dataset apa saja yang tersedia pada sebuah library:

contoh untuk melakukan pengecekan pada dataset yang tersedia di library datasets:

1.3 Ringkasan Data


Fungsi yang sering di baca dan digunakan untuk mengecek datasets:

 head(): mengecek n observasi teratas.


 tail(): mengecek nn observasi terbawah.
 str(): mengecek struktur data atau jenis data pada masing-masing kolom. Jenis data
yang ada pada R.
berupa num (numerik), int (integer), Factor(factor), date (tanggal),
dan chr (karakter atau string).
 summary(): ringkasan data.

Fungsi-fungsi lainnya yang dapat digunakan untuk melakukan analisis statistika deskriptif
adalah sebagai berikut:

 mean(): menghitung nilai rata-rata variabel numerik.


 sd() : menghitung simpangan baku variabel numerik.
 var() : menghitung varians variabel numerik.
 median() : menghitung median suatu variabel numerik.
 range() : memperoleh nilai minimum dan maksimum suatu variabel numerik.
 IQR() : memperoleh nilai jarak antar kuartil.
 quantile() : memperoleh kuantil variabel numerik.

Contoh inputnya :

Hasil outputnya :
Inputnya:

Outputnya :

Inputnya:

Outputnya :

Inputnya

Outputnya:
1.4 Uji Normalitas Data Tunggal

Merupakan prosedur uji parametrik. Terdapat dua buah cara untuk melakukan uji tersebut,
antara lain:Metode grafis (qq-plot, ECDF, plot densitas, histogram, dan boxplot).Metode
matematis (Shapiro-Wilk, Cramer-von Mises, Shapiro-Francia, Anderson-Darling,
Liliefors, Pearson Chi-square, dll).

Metode uji normalitas yang sering digunakan pada R adalah metode Shapiro-Wilk.


Metode ini merupakan metode uji yang memiliki power yang besar khusunya untuk
ukuran sampel yang relatif kecil. Versi awal metode ini terbatas dengan jumlah sampel
3 sampai 50 sampel. Versi selanjutnya mengalami modifikasi sehingga dapat
menangani sampel sampai dengan 5000 sampel bahkan lebih.

Untuk lebih memahami impelementasi fungsi tersebut pada data, berikut adalah
contoh:

Inputnya:

Outputnya:

1.5 Uji Rata Rata Satu Dan Dua Sampel


Uji rata-rata satu sampel merupakan uji statistik untuk menguji rata-rata suatu sampel
yang telah diketahui nilai rata-ratanya. Sedangkan uji rata-rata untuk dua populasi
dilakukan untuk menguji apakah kedua selisis rata-rata populasi tersebut bernilai nol
yang menujukkan bahwa kedua populasi tersebut memiliki nilai rata-rata yang sama.
Uji rata-rata dua populasi dapat dilakukan untuk sampel independen (contoh: uji rata-
rata performa dua buah IPAL) dan berpasangan (contoh: uji rata-rata input dan output
IPAL).
Untuk melakukan uji rata-rata pada R dapat digunakan fungsi t.test() untuk uji
parametrik dan wilcox.test() untuk melakukan uji non-parametrik sign rank test.
Format fungsi-fungsi tersebut adalah sebagai berikut.

Catatan:

 x,y : vektor numerik. Jika argumen x dan y diisikan maka uji hipotesis dilakukan


untuk dua buah populasi.
 alternative: digunakan untuk menentukan jenis uji hipotesis apakah satu sisi(“less”
dan “greater”), atau dua sisi (“two.sided”).
 mu : nilai rata-rata populasi atau nilai rata-rata selisih antar populasi jika dilakukan
uji hipotesis terhadap dua populasi. Secara default nilainya 0.
 paired : nilai logikal yang menentukan apakah uji dua populasi digunakan untuk
sampel berpasangan (TRUE) atau tidak (FALSE).
 var.equal : nilai logikal yang menunjukkan apakah varians kedua populasi
diasumsikan sama atau berbeda.
 conf.level : tingkat kepercayaan. Secara default tingkat kepercayaan yang
digunakan adalah 95%.

Contoh penerapan fungsi :

Inputnya

Outputnya:

1.6 Korelasi Antar Variable


Pada sebuah analisa, kita sering kali tertarik untuk menganalisa hubungan atau korelasi
antara satu variabel terhadap variabel lainnya. Pengamatan adanya korelasi antar
variabel dapat dilakukan melalui visualisasi menggunakan scatterplot dan perhitungan
matematis menggunakan metode Pearson untuk metode parametrik dan metode
rangking Spearman dan Kendall untuk metode non-parametrik. Pada Chapter ini kita
akan berfokus untuk melakukan uji korelasi menggunakan R menggunakan metode
matematis.
Pada R uji korelasi dapat dilakukan dengan menggunakan fungsi cor.test(). Format
fungsi tersebut adalah sebagai berikut:
Berikut adalah penerapan fungsi cor.test() berdasarkan metode-metode yang telah
disediakan pada fungsi tersebut:

Outputnya:

Kendall:

Outputnya:

1.7 Analisis Varian


Pada sub-Chapter sebelumnya penulis telah menjelaskan uji rata-rata untuk satu
sampel dan dua sampel. Pada kenyataannya dalam sebuah percobaan laboratorium, kita
tidak hanya membandingkan dua buah grup sampel saja, namun beberapa grup dan
sejumlah faktor. Untuk menganalisa apakah variasi perlakuan pada kelompok sampel
akan memberikan hasil yang berbeda-beda pada rata-rata tiap grup atau tidak
diperlukan analisis varians untuk menganilisa variasi perlakuan atau faktor pada
masing-masing grup. Analisis varians dapat dilakukan baik untuk satu faktor maupun
dua faktor atau lebih. Untuk melakukannya pada R, kita dapat menggunakan
fungsi aov() untuk analisis varians dengan metode parametrik dan kruskal.test() untuk
analisis varians dengan menggunakan metode nonparametrik. Berikut adalah format
kedua fungsi tersebut:
Output

Outputnya

1.8 Analisis Komponen Utama


Analisis komponen utama menggunakan transformasi ortogonal (umumnya nilai
singular atau dekomposisi nilai eigen) untuk mengubah seperangkat variabel
pengamatan yang mungkin berkorelasi menjadi seperangkat variabel tidak berkorelasi
(ortogonal) yang disebut komponen utama. Transformasi didefinisikan sedemikian
rupa sehingga komponen utama pertama memiliki varians setinggi mungkin
(menyumbang variabilitas pada data sebanyak mungkin), dan masing-masing
komponen berikutnya pada gilirannya memiliki varians tertinggi yang mungkin di
bawah kendala, dimana komponen tersebut menjadi ortogonal ke komponen
sebelumnya.

Dalam R, analisis komponen utama umumnya dilakukan dengan fungsi prcomp ().


Format fungsi tersebut adalah sebagai berikut:

Ouputnya
Output

1.9 Analisis Cluster


 “Analisis Cluster itu sendiri bukanlah salah satu algoritma spesifik, tetapi tugas umum
yang harus dipecahkan. Ini dapat dicapai dengan berbagai algoritma yang berbeda
secara signifikan dalam pengertian mereka tentang apa yang merupakan sebuah cluster
dan bagaimana cara menemukannya secara efisien. Gagasan populer mengenai cluster
termasuk kelompok dengan jarak rendah di antara anggota cluster, area padat ruang
data, interval atau distribusi statistik tertentu. Algoritma pengelompokan dan
pengaturan parameter yang sesuai (termasuk nilai-nilai seperti fungsi jarak yang akan
digunakan, ambang kepadatan atau jumlah cluster yang diharapkan) tergantung pada
dataset individual dan tujuan penggunaan hasil. Analisis cluster seperti itu bukan tugas
otomatis, tetapi proses berulang penemuan pengetahuan yang melibatkan trial and
error. Seringkali diperlukan untuk memodifikasi preprocessing dan parameter sampai
hasilnya mencapai properti yang diinginkan.
 Analisis cluster menggunakan algoritma pengelompokan hierarkis aglomeratif
Hierarchical clustering membangun hierarki cluster, di mana metrik hierarki
adalah suatu ukuran ketidaksamaan antar cluster. Menurut halaman bantuan
untuk hclust(), metode pengelompokan hierarkis aglomeratif, “Fungsi ini
melakukan analisis hierarki cluster menggunakan seperangkat ketidaksamaan
untuk n objek yang dikelompokkan.

Output
 Pengelompokan menggunakan algoritma K-Mean
k-means melakukan pengelompokan n pengamatan ke dalam k cluster di mana
setiap pengamatan akan tergabung dengan pusat cluster terdekat. Pengguna
harus menentukan jumlah pusat (cluster) yang diinginkan sebagai output. Untuk
melakukan pengelompokan dengan algoritma k-means pada R dapat
menggunakan fungsi kmeans(). Format fungsi tersebut secara umum adalah
sebagai berikut:

Out[put

Output
 Pengelompokan menggunakan algoritma PAM
pam mem-partisi data menjadi k cluster di sekitar medoid. Medoid dari set data
yang terbatas merupakan titik data dengan nilai ketidaksamaan rata-rata untuk
semua titik data adalah minimum. Hal tersebut menujukkan bahwa medoid
merupakan pusat dari set cluster. Menurut halaman bantuan pam(), pendekatan
k-medoid lebih kuat daripada pendekatan k-means “karena meminimalkan
jumlah ketidaksamaan daripada jumlah jarak euclidean kuadrat”. Format umum
fungsi pam() adalah sebagai berikut:

Output

Anda mungkin juga menyukai