Anda di halaman 1dari 11

LAPORAN PRAKTIKUM STATISTIKA DASAR

ACARA II

EKSPLORASI DATA

Dosen Pengampu:

Ike Sari Astuti, S.P, M. Nat. Res.St., Ph. D

Oleh:

Kelompok 14

Nama : Bramatiyo Kurniawan D.P. (190722638058)

: Febbi Misbaqul Sofia (190722638041)

: Luthfi Khairul Insan (190722638037)

Offering/Tahun : G / 2019

Asisten Praktikum : Imam Abdul Gani Alfarizi

JURUSAN GEOGRAFI

FAKULTAS ILMU SOSIAL

UNIVERSITAS NEGERI MALANG

2020
I. Tujuan

1. Mahasiswa mampu menyiapkan data untuk RCommander

2. Mahasiswa dapat mengeksplorasi secara grafik

II. Dasar Teori

Statistika adalah ilmu mengumpulkan, menata, menyajikan, menganalisis,


dan menginterpretasikan data menjadi informasi untuk membantu pengambilan
keputusan yang efektif. Menurut (Dajan, 1995), Istilah statistika dapat pula
diartikan sebagai metode untuk mengumpulkan, mengolah, menyajikan,
menganalisis, dan menginterpretasikan data dalam bentuk angka-angka.

Eksplorasi data merupakan langkah untuk memahami data sebelum


dilakukan praproses. Pemahaman data yang akan di-mining dapat membantu
dalam menentukan teknik-teknik praproses dan analisa data terhadap data sebelum
dilakukan tugas data mining. Dilihat dari sumbernya data dibedakan atas dua jenis
yaitu data riil dan data simulasi. Data riil diperoleh dari hasil penelitian dengan
mengikuti prosedur yang telah ditetapkan sedangkan data simulasi diperoleh
dengan membangkitkannya melalui program komputer. Data yang disajikan dalam
bentuk angka (numerik) pada umumnya dibedakan menjadi dua kelompok besar,
yaitu data hasil pencacahan (disebut data enumerasi) dan data dari hasil
pengukuran. Pengukuran (meassurement) menghasilkan data numerik yang disebut
data metrik. Dalam eksplorasi data, hal yang harus diperhatikan yaitu tipe data.
Tipe data terdiri dari empat jenis, yaitu nominal, ordinal, interval, dan rasio.

1. Nominal
Data berjenis nominal membedakan data dalam kelompok yang bersifat
kualitatif. Dalam ilmu statistika, data nominal merupakan data dengan level
pengukuran yang paling rendah.

2. Ordinal
Dalam ilmu statistika, data berjenis ordinal mempunyai level pengukuran yang
lebih tinggi daripada data nominal dan termasuk data kualitatif. Pada data
nominal semua data dianggap bersifat kualitatif dan setara, sedangkan pada data
ordinal terdapat klasifikasi data berdasarkan tingkatannya.

3. Rasio
Dalam ilmu statistika, data rasio merupakan tipe data dengan level pengukuran
yang paling tinggi dibandingkan dengan tipe data lain. Data ini termasuk dalam
kelompok data kuantitatif. Angka yang digunakan pada data ini menunjukkan
angka yang sesungguhnya, bukan hanya sebagai symbol dan memiliki nilai nol
yang sesungguhnya. Pada data ini, dapat dilakukan berbagai operasi matematik.

4. Interval
Data berjenis interval termasuk dalam kelompok data kuantitatif. Dalam ilmu
statistika, data Interval mempunyai tingkat pengukuran yang lebih tinggi
daripada data nominal maupun ordinal. Angka yang digunakan dalam data ini,
selain menunjukkan urutan juga dapat dilakukan operasi matematika. Angka nol
yang digunakan pada data interval bukan merupakan nilai nol yang nyata

III. Alat dan Bahan

A. Alat:

- Laptop

- R studio

B. Bahan:

- Hiccupsdata

- Festival Data

- Examanxiety

- Chickflick
IV. Langkah Kerja

a. Instalasi Package ggplot2


1. Buka software R, dan lakukan perintah instalasi paket dengan menekan
Pada kotak R console, ketikkan Install.packages(“ggplot2) lalu tekan enter
2. Lakukan langkah-langkah instalasi dan tunggu hingga proses selesai
3. Load paket ggplot2 dengan mengisikan perintah library(ggplot2) enter
untuk mengetahui package berhasil terpasang atau belum
4. ggplot2 berhasil terinstal

b. Hubungan antar grafik: Scatterplot


- Scatterplot sederhana
1. Buka software R dan input data yang akan digunakan dengan Ketikkan
perintah examAnxiety<- read.delim(file.choose(), header=TRUE) pada
R Console.
2. Pilih file yang akan digunakan “Exam Anxiety.dat” kemudian open.
3. Load data Exam Anxiety examAnxiety dan tekan enter.
4. Lakukan perintah Scatterplot sederhana untuk mengetahui hubungan
antar variabel Anxiety (sumbu x), dan Exam (sumbu y) mengisikan
perintah scatter<- ggplot (examAnxiety, aes(Anxiety, Exam)) dan
tekan enter.
5. Tampilkan visualisasi scatterplot dengan perintah scatter +
geom_point() + labs(x = "Exam Anxiety", y = "Exam Performance %")
Lalu tekan enter
- Menambahkan sebuah garis
1. Setelah scatterplot berhasil dibuat, maka langkah selanjutnya adalah
membuat garis halus yang menghubungkan variabel exam anxiety dan
exam performance dengan mengisikan perintah scatter + geom_point()
+ geom_smooth() + labs(x = "Exam Anxiety", y = "Exam Performance
%") dan Tekan enter.
2. Selain garis halus, pada subbab ini pengguna dapat membuat garis
regresi dengan menggunakan perintah tertentu dengan mengisikan
perintah scatter + geom_point() + geom_smooth(method = "lm",
colour = "Red", se = F) + labs(x = "Exam Anxiety", y = "Exam
Performance %") dan Tekan enter.
3. Jika pengguna ingin mengubah warna dan transparancy dari
confidence interval, maka dapat gunakan fill dan alpha aesthetics
dengan mengisikan perintah scatter + geom_point() +
geom_smooth(method = "lm", colour = "Red", alpha = 0.1, fill =
"Red") + labs(x = "Exam Anxiety", y = "Exam Performance %") dan
Tekan enter.

- Menggabungkan Scatterplot
1. Aturlah “gender” sebagai fokus kajian dan lakukan proses pada
console Masukkan perintah pada kotak dialog console dengan
mengisikan scatter<- ggplot(examAnxiety, aes(Anxiety, Exam,
colour = Gender)) kemudian isikan perintah scatter + geom_point() +
geom_smooth(method = "lm", aes(fill = Gender), alpha = 0.1) +
labs(x = "Exam Anxiety", y = "Exam Performance %", colour =
"Gender") Tekan enter

- Histogram
1. Buka software R dan isikan perintah pada kotak R Console untuk
input data dengan mengisikan perintah festivalData <-
read.delim(file.choose(), header = TRUE) pada R Console dan Tekan
enter.
2. Pilih file yang akan digunakan dengan menCari file
“DownloadFestival.dat” dan tekan open.
3. Load festivalData dengan mengisikan perintah “festivalData” dan
tekan Enter.
4. Lakukan perintah sederhana untuk memilih sebagian data yang akan
digunakan dengan mengisikan perintah pada kotak console
festivalHistogram<- ggplot(festivalData,aes(day1)) dan Tekan enter.
5. Pada langkah 4 terlihat bahwa histogram masih kosong, oleh karena
itu pengguna perlu menambahkan perintah graphical layer untuk
menambahkan histogram geom dengan cara memberi perintah
festivalHistogram + geom_histogram(binwidth = 0.4) + labs(x =
"Hygiene (Day 1 of Festival)", y = "Frequency") dan tekan enter.

- Boxplots
1. Menggunakan data “festivalData” yang telah diinput pada kotak
console sebelumnya, maka lakukan plot variabel gender sebagai sumbu
x,serta hygine score (day1) sebagai sumbu y dengan memasukkan
perintah pada console dengan mengisi perintah festivalBoxplot<-
ggplot(festivalData, aes(gender, day1)) kemudian festivalBoxplot +
geom_boxplot() + labs(x = "Gender", y = "Hygiene (Day 1 of
Festival)") dan Tekan enter untuk melihat hasilnya

c. Bar charts dan error bars


- Bar chart untuk satu independent variable
1. Buka software R dan input data yang akan digunakan dengan perintah
Ketikkan perintah chickFlick<- read.delim(file.choose(),
header=TRUE) pada R Console kemudian Tekan enter dan Pilih
chickFlick lalu tekan open.
2. Sebelum memulai membuat bar chart, maka tentukan data pada sumbu
x dan y yang akan digunakan dengan mengisi perintah bar<-ggplot
(chickFlick, aes(film, arousal)) lalu tekan enter.
3. Buatlah bar chart untuk satu independent variabel dengan
memasukkan perintah pada console kemudian Isikan perintah bar +
stat_summary(fun.y = mean, geom = "bar", fill = "White", colour =
"Black") + stat_summary(fun.data = mean_cl_normal, geom =
"pointrange") + labs(x = "Film", y = "Mean Arousal")

- Bar chart untuk beberapa independent variable


1. Dengan menggunakan data chickFlick, maka buatlah chart bar untuk
beberapa independent variabel berupa “gender” dengan memasukkan
perintah pada console dengan mengisikan perintah bar <-
ggplot(chickFlick, aes(film,arousal,fill= gender)) kemudian bar +
stat_summary(fun.y = mean, geom = "bar", position="dodge") +
stat_summary(fun.data = mean_cl_normal, geom = "errorbar",
position=position_dodge (width=0.90), width = 0.2) dan Tekan enter,
maka akan muncul bar chart

d. Line graphs
- Line graphs untuk satu independent variable
1. Buka software R dan isikan perintah pada kotak R Console untuk input
data dengan mengetikkan perintah hiccupsData <-
read.delim(file.choose(), header = TRUE) pada R Console dan Tekan
enter.
2. Pilih file yang akan digunakan dengan Cari file “Hiccups.dat “ dan tekan
open.
3. Load hiccupsData dengan mengisikan perintah “hiccupsData” dan Enter
4. Input data pada langkah 3 menunjukkan format yang salah untuk gglpot2,
oleh karena itu data tersebut perlu digabung kedalam satu kolom dengan
terlebih dahulu membuat dataframe dan mengisikan perintah tertentu pada
console. Dengan membuat Buatlah dataframe, dengan perintah: hiccups<-
stack(hiccupsData) kemudian names(hiccups)<-
c("Hiccups","Intervention ").
5. Buatlah variabel baru pada dataframe hiccups dengan nama
Intervention_Factor dengan mengisi perintah
hiccups$Intervention_Factor< factor (hiccups$Intervention,
levels(hiccups$Intervention) [c (1, 4, 2, 3)]) dan enter.
6. Aturlah objek yang akan di plot line dengan mengisi perintah <-
ggplot(hiccups, aes(Intervention_Factor, Hiccups)) dan enter dengan
mengisikan perintah line + stat_summary(fun.y = mean, geom = "point")
+ stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width =
0.2) + labs(x = "Intervention", y = "Mean Number of Hiccups") +
stat_summary(fun.y = mean, geom = "line", aes(group=1),colour = "Red",
linetype = "dashed") dan tekan enter.

V. Hasil Praktikum

1. Grafik (Terlampir)
VI. Pembahasan

Pada praktikkum kali ini, praktikkan akan melakukan eksplorasi data


Hiccupsdata, Festival Data, Examanxiety, dan Chickflick. Untuk menunjang
praktikkum kali ini, praktikkan menggunakan alat bantu berupa software
Rstudio dan laptop. Selain presentasi dan eksplorasi secara numerik, presentasi
dan eksplorasi data secara grafik juga menjadi pilihan yang belakangan
berkembang pesat. Kemajuan di bidang perangkat lunak statistika
memungkinkan kita menyajikan data secara grafik yang dalam banyak hal dapat
memberi gambaran lebih cepat. Oleh karena itu teknik presentasi dan eksplorasi
data secara grafik telah berkembang menjadi teknik yang banyak dipakai dalam
eksplorasi data yang dikenal dengan EDA (Exploratory Data Analysis).
Eksplorasi data dengan menggunakan grafik dapat memberikan gambaran
secara lebih menyeluruh dan lebih cepat tentang data terkait dengan distribusi,
struktur, ada tidaknya pencilan (outlier). Sebagian besar metode statistika yang
banyak dipakai (statistika parametrik), dikembangkan dengan asumsi bahwa
data berdistribusi mengikuti distribusi normal. Oleh karena itu pemeriksaan
perlu dilakukan bahwa data yang akan dianalisis tidak menyimpang dari
distribusi normal, Secara umum sifat-sifat data yang mengikuti distribusi
normal dapat dirangkum sebagai berikut:
1. Data bersifat kontinu, merupakan hasil pengukuran dan merupakan
sekala interval atau rasio.
2. Sebaran data bersifat simetris dengan modus tunggal.

Pemeriksaan secara kasar dan intuitif dapat dilakukan melalui grafik.


Sementara pemeriksaan yang lebih teliti dapat dilakukan melalui uji
kenormalan. Ada beberapa kemampuan grafik yang disediakan oleh
RCommander di antaranya adalah:
1. Histogram
2. Boxplot
3. QQ-plot
4. Pot nilai-tengah
5. Diagram pencar dan Matriks diagram pencar
6. Diagram pencar 3D.

Boxplot dapat memberikan gambaran yang lebih sepesifik tentang


distribusi data dibanding histogram. Boxplot dapat menggambarkan posisi
median, kuantil dan pencilan. Boxplot juga dapat dimanfaatkan dengan baik
untuk membandingkan distribusi dua atau lebih kelompok data. Boxplot
dapat digunakan untuk secara intuitif melihat kesimetrisan distribusi dan ada
tidaknya pencilan serta nilai ekstrim. Boxplot (memvisualisasikan data
dengan mengambarkan posisi kuantil (Q1, Q2 dan Q3). Dengan visualisasi
ini segera dapat dilihat apakah datanya bersifat simetris atau tidak.
Selanjutnya nilai R=Q3-Q1 dijadikan dasar untuk menentukan ada tidaknya
pencilan data. Boxplot memvisualisasikan posisi data yang berada pada jarak
lebih dari 3R terhadap median sebagai data pencilan atau ekstrim. Grafik
boxplot menunjukkan adanya kecenderungan ketidaksimetrisan data, namun
tidak mengandung pecilan maupun nilai ekstrim. Masing-masing kelompok
memiliki median yang relatif tidak sama, namun tidak bisa ditentukan apakan
bedanya signifikan atau tidak. Untuk data yang memiliki kelompok,
RCommander secara otomatis menawarkan pengubah kelompok yang
tersedia. Pada contoh di atas hanya ada satu pengelompokan (Tree, yang
terdiri atas lima jenis pengelompokan).

VII. Kesimpulan

Dari pembahasan diatas, dapat disimpulkan sebagai berikut:

1. Eksplorasi data merupakan langkah untuk memahami data sebelum


dilakukan praproses. Pemahaman data yang akan di-mining dapat
membantu dalam menentukan teknik-teknik praproses dan analisa data
terhadap data sebelum dilakukan tugas data mining.
2. Ada empat jenis tipe data yang digunakan, yakni:
a. Data Nominal
b. Data Ordinal
c. Data Rasio
d. Data Interval
3. Boxplot merupakan salah satu kemampuan grafik yang disediakan oleh
RCommander untuk melihat apakah data kita sudah tersebar secara
normal atau tidak. Boxplot memberikan gambaran yang sangat baik dalam
pengecekan distribusi data.

DAFTAR PUSTAKA
Arifin, M. (2014). KONSEP-KONSEP DASAR STATISTIKA.

Hidayatuloh, A. (2020). APLIKASI ANALISIS DATA UNTUK BISNIS.

R Core Team. (2020). R: A LANGUAGE AND ENVIRONMENT for


STATISTICAL COMPUTING. Vienna, Austria. Retrieved November 18,
2020, from https://bookdown.org/aepstk/analisisdatabisnis/daftar-pustaka.html

Sarvina, Y. (2017). PEMANFAATAN SOFTWARE OPEN SOURCE "R" UNTUK


PENELITIAN AGROKLIMAT. Informatika Pertanian, 23-30.
LAMPIRAN

Anda mungkin juga menyukai