MATEMATIKA&STATISTIKA
1. Jenis-jenis lisensi software
2. Software matematika&statistika
3. Sekilas tentang penggunaan software
matematika dan statistika
4. SPLUS dan R
5. Pengenalan R lebih lanjut
6. MAPLE
Free Software
Free
Software:
mengizinkan
Software
siapapun
yang
dalam
untuk
lisensinya
menggunakan,
Open Source
Open Source
Pengertian open source sebenarnya adalah
istilah pemasaran untuk free software.
Ada bermacam-macam lisensi di bawah Open
Source seperti : GPL, MPL, BSD License, UPL,
Artistic License, XPL, LGPL
Public Domain
Public Domain : Software yang tidak
dilindungi hak cipta. Versi penuh, source
code tersedia secara bebas untuk
dimodifikasi, dan didistribusikan ulang
dengan lisensi apapun.
Contoh : STP MP3 Player
Copylefted Software
Copylefted Software adalah free software
yang tidak mengizinkan distribusi ulang
atau modifikasi dengan menambahkan
batasan baru, sehingga setiap kopi
software ini dalam keadaan asli maupun
dimodifikasi haruslah tetap free software.
GPL Software
GNU GPL (General Public Licence)
adalah lisensi yang mendefinisikan
copylefted software.
Semi-Free Software
Semi-Free Software : Software yang nonfree,
namun
mengizinkan
untuk
menggunakan, mendistribusikan, dan
memodifikasinya
untuk
kepentingan
nonprofit.
Contoh : PGP
Freeware
Freeware adalah software yang bebas
digunakan dan didistribusikan sepanjang
tidak dimodifikasi (dan source codenya
tidak tersedia).
Contoh : StarOffice (versi 5.2), Winamp
(mulai
versi
2.50),
Netscape
communicator, Internet Explorer
Shareware
Pada umumnya shareware adalah software yang bebas
didistribusikan, namun berjangka waktu tertentu, untuk
pemakaian selanjutnya dikenakan pembayaran yang
berguna untuk : membuka (unlock) proteksi software,
menghilangkan peringatan (nagscreen), mengupgrade
(membuka) feature tambahan. Shareware umumnya
closed-source.
Contoh : Winzip, mIRC, MusicMatch Jukebox, Real
Jukebox
2. Software matematika&statistika
Ada bermacam-macam software yang dapat
kita gunakan dalam bidang matematika
dan statistika.
Pada dasarnya software tsb dibedakan
menurut cara penggunaannya (paket vs
program) atau menurut jenis lisensinya
(proprietary vs GPL)
Matlab
Mathematica
LINDO
LINGO
Dll.
PENGENALAN R
Apa itu R?
Kemampuan R
Beberapa Kemampuan R:
Design untuk stratifikasi, Klustering, multistage sampling,
unequal/weighted sampling probabilities,
Type estimasi dan analisis statistik: mean, quantiles, variance,
tables, ratios, total.
generalised linear models (misal linear regression, logistic
regression, Poisson models, dst.)
model hazards proporsional
post-stratifikasi dan ranking tests untuk asosiasi dalam tabel dua
arah.
MENJALANKAN R
Dobel klik ikon R yang ada di desktop atau
melalui start menu. Maka akan muncul tampilan:
Paket
Program R yang kita download dari CRAN berisi paket-paket dasar R, yang
mencakup beberapa perintah statistik dasar dan utilitas grafis.
Untuk berbagai jenis analisis statistik, kita perlu menginstal paket tambahan yang
dapat dilakukan dari menu drop-down (Paket -> Install paket).
Sebelum menggunakan paket, kita harus memuat itu untuk sesi kerja saat ini
(paket Load Paket->).
Kita dapat melihat daftar paket R yang tersedia untuk di-download di situs CRAN.
> 12*(127/13)-sqrt(2001/5)
[1] 97.22577
Hasil perhitungan
> dim(z)<-c(2,5)
>z
[,1] [,2] [,3] [,4] [,5]
[1,]
9 15 24
[2,]
7 12 19 30
> w=c(z,x^2,y^2,x*y)
> dim(w)<-c(5,5)
>w
[,1] [,2] [,3] [,4] [,5]
[1,]
1 12
1 144 12
[2,]
3 15
9 225 45
[3,]
5 19 25 361 95
[4,]
7 24 49 576 168
[5,]
9 30 81 900 270
X
Y
X^2
Y^2
X*Y
win.graph()
> x=0:20
plot(x,dbinom(x,size=
20,prob=0.3),type=
"o",lwd=4)
0.15
0.10
0.05
0.00
R dapat digunakan
untuk
menampilkan
beberapa distribusi
probabilitas
dengan mudah.
Contoh
Distribusi probabilitas
10
15
20
x
Plot distribusi binomial
dengan n=20 dan
p=0.3
0.4
> win.graph()
m=c(0,0.5))
0.3
0.2
>plot(x,dnorm(x,5,1),type="l",lty=1,lwd=2,yli
dnorm(x, 5, 1)
> x=seq(-1,10,length=1000)
0.0
0.1
> lines(x,dnorm(x,3,1),type="l",lty=4,lwd=2)
6
x
10
0.8
0.6
0.4
0.2
0.0
dnorm(x, 0, 0.5)
> x=seq(-5,5,length=1000)
> plot(x,dnorm(x,0,0.5),type="l",lty=4,
lwd=2)
> lines(x,dnorm(x,0,1),type="l",lty=3,
lwd=2)
> lines(x,dnorm(x,0,2),type="l",lty=2,
lwd=2)
> title("Plot distribusi normal dengan
mean sama variansi berbeda")
-4
-2
"package:boot"
"package:methods"
[4] "package:stats"
"package:graphics"
"package:grDevices"
[7] "package:utils"
[10] "package:base"
"package:datasets" "Autoloads"
Ada beberapa jenis struktur data di R: vektor, matriks, array, faktor, time series, dataframe
dan daftar.
Tutorial ini akan fokus pada dataframe karena merupakan struktur yang paling umum
digunakan untuk analisis statistik.
Data frame objek dua dimensi dan dapat berisi beberapa mode dalam satu objek. Mereka
termasuk nama variabel dan informasi mengenai variabel (jika, misalnya, mereka numerik
atau kategorikal). Data frame dapat berisi nilai hilang dikodekan sebagai NA, namun
sebagian besar analisis statistik akan meminta Anda untuk menghapus nilai-nilai yang
hilang. frame data dapat dibuat dengan data.frame () fungsi dari matriks atau daftar atau
diimpor langsung ke R dari file data eksternal.
Menampilkan Data
Untuk menampilkan data tsg digunakan perintah:
>mydata
Hasilnya adalah:
> class(mydata)
[1] "data.frame"
Terlihat bahwa data yang tdk lengkap sudak tidak ditampilkan lagi
(misal nomor 14, 15, 16 dan 18).
[1] ALGERIA
ARGENTINA
AUSTRALIA
AUSTRIA
BANGLADESH BELGIUM
BOLIVIA
BRAZIL
BURKINA FASO
[10] CAMEROON
CANADA
CHILE
COLOMBIA
CONGO
COSTA RICA DENMARK
DOMINICAN REP. ECUADOR
[19] EGYPT
EL SALVADOR FINLAND
FRANCE
GABON
GERMANY, WEST GHANA
GREECE
GUATEMALA
[28] GUYANA
HONDURAS
INDIA
INDONESIA
IRELAND
ISRAEL
ITALY
IVORY COAST JAMAICA
[37] JAPAN
JORDAN
KENYA
KOREA, REP. LUXEMBOURG MADAGASCAR MALAWI
MALAYSIA
MEXICO
[46] MOROCCO
NETHERLANDS NEW ZEALAND NICARAGUA
NIGERIA
NORWAY
PAKISTAN
PAPUA N.GUINEA PARAGUAY
[55] PERU
PHILIPPINES PORTUGAL
SINGAPORE
SPAIN
SRI LANKA
SWEDEN
SWITZERLAND SYRIA
[64] TAIWAN
THAILAND
TOGO
TRINIDAD&TOBAGO TUNISIA
TURKEY
U.K.
U.S.A.
UGANDA
[73] URUGUAY
VENEZUELA
ZAMBIA
117 Levels: ALGERIA ARGENTINA AUSTRALIA AUSTRIA BANGLADESH BELGIUM BENIN BOLIVIA BRAZIL BURKINA FASO BURUNDI CAMEROON CANADA ...
ZIMBABWE
>
Kita dapat merujuk variabel dengan nama saja setelah menggunakan fungsi attach
Fungsi detach() akan membatalkan attach().
> attach(mydata)
> country
[1] ALGERIA ARGENTINA AUSTRALIA AUSTRIA BANGLADESH BELGIUM [7] BENIN
BOLIVIA BRAZIL BURKINA FASO BURUNDI CAMEROON [13] CANADA CAPE
VERDE IS. CENTRAL AFR.R. CHAD CHILE CHINA
(dst.)
Fungsi names() akan menampilkan daftar nama-nama variabel:
> names(mydata)
[1] "country" "growth" "govspend" "invest" "colony" "openmarket" [8] "institutions"
Untuk mengganti nama variabel atau membuat/memberi nama variabel baru (jika
data tdk memuat nama variabel), gunakan syntax:
> names(mydata) <- c("Country", "Growth", "Gov.Spend", "Invest", "Colony",
"Open.Market", "Institutions")
Recoding variabel
Misalkan sekarang bahwa Anda ingin membuat variabel baru, Open.Market.Cat, yang
memiliki tiga kategori: 1 ketika Open.Market kurang dari 0,33, 2 ketika Open.Market
adalah antara 0,33 dan 0,66 dan 3 ketika Open.Market lebih besar dari 0,66:
> Mydata $ Open.Market.Cat [Open.Market <0,33] <- 1
> Mydata $ Open.Market.Cat [Open.Market> = 0,33 & Open.Market <=
0,66] <- 2
> Mydata $ Open.Market.Cat [Open.Market> 0,66] <-3
Selain menciptakan variabel baru, Anda juga mungkin ingin menghapus variabel yang
ada dari data yang Anda set. Untuk melakukannya, menetapkan bahwa variabel nilai
NULL:
> Mydata $ Open.Market.Dummy <- NULL
Meskipun R bukan merupakan lingkungan yang ideal untuk memasuki dan pengkodean
data secara manual, Anda dapat mengubah nilai sel data spesifik dengan menetapkan
nomor kolom dan baris. Sebagai contoh, perhatikan bahwa Australia tidak dikodekan
sebagai sebuah bekas koloni (Colony memiliki nilai 0). Untuk mengubah ini, tentukan
jumlah kolom dan baris dari pengamatan yang ingin Anda ubah. Australia adalah negara
ketiga di dataset, dan Colony adalah variabel kelima. Kemudian menetapkan bahwa
sebuah sel nilai 1:
> Mydata [3,5] <- 1
Menyimpan data
Untuk menyimpan data Anda sebagai file teks, gunakan perintah
write.table (). Tentukan nama objek data yang ingin Anda ekspor
(dalam hal ini, mydata), direktori di mana Anda ingin menyimpan file
dan metode pemisahan.
> write.table(mydata,
file=C:/Users/FST/Documents/AfricaData1.txt,
sep = ,)
Statistik Deskriptif
Selain dengan fungsi summary () seperti di atas, statistik deskriptif untuk variabel
individudapat diperoleh, menggunakan fungsi-fungsi berikut:
mean (), median (), max (), min (), range (), var (), sd (), kuantil (), fivenum (), panjang (),
which.max (), which.min ().
Misalnya, untuk memperoleh rentang dan deviasi standar dari variabel Gov.Spend,
ketik:
> range (Gov.Spend)
[1] 0,0057 0,3280
> sd (Gov.Spend)
[1] ,06049456
Untuk statistik deskriptif bivariat, menggunakan fungsi cor () dan cov (). Contoh: untuk
menemukan hubungan antara variabel Growth dan Invest, ketik:
> cor (growth, Invest)
[1] 0,4751891
Untuk menemukan matriks korelasi dan kovarians dari mydata, pilih semua variabel
tetapi Country (karena merupakan karakter string) dengan meminta R untuk
memasukkan pengamatan hanya dari kolom kedua sampai kedelapan:
> cor (mydata [, 2:08])
> cov (mydata [, 2:08])
Visualisasi data
Untuk membuat scatterplot dari dua variabel, misalnya, Invest dan Institutions,
gunakan sintaks berikut:
> plot (Institutions, Invest, xlab = Quality of Institutions",
ylab = "Share of Invesment", utama = "Investment by Quality of Institutions", col ="
blue ")
> abline (lm (Invest ~ Institutions), col = "red")
Kode tsb menghasilkan scatter plot di bawah ini. Argumen utama, xlab dan ylab
menentukan judul plot dan label sumbu x dan y, masing-masing. Perubahan pelana
argumen warna poin dari default, hitam. Selain itu Anda dapat menambahkan baris
ke diagram pencarnya dengan menentukan kemiringan dan titik potong garis dengan
fungsi lm()
HISTOGRAM
Data Analysis
Selain fitting model orde pertama untuk variabel Institutions dan Open.Market,
kita dapat memasukkan faktor interaksi antara variabel Institutions dan
Open.Market, termasuk faktor polinomial (misalnya, Institutions ^ 2) atau
mengecualikan intersep dari model . Masing-masing model ini dijelaskan dalam
Tabel berikut:
Selanjutnya kita harus mengevaluasi hasil model dengan memeriksa
kesalahan sisa dan data pencilan yang signifikan. Salah satu cara untuk
melakukannya adalah dengan menggunakan fungsi plot () :
> layout (matrix (1:4, 2, 2))
> plot (results1)
One-way ANOVA
Analisis varians (ANOVA) mudah diterapkan di R. Kembali ke contoh pada
pelaksanaan t-test, misalkan kita ingin membandingkan nilai rata-rata kualitas
institusi untuk bekas koloni dan negara-negara tanpa sejarah kolonial dengan analisis
varians satu arah.
Kita dapat mulai analisis dengan boxplot dalam rangka untuk membandingkan
distribusi kualitas lembaga untuk koloni dan tidak. Gunakan fungsi boxplot () dan
tentukan variabel Institutions sebagai variabel numerik dan variabel Colony sebagai
faktor. Perintahnya adalah;
>boxplot(split(Institutions, Colony), xlab="Colony", ylab="Quality of Institutions",
main="Quality of Institutions by Colony", col="gray")
Untuk pengujian ANOVA, gunakan fungsi aov(), tentukan rumus model dan dataset
yang akan digunakan serta nama penyimpanan hasilnya dalam R object ( misal.
Results5). Selanjutnya gunakan fungsi summary() untuk melihat hasilnya.
> results5 <- aov(Institutions~Colony, data=mydata)
> summary(results5)
R Output
Working with output
Selain dengan menyalin output R dan paste ke file teks, fungsi wastafel ()
memungkinkan kita untuk mengirim output R langsung ke file teks eksternal.
Baris pertama dari kode di bawah ini menetapkan direktori dan file di mana output
akan disimpan, jika argumen split adalah TRUE, output akan dikirim ke file eksternal
maupun ditampilkan di R konsol (split set ke FALSE jika kita lebih suka output Anda
tidak akan ditampilkan di konsol).
Baris kedua adalah analisis statistik yang dilakukan. Kita dapat menjalankan
beberapa analisis, yang semuanya akan dikirim ke file output.txt.
Akhirnya, fungsi sink() memotong proses, dan analisis berikutnya tidak dikirim ke file
output.txt.
> sink("C:/user/temp/output.txt", split=T)
> lm(Invest~Institutions+Gov.Spend+Growth+Open.Market)
> sink()
Untuk mengexport grafik R ke file external, gunakan fungsi jpeg(), yang akan
menentukan direktori dan file (extension .jpg) mana grafik R akan disimpan.
Perintah berikut meminta R membuat plot. Selanjutnya fungsi dev.off() akan
mematikan fungsi jpeg() sehingga tidak disimpan sebagai file external .jpeg:
> jpeg("C:/Users/FST/Documets/histogram.jpg")
> layout(matrix(1:4, 2, 2))
> plot(results1)
> dev.off()
SPLUS
S-PLUS dirancang oleh AT&T Bell Labs dengan menggunakan
bahasa S yang merupakan object-oriented language.
S-PLUS dapat menangani data, functions, dan fitted models
sebagai objects, sehinga membuat analisis data menjadi lebih
fleksibel. Dengan fleksibilitas dari S-PLUS kita dapat mencocokkan
model dengan metode klasik atau modern.
Kemampuan SPlus
Beberapa kemampuan S-PLUS:
Statistical Inference: One and Two Sample Problems
Statistical Inference for Counts and Proportions
Cross-Classified Data and Contingency Tables
Regression and Smoothing
Generalized Linear Model
Local Regression Model
Classification and Regression Trees
Univariate and Multivariate ANOVA
Principal Components Analysis
Factor Analysis
Cluster Analysis
Time Series Analysis
Survival Analysis
Quality Control Charts
Mathematical Computing
Tampilan SPLUS
SPLUS 2000
SPLUS 2000 direlease oleh AT&T Bell Labs pada tahun 1999 dalam 2 versi:S-PLUS 2000
Professional dan S-PLUS 2000 Standard
Edition.
Persamaan: SPLUS 2000 Standard Edition dan keduanya sudah berbasis graphical user
Interface
Perbedaan: S-PLUS 2000 Professional memiliki Commands atau Script windows, Commands
History dan access to libraries and modules sedang SPLUS 2000 Standard Edition Tidak
memiliki.
S-PLUS 2000 memiliki jenis-jenis plot yang lengkap, compatible dengan Microsoft Officeuserinterface sehingga memberikan banyak kemudahan dalam manipulasi data, grafik dan
statistik.
Dengan S-PLUS 2000 Professional kita dapat memprogram dengan S-PLUS programming
language berbasis bahasa S yang dikembangkan Lucent Technologies. Dengan demikian kita
dapat membuat functions sesuai kehendak kita (fleksibel).
Generalized linear
models
Log-linear (Poisson)
regression
Logistic regression
Probit regression
LINEAR REGRESSION
Digunakan untuk menerangkan pengaruh
variabel kontinu atau kategori terhadap
respons kontinu.
Langkah-langkah:
1. Buka Menu utama dan pilih
StatisticsRegression>Linear, maka
akan muncuk dialog box:
2. Masukkan/ketikkan nama data file pada menu Data Set (misal exair)
3. Masukkan/Pilih variabel bebas (misal ozone) dan variabel tak bebas (misal
temperature) pada menu variables dependen dan Independennya atau
tuliskan hubungan antar variabel pada menu Formula (misal
ozone~temperature):
Untuk menampilkan plot data dan estimasi garis regresi linear, kita
dapat memilih menu Plot pada dialog Linear Regression dan
centang ke-7 plot diagnostiknya, kemudian tekan OK:
Residual Normal QQ
Cooks Distance
Partial Residuals
Contoh lain
Analisis regresi yang lain, seperti:
Robust MM regression
Robust LTS regression
Stepwise linear regression
Generalized additive model
Local (loess) regression, dll,
Dapat dilakukan secara sama dengan memilih
teknik yang sesuai pada option Regression.
Misal:
Statistics Regression>Robust MM