Anda di halaman 1dari 24

2

Kerangka data

Mempelajari cara menangani data Anda, cara memasukkannya ke komputer, dan cara
membaca data ke R adalah di antara topik paling penting yang perlu Anda kuasai. R
menangani data dalam objek yang dikenal sebagai dataframe. Dataframe adalah objek dengan
baris dan kolom (sedikit seperti matriks dua dimensi). Baris berisi pengamatan berbeda dari
penelitian Anda, atau pengukuran dari percobaan Anda. Kolom berisi nilai-nilai yang berbeda
variabel. Nilai-nilai dalam tubuh dataframe bisa berupa angka (seperti yang akan ada di
sebagai matriks), tetapi bisa juga berupa teks (mis. nama tingkat faktor untuk kategori
variabel, seperti ‘pria’ atau ‘wanita’ dalam variabel yang disebut ‘gender’), mereka bisa
berupa kalender tanggal (seperti 23/5/04), atau mereka bisa menjadi variabel logis (seperti
'BENAR' atau 'SALAH'). Disini adalah spreadsheet dalam bentuk kerangka data dengan tujuh
variabel, yang paling kiri terdiri dari nama-nama baris, dan variabel lainnya adalah numerik
(Luas, Kemiringan, pH Tanah dan Kepadatan cacing), kategoris (Nama Bidang dan Vegetasi)
atau logis (Basah juga true = T atau false = F).
Mungkin hal yang paling penting tentang menganalisis data Anda sendiri dengan
benar adalah mendapatkan kerangka data Anda benar sekali. Harapannya adalah Anda akan
menggunakan spreadsheet seperti Excel untuk memasukkan dan mengedit data, dan bahwa
Anda akan menggunakan plot untuk memeriksa kesalahan. Hal yang perlu latihan adalah
belajar bagaimana tepatnya memasukkan nomor Anda ke dalam spreadsheet. Ada banyak
cara untuk melakukan kesalahan, tetapi hanya satu cara melakukannya dengan benar. Dan
cara ini bukanlah cara yang kebanyakan orang temukan secara intuitif sebagai yang paling
jelas.

Kuncinya adalah ini: semua nilai dari variabel yang sama harus masuk dalam kolom
yang sama. Itu Kedengarannya tidak banyak, tapi inilah yang cenderung membuat orang
salah. Jika Anda punya Percobaan dengan tiga perawatan (kontrol, pra-panas dan pra-dingin),
dan empat pengukuran per perawatan, mungkin tampak seperti ide yang baik untuk membuat
spreadsheet seperti ini:

Tapi ini bukan kerangka data, karena nilai-nilai variabel respons muncul dalam tiga
yang berbeda kolom, bukan semua di kolom yang sama. Cara yang benar untuk memasukkan
data ini adalah memiliki dua kolom: satu untuk variabel respons dan satu untuk tingkat faktor
eksperimental (kontrol, pra-panas dan pra-dingin). Berikut adalah data yang sama,
dimasukkan dengan benar sebagai kerangka data:
Cara yang baik untuk berlatih tata letak ini adalah dengan menggunakan fungsi Excel
yang disebut PivotTable (ditemukan di bawah tab Sisipkan pada bilah menu utama) pada data
Anda sendiri: ini membutuhkan spreadsheet Andaberada dalam bentuk kerangka data, dengan
masing-masing variabel penjelas di kolomnya sendiri. Setelah Anda membuat kerangka data
di Excel dan memperbaiki semua entri data yang tak terhindarkan dan kesalahan ejaan, maka
Anda perlu menyimpan dataframe dalam format file yang bisa dibaca R. Banyak cara paling
sederhana adalah menyimpan semua dataframe Anda dari Excel sebagai koma-dibatasi file:
File / Simpan Sebagai /. . . lalu dari opsi ‘Simpan sebagai tipe’ pilih ‘CSV (Koma dibatasi) ’
Tidak perlu menambahkan akhiran, karena Excel akan secara otomatis menambahkan ‘.csv’
ke nama file Anda. File ini kemudian dapat dibaca ke R secara langsung sebagai kerangka
data, menggunakan fungsi read.csv.

Pikirkan nama untuk kerangka data (misalnya, 'cacing' dalam kasus ini). Sekarang
gunakan panah get <− yang merupakan simbol gabungan yang terdiri dari dua karakter
<(kurang dari) dan − (minus) seperti ini

Untuk melihat variabel mana yang termasuk dalam kerangka data ini, kami
menggunakan fungsi nama:
Agar kita dapat merujuk ke nama variabel secara langsung (tanpa awalan oleh nama
dataframe) kami lampirkan dataframe:

Untuk melihat isi kerangka data, ketikkan namanya:

Nama-nama variabel muncul di nomor baris 1. Perhatikan bahwa R telah diperluas


disingkat kami T dan F menjadi BENAR dan SALAH.

Memilih Bagian dari Dataframe: Subskrip

Kami sering ingin mengekstrak bagian dari kerangka data. Ini adalah prosedur yang
sangat umum dalam R, dicapai menggunakan apa yang disebut subskrip. Anda dapat
menganggap subskrip sebagai alamat dalam suatu vektor, suatu matriks atau suatu dataframe.
Subskrip dalam R muncul dalam kurung siku, dengan demikian y [7] adalah elemen ke-7 dari
vektor yang disebut y dan z [2,6] adalah baris ke-2 dari kolom ke-6 dari matriks dua dimensi
yang disebut z. Ini berbeda dengan argumen untuk fungsi di R, yang muncul dalam kurung
bulat (4,7) .
Kami mungkin ingin memilih semua baris kerangka data untuk kolom tertentu yang
ditentukan. Atau kita mungkin ingin memilih semua kolom untuk baris tertentu dari bingkai
data. Itu konvensi dalam R adalah bahwa ketika kita tidak menentukan subskrip apa pun,
maka semua baris, atau semua kolom diasumsikan. Sintaks ini sulit dimengerti pada kenalan
pertama, tetapi [, ‘Kosong lalu koma’ berarti ‘semua baris’ dan,] ‘koma lalu kosong means
berarti semua kolom.Misalnya, untuk memilih kolom pertama dari kerangka data, gunakan
subskrip [, 1]. Memilih grup kolom kami berikan beberapa nomor kolom. Jadi, untuk
memilih semua baris tiga kolom cacing pertama, kami menulis:

Untuk memilih hanya 11 baris tengah untuk semua kolom kerangka data, gunakan
subskrip [5:15,] seperti ini:
Seringkali berguna untuk memilih baris tertentu, berdasarkan tes logis pada nilai satu
atau lebih variabel. Berikut adalah kode untuk memilih hanya baris-baris yang memiliki
Area> 3 dan Slope <3 menggunakan ‘koma lalu kosong’ untuk menentukan semua kolom
seperti ini:

Penyortiran

Anda bisa mengurutkan baris atau kolom kerangka data dengan cara apa pun yang
Anda pilih, tetapi biasanya Anda akan ingin melihat semua kolom dan mengurutkan
berdasarkan nilai dalam satu atau lebih kolom. Secara default, hal-hal dalam R diurutkan ke
dalam urutan naik (mis. Ke dalam abjad memesan untuk data karakter, dan meningkatkan
urutan angka untuk angka). Cara paling sederhana untuk sort adalah menggunakan nama
variabel. Misalkan kita ingin seluruh kerangka data diurutkan berdasarkan Area:
Poin utama yang perlu diperhatikan adalah bahwa order (Area) datang sebelum koma,
dan ada yang kosong setelah koma (yang berarti kita menginginkan semua kolom). Nomor
baris asli muncul di sebelah kiri kerangka data yang diurutkan.

Sekarang anggaplah kita hanya ingin kolom yang berisi informasi numerik muncul di
keluaran; ini adalah nomor kolom 2, 3, 5 dan 7:
Untuk mengurutkan hal-hal menjadi urutan menurun kami menggunakan fungsi
terbalik rev seperti ini :
yang menyortir dalam urutan menurun oleh pH Tanah, dengan hanya pH Tanah dan
kerapatan Cacing sebagai output (karena c (5,7)). Ini menunjukkan bahwa Anda dapat
menentukan variabel pengurutan baik dengan nama (seperti yang kami lakukan dengan Area
di atas) atau dengan nomor kolom (seperti yang kami lakukan dengan Soil.pH di sini dengan
menentukan nomor kolom 5).

Meringkas Konten Bingkai Data

Objek yang disebut worm sekarang memiliki semua atribut dari suatu kerangka data.
Misalnya, Anda bisa meringkasnya, menggunakan ringkasan:

Nilai variabel kontinu dirangkum dalam enam pos: satu parametrik (the rata-rata
aritmatika) dan lima non-parametrik (maksimum, minimum, median, persentil ke-25 atau
kuartil pertama, dan persentil ke-75 atau kuartil ketiga). Tingkat variabel kategorik dihitung.

Meringkas oleh Variabel Penjelasan

Fungsi yang Anda perlu kuasai untuk meringkas informasi kuantitatif dalam kerangka data
adalah disebut agregat. Anda akan sering ingin mengetahui nilai rata-rata variabel kontinu
dalam kerangka data yang dirangkum oleh tingkat faktor dari satu atau lebih kategori
variabel. Sebagai contoh, kita mungkin ingin mengetahui jumlah rata-rata cacing yang
berbeda komunitas tumbuhan. Untuk variabel respons tunggal seperti Worm.density, Anda
dapat menggunakan tapply dan dengan seperti ini:
Namun, pada tahap awal analisis, kita sering ingin melihat nilai rata-rata dari semua
variabel kontinu diringkas pada saat yang sama, dan di sinilah agregat masuk itu sendiri. Kita
perlu melakukan sedikit pekerjaan di muka, dengan mencatat nomor kolom yang
mengandung variabel yang akan berguna dan masuk akal untuk menghitung rata-rata nilai
(mis. kolom yang berisi bilangan real). Ini adalah Area dan Slope pada kolom 2 dan 3
masing-masing, Soil.pH di kolom 5 dan Worm.density di kolom 7. Untuk mendapatkan
mereka nilai rata-rata yang diklasifikasikan berdasarkan komunitas tumbuhan yang kita
butuhkan hanya mengetik:

yang menyebabkan semua nilai rata-rata dicetak. Apakah Anda tahu mengapa ada
koma setelahnya? braket persegi kiri di cacing? Perhatikan bahwa kolom berisi level Vegetasi
dipimpin oleh Grup.1. Ini adalah default yang digunakan oleh agregat. Di dalam kolom,
tingkat Vegetasi muncul dalam urutan abjad. Untuk mendapatkan kolom yang dipimpin
‘Komunitas’ bukannya Grup.1 kami membubuhi keterangan daftar seperti ini:

Anda dapat melakukan beberapa klasifikasi menggunakan dua atau lebih variabel
penjelas kategori: di sini adalah ringkasan yang meminta nilai rata-rata secara terpisah untuk
setiap tingkat kelembaban tanah dalam setiap jenis vegetasi
Anda akan melihat bahwa agregat hanya menghasilkan baris-baris yang memiliki
output (di sana tidak ada padang rumput kering, dan tidak ada kebun basah atau kebun basah,
misalnya). Ini berbeda dengan tapply, yang menghasilkan NA untuk kombinasi yang hilang:

Anda memilih antara agregat dan mengetuk atas dasar mana yang melayani Anda
membutuhkan yang terbaik dalam kasus tertentu, mengingat bahwa tapply hanya dapat
merangkum satu variabel pada suatu waktu.

Jawaban untuk kuis (di atas) adalah bahwa koma setelah tanda kurung siku berarti
‘pilih semua dari baris dalam kerangka data ’. Jika kita hanya menginginkan beberapa baris,
maka kita perlu melakukannya tentukan baris mana, sama seperti kita menentukan kolom
mana yang ingin kita gunakan c (2,3,5,7).

Hal Pertama Yang Pertama: Mengenal Data Anda

Begitu data ada di komputer, godaan akan langsung masuk ke statistik analisis. Ini
adalah hal yang salah untuk dilakukan. Anda harus mengetahui data Anda terlebih dahulu. Ini
sangat penting sejak awal dalam suatu proyek, karena ada peluang yang sangat tinggi data
mengandung kesalahan. Jelas, ini harus diluruskan sebelum sesuatu yang masuk akal bisa
diselesaikan.

Sama pentingnya, jika Anda tidak tahu seperti apa data Anda, maka Anda tidak akan
tahu model apa yang harus dipilih agar sesuai dengan data (mis. garis lurus atau garis
melengkung), atau apakah itu asumsi model yang Anda maksudkan dipenuhi oleh data (mis.
kesesuaian varian dan normalitas kesalahan).

Prosedur yang disarankan adalah ini. Pertama, cukup plot variabel responsnya pada
sendiri. Ini disebut plot indeks. Ini akan ditampilkan jika ada kesalahan mencolok pada data
dan apakah ada tren atau siklus dalam nilai-nilai respons ketika muncul kerangka data.

Inspeksi data tidak bisa lebih sederhana. Cukup plot nilai-nilai y menggunakan plot
(y). Ini menghasilkan sebar dengan nilai-nilai y muncul dari kiri ke kanan dalam urutan di
manamereka muncul di kerangka data:

Satu titik data menonjol seperti jempol yang sakit. Kita harus kembali ke notebook lab
dan periksa apa yang terjadi. Sangat berguna untuk mengetahui baris dataframe yang berisi
nilai y yang luar biasa besar. Ini mudah dikerjakan dengan menggunakan fungsi which .
Inspeksi plot menunjukkan bahwa titik data kami yang meragukan adalah satu-satunya yang
lebih besar dari 10, sehingga kami dapat menggunakannya which fungsinya seperti ini:

jadi titik data terluar ada di baris 50 dari spreadsheet. Sekarang kita harus kembali ke
lab memesan dan mencoba mencari tahu apa yang terjadi. Apa nilai pastinya? Kita gunakan
subskrip [tanda kurung] untuk ini. Kami ingin nilai ke-50 dari y:

Buku lab menunjukkan bahwa nilainya harus 2,179386. Yang terjadi adalah mengetik
kesalahan telah menempatkan titik desimal di tempat yang salah. Jelas kami harus mengubah
entri di spreadsheet dan mulai lagi. Sekarang ketika kita menggunakan plot untuk memeriksa
data, sepertinya ini

Tidak ada alasan untuk mencurigai salah satu poin data. Data tidak cenderung dengan
urutan masuk, dan tingkat sebaran terlihat konsisten dari kiri ke kanan. Itu bagus berita.
Penting untuk menghargai bahwa pencilan tidak selalu kesalahan. Kebanyakan outlier
akan melakukannya menjadi nilai asli dari respons. Poin kunci tentang pencilan adalah Anda
harus sadar keberadaan mereka (plot akan menunjukkan ini) dan untuk memahami seberapa
besar pengaruh outlier dalam menentukan ukuran efek dan kesalahan standar dalam model
yang Anda pilih. Poin penting ini adalah dibahas pada hal. 135. Sekarang lakukan hal yang
sama untuk masing-masing variabel penjelas kontinu gantinya.

Untuk memeriksa kesalahan dalam tingkat faktor variabel penjelas kategoris, Anda
menggunakan fungsi tabel. Ini menunjukkan berapa kali masing-masing level faktor muncul
secara khusus kolom bingkai data. Kesalahan akan disoroti karena akan ada lebih banyak
faktor tingkat dari yang seharusnya. Berikut adalah variabel yang disebut pengobatan dari
percobaan pada aplikasi pupuk dan pertumbuhan tanaman. Ada empat tingkatan faktor:
kontrol, nitrogen, fosfor dan N dan P. Inilah cara kami memeriksa data:

Seperti yang Anda lihat, variabel yang disebut pengobatan adalah faktor dengan teks
('kontrol' pada enam ini baris) entri untuk menggambarkan yang mana dari empat perlakuan
yang diterapkan untuk mendapatkan hasil dalam kolom 2. Inilah cara kami memeriksa tingkat
faktor:

Ada lima level faktor yang dicetak daripada empat yang kami harapkan, jadi jelas itu
sesuatu yang salah. Apa yang terjadi adalah bahwa salah satu nilai nitrogennya adalah salah
eja sebagai nitogen dengan hasil hanya ada 9 nilai nitrogen (bukan 10 kita harapkan) dan
kolom tambahan di tabel dengan satu entri untuk kesalahan ejaan. Selanjutnya Langkahnya
adalah mencari tahu di baris mana kesalahan terjadi, lalu berbekal informasi ini, lanjutkan
kembali ke spreadsheet asli dan perbaiki kesalahannya. Ini mudah menggunakan fungsi
which . Perhatikan penggunaan 'ganda sama dengan' untuk memeriksa kesetaraan):

Kesalahannya adalah di nomor baris 11. Kita perlu memperbaiki garis itu di
spreadsheet. Membuat perubahan lalu mulai lagi, dengan membaca dataframe yang baru
dikoreksi menjadi R. Periksa semua data Anda variabel, kontinu dan kategoris, satu per satu
dan memperbaiki semua kesalahan yang Anda temukan. Sekarang saatnya untuk melihat
hubungan antar variabel.

Hubungan /Relationships

Tempat untuk memulai adalah dengan hubungan berpasangan. Ketika kedua variabel kontinu,
grafik yang sesuai adalah sebaran:

Variabel respon adalah y dan variabel penjelas adalah x, jadi kami menulis plot (x, y)
atau plot (y∼x) untuk melihat hubungan (dua bentuk plot menghasilkan grafik yang sama;
pilihan yang digunakan sepenuhnya terserah Anda). Kami memperkenalkan dua fitur baru
untuk menyesuaikan plot: mengubah simbol ploting (pch berarti 'karakter plot') dari default
lingkaran terbuka yang telah kami gunakan sejauh ini untuk cakram berwarna dengan tepi
hitam (pch = 21) dan pilih warna cerah untuk isi disk ('latar belakang' seperti yang disebut
dalam R, menggunakan bg = "red"):

Alur ini segera memberi tahu kami dua masalah penting: (1) hubungan antara respon
dan variabel penjelasnya adalah melengkung, bukan garis lurus; dan (2) tingkat sebaran
variabel respons meningkat dari kiri ke kanan (ini yang tidak konstan varians
(heteroskedastisitas) terlihat seperti). Kedua fitur data ini bukan kesalahan, tetapi mereka
adalah elemen yang sangat penting dalam pemilihan model (meskipun berkorelasi positif
antara x dan y, kami tidak akan melakukan regresi linear pada data ini, misalnya).

Ketika variabel penjelas kategorikal, fungsi plot menghasilkan kotak-dan kumi


merencanakan. Ini sangat berguna untuk pengecekan kesalahan, seperti contoh berikut
menggambarkan:
Ada tiga variabel respons kontinu potensial dalam kerangka data ini (maksimum
harian suhu ‘atas’ dalam derajat Celcius, suhu minimum harian ‘lebih rendah in dalam derajat
Celsius, dan total curah hujan harian 'hujan' dalam milimeter) dan dua variabel kuantitatif itu
kita dapat memilih untuk mendefinisikan sebagai kategori (bulan dan tahun). Di sini, kami
melakukan inisialm pemeriksaan data suhu maksimum. Perhatikan bahwa ketika fungsi plot
dipanggil dengan variabel penjelas kategoris - faktor (bulan) dalam hal ini - maka R
menghasilkan a plot kotak-dan-kumis daripada sebaran (lihat hal. 67 untuk detail).

Plot kotak-dan-kumis menunjukkan pola musiman yang sangat jelas dari suhu rata-
rata, memuncak pada Juli dan Agustus dan mencapai minimum pada Januari. Rincian apa
kotak dan kumis rata-rata dijelaskan pada hal. 161. Untuk tujuan kita saat ini, kita
berkonsentrasi pada pemeriksaan kesalahan.

Plot menunjukkan hari pembekuan (maksimum 0) pada bulan Juni (bulan = 6), yang
belum pernah terjadi saat ini lokasi. Ternyata termometer pecah pada hari ini dan digantikan
oleh yang baru. Nilai yang hilang untuk hari kerusakan secara bodoh dimasukkan sebagai nol
(seharusnya telah NA). Sekali lagi, kita kembali ke spreadsheet dan mengganti 0 yang salah
denganNA yang benar (ini berarti tidak tersedia; perhatikan bahwa NA tidak dilampirkan
dalam tanda kutip).
Mencari Interaksi antara Variabel Kontinu

Setelah kesalahan yang jelas telah diperbaiki, pertanyaan selanjutnya menyangkut


pilihan model. Untuk Misalnya, apakah respons terhadap satu variabel tergantung pada
tingkat variabel lain? (dalam jargon, ini dikenal sebagai interaksi statistik). Dengan variabel
penjelas kontinu, kita dapat mencari efek interaksi menggunakan plot pengkondisian
(biasanya dikenal sebagai coplots).

Dengan variabel penjelas kategoris, kita dapat mencari efek interaksi menggunakan
barplot. Di sini kita memiliki satu variabel respons (y) dan dua variabel penjelas kontinu (x
dan z):

Dua plot scatter berdampingan terlihat lebih baik jika kita mengubah bentuk jendela
ploting dari kuadrat default (7 × 7 inci) ke persegi panjang (7 × 4 inci) seperti ini:

kemudian ubah parameter grafik untuk menentukan dua set sumbu pada baris yang
sama (lihat hal. 134 untuk detail):

Tidak ada hubungan yang jelas antara respons dan keduanya variabel penjelas ketika
mereka dipasang sendiri:
Untuk mencari interaksi antara variabel penjelas kontinu (seperti x dan z dalam hal ini
contoh) kami menggunakan fungsi grafis luar biasa yang disebut coplot. Plot fungsi y
terhadap x tergantung pada nilai z. Fungsi ini sangat mudah digunakan. Simbol itu mungkin
baru bagi Anda adalah bilah vertikal | yang dibaca sebagai 'diberikan'. Sintaksnya
mengatakan ‘plot y terhadap x diberi nilai z ’dan ditulis sebagai plot (y∼x | z). Standarnya
adalah untuk membagi data menjadi enam grafik (tetapi Anda dapat mengubahnya jika Anda
mau). Keenam data dengan yang terendah

nilai z muncul di panel kiri bawah sebagai plot y terhadap x. Untuk meningkatkan
penampilan plot kita dapat menggunakan simbol plot hitam pekat (pch = 16) dan cocok
dengan garis tren melalui scatterplot berwarna merah (ini disebut non-parametrik lebih halus,
dan dipanggil oleh fungsi panel.smooth). Pertama kita kembali ke bentuk jendela default (7 ×
7 inci):

lalu kita menggambar plot pengkondisian:


Ini menunjukkan hubungan yang sangat jelas antara variabel respons dan x, tetapi
bentuk hubungan tergantung pada nilai z (yang kedua dari penjelasan kontinu kami variabel).
Untuk nilai z yang rendah (di panel kiri bawah) hubungan antara y dan x sangat negatif.
Untuk nilai z yang tinggi (kanan atas) hubungannya sangat positif. Sebagai z bertambah (dari
kiri bawah ke kanan bawah, kemudian dari kiri atas ke kanan atas), kemiringan hubungan
antara y dan x meningkat agak lancar dari nilai negatif besar ke nol kemudian ke nilai yang
semakin positif. Hanya coplot yang dapat menunjukkan interaksi seperti ini sederhana dan
jelas.

Bagian atas gambar dapat membingungkan bagi pemula. Garis horizontal berbayang
adalah disebut sirap (setelah kata Amerika untuk genteng) dan mereka menunjukkan kisaran
nilai variabel (z dalam contoh ini) digunakan untuk menghasilkan masing-masing dari enam
petak panel. Bagian bawah (kiri) sirap menunjukkan bahwa panel kiri bawah (dengan
hubungan negatif yang kuat antara y dan x) didasarkan pada data yang dipilih untuk memiliki
nilai z antara 10 dan 20 (lihat skala pada sumbu atas di bawah 'Diberikan: z'). Panel
berikutnya menggunakan data dengan nilai z antara 13 dan 30, selanjutnya antara 20 dan 40,
dan seterusnya. Herpes zoster bertumpang tindih karena itulah pengaturan default (lihat?
coplot untuk detail over lap = 0,5): untuk plot non-tepi, setengah dari titik data dibagi dengan
panel di sebelah kiri, dan setengahnya dibagi dengan panel di sebelah kanannya. Anda dapat
menentukan panel yang tidak tumpang tindih jika itu yang Anda inginkan (over lap = 0).

Grafik untuk Membantu dengan Regresi Berganda

Masalah menjadi paling akut ketika kita memiliki banyak variabel penjelas kontinu
dan data berasal dari studi observasional di mana kami tidak memiliki kendali atas replikasi
atau pengacakan. Dalam set data seperti ini, variabel penjelas sering berkorelasi dengan
masing-masing lain (model paling sederhana mengasumsikan bahwa variabel penjelas adalah
independen - ortogonal dalam jargon). Kami membahas masalah ini secara rinci dalam Bab
10, tetapi saat ini tahap kami hanya mengamati bahwa tidak ada obat yang mudah untuk ini.
Dua alat yang sangat berguna untuk investigasi awal dari data regresi berganda adalah model
pohon dan digeneralisasi model aditif, seperti yang diilustrasikan pada hal. 197.

Interaksi yang Melibatkan Variabel Kategorikal

Data berikut berasal dari percobaan faktorial yang melibatkan nitrogen dan fosfor pupuk
diterapkan secara terpisah dan dalam kombinasi:

ada satu variabel respon kontinu (hasil) dan dua penjelasan kategori variabel (nitrogen dan
fosfor) masing-masing dengan dua tingkat (ya dan tidak, artinya pupuk telah atau tidak
diterapkan pada plot yang dimaksud). Pertama kita melihat efek dari keduanya nutrisi secara
terpisah:
Plot-plot ini menunjukkan apa yang disebut 'efek utama' nitrogen dan fosfor:
kelihatannyaseolah-olah nitrogen meningkatkan hasil sedikit lebih banyak daripada fosfor.
Median untuk plus nitrogen ('ya' di plot sebelah kiri) berada di atas kotak tanpa nitrogen,
sedangkan nitrogen median untuk fosfor plus ada di bawah kotak tanpa fosfor (plot kanan).
Apa efek utama ini gagal menunjukkan kepada kita adalah apakah respon terhadap fosfor
tergantung tingkat nitrogen. Yang kita butuhkan adalah plot interaksi yang menunjukkan
ukuran efek untuk empat level tanggapan: bukan nutrisi, hanya nitrogen, hanya fosfor, atau
keduanya N dan P. Kami menggunakan fungsi taply untuk melakukan ini:

Baris mengacu pada nitrogen dan kolom ke fosfor. Tanpa P (kolom kiri), filen ukuran
efek untuk N adalah 2.290 / 1.474 = 1.55, tetapi dengan P ukuran efek N adalah 3.480 / 1.876
= 1.86. Ukuran efek untuk nitrogen tergantung pada tingkat fosfor (peningkatan hasil 55%
tanpa P, tetapi meningkat 86% dengan P). Itu adalah contoh interaksi statistik: respon
terhadap satu faktor tergantung pada tingkat faktor lain.

Kami membutuhkan cara untuk menunjukkan interaksi secara grafis. Ada banyak cara
untuk melakukan ini, tapi mungkin yang paling efektif secara visual adalah menggunakan
fungsi barplot. Kita bisa menggunakan keluaran dari tapply secara langsung untuk ini, tetapi
itu adalah ide yang baik untuk menambahkan legenda untuk menunjukkan Perawatan
nitrogen terkait menggunakan dua warna naungan:
Fungsi locator memungkinkan Anda untuk meletakkan legenda di tempat yang tidak
mengganggu dengan salah satu bar. Letakkan kursor di tempat yang Anda inginkan dari sudut
kiri atas kotak legenda muncul, lalu klik kiri:

Untuk presentasi akhir Anda, Anda ingin menambahkan bar kesalahan ke plot, tetapi
kami akan menangani dengan ini nanti, setelah kita membahas bagaimana mengukur efek
yang tidak dapat diandalkan (lihat hal. 162).

Sangat penting untuk menghabiskan waktu untuk memahami pola dalam data Anda
sebelum Anda memulai pada statistik. Plot awal ini bukan tambahan opsional. Mereka sangat
vital untuk memutuskan pemodelan statistik seperti apa yang sesuai, dan apa jenisnya asumsi
tentang data (linearitas respon, keteguhan varian, normalitas kesalahan) cenderung
dibenarkan. Seperti yang akan Anda lihat, kami kembali untuk memeriksa asumsi lagi,
setelah pemodelan statistik dilakukan (lihat hal. 134)

Itu menyimpulkan inspeksi data awal. Sekarang kita dapat mulai berpikir tentang
statistik analisis data. Kami akan berkonsentrasi pada pengukuran ukuran efek dan
ketidakandalannya (pendekatan modern) dan memberikan sedikit perhatian pada pengujian
hipotesis (model lama) pendekatan).

Bacaan lebih lanjut

Anda mungkin juga menyukai