NUMERIK
METODE REGRESI
* Hubungan matematis menggambarkan banyak aspek kehidupan
sehari-hari.
* Sebagai contoh,berat badan seseorang dapat dijelaskan dalam hal
asupan kalorinya; pendapatan seseorang dapat dikaitkan dengan
tahun pendidikan dan pengalaman kerja; dan presiden untuk terpilih
kembali dapat diperkirakan dari angka-angka jajak pendapat.
* Dalam setiap kasus ini, angka-angka menunjukkan dengan tepat
bagaimana elemen-elemen data terkait.
* Tambahan: 250 kilo kalori yang dikonsumsi setiap hari kemungkinan
besar akan menghasilkan hampir satu kilogram kenaikan berat badan
per bulan.
* Setiap tahun pengalaman kerja mungkin memiliki nilai tambahan
1.000 dolar AS dalam gaji tahunan, sementara tahun pendidikan
mungkin bernilai 2.500 dolar AS.
* Seorang presiden lebih mungkin terpilih kembali dengan peringkat
persetujuan yang tinggi. Tentu saja, jenis-jenis persamaan ini tidak
secara sempurna memodelkan setiap kasus, tetapi secara rata-rata,
aturan-aturannya mungkin bekerja
* cukup baik.
* Banyak sekali karya di bidang statistik yang menjelaskan teknik-teknik
untuk memperkirakan hubungan numerik di antara elemen-elemen
data, sebuah bidang studi yang dikenal sebagai regresi analisis.
* Metode-metode ini dapat digunakan untuk meramalkan data numerik
dan mengukur ukuran dan kekuatan hubungan antara hasil dan
prediktornya.
* Pada akhir bab ini, Anda akan belajar bagaimana menerapkan metode
regresi untuk data kamu sendiri.
Memahami regresi
* Regresi berkaitan dengan menentukan hubungan antara
satu variabel dependen numerik (nilai yang akan
diprediksi) dan satu atau lebih variabel atau lebih
variabel independen (prediktor). Kita akan mulai dengan
mengasumsikan bahwa hubungan antara variabel
independen dan dependen mengikuti garis lurus.
* Asal mula istilah "regresi" untuk menggambarkan proses garis yang
sesuai dengan data berakar pada studi genetika oleh Sir Francis
Galton pada akhir abad ke-19. Galton menemukan bahwa ayah yang
sangat pendek atau sangat tinggi cenderung memiliki anak laki-laki
yang tingginya mendekati rata-rata. Dia menyebut fenomena ini
disebutnya sebagai "regresi ke rata-rata".
Estimasi
* Estimasi model regresi mengenai kekuatan dan konsistensi
suatu hubungan memberikan informasi yang dapat
digunakan untuk menilai apakah temuan-temuan
kebetulan saja.
regresi berganda.
Kedua model ini mengasumsikan bahwa variabel dependen adalah kontinu.
* Dimungkinkan untuk menggunakan regresi untuk jenis variabel dependen lainnya
dan bahkan untuk tugas klasifikasi. Misalnya, regresi logistik dapat digunakan
untuk memodelkan hasil kategorik biner, sedangkan regresi Poisson - dinamai
menurut nama matematikawan Prancis
* matematikawan Siméon Poisson-memodelkan data jumlah bilangan bulat. Prinsip
dasar yang sama berlaku untuk semua metode regresi, jadi setelah Anda
memahami kasus linier, Anda bisa beralih ke yang lain.
* Regresi linier, regresi logistik, regresi Poisson, dan
banyak lainnya termasuk dalam kelas model yang
dikenal sebagai generalized linear models (GLM), yang
memungkinkan regresi untuk diterapkan pada banyak
jenis data. Model linier adalah digeneralisasi melalui
penggunaan fungsi penghubung, yang menentukan
hubungan matematis antara x dan y.
* Pada tanggal 28 Januari 1986, tujuh awak pesawat ulang alik Amerika
Serikat Challenger tewas ketika cincin-O yang bertanggung jawab untuk
menyegel sambungan pendorong roket gagal dan menyebabkan ledakan
dahsyat.
* Malam sebelumnya, telah terjadi diskusi panjang tentang bagaimana suhu
rendah dapat mempengaruhi keselamatan peluncuran. Komponen pesawat
ulang-alik belum pernah pernah diuji dalam cuaca sedingin itu; oleh karena
itu, tidak jelas apakah peralatan itu bisa menahan tekanan dari suhu beku.
Para insinyur roket percaya bahwa suhu dingin dapat membuat komponen
lebih rapuh dan kurang mampu menyegel dengan baik, yang akan
mengakibatkan kemungkinan kebocoran bahan bakar yang berbahaya.
* Namun, mengingat tekanan politik untuk melanjutkan peluncuran, mereka
membutuhkan data untuk mendukung hipotesis mereka.
* Analisis bagian ini didasarkan pada data yang disajikan dalam Analisis risiko
pesawat ulang-alik: prediksi kegagalan pra-Penantang, Journal of the
American Statistical Association, Vol. 84, hal. 945-957, oleh S.R. Dalal, E.B.
Fowlkes, dan B. Hoadley, (1989).
* Diskusi para ilmuwan beralih ke data dari 23 peluncuran
pesawat ulang alik yang sukses sebelumnya yang mencatat
jumlah kegagalan cincin-O versus suhu peluncuran. Karena
pesawat ulang-alik memiliki total enam cincin-O, setiap
kegagalan tambahan meningkatkan kemungkinan.
* kebocoran yang dahsyat. Diagram pencar berikut
menunjukkan data ini:
* Dengan memeriksa plot, ada tren yang jelas antara suhu dan jumlah
kegagalan. Peluncuran yang terjadi pada suhu yang lebih tinggi cenderung
memiliki lebih sedikit cincin-O kegagalan. Selain itu, peluncuran terdingin
(62 derajat F) memiliki dua cincin yang gagal, paling banyak dari semua
peluncuran. Fakta bahwa Challenger dijadwalkan untuk diluncurkan pada
suhu sekitar 30 derajat lebih dingin tampaknya mengkhawatirkan. Untuk
menempatkan risiko ini dalam istilah kuantitatif, kita bisa menggunakan
regresi linier sederhana.
* Regresi linier sederhana mendefinisikan hubungan antara variabel dependen
danvariabel prediktor independen tunggal menggunakan garis yang
dilambangkan dengan persamaan dalam bentuk persamaan dalam bentuk
berikut:
y= α + βx
* Jangan khawatir dengan huruf Yunani; persamaan ini masih dapat dipahami
dengan menggunakan bentuk slope-intercept yang telah dijelaskan
sebelumnya. Intersep, α (alfa), menggambarkan di mana garis melintasi
sumbu y, sedangkan kemiringan, β (beta), menggambarkan perubahan dalam
y yang diberikan peningkatan x. Untuk data peluncuran pesawat ulang-alik,
kemiringan akan memberi tahu kami pengurangan yang diharapkan dalam
jumlah kegagalan cincin-O untuk setiap derajat peluncuran kenaikan suhu.
* Karakter Yunani sering digunakan dalam bidang statistik untuk
menunjukkan variabel yang merupakan parameter dari fungsi
statistik. Oleh karena itu, melakukan analisis regresi
melibatkan pencarian parameter estimasi parameter untuk α
dan β. Estimasi parameter untuk alfa dan beta biasanya
dilambangkan dengan menggunakan a dan b, meskipun Anda
mungkin menemukan bahwa beberapa terminologi dan notasi
ini digunakan secara bergantian.
* Seperti yang ditunjukkan oleh garis, pada suhu 60 derajat Fahrenheit, kami memperkirakan hanya ada
kurang dari satu kegagalan cincin-O.
* Pada suhu 70 derajat Fahrenheit, kami memperkirakan sekitar 0,3 kegagalan. Jika kita mengekstrapolasi
model kami hingga 31 derajat - suhu yang diperkirakan untuk Challenger peluncuran Challenger-kami
akan memperkirakan sekitar 4,30 - 0,057 * 31 = 2,53 kegagalan cincin-O. Dengan asumsi bahwa setiap
kegagalan cincin-O memiliki kemungkinan yang sama besar untuk menyebabkan kebocoran bahan bakar
yang dahsyat, ini berarti bahwa peluncuran Challenger sekitar tiga kali lebih berisiko daripada peluncuran
biasa pada 60 derajat, dan lebih dari delapan kali lebih berisiko daripada peluncuran pada 70 derajat.
* Perhatikan bahwa garis tersebut tidak memprediksi data dengan tepat. Sebaliknya, garis tersebut
memotong data agak merata, dengan beberapa prediksi lebih rendah dari yang diharapkan dan beberapa
lebih tinggi. Dalam bagian selanjutnya, kita akan mempelajari mengapa garis ini dipilih.
ESTIMASI KUADRAT TERKECIL BIASA
* Untuk menentukan estimasi optimal α dan β, metode
estimasi yang dikenal sebagai kuadrat terkecil biasa
(OLS) digunakan. Dalam regresi OLS, kemiringan dan
intersep dipilih sedemikian rupa sehingga meminimalkan
jumlah kesalahan kuadrat, yaitu jarak vertikal antara
nilai y yang diprediksi dan nilai y aktual. Kesalahan ini
dikenal sebagai residual, dan diilustrasikan untuk
beberapa titik pada diagram sebelumnya
* Secara matematis, tujuan regresi OLS dapat dinyatakan sebagai
tugas untuk meminimalkan persamaan berikut:
* Memperkirakan persamaan regresi dengan cara ini tidak ideal, sehingga R tentu saja menyediakan
* fungsi-fungsi untuk melakukan hal ini secara otomatis. Kita akan melihat fungsi-fungsi tersebut
sebentar lagi. Pertama, kita akan memperluas pemahaman kita tentang regresi dengan mempelajari
metode untuk mengukur kekuatan hubungan linier dan kemudian melihat bagaimana regresi linier
dapat diterapkan pada data yang memiliki lebih dari satu variabel independen.
KORELASI
* Korelasi antara dua variabel adalah angka yang menunjukkan seberapa dekat hubungan mereka
mengikuti garis lurus. Tanpa kualifikasi tambahan, korelasi mengacu pada koefisien korelasi Pearson,
yang dikembangkan olehmatematikawan Karl Pearson. Korelasi berkisar antara -1 dan +1. Nilai ekstrim
menunjukkan hubungan linier sempurna, sedangkan korelasi yang mendekati nol menunjukkan tidak
adanya hubungan linier
* Jika Anda ingin mengikuti contoh-contoh ini, unduh file challenger.csv dari situs web Packt Publishing
dan muat ke dalam sebuah bingkai data menggunakan perintah launch <- read.csv("challenger.csv")
* Dengan rumus ini, mudah untuk menghitung nilai b menggunakan fungsi R. Asumsikan bahwa data
peluncuran pesawat ulang-alik kita disimpan dalam sebuah bingkai data bernama peluncuran, variabel
independen x adalah suhu, dan variabel dependen y adalah distress_ct. Kita kemudian dapat
menggunakan fungsi cov() dan var() bawaan R untuk mengestimasi b:
* > b <- cov(launch$temperature, launch$distress_ct) / var(launch$temperature)
* > b [1]
* -0.05746032
* From here, we can estimate a using the mean() function:
* > a <- mean(launch$distress_ct) - b * mean(launch$temperature)
* >a
* [1] 4.301587
* Memperkirakan persamaan regresi dengan cara ini tidak ideal, sehingga R tentu saja menyediakan
* fungsi-fungsi untuk melakukan hal ini secara otomatis. Kita akan melihat fungsi-fungsi tersebut
sebentar lagi. Pertama, kita akan memperluas pemahaman kita tentang regresi dengan mempelajari
metode untuk mengukur kekuatan hubungan linier dan kemudian melihat bagaimana regresi linier
dapat diterapkan pada data yang memiliki lebih dari satu variabel independen.
KORELASI
* Korelasi antara dua variabel adalah angka yang menunjukkan seberapa dekat hubungan mereka
mengikuti garis lurus. Tanpa kualifikasi tambahan, korelasi mengacu pada koefisien korelasi Pearson,
yang dikembangkan olehmatematikawan Karl Pearson. Korelasi berkisar antara -1 dan +1. Nilai ekstrim
menunjukkan hubungan linier sempurna, sedangkan korelasi yang mendekati nol menunjukkan tidak
adanya hubungan linier
* Beberapa notasi Yunani lainnya telah diperkenalkan di sini:
* simbol pertama (terlihat seperti huruf kecil 'p') adalah rho, dan itu
* digunakan untuk menunjukkan statistik korelasi Pearson. Karakter
* Karakter yang terlihat seperti 'q' yang diputar ke samping adalah sigma,
* dan mereka menunjukkan deviasi standar x atau y.
*
* Dengan menggunakan rumus ini, kita dapat menghitung korelasi antara suhu peluncuran
* dan jumlah kegagalan cincin-O. Ingatlah bahwa fungsi kovarians adalah cov() dan
* fungsi deviasi standar adalah sd(). Kita akan menyimpan hasilnya dalam r, sebuah huruf yang
* yang biasa digunakan untuk menunjukkan estimasi korelasi:
*
* > r <- cov(launch$temperature, launch$distress_ct) /
* (sd(launch$temperature) * sd(launch$distress_ct))
* >r
* [1] -0.725671
*
* Sebagai alternatif, kita dapat menggunakan fungsi korelasi bawaan, cor():
* > cor(launch$temperature, launch$distress_ct)
* [1] -0.725671
*
* Karena korelasinya sekitar -0,73, ini menyiratkan bahwa ada hubungan negatif yang cukup kuat
* negatif yang cukup kuat antara suhu dan jumlah cincin-O yang tertekan.
* Hubungan negatif menyiratkan bahwa peningkatan suhu berkorelasi dengan
* lebih sedikit cincin-O yang tertekan. Bagi para insinyur NASA yang mempelajari data cincin-O, ini mungkin
* telah menjadi indikator yang sangat jelas bahwa peluncuran pada suhu rendah dapat menjadi masalah.
* Ada berbagai aturan praktis yang digunakan untuk menafsirkan korelasi. Salah satu metode menetapkan
* korelasi lemah untuk nilai antara 0,1 dan 0,3, sedang untuk 0,3 hingga 0,5, dan kuat
* kuat untuk nilai di atas 0,5 (ini juga berlaku untuk rentang korelasi negatif yang serupa).
* Namun, ambang batas ini mungkin terlalu longgar untuk beberapa tujuan. Seringkali, korelasi
* harus ditafsirkan dalam konteks. Untuk data yang melibatkan manusia, korelasi 0,5
* mungkin dianggap sangat tinggi; untuk data yang dihasilkan oleh proses mekanis, korelasi
* korelasi 0,5 mungkin lemah.
*
* LAMPU
* Anda mungkin pernah mendengar ungkapan "korelasi
* tidak menyiratkan sebab akibat". Hal ini berakar pada fakta bahwa
* korelasi hanya menggambarkan hubungan antara sepasang
* variabel, namun mungkin ada penjelasan lain. Sebagai contoh
* Sebagai contoh, mungkin ada hubungan yang kuat antara usia
* harapan hidup dan waktu per hari yang dihabiskan untuk menonton film, tetapi
* sebelum dokter mulai merekomendasikan agar kita semua menonton lebih banyak
* film, kita perlu mengesampingkan penjelasan lain: orang yang lebih tua
* orang yang lebih tua menonton lebih sedikit film dan lebih mungkin meninggal.
*
* Mengukur korelasi antara dua variabel memberi kita cara untuk mengukur dengan cepat
* hubungan antara variabel independen dan variabel dependen. Ini akan menjadi
* semakin penting ketika kita mulai mendefinisikan model regresi dengan jumlah prediktor yang lebih besar
* prediktor.
*
*