Anda di halaman 1dari 20

* FORCASTING

NUMERIK
METODE REGRESI
* Hubungan matematis menggambarkan banyak aspek kehidupan
sehari-hari.
* Sebagai contoh,berat badan seseorang dapat dijelaskan dalam hal
asupan kalorinya; pendapatan seseorang dapat dikaitkan dengan
tahun pendidikan dan pengalaman kerja; dan presiden untuk terpilih
kembali dapat diperkirakan dari angka-angka jajak pendapat.
* Dalam setiap kasus ini, angka-angka menunjukkan dengan tepat
bagaimana elemen-elemen data terkait.
* Tambahan: 250 kilo kalori yang dikonsumsi setiap hari kemungkinan
besar akan menghasilkan hampir satu kilogram kenaikan berat badan
per bulan.
* Setiap tahun pengalaman kerja mungkin memiliki nilai tambahan
1.000 dolar AS dalam gaji tahunan, sementara tahun pendidikan
mungkin bernilai 2.500 dolar AS.
* Seorang presiden lebih mungkin terpilih kembali dengan peringkat
persetujuan yang tinggi. Tentu saja, jenis-jenis persamaan ini tidak
secara sempurna memodelkan setiap kasus, tetapi secara rata-rata,
aturan-aturannya mungkin bekerja
* cukup baik.
* Banyak sekali karya di bidang statistik yang menjelaskan teknik-teknik
untuk memperkirakan hubungan numerik di antara elemen-elemen
data, sebuah bidang studi yang dikenal sebagai regresi analisis.
* Metode-metode ini dapat digunakan untuk meramalkan data numerik
dan mengukur ukuran dan kekuatan hubungan antara hasil dan
prediktornya.
* Pada akhir bab ini, Anda akan belajar bagaimana menerapkan metode
regresi untuk data kamu sendiri.

* Di sepanjang perjalanannya, Anda akan belajar:


- Prinsip-prinsip statistik dasar yang digunakan metode regresi linier
untuk menyesuaikan persamaan pada data, dan bagaimana persamaan
tersebut menggambarkan hubungan di antara elemen-elemen data
- Cara menggunakan R untuk menyiapkan data untuk analisis regresi,
mendefinisikan linear, dan mengestimasi model regresi
- Cara menggunakan model hibrida yang dikenal sebagai pohon regresi
dan pohon model, yang yang memungkinkan pohon keputusan digunakan
untuk prediksi numeric
* Hingga saat ini, kami hanya melihat metode
pembelajaran machine yang cocok untuk klasifikasi.
Metode dalam bab ini akan memungkinkan Anda untuk
menangani sepenuhnya tugas-tugas pembelajaran yang
baru. Dengan mengingat hal tersebut, mari kita mulai.

Memahami regresi
* Regresi berkaitan dengan menentukan hubungan antara
satu variabel dependen numerik (nilai yang akan
diprediksi) dan satu atau lebih variabel atau lebih
variabel independen (prediktor). Kita akan mulai dengan
mengasumsikan bahwa hubungan antara variabel
independen dan dependen mengikuti garis lurus.
* Asal mula istilah "regresi" untuk menggambarkan proses garis yang
sesuai dengan data berakar pada studi genetika oleh Sir Francis
Galton pada akhir abad ke-19. Galton menemukan bahwa ayah yang
sangat pendek atau sangat tinggi cenderung memiliki anak laki-laki
yang tingginya mendekati rata-rata. Dia menyebut fenomena ini
disebutnya sebagai "regresi ke rata-rata".

* Anda mungkin ingat dari aljabar bahwa garis dapat didefinisikan


dalam bentuk kemiringan-intersep mirip dengan y = a + bx, di mana
y adalah variabel dependen dan x adalah variabel independen
variabel independen.
* Dalam rumus ini, kemiringan b menunjukkan seberapa banyak garis
naik untuk setiap Variabel a menunjukkan nilai y ketika x = 0. Ini
dikenal sebagai intersep karena menentukan di mana garis
memotong sumbu vertikal.
* Persamaan regresi memodelkan data dengan menggunakan format
kemiringan-intersep yang serupa.
TUGAS
* Tugas Machine adalah mengidentifikasi nilai a dan b sedemikian rupa sehingga
garis yang ditentukan paling mampu menghubungkan nilai x yang diberikan
dengan nilai y. Ini mungkin tidak cocok, jadi machine juga harus memiliki
beberapa cara untuk mengukur margin kesalahan. Kita akan membahas ini
secara mendalam.

* Analisis regresi biasanya digunakan untuk memodelkan hubungan yang


kompleks antara elemen data, memperkirakan dampak dari suatu perlakuan
terhadap suatu hasil, dan mengekstrapolasi ke masa depan. Beberapa kasus
penggunaan spesifik meliputi:
- Memeriksa bagaimana populasi dan individu bervariasi berdasarkan pengukuran
mereka karakteristik, untuk penelitian ilmiah di berbagai bidang seperti
ekonomi, sosiologi, psikologi, fisika, dan ekologi
- Mengukur hubungan sebab akibat antara suatu peristiwa dan respons, seperti
seperti dalam uji coba obat klinis, uji keamanan teknik, atau riset pemasaran
- Mengidentifikasi pola yang dapat digunakan untuk meramalkan perilaku di masa
depan dengan kriteria yang diketahui kriteria yang diketahui, seperti untuk
memprediksi klaim asuransi, kerusakan akibat bencana alam hasil pemilu, dan
tingkat kejahatan
* Metode regresi juga digunakan untuk pengujian hipotesis,
yang melibatkan penentuan apakah data menunjukkan
bahwa suatu dugaan lebih mungkin benar atau salah.

Estimasi
* Estimasi model regresi mengenai kekuatan dan konsistensi
suatu hubungan memberikan informasi yang dapat
digunakan untuk menilai apakah temuan-temuan
kebetulan saja.

* Karena pengujian hipotesis secara teknis bukan merupakan


tugas pembelajaran pembelajaran, kami tidak akan
membahasnya secara mendalam. Jika Anda tertarik dalam
topik ini, buku teks pengantar statistik adalah buku yang
bagus tempat yang baik untuk memulai
* Tidak seperti metode pembelajaran machine lainnya yang telah kita bahas sejauh
ini, analisis regresi tidak identik dengan satu algoritma. Sebaliknya, ini adalah
payung untuk sejumlah besar metode yang dapat diadaptasi ke hampir semua
tugas pembelajaran machine. Jika Anda terbatas untuk memilih hanya satu
metode analisis, regresi akan menjadi pilihan yang baik.
* Anda dapat mencurahkan seluruh karier Anda untuk hal lain dan mungkin masih
banyak yang harus dipelajari.
* Pada bab ini, kita hanya akan fokus pada model regresi paling dasar-model
regresi yang menggunakan garis lurus. Ini disebut regresi linier. Jika hanya ada
satu variabel bebas, ini disebut independen tunggal, ini dikenal sebagai regresi
linier sederhana, jika tidak, ini dikenal sebagai regresi

regresi berganda.
Kedua model ini mengasumsikan bahwa variabel dependen adalah kontinu.
* Dimungkinkan untuk menggunakan regresi untuk jenis variabel dependen lainnya
dan bahkan untuk tugas klasifikasi. Misalnya, regresi logistik dapat digunakan
untuk memodelkan hasil kategorik biner, sedangkan regresi Poisson - dinamai
menurut nama matematikawan Prancis
* matematikawan Siméon Poisson-memodelkan data jumlah bilangan bulat. Prinsip
dasar yang sama berlaku untuk semua metode regresi, jadi setelah Anda
memahami kasus linier, Anda bisa beralih ke yang lain.
* Regresi linier, regresi logistik, regresi Poisson, dan
banyak lainnya termasuk dalam kelas model yang
dikenal sebagai generalized linear models (GLM), yang
memungkinkan regresi untuk diterapkan pada banyak
jenis data. Model linier adalah digeneralisasi melalui
penggunaan fungsi penghubung, yang menentukan
hubungan matematis antara x dan y.

* Terlepas dari namanya, regresi linier sederhana tidak


terlalu sederhana untuk menyelesaikan masalah yang
kompleks. Pada bagian selanjutnya, kita akan melihat
bagaimana penggunaan regresi linier sederhana
sederhana dapat mencegah terjadinya bencana teknik
yang tragis.
REGRESI LINIER SEDERHANA

* Pada tanggal 28 Januari 1986, tujuh awak pesawat ulang alik Amerika
Serikat Challenger tewas ketika cincin-O yang bertanggung jawab untuk
menyegel sambungan pendorong roket gagal dan menyebabkan ledakan
dahsyat.
* Malam sebelumnya, telah terjadi diskusi panjang tentang bagaimana suhu
rendah dapat mempengaruhi keselamatan peluncuran. Komponen pesawat
ulang-alik belum pernah pernah diuji dalam cuaca sedingin itu; oleh karena
itu, tidak jelas apakah peralatan itu bisa menahan tekanan dari suhu beku.
Para insinyur roket percaya bahwa suhu dingin dapat membuat komponen
lebih rapuh dan kurang mampu menyegel dengan baik, yang akan
mengakibatkan kemungkinan kebocoran bahan bakar yang berbahaya.
* Namun, mengingat tekanan politik untuk melanjutkan peluncuran, mereka
membutuhkan data untuk mendukung hipotesis mereka.

* Analisis bagian ini didasarkan pada data yang disajikan dalam Analisis risiko
pesawat ulang-alik: prediksi kegagalan pra-Penantang, Journal of the
American Statistical Association, Vol. 84, hal. 945-957, oleh S.R. Dalal, E.B.
Fowlkes, dan B. Hoadley, (1989).
* Diskusi para ilmuwan beralih ke data dari 23 peluncuran
pesawat ulang alik yang sukses sebelumnya yang mencatat
jumlah kegagalan cincin-O versus suhu peluncuran. Karena
pesawat ulang-alik memiliki total enam cincin-O, setiap
kegagalan tambahan meningkatkan kemungkinan.
* kebocoran yang dahsyat. Diagram pencar berikut
menunjukkan data ini:
* Dengan memeriksa plot, ada tren yang jelas antara suhu dan jumlah
kegagalan. Peluncuran yang terjadi pada suhu yang lebih tinggi cenderung
memiliki lebih sedikit cincin-O kegagalan. Selain itu, peluncuran terdingin
(62 derajat F) memiliki dua cincin yang gagal, paling banyak dari semua
peluncuran. Fakta bahwa Challenger dijadwalkan untuk diluncurkan pada
suhu sekitar 30 derajat lebih dingin tampaknya mengkhawatirkan. Untuk
menempatkan risiko ini dalam istilah kuantitatif, kita bisa menggunakan
regresi linier sederhana.
* Regresi linier sederhana mendefinisikan hubungan antara variabel dependen
danvariabel prediktor independen tunggal menggunakan garis yang
dilambangkan dengan persamaan dalam bentuk persamaan dalam bentuk
berikut:
y= α + βx
* Jangan khawatir dengan huruf Yunani; persamaan ini masih dapat dipahami
dengan menggunakan bentuk slope-intercept yang telah dijelaskan
sebelumnya. Intersep, α (alfa), menggambarkan di mana garis melintasi
sumbu y, sedangkan kemiringan, β (beta), menggambarkan perubahan dalam
y yang diberikan peningkatan x. Untuk data peluncuran pesawat ulang-alik,
kemiringan akan memberi tahu kami pengurangan yang diharapkan dalam
jumlah kegagalan cincin-O untuk setiap derajat peluncuran kenaikan suhu.
* Karakter Yunani sering digunakan dalam bidang statistik untuk
menunjukkan variabel yang merupakan parameter dari fungsi
statistik. Oleh karena itu, melakukan analisis regresi
melibatkan pencarian parameter estimasi parameter untuk α
dan β. Estimasi parameter untuk alfa dan beta biasanya
dilambangkan dengan menggunakan a dan b, meskipun Anda
mungkin menemukan bahwa beberapa terminologi dan notasi
ini digunakan secara bergantian.

* Misalkan kita tahu bahwa estimasi parameter regresi dalam


persamaan untuk data peluncuran pesawat ulang-alik adalah:
- a = 4.30
- b = -0.057
* Oleh karena itu, persamaan linier lengkapnya adalah y = 4,30
- 0,057x. Abaikan sejenak bagaimana angka-angka ini
diperolehseperti ini, kita dapat memplot garis pada scatterplot:

* Seperti yang ditunjukkan oleh garis, pada suhu 60 derajat Fahrenheit, kami memperkirakan hanya ada
kurang dari satu kegagalan cincin-O.
* Pada suhu 70 derajat Fahrenheit, kami memperkirakan sekitar 0,3 kegagalan. Jika kita mengekstrapolasi
model kami hingga 31 derajat - suhu yang diperkirakan untuk Challenger peluncuran Challenger-kami
akan memperkirakan sekitar 4,30 - 0,057 * 31 = 2,53 kegagalan cincin-O. Dengan asumsi bahwa setiap
kegagalan cincin-O memiliki kemungkinan yang sama besar untuk menyebabkan kebocoran bahan bakar
yang dahsyat, ini berarti bahwa peluncuran Challenger sekitar tiga kali lebih berisiko daripada peluncuran
biasa pada 60 derajat, dan lebih dari delapan kali lebih berisiko daripada peluncuran pada 70 derajat.
* Perhatikan bahwa garis tersebut tidak memprediksi data dengan tepat. Sebaliknya, garis tersebut
memotong data agak merata, dengan beberapa prediksi lebih rendah dari yang diharapkan dan beberapa
lebih tinggi. Dalam bagian selanjutnya, kita akan mempelajari mengapa garis ini dipilih.
ESTIMASI KUADRAT TERKECIL BIASA
* Untuk menentukan estimasi optimal α dan β, metode
estimasi yang dikenal sebagai kuadrat terkecil biasa
(OLS) digunakan. Dalam regresi OLS, kemiringan dan
intersep dipilih sedemikian rupa sehingga meminimalkan
jumlah kesalahan kuadrat, yaitu jarak vertikal antara
nilai y yang diprediksi dan nilai y aktual. Kesalahan ini
dikenal sebagai residual, dan diilustrasikan untuk
beberapa titik pada diagram sebelumnya
* Secara matematis, tujuan regresi OLS dapat dinyatakan sebagai
tugas untuk meminimalkan persamaan berikut:

* Dalam bahasa sederhana, persamaan ini mendefinisikan e


(kesalahan) sebagai perbedaan antara nilai y aktual dan nilai y
yang diprediksi. Nilai kesalahan dikuadratkan dan dijumlahkan
di semua titik dalam data.
* Karakter caret (^) di atas istilah y adalah karakter yang umum
digunakan yang umum digunakan dalam notasi statistik. Ini
menunjukkan bahwa istilah tersebut adalah estimasi untuk nilai
y yang sebenarnya. Ini disebut sebagai y-hat
* Meskipun pembuktiannya berada di luar cakupan buku ini,
namun dapat ditunjukkan dengan menggunakan kalkulus bahwa
nilai b yang menghasilkan galat kuadrat minimum adalah:
* Sedangkan nilai optimal dari a adalah:

* Untuk memahami persamaan-persamaan ini, Anda perlu mengetahui sedikit


notasi statistik lainnya. Garis horizontal yang muncul di atas suku x dan y
menunjukkan rata-rata nilai x atau y. Ini disebut sebagai x-bar atau y-bar.
* Untuk memahami persamaan ini, kita dapat memecahnya menjadi
beberapa bagian. Penyebut untuk b seharusnya sudah tidak asing lagi; ini
sama dengan varians dari x, yang dapat dilambangkan sebagai Var(x).
Seperti yang telah kita pelajari di Bab 2, Mengelola dan Memahami Data,
menghitung varians melibatkan pencarian deviasi kuadrat rata-rata dari
rata-rata x.

* Kita belum menghitung pembilang sebelumnya. Hal ini melibatkan


penjumlahan dari setiap deviasi titik data dari nilai rata-rata x dikalikan
dengan deviasi titik tersebut
* dari nilai rata-rata y. Ini dikenal sebagai kovariansi x dan y, yang
dilambangkan sebagai Cov(x, y). Dengan mengingat hal ini, kita dapat
menulis ulang rumus untuk b sebagai:
* Jika Anda ingin mengikuti contoh-contoh ini, unduh file challenger.csv dari situs web Packt Publishing
dan muat ke dalam sebuah bingkai data menggunakan perintah launch <- read.csv("challenger.csv")
* Dengan rumus ini, mudah untuk menghitung nilai b menggunakan fungsi R. Asumsikan bahwa data
peluncuran pesawat ulang-alik kita disimpan dalam sebuah bingkai data bernama peluncuran, variabel
independen x adalah suhu, dan variabel dependen y adalah distress_ct. Kita kemudian dapat
menggunakan fungsi cov() dan var() bawaan R untuk mengestimasi b:
* > b <- cov(launch$temperature, launch$distress_ct) / var(launch$temperature)
* > b [1]
* -0.05746032
* From here, we can estimate a using the mean() function:
* > a <- mean(launch$distress_ct) - b * mean(launch$temperature)
* >a
* [1] 4.301587

* Memperkirakan persamaan regresi dengan cara ini tidak ideal, sehingga R tentu saja menyediakan
* fungsi-fungsi untuk melakukan hal ini secara otomatis. Kita akan melihat fungsi-fungsi tersebut
sebentar lagi. Pertama, kita akan memperluas pemahaman kita tentang regresi dengan mempelajari
metode untuk mengukur kekuatan hubungan linier dan kemudian melihat bagaimana regresi linier
dapat diterapkan pada data yang memiliki lebih dari satu variabel independen.

KORELASI
* Korelasi antara dua variabel adalah angka yang menunjukkan seberapa dekat hubungan mereka
mengikuti garis lurus. Tanpa kualifikasi tambahan, korelasi mengacu pada koefisien korelasi Pearson,
yang dikembangkan olehmatematikawan Karl Pearson. Korelasi berkisar antara -1 dan +1. Nilai ekstrim
menunjukkan hubungan linier sempurna, sedangkan korelasi yang mendekati nol menunjukkan tidak
adanya hubungan linier
* Jika Anda ingin mengikuti contoh-contoh ini, unduh file challenger.csv dari situs web Packt Publishing
dan muat ke dalam sebuah bingkai data menggunakan perintah launch <- read.csv("challenger.csv")
* Dengan rumus ini, mudah untuk menghitung nilai b menggunakan fungsi R. Asumsikan bahwa data
peluncuran pesawat ulang-alik kita disimpan dalam sebuah bingkai data bernama peluncuran, variabel
independen x adalah suhu, dan variabel dependen y adalah distress_ct. Kita kemudian dapat
menggunakan fungsi cov() dan var() bawaan R untuk mengestimasi b:
* > b <- cov(launch$temperature, launch$distress_ct) / var(launch$temperature)
* > b [1]
* -0.05746032
* From here, we can estimate a using the mean() function:
* > a <- mean(launch$distress_ct) - b * mean(launch$temperature)
* >a
* [1] 4.301587

* Memperkirakan persamaan regresi dengan cara ini tidak ideal, sehingga R tentu saja menyediakan
* fungsi-fungsi untuk melakukan hal ini secara otomatis. Kita akan melihat fungsi-fungsi tersebut
sebentar lagi. Pertama, kita akan memperluas pemahaman kita tentang regresi dengan mempelajari
metode untuk mengukur kekuatan hubungan linier dan kemudian melihat bagaimana regresi linier
dapat diterapkan pada data yang memiliki lebih dari satu variabel independen.

KORELASI
* Korelasi antara dua variabel adalah angka yang menunjukkan seberapa dekat hubungan mereka
mengikuti garis lurus. Tanpa kualifikasi tambahan, korelasi mengacu pada koefisien korelasi Pearson,
yang dikembangkan olehmatematikawan Karl Pearson. Korelasi berkisar antara -1 dan +1. Nilai ekstrim
menunjukkan hubungan linier sempurna, sedangkan korelasi yang mendekati nol menunjukkan tidak
adanya hubungan linier
* Beberapa notasi Yunani lainnya telah diperkenalkan di sini:
* simbol pertama (terlihat seperti huruf kecil 'p') adalah rho, dan itu
* digunakan untuk menunjukkan statistik korelasi Pearson. Karakter
* Karakter yang terlihat seperti 'q' yang diputar ke samping adalah sigma,
* dan mereka menunjukkan deviasi standar x atau y.
*
* Dengan menggunakan rumus ini, kita dapat menghitung korelasi antara suhu peluncuran
* dan jumlah kegagalan cincin-O. Ingatlah bahwa fungsi kovarians adalah cov() dan
* fungsi deviasi standar adalah sd(). Kita akan menyimpan hasilnya dalam r, sebuah huruf yang
* yang biasa digunakan untuk menunjukkan estimasi korelasi:
*
* > r <- cov(launch$temperature, launch$distress_ct) /
* (sd(launch$temperature) * sd(launch$distress_ct))
* >r
* [1] -0.725671
*
* Sebagai alternatif, kita dapat menggunakan fungsi korelasi bawaan, cor():
* > cor(launch$temperature, launch$distress_ct)
* [1] -0.725671
*
* Karena korelasinya sekitar -0,73, ini menyiratkan bahwa ada hubungan negatif yang cukup kuat
* negatif yang cukup kuat antara suhu dan jumlah cincin-O yang tertekan.
* Hubungan negatif menyiratkan bahwa peningkatan suhu berkorelasi dengan
* lebih sedikit cincin-O yang tertekan. Bagi para insinyur NASA yang mempelajari data cincin-O, ini mungkin
* telah menjadi indikator yang sangat jelas bahwa peluncuran pada suhu rendah dapat menjadi masalah.
* Ada berbagai aturan praktis yang digunakan untuk menafsirkan korelasi. Salah satu metode menetapkan
* korelasi lemah untuk nilai antara 0,1 dan 0,3, sedang untuk 0,3 hingga 0,5, dan kuat
* kuat untuk nilai di atas 0,5 (ini juga berlaku untuk rentang korelasi negatif yang serupa).
* Namun, ambang batas ini mungkin terlalu longgar untuk beberapa tujuan. Seringkali, korelasi
* harus ditafsirkan dalam konteks. Untuk data yang melibatkan manusia, korelasi 0,5
* mungkin dianggap sangat tinggi; untuk data yang dihasilkan oleh proses mekanis, korelasi
* korelasi 0,5 mungkin lemah.
*
* LAMPU
* Anda mungkin pernah mendengar ungkapan "korelasi
* tidak menyiratkan sebab akibat". Hal ini berakar pada fakta bahwa
* korelasi hanya menggambarkan hubungan antara sepasang
* variabel, namun mungkin ada penjelasan lain. Sebagai contoh
* Sebagai contoh, mungkin ada hubungan yang kuat antara usia
* harapan hidup dan waktu per hari yang dihabiskan untuk menonton film, tetapi
* sebelum dokter mulai merekomendasikan agar kita semua menonton lebih banyak
* film, kita perlu mengesampingkan penjelasan lain: orang yang lebih tua
* orang yang lebih tua menonton lebih sedikit film dan lebih mungkin meninggal.
*
* Mengukur korelasi antara dua variabel memberi kita cara untuk mengukur dengan cepat
* hubungan antara variabel independen dan variabel dependen. Ini akan menjadi
* semakin penting ketika kita mulai mendefinisikan model regresi dengan jumlah prediktor yang lebih besar
* prediktor.
*
*

Anda mungkin juga menyukai