Anda di halaman 1dari 5

Bagaimana cara memperkirakan data curah hujan yang hilang menggunakan metode regresi?

Saya memiliki data curah hujan harian 10 tahun di daerah tangkapan air. Tetapi ada sekitar 2-3 bulan
terus data curah hujan hilang di beberapa stasiun. Saya ingin memperkirakan data-data tersebut
menggunakan alat analisis regresi dalam perangkat lunak excel.

bagaimana melakukannya menggunakan excel? Apakah ada tutorial langkah demi langkah?

Terima kasih.

1. Jawaban:

Untuk menghitung menggunakan metode regresi yang harus Anda miliki

1. Curah hujan tahunan

2. Curah hujan bulanan

Kemudian, kembangkan persamaan dalam bentuk Y = a + bX di mana x adalah RF tahunan, Y adalah


curah hujan bulanan. Koefisien a & b dapat ditemukan menggunakan persamaan

na + bsumX = jumlah Y

a sumX + b sumX2 = sumXY

2. Jawaban:

Chathura Arambepola yang terhormat,

Biasanya ada tiga metode untuk menangani data yang hilang dalam analisis regresi excel.

Tiga alternatif;

1. Abaikan data yang hilang

2. Perlakukan nilai yang hilang sebagai nol

3. Interpolasi data yang hilang

Anda dapat melihat video tabung Anda di situs web berikut (Cara menangani data yang hilang di excel):

https://www.youtube.com/watch?v=OSJ2MtKYRMg

Metode telah dijelaskan dengan cara yang sangat sederhana. Anda dapat menerapkan hal yang sama
untuk data curah hujan yang hilang. Pilih grafik linier dan interpolasi data yang hilang.
Jika Anda ingin informasi lebih lanjut, Anda juga dapat merujuk situs web fallowing:

Berurusan dengan data yang hilang di excel

Semoga informasi tersebut bermanfaat bagi Anda.

Dengan keinginan terbaik,

Indra Prakash

Institut Bhaskaracharya Untuk Aplikasi Antariksa dan Geoinformatika

Gandhinagar, Gujarat, India

www.real-statistics.com/description-statistics/missing-data

Uji hipotesis untuk data yang hilang dalam excel

https://www.youtube.com/watch?v=pKtrh3Z65pI

3. Jochen:

Jangan lakukan itu di Excel.

Anda dapat menggunakan fungsi LINEST di Excel, tetapi Anda harus menentukan matriks desain secara
manual (jika ada prediktor kategoris), dan hasilnya secara intuitif berlawanan diberikan dalam urutan
koefisien yang dibalik. Itu semua benar-benar merepotkan dan rawan kesalahan. Mendapatkan
ketidakpastian prediksi adalah hambatan lain yang mengharuskan penggunaan formula jelek di mana
banyak hal bisa salah.

4. Vicas:

Setuju dengan Jochen, silakan gunakan MATLAB, R, Python

5. Marco:

Diberikan tat (saya kira) ada musim tertentu dalam curah hujan, mungkin Anda dapat menginterpolasi
data dari bulan yang sama tahun-tahun lainnya ... menggunakan median tahun-tahun lainnya, misalnya.
Meskipun saya sangat setuju dengan mereka yang berkomentar bahwa perangkat lunak itu tidak
direkomendasikan, solusi ini mungkin mudah juga dengan MS Excel.

6. Jochen:

Marco, meskipun saya melihat kesederhanaan teknis dari saran Anda, saya tidak akan
merekomendasikannya. Tren tahunan pasti relevan (jadi hanya rata-rata data dari tahun yang berbeda
bukanlah ide yang baik) dan curah hujan lokal di stasiun akan tergantung pada faktor lokal yang mungkin
merupakan prediktor yang jauh lebih baik daripada curah hujan di stasiun lain (dengan faktor lokal yang
berbeda). Jika data yang hilang harus dimasukkan, semua informasi yang tersedia harus digunakan, dan
ini akan mengarah pada beberapa model campuran hirarkis (non) linear umum (ized), dan hal-hal ini
hampir tidak mungkin ditangani di Excel.

7. Marco:

Ya, saya setuju (walaupun saya tidak sepenuhnya yakin bahwa solusi yang lebih rumit selalu merupakan
pilihan terbaik), tetapi pada akhirnya itu juga tergantung pada fitur spesifik dari data, pada tujuan, dan
pada apa yang dapat Anda lakukan di praktek...

(mungkin, memiliki lebih banyak stasiun, seperti interpolasi bilinear yang dilakukan untuk
memperkirakan nilai titik dengan data raster dari model dispersi udara polutan? Saya jelas bukan pakar
model iklim, tapi saya pikir cuaca di titik tertentu lebih cenderung mirip dengan cuaca di tempat lain
yang dekat, bukan yang jauh).

8. Jochen:

Marco, "meskipun saya tidak sepenuhnya yakin bahwa solusi yang lebih rumit selalu merupakan pilihan
terbaik" - Saya tentu setuju :)

Bukan tujuannya hanya untuk memiliki model yang lebih rumit. Tujuannya adalah untuk memiliki model
yang setidaknya memperhitungkan semua faktor yang relevan. Dan, ya, sulit dan menantang untuk
mengidentifikasi faktor-faktor yang mungkin dan menilai relevansinya !. Penting untuk memikirkan
dengan seksama hal-hal ini agar dapat mengenali bahwa beberapa fitur penting dapat hilang dalam
data. Jadi, secara pragmatis, Anda mungkin tidak dapat mempertimbangkan faktor yang relevan (karena
tidak ada dalam data), tetapi kemudian Anda tahu setidaknya batasan metode / imputasi dan
kesimpulan Anda (btw: analisis sensitivitas dapat mengungkapkan seberapa kritis kesimpulan
bergantung pada nilai imputasi - mungkin ternyata imputasi bukan masalah, bahkan jika Anda akan
mengambil beberapa angka acak ... atau bahwa konklusi berbalik dengan setiap perubahan kecil dari
nilai imputasi, apa yang akan membuat seluruh cerita dipertanyakan).

"Saya pikir cuaca di suatu titik lebih cenderung mirip dengan cuaca di tempat lain yang dekat, bukan
yang jauh"

Jadi, data dari stasiun tidak independen, dan bahwa struktur ketergantungan harus
dipertanggungjawabkan dan merupakan alasan yang baik mengapa tidak hanya rata-rata data dari
stasiun lain. Anda mungkin menjawab bahwa seseorang hanya dapat menggunakan "stasiun yang
berdekatan", tetapi kemudian saya masih akan menyarankan untuk berpikir jika pengukuran geografis
adalah satu-satunya faktor yang relevan (sebuah stasiun yang dekat dengan nilai yang hilang mungkin
berada di sisi utara punggungan gunung, stasiun yang berdekatan dengan data di sisi selatan berada
dalam iklim lokal yang sangat berbeda).

9. Fadhel:
tergantung pada catatan stasiun meterologis, data yang hilang dapat diperkirakan menggunakan rata-
rata aithmatic atau metode rasio normal untuk sekelompok data stasiun ini

-Berurusan dengan Data yang Hilang-

Oleh: Charles Zaiontz

http://www.real-statistics.com/descriptive-statistics/missing-data/

Masalah lain yang dihadapi saat mengumpulkan data adalah bahwa beberapa data mungkin hilang.
Misalnya, dalam melakukan survei dengan sepuluh pertanyaan, mungkin beberapa orang yang
mengikuti survei tidak menjawab semua sepuluh pertanyaan. Dalam Mengidentifikasi Pencilan dan Data
yang Hilang kami menunjukkan bagaimana mengidentifikasi data yang hilang menggunakan alat analisis
data tambahan yang disediakan dalam Paket Sumber Daya Statistik Nyata.

Pendekatan sederhana untuk menangani data yang hilang adalah membuang semua data untuk setiap
sampel yang hilang satu atau lebih elemen data. Satu masalah dengan pendekatan ini adalah ukuran
sampel akan berkurang. Ini sangat relevan ketika ukuran sampel yang dikurangi terlalu kecil untuk
mendapatkan hasil yang signifikan dalam analisis. Dalam hal ini elemen sampel data tambahan mungkin
perlu dikumpulkan. Masalah ini lebih besar dari yang mungkin pertama kali terbukti. Misalnya. jika
kuesioner dengan 5 pertanyaan hilang secara acak 10% dari data, maka rata-rata hampir 60% dari
sampel akan memiliki setidaknya satu pertanyaan yang hilang.

Juga sering terjadi bahwa data yang hilang tidak terdistribusi secara acak. Misalnya. orang yang mengisi
kuesioner panjang mungkin menyerah pada suatu saat dan tidak menjawab pertanyaan lebih lanjut,
atau mereka mungkin tersinggung atau malu dengan pertanyaan tertentu dan memilih untuk tidak
menjawabnya. Ini adalah karakteristik yang mungkin cukup relevan dengan analisis.

Secara umum ada beberapa jenis perbaikan untuk data yang hilang:

*Hapus sampel dengan elemen data yang hilang

*Impute nilai dari data yang hilang

*Hapus variabel (mis. Pertanyaan khusus dalam hal kuesioner atau survei) yang memiliki insiden tinggi
data yang hilang, terutama jika ada variabel lain (mis. Pertanyaan) yang mengukur aspek serupa dari
karakteristik yang sedang dipelajari.

-Menghapus Data yang Hilang-


Yang paling penting adalah keacakan data yang hilang. Misalnya. misalkan banyak orang tidak menjawab
pertanyaan 5 tetapi semua orang menjawab pertanyaan 7. Jika frekuensi tanggapan terhadap
pertanyaan 7 berubah secara signifikan ketika sampel yang hilang, tanggapan terhadap pertanyaan 5
dijatuhkan, maka data yang hilang tidak acak, dan sebagainya menjatuhkan sampel dapat membuat bias
hasil analisis. Dalam kasus ini, salah satu solusi lain harus digunakan atau analisis harus dijalankan dua
kali: sekali dengan sampel dengan data yang hilang disimpan (mis. Dengan menambahkan "tidak ada
respons" untuk data yang hilang) dan satu kali dengan sampel ini dijatuhkan.

Data yang hilang dapat dihapus dengan menggunakan fungsi Excel tambahan berikut yang ditemukan di
Paket Statistik Nyata.

-Menempatkan nilai untuk data yang hilang-

Beberapa teknik untuk memasukkan nilai untuk data yang hilang termasuk:

*Mengganti data yang hilang dengan pengamatan lain yang dianggap serupa, baik diambil dari sampel
lain atau dari penelitian sebelumnya

*Menggunakan mean dari semua elemen data yang tidak hilang untuk variabel itu. Ini mungkin dapat
diterima dalam kasus-kasus dengan sejumlah kecil elemen data yang hilang, tetapi selain itu dapat
mendistorsi distribusi data (mis. Dengan mengurangi varians) atau dengan menurunkan korelasi yang
diamati (lihat Konsep Dasar Korelasi).

*Menggunakan teknik regresi. Dalam pendekatan ini regresi (seperti yang dijelaskan dalam Regresi dan
Regresi Berganda) digunakan untuk memprediksi nilai elemen data yang hilang berdasarkan hubungan
antara variabel itu dan variabel lainnya. Pendekatan ini memperkuat hubungan yang ada dan dengan
demikian membuatnya lebih mungkin bahwa analisis akan mengkarakterisasi sampel dan bukan
populasi umum.

Anda mungkin juga menyukai