Anda di halaman 1dari 58

Penemuan Hubungan spasial Data Spasial 5.

1 Pada Pertambangan Hubungan spasial Data Spasial Studi hubungan dalam ruang telah menjadi inti dari penelitian geografis. Dalam kasus yang paling sederhana, kita mungkin tertarik dalam karakterisasi mereka dengan beberapa indikator sederhana. Kadang-kadang kita mungkin akan tertarik untuk mengetahui bagaimana hal-hal bersama-bervariasi dalam ruang. Dari perspektif data mining, itu adalah penemuan asosiasi spasial pada data. Sering kali, kita tertarik dalam hubungan di mana variasi dari satu fenomena dapat dijelaskan oleh variasi dari fenomena lainnya. Dalam hal data mining, kami sedang mencari beberapa jenis hubungan kausal yang mungkin diekspresikan dalam bentuk fungsional. Statistik dalam statistik umum dan spasial pada khususnya telah umum digunakan dalam studi tersebut (Cliff suatu Ord 1972; Anselin 1988; Cressie 1993). Terlepas dari apa hubungan yang menarik, perhatian utama geografi di apakah mereka lokal atau global. Dalam karakterisasi fenomena spasial, misalnya, adalah tepat untuk menggunakan rata-rata keseluruhan untuk menggambarkan tendensi sentral dari distribusi dalam ruang? Apakah akan terlalu over-menyapu indikator sehingga menyembunyikan variasi-variasi lokal yang berbeda yang akan lebih mengatakan sebaliknya? Tugas data mining adalah demikian untuk mengetahui apakah variasivariasi lokal yang signifikan yang tertanam dalam distribusi umum, dan jika ya, kita perlu inravel parameter yang sesuai dan / atau bentuk fungsional untuk deskripsi mereka. Dalam identifikasi asosiasi spasial, kita sering bertanya-tanya apakah autocorrelations spasial lokal atau global. Sekali lagi, adalah penting untuk memiliki sarana untuk mengungkap hubungan asosiatif tersebut. Untuk menemukan hubungan kausal dalam ruang, isu lokal vs global yang bertumpu pada apakah pengaruh variabel penjelas terhadap variabel dependen dapat diringkas dengan sebuah parameter global, atau apakah itu lokal dengan efek yang berbeda di berbagai titik dalam ruang. Singkatnya, masalah dasarnya pada penemuan stasioneritas non-spasial dari data. Ketidaktepatan menggunakan estimasi global untuk mewakili hubungan lokal telah menjadi perhatian tidak hanya goegraphers, tetapi juga statistik dan ilmuwan sosial lainnya. (1951) studi Simpsons tentang efek lical pada interaksi dalam tabel kontingensi, (1996) pemeriksaan Linneman dari arus perdagangan internasional, yang Cox (1969) dan yang Johnston (1973) lokal analisis dalam perilaku pemilih adalah contoh awal. Selama bertahun-tahun, peneliti, khususnya ahli geografi, telah mengembangkan metode untuk menganalisis lokal dan global. Mesin analisis geografis (Openshaw et al 1987.), Versi terbatas dari "statistik scan" (et al.1997 Kulldorf), misalnya, melayani untuk studi pola titik dengan variasi lokal yang mungkin tidak tepat ditangkap oleh statistik global dijelaskan oleh Dacey (1960), Tinkler (1971), dan Boots dan Getis (1988). Berbeda dari konsep yang dikemukakan oleh Cliff dan Ord (1972)

yang memberikan statistik global untuk menggambarkan assosiation spasial, Getis dan Ord (1992), Anselin (1995, 1998), Ord dan Getis (1995,2001) mengusulkan beberapa statistik lokal untuk menggambarkan variasi lokal dalam studi autocorrelatio spasial. Telah menunjukkan bahwa kelompok lokal yang tidak dapat terdeteksi oleh statistik global dapat diidentifikasi oleh statistik lokal. Leung et al. (2003d) membuat analisis lebih ketat oleh generalisasi statistik lokal ke bentuk kuadrat. Selain pengembangan statistik lokal untuk deskripsi ketergantungan spasial, isu local dan global juga telah muncul dalam ilmu tentang hubungan keruangan dalam kerangka analisis regresi. Serupa dengan studi asosiasi spasial, isu kunci dalam analisis hubungan kausal adalah untuk mengetahui apakah hubungan sebab-akibat adalah nonstasioner dalam ruang. Secara khusus, kami tertarik untuk mengetahui apakah efek spasial adalah lokal atau global. Dalam konteks regresi, jika parameter dari model regresi adalah fungsi dari lokasi di mana pengamatan dibuat, maka pola-polalokal ada dan hubungan spasial adalah non-stasioner. Secara khusus, kami tertarik untuk mengetahui apakah efek spasial adalah lokal atau global. Dalam konteks regresi, jika parameter dari model regresi adalah fungsi dari lokasi di mana pengamatan dibuat, maka pola-pola lokal ada dan hubungan spasial adalah nonstasioner. Hubungan kemudian dapat diwakili oleh model regresi bervariasiparameter (Cleveland 1979). Dalam terminologi spasial, hubungan dikatakan ditangkap oleh regresi geografis ditimbang (Brunsdon et al. 1996). Dengan demikian,tugas data mining adalah untuk menentukan apakah struktur yang mendasari adalah global atau lokal dalam hal beberapa statistik. Untuk sistem yang kompleks, bagaimanapun, nonstasioneritas spasial tidak terbatas hanya pada variasi parameter suatu model universal. Data spasial mewujudkan sistem seperti mungkin berisi beberapa populasi tertanam dalam distribusi campuran. Dengan kata lain, bentuk hubungan fungsional mewakili bervariasi dari ruang. Hubungan lokal mengambil ekspresi fungsional yang berbeda, dan tugas kami adalah untuk mengungkap semua dari mereka dalam database spasial. Hal ini khususnya penting untuk mengembangkan metode data mining yang kuat dalam lingkungan yang sangat bising (Leung et al 2001a.). Dalam bab ini, penemuan asosiasi spasial pertama dibahas dalam Bag. 5.2. Penekanan ditempatkan pada kerja berbagai ukuran untuk pertambangan asosiasi global dan lokal dalam ruang dengan uji statistik ketat. Penemuan non-stasioneritas hubungan spasial ini kemudian dibahas dalam Bag. 5.3. Variasi lokal terurai dengan mendeteksi variasi yang signifikan dari parameter dari model regresi dalam ruang. Kerangka umum adalah regresi parameter-bervariasi dengan regresi tertimbang geografis sebagai kasus khusus. Autokorelasi spasial dalam geografis regresi tertimbang adalah dibahas lebih lanjut dalam Sect 5,4. Sebuah model yang lebih umum dari regresi tertimbang geografis secara singkat dibahas dalam Bag. 5,5. Dalam Sect. 5,6, spasial non-stasioneritas diperpanjang untuk situasi di mana hubungan mengambil bentuk yang berbeda dalam ruang. Regresi kelas metode dekomposisi campuran yang digunakan untuk menambang variasi lokal dari hubungan spasial ditangkap oleh bentuk-bentuk fungsional yang berbeda. 5.2 Penemuan Pola Spasial Daerah Asosiasi

5.2.1 Pada Mengukur Asosiasi Lokal Variasi Spasial Banyak masalah geografis hanya dapat memadai dianalisis dengan memperhatikan lokasi relatif dari pengamatan kegagalan kita dalam mengambil langkah yang diperlukan untuk memperhitungkan hubungan spasial dalam set data spasial sering kali mengarah pada kesimpulan yang menyesatkan (lihat, misalnya Anselin dan Griffith1988; Tsulasa 1989). Statistik terkenal untukidentifikasi pola global asosiasi spa sial Moran, I (Moran 1950) dan Geary yang c (Geary 1954). Mereka digunakan sebagai ukuran keseluruhan dari ketergantungan spasial tentang mengatur seluruh data. Sifat dari kedua statistik dan distribusi nol mereka telah intensif dipelajari selama bertahuntahun (lihat, untuk Cliff contoh dan Ord 1981; Anselin 1988; Tiefelsdorf dan Boots 1995;Hepple 1998; Tiefelsdorf 1998,2000;. Leung et al 2003d). Namun, dengan data yang semakin besar set georeferensi yang diperoleh dari system spasial yang kompleks, stasioneritas ketergantungan atas ruang mungkin merupakan praduga tidak realistis. Dengan demikian, telah terjadi lonjakan minat dalam menemukan pola-pola lokal asosiasi spasial berdasarkan bentuk-bentuk lokal statistic dalam beberapa tahun terakhir. Bentuk-bentuk lokal statistik terutama berfokus pada pengecualian terhadap pola-pola umum yang diwakili oleh bentuk dunia konvensional, dan pencarian dari daerah setempat menunjukkan heterogeneities spasial dengan keberangkatan lokal yang signifikan dari keacakan. Statistik umum digunakan untuk mendeteksi polapola lokal asosiasi spasial Ord dan Getis Gi atau Gi * statistik (Ord dan Getis 1995) dan Anselin 's LISAs (Anselin 1995), termasuk Moran I_i lokal dan lokal Geary yang c_i. Sebagaimana didefinisikan dalam Anselin (1995), sebuah LISA harus menunjukkan sejauh mana pengelompokan spasial pengamatan di sekitar lokasi referensi, dan harus mematuhi persyaratan aditivitas untuk setiap skema pengkodean dari matriks hubungan spasial. Artinya, jumlah dari nilai-nilai dari LISA di semua lokasi harus propotional untuk indikator global asosiasi spasial. Dengan aditivitas, sebuah LISA juga dapat digunakan sebagai diagnosis ketidakstabilan lokal dalam ukuran asosiasi spasial global dalam kehadiran asosiasi global yang signifikan. Namun, Gi atau Gi * statistik, sementara statistik untuk asosiasi spasial lokal, bukan LISA dalam arti kebutuhan aditivitas karena komponen individu tidak berhubungan dengan statistik global spasial asosiasi (Anselin 1995). Selain karyakarya mendasaroleh Anselin (1995), Getis dan Ord (1992) serta Ord dan Getis(1995), sifat-sifat statistik setempat telah secara ekstensif dipelajari dan diterapkan ke dunia nyata banyak dan simulasi data spasial set (lihat, misalnya, Bao dan Henry 1996; Sokal et al, 1998; Tiefelsdorf dan Boots 1997; Fotheringham dan Brunsdon1999; Unwin 1996; Wilhelm dan Steck 1998). Salah satu isu penting dalam studi asosiasi spasial lokal adalah untuk mengetahui distribusi nol yang dibuat tersedia dapat subyek menantang lainnya ditangani (Tiefelsdorf 2000). Dalam aspek ini, Tiefelsdorf dan rekan telah menetapkan Ii local Moran sebagai rasio dari bentuk kuadrat. Melalui definisi ini dan di bawah baik asumsi

kemerdekaan spasial atau bersyarat pada proses spasial global, mereka telah menyelidiki distribusi yang tepat tanpa syarat dan kondisional dari Ii dan momen dengan teori statistik untuk rasio bentuk kuadrat (Boots dan Tiefelsdorf 2000 ;Tiefelsdorf 1998, 2000; Tiefelsdorf danBoots 1997). Sayangnya, distribusi nol statistic lokal lainnya belum diperiksa di sepanjang baris ini penalaran. Selanjutnya, pendekatan normal dan permutasi acak masih merupakan pendekatan umum untuk menurunkan pnilai statistik lokal. Beberapa modul GIS untuk analisis statistik spasial juga mempekerjakan aproksimasi normal untuk menghitung distribusi nol Ii (Boots danTiefelsdorf 2000). Namun demikian, ada masalah dengan dua metode ini. Untuk Ii statistik lokal, c_i, dan * Gi atau Gi, struktur spasial yang mendasari atau kedekatan spasial biasanya berbentuk bintang. Cliff dan Ord (1981, Bab. 2) telah menunjukkan bahwa distribusi nol global Moran l dan Geary yang c dengan struktur spasial berbentuk bintang nyata menyimpang dari distribusi normal. Serangkaian percobaan yang dilakukan oleh Anselin (1995), Boots dan Tiefelsdorf (2000) dan Sokal et al. (1998) juga menunjukkan bahwa pendekatan normal terhadap distribusi Ii lokal Moran adalah tidak tepat karena keruncingan berlebihan distribusi Ii. Meskipun normalitas asimtotik adalah asumsi yang masuk akal untuk distribusi nol Gi atau * Gi, tingkat signifikansi menyesatkan dapat diperoleh jika jumlah tetangga di lokasi tertentu terlalu kecil dan bobotnya untuk menggambarkan contiguities terlalu merata (Ord danGetis 1995). Meskipun pendekatan permutasi acak tampaknya memberikan dasar yang dapat diandalkan untuk inferensi untuk kedua LISAs dan Gi atau Gi * (Anselin 1995), pendekatan ini mungkin menderita dari resampling kesalahan dan ukuran sampel yang sangat besar dibutuhkan untuk resampling agak mahal untuk tujuan rutin signifikansi uji (Costanzo et al. 1983). Selanjutnya, dalam uji signifikansi hubungan spasial dengan statistik lokal, fungsi distribusi empiris dihitung dengan resampling dari pengamatan di bawah asumsi equiprobabilitas seleksi di seluruh ruang. Jika unit spasial tidak seragam didefinisikan, asumsi equi-probabilitas seleksi mungkin tidak tahan dan nilai-nilai tes yang diperoleh bisa menjadi bias (Bao dan Henry 1996). Dalam konteksregresi, jika asosiasi spasial antara residu yang akan diuji, maka pendekatan permutasi acak adalah tidak tepat karena residual regresi berkorelasi (Anselin dan rey1991). Mengingat kekurangan di atas dalam perfoming tes signifikansi untuk asosiasi spasial lokal dengan pendekatan normal dan permutasi acak, sangat berguna untuk mengembangkan tepat atau beberapa metode perkiraan yang lebih akurat untuk pengujian asosiasi spasial lokal. Idenya adalah untuk mengembangkan perkiraan tepat dan p-nilai statistik lokal tersebut untuk pengujian cluster spasial lokal ketika autokorelasi global tidak signifikan. Seperti penemuan struktur alamat proses dasarnya masalah statistik uji berikut : 1. Adalah lokasi referensi dikelilingi oleh sekelompok nilai-nilai tinggi atau rendah? atau 2. Apakah nilai yang diamati di lokasi ini positif (sama) atau negatif (dissimilarly) terkait dengan pengamatan sekitarnya? Untuk menawarkan pendekatan yang lebih formal sejalan dengan kerangka statistik klasik, Leung et al. (2003d) telah mengembangkan metode yang tepat untuk menghitung nilai-p dari Moran lokal li, lokal Geary yang c_i dan dimodifikasi Ord dan

Getis G statistik didasarkan pada teori distribusi bentuk kuadrat dalam varibles normal. Selanjutnya, metode perkiraan, disebut tiga saat X ^ 2 pendekatan, dengan formula perhitungan eksplisit, juga telah diusulkan untuk mencapai biaya komputasi yang lebih rendah daripada metode yang tepat. Studi mereka tidak hanya menyediakan tes yang tepat untuk pola-pola lokal asosiasi spasial, tetapi juga menempatkan tes statistik beberapa lokal dalam kerangka statistik terpadu.

5.2.2 Lokal Statistik dan Ekspresi mereka sebagai Rasio Bentuk kuadrat Saya pertama kali memperkenalkan di bagian ini li lokal Moran dan Geary yang c_i dari Anselin yang LISAs (Anselin 1995) serta * Gi dan Gi dari Ord dan Getis G statistik (Ord dan Getis 1995), mengungkapkan mereka sebagai rasio dari bentuk kuadrat dalam pengamatan. Dengan mengambil kuadrat dari Gi dan Gi * pada khususnya, analisis * Gi Gi dan dapat dibawa dalam kerangka umum dari rasio bentuk kuadrat. Misalkan x = (x1, x2,..., xn) ^ T adalah vektor pengamatan pada variabel acak X di lokasi n dan misalkan W = (w_ij) _nxn menjadi matriks simetris hubungan spasial yang didefinisikan oleh tata ruang yang mendasari unit geografis di mana elemen-elemen mengambil nilai satu jika unit yang sesuai i dan j datang dalam kontak dan nol sebaliknya. Perlu dicatat bahwa matriks link juga dapat menggabungkan informasi tentang jarak, aliran dan jenis-jenis hubungan. 5.2.2.1 li Lokal Moran Untuk lokasi referensi saya, li Moran lokal dalam bentuk standar adalah (Anselin 1995) (Persamaan 5.1) mana x_bar = 1 / n ......................... adalah baris ke-i dari matriks simetrik spasial hubungan W dan w_ii = 0 dengan konvensi. Sebuah nilai positif besar li menunjukkan pengelompokan spasial nilai-nilai yang sama (baik tinggi atau rendah) di sekitar lokasi i, dan nilai negatif yang besar menunjukkan pengelompokan nilai-nilai yang berbeda, yaitu, lokasi dengan nilai yang tinggi dikelilingi oleh nilai-nilai yang rendah wiith tetangga dan sebaliknya. Kami benar-benar dapat mengekspresikan li sebagai rasio dari bentuk kuadrat sebagai berikut (Leung et al.2003d) : (Persamaan 5.2) mana (Persamaan 5.3) di mana I adalah matriks identitas orde n, B = I - (1 / n) 11 ^ T adalah matriks idempoten dan simetris, 1 = (1,1,..., 1) ^ T, dan W (li ) adalah matriks nxn simetris

berbentuk bintang didefinisikan sebagai: (Persamaan 5.4) Karena ........................, kami telah (Persamaan 5.5) di mana s = ................., dan saya adalah statistik Moran global (Cliff dan Ord 1981, h.47). Ini berarti bahwa, ketika kita mengambil W (li) sebagai matriks link lokal, persyaratan aditivitas dipenuhi oleh li. 5.2.2.2 c_i Lokal Geary Para c_i lokal Geary di lokasi referensi i didefinisikan oleh Anselin (1995) sebagai (Persamaan 5.6) mana w_ij = 0. Nilai kecil c_i menunjukkan hubungan spasial positif (kesamaan) dari pengamatan saya dengan pengamatan sekitarnya, sementara nilai besar c_i menunjukkan hubungan negatif (perbedaan) dari pengamatan i dengan pengamatan sekitarnya. Berdasarkan Leung et al. (2003d), c_i lagi dapat dinyatakan sebagai rasio bentuk kuadrat sebagai: (Persamaan 5.7) dimana W (c_i) = D (i) - 2W (li) adalah simetris, dan D (i) = diag (w_i1,..., w_i.i-1, w_i +, w_i.i +1 ..., w_in) adalah matriks diagonal dengan elemen ke-i dalam diagonal utamanya sebagai w_i + =. .... Menurut simetri W dan w_ii = 0 untuk semua i, mudah untuk membuktikan bahwa (Persamaan 5.8) dimana D = diag (w_1 +, w_2 +, ..., w_n +). Dari Cliff dan Ord (1981, hal 167) serta Leung et al. (2003), c Geary global dapat dinyatakan sebagai (Persamaan 5.9) Thefore (Persamaan 5.10) Artinya, persyaratan aditivitas masih dipenuhi oleh c_i dengan ekspresi di (5,7). 5.2.2.3 G Statistik Disajikan sebagai Rasio Bentuk Kuadrat Ord dan Getis Gi dan Gi * statistik dalam bentuk aslinya (Getis dan Ord 1992) adalah, masing-masing, (Persamaan 5.11) dan (Persamaan 5.12) Untuk mempermudah, d dalam w_ij (d) (berat untuk link dari j lokasi dan lokasi tertentu i, dengan j sebagai dalam jarak d dari i) dihilangkan di sini. Para Gi statistik dan Gi * dalam (5.11) dan (5.12) mengharuskan variabel X yang mendasari memiliki asal

alami dan adalah positif (Getis dan Ord 1992). Untuk mengatasi pembatasan ini, Ord dan Getis (1995) memiliki standar mereka sebagai (Persamaan 5.13) dan (Persamaan 5.14) mana x_bar (i) = i / (n-1 )........ Di sini, faktor skala di setiap statistik diabaikan karena tidak mempengaruhi p-nilai yang akan diperoleh. Sebuah nilai positif besar Gi atau Gi * menunjukkan pengelompokan spasial pengamatan nilai-nilai tinggi sementara nilai negatif yang besar menunjukkan pengelompokan spasial pengamatan nilai rendah. Namun, tidak seperti LISAs, kedua statistik lokal tidak terkait dengan satu global dan oleh karena itu persyaratan aditivitas tidak puas. Dalam rangka untuk menempatkan Gi dan * Gi ke dalam kerangka rasio bentuk kuadrat, Leung et al. (2003d) mengambil persegi Gi dan * Gi dan memperoleh statistik G dimodifikasi, masing-masing, sebagai berikut: (Persamaan 5.15) dan (Persamaan 5.16)

Suatu nilai yang besar pada perubahan statistik Gi atau Gi* menunjukkan sebuah clustering spasial pada pengamatan nilai yang tinggi atau nilai yang rendah. Dengan modifikasi ini, Gi dan Gi* kemudian dapat dinyatakan sebagai rasio bentuk kuadrat dan ada distribusi null dapat diperoleh dengan teori distribusi bentuk kuadrat. Secara statistik, itu ekuivalen untuk menggunakan Gi atau Gi* dan dimodifaksi satu untuk mengeksplorasi asosiasi spasial lokal kecuali clustering spasial pada nilai tinggi atau nilai rendah tidak dapat diidentifikasi oleh nilai-nilai ekstrim statistik dimodifikasi atau . Namun, hilangnya asosiasi terarah dapat kembali nilai-nilai pengamatan di dan lokasi i dikompensasikan dan tetanggadengan memeriksa

tetangganya setelah nilai signifikan dari

yang diperoleh di lokasi i.

Sejak dan dapat dinyatakan sebagai rasio bentuk kuadrat dengan cara yang sama, kita selanjutnya hanya perlu membahas statistik . Perlu dicatat bahwa pembilang pada . di (5.16) bisa ditulis seperti [ ] (i)wT(i) (5.17) Olehkarena, itu diperoleh Dimana (5.19) Adalah matriks simetrik 5.2.2.4 Distribusi Null Ii, ci and Gi* dan nilai p pada Uji Asosiasi Spasial Berdasarkan langkah-langkah diatas kita dapat memperoleh nilai p pada statistik lokal ini untuk menguji cluster spasial lokal didalam ketiadaan autokorelasi spasial global. Asumsikan bahwa distribusi yang mendasari untuk menghasilkan pengamatan adalah normal. Kemudian dibawah hipotesis nol : H0: tidak ada asosiasi spasial lokal yang hadir(present) Variabel x1, x2,...xn adalah independen dan identik didistribusikan sebagai , sebuah distribusi normal dengan mean dan varians 2. Oleh karena itu, x~N(1,2I). Dalam kasus ini, untuk struktur spasial tertentu yang ditetapkan oleh matriks link spasialW, distribusi nol dari statistik lokal tersebut dapat diperoleh

(5.18)

melalui teori distribusi bentuk kuadrat dalam variabel yang normal. Oleh karena itu, uji signifikasi untuk asosiasi spasial lokal dapat dilakukan dengan menghitung nilai p dari statistik lokal. Dalam pembahasan berikut, metode eksak dan metode aproksimsi untuk menurunkan nilai p statistik lokal Ii, ci, yang diperkenalkan. Metode eksak (exact) Dibawah hipotesis nol H0, x~N(1,2I), kita mempunyai Substitusikan x = y + 1 didalam menyatakanIi di (5.2) dan tidak ada ( ) ( ) , dengan menghilangkan faktor skala 1/n, (5.20) Nyatakan sama untuk ci dan dapat diperoleh dengan dihasilkan dengan mengganti W(Ii) dengan W(ci) dan W( masing-masing. Untuk setiap bilangan real r, nilai dari fungsi distribusi nol dapat dinyatakan sebagai { [ ] [ ] } (5.21)

Sejak

adalah sebuah matriks simetrik dengan element real dan y

distribusi N(0,1), Imhof menghasilkan distribusi bentuk kuadratik (Hepple 1998; Imhof 1961; Leung et al.2003; Tiefelsdorf dan Boots 1995) bisa di gunakan untuk memperoleh distribusi nol pada Ii. Yaitu, Dimana [ arctan ] (5.23) (5.24)
sin[ ]

(5.22)

Dengan 1, 2, ...,m menjadi nilai-nilai eigen bukan nol yang berbeda pada matriks [ ] dan h1, h2,...,hm yang masing-masing perintah multiplisitas. Formula yang sama untuk menghitung distribusi null ci dan dapat diperoleh dengan mengganti 1, 2, ...,m dan h1, h2,...,hm dengan nilai eigen dan perintah ] dan [ ( ) ] masing-masing. multiplisitas dari matriks-matriks [

Sebagai kasus khusus dari hasil diatas, kita mendapatkan nilai p yang tepat (exact) pada statistik Ii, ci dan untuk uji asosiasi spasial. Biarkan r1, rc, dan rG , masingmasing, nilai yang diamati Ii, ci dan yang dapat dihitung dari (5.1), (5,6) dan (5,16), atau dari (5.2), (5,7) dan (5.18), dengan menghilangkan faktor skala 1/n dinyatakan masing-masing. Untuk Ii , niali p untuk pengujian autokorelasi spasial positif (cluster spasial nilai yang sama) adalah , dan nilai p untuk menguji autokorelasi . Untuk ci, nilai p dan nilai p untuk menguji . Untuk , nilai p untuk menguji . spasial negatif (cluster spasial nilai yang tidak sama) adalah unuk menguji autokorelasi spasial positif adalah autokorelasi spasial nrgatif adalah

clustering spasial pengamatan nilai-nilai tinggi atau rendah adalah derivasi dari al.(2003). Untuk {arctan[ (5.25) { Dimana Untuk [ dan ] }{ [ ] } B. (5.26) di (5.22) untuk kita mempunyai ] arctan[ ] arctan }

Semua nilai p dapat dihitung melalui rumus eksak yang sesuai pada (5.22)-(5.24). yang diberikan di Leung et

adalah nilai eigen yang tak nol dari matriks BW(

kita mempunyai {arctan[ (5.27) [ ][ , kita mempunyai { arctan[ (5.29) [ (5.30) ] ] arctan[ ]} ] (5.28) ] arctan },

Untuk

Metode Aproksimasi (Approximate method) Menghitung secara numerik nilai eigen dari sebuah matriks n x n dan integral pada interval terbatas pada kenyataannya secara komputasi mahal. Oleh karena itu metode eksak di atas untuk menghitung nilai pstatistik sangat tidak efisien dalam

prakteknya, terutama ketika ukuran sampel n dari tugas data mining adalah besar.Beberapa metode aproksimasi mungkin bisa digunakan untuk memecahkan masalah ini. sebagaimana disebut di atas, distribusi null dari LISA tidak bisa menjadi aproksimasi yang efektif dengan distribusi normal. Leung dkk (2003d) maka mengusulkan suatu prosedur yang higher-moments, disebut three-moment 2 aproksimasi, untuk meghitung nilai p dari statistik lokal untuk uji asosiasi spasial dan menurunkan rumus perhitungan eksplisit yang secara signifikan dapat mengurangi overhead komputasi. Gagasan utama aproksimasi 2 three-moment adalah untuk memperkirakan distribusi dalam bentuk kuadratik didalam variabel-variabel normal dengan fungsi linear dari sebuah variabel 2 dengan sesuai derajat kebebasan, katakan

Koefesien a dan b dari fungsi linear dan derajat kebebasan d dipilih sedemikian rupa sehingga three-moment pertama dari

adalah dibuat untuk mencocokan mereka

pada bentuk kadratik. Metode ini awalnya diusulkan oleh Pearson (1959) untuk memperkirakan (aproximate) distribusi dari sebuah variabel 2 nonsentral. Imhof (1961) telah diperpanjang metode ini untuk meperkirakan distribusi dari bentuk kuadratik umum didalam variabel normal. Untuk Moran lokalIi, kita mempunyai { { Dimana
{ [ { [ ] } ] }

[ ] ]} ] ]}

] { [ { [

} ] } ] } }

{ {

[ [ [ [

(5.32)
{ { [ [ [ [ ] ] } ] ] }

(5.33)

Oleh karena itu, perkiraan nilai p dari Ii untuk pengujian lokal positive atau autokorelasi spasial negatif bisa dihitung melalui (5.31) jika rI nilai yang diamati diperoleh.

Untuk lokal Geary ci, probabilitas sama di (5.31)-(5.33) kecuali matriks [ statistik dimodifikasi , probabilitas mengganti matriks [

bisa dihitung dengan bentuk yang ]B diganti [ ]B. Untuk

tetap bisa dihitung dengan ].

]B di (5.31), (5.32) dan (5.33) dengan [

jika variabel yang mendasari untuk menghasilkan dataterdistribusi secara normal dan hipotesis nol "tidak ada hubungan spasial lokal" adalah benar, masingmasing statistiklokal Ii, ci, maka dapat dinyatakan sebagai rasio dari bentuk kuadratik didalam variabel normal standar. Oleh karena itu, hasil yang diketahui baik mengatakan bahwa rasio bentuk kuadratik pada variabel normal dengan matriks didalam dengan matriks penyebutnya idempoten yang didistribusikan secara independen dari penyebutnya "(lihat contoh Cliff and Ord 1981, p.43 serta Stuart and Ord 1994, pp.529-530 untuk bukti) dapat digunakan untuk mendapatkan momen yang tepat dari Ii, ci, dan positif k,
[ ]

. menurut hasil ini, dari (5.20) bahwa setiap bilangan bulat

(5.34)

Mirip dengan derivasi di Tiefelsdorf(2000,pp. 100-102), dari contoh, kita bisa memperoleh partikular [ { (5.36) Leung et al. (2003d) menunjukan bahwa aproksimasi normal dari distribusi null Ii dapat dinyatakan sebagai (

] [ [

(5.35) ] }

),

(5.37)

Dimana (x) fungsi distribusi N(0,1). Dan bisa mendapatkan formula pendekatan normal yang serupa seperti yang ada di (5.37) untuk distribusi null dari ci dan masing-masing. Simulasi yang dilakukan oleh Leung et al.(2003d) menunjukkan bahwa pendekatan aproksimasi ini umumnya lebih baik daripada melakukan aproksimasi normal dan sangat akurat di beberapa contoh.

Harus ditekankan bahwa baik exact(tepat) dan approximate (perkiraan) nilai p dari Ii, ci, dan adalah yang diperoleh berdasarkan asumsi bahwa autokorelasi spasial global signifikan dan bahwa distribusi yang mendasari

untuk menghasilkan pengamatan adalah normal. Asumsi pertama berarti hasilnyahanya bisa digunakan di uji signifikansi untuk cluster spasial lokal bahwa statistik global gagal untuk mendeteksi. Ini adalah salah satu dari dua tujuan penting maksud LISAs untuk server (Anselin 1995). hasil yang diperoleh Didalam praktik, menguji non eksistensi dari autokorelasi Leung dkk.(2003d) kemudian dapat digunakan untuk spasial global yang pertama harus dilakukan. Jika autokorelasi global tidak signifikan, menilai signifikansi dari cluster spasial lokal. 5.3 Penemuan non-stasioneritas spasial berdasarkan model WGR (Geographically Weighted Regression model) 5.3.1 Pada pemodelan spasial non-stasioneritas dalam kerangka parameter-variasi regresi (on modeling spatial Non-Stationarity within the parameter -varying regression framework) Didalam analisis spasial, ordinary linear regression (OLR) Model telah menjadi salah satu sarana statistik yang paling berguna untuk mengidentifikasi hubungan antara variabel. Didalam tekhnik ini, variabley, yang disebut variabel dependen, dimodelkan sebagai fungsi linear yang dimodelkan sebagai fungsi linier dari satu set variabel independen xi,x2,...,xp. Berdasarkan pengamatan n (yi; xi1, xi2,...,xip), i=1,2,...,n, diambil dari studi region , model bisa dinyatakan sebagai dianggap variabel acakdistribusi 2. Di model ini, , (5.38) normal independen dengan masing-masing parameter Dimana 0, 1,...,p adalah parameter dan 1, 2, ... , n adalah error terms yang umumnya nol berarti dan varians konstan

dapat dianggap sebagai slopes diantara variabel dependen dan satu variabel independen. Estimasi kuadrat terkecil dari vektor parameter dapat ditulis sebagai Dimana ( ) ( ) (5.39)

( (5.40) Sifat statistik dari perkiraan ini telah

),

).

diteliti

dengan

baik dan

berbagai

tes hipotesis juga telah dibentuk. Meskipun model OLR telah digunakan secara luas dalam studi hubungan spasial, tidak dapat ruang karena hubungan antara menggabungkan spasial non-stasioneritas dalam variabel dependen danvariabel independen,

dimanifestasikan oleh slopes (parameter), diasumsikan global di seluruh area studi. Namun dalam banyak situasi kehidupan nyata, ada banyakbukti yang menunjukkan kurangnya keseragaman dalam efek pada ruang/space. Variasi lokal dari hubungan atas ruang umum ada dalam setdata spasial dan asumsi stasioneritas atau stabilitas strukturalatas ruang mungkin tidak realistis (lihat contoh, Anselin 1988; Fotheringham et al.1996; Fotheringham 1997). Itu menunjukkan bahwa, sebagaimana dinyatakan dalam Brunsdon dkk (1996), (1) hubungan dapat bervariasi secara signifikan atas ruang dansebuah "global" perkiraan dapat mengaburkan hubungan fenomena geografis yang menarik; (2) variasi atas ruang cukup kompleks sehingga invalidates simple trend-fitting dalam data exercises. Sehingga ketika menganalisis data spasial, terutama spasial sationarity. selama memasukkan bertahun-tahun, beberapa ketidakstabilan Anselin (1988, pendekatan telah 1990) telah diusulkan drift untuk ke struktural spasial atau spasial mining, kitaharus memperhitungkan jenis non-

dalam model. misalnya,

menyelidiki model regresi

dengan perubahan strukturalspasial. Casetti (1972,1986), Jones and Casetti (1992), Fotheringham and Pitts (1995) have studied spatial variations by the expansion method. Basing on the locally weighted regression method, Cleveland (1979), Cleveland dan Devlin (1988), Casetti (1982), Foster dan Gorr (1986), Gorr dan Olligschlaeger (1994), Brunsdon dkk.(1996,1997), Fotheringham dkk (1977a,b) telah meneliti berbagai parameter model regresi : (5.41)

Tidak seperti model OLR di (5.38), model ini memungkinkan parameter untuk bervariasi di space(ruang). Namun, model ini dalam bentuk unconstrained tidak diimplementasikan karena jumlah parameter meningkat dengan jumlah pengamatan , yaitu kutuka dimensi. Karenanya, strategi digunakan untuk ruang harus untuk membatasi jumlah derajat kebebasan yang mewakili variasi parameter atas dikembangkan ketika parameter diperkirakan. Ada beberapa metode untukmemperkirakan parameter. Misalnya, metode filter adaptive spasial (Foster and Gorr 1986; Gorr and Olligschlaeger 1994) umumnya menggunakan feedback untuk memperkirakan spasial-variasi parameter dari model (5.41). Namun, pendekatan ini menggabungkan hubungan spasial dengan cara yang bukan ad hoc dan menghasilkan perkiraan parameter itu tidak dapat menguji secara statistik. Metode regression weighted lokal dan metode regresi kernel (Cleveland 1979; Casetti 1982; Cleveland dan Devlin 1988; Cleveland dkk.1988; Brusdon 1995; Wand dan Jones 1995) berfokus terutama pada fit dari variabel dependen daripada spasial parameter yang bervariasi. Selanjutnya, sistem weighting tergantung pada lokasi di"ruang atribut" (Openshaw 1993) dari variabel independen. di sepanjang garis pemikiran ini, Brunsdon dkk.(1996,1997), Fotheringham dkk.(1997a,b, 2002) menyarankan teknik geographically dalam weighted regression dengan berikut, yang (GWR). model saya akan terlibat dalam Representasi matematis dari regresi bervariasi-parameter menguraikan model GWR dan model GWR sebenarnya sama (5.41). isu-isu dasar

menggunakannya sebagai alat untuk mengungkap variasi lokal dalam hubungan spasial. 5.3.2 Geographically Weighted Regression and the Local-Global Issue About Spatial Non-Stationarity Didalam model GWR, parameter diasumsikan untuk menjadi fungsi dari lokasi dimana pengamatan diperoleh. Yaitu parameter di lokasi i. Parameter pada model GWR yang diperkirakan oleh pendekatan kuadrat kecil weighted (weighted least squares). Matriks bobot diambil sebagai sebuah matriks , { } (5.42) Dimana C adalah set indeks dari dari lokasi pengamatan n dan ik adalah nilai dari kth

diagonal yang mana beberapa element di matriks diagonalnya diasumsikan untuk menjadi sebuah fungsi dari sebuah lokasi pengamatan. Anggaplah bahwa matriks bobot dilokasi i adalah W(i). Kemudian vektor parameter di lokasi i diasumsikan sebagai (5.43) Dimana W(i) = diag(w1(i), w2(i),...,wn(i)) dan X, Y adalah matriks yang sama di Eq.(4.4). Disini kkita mengasumsikan bahwa invers dari matriks XTW(i)X ada. Menurut prinsip dari weighted least squares method, dihasilkan estimator dilokasi i di (5.43) diperoleh dari pemecahan masalah optimisasi berikut . yaitu menentukan parameter-parameter 0, 1,...,p dimasing-masing lokasi i, sehingga (5.44) Adalah diminimalkan . diberikan sesuai bobot wj(i) sebuah fungsi dari lokasi pengamatan yang dibuat, penekanan yang berbeda dapat diberikan kepada pengamatan yang berbeda pula untuk menghasilkan parameter estimasi di lokasi i. 5.3.2.1 Pilihan yang mungkin dari matriks bobot Peranan dari matriks bobot untuk tempat penekanan yang berbeda dari pengamatan yang berbeda dalam menghasilkan parameter estimasi. Dalam spasial analisis, pengamatan tertutup untuk lokasi i umumnya mengasumsikan untuk menggunakan pengaruh yang lebih pada estimasi parameter di lokasi i dan lebih jauhnya lagi dilokasi i. Ketika parameter dillokasi i diestimasi , penekanan yang lebih harus ditempatkan di observasi yang tertutup dilokasi i. Sederhana tetapi pilihan yang natural di matriks bobot pada lokasi i adalah untuk mengecualikan pengamatan yang jauh dari beberapa lokasi d dari lokasi i. Ini ekuivalent untuk pengaturan berat nol pada observasi j jika pengaturan dari ke lebih besar dari . Jika jarak dari ke dinyatakan sebagai , unsur-unsur dari bobot matriks di lokasi dapat dipilih sebagai : { (5.45)

Fungsi di atas mengalami masalah diskontinuitas atas daerah studi. Salah satu cara untuk mengatasi masalah ini adalah menentukan sebagai kontinyu dan fungsi monoton turun terhadap . Satu pilihan yang tepat menjadi = ( ) (5.46)

sehingga jika adalah titik di mana pengamatan dilakukan, berat yang ditetapkan ke pengamatan tersebut akan menjadi satu kesatuan dan berat yang lain akan berkurang sesuai dengan Kurva Gaussian dengan meningkatnya . Di sini, adalah konstanta non-negatif yang menggambarkan cara bobot Gaussian berbeda dengan

jarak. Mengingat , lebih besar dari , penekanan yang kurang ditempatkan pada pengamatan di lokasi . Masalah dalam (5.46) jumlah untuk pemberian bobot untuk semua lokasi daerah studi. Sebuah kompromi antara dua fungsi di atas bobot dapat dicapai dengan pengaturan bobot menjadi nol diluar radius dan untuk mengurangi monoton untuk nol di dalam jari-jari dengan meningkatnya . Sebagai contoh, kita dapat mengambil elemen dari bobot matriks sebagai fungsi bi-persegi, yaitu, { ( ) (5.47)

Fungsi bobot dalam (5.46) adalah pilihan yang paling umum dalam praktek. Dibandingkan dengan metode lain, teknik GWR tampaknya menjadi relatif sederhana namun bermanfaat berorientasi geografis metode untuk mengeksplorasi ruang nonstasioneritas. Berdasarkan model GWR, tidak hanya parameter yang bervariasi yang dapat dieksplorasi, tapi signifikansi variasi juga dapat diuji. Sayangnya, saat ini, hanya simulasi Monte Carlo yang telah digunakan untuk melakukan tes pada validitas model. Dalam teknik ini, di bawah hipotesis nol bahwa model regresi linier global yang memegang, setiap permutasi dari pengamatan ( ) antara titik sampling geografis sama-sama mungkin terjadi. Nilai-nilai pengamatan statistik yang diusulkan kemudian dapat dibandingkan dengan distribusi pengacakan dan tes yang signifikan dapat dilakukan dengan sesuai. Komputasi dari metode ini cukup besar, terutama untuk satu set data yang besar. Juga, karena validitas dari distribusi pengacakan terbatas pada kumpulan data yang diberikan, ini pada gilirannya membatasi umum dari statistik yang diusulkan. Cara ideal untuk menguji model ini adalah untuk membangun statistik yang tepat dan untuk melakukan tes dalam cara statistic yang konvensional. Untuk menguji apakah hubungan terurai dari data spasial yang lokal atau global, berikut dua pertanyaan yang paling penting dan harus diuji ketat dalam rangka pengujian hipotesis konvensional: 1. Apakah model GWR menggambarkan data secara signifikan lebih baik daripada model OLR? Artinya, secara keseluruhan, melakukan parameter dalam model GWR bervariasi secara signifikan atas wilayah studi? 2. Apakah setiap set parameter , memperlihatkan variasi yang signifikan atas wilayah studi? Artinya, efek dari variabel independen yang memiliki variasi lokal yang signifikan? Untuk pertanyaan pertama, adalah, pada kenyataannya, tes kebaikan-of-fit untuk GWR model. Hal ini setara untuk menguji apakah atau tidak 0 jika kita menggunakan (5.46) sebagai fungsi bobot. Dalam kasus kedua, untuk setiap tetap, penyimpangan , dapat digunakan untuk mengevaluasi variasi kemiringan variable independen ke- . Karena sangat sulit untuk menemukan distribusi null dari parameter diperkirakan, katakan dalam (5.46), di matriks bobot, teknik Monte-Carlo telah

digunakan untuk melakukan tes (Brunsdon et al 1996;.. Fotheringham et al 1997a). Namun, seperti ditunjukkan di atas, overhead komputasi dari metode ini cukup besar. Selain itu, validitas distribusi referensi yang diperoleh oleh permutasi acak adalah terbatas pada data yang diberikan ditetapkan, dan pada gilirannya dapat membatasi sifat umum dari statistik yang sesuai. 5.3.2.2 Kebaikan-of-Fit Test Variabel Independen Berdasarkan gagasan dari jumlah kuadrat residu dan asumsi sebagai berikut, beberapa statistik yang dibangun di Leung et al (2000b): Asumsi 5.1. Istilah kesalahan secara independen dan identik didistribusikan sebagai distribusi normal dengan mean nol dan varians konstan Asumsi 5.2. Mari menjadi nilai pas di lokasi . Untuk semua estimasi bias dari . Artinya, ) sama dengan untuk semua . , adalah

Asumsi 5,1 pada kenyataannya asumsi konvensional dalam analisis teoritis regresi. Asumsi 5,2 pada umumnya tidak benar untuk pemasangan linier local kecuali bahwa hubungan linier yang tepat global antara variabel dependen dan variabel independen ada (lihat Wand dan Jones 1995, hlm 120-121 untuk univariat kasus). Namun, metodologi regresi lokal terutama yang berorientasi menuju pencarian untuk rendah bias perkiraan (Cleveland et al. 1988). Dalam pengertian ini, bias nilai dipasang bisa diabaikan. Jadi, Asumsi 5.2 adalah salah satu yang realistis dalam GWR model sejak teknik ini masih milik metodologi regresi lokal. 1. Jumlah residu kuadrat dan distribusi didekati dan perkiraan

Mari ( ) menjadi baris ke- dari X, Parameter vektor di lokasi . Maka nilai pas adalah Mari yang diresidu. Lalu

(5.48) vektor (5.49) (5.50)

menjadi vektor nilai yang dicocokkan dan ,

dimana

(5.51) ( Notasikan jumlah kuadrat residu dengan . Lalu )

(5.52)

Kuantitas ini mengukur kesesuaian dari model GWR untuk data yang diberikan dan dapat digunakan untuk memperkirakan , varians umum dari istilah kesalahan 2. 2. Uji Kesesuaian

Menggunakan sisa jumlah kuadrat dan pendekatan distribusi, kita dapat menguji apakah sebuah model GWR menggambarkan data yang diberikan ditetapkan secara signifikan lebih baik daripada model OLR. Jika model GWR digunakan sesuai dengan data, di bawah Asumsi 5.2, Leung et al. (2000b) menunjukkan bahwa jumlah residu kuadrat dapat dinyatakan sebagai (5.52) dan distribusi dapat didekati dengan distribusi chi-kuadrat [ ], [ dengan derajat kebebasan , dimana ] , dan adalah varians umum dari istilah kesalahan yang estimasi tidak bias adalah . Jika model OLR digunakan untuk menyocokkan data, sisa jumlah kuadrat adalah , dimana dan adalah idempotent. Jadi, adalah persis didistribusikan sebagai distribusi chikuadrat dengan derajat kebebasan (Neter et al, 1989;. Hocking 1996). Jika hipotesis nol, : tidak ada perbedaan signifikan antara model OLR dan GWR untuk data yang diberikan, adalah benar, maka kuantitas mendekati satu. Jika tidak, cenderung kecil. Mari (5.53) Kemudian nilai kecil dari mendukung hipotesis alternatif bahwa model yang GWR memiliki kesesuaian yang lebih baik. Di sisi lain, distribusi dapat cukup didekati dengan distribusi -dengan derajat kebebasan pada pembilang dan derajat kebebasan pada penyebut. Diberikan tingkat signifikansi , kita notasikan dengan di atas 100 poin persentase. Jika ,kita menolak hipotesis nol dan menyimpulkan bahwa model GWR menggambarkan data signifikan lebih baik daripada model OLR. Jika tidak, kita akan mengatakan bahwa model GWR tidak dapat meningkatkan kecocokan yang signifikan dibandingkan dengan model OLR. Pengujian kesesuaian melalui analisis metode yang bervarian dan prosedur bertahap untuk memilih variabel independen juga diberikan dalam Leung et al. (2000b). 3. Menguji perbedaan antara setiap set parameter

Setelah model terakhir dipilih, apakah kita dapat menguji lebih lanjut atau tidak setiap set parameter dalam model bervariasi secara signifikan di wilayah studi. Misalnya, jika set

} of parameter { (jika , parameter diperiksa sesuai dengan persyaratan mencegat) diuji tidak bervariasi secara signifikan atas wilayah, kita dapat menjaga koefisien akan konstan dan menyimpulkan bahwa lereng antara dan variabel dependen adalah seragam atas wilayah tersebut saat yang lain variabel dianggap tetap. Secara statistik, ini setara dengan pengujian hipotesis

Pertama, kita harus membangun sebuah statistik yang tepat yang dapat mencerminkan variasi spasial terhadap himpunan parameter yang diberikan. Sebuah pilihan yang praktis dan belum alami adalah sampel varians dari nilai-nilai estimasi .Kami notasikan dengan sampel varians dari nilai estimasi , , untuk parameter ke- . Kemudian

= dimana

) ,

(5.54)

diperoleh dari (5.43).

Tahap berikutnya adalah menentukan distribusi sampling dari menurut hipotesis ) dan adalah matriks x dengan kesatuan bagi nol . Mari ( masing-masing unsur-unsurnya. Kemudian dapat dinyatakan sebagai ( ) (5.55)

Berdasarkan hipotesis nol bahwa semua , adalah sama, kita dapat berasumsi bahwa berarti parameter estimasi yang sesuai adalah sama, yaitu, ( ) ( ) ( ) (5.56)

Jadi, ( ) (5.57)

dimana 1 adalah vektor kolom dengan kesatuan untuk setiap elemen. Dari (5,57) dan

fakta bahwa ( ) dan ( [ ) , kita dapat lebih menyatakan ) [ ( )] sebagai (5,58)

( )] (

Selanjutnya, marilah menjadi vektor kolom dengan kesatuan untuk elemen kedan nol untuk unsur lainnya. Kemudian (5.59)

dan dimana ( ) , (5,60)

(5.61) ( Substitusikan (5.60) ke (5.58), kita peroleh


( ( ) ( ( ) ( ) ) )

(5.62)

dimana

dan

) adalah semidefinite positif.

Serupa dengan metode yang digunakan di atas, distribusi dapat didekati dengan distribusi chi-kuadrat dengan derajat kebebasan, di mana ( ( ) ) (5.63)

Karena tidak diketahui, kita tidak dapat menggunakan sebagai uji statistik secara langsung. Namun, kita tahu bahwa distribusi dapat didekati dengan distribusi chi-kuadrat dengan derajat kebebasan , di mana adalah bias penduga dari , dan ( ) Jadi, untuk statistik

(5.64)

di bawah asumsi (5.56), distribusinya dapat didekati dengan -distribusi dengan derajat kebebasan pada pembilang dan derajat kebebasan pada penyebut. Oleh karena itu, kita bisa mengambil sebagai uji statistik. Nilai besar mendukung hipotesis alternatif . Untuk signifikansi tertentu tingkat , menemukan titik persentase 100 atas Jika , Menolak , sebaliknya menerima . Hasil simulasi Leung et al. (2000b) telah menunjukkan bahwa kekuatan uji statistik yang diusulkan adalah mereka yang agak tinggi dan nilai- agak kuat ke variasi dari parameter dalam bobot matriks. 5.3.3 Variasi Lokal Industrialisasi Daerah di Jiangsu Provinsi, P. R. Cina Teknik GWR digunakan untuk mengeksplorasi Huang dan Leung (2002) yang hubungan antara tingkat industrialisasi (bagian output industri pada total output dari industri dan pertanian) dan berbagai faktor diatas area studi. Ada banyak aspek, seperti sejarah sosial, ekonomi, manusia,geografis, dan faktor keuangan, yang terkait dengan proses industrialisasi. faktor-faktor penentu daerah industrialisasi termasuk bagian dari tenaga kerja perkotaan dalam populasi total (UL), GDP per kapita (GP), investasi modal tetap per unit GDP (IG), dan bagian output perusahaan kota dan desa dalam bruto output nilai industri dan pertanian (TVGIA). UL merupakan indikator dari tingkat urbanisasi. GP mewakili tingkat perkembangan ekonomi. UL dan GP ditetapkan atas konteks industrialisasi di suatu daerah. Di sisi lain, IG dan TVGIS yang mempertimbangkan faktor-faktor yang berkaitan langsung dengan proses industrialisasi. Sebelum menyelidiki kemungkinan variasi spasial dalam penentu industrialisasi di Provinsi Jiangsu, persamaan regresi global yang mewakili rata-rata 75 unit hubungan spasial antara tingkat industrialisasi dan berbagai faktor diperoleh sebagai berikut:

(5.65)

Angka dalam kurung adalah t-statistik dari parameter perkiraan. Nilai R-kuadrat dari model di atas adalah 0,834, yang berarti bahwa persamaan menjelaskan 83,4% dari varians tingkat industrialisasi pada tahun 1995.

Untuk mempertimbangkan variasi spasial hubungan antara tingkat industrialisasi dan berbagai faktor penentu, model GWR diterapkan. Untuk mengestimasi parameter

, studi ini mengadopsi secara umum menggunakan Fungsi Gaussian ( ) (5.66)

untuk menghitung berat badan dalam bobot matriks. Di sini, adalah jarak geometris antara titik sentral dari lokasi dan . Namun, adalah suatu parameter tidak negatif dan yang berbeda akan menghasilkan bobot yang berbeda. Jadi, diperkirakan parameter GWR tidak unik. terbaik adalah dipilih dengan prosedur sebagai berikut: Asumsikan bahwa ada banyak nilai yang mungkin berbeda dari . Kemudian, untuk masing-masing, matriks bobot , Diperoleh dengan menggunakan (5.66). Akibatnya, banyak bobot matriks yang juga dapat diperoleh. Sebuah kalibrasi OLS tertimbang kemudian digunakan untuk mendapatkan banyak set pada (5,29).. Perlu dicatat bahwa pengamatan pada lokasi tidak termasuk dalam estimasi parameter. Dengan demikian, banyak nilai-nilai yang berbeda dari perkiraan independen , dilengkapi nilai , dapat diperkirakan pada tahap ini, dan oleh karena itu nilai dari sisa jumlah ] , juga dapat dihitung. Akhirnya, nilai terbaik dari yaitu dipilih kuadrat, [ dengan meminimalisasi nilai sisa jumlah kuadrat. Menerapkan prosedur di atas untuk analisis industrialisasi di provinsi Jiangsu, nilai terbaik dari diperoleh. Gambar 5.1 menunjukkan nilai CV terhadap parameter . Jadi, nilai minimum dari nilai CV diperoleh jika sama dengan0,9. Artinya, [ ] [ ] , diperkirakan, di mana (5.67)

Dengan demikian, matriks bobot ( ).

10,000 Yuen
3,800.000 3,600.000 3,400.000 3,200.000 3,000.000 2,800.000 2,600.000 2,400.000 2,200.000 2,000.000 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 3.0 CV

Gambar. 5.1 Nilai CV terhadap parameter

Gambar. 5.2 Distribusi spasial regresi konstan di Jiangsu Distribusi spasial dari parameter estimasi ditunjukkan pada Gambar. 5.2 5.7. Berdasarkan distribusi spasial dari parameter estimasi,tampaknya ada variasi lokal yang signifikan dalam hubungan antara berbagai faktor dan pembangunan industry di provinsi Jiangsu. Gambar 5.2 menunjukkan distribusi spasial dalam hal memotong di provinsi Jiangsu pada tahun 1995. Pada prinsipnya, hal ukuran memotong tingkat dasar industrialisasi tidak termasuk efek dari semua faktor-faktor daerah industrialisasi di seluruh provinsi Jiangsu. Hal ini selanjutnya disebut sebagai " tingkat dasar industrialisasi daerah." Ada variasi spasial yang jelas dengan parameter konstan yang lebih tinggi di wilayah selatan dan yang lebih rendah di wilayah utara. Jadi tingkat dasar daerah industrialisasi di Jiangsu provinsi ditampilkan pada distribusi langkah-tangga yang bervariasi dari tinggi di selatan ke rendah di utara. Hal ini juga menegaskan adanya kesenjangan daerah yang signifikan dalam tingkat daerah industrialisasi. Distribusi spasial parameter UL di Jiangsu ditunjukkan pada Gambar. 5.3. Hal ini dapat diamati bahwa daerah-daerah pusat memiliki parameter estimasi yang lebih besar UL sementara daerah selatan memiliki parameter estimasi

menengah, di mana sebagai daerah utara memiliki parameter estimasi yang lebih rendah. Ini berarti bahwa pembagian tenaga kerja perkotaan secara total populasi memiliki efek yang paling penting pada industrialisasi di wilayah pusat. Di sisi lain, parameter estimasi dalam model UL global 0,440 yang sebenarnya milik hubungan di daerah pusat analisis GWR. Oleh karena itu, hubungan dari model global dasarnya mirip dengan model lokal di wilayah pusat. Hal ini mungkin karena kenyataan bahwa

Gambar. 5.3 distribusi spasial parameter UL di Jiangsu Kondisi industrialisasi di wilayah pusat terletak di antara yang dari selatan dan wilayah utara. Variasi spasial pada parameter GP pada Gambar. 5.4 menggambarkan efek yang berbeda PDB per kapita pada tingkat industrialisasi di Jiangsu pada tahun 1995. Mirip efek dari PDB per kapita pada industrialisasi daerah ditemukan di kebanyakan daerah, tetapi beberapa daerah di wilayah utara dipamerkan batas tertentu variasi spasial dalam 1995. Ini berarti bahwa PDB per kapita memainkan peran yang lebih penting dalam beberapa bagian utara daerah daripada di daerah lain. Distribusi spasial

parameter IG pada Gambar. 5,5 menunjukkan tren yang berbeda dari orang-orang dari konstanta dan parameter GP. Investasi tetap modal per unit GDP memiliki pengaruh terkecil pada industrialisasi daerah di selatan daerah. Sebaliknya, itu diberikan efek terbesar pada pengembangan daerah industrialisasi di daerah tengah dan utara. Ini berarti bahwa investasi modal per unit dari PDB lebih penting di daerah tengah dan utara daripada di wilayah selatan. Hal ini juga menunjukkan bahwa perkembangan industrialisasi daerah di wilayah selatan tidak mengandalkan banyak pada jumlah investasi modal. Ini harus diamati bahwa parameter IG dalam model global 0,381. Jelas, model global merupakan hubungan yang rata-rata di wilayah studi. Distribusi spasial parameter TVGIA pada Gambar. 5,6 sangat mirip dengan yang dari parameter UL di Gambar. 5.3. Faktor TVGIA memiliki efek lebih besar pada daerah

Gambar. 5,4 distribusi spasial parameter GP di Jiangsu industrialisasi di beberapa daerah tengah dan utara. Hal ini jelas bahwa TVES yang lebih penting untuk industrialisasi di wilayah tengah dan utara. Parameter perkiraan TVGIA dalam model global 0,391 yang terletak di terakhir kedua kelompok dengan parameter

UL lebih besar pada Gambar. 5.6. Dengan demikian, model global yang terutama mewakili beberapa daerah tengah dan utara milik kelompok terakhir dari Gambar. 5.6. Distribusi spasial penting lainnya yang diperoleh dari analisis GWR adalah variasi spasial dalam statistik kebaikan-of-fit, R-kuadrat, yang ditunjukkan pada Gambar. 5.7. Ini menunjukkan bahwa nilai R-kuadrat bervariasi 0,665-0,963. Seperti sebelumnya dianalisis, model global yang menjelaskan 83,4% dari varians dari tingkat industrialisasi yang antara minimum dan nilai maksimum R-kuadrat. Oleh karena itu, beberapa model lokal memiliki lebih cocok daripada model global, sedangkan yang lain tidak. Ini dapat diamati bahwa wilayah utara yang lebih tinggi biasanya memiliki nilai R-square. hal ini dapat maka disimpulkan bahwa hubungan antara faktor-faktor yang dipilih dan tingkat industrialisasi daerah jauh lebih baik ditangkap oleh model regresi dalam wilayah utara. Namun, perkembangan industrialisasi daerah di selatan dan wilayah tengah dapat dipengaruhi oleh faktor-faktor lain atau daerah luar Provinsi Jiangsu. Hal ini sangat masuk akal untuk menunjukkan bahwa pembangunan ekonomi Shanghai memainkan peran yang sangat penting dalam industrialisasi regional dari selatan atau daerah pusat di Jiangsu karena mereka yang dekat dalam hal geografis lokasi. Tapi, analisis ofGWR tidak mempertimbangkan efek eksternal yang berasal dari

Gambar. 5,6 distribusi spasial parameter TVGIA di Jiangsu pengaruh faktor ekonomi terhadap industrialisasi daerah terutama diwakili oleh faktor dari tingkat dasar industrialisasi dan PDB per kapita antara countylevel daerah di Jiangsu. Dalam analisis GWR, diasumsikan bahwa spasial hubungan antara dua daerah menunjukkan efek distance-decay. Namun, dengan kemajuan informasi teknologi, gesekan jarak bisa menjadi lemah. Namun demikian, dalam mengembangkan negaranegara seperti Cina, pembusukan jarak masih memainkan peran penting dalam interaksi antara daerah. Oleh karena itu, dalam studi pembangunan ekonomi regional di Cina, teknik GWR tampaknya menjadi alat yang efektif untuk mengeksplorasi variasi antara daerah yang berbeda. 5.3.4 Pola Spasial Menemukan Pengaruh dari Ekstrim Suhu rata-rata suhu pada di Cina

Telah diakui bahwa peningkatan suhu rata-rata global telah dekat hubungan dengan suhu ekstrem. Studi ekstensif telah dilakukan tentang peristiwa suhu yang ekstrem di berbagai daerah di dunia (Beniston dan Stephenson 2004; Bonsal et al. 2001; DeGaetano 1996; DeGaetano dan Allen 2002;

Gambar. 5,7 distribusi spasial nilai R-Square di Jiangsu Uji statistik Tabel 5.1 dari model yang GWR

Catatan NDF dan DDF mewakili derajat kebebasan dari pembilang dan penyebut dari Fdistribusi yang sesuai, masing-masing Heino et al. 1999; Prieto et al. 2004; Robeson 2004) secara umum dan Cina (Gong et al. 2004, Qian dan Lin 2004; Yan et al. 2001; Zhai dan Pan 2003; Zhai et al. 1999) pada khususnya. Untuk Cina sebagai keseluruhan, frekuensi suhu yang sangat rendah menunjukkan penurunan yang signifikan tren sedangkan suhu yang sangat tinggi

kecenderungan sedikit menurun atau tidak signifikan, yang mungkin menjadi penyebab utama dari peningkatan suhu rata-rata. Dalam studi suhu ekstrim, konsentrasi telah ditempatkan pada sementara kecenderungan suhu ekstrim. Sementara karakteristik spasial umumnya telah dianalisis secara stasiun-stasiun-oleh (Beniston dan Stephenson 2004; Bonsal et al. 2001; Gong et al. 2004; Prieto et al. 2004, Qian dan Lin 2004), seperti analisis, bagaimanapun, tidak memperhitungkan autokorelasi spasial memperhitungkan data antara stasiun. Untuk wilayah besar seperti Cina di mana suhu bervariasi dari utara ke selatan dan timur ke barat, karakteristik spasial yang berbeda dapat ditemukan di daerah yang berbeda sehingga spasial non-stasioneritas mungkin tempat umum. Oleh karena itu, GWR model yang akan menjadi teknik yang berguna untuk mengungkap hubungan lokal jika mereka ada. Wang et al. (2005) memberikan penelitian seperti Data asli dari penelitian ini terdiri dari suhu rata-rata harian diamati dan suhu maksimal dan minimal 40 tahun 1961-2000 dikumpulkan di 110 observatorium di daratan Cina. Pada setiap observatorium, suhu rata-rata dalam sehari rata-rata diperoleh dengan nilai-nilai temperatur yang teramati pada 2, 5, 8 dan 20 jam periode 24-jam, sedangkan suhu maksimal dan minim itu, masing-masing, yang terkecil dan terbesar nilai suhu diukur terus menerus dalam sepanjang hari. Berdasarkan suhu diamati sehari-hari, satu set data diperoleh untuk menemukan pola-pola spasial dari pengaruh suhu ekstrim di berarti suhu melalui model GWR dan statistik terkait (Leung et al. 2000b; Mei et al. 2004). Ini berisi suhu rata-rata, berarti maksimal dan berarti suhu minimal. Teknik GWR dengan tes terkait diterapkan untuk mengungkap nonstationarity spasial dengan mengambil rata-rata suhu sebagai respon dan rata-rata suhu minimal maksimal dan bermakna sebagai variabel penjelas. Beberapa model yang akan dipasang adalah Dimana , merupakan hasil pengamatan dari suhu ratarata dan rata-rata suhu maksimal dan minimal pada 110 observatorium yang terletak di garis bujur dan garis lintang . Berdasarkan fungsi Gausian Kernel, jarak antara dua observator dihitung berdasarkan garis bujur dan garis lintang untuk merumuskan beratnya. Nilai Bandwidth optimalnya dipilih dengan pendekatan nilai silang. Untuk sekumpulan data, nilai Bandwidth dipilih sebagai dan harga p- untuk tes variasi signifikan dari tiga koefisien adalah masing-masing, yang menunjukkan bahwa variasi dari setiap koefisien sangat signifikan di seluruh daratan China.

Berdasarkan gbr.5.8, tingkat kontribusi dari suhu minimal rata-rata ke suhu rata-rata selama 40 tahun tidak lebih signifikan bervariasi di daratan China, di daerah barat laut yang memiliki garis intang lebih besar dari 45, dapat ditemukan bahwa tingkat (terbesar) daerah berkisar antara 0.6 sampai 1.182 dari utara ke selatan. Hal itu menjadi kenaikan yang sangat tajam dalam suhu rata-rata dengan kenaikan suhu maksimal rata-rata yang ditemukan di daerah terdingin di China. Di sisi lain, tingkat terendah yang memiliki rentang variasi antara 0.2 sampai 0.4 terdeteksi di sekitar Pantai Bohai, daerah barat daya dan bagian utara dari provinsi Xingjiang. Bagian sisa di daratan China, dari barat laut dan barat daya, menunjukkan tingkat kontribusi homogen dalam rentang 0.6 sampai 0.8. Hal tersebut sangat menarik untuk diamati bahwa tingkat kontribusi dari suhu maksimal rata-rata pada suhu rata-rata muncul secara nyata dalam kelompok.

Gambar. 5,8 distribusi spasial dari perkiraan untuk b1ui koefisien; Vith dari mean maksimal suhu lebih dari 40 tahun

Gambar. Distribusi Spasial 5,9 dari perkiraan untuk b2ui koefisien; Vith dari mean minim suhu lebih dari 40 tahun Dari gbr. 5.9, tingkat kontribusi dari suhu minimal rata-rata pada suhu rata-rata selama 40 tahun memperlihatkan peningkatan yang signifikan dari barat menuju selatan daratan China. Secara spesifik, ketika suhu minimal rata-rata naik setiap unitnya, kenaikan dari suhu rata-ratanya lebih besar di bagian selatan daripada di bagian utara. Tingkat terkecil, dalam rentang 0.25 sampai 0.39 , diamati di daerah utara yang memiliki garis lintang yang lebih besar dari 44. Tingkat terbesar, dalam rentang 0.47 sampai 0.62 , terurai terutama di daerah sungai Yangzi yang memiliki garis lintang kurang dari 30. Tingkat di derah sisa adalah sekitar 0.32 sampai 0.47. Tampaknya, pengaruh suhu maksimal rata-rata dalam suhu rata-rata menunjukkan spasial yang tidak stasioner yang muncul secara jelas di beberapa kelompok derah. Bagian barat dan di sekitar teluk Bohai, yang mana cukup mempengaruhi suhu rata-rata lebih intens di daerah selatan daripada di daerah utara, menunjukkan kenaikan yang dominan dari utara ke selatan. Inilah yang menjadi jawaban sebenarnya diangkat dari spasial yang tidak stasioner. 5.4 Tes pada Autokorelasi Spasial dalam Geografis Regresi Berat Sudah seharusnya diamati bahwa asumsi penting untuk teknk GWR yang diterapkan dalam model parameter variasi adalah rentang gangguan yang terdistribusi secara independen dan identik . Namun, keberadaan dari autokorelasi spasial , yang merupakan salah satu karakter utama dari kumpulan data spasial, dapat membatalkan

standar tertentu dari sebuah hasil metodologi. Sebagai contoh, autokorelasi spasial antara rentang gangguan dalam model OLR dapat menjadi penilai kuadrat terkecil dan menyesatkan hasil kesimpulan statistik. Terlebih lagi, asumsi standar dari perbedaan konstanta rentang gangguan mungkin gagal untuk mempertahankan keberadaan autokorelasi spasial (Cliff dan Ord 1973, 1981; Kramer dan Donninger 1987; Anselin 1988; Griffith 1988; Anselin dan Griffith 1988; Cordy dan Griffith 1993). Sebagai bukti dalam literatur, kebanyakan tes statistik dalam analisis regresi adalah berdasarkan gagasan dari jumlah kuadrat sisa, lebih spesifik lagi dalam estimasi variasi dari gangguan, sebagaimana di angkat dalam teknik OLR yang terkenal (Hocking 1996; Neter dkk.1996), teknik regresi berat lokal (Cleveland 1979; Cleveland dan Devlin 1988;Cleveland dkk. 1988), dan teknik GWR (Leung dkk.2000b; Brundson dkk.1999) untuk parameter model regresi variasi pada (5.41). Kumpulan variabel acak dalam gangguan disebabkan oleh autokorelasi spasial dengan demikian, membuat beberapa tes menjadi tidak valid. Sebab gangguan auto korelasi menjadi masalah yang serius dalam penggunaan teknik regresi, hal tersebut menjadi sangat penting untuk bisa di tes kembali untuk kedepannya. Untuk teknik OLR, masalah ini sudah lama diselidiki. Usaha substansial sudah dilakukan pada tes autokorelasi spasial pada model OLR ini. Dua bentuk dasar dari metode tes sudah umum digunakan di dalam literatur. Salah satu bentuk umumnya adalah bentuk Moran (Moran 1950), supaya tidak bingung dengan notasi dari matriks identitas I , statistik Moran dinotasikan oleh bukan I yang lazim yang sering dibicarakan, atau Gearys c (Geary 1954) pada sisa OLR yang disarankan oleh Cliff dan Ord (1972, 1973, 1981). Yang lainnya adalah kemungkinan-fungsi berbasis metode seperti bentuk pengali Lagrange tes (Burridge 1980) atau rasio kemungkinan uji (Griffith, 1988; Anselin 1988). Kedua jenis mengandalkan distribusi asimtotik dari statistik di bawah hipotesis nol tidak ada autokorelasi spasial. Baru-baru ini, berdasarkan hasil teoritis oleh Imhof (1961) dan hasil aljabar oleh Koerts dan Abrahamse (1968), Tiefelsdorf dan Boots (1995, dengan koreksi 1996), serta Hepple (1998) secara independen berasal distribusi tepat dari Moran I0 dan Geary C untuk residual OLR di bawah hipotesis nol tidak ada autokorelasi spasial antara biasanya didistribusikan gangguan. Berdasarkan statistik uji Moran I0 dan c Geary itu, Leung dkk. (2000C) pertama memperpanjang metode pengujian yang tepat dikembangkan oleh Tiefelsdorf dan Boots (1995), dan Hepple (1998) untuk residu OLR untuk kasus GWR. Sebuah prosedur statistik dikembangkan oleh Leung et al. (2000C) untuk menguji spasial autokorelasi antar residual dari model yang GWR. Mereka fokus pada uji autokorelasi spasial antara istilah gangguan e1, e2;? ? ? , En model dalam (5.41) GWR teknik ketika digunakan untuk mengkalibrasi itu. Serupa dengan kasus yang OLR model, hipotesis null untuk pengujian autokorelasi spasial dalam berbagai-parameter model masih dapat dirumuskan sebagai: H0: Tidak ada autokorelasi spasial antara gangguan, atau alternatif kemungkinannya-fungsi berbasis metode seperti bentuk tes formulasi pengali Lagrange (Burridge 1980) atau uji rasio kemungkinan (Griffith, 1988; Anselin 1988). kedua

jenis mengandalkan distribusi asimtotik dari statistik di bawah hipotesis nol tidak ada autokorelasi spasial. Sekarang ini, berdasarkan hasil teoritis oleh Imhof (1961) dan hasil aljabar oleh Koerts dan Abrahamse (1968), Tiefelsdorf dan Boots (1995, dengan koreksi 1996), serta Hepple (1998) secara independen berasal distribusi tepat dari Moran I0 dan Geary C untuk residual OLR di bawah hipotesis nol tidak ada autokorelasi spasial antara biasanya didistribusikan gangguan. Berdasarkan statistik uji Moran I0 dan c Geary itu, Leung dkk. (2000C) pertama memperpanjang metode pengujian yang tepatdikembangkan oleh Tiefelsdorf dan Boots (1995), dan Hepple (1998) untuk residu OLR untuk kasus GWR. Sebuah prosedur statistik dikembangkan oleh Leung et al. (2000C) untuk menguji spasial autokorelasi antar residual dari GWR model. Mereka fokus pada uji autokorelasi spasial antara kondisi dislokasi 1, 2, , model dalam (5.41) ketika GWR teknik digunakan untuk mengkalibrasi itu. Serupa dengan kasus yang OLR model, hipotesis null untuk pengujian autokorelasi spasial dalam berbagai-parameter model masih dapat dirumuskan sebagai: H0: Tidak ada autokorelasi spasial antara gangguan, atau alternatif Var ( ) = E( Dimana )= I adalah vektor dislokasi.

Hipotesis alternatif adalah bahwa ada (positif atau negatif) spasial autokorelasi antara gangguan sehubungan dengan berat spasial tertentu matriks W yang didefinisikan oleh tata ruang yang mendasari seperti spasial persentuhan atau kedekatan antara unit-unit geografis tempat pengamatan dibuat. Bentuk paling sederhana dari W dapat menjadi salah satu yang memberikan 1 untuk dua unit yang datang dalam kontak dan 0 sebaliknya. Hal ini juga dapat menggabungkan informasi tentangjarak, arus, dan jenis-jenis hubungan. Ketika vektor dislokasi tidak bisa diamati, yang autokorelasi antara residu diuji sebagai gantinya, kesalahan yang hasilnya dengan membandingkan masing-masing lokal GWR perkiraan nilai y masing-masing dengan nilai aktual. Ketika model (5.41) dikalibrasi dengan teknik GWR, kita memperoleh hasil dari (5.48) ke (5.52). Autokorelasi spasial berdasarkan Moranas Untuk peredusian matriks berat W = , Morans =

dan Gearys C

dalam (5.49) dan (5.50) dan spasial tertentu mengambil bentuk

(5.69)

Dimana

, Matriks berat badan spasial umumnya digunakan dalam

bentuk baris standar nya. Artinya, elemen-elemen baris dinormalisasi (dijumlahkan untuk 1) dan ini dapat membuat W asimetris. Namun demikian, ifWis asimetris, kita bisa membangun dari spasial simetris matriks berat sebagai yang baru sebagai ( ) (5.70)

Ketika

= (5.71)

kita mempunyai

Jadi, tanpa harus kehilangan generalitas, kita dapat mengasumsikan bahwa W adalah simetris. Juga terlihat bahwa kondisi n/s dalam (5.69) adalah murni faktor skala yang dapat dihilangkan dari uji statistik tanpa mempengaruhi nilai p dari statistik. Oleh karena itu, kita dapat menulis Morans sebagai (5.72) Dimana W adalah matriks simetrik spesifik berat spasial ketertiban n. Diketahui bahwa nilai yang besar dari mendukung hipotesis alternatif yang ada ada autokorelasi positif antara residual dan nilai negatif yang besar dari mendukung hipotesis alternatif bahwa ada autokorelasi negatif di antara residunya. Untuk kedua alternatif, nilai p dari masing-masing adalah: p = P{ r}, dan p = P{ r}, di mana r adalah nilai diamati dari . Ini harus dicatat bahwa di atas dua alternatif milik uji satu-ekor. untuk spasial autokorelasi yang sesuai dengan uji dua-ekor, mengingat kompleksitas dari distribusi , kita hanya dapat mengambil nilai p sebagai 2P{ r} jika P{ r} atau 2(1 - P{ r}) jika P{ r} > Jadi, untuk tingkat signifikansi tertentu, jika pa, salah satu gagal untuk menolak null hipotesis dan menyimpulkan bahwa tidak ada autokorelasi spasial antara residu. Jika p < , satu, tergantung pada hipotesis alternatif diasumsikan, menolak dan menyimpulkan bahwa ada autokorelasi positif atau negatif antara residu. Leung dkk. (2000c) menunjukkan bagaimana nilai-p dapat dihitung melalui Imhof hasil (Imhof 1961). Demikian pula, untuk vector residu berat W = , Gearys C diperoleh

dan spesifik spasial matriks

(5.73)

Sehubungan diberi dengan spasial matriks berat W, nilai kecil dari c mendukung hipotesis alternatif bahwa ada autokorelasi spasial yang positif antara residu dan nilai yang besar dari c mendukung salah satu mengatakan bahwa ada yang negatif autokorelasi spasial. Untuk mempermudah, kita masih menggunakan r untuk mewakili nilai yang diamati dari c. Nilai P dari c untuk pengujian melawan dua alternatif di atas, masing-masing, P{c r} dan P{c r}. Mereka dapat kembali dihitung oleh metode Imhof. Untuk menghindari overhead perhitungan dari metode Imhof yang dihasilkan, terutama untuk sampel yang besar, saat tiga pendekatan untuk distribusi nol dari statistik pengujian diturunkan dalam Leung et al. (2000C). Berdasarkan simulasi mereka berjalan pada Imhof dan tes pendekatan, pengamatan berikut ini dibuat: 1. Statistik Moran dan Greays c dibentuk oleh GWR residunya cukup kuat dalam mengeksplorasi autokorelasi spasial antara gangguan model bervariasiparameter, terutama untuk menjelajahi autokorelasi positif. Ini juga menyiratkan bahwa untuk menurunkan p-nilai statistik uji, adalah wajar untuk mengasumsikan bahwa nilai pas yi estimasi bias dari E untuk semua i. Namun, uji statistik tidak begitu sensitif terhadap moderat negatif autokorelasi. Beberapa perbaikan pada metode pengujian yang diusulkan akan diperlukan dalam rangka untuk mengatasi kekurangan ini. 2. Saat tiga pendekatan untuk p-nilai dan c adalah sangat akurat. Dibandingkan dengan overhead komputasi dalam memperoleh p-nilai dalam Metode Imhof, metode pendekatan ini sangat menghemat waktu, terutama untuk kasus dengan ukuran sampel yang besar. 3. P-nilai dan c cukup kuat untuk variasi y parameter dalam fungsi bobot untuk kalibrasi model. Hal ini membuat pengujian metode yang berlaku dalam praktek karena y masih bisa ditentukan oleh Prosedur validasi silang tanpa mempertimbangkan autokorelasi spasial. Meskipun ada beberapa kerugian dalam pentingnya autokorelasi spasial, metode pengujian masih memberikan indikasi yang berguna yang cukup untuk mencapai tujuan praktis tertentu, terutama untuk menjelajahi autokorelasi positif. Untuk kedua metode Imhof dan saat tiga metode pendekatan diusulkan dalam Leung et al. (2000C), asumsi bahwa istilah gangguan yang biasanya didistribusikan memainkan peran penting dalam menurunkan nilai p, dan c. Walaupun merupakan asumsi umum dalam analisis regresi, kondisi ini tidak mudah untuk memuaskan dalam praktek. Oleh karena itu, akan berguna untuk menyelidiki distribusi nol statistik uji untuk GWR model bawah lagi kondisi umum. Selain itu, beberapa perbaikan pada metode yang diusulkan masih diperlukan untuk membuat mereka lebih kuat dalam rangka untuk menguji untuk negatif moderat autokorelasi.

Perlu dicatat bahwa ukuran autokorelasi spasial dalam Leung et al. (2000C), baik Moran dan Geary'sc, adalah statistik global dan karenanya, seperti yang ditunjukkan dalam simulasi, asosiasi global di antara GWR residu dapat efisien diuji dengan metode yang diusulkan. Mereka mungkin tidak sensitif terhadap autokorelasi spasial lokal. Sebuah situasi yang lebih praktis mungkin untuk menggunakan beberapa statistik lokal untuk menguji lebih secara umum hubungan antara GWR residu. Metode LISA yaitu, lokal indikator spasial sosiasi (Anselin 1995) tampaknya menjadi metode yang menjanjikan untuk mencapai tujuan ini. Meskipun akan lebih sulit untuk mengembangkan statistik formal metode pengujian seperti yang diusulkan dalam makalah ini, layak untuk diselidiki dalam penelitian lebih lanjut.

5.5 Sebuah Catatan tentang Ekstensi dari GWR Model

Sebagai penyempurnaan lebih lanjut dari model dasar GWR, model mixed GWR, yang merupakan kombinasi dari model regresi linier biasa dan spasial bervariasi Model koefisien, itu pertama kali diusulkan oleh Brunsdon et al. (1999) untuk model situasi di mana dampak dari beberapa variabel penjelas pada respon adalah spasial homogen dan bahwa dari variabel penjelas yang tersisa bervariasi lintas ruang. Sebuah koefisien regresi spasial berbagai model yang teknik GWR mengkalibrasi adalah dalam bentuk (5.74)

Dimana adalah pengamatan dari respons y dan variabel-variabel penjelas dimana dan beberapa kesalahan random yang independen dengan mean nol dan varians . Umumnya, seseorang mengambil untuk mengakomodasi sebuah spasial bervariasi mencegat dalam model. Teknik GWR (Brunsdon 1996 ; Fotheringham 2002) mengkalibrasi model (5.1) dengan lokal tertimbang kuadrat-prosedur dimana bobot di setiap titik spasial fokus yang dihasilkan oleh fungsi kernel yang diberikan dan jarak antara titik fokus dan masing-masing lokasi pengamatan , i = 1, 2, ..., n. Sebuah dicampur GWR Model (Brunsdon et al, 1999;.. Fotheringham et al, 2002) mengambil beberapa koefisien (u,v) (j = 1,2, ..., p) menjadi konstan dan, setelah benar menyesuaikan pesanan variabel penjelas, adalah dalam bentuk

(5.75)

Dengan terlebih dahulu merapikan koefisien spasial bervariasi (u,v) (j = q + 1, ..., p) dengan yang GWR teknik dan kemudian memperkirakan koefisien konstan (u,v) (j =1, ..., q) dengan metode kuadrat-terkecil biasa, prosedur kalibrasi dua langkah telah diusulkan oleh Fotheringham et al. (2002). Sebagai perpanjangan dari model GWR campuran, itu adalah kepentingan dan penggunaan praktis untuk mempertimbangkan jenis lain dari model regresi yang menggabungkan ekspansi geografis model dengan model koefisien spasial yang bervariasi. Artinya, regresi beberapakoefisien koefisien dalam model spasial yang bervariasi diasumsikan secara global fungsi parametrik vertain koordinat spasial. Leung dkk. (2008b) koin ini Model semi-parametrik spasial bervariasi koefisien model untuk alasan bahwa beberapa koefisien regresi adalah fungsi parametrik dari koordinat spasial dan lain nonparametrik. Termotivasi dengan metode ekspansi geografis (Casetti 1982, 1997; Jones dan Casetti 1992). Kita dapat mengasumsikan bahwa beberapa koefisien dalam berbagai spasial koefisien model (5.74) adalah fungsi parametrik tertentu dari koordinat spasial, misalnya ( ) (j = 1, ... , q) dan semi-parametrik spasial bervariasi Model koefisien dapat didefinisikan sebagai (5.76) Untuk kesederhanaan dalam estimasi dan kecukupan dalam aplikasi, masingmasing parametrik koefisien (j = 1, ... , q) diambil menjadi kombinasi linear dari beberapa fungsi koordinat spasial dikenal (u,v) yaitu, ( )= (u,v). (5.77) (u,v), (u,v), ... , (u,v) yang diketahui

Disini untuk setiap (j = 1,2, ... , q), fungsi linear.

Semi-parametrik koefisien spasial berbagai model yang dibangun mencakup sehingga beberapa model regresi spasial yang umum digunakan sebagai kasus khusus. Berikut beberapa tipe kasus : 1. Ketika q = 0, dalam model (5.76) adalah model koefisien spasial bervariasi yang yang GWR mengkalibrasi teknik. 2. Ketika q = p, model dalam (5.76) menjadi semacam ekspansi geografis model. Secara khusus, ketika semua ( ) (j = 1, ... , p) yang polinomial fungsi dari u dan v koordinat spasial, model yang dihasilkan menjadi model ekspansi yang paling umum digunakan dalam penelitian geografis.

3. Mari = ... = =1 dan (u,v) 1 untuk setiap j= 1,2,.., q. Kemudian semiparametrik spasial meragamkan model koefisien menjadi campuran GWR Model. Selanjutnya, q = p, model merosot menjadi linier biasa model regresi. Berdasarkan prosedur pemasangan lokal linier dalam Wang (2008) dan metode OLS, Leung (2008b) memperoleh suatu setimasi dua langkah prosedur untuk model, dengan efektivitas yang didukung oleh beberapa simulasi studi.

5.6 Penemuan Ruang Non-stasioneritas Berdasarkan Regresi Class Metode Dekomposisi Campuran

5.6.1 Pada Campuran Pemodelan Spasial Non-stasioneritas dalam Bising Lingkungan Dalam studi hubungan spasial, kita umumnya menganggap bahwa model regresi tunggal dapat diterapkan dalam mengatur manifestasi data spasial yang besar atau rumit khususnya struktur atau pola spasial. Meskipun berbagai parameter-regresi pada umumnya dan GWR khususnya bertujuan untuk studi spasial non-stasioneritas, mereka masih menganggap model tunggal untuk mengatur seluruh data. Variasi lokal ditangkap oleh parameter yang bervariasi. Sayangnya, analisis regresi konvensional biasanya tidak sesuai untuk studi set data yang sangat besar, terutama mereka dengan kontaminasi kebisingan untuk tindak alasan: 1. Analisis regresi menangani data set secara keseluruhan. Bahkan dengan computer perangkat keras yang tersedia saat ini, tidak ada cara yang efektif, seperti prosesor dan penyimpanan, untuk memanipulasi dan menganalisis sejumlah besar data. 2. Lebih penting lagi, mungkin tidak realistis untuk menganggap bahwa model tunggal dapat ditampung data yang besar ditetapkan. Hal ini sangat mungkin bahwa kita perlu beberapa model agar dapat diterapkan dalam satu set data yang besar. Artinya, pola spasial yang tersembunyi dalam satu set data dapat mengambil bentuk yang berbeda yang tidak dapat secara akurat direpresentasikan oleh model tunggal. 3. Analisis regresi klasik didasarkan pada asumsi-asumsi model yang ketat. Namun, Dalam dunia nyata, khususnya dalam data yang besar, tidak berjalan sesuai dengan asumsi ini. Dalam lingkungan yang bising, sangat umum bahwa inliers (Pola) yang kalah jumlah dengan outlier sehingga metode yang kuat banyak yang gagal. Untuk mengatasi kesulitan di atas, kita mungkin ingin melihat satu set data yang rumit sebagai campuran dari banyak populasi. Jika kita melihat setiap pola spasial dijelaskan oleh model regresi sebagai suatu populasi, maka data set adalah campuran dari jumlah populasi yang terbatas tersebut. Penemuan pengetahuan spasial (pola / hubungan) kemudian dapat diolah sebagai identifikasi dari model melalui pemodelan campuran.

Pemodelan campuran adalah pemodelan distribusi statistik dengan campuran distribusi, yang dikenal sebagai komponen atau kelas. Kepadatan campuran yang terbatas telah menjabat sebagai model penting untuk analisis fenomena kompleks dalam statistic (McLachland dan Basford 1988). Model ini berkaitan dengan penemuan terawasi cluster dalam data (McLachlan 1992). Secara khusus, campuran dari populasi normal yang paling sering dipelajari dan diterapkan dalam praktek. Dalam mengestimasi campuran parameter, metode the maximum likelihood (ML), the maximum likelihood estimator (MLE) pada khususnya, telah menjadi pendekatan yang paling luas diadopsi (Redner dan Walker 1984). Meskipun penggunaan algoritma the expectation maximization (EM) sangat mengurangi kesulitan komputasi untuk MLE dari model campuran, algoritma EM masih memiliki kelemahan. Konvergensi lambat dari yang dihasilkan urutan iterasi dalam beberapa aplikasi adalah contoh yang khas. Metode lain seperti metode momen dan fungsi pembangkit momen (MGF) metode umumnya melibatkan masalah secara bersamaan memperkirakan semua campuran parameter. Ini jelas merupakan tugas yang sangat sulit diestimasi dalam satu set data yang besar. Oleh karena itu, pengembangan metode yang efisien untuk mengungkap pola-pola dalam campuran adalah penting. Selain efisiensi metode estimasi, fitur lain yang penting yang perlu diperhatikan adalah ketahanan. Untuk menjadi berguna dalam praktek, metode perlu sangat kuat, terutama untuk set data yang besar. Ini berarti bahwa kinerja metode tidak harus secara signifikan dipengaruhi oleh penyimpangan kecil dari diasumsikan model dan seharusnya tidak memburuk secara drastis akibat kebisingan dan outlier. Diskusi dan perbandingan dengan beberapa metode pengelompokan populer dari sudut pandang ketahanan dirangkum dalam Dave dan Krishnapuram (1997). Jelas, ketahanan dalam penemuan pengetahuan spasial juga diperlukan. Beberapa upaya telah dibuat dalam beberapa tahun terakhir (Hsu dan Knoblock 1995; Yohanes dan Langley 1995) dan masalah perlu dipelajari lebih lanjut. Untuk memiliki metode yang efisien dan kuat untuk pertambangan kelas regresi dalam set data yang besar, terutama di bawah kontaminasi dengan kebisingan, Leung et al. (2001a) memperkenalkan sebuah konsep baru bernama "regresi kelas" yang didefinisikan oleh kemunduran Model. Konsep ini berbeda dari konseptualisasi sudah ada dari kelas (Cluster) berdasarkan akal atau mengukur jarak tertentu. Sebagai generalisasi kelas, kelas regresi berisi informasi yang lebih berguna. Model tersebut mengasumsikan bahwa ada angka yang terbatas dari jenis kelas regresi dalam set data yang besar. Sebagai ganti mempertimbangkan mengatur seluruh data, sampling digunakan untuk mengidentifikasi kelas regresi yang sesuai. Sebuah kerangka baru, dirumuskan dalam sebuah rekursif paradigma, untuk kelas regresi beberapa tambang dalam satu set data yang dibangun. Berdasarkan pada model-tting (MF) yang kuat dan Gaussian yang efektif campuran algoritma dekomposisi (GMDD) dalam visi komputer (Zhuang dkk. 1992, 1996), metode yang diusulkan, diciptakan regresi kelas campuran dekomposisi (RCMD), hanya melibatkan parameter regresi kelas pada setiap saat proses penambangan. Dengan demikian, sangat mengurangi kesulitan estimasi

parametrik dan mencapai tingkat tinggi ketahanan. Metode ini cocok untuk usaha kecil, menengah, dan data set besar dan memiliki aplikasi yang menjanjikan banyak varietas disiplin ilmu termasuk visi komputer, pengenalan pola, dan ekonomi. Hal ini diperlukan untuk menunjukkan bahwa mengidentifikasi beberapa kelas regresi adalah berbeda dari masalah klasifikasi konvensional, yang berkaitan dengan pemodelan distribusi bersyarat dari Y variabel respon / bergantung diberi satu set operator / variabel independen X. Ini juga berbeda dari model lain, seperti piecewise regresi dan regresi pohon, di mana himpunan bagian yang berbeda dari X yang diikuti model regresi yang berbeda. Metode RCMD tidak hanya dapat memecahkan identitas masalah kelas regresi, tetapi juga dapat diperluas untuk model lain seperti sesepenggal regresi. Hal ini dapat digunakan untuk menemukan variasi lokal mengambil bentuk fungsional yang berbeda. 5.6.2 Gagasan Tentang Kelas Regresi Secara intuitif, kelas regresi ("reg-kelas" dalam singkatan) disamakan dengan kemunduran Model (Leung 2001). Untuk menyatakan secara resmi, untuk bilangan bulat tetap i, sebuah reg kelas didefinisikan oleh model regresi berikut dengan operator acak (5.78) Dimana Y R adalah variabel respons; variabel penjelas yang terdiri dari operator atau regressors X adalah vektor (kolom) acak dengan kepadatan probabilitas fungsi (p.d.f) p (), kesalahan istilah adalah variabel acak dengan p.d.f (u; ) memiliki parameter, E( ) = 0, dan X dan independen. Di sini, (,): x R R adalah fungsi regresi diketahui, dan adalah tidak diketahui Parameter regresi (kolom) vektor. Meskipun dimensi dan dapat berbeda untuk yang berbeda, kita biasanya mengambil = p untuk kesederhanaan. Selanjutnya, kita berasumsi bahwa ei didistribusikan sesuai dengan distribusi normal, yaitu (u; )= (5.79) () adalah normal standar p.d.f.

dimana

Untuk kenyamanan diskusi, biarkan ) (5.80)

Definisi 5.1. Sebuah vektor acak (X,Y) milik regresi kelas (dinotasikan sebagai (X, Y) ) jika itu didistribusikan sesuai dengan model regresi. Jadi, di bawah Definisi 5.1, vektor acak (X, Y) sebuah p.d.f. (5.81) menyiratkan bahwa (X, Y) telah

Untuk tujuan praktis, definisi berikut terkait dengan Definisi 4.1 dapat digunakan: Definisi 5.2. Sebuah titik data (X, Y) milik regresi kelas ) jika memenuhi (x,y; ) , yaitu, {(x,y): (x,y, } (5.82) (dinotasikan sebagai (x,y)

dimana konstanta > 0 ditentukan oleh P[ (X,Y; ) (X,Y) = a,a adalah sebuah ambang batas yang ditentukan probabilitas a priori dan pendekatan ke satu. Asumsikan bahwa ada m reg-kelas dalam data. Ditetapkan dalam studi dan yang m dikenal di muka (m sebenarnya dapat ditentukan pada akhir pertambangan proses ketika semua kelas regresi yang masuk akal telah di identifikasi). Tujuan dari penemuan pengetahuan di distribusi campuran spasial adalah untuk menemukan semua kelas regresi, untuk mengidentifikasi vektor parameter dan untuk membuat predikasi atau interpretasi oleh model. Untuk menurunkan biaya komputasi, kita perlu mengambil sampel secara acak dari suatu kumpulan data untuk mencari kelas regresi. } adalah nilai-nilai yang diamati dari suatu sampel Anggap { acak ukuran yang diambil dari kumpulan data. Dengan demikian dapat dianggap sebagai nilai kesadaran yang merupakan vektor acak independen dan terdistribusi secara identik (i.i.d) dengan distribusi populasi campuran umum.

yaitu, terdiridari pengamatan acakdari kelasregresi m dengan probabilitassebelumnya

5.6.3 Penemuan Kelas Regresi di bawahKontaminasi Noise Dalam kumpulandata yang mengandung noise, kelas regresi adalah distribusi di antara s ejumlah besar outlier. Jadi, bagaimana cara untuk memodelkan kelas regresi yang terkontaminasi noise menjadi tantangan dalam penemuan hubungan yang relevan dalam kumpulan data secara keseluruhan. Leung dkk. (2001a) membagi masalah ini kedalam duakasus. Kasus dimana diketahui

Dalamhalini semua parameter yang tidakdiketahui terdiridari vektor agregat

Jika

vektor

)dari

parameter sejati

dikenalsebagaipriori, dan outlier sebagai absent , maka probabilitas posterior ( )yang berasaldari dihasilkandari ( ) ( ( ) )

{ }kedalam kelas regresi dapat Sebuah partisi darisampel dibuat dengan menugaskan setiap ( )kepopulasiyang memiliki probabilitasposterior tertinggi milik jika ( ) ( )

Inihanya aturanpengambilankeputusan Bayes: [ ( )]

yangmengklasifikasikan sampel Z dan observasi "baru" dengan probabilitaskesalahan minimal. Dengan tidak diketahui, aturan keputusan "plug-in" sering digunakan: ( ) [ ( )].

dimana adalah MLE dari

yang dibangun oleh sampel Z dari populasi campuran,

dimana adalah ruang parameter.

Untuk kasus di mana terkontaminasi, yaitu, lingkungan terkontaminasioleh adalah: { dimana adalahsetiap p.d.f. dari outlier di tidakdiketahui dari outlier di . , dan } merupakan fraksi yang bawah model-model

Pengaruh outlier pada MLE di kontaminasi sekarang dapatdipelajari. Dalamsituasiini, Z adalah sampel acakdari pdf campuran:

Misalkan adalah operator diferensiasi urutan ke- terhadap , 0 adalahmatriks noldengan semuaelemennya adalahnol dan1 adalahmatriks dengans emua elemennyaadalah 1. Menunjukkan [ ]

Dapat diamatibahwa . Selanjutnya, dandalamkondisi keteraturan adalah entropi Shannon untukcampuranhipotetis adalah matriks informasi Fisher [ ]

Teorema 5.1. Jikakeluarga p.d.f. memenuhi kondisi keteraturan (Kendall1987), fungsi , yang tiga kali didiferensiasi terhadap , dan titik adalah unik, maka MLE dibawah kontaminasi hampirpasti konvergen (as), yaitu, dan memenuhi ekspansi asimtotik:

(lihat Leung et al. (2001) untuk buktinya)

Catatan 5.1.Dapat diamatidari Teorema 4.1 bahwa kehadiran outlier dalamsampel, esti mator dapat menjadi tidak konsisten. Perlu dicatat bahwa tergantung padakepadatan kontaminasi , dan mungkin memiliki nilai cukup besar.

Dari Teorema 5.1, kita memiliki hasilsebagaiberikut: Akibat 5.1. Dalampengaturan dariTeorema 4.1, memiliki fungsi pengaruh ( )

(Lihat Leung et al. (2001a) untuk buktinya) Catatan 5.2. Fungsi pengaruh (IF) merupakankonseppenting dalamstatistik yang kuat. Hal inidapat memberikan informasikuantitatifterkayadalam ketahanan denganmenjelaskan efek (perkiraandan standar) dari sebuahpengamatan tambahan di setiaptitik pada estimator . Secarakasar, JIKA (IF)mengukurpengaruhdari gangguan yang kecilsekalipada estimator. Kasus dimana tidakdiketahui ,

Di sinikita mengadopsi metode McLachlan dan Basford (1988). Misalkan , dan ( ) ( ( . Oleh [ ) ) karena itu, untuk ( )]

( Perludicatat bahwa MLE dari , , memenuhi

] ,

Dengan perhitungansederhana, persamaan kemungkinan untuk , sehingga dapat ditulis kembali sebagai

( (

) )

Ada kesulitan dengan campuran bahwajika dan ( ) berasaldarikeluarga p arametrik sama, maka akanmemiliki nilai yang samaketika label klaster dan dipertukarkan dalam Artinya, meski kelascampuraninidapat diidentifikasi, tidak. Namun, kurangnya kemampuanun tukdapatmengidentifikasi dari karenamempertukarkan label klastertidaqkdiperhatika ndalampraktek, karenadenganmudah dapatdiatasidengan pembebanan suatu kendala y ang sesuaipada (McLachlan dan Basford 1988). Namun, mungkinsangat sulituntukmendapatkan karena terlalu banyak parameter yang terlibat. Bahkan, metode ML untuklangsung memperkirakan parameter kepadatan campuran sebenarnyamemiliki banyak kesulitan dalampelaksanaannya (Zhuang et al. 1996). Sebagaicontoh, (1) ketika adasejumlah besar cluster dalamcampuran, jumlah parameter yang akan diperkirakan dapatsangatbesar dalamproporsi sampel data yang tersedia, dan (2) mungkinada singularitas di dalamfungsifungsilogaritma, karena kemungkinan tidak dibatasi dariatas (Vapnik 1995). Salah satutujuan utamadari statistik yang kuat adalahuntukmengembangkanmetode yang kuat yang dapatmelawan efekdari outlier dalamkumpulan data. Namun,hampir semuametode yang kuat mentoleransi hanyakurangdari 50% dari outlier.Ketika adabeberapa kelasregresi dalamsatu set data, mereka tidakdapatmengidentifikasi kelaskelasini karenasangat umumbahwa proporsi outlier yang berhubungandengan kelas tunggal lebihdari 50%. Baru-baruini, beberapa metodeyang lebihkuat telahdikembangkanuntuk visikomputer. Sebagaicontoh,MINPRAN (Stewart 1 995) mungkinadalah teknikpertama yang dapatdiandalkan yang mentolerir lebihdari 50% dari outlier tanpa asumsi dikenaldariinliers. Metodeini mengasumsikanbahwa outlier se caraacak terdistribusi dalamkisaran dinamisdari sensor, dandistribusi noise (outlier) dikenal. Ketika outlier bersifatnonseragam,penyesuaian MINPRAN sesuai jenis lain distribusi jugatelahdiusulkan. Namun,asumsi MINPRAN terbatasdalamprakteknya. Estimator lain yang sangatkuat adalah penaksir MF (Zhuang et al. 1992), yang dikembangkan untukmasalah regresi sederhanatanpa operator. MF

tidakmembutuhkan asumsi-asumsi seperti di MINPRAN. Memang, tidakadapersyaratan dikenakan padadistribusi outlier. Jadi, sepe rtinyaakan lebihberlakuuntuk satu set data yang kompleks. Diperpanjangpada ide-ide dari penaksir MFdan GMDD, Leung et al. (2001a) yang berasal pengukur RCMD untukkelas regresinyata.

5.6.4 Regression-Class Mixture Decomposition Metode PencarianPengetahuandalam Distribusi Campuran

(RCMD)

Karena kepadatan campuran diamati sebagai komposisi kepadatan terstruktur sederhanaatau struktur data, dengan kepadatan tertentu atauterstruktur, semua kepadatan lain atau strukturdapat denganmudah diklasifikasikan sebagaibagian darikategori outlier ya ng mematuhi pengamatan lain yang berbeda secarastatistik. Dengandemikian, kepadatan campuran dapatdilihatsebagaikep adatan terkontaminasi yang saingberhubunganantarasatuclusterdengan yang laindalamcampuran. Ketikasemua pengamatan untukkepadatan tunggal dikelompokkan ,pengamatan yang tersisa (cluster dan outlier sejati) dapat digunakanuntukmembentuk kepadatan outlier yang tidakdiketahui. Menurut ide ini, campuranp.d.f. dalam (5.91) terhadap dapat ditulis kembali sebagai [ Idealnya, titik sampel sebagai inlier jika berasal dari sebaliknya. dari ] ( )

campuran pdf di atas diklasifikasikan atau sebagai outlier berasal dari pdf

{ } sekarang dihasilkan Set data yang diberikan oleh campuran pdf , yaitu, ia berasal dari dengan probabilitas bersama dengan outlier yang tidakdiketahuidenganprobabilitas [ ]. Misalkan menjadi subset dari semua inliers sehubungan sebagaikomplemennya. Dari aturan klasifikasi Bayes, diperoleh {( Didefinisikan ) ( ) ( )} dengan dan

{ ( { (

) ( ) (

) )

} }

Idealnyakemungkinandarisetiap inlier yang dihasilkan oleh ini lebih besar daripada kemungkinan dari setiap outlier yang dihasilkanoleh . Dengandemikian,kitadapatmengasumsikanbahwa . Olehkarenaitu, klasifikasi Bayes menjadi {( dimanakitabisamemilih * ) ( ) +. } Jadi, jikakita

berasumsibahwa , yang setara. Menggunakanasumsi, (5.100) menjadi

makakitaakanmendapatkanhasil

Fungsikemungkinanlogaritmadaripengamatan Z sesuaidengan (5.89) di bawah ekontaminasimenjadi [ ] [ ( ) ] dengan sehubungan

Jadi, untukmemperkirakan dari Z, kita perlu memaksimalkan masing-masing subjekuntukdi . Karena maksimalisasi di dengan setara dengan memaksimalkanfungsi model-pas [ ( ) ]

di sehubungan dengan , diberikan [ ], maka kita bisa mendiskusikan masalah pemaksimalan untuk . Samaseperti dengan Zhuang dkk. (1996), selanjutnya kita akan menyebut setiap " " sebagai model parsial. Karena setiap sesuai dengan nilai dari distribusi outlier yang tidakdiketahui , kita hanya menggunakan informasi parsial tentang model tanpa pengetahuan tentangkeseluruhan bentuk . Leung dkk. (2001a) memperkenalkan konsep baru sebagai berikut: { Definisi 5.3.Untuk kelasregresi dan kumpulan data himpunan t-level didefinisikan sebagai {( ) ( ) } himpunandukungant-leveldariestimator untuk didefinisikan sebagai }, (

).

Menurut konsep ini, adalah subset dari semua inliers sehubungan dengan pada model parsial t. Pemaksimalan (5,109) mungkindapat ditafsirkan sebagai memaksimalkan "kemungkinan"padahimpunan t-level . Perlu dicatat bahwa kapasitas akan berkurang selama model parsial t-tingkat mengalamikenaikan. Selain itu,himpunan dukungan t-level dari estimator mencerminkan sejauh mana kumpulan data mendukung estimator ini padamodel parsial t-level. Definisi 5.4.Pengukur RCMD dari parametrik vektor didefinisikan oleh untuk kelas regresi

Ketika dan operator acak menghilang dalam (5.78), pengukur RCMD menjadi pengukur MF univariat. Secara khusus, ketika terdistribusi secara merata (yaitu, konstan dalam domain tertentu) dan , maksimalisasi setara dengan memaksimalkan [ [ ( ) ] ] dan oleh

dimana . Untuk mempermudah, kita masih menunjukkan dan masing-masing. Artinya, ekspresi di atas ditulis ulang sebagai [ [ ( ) ] ]

Dalam hal ini, ekspresi yang sesuai pada (5.110) dan (5.82) menjadi, masing-masing, {( { ) [ ( | ( )| ) ] } }

yang didasarkan pada 3 -kriteria dari distribusi normal (yaitu, dalam (5.82) adalah 0,9972). Leung et al. (2001a) menunjukkan konvergensi dari . Metode RCMD dapat diringkas sebagai berikut: Pada setiap model parsialpilihan ( )dimaksimalkan dengan sehubungan dengan dan dengan menggunakan algoritma iteratif yang dimulai dengan nilaiawal yangdipilih secaraacakatau dengan menggunakan algoritma ( )dan genetik (GA).Dengantelahdipecahkannya ( )untuk ( )kelasregresiyang mungkin ( ( ( ( )) adalahdihitung dan diikuti dengan uji

normalitas pada

)). Jika uji statistik tidak signifikan (biasanya pada tingkat

= 0,01), maka hipotesis bahwa masing distribusi bersifatnormal harus diterima dan kelasregresiyang valid, ( ( )), telah ditentukan, kalau tidak kita lanjutkan ke model parsial berikutnya

jika batas atas ( (

belum tercapai. Dapat dikatakan bahwa identitas masing-masing

))didasarkan pada t-level set.

Sepanjang, sebuah kelasregresi yang berlaku dikurangi dari data saat ini setelah data tersebut telah terdeteksi dan kelasregresi berikutnya akan diidentifikasi dalam data baru yang ukurannyatelahdikurangi yang ditetapkan oleh proses rekursif.Kelasregresiindividu terus diperkirakan secararekursifsampai tidak ada kelasregresi yang lebih valid, atau ukuran dari himpunan data baru terlalu kecil untuk estimasi. Dengan demikian, metode RCMD dapat menangani model kelasregresidenganjumlah sembarang dengan ekstraksikelasregresitunggal. Artinya, parameter setiap kelas regresidapat diperkirakan secara progresif dan titik data yang dibagi menjadi inliers dan outlier sehubungan dengan kelas regresi. Prosedur RCMD digambarkan pada Gambar. 5.10 dan iterature dan GA berbasis algoritma ditampilkansecararinci dalam Leung etal. (2001a).

5.6.5 Hasil numerik dan Pengamatan Efektivitas metode RCMD untuk data mining ini ditunjukkan oleh beberapa simulasi numerik di sini. Contoh 5.1. Dengan asumsi bahwa ada sembilan poin dalam satu set data, di mana lima poin sesuai dengan model regresi: Y b1X e1, e1 NA 0; S21 AZ, b1 1; s1 0:01, dan lain sesuai dengan model regresi: Y b2X e2, e2 NA 0; s22 AZ, 0 b2, s2 00:01 (Gambar 5.11a). Sekarang Untuk mengungkap dua kelas regresi, kita pilih t1 0,1, yang fungsi objektif adalah model yang pas G1 fungsi

Gambar. Hasil 5.11 diperoleh dengan metode RCMD untuk dua kelas reg-reg-dan satu kelas. (a) sebar untuk dua kelas reg. ('a) sebar untuk satu reg-kelas. (b) Tujuan petak fungsi. (b ') Tujuan fungsi plot. (c) Kontur plot fungsi tujuan. (c ') Kontur plot fungsi obyektif

yang digambarkan dalam Gambar. 5.11b. Hal ini dapat diamati bahwa fungsi ini memiliki dua jelas puncak, dengan masing-masing sesuai dengan kelas-reg relevan. Menggunakan algoritma iteratif atau algoritma genetika, dua kelas reg-mudah ditemukan. Hal ini jelas ditampilkan dalam plot kontur fungsi ini (Gambar 5.11c). Sebagai contoh, menggunakan GA prosedur, kita dapat menemukan: ^ b1 1:002; ^ s1 0:109, dan 2:167 lmax . menggunakan lebih maksimisasi metode yang tepat, kita memperoleh ^ b1 1:00231; ^ s1 0:109068, dan lmax 2:016715. Perbedaan antara nilai estimasi dan parameter yang benar sebenarnya sangat kecil. Di sisi lain, jika hanya ada satu reg-kelas di set ini (lihat Gambar 5.11 aa. ), fungsi tujuan

kita masih sangat sensitif terhadap perubahan ini. hal ini dapat juga menemukan hanya reg-kelas dalam kumpulan data. Seperti dapat diamati dalam 3D dan kontur plot, hanya ada satu puncak yang mewakili kelas reg (Gambar 5.11b , ca ). 5.6.6 Komentar Tentang Metode RCMD 5.6.6.1 Tentang Model Parsial Dari ekspresi liui; ti dalam (5,109), dapat diamati bahwa memaksimalkan liui; ti setara dengan meminimalkan

ketika ti 0. Jelas, minimalisasi ungkapan ini sehubungan dengan ui bTi ; SiT dapat langsung dilakukan dengan minimisasi sehubungan dengan diikuti oleh si bi, yang menghasilkan kuadrat terkecil biasa (OLS) perkiraan bi. Mereka tidak kuat dan dalam kehadiran outlier mereka memberikan estimasi miskin. Namun, ketika ti> 0, situasinya sangat berbeda. Bahkan, parameter estimasi dengan ti> 0 adalah cukup kuat dan hasil diperkirakan dapat sangat ditingkatkan. Pengenalan untuk model parsial "ti> 0" tidak hanya mewakili pertimbangan outlier, tetapi juga penyederhanaan pertimbangan ini di Untuk melakukan dengan baik. Ini adalah keuntungan dari metode RCMD. Dengan Contoh 5.1 kita juga bisa menunjukkan fakta seperti: t parsial model yang memainkan peran penting dalam pertambangan multi-kelas reg, dan jika t dipilih dalam kisaran tertentu, maksimalisasi fungsi LDU tujuan; tis kemudian bermakna. Dari (5,110), ada berbagai t sedemikian rupa sehingga set t-tingkat tidak kosong. Dalam rentang ini, reg-kelas yang terkandung dalam kumpulan data dapat diidentifikasi. Gambar 5.12 memberi kita penjelasan untuk Contoh 5.1. Bahkan ketika t adalah sangat kecil (10 3?), Metode RCMD masih efektif. Namun, menjadi tidak valid ketika t sama dengan nol. Untuk data pada Contoh 5.1, ketika perubahan t dari positif yang sangat kecil jumlah kira-kira 5, metode ini tetap berlaku. Setelah t melebihi lima, semakin besar t adalah, semakin sulit menjadi untuk metode RCMD untuk mengidentifikasi reg-kelas.

5.6.6.2 Tentang Robustness Pengukur RCMD adalah stabil asimtotik meskipun mungkin menjadi estimator bias (lihat Teorema 2 di Leung et al. (2001a)). Namun, dalam prakteknya dapat ditingkatkan dengan metode lain. Seperti ditunjukkan dalam contoh numerik dalam Leung et al. (2001a), yang Metode RCMD juga memiliki tingkat yang sangat tinggi ketahanan. Hal ini dapat menahan lebih dari 50% dari outlier dalam suatu kumpulan data tanpa mengasumsikan jenis distribusi dari outlier. Selain itu, metode ini juga memiliki properti sesuai tepat bahwa banyak yang kuat model regresi miliki. Dalam regresi yang kuat, properti sesuai tepat berarti bahwa jika

mayoritas data mengikuti hubungan linear persis, maka regresi yang kuat Metode harus menghasilkan persamaan ini. Jika tidak, teknik regresi dikatakan memiliki properti sesuai tepat. Sebagai ilustrasi, titik data lima di reg-kelas 1 di Contoh 5.1 diubah menjadi lima poin yang mencari tepatnya di garis lurus: y x (lihat Gambar 5.13a.). Menerapkan metode RCMD tanpa mencegat untuk ini menghasilkan kumpulan data hampir persis sesuai dengan: y x dan memperkirakan skala s cenderung ke nol (Gambar 5.13b). Metode RCMD telah demikian berhasil menemukan pola pas mayoritas data. 5.6.6.3 Tentang Tumpang dari Reg-Kelas Dalam hal ada tumpang tindih reg-kelas, Leung et al. (2001) mengusulkan lain klasifikasi data yang tumpang tindih aturan untuk dua kelas reg. Setelah parameter dua kelas reg-Gi dan G-telah diidentifikasi dengan metode RCMD, kita dapat mengadopsi aturan berikut untuk tugas titik data dalam Gi \ G-: titik data xk; yk 2 Gi \ Gditugaskan untuk Gi jika

Menggabungkan (5,114) dan (5,116), kita dapat mengklasifikasikan ulang data set ke reg-kelas. Artinya, meskipun titik di wilayah tumpang tindih dihapus dari data set ketika reg kelas-pertama telah terdeteksi, yang reg-kelas ini poin akhirnya milik akan ditentukan hanya setelah semua reg-kelas telah ditemukan. Dengan demikian, berdasarkan pada aturan dalam (5,116), hasil akhir dalam partisi reg-kelas hampir independen dari urutan ekstraksi. Untuk pembuktian, metode RMCD telah berhasil diterapkan untuk memecahkan masalah model regresi beralih, campuran struktur linier dan non-linier, deteksi kurva, dan pertambangan reg-kelas dalam set data yang besar terkontaminasi dengan noise (Leung et al. 2001). Perpanjangan metode RCMD untuk pertambangan geometris yang tidak teratur fitur dalam database spasial yang telah dibahas dalam Bab. 5.2. 5.6.7 Sebuah Aplikasi Remote Sensing

Untuk menunjukkan kepraktisan algoritma RCMD, pertambangan kehidupan nyata garis objek dalam data penginderaan jauh juga dilakukan (Leung et al 2001a.). Pada mereka aplikasi, landasan pacu diidentifikasi dalam gambar penginderaan jauh dari LANDSAT Tematik Mapper (TM) data yang diperoleh melalui pinggiran kota di Hangzhou, Cina. Para wilayah berisi landasan pacu dan apron parkir sebuah bandar udara sipil tertentu. Para gambar terdiri dari kisi persegi panjang hingga 60 dari 95 pixel (lihat Gambar. 5.14a). untuk mengidentifikasi landasan pacu, Band 5 digunakan sebagai variabel fitur. Sebuah subset fitur data, digambarkan dalam Gambar. 5.14b, pertama diekstraksi dengan menggunakan teknik sederhana yang memilih piksel titik ketika gray-level nilainya di atas ambang tertentu (misalnya, 250). Untuk koordinat kisi poin di subset, metode RCMD kemudian digunakan untuk mengidentifikasi dua landasan pacu, yang dapat dipandang sebagai dua kelas reg. Pada tingkat 0,05 ta , dua persamaan garis diidentifikasi dengan metode RCMD adalah y x 0:774 34:874 dan y x 0:341 22:717, masing-masing. Hasilnya menunjukkan hampir lengkap sesuai dengan titik data pada Gambar. 5.14b. Dengan kata lain, garis-jenis benda seperti landasan pacu dan jalan raya di gambar penginderaan jauh dapat dengan mudah dan akurat dapat terdeteksi. Dibandingkan dengan teknik yang sudah ada seperti metode jendela, Metode RCMD dapat menghindari masalah memilih ukuran jendela yang sesuai namun memperoleh hasil yang sama.

5.6.8 Sebuah Lihat Secara keseluruhan tentang Metode RCMD Tampaknya RCMD adalah metode yang menjanjikan untuk berbagai aplikasi besar. Sebagai sarana yang efektif untuk data mining, metode RCMD memiliki berikut keuntungan:

1. Jumlah reg-kelas tidak perlu ditentukan a priori. 2. Proporsi kebisingan dalam campuran dapat menjadi besar. Baik jumlah outlier atau distribusi mereka adalah bagian dari input. Metode ini demikian sangat yang kuat. 3. Perhitungan cukup cepat dan efektif, dan dapat diimplementasikan oleh paralel komputasi. 4. Pertambangan adalah tidak terbatas pada garis lurus dan pesawat yang dikenakan oleh beberapa sebelumnya metode. Hal ini juga dapat mengekstrak banyak kurva yang dapat linierisasi (seperti polinomial) dan dapat menangani masalah-masalah dimensi tinggi. 5. Ini perkiraan secara bersamaan parameter regresi dan skala seperti yang MLE dengan menggunakan semua informasi yang diberikan oleh sampel. Dengan demikian, efek dari parameter skala pada parameter regresi dianggap. Ini lebih efektif daripada memperkirakan parameter regresi secara terpisah dan skala. Meskipun metode RCMD tampaknya agak sukses, setidaknya oleh simulasi percobaan, dalam pertambangan reg-kelas, ada masalah yang harus diselidiki lebih lanjut. Sebagaimana dibahas dalam literatur, singularitas dari kemungkinan fungsi untuk campuran merupakan masalah yang perlu diselidiki. singularitas berarti bahwa nilai dari fungsi kemungkinan menjadi terbatas sebagai standar deviasi dari satu komponen mendekati nol (Titterington et al 1987.). Karena RCMD Metode ini didasarkan pada MLE, itu kemudian bertanya-tanya alami singularitas apakah atau tidak akan terjadi dalam fungsi tujuan dalam (5,109). Dalam terang teori, fungsi liyi; ti tidak kebal terhadap singularitas, namun dalam prakteknya hal ini jarang terjadi. Ini harus diamati bahwa singularitas terjadi hanya di tepi ruang parametric (spasi pencarian). Namun, dengan nilai awal yang baik, singularitas cenderung terjadi. Studi di Caudill dan Acharya (1998) menunjukkan bahwa kejadian singularitas menurun dengan peningkatan ukuran sampel dan peningkatan sudut pemisahan dari dua linier-kelas reg. Jelas, kita perlu untuk lebih studi ini aspek dalam kerangka RCMD, meskipun banyak peneliti berpikir bahwa masalah ini dari singularitas dalam MLE mungkin telah berlebihan. Isu kedua yang patut studi lebih lanjut adalah masalah ukuran sampel dalam RCMD metode. Dalam RCMD, kami menganalisis data yang sangat besar yang ditetapkan dengan memeriksa sampel diambil dari itu. Jika sebagian kecil dari reg-kelas berisi jarang terjadi, namun penting, variabel respon, komplikasi mungkin timbul. Dalam pengambilan sampel, situasi retrospektif mungkin perlu dipertimbangkan (O'Hara Hines 1997). Secara umum, bagaimana untuk memilih ukuran sampel yang cocok dalam RCMD merupakan masalah yang membutuhkan teoritis dan eksperimental investigasi.

Daftar Pustaka

Abry P (2003) Scaling and wavelets: an introductory walk. In: Rangarajan G, Ding M (eds) Processes with long-range correlations: theory and applications. Springer, Berlin Acton ST, Mukherjee DP (2000) Scale space classification using area morphology. J IEEE Trans Image Process 9(4):623635 Aha DW, Kibler D, Albert MK (1991) Instance-based learning algorithms. Mach Learn 6:3766 Ahlqvist O (2005) Using uncertain conceptual spaces to translate between land cover categories. Ahlqvist O, Keukelaar J, Oukbir K (2000) Rough classification and accuracy assessment. Int J Geogr Inform Sci 14:475496 Ahlqvist O, Keukelaar J, Oukbir K (2003) Rough and fuzzy geographical data intergration. Int J Geogr Inform Sci 17:223234 Aldridge CH (1998) A theory of empirical spatial knowledge supporting rough set based knowledge discovery in geographical databases. Ph.D. thesis, University of Otago, Dunedin, New Zealand Allenby GM, Rossi PE (1994) Modeling household purchase behavior with logistic normal regression. J Am Stat Assoc 89:12181231 Amari S (1995) Information geometry of the EM and EM algorithms for neural. Neural Network 8 (9):13791409 Amorese D, Lagarde JL, Laville E (1999) A point pattern analysis of the distribution of earthquakes in Normandy (in France). J Bull Seismol Soc Am 89(3):742 749 Anderson JA (1982) Logistic discrimination. In: Krishnaiah PR, Kanal L (eds) Hand book of statistics, vol 2. North-Holland, Amsterdam, pp 169191 Andreo B, Jimenez P, Duran JJ, Carrasco I, Vadillo I, Mangin A (2006) Climatic and hydrological variations during the last 117166 years in the south of the Iberian Penninsula, for spectral and correlation analyses and continuous wavelet analyses. J Hydrol 324:2439 Angulo C, Catala A (2000) K_SVCR. A Multi-class support vector machine. In: Lopez de Mantaras R, Plaza E (eds) ECML 2000, LNAI 1810. Springer, Berlin, pp. 3138

Penemuan Hubungan spasial Data Spasial

OLEH : Irfan A P Desak PDS Ferli Ardi F Ines H I Fahmi Candra P Abduhan F Istiyanah 140110080007 140110080009 140110080027 140110080059 140110080053 140110080065 1401100800

JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PADJADJARAN 2011

Anda mungkin juga menyukai