Anda di halaman 1dari 12

VISUALISASI DIAGRAM VENN UNTUK ANALISIS REGRESI

1. Parameter Regresi Linier Sederhana Pada analisis regresi linear sederhana, dibangun model linear demikian hingga nilai-nilai variabel tak bebas dapat diprediksi dari nilai-nilai dari variabel bebas. Untuk membangun model linear ini, dimisalkan terdapat n pasangan observasi yang independen (X1,Y1), (X2,Y2), (X3,Y3), .... , (Xn,Yn), dengan Xi adalah nilai ke-i dari variabel bebas dan Yi adalah nilai ke-i dari variabel tak bebas. Secara matematik model regresi linier sederhana dapat ditulis sebagai : Yi = + Xi + I Dari model tersebut variabel tak bebas (Y) yang merupakan fungsi linier dari variabel bebas (X) ditambah sisaan ( ) dimana ~NID(0,2). Untuk tujuan pembelajaran, variabel tak bebas (Y) dan variabel bebas (X) dapat dijelaskan melalui Visualisasi Diagram Venn sebagaimana digambarkan dalam gambar 1. Pada visualisasi tersebut lingkaran yang diberi label Y menunjukkan variasi dalam variabel tak bebas (Y), lingkaran yang diberi label X menunjukkan variasi dalam variabel bebas (X) dan lingkaran yang merupakan irisan antara Y dan X (daerah hijau) menunjukkan variasi dalam variabel tak bebas (Y) dan variabel bebas (X) secara bersama. Dengan kata lain daerah hijau dapat diinterpretasikan sebagai variasi variabel tak bebas (Y) yang dapat dijelaskan oleh variabel bebas (X). Yang menjadi catatan disini, bahwa kata variasi tidak dapat secara tegas didifinikan akan tetapi secara intuisi dapat dijelaskan dalam pemahaman konsep. Berdasarkan Visualisasi Diagram Venn sebagaimana digambarkan dalam gambar 1, ada tiga hal yang dapat dijelaskan dalam proses pembelajaran yaitu : 1. Daerah hijau merupakan informasi yang digunakan metode kuadrat terkecil (MKT) dalam mengestimasi parameter regresi ( ). Jika informasi ini berhubungan dengan variasi dalam Y semata-mata hanya dijelaskan oleh variasi dalam X maka hasil estimasi dari adalah tak bias.

2. Jika daerah hijau semakin besar maka menunjukkan informasi yang digunakan MKT untuk mengestimasi semakin banyak, sehingga mengakibatkan variansi dari semakin kecil. 3. Daerah kuning merupakan variasi dalam Y yang tidak dapat dijelaskan oleh X. Daerah tersebut dinamakan suku sisaan regresi, estimasi darinya adalah 2. dimana melalui MKT

Gambar 1 : Diagram Venn untuk regresi linier sederhana 2. Parameter Regresi Linier Ganda Model matematika dalam bentuk matriks dari regresi linier ganda disajikan sebagai berikut : Yi = 0 + 1 X i1 + 2 X i 2 + ..... + k X ik + i Dari model tersebut variabel tak bebas (Y) yang merupakan fungsi linier dari beberapa variabel bebas (Xj ; j=1,2,3,,k) ditambah sisaan () dimana

~NID(0,2).
Untuk tujuan pembelajaran, akan diberikan contoh untuk satu variabel tak bebas (Y) dan dua variabel bebas (X dan W) yang dapat dijelaskan melalui Visualisasi Diagram Venn sebagaimana digambarkan dalam gambar 2. Kennedy (1981) memberi nama ketiga irisan lingkaran dalam diagram venn tersebut dengan sebutan Ballantine karena adanya kemiripan dengan logo merk bir. Para

pengajar diharapkan sangat berhati-hati dalam menjelaskan interpretasi dari Ballantine yang dihubungkan dengan parameter regresi, karena dalam

visualisasi tersebut menggambarkan irisan dari tiga lingkaran sekaligus sehingga muncul daerah kuning yang tentunya mendapat perhatian serius.

Gambar 2 : Diagram Venn Ballantine untuk regresi linier ganda Berdasarkan visualisasi Ballantine, seandainya Y diregresikan pada X tanpa mempertimbangkan W maka MKT akan menggunakan informasi pada daerah biru ditambah kuning dalam menentukan mengestimasi X . Begitu juga seandainya Y diregresikan pada W tanpa mempertimbangkan X maka MKT akan menggunakan informasi pada daerah hijau ditambah kuning dalam menentukan mengestimasi W. Bagaimana jika Y diregresikan pada X dan W secara bersama ? Ada tiga pilihan yang dapat ditawarkan kepada mahasiswa untuk didiskusikan, yaitu : 1. Tetap menggunakan daerah biru ditambah kuning untuk mengestimasi X dan daerah hijau ditambah kuning untuk mengestimasi W. 2. Membuang daerah kuning, sehingga hanya menggunakan daerah biru untuk mengestimasi X dan daerah hijau untuk mengestimasi W. 3. Membagi daerah kuning menjadi dua bagian yang selanjutnya menggunakan daerah biru ditambah satu bagian kuning untuk mengestimasi X dan daerah hijau ditambah kuning pada bagian lain untuk mengestimasi W.

Berdasarkan alternatif dersebut dimungkinkan mahasiswa dapat membuat suatu pilihan dengan disertai alasannya. Kemungkinan jawaban mahasiswa akan sangat bervariatif, misalnya : memilih alternatif (1), karena daerah kuning merupakan variasi Y yang dijelaskan secara bersama oleh X dan W, sehingga daerah tersebut merupakan hak dari X dan sekaligus hak dari W. memilih alternatif (2), dengan alasan daerah kuning merupakan informasi yang tidak baik karena variasi Y yang dijelaskan secara bersama oleh X dan W, sehingga daerah tersebut menjadi tidak jelas merupakan hak dari X atau W., sehingga lebih aman jika membuang daerah tersebut untuk kepentingan estimasi parameter. memilih alternatif (3) karena berdasarkan sifat gabungan dari dua himpunan, yaitu : n( X W ) = n( X ) + n(W ) n( X W )
maka n[(Y X ) (Y W )] = n(Y X ) + n(Y W ) n(Y X W ) Dari sifat tersebut sebenarnya daerah kuning hanya muncul sekali, sehingga dalam menentukan estimasi X dapat digunakan daerah biru ditambah kuning dan menggunakan daerah hijau untuk mengestimasi W atau sebaliknya. Hal tersebut berlaku juga jika daerah kuning dibagi menjadi dua bagian dimana yang satu menjadi hak dari X dan yang lain menjadi hak dari W. Cukup menarik kemungkinan beberapa alternatif jawaban mahasiswa yang sangat bervariatif. Untuk selanjutnya pengajar dapat mulai menjelaskan permasahan yang telah didiskusikan. Secara aljabar dalam menentukan estimasi parameter dengan menggunakan metode kuadrat terkecil diperoleh :

= ( X ' X ) 1 X 'Y . Jika diinginkan hanya mengestimasi parameter regresi yang


berhubungan dengan X maka diperoleh :

X = ( X * X * ) 1 X * Y * dimana

'

'

Y * = M W Y , X * = M W X dan MW = I W (W 'W ) 1W ' . Dari visualisasi Diagram


Venn (gambar 2), Y * ditunjukkan sebagai daerah biru ditambah orange sedangkan X * ditunjukkan sebagai daerah biru dan biru muda. Akibatnya dalam menentukan estimasi dari X, MKT memanfaatkan informasi yang merupakan

irisan dari Y * dan X * yaitu daerah biru. Selanjutnya dapat dijelaskan bahwa daerah biru muda merupakan Variasi X yang tidak dapat menjelaskan variasi Y, sedangkan daerah orange merupakan variasi dalam Y yang tidak dapat dijelaskan oleh X maupun W. Daerah tersebut dinamakan suku sisaan regresi, dimana melalui MKT estimasi darinya adalah 2.

3. Multikolinieritas
Multikolinieritas merupakan ill condition dalam analisis regresi dimana pada kasus ini terjadi korelasi yang tinggi antar variabel bebas. Konsekwensi adanya multikolinieritas, meskipun penduga kuadrat terkecil dapat diperoleh akan tetapi standar errornya akan cenderung meningkat seiring meningkatnya tingkat kolinieritas. Melalui visualisasi diagram venn, dapat dibuat manifestasi tentang adanya multikolinieritas. Visualisasi sebagaimana ditunjukkan pada gambar 3a dan

gambar 3b memberikan gambaran bahwa multikolinieritas dapat diketahui dari


adanya daerah kuning yang cukup besar. Semakin besar daerah kuning yang terbentuk makin besar pula tingkat kolinieritas yang terjadi. Hal menarik yang dapat disampaikan kepada mahasiswa adalah apakah adanya kasus

multikolinieritas dapat menyebabkan bias dan dapat memperbesar variansi dari estimasi parameter? Para pengajar diharapkan memberi kesempatan kepada mahasiswa untuk menjawab (ya, tidak atau tidak tahu) dengan berbagai alasannya. Dapat dijelaskan bahwa melalui visualisasi diagram Venn dalam menentukan estimasi dari parameter regresi, MKT menggunakan informasi dari daerah biru untuk estimasi tak bias X dan daerah hijau untuk estimasi tak bias W. Padahal jika kolinieritas terjadi berdampak pada semakin besarnya daerah kuning dan berakibat semakin menciutnya daerah biru dan hijau, sehingga jika kolinieritas terjadi tidak berdampak pada ketakbiasan dari estimasi parameter atau dengan kata lain masih dapat diperoleh estimasi X dan W yang tak bias, akan tetapi karena menciutnya daerah biru dan daerah hijau maka informasi yang digunakan untuk menentukan estimasi X dan W semakin kecil sehingga berdampak pada semakin besarnya variansi estimasi parameter X dan W.

Gambar 3a : Diagram Venn untuk kasus multikolinieritas sedang

Gambar 3b : Diagram Venn untuk kasus multikolinieritas kuat Kesimpulan yang dapat diambil dari uraian di atas adalah semakin tingginya tingkat kolinieritas akan menyebabkan semakin tingginya variansi akan tetapi estimasi parameter yang terjadi tetap tak bias. Selanjutnya para pengajar diharapkan memperagakan pergerakan dari visualisasi diagram Venn dengan memperbesar irisan dari X dan W atau memperbesar tingkat kolinieritas sampai akhirnya diperoleh kolinieritas sempurna. Ternyata daerah biru dan daerah hijau menjadi hilang, sehingga estimasi parameter X dan W tidak dapat ditemukan.

4. Penghapusan Variabel bebas


Seperti yang diuraikan di atas bahwa multikolinieritas merupakan ill

condition karena memang berdampak yang kurang baik dalam analisis regresi.
Salah satu cara untuk mengatasi adanya multikolinierita adalah dengan menghapus variabel bebas yang yang mempunyai korelasi yang tinggi dengan variabel bebas yang lain. Akan tetapi bagaimana sebenarnya dampak dari penghapusan variabel bebas tersebut? Ada pertanyaan menarik untuk menjadi bahan diskusi mahasiswa saat proses belajar mengajar, yaitu : 1. Apakah dalam mengestimasi parameter akan menyebabkan bias jika ada variabel bebas yang di hapus ? 2. Bagaimana variansi dari estimasi parameter regresi jika ada variabel bebas yang di hapus ? Berdasarkan visualisasi diagram Venn sebagaimana ditunjukkan dalam

gambar 2 di atas, seandainya variabel bebas W dibuang maka untuk menentukan


estimasi parameter X, MKT akan memanfaatkan informasi dari daerah biru ditambah daerah kuning, sehingga hasil estimasi akan bias karena daerah kuning sudah terkontaminasi. Selanjutnya jika tidak ada irisan antara X dan W (daerah kuning tidak ada) maka penghapusan variabel sebagaimana dijelaskan di atas tidak akan menyebabkan bias untuk estimasi parameter. Dalam menentukan variansi dari estimasi parameter, jika variabel bebas W tetap dalam model maka informasi yang digunakan adalah daerah biru, akan tetapi jika variabel bebas W dibuang maka informasi yang digunakan adalah daerah biru ditambah daerah kuning. Dari hal tersebut dapat dimaknai penghapusan variabel tentunya akan menyebabkan informasi yang digunakan semakin banyak, sehingga variansi dari estimasi parameter akan semakin kecil. Selanjutnya jika tidak ada irisan antara X dan W (daerah kuning tidak ada) maka penghapusan variabel tidak akan memberikan dampak apapun bagi variansi dari estimasi parameter. Dari uraian tersebut dapat disimpulkan bahwa penghapusan variabel bebas akan menyebabkan bias pada estimasi parameter (sesuatu yang tidak baik), tetapi dapat memperkecil variansi dari estimasi parameter (sesuatu yang baik). Dari

kontradiksi tersebut dapat di buat kriteria rata-rata kuadrat sisaan yang dapat memberikan jalan tengah tentang penghapusan variabel bebas. Karena rata-rata kuadrat sisaan merupakan penjumlahan dari variansi dan bias yang terjadi. Untuk meyakinkan mahasiswa tentang masalah penghapusan variabel bebas melalui visualisasi diagram Venn, maka pengajar dapat membuat turunan secara matematis tentang dampak dari penghapusan variabel bebas, sebagai berikut : Misalkan diinginkan memilih diantara dua model regresi, yaitu :

Yi = 0 + 1 X i1 + 2 X i 2 + i
dan

( 1)

Yi = 0 + 1 X i1 + i

(2)

Diasumsikan bahwa model (1) merupakan gambaran yang benar dari ketergantungan variabel tak bebas Y terhadap variabel bebas X1 dan X2 . Dari model (1) dapat ditunjukkan bahwa penduga kuadrat terkecil dari adalah tak bias, yaitu : E(b) = dan Var (b1 ) =

2
2 1 r12

Dari model (2) dapat ditunjukkan bahwa penduga kuadrat terkecil dari 1 adalah bias, yaitu : E(b1) = 1+ r122 dan Var (b1) = 2 Dengan mempertimbangkan dugaan dan variansi parameter 1 dari kedua model maka model (2) akan lebih baik dari model (1) jika : RKS ( b1 / model (2) ) < Var ( b1 / model (1) ) Var ( b1 / model (2) ) + (bias)2 < Var ( b1 / model (1) )

2 + (r12 2 ) 2 < 2 1 < 2 1 r12

2
2 1 r12

(3)

2 Hasil (3), memberikan arti jika r12 mendekati 1 maka penghapusan variabel akan 2 berdanpak yang baik. Sedangkan untuk sembarang nilai r12 , maka penghapusan

variabel bebas akan baik jika :

2 <

2 1 r12

(4)

5. Koefisien Determinasi (R2)


Koefisien determinasi (R2) atau sering disebut kuadrat koefisien korelasi ganda didefinisikan sebagai berikut :
R2 = b'X'Y - nY 2 Y'Y - nY 2

(5)

yang merupakan kuadrat korelasi antara X dengan Y untuk melihat pengaruh semua variabel bebas secara serentak terhadap variabel tak bebas. Untuk memperjelas pemahaman tentang hal tersebut dapat dibuat suatu visualisasi diagram Venn sebagaimana ditunjukkan dalam gambar 2. Jika dalam
2 regresi Y hanya berhubungan dangan X maka koefisien determinasi ( RY .X )

dilukiskan sebagai daerah biru ditambah kuning. Jika dalam model tersebut
2 ditambahkan satu variabel bebas (W) maka koefisien determinasi ( RY .XW )

dilukiskan sebagai daerah biru ditambah kuning ditambah hijau. Yang menjadi perhatian disini bahwa daerah kuning hanya dihitung sekali, sehingga dapat dipastikan bahwa
2 2 2 RY . XW < RY . X + RY .W . Sedangkan pada kasus tertentu jika

antara X dan W ortogonal maka koefisien determinasi sebagaimana ditunjukkan dalam gambar 4 adalah daerah biru ditambah
2 2 2 RY . XW = RY . X + RY .W .

hijau atau dapat ditulis

Berdasarkan ilustrasi diagram Venn gambar 4 dengan tegas dapat dituliskan bahwa penambahan variabel bebas pada model regresi akan menaikkan nilai dari koefisien determinasinya. Akan tetapi jika terjadi kasus bahwa variabel yang ditambahkan tidak memberikan informasi apapun terhadap variabel tak bebas atau telah secara lengkap diinformasikan oleh variabel bebas yang sudah

ada dalam model maka penambahan variabel tersebut tidak akan menaikkan nilai dari koefisien determinasinya. Hal tersebut dapat ditunjukkan pada gambar 5.

Gambar 4 : Diagram Venn untuk kasus dua variabel ortogonal

X W

Z Gambar 5 : Diagram Venn untuk variabel yang redundan Dari visualisasi di atas jika dalam regresi Y hanya berhubungan dangan X
2 dan W maka koefisien determinasi ( RY .XW ) dilukiskan sebagai daerah (biru+

biru muda+kuning+hijau+orange+merah). Jika dalam model tersebut ditambahkan


2 satu variabel bebas (Z) maka koefisien determinasi ( RY .XWZ ) dilukiskan sebagai 2 daerah yang sama seperti di atas karena daerah RY .Z yaitu (kuning+merah+biru 2 muda) sudah menjadi bagian dari daerah RY .XW .

Sementara itu, oefisien determinasi parsial digunakan untuk mengukur kontribusi marginal dari satu variabel bebas pada variabel tak bebas jika variabel bebas yang lain sudah ada dalam model. Koefisien determinasi parsial dihitung dengan pendekatan analisa variansi. Misalnya Koefisien determinasi parsial

antara variabel bebas W dengan Y dengan variabel bebas X sudah ada dalam model disajikan sebagai berikut :
2 RYW.X

2 2 RY . XW RY . X 2 1 RY . X

(6)

Visualisasi diagram Venn dari koefisien determinasi parsial tersebut ditunjukkan seperti dalam dalam gambar 2, dimana pembilang dari ruas kanan merupakan daerah biru sementara penyebut adalah daerah orange ditambah biru. Beberapa kejadian dapat saja terjadi pada nilai koefisien determinasi parsial, jika W ortogonal ( gambar 4 ) dengan X maka seperti yang diuraikan diatas maka
2 2 2 2 RY . XW = RY . X + RY .W sehingga RYW.X = 2 RY .W 2 1 RY . X

. Sementara itu jika W tidak telah secara lengkap

memberikan informasi apapun terhadap Y atau

2 2 2 diinformasikan oleh X maka RY . XW = RY . X akibatnya RYW.X = 0 .

DAFTAR PUSTAKA
Draper, N.R. and H. Smith (1981). Applied Regression Analysis. 2nd ed., John Wiley & Sons, New York. Ip E.H.S. (2001). Visualizing Multiple Regression . Jurnal of Statistics Education. Vol. 9 No. 1 Kennedy P.E. (1981), "The 'Ballentine': A Graphical Aid for Econometrics," Australian Economic Papers. Vol. 20. _________ (2002) More on Venn Diagrams for Regression. Jurnal of Statistics Education. Vol. 10 No. 1 Montgomery, D.C. and E.A. Peck (1992). Introduction to Linear Regression Analysis. John Wiley & Sons Inc. New York.