Kisikisi Uas Data Mining

PCA (Principal Components Analysis)
Data Reduction
Data reduction techniques digunakan untuk mendapatkan representasi data yang dikurangi lebih kecil
(volume), namun juga menjaga integritas data asli.
Artinya, Pemrosesan pada kumpulan data yang telah dikurangi harus lebih efisien namun menghasilkan
hasil analitis yang sama (atau hampir sama).
 Transformation
 Reduksi Dimensi
Meringkas data dengan (p) variable dengan satu set yang lebih kecil dari (k) variable.
Principal Components Analysis (PCA)
Principal Component Analysis (PCA) merupakan teknik mereduksi suatu set variabel yang berdimensi tinggi
menjadi lebih rendah namun masih mengandung sebagian besar informasi dari data awal.
Terdapat dua fungsi utama dari PCA yaitu reduksi dan transformasi.
 Fungsi reduksi digunakan untuk mengurangi jumlah variabel (yang awalnya sangat banyak) menjadi
lebih sedikit sehingga memudahkan analisis pada tahap selanjutnya.
 Sedangkan fungsi transformasi digunakan untuk mengubah variabel yang awalnya saling berkorelasi
menjadi tidak saling berkorelasi.
Tahapan:
1. Standarisasi Data
2. Menghitung Matrix Covariance/ Korelasi
3. Menghitung Nilai Eigen
4. Menghitung PC
5. Reduksi Dimensi
Jika kovarians bernilai positif, kedua dimensi meningkat bersama. Jika negatif, ketika satu meningkat, yang
lain berkurang. Nol: tidak tergantung satu sama lain.
Decision Trees (pohon keputusan)
Konsep
Mengubah tumpukan data menjadi sebuah pohon keputusan yang merepresantasikan aturan aturan dari
sebuah keputusan.
Berikut adalah contoh decision tree untuk menentukan apakah seseorang akan membeli sebuah produk
berdasarkan beberapa atribut:
Note:
Refund/Atribut: X = Root Node (tdk mempunyai garis masuk & 2 mempunyai garis keluar)
MarSt/Atribut: Y = Internal Node (mempunyai satu garis masuk & 2/lebih garis keluar) atribut kondisi
Tdk Membeli & Membeli = Leaf Node / Terminal Node (mempunyai 1 garis masuk, tdk mempunyai garis
keluar) menunjukan sebuah hasil dari klasifikasi
Cheat = kolom klasifikasi/class (target terakhir)
What is classification?
Classification is the task of learning a target function f that maps attribute set x to one of the predefined
class labels y. (Klasifikasi adalah tugas mempelajari fungsi target f yang memetakan set atribut x ke salah
satu label kelas yang telah ditentukan y).
Algoritma
Algoritma adalah serangkaian instruksi atau langkah-langkah terstruktur yang dirancang untuk
menyelesaikan masalah atau menjalankan tugas tertentu. Algoritma berfungsi sebagai panduan atau
rencana yang jelas untuk mencapai tujuan yang diinginkan dalam komputasi atau pemrograman.
Beberapa karakteristik penting dari algoritma meliputi:
1. Algoritma dapat menerima input dalam bentuk variabel, data, atau informasi yang dibutuhkan
untuk menjalankan langkah-langkahnya.
2. Algoritma terdiri dari serangkaian langkah-langkah atau instruksi yang harus diikuti dalam urutan
tertentu.
3. Algoritma menghasilkan output atau hasil yang diharapkan setelah menjalankan langkah-
langkahnya.
4. Setiap langkah dalam algoritma harus ditentukan dengan jelas dan tidak ambigu.
5. Algoritma harus memiliki batas yang jelas, baik dalam hal waktu (waktu eksekusi) maupun ruang
(penggunaan memori).
6. Algoritma harus efisien dan dapat menyelesaikan tugas dengan menggunakan jumlah sumber daya
yang wajar.
Bentuk Algoritma
1. Narasi (narrative description)
• ALGORITME 1a. MENJUMLAHKAN DUA BILANGAN BULAT
1. baca dua buah bilangan bulat (misalnya a dan b).
2. jumlahkan dua bilangan tersebut dan simpan hasilnya ke
3. peubah c (c  a + b).
4. cetak nilai c.
• ALGORITME 1b. MENJUMLAHKAN DUA BILANGAN BULAT
1. baca a dan b.
2. c  a + b.
3. cetak nilai c.
CONTOH
MENENTUKAN STATUS KELULUSAN DARI TIGA NILAI UJIAN
1. baca nilai ujian Nilai1, Nilai2, dan Nilai3.
2. hitung rataan  (Nilai1 + Nilai2 + Nilai3) / 3.
3. jika rataan < 50, maka: cetak 'TIDAK LULUS', selainnya maka cetak 'LULUS'.
ALGORITME MENENTUKAN BILANGAN GENAP/GANJIL
1. Mulai
2. Input bilangan A
3. Jika A Mod 2 = 0 maka “Bilangan Genap”
(IF A Mod 2 = 0 THEN Bil = “Bilangan Genap”
Else
Bil = “Bilangan Ganjil”
End If)
4. Else A = “Bilangan Ganjil”
5. Cetak A, Bil
6. Selesai
2. Diagram alir (flowchart).
Flowchart adalah representasi grafis dari algoritma atau urutan langkah-langkah yang disusun dalam
bentuk diagram. Tujuan utama flowchart adalah untuk menggambarkan dengan jelas dan terstruktur alur
kerja atau aliran informasi dari suatu program atau proses. Flowchart membantu dalam pemahaman visual
dan analisis sistematis terhadap algoritma atau proses yang sedang dilakukan.
Flowchart terdiri dari beberapa simbol dan elemen utama, di antaranya:
1. Simbol Awal (Start): Mewakili titik awal atau inisialisasi proses.
2. Simbol Aksi (Action): Mewakili langkah-langkah atau tindakan yang diambil dalam algoritma atau
proses.
3. Simbol Keputusan (Decision): Mewakili kondisi atau keputusan yang harus diambil dalam aliran
algoritma. Biasanya digunakan untuk percabangan if-else atau pengujian kondisi.
4. Simbol Penghubung (Connector): Mewakili penghubung atau penggabungan antara jalur aliran yang
terpisah dalam algoritma atau proses.
5. Simbol Input/Output: Mewakili input atau output data dalam algoritma atau proses.
6. Simbol Berhenti (Stop): Mewakili titik berhenti atau akhir dari algoritma atau proses.
Analisis Cluster
Analisis klaster (cluster analysis) adalah teknik dalam statistik dan pembelajaran mesin yang digunakan
untuk mengelompokkan objek-objek atau data ke dalam kelompok-kelompok yang serupa berdasarkan
kesamaan karakteristik atau pola-pola yang ditemukan dalam data.
Tujuan dari Analisis Cluster adalah mengelompokkan obyek berdasarkan kesamaan karakteristik di antara
obyek-obyek tersebut.
Data yg lebih dari 0,05/0,5 maka, tdk signifikan
Dengan demikian, ciri-ciri suatu cluster yang baik yaitu mepunyai :
 Homogenitas internal (within cluster); yaitu kesamaan antar anggota dalam satu cluster.
 Heterogenitas external (between cluster); yaitu perbedaan antara cluster yang satu dengan cluster
yang lain.
Langkah Pengelompokan Dalam Analisis Cluster
1. Mengukur Kesamaan Jarak
2. Membentuk Cluster Secara Hirarkis
3. Menentukan Jumlah Cluster.
Metode Pengelompokan
Metode Hirarkis
 Memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat.
Kemudian diteruskan pada obyek yang lain dan seterusnya hingga cluster akan membentuk
semacam ‘pohon’ dimana terdapat tingkatan (hirarki) yang jelas antar obyek, dari yang paling mirip
hingga yang paling tidak mirip.
 Alat yang membantu untuk memperjelas proses hirarki ini disebut “dendogram”.
Metode Non-Hirarkis
 Dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua,tiga, atau yang
lain).
 Setelah jumlah cluster ditentukan, maka proses cluster dilakukan dengan tanpa mengikuti proses
hirarki.
 Metode ini biasa disebut “K-Means Cluster”.
Cara Metode K-Means Cluster
 Analyze
 Classify
 K-Means Cluster
 Masukkan seluruh variabel Z-Score ke dalam kotak VARIABLES. Kemudian variabel Kota dimasukkan
dalam kotak “Label Cases by..”.
 Aktifkan kedua kotak dalam menu Save, yaitu “Cluster membership” dan “Distance from cluster
center”.
 Selanjutnya tekan tombol “Continue” untuk kembali ke menu utama.
 Pada bagian Statistics, aktifkan “Initial cluster centers” dan “ANOVA table”.
 Abaikan bagian yang lain, lalu tekan
 “Continue” untuk kembali ke menu utama.
Cara Metode Hirarkis Cluster
 Analyze
 Classify
 Hirartical Cluster
 Masukkan seluruh variabel Z-Score ke dalam kotak VARIABLES. Kemudian variabel Kota dimasukkan
dalam kotak “Label Cases by..”.
 Aktifkan kotak dalam menu Plot, yaitu “Dendogram”.
 Selanjutnya tekan tombol “Continue” untuk kembali ke menu utama.
 Pada bagian Method, aktifkan “Ward Method”.
 Abaikan bagian yang lain, lalu tekan
 “Continue” untuk kembali ke menu utama.
Regresi Data Panel
Data panel merupakan data hasil observasi yg menggabungkan antara data cross section & time series.
Data time series biasanya meliputi satu objek tetapi meliputi beberapa periode (harian, bulanan, kuartalan,
atau tahunan). Data cross section terdiri atas beberapa atau banyak objek, sering disebut responden
dengan beberapa jenis data (laba, biaya iklan, laba ditahan, & tingkat investasi) dalam suatu periode waktu
tertentu. N: banyaknya data cross section; T: banyaknya data time series.
Regresi data panel adalah metode statistik yang digunakan untuk menganalisis hubungan antara variabel
dependen dan variabel independen dalam data panel, yaitu data yang mencakup pengamatan dari
beberapa unit waktu dan unit individu atau unit lintas waktu.
Tujuan dari regresi data panel adalah untuk menguji pengaruh variabel independen terhadap variabel
dependen dan memperkirakan koefisien regresi yang menunjukkan sejauh mana variabel independen
berkontribusi terhadap variasi variabel dependen. Regresi data panel memperhitungkan variasi antar unit
individu dan variasi antar waktu, sehingga memungkinkan penilaian lebih baik tentang efek variabel
independen terhadap variabel dependen.
Dalam regresi data panel, terdapat beberapa pendekatan analisis yang umum digunakan, termasuk:
1. Model Efek Tetap (Fixed Effects): Model ini memperhitungkan efek tetap antar unit individu yang
tidak berubah seiring waktu.
2. Model Efek Acak (Random Effects): Model ini memperhitungkan efek acak antar unit individu yang
berubah seiring waktu. Efek acak ini dianggap sebagai variabel random dalam estimasi.
3. Model Campuran (Pooled Model): Model ini menggabungkan data dari semua unit individu dan
waktu menjadi satu kelompok besar. Model ini mengabaikan perbedaan antar unit individu dan
variasi lintas waktu.
Regresi data panel memberikan keuntungan dalam meningkatkan efisiensi dan daya statistik analisis,
mengendalikan variabel tidak teramati (unobserved), dan memungkinkan pemodelan hubungan yang lebih
kompleks antara variabel.
Analisis Faktor = adalah alat analisis statistik yang dipergunakan untuk mereduksi faktor faktor yang
mempengaruhi suatu variabel menjadi beberapa set indikator saja, tanpa kehilangan informasi yang
berarti.
PEMILIHAN MODEL REGRESI DATA PANEL (EVIEWS)
Uji Chow = Uji ini berguna untuk membandingkan Common Effect dengan Fixed Effect. Hipotesis nol yang
digunakan adalah Common Effect lebih baik dibanding Fixed Effect. Jika H0 ditolak, pengujian dilanjutkanke
Uji Hausman.
Uji Hausman = Dengan uji ini kita bisa membandingkan model Random Effect dengan Fixed Effect. Hipotesis
nol yang digunakan adalah Random Effect lebih baik dibanding Fixed Effect. Jika H0 ditolak, maka model
yang tepat untuk analisis adalah Fixed Effect (tidak perlu lagi melakukan uji Breusch pagan). Namun jika
gagal tolak H0, lanjutkan ke pengujian Breusch Pagan.
Uji Breusch Pagan – Lagrange Multiplier = Uji ini membandingkan model Common Effect dengan Random
Effect. Hipotesis nol yang digunakan adalah Common Effect lebih baik dibanding Random Effect. Jika H0
ditolak, maka model yang tepat untuk analisis adalah Random Effect.
Hasil fixed effect pemilihan dalam pengolahan data panel (cow test)
Outputt uji hausman

Diperoleh p-value = 0.00 lebihkecil dari 5%). Keputusan yang diambil adalah Tolak H0 atau
dapat disimpulkan bahwa model Fixed Effect lebih baik disbanding Random effect.
Hipotesa :
H0 : Common Effects lebih baik
H1 : Random Effects lebih baikHasil output diatas
menunjukkan nilai probabilitas Breush-Pagan (BP)
pada sub Cross section sebesar 0.1213.
Hipotesa-nya : jika probabilitas Breush- Pagan (BP)
lebih besar dari Alpha (0.1213
< 0.05) maka H0 diterima yang artinya motode
yang tepat pada hasil diatas adalah common
effects.
Hasil terbaik metode pls
Interpretasi Output Koefisien Determinasi. = Hasil output di atas menunjukkan nilai R- squared sebesar
0.883202 yang berarti variasi tiga variabel independent X (NPF, FDR, BOPO) mampu menjelaskan 88.32%
variasi variabel dependent Y (ROE). Sisanya 11.68% dijelaskan oleh variabel lain diluar model atau yang
tidak diteliti. Uji Signifikansi
Simultan (Uji Statistik F) = Hasil output di atas menunjukkan nilai F statistik sebesar 16.80402 dengan
probabilitas 0.000000. Karena probabilitas kurang dari 0.05, maka dapat disimpulkan bahwa ketiga variabel
X (NPF, FDR, BOPO) secara bersama-sama berpengaruh terhadap Y (ROE). Setelah mengetahui metode yang
digunakan, langkah selanjutnya lakukan uji asumsi klasik antara lain :
a.uji normalitas, b.uji multikolinearitas, dan c.ujiheteroskedastisitas
Hasil analisis korelasi
Interpretasi output : Kriteria penilaiannya jika nilai dibawah 0.8, maka data terbebas dari multikolinearitas,
namun jika nilai lebih besar dari 0.8 maka data terdapat masalah multikolinearitas. Tidak terdapat nilai
korelasi yang tinggi antar variabel bebas tidak melebihi
0.80 sehingga dapat disimpulkan tidak terdapat multikolinearitas antar variabel bebas. .
Uji Heteroskedastisitas = adalah uji yang menilai apakah ada ketidaksamaan varian dari residual untuk
semua pengamatan pada model regresi linear. Uji ini merupakan salah satu dari uji asumsi klasik yang harus
dilakukan pada regresi linear. Apabila asumsi heteroskedastisitas tidak terpenuhi, maka model regresi
dinyatakan tidak valid sebagai alat peramalan interpretasi output :
Nilai p-value untuk variabel X (AUR, GCG, dan ICSR) menujukkan nilai yang lebih besar dari tingkat alpha
0.05, maka dapat disimpulkan bahwa data ini terbebas dari masalah heteroskedastisitas.
Asumsi = Sampel yang diambil benar-benar dapat mewakili populasi yang ada
(representativeness of the sample) Multikolinieritas.
CONTOH = Dari penelitian yang dilakukan terhadap 12 kota, ingin diketahui pengelompokan
kota-kota tersebut berdasarkan instrumen 5 variabel yaitu : 1. Jumlah Pendapatan Kota (Trilyun Rp)
2. Jumlah Pinjaman Pemerintah Kota (Milyar Rp) 3. Jumlah Dana Hibah yang dimiliki Kota
(Milyar Rp) 4. Jumlah Konsumsi Pemerintah Kota (ilyar Rp) 5. Jumlah Penduduk Kota (Juta Jiwa)
Langkah – 1 : “Standardisasi/Transformasi” Mengingat data yang terkumpul mempunyai
variabilitas satuan, maka perlu dilakukan langkah standardisasi atau transformasi terhadap variabel
yang relevan ke bentuk zscore, sebagai berikut : 1) Setelah keseluruhan data yang dikumpulkan
tersebut diatas dientry dalam program SPSS, selanjutnya klik menu “analyze” dan pilih sub menu
“Descriptives Statistics” lalu “Descriptives”.
Masukkan ke dalam kotak VARIABLES seluruh variabel instrumen penilai, yaitu variabel jumlah
pendapatan, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi,dan jumlah penduduk. (Dalam
hal ini variabel kota tidak dimasukkan karena data bertipe string). Kemudian aktifkan bagian “Save
standardized values as Variables”. Abaikan bagian yang lain lalu tekan OK Untuk menampilkan
output aplikasi program SPSS.
Penamaan cluster atau penarikan kesimpulan sangat bersifat subyektif dan bergantung pada
tujuan penelitian

Kisikisi Uas Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kisikisi Uas Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

PCA (Principal Components Analysis)

Outputt uji hausman

Anda mungkin juga menyukai