PERTEMUAN IV
ANALISIS DATA EKSPLORATIF
Oleh
NPM : F1F019023
LABORATORIUM MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BENGKULU
2022
KATA PENGANTAR
Puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat
laporan praktikum Analisis Data Eksploratif ini dengan baik dan lancar. Penulis
juga ingin mengucapkan terima kasih kepada dosen dan asisten praktikum dalam
Pada kesempatan ini Penulis juga mengucapkan terima kasih kepada yang
terhormat:
baik dari segi susunan kata, kalimat maupun tatanan bahasa. Oleh karena itu,
penulis mengharapkan kritik dan saran dari semua pihak untuk laporan ini. Akhir
kata penulis berharap agar laporan ini memberikan banyak manfaat dan
Penulis
ii
DAFTAR ISI
HALAMAN JUDUL...............................................................................................i
KATA PENGANTAR...........................................................................................ii
DAFTAR ISI.........................................................................................................iii
DAFTAR GAMBAR.............................................................................................iv
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang...........................................................................................1
1.2 Rumusan Masalah.....................................................................................2
1.3 Tujuan Penelitian.......................................................................................2
1.4 Batasan Masalah........................................................................................3
1.5 Manfaat Penelitian.....................................................................................3
1.6 Sistematika Penulisan................................................................................3
BAB II TINJAUAN PUSTAKA...........................................................................5
2.1 Analisis Gerombol......................................................................................5
2.2 Metode Hirarki...........................................................................................6
2.3 Metode Non-Hirarki..................................................................................7
BAB III METODE PENELITIAN.......................................................................9
3.1 Jenis dan Sumber Data..............................................................................9
3.2 Variabel Penelitian.....................................................................................9
3.3 Analisis Data...............................................................................................9
3.4 Diagram Alur...........................................................................................11
BAB IV HASIL DAN PEMBAHASAN.............................................................12
4.1 Metode Hirarki........................................................................................12
4.2 Metode Non-Hirarki...............................................................................12
4.3 Analisis Gerombol Pada Data................................................................13
BAB V KESIMPULAN DAN SARAN...............................................................14
5.1 Kesimpulan...............................................................................................14
5.2 Saran.........................................................................................................15
DAFTAR PUSTAKA...........................................................................................16
LAMPIRAN
iii
DAFTAR GAMBAR
iv
DAFTAR TABEL
v
BAB I
PENDAHULUAN
kelompok software yang open source yang tidak memerlukan lisensi atau dengan
kata lain gratis (freeware). Paket R memiliki fasilitas yang sangat banyak untuk
analisis data statistik. Mulai dari metode yang klasik sampai dengan yang modern.
Salah satu kelebihan yang dimiliki R yaitu, efektif dalam pengelolaan data dan
fasilitas penyimpanan dan ukuran file yang disimpan jauh lebih kecil dibanding
software lainnya.
itu terkait dengan bidang sosial, bidang kesehatan, bidang marketing maupun
keuntungan yang diperoleh dari pembelian barang. Hasil dari penggerombolan ini
pemasaran selanjutnya. Namun jika pengelompokan ini tidak sesuai atau tidak
keputusan yang cukup penting akibatnya akan cukup fatal, oleh karena itu perlu
1
digunakan secara luas adalah metode penggerombolan berhirarki dan tak
berhirarki. Kedua metode ini digunakan untuk data yang berskala interval, rasio
maupun campuran kategorik dan numerik, contohnya segmentasi desa pada survei
banyaknya gerombol ditentukan oleh peneliti serta tidak ada uji statistik untuk
mengetahui banyaknya gerombol yang pantas (fit) dengan data yang dianalisis,
subjektifitas peneliti.
sebagai berikut:
2
1.4 Batasan Masalah
mahasiswa praktikan ADE tahun 2022. Komponen data yang dibutuhkan adalah
hasil!
Penelitian ini diharapkan dapat menjadi tuntunan dan ilmu pengetahuan baru bagi
gerombol.
gerombol.
3. Bagi masyarakat Penelitian ini dapat menjadi sumber atau bahan referensi
lima bab dan setiap bab terdiri dari beberapa subbab. Adapun isi dari bab tersebut
3
BAB I PENDAHULUAN
sistematika penulisan.
Bab ini merupakan bab yang memuat pengertian dan teori yang
Bab ini merupakan bab yang memuat rangkuman dari hasil secara
DAFTAR PUSTAKA
4
BAB II
TINJAUAN PUSTAKA
pada suatu gerombol dengan objek pada gerombol lainnya memiliki tingkat
kemiripan yang rendah. Asumsi yang harus dipenuhi, yaitu sampel yang diambil
yaitu korelasi antar obyek, bila ada maka besar multikolinieritas tidaklah tinggi
a. d ( a ,b)≥ 0
b. d ( a , a ) =0
c. d ( a , b ) =d (b , a)
e. d ( a , b ) ≤ d ( a ,b )+ d (b , c)
data, dan pelapisan data. Dengan eksplorasi data dapat diperoleh informasi yang
ada dalam himpunan data, dengan reduksi data dimungkinkan mengambil suatu
5
Penggerombolan dapat digunakan sebagai pelapisan data dalam penarikan
digunakan suatu ukuran kemiripan atau ketidakmiripan. Semakin mirip dua objek
semakin tidak mirip semakin rendah pula peluang untuk dikelompokkan dalam
sehingga pada akhirnya didapat hanya satu gerombol gerombol saja. Sebaliknya,
cara pemisahan pada metode hirarki dimulai dengan membentuk satu gerombol
dipisah menjadi gerombol yang lebih kecil, sampai satu gerombol hanya
6
Centroid Jarak antar centroid
Pada metode ini terlebih dahulu harus ditentukan jumlah cluster yang
diinginkan dan centroid tiap cluster. Kemudian dihitung jarak untuk setiap objek
ke centroid, lalu masukkan objek ke dalam cluster yang memiliki jarak terdekat
dengan centroid cluster yang berpadanan. Hitung kembali tiap centroid yang
terbentuk, ulangi step sampai tidak terdapat objek yang berpindah antar cluster.
pautan tunggal (single-linkage) sebagai ukuran jarak antar gerombol, dan jarak
Euclidean sebagai ukuran jarak antar objeknya. Metode ini dapat digunakan pada
data dengan jumlah amatan yang besar dan jumlah gerombol yang diinginkan
tidak diketahui. Pada metode ini, peubah yang digunakan bertipe numerik.
untuk peubah yang berskala pengukuran interval dan rasio. Teknik yang
dilakukan pada tahap awal sama dengan yang dilakukan metode Two Step Cluster
7
pengambilan contoh secara acak dari data tersebut. Jarak antar gerombol yang
dapat digunakan pada metode ini adalah jarak Euclidean dan jarak Manhattan.
Metode ini dapat mengatasi masalah skala pengukuran yang tidak sama,
dalam hal ini bertipe kontinu dan kategorik, serta memiliki jumlah objek amatan
relatif besar. Metode ini masih memiliki kelemahan yaitu sensitif terhadap data
yang berupa urutan atau tingkatan, sehingga masih tidak mampu dalam
menangani data ordinal. Apabila terdapat peubah yang bertipe ordinal, maka
antara dua gerombol didefinisikan sebagai jarak antar pusat dari masing-masing
gerombol tersebut. Pusat dari suatu gerombol adalah vektor dari rataan masing-
masing peubahnya. Jarak yang digunakan dalam metode Two Step Cluster adalah
8
BAB III
METODE PENELITIAN
Dalam penelitian ini peneliti menggunakan data primer yang mana data
diperoleh langsung dari lapangan yang bersumber dari dengan kuesioner yang di
Dalam penelitian kali ini peneliti menggunakan data primer yang bersumber
dari kuesioner praktikan ADE tahun 2022. Data ini memiliki 2 variabel
character yaitu variabel nama dan NPM serta 3 variabel numerik yaitu Berat
9
4. Hitunglah jarak antar objek.
5. Lakukan peng-clusteran.
10
3.4 Diagram Alur
Mulai
Hirarki
Tentukan
Hitung korelasi antar objek
jumlah cluster
Lakukan peng-clusteran
Buatlah interpretasi
Selesai
Gambar 1.
11
BAB IV
sehingga pada akhirnya didapat hanya satu gerombol gerombol saja. Sebaliknya,
cara pemisahan pada metode hirarki dimulai dengan membentuk satu gerombol
dipisah menjadi gerombol yang lebih kecil, sampai satu gerombol hanya
beranggotakan satu pengamatan saja. Batasan masalah pada teladan bagian (a)
peneliti menggunakan metode hirarki yaitu single linkage dan untuk hasil dari
perhitungan korelasi antar objek, jarak antar objek dan pembentukan cluster
Pada metode ini peneliti menerapkan pada batasan masalah teladan bagian (b)
yang mana terlebih dahulu harus ditentukan jumlah cluster yang diinginkan dan
dihitung jarak untuk setiap objek ke centroid, lalu masukkan objek ke dalam
cluster yang memiliki jarak terdekat dengan centroid cluster yang berpadanan.
Hitung kembali tiap centroid yang terbentuk, ulangi step sampai tidak terdapat
objek yang berpindah antar cluster. Metode ini biasanya dinamakan dengan k-
mean
12
4.3 Analisis Gerombol Pada Data
menggunakan metode hirarki dan metode non-hirarki (k-means) dimana data yang
digunakan yaitu data berat badan, tinggi badan, dan ukuran sepatu dari mahasiswa
statistika UNIB yang mengikuti kelas analisis dasar eksploratif tahun 2022. Hasil
metode hirarki dapat dilihat dari hasil dendogram seperti pada lampiran, diketahui
metode non hirarki peneliti menetapakn 3 klaster yaitu klaster 1 warna merah
dengan anggota 6 orang, klaster 2 warna hijau ada 15 orang, dan klaster 3 warna
13
BAB V
5.1 Kesimpulan
berhirarki. Kedua metode ini digunakan untuk data yang berskala interval, rasio
menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian
cluster. Proses ini dimulai dengan suatu ukuran yang sering digunakan yaitu
centroid cluster. Membuat profil dan interpretasi cluster tidak hanya untuk
untuk menilai korespondensi pada cluster yang terbentuk, kedua, profil cluster
menggunakan metode hirarki dan metode non-hirarki (k-means) dimana data yang
digunakan yaitu data berat badan, tinggi badan, dan ukuran sepatu dari mahasiswa
statistika UNIB yang mengikuti kelas analisis dasar eksploratif tahun 2022. Hasil
metode hirarki dapat dilihat dari hasil dendogram seperti pada lampiran, diketahui
metode non hirarki peneliti menetapakn 3 klaster yaitu klaster 1 warna merah
14
dengan anggota 6 orang, klaster 2 warna hijau ada 15 orang, dan klaster 3 warna
5.2 Saran
berlangsung, agar bukan hanya asisten dosen saja yang aktif tapi praktikan
diharapkan lebih aktif bertanya maupun menjawab pertanyaan yang diajukan dan
15
DAFTAR PUSTAKA
16
LAMPIRAN
Lampiran 3. Hasil perhitungan korelasi dan jarak antar objek teladan (a)
Lampiran 4. Plot klaster dendogram metode hirarki