Anda di halaman 1dari 8

Final Test

LAPORAN
GEOFSIKA MATEMATIKA III

DISUSUN OLEH :
KELOMPOK 7

SANDI H061211013
FATHANA ASH SHADIQ RUSYID H061211020
AZIZAH H061211026
NURCHALIZA H061211028
SITI FATHANA AZH ZAHRA H061211051
HARIANTO IRWAN H061211073

DEPARTEMEN GEOFISIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS HASANUDDIN
MAKASSAR
2023
KATA PENGANTAR
Puji syukur dan dalam kehadirat Allah Yang Maha Pengasih lagi Maha
Penyayang. Kami dengan rendah hati mempersembahkan laporan ini untuk
memperkenalkan dua program yang telah kami kembangkan menggunakan
TensorFlow (CNN) di lingkungan Python/Jupyter. Program pertama yang kami
hadirkan adalah program deteksi gambar angka menggunakan Convolutional
Neural Network (CNN), sementara program kedua adalah analisis clustering data
gempa dengan metode k-means, DBSCAN, dan Hierarchy.
Program analisis clustering data gempa juga tidak lepas dari rahmat dan
kemurahan Allah. Dengan kebijaksanaan-Nya, kami dapat menggunakan metode
k-means, DBSCAN, dan Hierarchy untuk mengelompokkan gempa-gempa
berdasarkan karakteristiknya. Kami berusaha menjadikan program ini sebagai alat
yang efektif dalam pemahaman dan pengelolaan data gempa, demi keamanan dan
kesejahteraan masyarakat.
Dalam laporan ini, kami dengan tulus mengungkapkan proses
pengembangan kedua program ini, serta melakukan evaluasi untuk menentukan
jumlah klasterisasi yang cukup representatif beserta tingkat akurasinya dalam
program analisis clustering data gempa. Segala puji hanya bagi Allah yang telah
memberikan petunjuk, kekuatan, dan kesempatan kepada kami untuk
mengembangkan program-program ini.
Kami juga ingin mengucapkan terima kasih kepada semua pihak yang
telah memberikan dukungan dan kontribusi dalam pembuatan laporan ini.
Kehadiran Allah melalui setiap individu dan sumber daya yang diberikan-Nya
telah memberikan jalan bagi kami untuk mencapai tujuan ini.
Dengan kerendahan hati, kami mengakhiri kata pengantar ini, semoga segala
usaha kami diberkahi dan diterima oleh Allah Yang Maha Pengasih lagi Maha
Penyayang.

Hormat kami,

K-MEANS
Algoritma K-Means ditemukan oleh beberapa orang yaitu Lloyd (1957),
Forgey (1965), Friedman dan Rubin (1967), dan McQueen (1967). Ide dari
pengelompokkan (Clustering) pertama kali ditemukan oleh Lloyd pada tahun
1957, namun hal tersebut baru dipublikasi pada tahun 1982. Pada tahun 1965
Forgey juga mempublikasikan teknik yang sama sehingga terkadang dikenal
sebagai Lloyd-Forgy (Primartha, 2018).
K-Means merupakan salah satu algoritma Clustering yang masuk dalam
kelompok Unsupervised learning yang digunakan untuk membagi data menjadi
beberapa kelompok dengan sistem partisi. Algoritma ini menerima masukan
berupa data tanpa label kelas. Hali ini berbeda dengan K-Nearest Neighbor
(KNN) dan algoritma supervised learning lainnya yang menerima masukan
berupa vektor. Pada algoritma K-Means, komputer mengelompokkan sendiri data-
data yang menjadi masukannya tanpa mengetahui terlebih dahulu target kelasnya.
Masukan yang diterima adalah data atau objek dan k buah kelompok (cluster)
yang diinginkan. Algoritma ini akan mengelompokkan data atau objek kedalam k
buah kelompok tersebut.
Pada setiap cluster terdapat titik pusat (Centroid) yang mempresentasikan
cluster tersebut. Secara sederhana algoritma K-Means dapat dijelaskan sebagai
algoritma data mining yang digunakan untuk menyelesaikan masalah
pengelompokkan (Clustering). Pada pemrosesan data algoritma K-Means
Clustering, akan diawali dengan pengelompokan Centroid pertama yang dipilih
secara acak sebagai titik awal untuk setiap cluster, kemudian menghitung secara
berulang agar posisi Centroid optimal.
Pada dasarnya algoritma K-Means hanya mengambil sebagian dari
banyaknya komponen yang didapatkan untuk kemudian dijadikan pusat cluster
awal, pada penentuan pusat cluster ini dipilih secara acak dari populasi data.
Kemudian algoritma K-Means akan menguji masing-masing dari setiap
komponen dalam populasi data tersebut dan menandai komponen tersebut ke
dalam salah satu pusat cluster yang telah didefinisikan sebelumnya tergantung
dari jarak minimum antar komponen dengan tiap-tiap pusat cluster. Selanjutnya
posisi pusat cluster akan dihitung kembali hingga semua komponen data
digolongkan ke dalam tiap-tiap cluster dan terakhir akan terbentuk cluster baru
(Sihombing, 2017).

Gambar 1. Contoh K-Means Clustering


Terdapat dua jenis data Clustering yang sering dipergunakan dalam proses
pengelompokan data yaitu Hierarchical dan Non-Hierarchical. K-Means
merupakan salah satu metode data Clustering non-hierarchical atau Partitional
Clustering. Algoritma K-Means berusaha mengelompokkan data yang ada ke
dalam beberapa kelompok, di mana data dalam satu kelompok mempunyai
karakteristik yang sama antara satu dengan yang lainnya dan mempunyai
karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain.

DBSCAN
Kepadatan penduduk dan insfrastuktur sangat menentukan risiko wilayah
yang telah dinyatakan rawan gempa bumi. Hal mendasar yang dapat dilakukan
adalah pembagian wilayah-wilayah mana saja yang paling sering terjadi gempa
bumi agar risiko korban jiwa dan infrastruktur dapat diminimalisir. Untuk
memudahkan pembagian wilayah gempa dapat dilakukan dengan analisis cluster
atau sering disebut dengan clustering (Manalu, dkk., 2021).
Salah satu metode clustering yang dapat digunakan adalah ST-DBSCAN
(Spatio Temporal-Density Based Spatial Clustering Applications with Noise).
Algoritma ST-DBSCAN termasuk algoritma nonparametrik dalam unsupervised
learning sehingga tidak memerlukan asumsi dalam pengerjaannya dan merupakan
salah satu metode yang paling baik untuk menentukan cluster dari database
spasial yang besar (Gaonkar & Swant, 2013).
DBSCAN adalah algoritma yang dilandaskan pada kepadatan (density) data.
DBSCAN merupakan contoh pelopor dalam pengembangan teknik clustering berbasis
kepadatan atau clustering berbasis kepadatan. DBSCAN tidak perlu mengetahui jumlah
kelompok dalam data seperti pada K-Means. Hal ini memberikan keuntungan karena
umumnya bentuk dan jumlah kelompok yang sebaiknya diberikan pada data berdimensi
tinggi tidak dapat diketahui dengan cara analisis visual data, DBSCAN juga dapat
mengenali noise dengan baik (F. Nur, 2017)
Sekarang mari kita beralih ke algoritma pengelompokan utama ketiga dan
terakhir, DBSCAN, yang merupakan singkatan dari pengelompokan spasial berbasis
kepadatan aplikasi dengan noise. Sesuai namanya, algoritma pengelompokan ini
dikelompokkan berdasarkan kepadatan titik. DBSCAN akan mengelompokkan titik-titik
yang padat, di mana berdekatan didefinisikan sebagai jumlah titik minimum yang harus
ada dalam jarak tertentu. Jika titik berada dalam jarak tertentu dari beberapa cluster, itu
akan dikelompokkan dengan cluster yang paling padat. Setiap contoh yang tidak berada
dalam jarak tertentu dari cluster lain diberi label outlier. Dalam k-means dan
pengelompokan hierarkis, semua titik harus dikelompokkan, dan pencilan ditangani
dengan buruk. Di DBSCAN, kita dapat secara eksplisit memberi label titik sebagai
pencilan dan menghindari keharusan mengelompokkannya. Ini sangat kuat.
Dibandingkan dengan algoritma pengelompokan lainnya, DBSCAN jauh lebih rentan
terhadap distorsi yang biasanya disebabkan oleh pencilan dalam data. Juga, seperti
pengelompokan hierarkis dan tidak seperti k-means kita tidak perlu menentukan jumlah
cluster terlebih dahulu.
Kita menggunakan pustaka DBSCAN dari Scikit-Learn. Kita perlu menentukan
jarak maksimum (disebut eps) antara dua titik agar mereka dapat dipertimbangkan di
lingkungan yang sama dan sampel minimum (disebut min_samples) untuk grup yang
disebut cluster. Nilai default untuk eps adalah 0,5, dan nilai default untuk min_samples
adalah 5. Jika eps diatur terlalu rendah, tidak ada titik yang cukup dekat dengan titik lain
bagi mereka untuk dipertimbangkan di lingkungan yang sama. Oleh karena itu, semua
poin akan tetap tidak berkerumun. Jika eps diatur terlalu tinggi, banyak titik dapat
dikelompokkan dan hanya segelintir titik yang akan tetap tidak berkelompok, secara
efektif diberi label sebagai pencilan dalam dataset.
Kita perlu mencari eps optimal untuk dataset digit MNIST kita. min_samples
menunjukkan berapa banyak titik yang harus berada dalam jarak eps agar titik disebut
cluster. Setelah ada sejumlah titik min_samples terletak dekat, titik lain yang berada
dalam jarak eps dari salah satu yang disebut titik inti ini adalah bagian dari cluster itu,
bahkan jika titik-titik lain itu tidak memiliki jumlah titik yang min_samples dalam jarak
eps di sekitar mereka. Titik-titik lain ini jika mereka tidak memiliki jumlah titik
min_samples dalam jarak eps di sekitar mereka disebut titik perbatasan cluster.
Umumnya, seiring bertambahnya min_samples, jumlah cluster berkurang. Seperti
halnya eps, kita perlu mencari min_samples optimal untuk dataset digit MNIST kita.
Seperti yang Anda lihat, cluster memiliki titik inti dan titik batas, tetapi untuk semua
maksud dan tujuan, mereka termasuk dalam kelompok yang sama. Semua titik yang tidak
dikelompokkan baik sebagai titik inti atau batas kluster diberi label sebagai pencilan
(Ankur A. Patel, 2019).

HIERARCHI
Salah satu algoritma clustering adalah Hierarchical Clustering. Algoritma ini
dimulai dengan menganggap semua data adalah sebuah cluster. Pada iterasi berikutnya,
cluster akan berkurang secara iteratif dan cluster yang memiliki jarak terdekat akan
digabungkan, hingga akhirnya iterasi berhenti ketika jumlah cluster sesuai dengan jumlah
yang diinginkan. Salah satu variasi dari Hierarchical Clustering adalah Centroid Linkage
Clustering.
Pengelompokan hierarkis adalah teknik lain untuk melakukan analisis
eksplorasi data. Ini adalah teknik yang tidak diawasi. Dalam bab pengelompokan
sebelumnya, kami telah menjelaskan panjang lebar teknik untuk mempartisi data-
k
set X = {x1, ..., xn} ke dalam kumpulan kelompok yang disebut cluster X = ⨄i=1 Gi
dengan meminimalkan fungsi objektif kmeans (yaitu, jumlah tertimbang dari
cluster intra-varians): Dalam hal ini, kita berurusan dengan pengelompokan datar
yang memberikan struktur partisi non-hierarkis dari kumpulan data. Untuk kontras
dengan teknik pengelompokan datar ini, kami membahas dalam bab ini teknik
pengelompokan lain yang banyak digunakan: Yaitu, pengelompokan hierarkis.
Pengelompokan hierarkis terdiri dari membangun pohon penggabungan
biner, mulai dari elemen data yang disimpan di daun (ditafsirkan sebagai set
singleton) dan dilanjutkan dengan menggabungkan dua per dua sub-set "terdekat"
(disimpan di node) sampai kita mencapai akar pohon yang berisi semua elemen X.
Kami menunjukkan dengan Δ (Xi, Xj) jarak antara dua sub-set X, yang disebut
jarak hubungan. Teknik ini juga disebut pengelompokan hierarkis aglomeratif
karena kita mulai dari daun yang menyimpan singleton (xi’s) dan menggabungkan
himpunan bagian berulang sampai kita mencapai akar.
Perhatikan bahwa gambar visual pengelompokan hierarkis, dendrogram,
menyampaikan informasi yang kaya untuk evaluasi kualitatif dan kuantitatif dari berbagai
teknik pengelompokan hierarkis yang akan kami sajikan di bawah ini. Untuk kontras
dengan pengelompokan hierarkis aglomeratif, kami juga memiliki pengelompokan
hierarkis yang memecah belah yang dimulai dari akar yang berisi semua data-set X, dan
membagi simpul akar ini menjadi dua simpul anak yang masing-masing berisi X1 dan
X2 (sehingga X = X1 ∪ X2 dan X1 ∩ X2 = ∅), dan seterusnya secara rekursif sampai
kami mencapai daun yang menyimpan dalam singleton elemen data. Sisanya, kami
berkonsentrasi pada pengelompokan hierarkis aglomeratif yang sebagian besar digunakan
dalam aplikasi.

Gambar 2. Contoh dendrogram untuk kumpulan data mobil: Elemen data disimpan di
daun pohon gabungan biner.
DAFTAR PUSTAKA

F. Nur, Analisis Kinerja Metode Dbscan (Density-Based Spatial Clustering of


Applications with Noise) dan K-Means dalam Sistem Pendukung Keputusan.
repositori.usu.ac.id, 2017.

Gaonkar, M. N. & Sawant, K., 2013. AutoEPsDBSCAN. DBSCAN with Eps Automatic
for Large, pp. 2:2319-2526.

Manalu, D. , Rahmawati, R. , Widiharih, T., Pengelompokan Titik Gema di Pulau


Sulawesi Menggunakan Algoritma ST-DBSCAN (Spatio Temporal-Density
Based Spatial Clustering Application with Noise). Jurnal Gaussian, Volume 10,
Nomor 4, Tahun 2021, Halaman 554 – 561. 2021

Patel, A.A. (2019). Hands-On Unsupervised Learning Using Python: How to Build
Applied Machine Learning Solutions from Unlabeled Data. O'Reilly Media:
USA.

Nielsen, F. (2016). Introduction to HPC with MPI for Data Science. Springer: Jerman.

Primartha, R. (2018) Belajar Machine learning Teori dan Praktik. Bandung: Informatika
Bandung.

Sihombing, E. G. (2017) ‘Klasifikasi Data Mining Pada Rumah Tangga Menurut Provinsi
Dan Status Kepemilikan Rumah Kontrak / Sewa Menggunakan K-Means
Clustering Method’, CESS (Journal of Computer Engineering System and
Science), 2(2), pp. 74–82.

Anda mungkin juga menyukai