Anda di halaman 1dari 20

LAPORAN SEMENTARA

ANALISIS DATA GEOFISIKA TG2207

MODUL KE – 7
ESTIMASI DATA GEOFISIKA DENGAN MACHINE LEARNING

Oleh:
Johannnes Kevin Simanjuntak 119120045

Asisten :
Lestari Sukma Apriliana 12117009
Mustika 12117025
Santo Tri Prabowo 12117041
Agastya Pramadya 12117094
Michael Febrian Mardongan 12117128
Didian Noveni Waruwu 12117131
Muhammad Ichsan 12117143
Fira Pratiwi Darsono 12117151

PROGRAM STUDI TEKNIK GEOFISIKA


JURUSAN TEKNOLOGI PRODUKSI DAN INDUSTRI
INSTITUT TEKNOLOGI SUMATERA
2021
ANALISIS
Machine learning adalah salah satu cabang dari disiplin ilmu kecerdasan
buatan (artificial intellegence) yang membahas mengenai pembangunan sistem
yang berdasarkan pada data. kali ini kita akan membahas hasil analisis machine
learning pada data metodel logging.

Berikut merupakan hasil analisis dari kedua data log:


Adapun yang dianalisis secara deskriptif dari kedua data log adalah count,
mean, standard deviasi, nilai minimum, dan nilai maksimum.

Adapun hasil plotting data log adalah sebagai berikut:


Adapun x merupakan nilai log, sedangkan y adalah data kedalamannya. Kita
menggunakan limit di data log 1 sebesar 300, sedangkan pada data log 2 sebesar
200. Kolom log merupakan kolom yang menampilkan kurva log dan
kedalamannya. Umumnya terdapat 3 kolom kurva (track) dengan kedalaman
terletak antara kolom 1 dan kolom 2. Satu kolom bisa memuat lebih dari 1 kurva dn
pada bagian atas kolom terdapat nama log. Pada data 1 log yang diggunakan adalah
NPHI(porositas), RHOB(densitas), GR(gamma ray), RT(resistivitas),
PEF(photoelectric), CALI, dan DT.

Berikut adalah data-data yang hilang, atau tidak terbaca


Lalu, data-data yang hilang di atas kita hapus sehingga data log menjadi
lebih baik dan rapi.
Setelah itu, data yang sudah baik tadi dianalisis kembali secara deskripsi
sehingga menghasilkan analisis deskriptif sebagai berikut.
Berikut adalah data-data yang telah diurutkan dan telah dirapikan dalam
bentuk matriks.

Lalu, dari analisis data di atas, kita ubah nama data log 1 menjadi data
training data log 2 menjadi data prediksi. Data training digunakan nantinya untuk
melatih algoritma untuk mencari solusi model yang cocok. Sedangkan data prediksi
digunakan nantinya untuk mengetes dan mengetahui performa model yang
didapatkan pada tahapan prediksi.
Berikut adalah hasil dari histogram dan korelasi dari data-data tersebut.

Histogram merupakan tampilan bentuk grafis untuk menunjukkan distribusi


data secara visual atau seberapa sering suatu nilai yang berbeda itu terjadi dalam
suatu kumpulan data. Dari hasil di atas distribusi datanya masih sangat berantakan
dan belum terdistribusi secara baik. Begitupun juga dengan korelasinya yang belum
menunjukkan hubungan antara kedua data dengan baik. Masih ada data yang
menunjukkan outliers.
Di atas merupakan hasil korelasi data. Korelasi berarti hubungan statistik
antara dua nilai. Koefisien korelasi adalah angka yang dapat dihitung dari seluruh
pasangan data. angka ini selalu berada dalam rentang +1 dan -1, yang merupakan
indikator seberapa erat hubungan di antara kedua data tersebut. Tanda positif (+)
pada korelasi menunjukkan nilai data yang bergerak bersamaan. Sedangkan tanda
negative (-) pada korelasi menunjukkan nilai data yang bergerak secara berlawanan.
Jika koefisien korelasi bernilai menuju +1 ataupun -1 berarti data tersebut memiliki
hubungan yang baik, namun jika menuju 0 maka hamper tidak berhubungan atau
tidak sama sekali.

Agar data yang didapatkan semakin baik, maka dilakukan nomalisasi.


Normalisasi menggunakan metode yeu-johnson. Adapun hasil normalisasi adalah
sebagai berikut.
Berikut hasil plotting data setelah di normalisasi.

Dapat dilihat bahwa distribusi data histogramnya sudah menunjukkan


distribusi yang signifikan. Begitupun dengan crooslation datanya yang sudah
hampir terbentuk walaupun masih ada plot yang menunjukkan titik-titik menjauhi
wilayah garis residual persentage. Dan juga masih ada outliers pada plotting data
tersebut.

Lalu kita hapus outliers pada data-data tersebut, sehingga di dapat hasil
sebagai berikut.
Dapat dilihat bahwasanya setelah dilakukan penghapusan outliers, jumlah
outlier pada setiap metode semakin berkurang. Penyajian data disajikan dalam
bentuk boxplot. Diagram boxplot menunjukkan letak kuartil 0 (minimum/batas
bawah), kuartil 1, kuartil 2 (median), kuartil 3, kuartil 4 (maksimum/batas atas),
pada data, serta adanya outliers pada data. Berikut hasil penyajiannya.

Dari penyajiannya ini, dapat dilihat bahwa metode one-class SVM dan
metode standart deviation filter memiliki outliers yang paling sedikit, namun one-
class SVM jauh memiliki hasil yang lebih halus lagi. Berikut merupakan hasil
plotting setelah outlier dihapus.
Dari hasil plotting di atas, didapat bahwa hasil data jauh lebih baik dari
sebelumnya dan juga tidak ada lagi outliers pada plotting data. Lalu kita regresi
datanya untuk mendapatkan nilai RMSE. Di sini kita menggunakan Gradien
Boosting Regressor. Gradient Boosting adalah algoritma machine learning yang
menggunkan ensamble dari decision tree untuk memprediksi suatu nilai. Berikut
hasil RMSE dai data tersebut.

Model terbaik atau model optimum diperoleh jika kesalahan tersebut


minimum. Agar model terbaik yang diperoleh berasosiasi dengan kesalahan
minimum untuk semua data maka dalam menentukan atau mencari model (solusi)
perhitungan kesalahan tersebut harus melibatkan semua data. Lalu tampilkan data
dalam sebuah grafik, antara nilai sebenarnya data DT dari well 1 dengan prediksi
data pada well 1, sehingga di dapat seperti berikut.
Di atas merupakan plotting untuk well 2. Lalu kita tampilkan data yang telah
di normalisasi. Lalu kita plot kembali sehingga di dapat hasil seperti di bawah.
LINK:

https://colab.research.google.com/drive/16-nl9RSx7mkz-
lfx21Wpk3LHgV8dNGyh?usp=sharing
LAMPIRAN

Anda mungkin juga menyukai