Anda di halaman 1dari 32

LAPORAN AKHIR PRAKTIKUM

ANALISIS DATA GEOFISIKA TG2207

MODUL KE – 7
ESTIMASI DATA GEOFISIKA MENGGUNAKAN MACHINE
LEARNING

Oleh:
Rahmat Reska Ramadhani 119120100

Asisten :
Lestari Sukma Apriliana 12117009
Mustika 12117025
Santo Tri Prabowo 12117041
Agastya Pramadya 12117094
Michael Febrian Mardongan 12117128
Didian Noveni Waruwu 12117131
Muhammad Ichsan 12117143
Fira Pratiwi Darsono 12117151

PROGRAM STUDI TEKNIK GEOFISIKA


JURUSAN TEKNOLOGI PRODUKSI DAN INDUSTRI
INSTITUT TEKNOLOGI SUMATERA
2021
I. TUJUAN

Tujuan dari praktikum Analisis Data Geofisika modul 7 mengenai “Estimasi Data
Geofisika menggunakan Machine Learning” sebagai berikut :

1. Memahami konsep Machine Learning pada bidang geofisika.


2. Menyajikan data geofisika agar dapat diolah menggunakan Machine
Learning.
3. Memahami cara kerja regresi data geofisika menggunakan Machine
Learning.
4. Menghasilkan suatu prediksi / estimasi data geofisika menggunakan
Machine Learning.
II. TEORI DASAR

a. Machine Learning

Machine Learning merupakan cabang ilmu komputer dengan fokus pada


pengembangan sebuah sistem yang mampu belajar sendiri tanpa harus berukang
kali di program oleh manusia. Sebelum menghasilkan sebuah hasil data dari
perilaku objek, machine learning membutuhkan data awal sebagai bahan yang akan
dipelajari. Peran data awal sangat penting sebagai tahap awal pada machine
learning untuk menghasilkan sebuah output. Hal ini sebagai latihan atau uji coba
awal dari machine learning. Setelah melewati uji coba awal, machine learning dapat
menyelesaikan masalah tanpa diprogram secara eksplisit. (Rezkia, 2020)

Terdapat 3 buah Teknik belajar yang dimiliki machine learning yaitu :

1. Supervised Learning
Teknik supervised learning merupakan teknik yang bisa diterapkan pada
pembelajaran mesin yang bisa menerima informasi yang sudah ada pada
data dengan memberikan label tertentu.
2. Unsupervised Learning
Teknik unsupervised learning merupakan teknik yang bisa diterapkan pada
machine learning yang digunakan pada data yang tidak memiliki informasi
yang bisa diterapkan secara langsung. (Julio, 2020)
3. Reinforcement Learning
Reinforcement learning berasal dari teori belajar hewan. Pembelajaran ini
tidak memerlukan pengetahuan sebelumnya, dapat secara mandiri
mendapatkan kebijakan opsional dengan pengetahuan yang diperoleh
melalui coba-coba dan terus berinteraksi dengan lingkungan yang dinamis
(Qiang & Zhongli, 2011). Masalah reinforcement learningdiselesaikan
dengan mempelajari pengalaman baru melalui trial-and-error. Algoritma
reinforcement learning terkait dengan algoritma pemrograman dinamis
yang sering digunakan untuk menyelesaikan masalah optimisasi (Mitchell,
1997)
Cara kerja machine learning berbeda-beda sesuai dengan teknik atau metode yang
digunakan. Namun pada dasarnya prinsip cara kerjanya masih seperti mesin pada
biasanya yaitu meliputi pengumpulan data, eksplorasi data, pemilihan model atau
teknik, memberikan pelatihan terhadap model yang dipilih dan mengevaluasi hasil
dari machine learning. (Julio, 2020)

Peran machine learning banyak membantu manusia dalam berbagai bidang. Bahkan
saat ini penerapan machine learning dapat dengan mudah ditemukan dalam
kehidupa sehari-hari. Pada bidang geofisika teknologi machine learning digunakan
dalam berbagai contoh kegiatan antara lain digunakan untuk mengintegrasikan dan
menginterpretasikan data-data berbentuk angka untuk diakukan pengolahan agar
mendapatkan hasil dalam bentuk gambar 2D atau 3D, interpretasi geofisika yang
konsisten terhadap data-data operasional dan property formasi, yang kemudian
diikuti dengan aplikasi data analytics untuk kegiatan-kegiatan operasional seperti
kegiatan pemboran, komplesi, serta akuisisi data yang lebih efektif dan efisien.
Selain itu, metode berbasis data juga diimplementasikan dalam evaluasi formasi
untuk kebutuhan rekontruksi database, noise filtering, dan pendeteksian anomali.
(Jobe, T & Khalif, 2018)

b. Regresi data pada machine Learning

Dalam analisis regresi linear diasumsikan berlakunya bentuk hubungan linear


dalam parameter. Modul regresi linear yang paling sederhana adalah regresi linear
dengan satu variabel bebas (independent variable). Jika hanya digunakan satu
variabel independen dalam model, maka teknik ini disebut sebagai regresi linear
sederhana, sedangkan jika yang digunakan adalah beberapa variabel independen,
teknik ini disebut regresi linear ganda. Pada praktikum ini model regresi yang
digunakan ada 5 yaitu

1. Linier Regression
2. Random forest Regressor
3. Xgboost.XGB Regressor
4. lgb.LGBM Regressor
5. Gradient Boosting Regressor (Montgomery, 1992).
c. Well Logging

Well Logging merupakan parameter-parameter fisika, dalam lubang bor, yang


bervariasi terhadap kedalaman sumur. Hasil analisis data log sumur dapat
digunakan untuk mengetahui karakteristik reservoar (segi porositas, saturasi air,
dan permeabiltas) yang digunakan antara lain untuk menentukan arah eksplorasi
dan produksi selanjutnya. Menurut Ellis dan Singer, (2008) well logging juga
diartikan sebagai perekaman karakteristik dari suatu formasi batuan yang diperoleh
melalui pengukuran pada sumur bor. Secara umum tujuan logging adalah mencari
kandungan migas yang bisa diproduksikan secara ekonomis dalam batuan. Untuk
geologist data logging berfungsi untuk mengetahui jenis litologi dan komposisi
batuan, kemiringan lapisan, fractures, kedalaman top formasi, kandungan
hidrokarbon, interpretasi lingkungan pengendapan. Dalam proses geofisika
terdapat beberapa jenis log yang digunakan yaitu antara lain :

1. Log Gamma ray


2. Log Densitas
3. Log Neutron
4. Log Sonic
5. Dst

(Novrianti, 2016)

d. Yj johnson

Transformasi Yeo-Johnson juga dinamai menurut nama penulisnya., tidak


seperti transformasi Box-Cox, ini tidak memerlukan nilai untuk setiap variabel
input yang benar-benar positif. Ini mendukung nilai nol dan nilai negatif. Ini
berarti kami dapat menerapkannya ke kumpulan data kami tanpa
menskalakannya terlebih dahulu. Kita bisa menerapkan transformasi dengan
mendefinisikan objek PowerTransform dan menyetel argumen "metode" ke
"yeo-johnson" (default).

Algoritme pembelajaran mesin seperti Regresi Linier dan Gaussian Naive


Bayes mengasumsikan variabel numerik memiliki distribusi probabilitas
Gaussian. Data Anda mungkin tidak memiliki distribusi Gaussian dan
sebaliknya mungkin memiliki distribusi seperti Gaussian (mis. Hampir
Gaussian tetapi dengan pencilan atau kemiringan) atau distribusi yang sama
sekali berbeda. Dengan demikian, Anda mungkin dapat mencapai performa
yang lebih baik pada berbagai algoritme pembelajaran mesin dengan
mengubah variabel input dan / atau output agar memiliki distribusi Gaussian
atau lebih-Gaussian. Transformasi daya seperti transformasi Box-Cox dan
transformasi Yeo-Johnson menyediakan cara otomatis untuk melakukan
transformasi ini pada data Anda dan disediakan di pustaka pembelajaran mesin
scikit-learn Python. (Brownlee, 2020)
III. LANGKAH PENGERJAAN

A. Langkah-langkah
1. Bukalah google colab pada pc/komputer anda.
2. Pilih menu new notbook untuk memulai pekerjaan baru pada colab.
3. Terdapat 8 tahap dalam menyelesaikan script
4. Tahap pertama
• setelah membuat new notbook maka lakukan import libraries
dengan menuliskan import numpy as np dan numpy matloplip as
plt. Untuk penggunaan as artinya yaitu untuk menggantikan
pemanggilan numpy dengan prefix np untuk proses berikutnya.
• Tambahkan libary baru dengan cara menulis perintah pip install
(nama_package), kemudian import library yang sudah diinstall.
5. Tahap kedua
• Memuat dan menampilkan kumpulan data sumur (load and
display the well log dataset) yang nantinya akan digunakan
untuk menampilkan :
✓ Informasi deskripsi statistic dari data sumur 1 dan data
sumur 2
✓ Plot dari data log sumur 1 dan sumur 2
✓ Menampilkan jumlah data yang tidak memiliki nilai
✓ Mengganti data yang tidak memiliki nilai dengan NaN
serta menampilkan kembali jumlah data yang memiliki
nilai
✓ Analisis deskripsi pada masing-masing sumur,
6. Tahap ketiga
• Proses persiapan data (data preparation) berdasarkan nilai
minimum dan maksimum dari tiap data sumur dengan
melakukan limitasi pada batas bawah dan atas untuk
mendapatkan data yang telah difilter yang akan di proses pada
tahap berikutnya.
7. Tahap keempat
• Proses analisis data eksplorasi (exploratory data analysis) yang
dilihat dari proses berikut :
✓ Hasil crossplot, histogram, dan korelasi antara 2 data
sumur
✓ Hasil heatmap dari data rasio
8. Tahap kelima
• Proses normalisasi dilakukan agar rentang nilai pada tiap data
log konstan. Adapun metode yang digunakan yaitu yeo-
jonhson.
• Kemudian dilakukan kembali untuk mendapatkan crossplot
antar dua atribut dan histogram pada masing-masing data log
sebagai perbandingan antara data sebelum dan sesudah
normalisasi.
9. Tahap keenam
• Proses menghapus pencilan (removing outliers) ,Pada tahap ini
data yang semula memiliki beberapa pencilan dapat dihapus
sehingga memberikan dampak terhadap trend data log. Hal
tersebut dapat dibuktikan dari perbandingan crossplot antar dua
atribut dan histogram pada masing-masing data log antara data
sebelum dan sesudah removing outliers. Terdapat 5 metode
removing outliers yang digunakan yaitu:
✓ Standard Deviation Method
✓ Isolation Forest
✓ Minimum Covariance Determinant
✓ Local Outlier Factor
✓ One-class SVM
• Dari proses diatas kita akan memilih salah satu metode yang
terbaik dari ke-5 metode yang digunakan.
10. Tahap ketujuh
• Proses memprediksi percobaan pertama ( Prediction first attempt
) yang dilakukan dengan pembuatan model regresi. Model
regresi yang kita gunakan pada praktikum kali ini adalah :
✓ Linear Regression
✓ Random forest Regressor
✓ Xgboost.XGB Regressor
✓ lgb.LGBM Regressor
✓ Gradient Boosting Regressor
11. Tahap kedelapan
Proses prediksi akhir ( Final prediction), Tahap ini dilakukan setelah
model telah dibangun dengan memasukan nilai X_test dan y_test
berdasarkan atribut pada data test yaitu sumur 15_9-F-11B. Hasil
prediksi ditampilkan dalam bentuk grafik dan disimpan dengan format
nama file 15_9-F-11B_Predicted_DT.csv.
12. Setelah tahap proses pembuatan script selesai maka RUN script tersebut
untuk melihat output yang dihasilkan dari data sumur 1 dan 2.
13. Screnshoot hasil output dan masukkan kedalam laporan yang nantinya
akan dianalisis.
14. Selesai
B. Diagram Alir

START

Buka Googgle Open notbook


colab

New notbook

Import library

Load and display the well log datasets

Output deskriptif statistic


dan plot data

Proses persiapan data ( data preparation)

Proses analisis data eksplorasi (Exsploratory data analysis)

Proses Normalisasi

Removing Outliers menggunakan 5 metode

Output berupa crossplot,


histogram, dan korelasi
antara 2 data sumur

next
next

Proses prediction first attempt dengan 5 model regresi liniers

Output True and


predict well

Proses final prediction

Output berupa grafik


dengan nama file 15_9-F-
11B_Predicted_DT.csv.

Sceenshoot output yang dihasilkan

Input hasil output pada laporan

Analisis output yang dihasilkan

END
IV. HASIL DAN PEMBAHASAN

a. Hasil

1. Import Libraries

2. Load and Display the well log datasets

a. Sebelum penghapusan data

Well 1
Well 2

b. Sesudah penghapusan data

Well 1

Well 2
c. Train data Well

d. Test data Well


e. Jumlah data yang tidak memiliki nilai (-999.0000)

f. Data yang sudah diberi nilai


3. Data preparation

Limitasi batas atas dan bawah

a. Sebelum

b. Sesudah
4. Exploratory data Analysis

Hasil Crossplot, Histpgram, dan Korelasi


Hasil Heatmap data rasio

5. Normalisasi

Hasil crossplot antara 2 atribut


Hasil data log sebelum normalisasi

Hasil data log sesudah normalisasi


Hasil crossplot, Histogram, dan Korelasi pada uji normalisasi

6. Removing Outliers

Hasil sebelum dan sesudah removing outliers


Hasil data dengan metode min.covariance dan one-class SVM
Hasil crossplot, histogram, dan korelasi

7. Prediction First Attempt

Hasil data model regresi

a. Model Linier Regression

b. Model Rnadom Forest Regressor


c. Model xgboost.XGB Regressor

d. Model lgb.LGB Regressor

e. Model Gradient Boosting Regressor

Hasil data log DT well 1


8. Final Prediction

Hasil test data well normalisasi

Hasil prediksi DT well


Hasil data test data sumur 15_9-F-11B

Hasil prediksi grafik dari data sumur 15_9-F-11B


b. Pembahasan

Pada praktikum Analisis Data Geofisika modul 7 mengenai “Estimasi data


Geofisika Mneggunakan Machine Learning”, dimana kita akan memprediksi hasil
dari plot data sumur, pada kali ini kita menggunakan 2 buah data sumur , yakni data
sumur F-11A dan data sumur F-11B.

Pada percobaan pertama yaitu pada saat menampilkan informasi data


statistik dari data sumur pada well 1 dan well 2 sebelum dan sesudah di removing
outliers atau penghapusan data. Pada data well 1 dan 2 terdapat hubungan nilai
antara indicator dan parameternya, dimana indicator yang diketahui pada well 1 dan
well 2 adalah count, mean, std, min, 25%, 50%, 75%, dan nilai max dan
parameternya antara lain (DEPTH, ABDCQF01, ABDCQF02,
ABDCQF03,ABDCQF04, BS, CALI, DRHO, DT, DTS, GR, HPHI, PEF,
RACEHM, RACELM, RD, RHOB, RM, ROP, RPCEHM, RPCELM, dan RT).
Pada saat sebelum dilakukan penghapusan data, nilai-nilai yang diketahui pada
data well 1dan well 2 bernilai kecil dan nilai indicator count memiliki nilai yang
berbeda, sedangkan pada pada saat setelah dilakukan penghapusan data nilai-nilai
pada well 1dan well 2 bernilai lebih besar dan pada indicator nilai count memiliki
nilai yang sama pada setiap parameter yang diketahui, yaitu bernilai 11084.000000
pada data well 1 dan 14931.000000 pada data well 2, hal ini terjadi karena pada saat
proses penghapusan data, data-data yang tidak sesuai atau yang kurang konstan
dengan data lain akan dihapuskan sehingga akan berpengaruh pada hasil akhirnya.

Pada hasil trend data dan test data pada well 1 menampilkan hasil data well
log pada parameter NPHI, RHOB, GR, RT, PEF, CALI, dan DT sedangkan pada
data well 2 menampilkan nilai parameter yang sama kecuali nilai DT. Pada
praktikum kali ini data well log digunakan untuk pengukuran parameter fisika
dalam sumur bor terhadap kedalamannya. Hasil dari analisis well log digunakan
untuk mengetahui karakteristik reservoir (segi porositas, saturasi air, dan
permeabilitas). Dari hasil yang diketahui dapat dilihat well log pada setiap
parameter semiliki nilai yang bervariasi dimana data well log pada data sumur 2
memiliki kedalam yang lebih besar dari data sumur 1.
Pada tahap persiapan data (Data preparation) akan dilakukan proses limitasi
batas atas dan batas bawah, dimana terdapat 7 parameter yang diketahui yaitu
DEPTH, NPHI, RHOB, GR, RT, PEF,CALI. Jumlah data yang dihasilkan pada
proses ini adalah 15169 baris x 7 kolom .

Pada percobaan mengenai Explorasi data analisis dalam memunculkan


crossplot, histogram dan korelasi antara 2 data yang berbeda, untuk mengetahui
ekplorasi data analisis nya digunakan fungsi library seaborn yang memiliki fungsi
untuk melihat korelasi antar atribut data pada masing masing log. Pada percobaan
tersebut di dapatkan gambar yang masih kurang jelas pada histogram dan crossplot
nya , hal ini terjadi karena data-data tersebut belum terdistribusi normal.

Pada korelasi heatmap menampipkan nilai jilai korelasi dari berbagai


parameter yang diketahui, dimana jika nilainya medekati maka korelasinya
dikatakan buruk, dan jika nilainya mendekati 1 dan -1 maka nilai korelasinya
semakin baik. Dapat dilihat pada gambar yang dihasilkan nilai korelasi terbaik
adalah NPHI dengan log DT yang memiliki nilai korelasi 0.96, sedangkan korelasi
terburuk dapat dilihat pada CALL dengan log GR dimana nilai korelasinya adalah
-0.09.

Pada langkah selanjutnya adalah proses normalisasi yang berguna untuk


menghilangkan outlier pada data agar mendapatkan nilai yang lebih bagus, setalah
dilakukan normalisasi dilakukan tahap tahap prediction yag mana featurenya adalah
log NPHI, log density, log Rhob, log Gamma ray, Log PEF', log CALI, target
adalah DT. Terdapat hyperparameter yang sebagai tahapan dalam
membangunregresinya dengan menggunakan parameter yang tebaik yaitu dengan
menggunakan metode Gradient boosting regressor. Model terbaik yang dihasilkan
model yang memiliki nilai eror yang terkecil dan fit dengan data kalkulasinya.

Tahap selanjutnya adalah proses regresi yang digunakan untuk mengetahui


nilai R-squared dan nilai error (RMSE) pada setiap model regresi, dimana model
regresi yang digunakan pada percobaan kali antara lain model Linier Regression,
Random forest Regressor, Xgboost XGB Regressor, lgb.LGBM Regressor dan
Gradient boosting Regressor. Setelah dilakukan percobaan regresi didapatkan hasil
pada metode Linier Regression nilai R-squared dan RMSE nya adalah 0.9412 dan
0.2423, pada model Random forest Regressor nilai R-squared dan RMSE nya
adalah 0.9789 dan 0.1450, pada model Xgboost XGB Regressor nilai nilai R-
squared dan RMSE nya adalah 0.9534 dan 0.2157, pada model lgb.LGBM
Regressor nilai R-squared dan RMSE nya adalah 0.9694 dan 0.1748, dan pada
model yang terakhir yaitu model Gradient boosting Regressor nilai squared dan
RMSE nya adalah 0.9525 dan 0.2178. Dari kelima model regresi yang digunakan,
model Random Forest Regressor merupakan model yang memiliki nilai RMSE
terkecil yaitu bernilai 0.1450. Hal ini dapat diartikan bahwa model ini menjadi
model yang paling akurat disbanding metode yang lainnya.

Pada tahap terakhir yaitu tahap prediksi akhir , dimana pada tahap ini akan
menampilkan well log pada data log DT dan well log pada data 15/9-F-118. Yang
nantinya disimpan dengan format nama file 15_9-F-11B_Predicted_DT.csv.
V. KESIMPULAN

Setelah melakukan praktikum mengenai Estimasi data Geofisika menggunakan


Machine Learning dapat kita simpulkan bahwa :

1. Nilai yang telah melalui tahap removing outliers dan normalisasi akan
menghasilkan nilai yang lebih bagus dari sebelumnya.
2. Dari kelima model regresi yang digunakan, model Random Forest
Regressor merupakan model yang memiliki nilai RMSE terkecil yaitu
bernilai 0.1450
3. Semakin kecil nilai RMSE maka data yang dihasilkan semakin akurat.
4. Pada model ini konsep machine learning dapat diterapkan dengan membagi
data menjadi data trend dan data test
5. Nilai R-squared berbanding terbalik dengan nilai RMSE-nya, semakin
tinggi nilai R-squared maka semakin rendah nilai RMSE nya.
DAFTAR PUSTAKA

Brownlee, J. (2020, Mei). How to Use Power Transforms for Machine Learning.
Retrieved fromhttps://machinelearningmastery.com/author/jasonb/:
https://machinelearningmastery.com/power-transforms-with-scikit-learn/
Jobe, T, & Khalif, M. (2018). Geological feature prediction using image-based
machine learning. Society of Petrophysicists and Well-Log Analysts.
Julio, A. (2020, Agustus 19). Apa itu machine learning? beserta pengertian dan
cara kerjanya. Retrieved from Apa itu machine learning? beserta pengertian
dan cara kerjanya: https://www.dicoding.com/blog/machine-learning-
adalah/
Mitchell, M. T. (1997). Machine Learning. In McGraw Hill Series in Computer
Science.
Montgomery, D. (1992). Introduction to Linier Regression Analysis. (Willey, Ed.)
Novrianti. (2016). Teknik Pemboran Minyak dan Gas. Journal of Earth Energy
Engineering.
Qiang, W., & Zhongli, Z. (2011). Reinforcement learning model, algoritms and its
application. International Conference on Mechatronic Science, Electric
Enginering and Computer (MEC), 1143-1146.
Rezkia, S. M. (2020, September). Apa itu Machine Learning. Retrieved from
Belajar data science di rumah: https://www.dqlab.id/pahami-machine-
learning-untuk-hadapi-industri-data-sebenarnya
LAMPIRAN

Link Colaboration

https://colab.research.google.com/drive/1iAp601ia-NWBa0Hdifvt9-
wH0GIZeHwi?usp=sharing

Awal

Pertengahan
Akhir

Anda mungkin juga menyukai