Anda di halaman 1dari 18

FAKULTAS TEKNIK MESIN DAN DIRGANTARA

INSTITUT TEKNOLOGI BANDUNG


2023

AE2204 SEMESTER 4 2022-2023


TUGAS BESAR SAINS DATA DAN STATISTIKA
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]
[1]13621051

[2]13621053

[3]13621062

sempurna, nilai -1 menunjukkan hubungan linier


1. Teknik Pembagian Data Train-Test negatif sempurna, dan nilai 0 menunjukkan tidak
adanya hubungan linier antara kedua variabel.
Proses pengolahan data memerlukan machine Skala dari nilai koefisien korelasi sebagai berikut.
learning yang mungkin bisa memprediksi data
yang belum pernah diolah oleh algoritma. Oleh Nilai dari Pearson Correlation Coefficient dapat
karena itu, perlu adanya teknik untuk melatih dicari melalui rumus ini:
algoritma. Salah satunya adalah teknik pembagian
data Train-Test. Metode ini membagi data supaya Σ�𝑋𝑋1 − 𝜇𝜇𝑥𝑥1 ��𝑋𝑋2 − 𝜇𝜇𝑥𝑥2 �
mempercepat analisis, modelling, dan prediksi 𝑟𝑟 = (1)
2 2
data tersebut. �Σ�𝑋𝑋1 − 𝜇𝜇𝑥𝑥1 � Σ�𝑋𝑋2 − 𝜇𝜇𝑥𝑥2 �

Train-test split adalah teknik untuk mengevaluasi


performa alrgoritma machine learning. Data Dengan nilai 𝑋𝑋1 dan 𝑋𝑋2 adalah dataset dari variabel
tersebut dibagi menjadi dua subdata. Data pertama yang ingin dicari, dengan komponen 𝜇𝜇 adalah rata-
digunakan untuk fit pada model dan regresi yang rata dari data tersebut. Nilai dari Pearson
diperlukan. Data ini disebut training dataset. Data correlation coefficient dapat didekati dengan tabel
kedua digunakan untuk menginput hasil element empiris berikut:
dari data tersebut, lalu membandingkan apakah
hasil dari training dataset akurat pada nilai di data
ini. Sehingga, data ini lebih dikenal sebagai test
dataset. Perlu diperhatikan bahwa data ini hanya
berlaku apabila jumlah datanya cukup banyak.

Untuk tugas ini, semua problem menggunakan


teknik pembagian data train-test.
Tabel 2.1 Kualitas Empiris Koefisien Korelasi
2. Dasar Teori
2.1. Pearson Correlation Coefficient (r) 2.2. Pembentukan Model
2.2.1. Model Regresi Linear
Pearson Correlation Coefficient dapat digunakan
untuk mencari hubungan antar variabel. Ia Model regresi linear adalah suatu metode
merupakan suatu ukuran statistik yang digunakan pemodelan untuk mendapatkan hubungan antara
untuk mengukur kekuatan dan arah hubungan variabel dependen, Y dengan variabel
linier antara dua variabel kontinu. Koefisien independen-nya, X, dengan pada suatu pemodelan
korelasi Pearson berkisar antara -1 hingga 1, di regresi linear dapat memiliki satu atau lebih
mana nilai 1 menunjukkan hubungan linier positif

1
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

variabel independen. Persamaan untuk


𝑛𝑛
memodelkan suatu regresi linear, yaitu:
𝑅𝑅𝑅𝑅𝑅𝑅�𝛽𝛽̂ � = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2 (7)
𝑌𝑌𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 𝑋𝑋𝑖𝑖1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖2+ … + 𝑖𝑖=1
𝑛𝑛
𝛽𝛽𝑝𝑝 𝑋𝑋𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖 , 𝑖𝑖 = 1, … , 𝑛𝑛 (2) 2
= ��𝑦𝑦𝑖𝑖 − 𝛽𝛽0 − 𝛽𝛽1 𝑥𝑥𝑖𝑖1 − ⋯ − 𝛽𝛽𝑝𝑝 𝑥𝑥𝑖𝑖𝑖𝑖 �
Persamaan di atas dapat disederhanakan menjadi, 𝑖𝑖=1

𝑌𝑌𝑖𝑖 = 𝛽𝛽0 + ∑𝑘𝑘𝑖𝑖=1 𝛽𝛽𝑘𝑘 𝑓𝑓𝑘𝑘 �𝑋𝑋𝑖𝑖1 , 𝑋𝑋𝑖𝑖2 , … , 𝑋𝑋𝑖𝑖𝑖𝑖 � + Dengan y_i adalah nilai fungsi ke-i yang akan
𝜀𝜀𝑖𝑖 , 𝑖𝑖 = 1, … , 𝑛𝑛 (3) diprediksi, dan β adalah prediksi dari koefisien-
koefisiennya yang membentuk prediksi untuk y_i.
Dengan catatan, 𝛽𝛽0 adalah bias atau intercept, 𝛽𝛽𝑖𝑖 Persamaan ini dapat diubah menjadi bentuk
adalah koefisien yang merepresentasikan matriks sebagai berikut:
kemiringan atau slope dari fungsi 𝑓𝑓, 𝑋𝑋𝑖𝑖𝑖𝑖 adalah
𝑅𝑅𝑅𝑅𝑅𝑅�𝜷𝜷 � �𝑇𝑇 �𝒚𝒚 − 𝑭𝑭𝜷𝜷
� � = �𝒚𝒚 − 𝑭𝑭𝜷𝜷 �� (8)
variabel independen pada pengamatan ke-i serta
prediktor ke-j (j = 1, 2, …, p), 𝜀𝜀 adalah besar
random error, dan apabila suatu dataset hanya Sehingga, nilai minimum dapat dicari dengan
memiliki variabel independen, maka p = 1. Proses mengubah ulang persamaan (8) menjadi berikut:
persamaan ini dapat diubah menjadi komponen
vektor dengan 𝜷𝜷 = {𝛽𝛽0 , 𝛽𝛽1 , 𝛽𝛽2 , … , 𝛽𝛽𝑝𝑝 } dan matriks � = �𝑭𝑭𝑻𝑻 𝑭𝑭�−1 𝑭𝑭𝑻𝑻 𝒚𝒚
𝜷𝜷 (9)
𝑿𝑿. Sehingga, data ini dapat diubah menjadi:
Setelah kita tahu bahwa dari rumus variansi kita
𝑝𝑝 dapat menggunakan nilai RSS sebagai berikut:
𝒀𝒀 = 𝛽𝛽0 + � βp 𝑿𝑿𝑝𝑝 + 𝜀𝜀 (4)
𝑖𝑖=1 𝑅𝑅𝑆𝑆𝑆𝑆�𝛽𝛽̂ �
𝜎𝜎� 2 = (10)
𝑛𝑛𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 − 𝑛𝑛𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣
Dengan:
Dengan 𝑛𝑛𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 sebagai jumlah baris dan
𝑭𝑭 = (𝟏𝟏, 𝑿𝑿) (5) 𝑛𝑛𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 sebagai jumlah variabel. Maka dari itu,
Sehingga kita dapat membuat perkalian matriks
𝑉𝑉𝑉𝑉𝑉𝑉�𝛽𝛽̂ � = (𝑭𝑭𝑇𝑇 𝑭𝑭)−1 𝜎𝜎� 2 (11)
dimana:
2.2.3. Model Regresi Logistik
𝑭𝑭𝑭𝑭 = 𝒚𝒚 (6)
Model regresi logistik merupakan suatu metode
Model linear ini berarti kita harus mencari nilai 𝛽𝛽̂ statistik yang digunakan untuk memodelkan
yang paling mewakili regresi ini. Maka dari itu, hubungan antara variabel dependen biner (dua
perlu adanya upaya fitting yang menggunakan kategori) dengan satu atau lebih variabel
metode least squares. Proses ini lebih dijelaskan independen. Regresi logistik adalah salah satu
pada topik RSS atau Residual Sum of Squares. metode yang umum digunakan untuk melakukan
analisis prediktif pada data kategori atau data
2.2.2. RSS (Residual Sum of Square)
biner. Fungsi logistik memetakan variabel
independen ke dalam rentang 0 hingga 1, yang
RSS mengukur tingkat variansi dalam konteks
dapat diinterpretasikan sebagai probabilitas suatu
error atau residu dalam sebuah model regresi.
kejadian. Persamaan model logistik dimodelkan
Oleh karena itu, kita perlu meminimalkan nilai
dalam bentuk berikut.
dari RSS ini. Dengan menggunakan metode RSS
ini, akan diperoleh nilai β yang meminimalisir 𝑝𝑝
RSS yang memiliki persamaan sebagai berikut: 𝑃𝑃
ln � � = 𝛽𝛽0 + � βp 𝑿𝑿𝑝𝑝 (12)
1 − 𝑃𝑃
𝑖𝑖=1

2
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Dengan P adalah probablilitas. Model logistik ini diperlukan nilai jaraknya, sehingga setiap input
menggunakan prinsip maximum likelihood untuk perlu dinormalisasi agar memiliki skala yang
meningkatkan likelihood. Itu merupakan fungsi dapat dibandingkan. Perlu diketahui juga bahwa
mencari fit terbaik dari model. KNN hanya dapat diterapkan untuk memodelkan
permasalahan dengan satu (p=1) atau dua (p=2)
𝐿𝐿(𝛽𝛽) = � 𝑝𝑝(𝑥𝑥) � �1 − 𝑝𝑝(𝑥𝑥 ′ )� (13) variabel independen nya.
𝑥𝑥∈𝐶𝐶1 𝑥𝑥 ′ ∈𝐶𝐶0
2.2.6. Interpretasi Model menggunakan
𝑁𝑁 Hipotesis
log�𝐿𝐿(𝛽𝛽)� = ��𝑦𝑦𝑖𝑖 𝛽𝛽𝑥𝑥𝑖𝑖 − log�1 + 𝑒𝑒 𝛽𝛽𝑥𝑥𝑖𝑖 �� (14)
Dalam menentukan suatu value pasti terdapat
𝑖𝑖=1
error di dalamnya. Oleh karena itu diperlukan
Hasil komputasi menggunakan metode iteratif confidence interval dari suatu value yang
Newton-Rhapson hingga turunan kedua. Proses didapatkan. Confidence interval berguna untuk
tersebut dilakukan dengan menurukan rumus menentukan seberapa yakin akan keakuratan
sebagai berikut: value yang didapatkan. Untuk melakukan uji
hipotesis digunakan metode t-test. T-test adalah
𝑁𝑁 suatu cara untuk mencari signifikansi perbedaaan
𝜕𝜕𝜕𝜕(𝛽𝛽) antara dua objek. Penurunan yang dilakukan
= � 𝐹𝐹𝑖𝑖 �𝑦𝑦𝑖𝑖 − 𝑝𝑝(𝑥𝑥𝑖𝑖 , 𝛽𝛽)� (15)
𝜕𝜕𝜕𝜕 ditampilkan seperti berikut:
𝑖𝑖=1

𝑁𝑁
𝜕𝜕 2 𝐿𝐿(𝛽𝛽) 𝑆𝑆𝑆𝑆�𝛽𝛽̂ � = �𝑉𝑉𝑉𝑉𝑉𝑉�𝛽𝛽̂ � (17)
= � −𝐹𝐹𝑖𝑖 𝐹𝐹𝑖𝑖𝑇𝑇 𝑝𝑝(𝑥𝑥𝑖𝑖 , 𝛽𝛽)�1 − 𝑝𝑝(𝑥𝑥𝑖𝑖 , 𝛽𝛽)� (16)
𝜕𝜕𝜕𝜕𝜕𝜕𝛽𝛽 𝑇𝑇
𝑖𝑖=1
𝛽𝛽̂ ± 𝑡𝑡𝛼𝛼\2 ∙ 𝑆𝑆𝐸𝐸�𝛽𝛽̂ � (18)

2.2.4. Training Logistic Regression 𝛽𝛽̂ − 0


𝑡𝑡 = (19)
𝑆𝑆𝑆𝑆(𝛽𝛽)
Proses memaksimalkan log-likelihood melalui
tahap berikut: Signifikansi hasil yang diamati diukur
A. Tentukan βo insial menggunakan p value. Nilai p yang kecil
B. Coba log-likelihood ke 0 dan hitung log- menunjukkan bahwa kemungkinan data yang
diamati terjadi di bawah hipotesis awal sangat
likelihood baru.
kecil, sehingga hipotesis awal ditolak demi
C. Hitung nilai toleransi, untuk memotong hipotesis alternatif. Nilai p mengindikasikan
iterasi apabila teralu lama. kekuatan bukti melawan hipotesis awal
D. Hitung β baru. berdasarkan data yang diamati. Jika perkiraan
E. Gunakan β baru ke step B, iterasi hingga akurasi value sudah didapatkan, model dari
hasil toleransi mencapai nilai error yang permasalahan dapat diinterpretasikan dengan
teralu dikit. lebih baik dan akurat.

2.2.7. R Square and RSE (Residual Standard


2.2.5. Model KNN (K-Nearest Neighbor)
Error)
KNN adalah suatu metode algoritma yang
berbasis non-parametrik dan membuat model 𝑅𝑅 2 adalah metode kuantifikasi pengukuran
prediksi berdasarkan nilai rata-rata dari sekitarnya statistik yang merepresentasikan dari variasi untuk
mengenai pengelompokkan dari data point secara variabel dependen yang dijelaskan oleh sebuah
individual. Untuk mengetahui hubungan pada variabel independen pada sebuah model regresi.
suatu data point terhadap sekitarnya maka Berbeda dengan korelasi koefisien Pearson yang

3
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

mengkuantifikasi keakuratan dalam mengestimasi production while moving forward. The schematic
koefisien, 𝑅𝑅 2 menunjukan nilai keakuratan dalam is given in the figures below, where the fin rotates
sebuah model memprediksi sebuah data. Untuk with a maximum angle alpha with a certain
mengukur nilai 𝑅𝑅 2, dapat digunakan persamaan flapping frequency. The plate is composed of
sebagai berikut: Acrylic and silicone rubber length attached in
tandem. The plate with 0% and 100% percentage
𝑅𝑅𝑅𝑅𝑅𝑅 of acrylic represents the most flexible and the
𝑅𝑅 2 = 1 − � � (20)
𝑇𝑇𝑇𝑇𝑇𝑇 stiffest panel, respectively. The stiffness of the
𝑇𝑇𝑇𝑇𝑇𝑇 = Σ(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2 (21) plate is varied by changing the proportion of the
Acrylic and the silicone rubber length, in which
1 the effective stiffness of the composite plate can
𝑅𝑅𝑆𝑆𝑆𝑆 = � 𝑅𝑅𝑅𝑅𝑅𝑅 (22)
𝑛𝑛 − 2 then be calculated. For each proportion of
material, the flapping frequency is varied, and the
thrust is measured using a set of experimental
setups comprising a towing tank and a load cell.
2.2.8. Min-Max Scaling

Metode normalisasi sebuah data secara sederhana


dengan melakukan skala ulang pada suatu data set
sehingga skala pada data set tersebut akan menjadi
skala yang universal dan dapat dilakukan
komparasi dengan data set lainnya yang
sebelumnya tidak dapat dilakukan komparasi,
namun dengan normalisasi min-max, kini data
tersebut memiliki skala yang sama dan dapat
dilakukan perbandingan. Adapun rumus dari Left figure: Caudal fin kinematic. Right figure: An illustration
normalisasi min-max adalah sebagai berikut: of the fin panel used in the current experiment. The length L
of the fin panel is 100 mm. The length of the acrylic and
𝑥𝑥 − 𝑥𝑥𝑚𝑚𝑚𝑚𝑚𝑚 silicone rubber part are denoted as L1 and L2, respectively.
𝑋𝑋𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = (23)
𝑥𝑥𝑚𝑚𝑚𝑚𝑚𝑚 − 𝑥𝑥𝑚𝑚𝑚𝑚𝑚𝑚 In the “flapping_fin_data”, the first column is for
the percentage of acrylic, the second column is for
Dengan catatan, min-max scaling hanya dapat the flapping frequency, and the third column is for
dilakukan apabila tidak terdapat data outlier the thrust (measured in Newton). Your tasks are as
sehingga perlu dipastikan agar tidak ada data follows:
outlier salah satunya dengan box plot. (a) Create a model to approximate the
relationship between thrust as the output with the
Untuk problem ini semua menggunakan min-max
frequency and the stiffness as the input variables.
scaling akibat data yang diberikan memiliki
(b) Interpret the obtained relationship between
variabel yang tidak terlalu jauh alias outlier.
thrust and the two input variables.
3. Problem 1 3.2. Jawaban
3.1. Pertanyaan
Dari problem yang diberikan, proses penyelesaian
The experiment described in Luqman et. al. 2022 yang paling tepat adalah menentukan dulu
(see the reference) studied the kinematic of a variabel-variabel apa yang akan menjadi
flapping plate to simulate the fin’s movement of a pertimbangan dari penjawaban problem ini.
fish. The study is particularly important for the Terlihat bahwa dari pertanyaan (a) dan (b),
design of Autonomous Underwater Vehicle (AUV) diperlukan analisis antara dua variabel input
that mimics the movement of a fish. In particular, (flaping frequency dalam Hz dan persentase
the study aimed to investigate the effect of the fin’s akrylik) dan satu variabel respons. (thrust dalam
stiffness and the flapping frequency on thrust

4
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Newton). Setelah diteliti problem ini terdapat 140


baris data points yang harus dikelola.

3.2.1. Pembagian Data Train-Test

Pembagian data ini dilakukan dengan acak. Dari


data ini, akan dipisah menjadi train dan test
dataset. Proses analisis akan menggunakan train
dataset dengan test dataset dipakai untuk
mencoba menguji keakuratkan train dataset.

3.2.2. Visualisasi

Sebelum mulai menganalisis model yang


diberikan. Perlu adanya visualisasi terlebih dahulu
agar dapat memberikan sense of direction atas
penggunakan model yang lebih baik. Pertama, kita Grafik 3.2 3D Contour Plot dari Data Flapping Fin
perlu memvisualisasikan data set ke dalam bentuk
grafik 3D, yaitu flapping frequency pada sumbu-
x, flutter speed pada sumbu-y, dan gaya
dorong/thrust pada sumbu-z yang ditunjukkan
oleh grafik di bawah ini:

Grafik 3.3 2D Scatter Plot dari Data Flapping Fin

3.2.3. Qualitative Analysis

Dari hasil data di atas. Dapat disimpulkan


bahwa sebenarnya pendekatan linear tidak akan
Grafik 3.1 3D Scatter Plot dari Data Flapping Fin mampu merepresentasikan data karena data yang
terlihat pun tidak linear. Baik dari perspektif
Melihat bentuk datanya susah direpresentasikan variabel manapun, hasil hubungan tersebut tidak
pada 3D pola scatter. Adanya kebutuhan untuk memiliki hubungan linear yang konstan,
mencari proses yang paling tepat untuk sedangkan memberikan hubungan paraboloid
mendapatkan visualisasi terbaik untuk kebutuhan dengan sebuah puncak pada nilai % acrylic dan
analisis. Oleh karena itu, grafik kedua dan ketiga flapping frequency tertentu. Bahkan, dapat
menggambarkan lebih jelas dari mendeskripsikan diperkirakan dari grafik 3.2 bahwa nilai thrust
contour plot dan membuat 2D plot dengan tertinggi yang dihasilkan oleh fin dengan membuat
hubungan antara flapping frequency dan gaya fin dua variabel independen yang menghasilkan
dorong. nilai Thrust paling besar, yaitu 50% akrilik pada

5
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

flapping frequency 3.03125 Hz menghasilkan pada perubahan nilai thrust dengan persentase
52.9283594906917 N Thrust force. akrilik yang konstan.

3.2.4. Model 3.2.4.2. KNN Model

Untuk menjawab permasalahan ini akan Seperti yang sudah disebutkan, akan digunakan
digunakan pemodelan multiple linear regression metode KNN untuk dapat memodelkan data-data
dan juga KNN. Metode ini berfungsi untuk input menjadi output yang sesuai. Setelah
memodelkan hubungan antara gaya dorong, thrust dilakukan pemodelan KNN, diperoleh model
sebagai outputnya dengan flapping frequency dan berupa surface yang menunjukkan hubungan antar
stiffness yang direpresentasikan oleh besarnya variabel independen dengan variabel
persentase komposisi akrilik pada fin. Model- dependennya, yaitu:
model ini sudah dijelaskan pada dasar teori di
subbab sebelumnya.

3.2.4.1. Pearson Correlation Coefficient

Permodelan dari data ini dapat dibantu dengan


melihat matrik korelasi dari masing-masing
variabel yang terdapat di data ini. Dengan
menggunakan rumus pearson correlation
coefficient di persamaan (1). Hasilnya adalah
sebagai berikut:

1 0.00624991 0.109468
�0.00624991 1 0.30843139� (24)
0.109468 0.30843139 1

Data tersebut dapat diketahui bahwa angka


0.00624991 mengindikasikan bahwa hubungan
antara frekuensi dan stiffness bersifat independen Grafik 3.4 Model KNN dari Data Flapping Fin
yang artinya kedua input tidak saling berpengaruh
atau mutually exclusive. Hubungan antara Aproksimasi ini dapat dilakukan dengan nilai n
frekuensi dan thrust berada di skala 0.109468. paling optimal sebanyak 5 tetangga. Hal ini
Skala tersebut tergolong ke dalam jenis very low menghasilkan keakurasian KNN dengan test
correlation yang artinya frekuensi sangat sedikit dataset sebesar 89.29%.
pengaruhnya terhadap thrust yang dihasilkan.
Sedangkan hubungan antara stiffness dan thrust 3.2.4.3. Model Regresi Linear
berada di skala 0.30843139. Skala tersebut
berada di range low correlation. Stiffness Pada model regresi linear, kita dapat menemukan
memiliki pengaruh yang kecil terhadap thrust nilai beta yang dapat diwakilkan seperti
yang dihasilkan. Namun bila dibandingkan persamaan bidang yang merepresentasikan data
dengan pengaruh frekuensi terhadap thrust, tersebut. Dari hasil analisis, terlihat bahwa didapat
stiffness memiliki pengaruh lebih terhadap thrust komponen-komponen regresi linear sebagai
yang dihasilkan. Hal ini terdapat pada grafik 2D berikut:
scatter plot yang menunjukkan pada flapping
frequency yang sama, perubahan nilai pada
persentase komposisi akrilik menyebabkan β s2 t-stat p-val uji
perubahan nilai thrust yang signifikan, berbeda 0 2.4227 3.5285 0.6866 0.4935 0
dengan pengaruh perubahan flapping frequency 1 0.0481 0.0405 1.1880 0.2369 0
2 3.4038 1.0013 3.3995 0.0009 1

6
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Tabel.3.1. Tabel Regresi Linear dari Data Flapping Fin Berdasarkan beberapa model yang telah
didapatkan, akurasi yang paling tinggi dimiliki
Dari hasil data ini, terlihat bahwa pada uji model oleh model KNN. Pada model regresi linear
regresi linear, terlihat bahwa uji hipotesis pada β2 didapatkan akurasi terhadap pengujian test dataset
adalah satu-satunya yang terbukti hipotesis sebesar 11.632%. Hasil akurasi yang rendah
korelasi. Sehingga, uji ini menyatakan bahwa menandakan hubungan antar variabel yang tidak
variabel ke-2 atau flapping frequency ternyata linear. Oleh karena itu diperlukan metode non-
memiliki pengaruh yang kuat terhadap hasil parametrik untuk mengaproksimasi hasil uji test
variabel respons. Pendekatan regresi linear dataset terhadap training test set.
menjadi sebagai berikut:
4. Problem 2
𝑦𝑦 = 2.4227 + 0.0481x1 + 3.4038𝑥𝑥2 (25) 4.1. Pertanyaan

Dengan 𝑦𝑦 adalah thrust dengan 𝑥𝑥1 sebagai A study was performed to investigate the impact of
variabel persentase acrylic dan 𝑥𝑥2 sebagai variabel transonic airfoil geometries on the drag and lift
flapping frequency. Selain tabel ini, didapatkan production. The airfoil is designed to operate at
hasil R2 dan RSE sebagai berikut: Mach number of 0.73 and Angle of Attack of 2
degrees. The aerodynamics coefficients are
evaluated using a simplified aerodynamic solver,
R2 0.10669529482018798 which neglects the viscosity of the air. The nine
RSE 13.225845481164576 geometrical parameters, with the lower, upper
bounds, and the definitions are shown below:
Tabel.3.2. Tabel R2 dan RSE dari Data Flapping Fin

Dari hasil ini, terlihat bahwa nilai regresi linear


merepresentasikan ke-linear-an yang sangat
rendah dengan nilai R2 yang rendah dan RSE yang
sangat besar.

Illustration of the airfoil parameterization. The ZTE and delta


ZTE are both set to zero.

The data is given in the “aerodynamic_data_set”.


Your tasks are to:
Grafik 3.5 Model Regresi Linear dari Data Flapping Fin

Keakurasian dari regresi linear dari pengujian test a) Build a model that best approximates the
dataset adalah 11.632%. relationship between the nine geometrical
parameters with the lift coefficient (CL), drag
3.3. Interpretasi Hasil coefficient (CD), and moment coefficient (CM).

7
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

b) Is the relationship between CL, CD, CM with 4.2.3.1. Pearson Correlation Coefficient
the nine geometrical parameters linear?
Permodelan dari data ini dapat dibantu dengan
c) Rank the input variables according to their melihat matrik korelasi dari masing-masing
importance on the aerodynamics coefficient (hint: variabel yang terdapat di data ini. Dengan
you should normalize the input variables so that menggunakan rumus pearson correlation
they have the same scale). coefficient di persamaan (1). Hasilnya adalah
sebagai berikut:
4.2. Jawaban

Dari problem yang diberikan, proses penyelesaian CL:


yang paling tepat adalah menentukan dulu [[ 1.00e+00 -2.05e-02 -1.60e-02 -3.95e-03
3.02e-03 -4.53e-03 -2.26e-02
variabel-variabel apa yang akan menjadi -1.40e-02 -9.08e-03 2.72e-02]
pertimbangan dari penjawaban problem ini. [-2.05e-02 1.00e+00 -5.75e-03 -1.60e-02
Terlihat bahwa dari pertanyaan (a) dan (b), 1.53e-04 -7.94e-03 -2.85e-02
diperlukan analisis antara 9 variabel input (rLE, xup, -9.07e-03 2.52e-04 1.72e-01]
yup, yxxup, xlo, yloo, yxxlo, αTE, βTE) dan 3 variabel
[-1.60e-02 -5.75e-03 1.00e+00 1.18e-02
2.78e-02 2.08e-03 -2.27e-02
respons. (CL, CD, CM). Setelah diteliti problem ini -3.08e-02 2.18e-03 6.78e-01]
terdapat 500 baris data points yang harus dikelola. [-3.95e-03 -1.60e-02 1.18e-02 1.00e+00 -
3.76e-02 -1.69e-02 1.15e-03
4.2.1. Pembagian Data Train-Test -1.11e-03 -9.00e-03 1.53e-01]
[ 3.02e-03 1.53e-04 2.78e-02 -3.76e-02
1.00e+00 1.97e-02 -1.40e-02
Pembagian data ini dilakukan dengan acak. Dari -1.38e-02 1.58e-02 -1.28e-01]
data ini, akan dipisah menjadi train dan test [-4.53e-03 -7.94e-03 2.08e-03 -1.69e-02
dataset. Proses analisis akan menggunakan train 1.97e-02 1.00e+00 -6.12e-03
1.03e-03 -2.02e-02 5.63e-01]
dataset dengan test dataset dipakai untuk [-2.26e-02 -2.85e-02 -2.27e-02 1.15e-03
mencoba menguji keakuratkan train dataset. -1.40e-02 -6.12e-03 1.00e+00
6.26e-03 -2.43e-02 1.63e-01]
4.2.2. Visualisasi [-1.40e-02 -9.07e-03 -3.08e-02 -1.11e-03
-1.38e-02 1.03e-03 6.26e-03
1.00e+00 1.91e-02 -2.98e-01]
Karena jumlah variabel yang dimiliki. Disini [-9.08e-03 2.52e-04 2.18e-03 -9.00e-03
visualisai tidak dapat dilakukan. Namun, upaya 1.58e-02 -2.02e-02 -2.43e-02
lainnya seperti proses analisis nilai β dan upaya 1.91e-02 1.00e+00 -1.53e-02]
lainnya sudah mampu menggambarkan model dari [ 2.72e-02 1.72e-01 6.78e-01 1.53e-01 -
1.28e-01 5.63e-01 1.63e-01
problem ini. -2.98e-01 -1.53e-02 1.00e+00]]

4.2.3. Model CD:


[[ 1.00e+00 -2.05e-02 -1.60e-02 -3.95e-03
3.02e-03 -4.53e-03 -2.26e-02
Untuk menjawab permasalahan ini akan
-1.40e-02 -9.08e-03 -2.79e-02]
digunakan pemodelan multiple linear regression [-2.05e-02 1.00e+00 -5.75e-03 -1.60e-02
dan juga KNN. Metode ini berfungsi untuk 1.53e-04 -7.94e-03 -2.85e-02
memodelkan memodelkan sembilan variabel -9.07e-03 2.52e-04 -3.55e-01]
independen berupa parameter geometri dengan [-1.60e-02 -5.75e-03 1.00e+00 1.18e-02
2.78e-02 2.08e-03 -2.27e-02
koefisien aerodinamika. Untuk menjawab -3.08e-02 2.18e-03 7.80e-01]
pertanyaan pada problem 2a, sembilan parameter [-3.95e-03 -1.60e-02 1.18e-02 1.00e+00 -
geometri akan dicari korelasinya terhadap 3.76e-02 -1.69e-02 1.15e-03
koefisien-koefisien aerodinamika dengan -1.11e-03 -9.00e-03 1.68e-02]
[ 3.02e-03 1.53e-04 2.78e-02 -3.76e-02
menggunakan koefisien korelasi Pierson tanpa 1.00e+00 1.97e-02 -1.40e-02
melakukan normalisasi seluruh variabel -1.38e-02 1.58e-02 -6.06e-02]
independen tersebut. [-4.53e-03 -7.94e-03 2.08e-03 -1.69e-02
1.97e-02 1.00e+00 -6.12e-03
1.03e-03 -2.02e-02 2.47e-01]

8
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

[-2.26e-02 -2.85e-02 -2.27e-02 1.15e-03 input menjadi output yang sesuai. Setelah
-1.40e-02 -6.12e-03 1.00e+00
6.26e-03 -2.43e-02 9.77e-02]
dilakukan pemodelan KNN, diperoleh model
[-1.40e-02 -9.07e-03 -3.08e-02 -1.11e-03 berupa surface yang menunjukkan hubungan antar
-1.38e-02 1.03e-03 6.26e-03 variabel independen dengan variabel
1.00e+00 1.91e-02 -1.48e-01] dependennya. Aproksimasi ini dapat dilakukan
[-9.08e-03 2.52e-04 2.18e-03 -9.00e-03
1.58e-02 -2.02e-02 -2.43e-02
dengan nilai n sebanyak 7 tetangga. Hal ini
1.91e-02 1.00e+00 -1.64e-02] menghasilkan keakurasian KNN dengan test
[-2.79e-02 -3.55e-01 7.80e-01 1.68e-02 - dataset sebagai berikut:
6.06e-02 2.47e-01 9.77e-02
-1.48e-01 -1.64e-02 1.00e+00]] KNNCL 0.8188354041401852
CM: KNNCD 0.717464327890282
[[ 1.00e+00 -2.05e-02 -1.60e-02 -3.95e-03 KNNCM 0.8338900167582667
3.02e-03 -4.53e-03 -2.26e-02
-1.40e-02 -9.08e-03 -5.26e-02] Tabel.4.1. Tabel Keakuratan KNN dari Data Problem 2
[-2.05e-02 1.00e+00 -5.75e-03 -1.60e-02
1.53e-04 -7.94e-03 -2.85e-02
-9.07e-03 2.52e-04 1.95e-01] 4.2.3.3. Model Regresi Linear
[-1.60e-02 -5.75e-03 1.00e+00 1.18e-02
2.78e-02 2.08e-03 -2.27e-02 Pada model regresi linear, kita dapat menemukan
-3.08e-02 2.18e-03 7.94e-01] nilai beta yang dapat diwakilkan seperti
[-3.95e-03 -1.60e-02 1.18e-02 1.00e+00 -
3.76e-02 -1.69e-02 1.15e-03 persamaan multi-regresi yang merepresentasikan
-1.11e-03 -9.00e-03 9.60e-02] data tersebut. Dari hasil analisis, terlihat bahwa
[ 3.02e-03 1.53e-04 2.78e-02 -3.76e-02 didapat komponen-komponen regresi linear
1.00e+00 1.97e-02 -1.40e-02 sebagai berikut:
-1.38e-02 1.58e-02 -1.89e-01]
[-4.53e-03 -7.94e-03 2.08e-03 -1.69e-02
1.97e-02 1.00e+00 -6.12e-03 β s2 t-stat p-val uji
1.03e-03 -2.02e-02 4.02e-01] 0 0.3007 0.0265 11.572 0 1
[-2.26e-02 -2.85e-02 -2.27e-02 1.15e-03 1 6.5481 1.2735 5.1416 0 1
-1.40e-02 -6.12e-03 1.00e+00
6.26e-03 -2.43e-02 1.48e-01] 2 0.4075 0.0195 20.891 0 1
[-1.40e-02 -9.07e-03 -3.08e-02 -1.11e-03 3 10.384 0.1369 75.830 0 1
-1.38e-02 1.03e-03 6.26e-03 4 0.3475 0.0204 17.010 0 1
1.00e+00 1.91e-02 -2.61e-01]
[-9.08e-03 2.52e-04 2.18e-03 -9.00e-03 5 -0.4179 0.0242 -17.25 0 1
1.58e-02 -2.02e-02 -2.43e-02 6 9.4429 0.1476 63.9649 0 1
1.91e-02 1.00e+00 -1.15e-02] 7 0.2559 0.0121 21.0692 0 1
[-5.26e-02 1.95e-01 7.94e-01 9.60e-02 -
1.89e-01 4.02e-01 1.48e-01 8 -2.4026 0.0768 -31.274 0 1
-2.61e-01 -1.15e-02 1.00e+00]] 9 0.0516 0.0526 0.9794 0.3279 0

Dengan diketahui tidak adanya satupun variabel Tabel.4.2. Tabel Regresi Linear dari Cl
independen yang tidak berkorelasi sama sekali
dengan suatu koefisien aerodinamika dan bahwa
variabel independen saling mempengaruhi satu
dengan variabel parameter geometrik yang lain. β s2 t-stat p-val uji
0 -0.0092 0.0043 -2.1351 0.033 1
Namun, karena banyaknya variabel yang harus
diuji, Pearson Correlation Coefficient sudah gagal 1 -0.2029 0.2075 -0.9777 0.3287 0
dalam memberikan representasi baik dari data 2 -0.0522 0.0032 -16.427 0.000 1
tersebut, sehingga harus lanjut pada permodelan. 3 0.8220 0.0223 36.843 0.000 1
4 0.0004 0.0033 0.1172 0.9067 0
4.2.3.2. KNN Model 5 -0.0163 0.0039 -4.121 0 1
6 0.2795 0.2405 11.6206 0 1
Seperti yang sudah disebutkan, akan digunakan 7 0.0099 0.0020 5.0135 0 1
metode KNN untuk dapat memodelkan data-data 8 -0.0768 0.0125 -6.1362 0 1

9
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

9 -0.0028 0.0086 -0.3225 0.7472 0 Dari hasil ini, terlihat bahwa nilai regresi linear
merepresentasikan ke-linear-an yang sangat tinggi
Tabel.4.3. Tabel Regresi Linear dari Cd dengan nilai R2 yang tinggi dan RSE yang sangat
kecil.
β s2 t-stat p-val uji
0 -0.0877 0.0078 -11.156 0 1
1 -1.1514 0.3769 -4.0173 0 1 RLCL 0.9638760033230835
2 0.1483 0.0058 25.688 0 1 RLCD 0.6581909829441328
3 4.0168 0.4052 99.131 0 1 RLCM 0.9654968825502612
4 0.0662 0.0060 10.989 0 1
5 -0.1939 0.0072 -27.050 0 1 Tabel.4.8. Tabel Keakuratan Regresi Linear dari Data
6 2.2275 0.0437 50.9905 0 1 Problem 2
7 0.0772 0.0036 21.4736 0 1
8 -0.6806 0.0227 -29.940 0 1 Untuk menjawab problem 2b, menggunakan
0.0149 0.0156 0.9581 0.3384 0 model yang sudah diperoleh untuk menemukan
9
sifat linearitas suatu variabel independen geometri
Tabel.4.4. Tabel Regresi Linear dari Cm airfoil terhadap masing-masing koefisien
aerodinamika sehingga diperoleh sifat linearitas
Untuk menjawab problem 2b, menggunakan antar sembilan variabel parameter geometri
model yang sudah diperoleh untuk menemukan terhadap Cl, Cd, dan Cm sembilan variabel
sifat linearitas suatu variabel independen geometri parameter geometri yang bersifat variatif. Namun,
airfoil terhadap masing-masing koefisien terlihat bahwa hubungan dari parameter ini
aerodinamika sehingga diperoleh sifat linearitas menghasilkan hubungan linear yang cukup baik,
antar sembilan variabel parameter geometri kecuali dengan Cd dengan nilai yang cukup rendah
terhadap Cl, Cd, dan Cm sembilan variabel sebesar 0.82 nilai R2 dan 65.82% keakuratan.
parameter geometri yang bersifat variatif. Namun,
terlihat bahwa hubungan dari parameter ini 4.2.3.4. Normalisasi Model Regresi
menghasilkan hubungan linear yang cukup baik,
kecuali dengan Cd dengan nilai yang cukup rendah Untuk menjawab 2c yang menginginkan faktor
sebesar 0.82 nilai R2 dan 65.82% keakuratan. importance dari setiap variabel, perlunya data
input untuk dinormalisasi terlebih dahulu.
Sebelum membuat pemodelan data input yang
sudah dinormalisasi terhadap outputnya, perlu
R2 0.9690495965726103 diperiksa terlebih dahulu masing-masing variabel
RSE 0.019727260168915656 independennya menggunakan box plot untuk
memastikan tidak ada penyebaran data yang
Tabel.4.5. Tabel R2 dan RSE dari Data Cl ekstrim atau yang tidak normal. Box Plot untuk
masing-masing variabel yaitu sebagai berikut:

R2 0.826458419400856
RSE 0.003214196596767444

Tabel.4.6. Tabel R2 dan RSE dari Data Cd

R2 0.9749716085946188
RSE 0.005837640401239611

Tabel.4.7. Tabel R2 dan RSE dari Data Cm Grafik.4.1. Box Plot rle dan xup

10
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Kesembilan box plot untuk setiap variabel


independen parameter geometrik, menunjukkan
bahwa tidak ada data yang bernilai secara ekstrim
jauh dari range kuartilnya ataupun range antar data
terkecil dan terbesar yang abnormal/sangat besar
sehingga dapat dipastikan tidak ada data outlier
pada data variabel parameter geometrik dan
normalisasi menggunakan min-max scaling dapat
dilakukan.

Grafik.4.2. Box Plot yup dan yxxup 4.2.3.5. Model Regresi Linear yang
Ternormalisasi

Pada model regresi linear, kita dapat menemukan


nilai beta yang dapat diwakilkan seperti
persamaan multi-regresi yang merepresentasikan
data tersebut. Dari hasil analisis, terlihat bahwa
didapat komponen-komponen regresi linear
sebagai berikut:

β s2 t-stat p-val uji


0 0.524 0.0054 96.7791 0 1
1 0.0177 0.0034 5.1416 0 1
2 0.0702 0.0034 20.8907 0 1
Grafik.4.3. Box Plot xlo dan ylo 3 0.2602 0.0034 75.8301 0 1
4 0.0588 0.0035 17.0097 0 1
5 -0.0602 0.0035 -17.251 0 1
6 0.2212 0.0035 63.9649 0 1
7 0.0721 0.0034 21.0692 0 1
8 -0.1076 0.0034 -31.273 0 1
9 0.0034 0.0035 0.9794 0.3279 0

Tabel.4.9. Tabel Regresi Linear dari Cl

β s2 t-stat p-val uji


0 0.0037 0.0009 4.2020 0 1
Grafik.4.4. Box Plot yxxlo dan αTE 1 -0.0006 0.0006 -0.9778 0.3287 0
2 -0.0090 0.0006 -16.427 0 1
3 0.0206 0.0006 36.8433 0 1
4 0.0001 0.0006 0.1172 0.9068 0
5 -0.0023 0.0006 -4.1212 0 1
6 0.0066 0.0006 11.6206 0 1
7 0.0028 0.0006 5.0135 0 1
8 -0.0034 0.0006 -6.1362 0 1
9 -0.0002 0.0006 -0.3225 0.7472 0

Tabel.4.10. Tabel Regresi Linear dari Cd

Grafik.4.5. Box Plot βTE β s2 t-stat p-val uji


0 0.0468 0.0016 19.1465 0.0000 1

11
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

1 -0.0006 0.0010 -4.0173 0.0001 1 Upper Crest Curvature (Yxxup), Lower Crest
2 -0.0090 0.0010 25.6876 0.0000 1 Curvature (Yxxlo), dan Trailing Edge Wedge
3 0.0206 0.0010 99.1313 0.0000 1 Angle (𝛽𝛽𝑇𝑇𝑇𝑇).
4 0.0001 0.0010 10.9894 0.0000 1
5 -0.0024 0.0010 -27.050 0.0000 1 ● Pada Coefficient of Moment (Cm), mirip
0.0066 0.0010 50.9906 0.0000 1
seperti yang diperoleh pada Cd, seluruh
6
variabel independen menunjukkan linearitas
7 0.0028 0.0010 21.4736 0.0000 1
yang rendah terhadap Cm. Dengan variabel
8 -0.0034 0.0010 -29.940 0.0000 1 Upper Crest Ordinate (Yup) dan Lower Crest
9 -0.0002 0.0010 0.9582 0.3384 0 Ordinate (Yloo) merupakan kedua variabel
independen yang memiliki linearitas tertinggi
Tabel.4.11. Tabel Regresi Linear dari Cm terhadap Cm. Selain itu, Radius of Leading
Edge (rLe) merupakan variabel independen
Sesuai dengan persamaan (4) mengenai regresi dengan linearitas negatif tertinggi dan juga
linear. Proses pemilihan linearlitas yang paling variabel independen Trailing Edge Wedge
mencolok atau variabel yang paling signifikan
Angle (𝛽𝛽𝑇𝑇𝑇𝑇) memiliki linearitas yang
berada pada nilai mutlak β. Semakin besar nilai
terendah terhadap Cm.
mutlak tersebut pada kondisi sudah ternormalisasi,
maka semakin berpengaruh parameter tersebut
pada variabel respons. Urutan variabel input berdasarkan tingkat
pengaruhnya terhadap setiap koefisien
Meninjau sembilan koefisien independen dengan aerodinamis dapat dilihat sebagai berikut:
untuk setiap regresi linear untuk setiap koefisien
aerodinamik, diperoleh deskripsi sebagai berikut:
● Lift Coefficient (Cl)
● Pada Coefficient of Lift (Cl), variabel dengan 1. Upper Crest Ordinate (Yup)
linearitas yang paling mencolok terhadap Cl 2. Lower Crest Ordinate (Yloo)
terlihat pada variabel Upper Crest Ordinate 3. Trailing Edge Direction (𝛼𝛼𝑇𝑇𝐸𝐸)
(Yup) dan Lower Crest Ordinate (Yloo) 4. Lower Crest Curvature (Yxxlo)
dimana keduanya memiliki koefisien 5. Upper Crest Abssisca (Xup)
independen masing-masing yang tinggi di 6. Lower Crest Abssisca (Xlo)
antara variabel yang lainnya dan merupakan 7. Upper Crest Curvature (Yxxup)
linear positif. Sementara untuk variabel 8. Radius of Leading Edge (rLe)
independen lainnya berada pada linearitas 9. Trailing Edge Wedge Angle (𝛽𝛽𝑇𝑇𝑇𝑇)
cukup rendah dengan linearitas negatif
tertinggi ditunjukkan oleh variabel geometri, ● Drag Coefficient (Cd)
Trailing Edge Direction (𝛼𝛼𝑇𝑇𝑇𝑇) dan linearitas 1. Upper Crest Ordinate (Yup)
terendah, yaitu Trailing Edge Wedge Angle 2. Upper Crest Abssisca (Xup)
(𝛽𝛽𝑇𝑇𝑇𝑇). 3. Lower Crest Ordinate (Yloo)
4. Trailing Edge Direction (𝛼𝛼𝑇𝑇𝑇𝑇)
● Pada Coefficient of Drag (Cd), hampir seluruh 5. Lower Crest Curvature (Yxxlo)
variabel independen memiliki linearitas yang 6. Lower Crest Abssisca (Xlo)
rendah terhadap Cd, dengan variabel Upper 7. Radius of Leading Edge (rLe)
Crest Ordinate (Yup) dan Lower Crest 8. Trailing Edge Wedge Angle (𝛽𝛽𝑇𝑇𝑇𝑇)
Ordinate (Yloo) merupakan kedua variabel 9. Upper Crest Curvature (Yxxup)
independen yang memiliki linearitas tertinggi
terhadap Cd. Selain itu, Radius of Leading ● Moment Coefficient (Cm)
Edge (rLe) merupakan variabel independen 1. Upper Crest Ordinate (Yup)
dengan linearitas negatif tertinggi dan terdapat 2. Lower Crest Ordinate (Yloo)
beberapa variabel independen yang memiliki 3. Trailing Edge Direction (𝛼𝛼𝑇𝑇𝑇𝑇)
linearitas sangat kecil mendekati nol, yaitu 4. Lower Crest Abssisca (Xlo)

12
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

5. Upper Crest Abssisca (Xup) MinMaxScaling, nilai keakuratan juga tidak


6. Lower Crest Curvature (Yxxlo) berubah.
7. Upper Crest Curvature (Yxxup)
8. Radius of Leading Edge (rLe) 5. Problem 3
9. Trailing Edge Wedge Angle (𝛽𝛽𝑇𝑇𝑇𝑇) 5.1. Pertanyaan

Dengan dilakukannya normalisasi, kita mendapat Flutter is an aero-structural phenomenon that


informasi juga bahwa pada setiap variabel should be avoided when designing a wing. An
independen untuk suatu parameter geometri yang aircraft should fly in the safe region, that is, the
sama, parameter tersebut akan paling region where the wing will not experience flutter.
mempengaruhi coefficient of lift dibandingkan To that end, engineers should identify the region
coefficient of moment, dan coefficient of drag where the flutter will not occur. Palar et al. (see
merupakan variabel dependen yang paling kecil the reference) conducted a numerical experiment
dipengaruhi oleh variabel-variabel independen which investigates the safety regime of a NACA
dibandingkan dengan koefisien aerodinamik yang 64A010 with two degrees of freedom: pitch and
lain. Dengan model pada problem 2a ini, kita plunge motion. The study investigates the impact
dapat memperoleh nilai koefisien aerodinamika of two design conditions, namely, the Mach
Cl, Cd, dan Cm yang reliable menggunakan suatu number (M) and the flutter speed (Vf). A numerical
parameter geometrik input. aerodynamic solver was employed with the Mach
number and the flutter speed as inputs, and the
Setelah diketahui koefisien pada ketiga regresi damping coefficient (DC) as the output. In this
linear terhadap masing-masing variabel dependen, regard, a negative and positive damping
kita perlu mengetahui juga mengenai kemampuan coefficient indicates that flutter occurs and does
pemodelan yang telah diperoleh dalam not occur, respectively. The data is given on
memprediksi nilai sebuah data, dapat digunakan “flutter_data_set”.
metode R Squared. Maka nilai R Squared untuk
model di atas diperoleh:

R2 0.9690495965726103
RSE 0.019727260168915656

Tabel.4.12. Tabel R2 dan RSE dari Data Cl

Illustration of the NACA64A010 airfoil.


R2 0.826458419400856
RSE 0.003214196596767444 Your tasks are as follows:
A) Build a model that will be used to classify the
Tabel.4.13. Tabel R2 dan RSE dari Data Cd flutter and the no-flutter region.
B) Draw the flutter boundary (i.e., the line/curve
that separates the flutter and no-flutter region).
R2 0.9749716085946188 5.2. Jawaban
RSE 0.005837640401239611
Dari problem yang diberikan, proses penyelesaian
Tabel.4.14. Tabel R2 dan RSE dari Data Cm yang paling tepat adalah menentukan dulu
variabel-variabel apa yang akan menjadi
Terlihat bahwa nilai R2 dan RSE sama, pertimbangan dari penjawaban problem ini.
membuktikan logika persamaan (20) dan (22). Terlihat bahwa dari pertanyaan (a) dan (b),
Dengan prinsip yang sama dari keuntungan diperlukan analisis antara dua variabel input
(mach number dan flutter speed) dan satu variabel

13
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

respons. (damping coefficient). Setelah diteliti diperoleh model yang dapat merepresentasikan
problem ini terdapat 300 baris data points yang problem dengan menunjukan hasil output yang
harus dikelola. sesuai dengan inputnya menggunakkan metode
gradient descent optimization. Setelah itu,
5.2.1. Pembagian Data Train-Test menggunakan matriks rangkuman, kita dapat
memastikan bahwa model yang telah dilatih
Pembagian data ini dilakukan dengan acak. Dari memenuhi confidence level sebesar 95% dalam
data ini, akan dipisah menjadi train dan test memprediksi data point yang akan digunakan
dataset. Proses analisis akan menggunakan train untuk membuat flutter boundary line.
dataset dengan test dataset dipakai untuk
mencoba menguji keakuratkan train dataset. Salah satu manfaat dari data ini adalah data
tersebut mempertimbangkan hanya nilai positif-
5.2.2. Visualisasi negatif dari variabel response (apakah perlu
damping atau tidak), maka dengan itu, dapat
Sama seperti problem 1, sebelum mulai didekatkan dengan regresi logistik dan dapat plot
menganalisis model yang diberikan. Perlu adanya scatter 2D dengan tidak mempertimbangkan besar
visualisasi terlebih dahulu agar dapat memberikan nilai negatif atau positif. Hasilnya adalah sebagai
sense of direction atas penggunakan model yang berikut:
lebih baik. Pertama, kita perlu memvisualisasikan
data set ke dalam bentuk grafik 3D, yaitu mach
number pada sumbu-x, persentase komposisi
akrilik pada sumbu-y, dan damping coefficient
pada sumbu-z yang ditunjukkan oleh grafik di
bawah ini:

Grafik 5.2 2D Scatter Plot dari Data Flutter

5.2.3. Two Branches of Thought

Dari pengolahan data ini, perlunya kita perhatikan


bahwa dalam mencari model data flutter/no flutter,
kita dapat direpresentasikan langsung dengan
regresi logistik yang sudah dijelaskan pada dasar
teori. Namun, untuk melihat keakuratan dari
dataset ini perlu adanya proses konfirmasi dari
Grafik 5.1 3D Scatter Plot dari Data Flutter
model-model yang sudah dilakukan pada problem
1 dan 2. Oleh karena itu, pada problem 3 terdapat
Dari gambar 3D scatter plot di atas, kita dua proses yang dilakukan, yakni proses model
memperoleh gambaran bagaimana boundary biasa dengan proses model logistik.
berdasarkan dilakukannya kategorisasi logistik
5.2.4. Model
data. Untuk dapat membuktikan gambaran
tersebut, perlu digunakannya regresi jenis logistik
yang juga perlu dilakukan pelatihan model agar

14
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Untuk menjawab permasalahan ini akan


digunakan pemodelan multiple linear regression
dan juga KNN. Metode ini berfungsi untuk
memodelkan hubungan antara damping coefficient
sebagai outputnya dengan Mach Number dan
flutter speed. Model-model ini sudah dijelaskan
pada dasar teori di subbab sebelumnya.

5.2.4.1. Pearson Correlation Coefficient

Permodelan dari data ini dapat dibantu dengan


melihat matrik korelasi dari masing-masing
variabel yang terdapat di data ini. Dengan
menggunakan rumus pearson correlation
coefficient di persamaan (1). Hasilnya adalah
sebagai berikut:
Grafik 5.3 Model KNN dari Data Flutter
1 −0.054 −0.285
�−0.054 1 −0.446� (26) Aproksimasi ini dapat dilakukan dengan nilai n
−0.285 −0.446 1 paling optimal sebanyak 7 tetangga. Hal ini
menghasilkan keakurasian KNN dengan test
Data tersebut dapat diketahui bahwa terdapat
dataset sebesar 94.08%.
hubungan korelasi berbanding terbalik dari
variabel input dengan output. Artinya bahwa nilai
5.2.4.3. Model Regresi Linear
flutter speed dan mach number yang meningkat
akan menurunkan nilai damping coefficient.
Pada model regresi linear, kita dapat menemukan
nilai beta yang dapat diwakilkan seperti
5.2.4.2. KNN Model
persamaan bidang yang merepresentasikan data
tersebut. Dari hasil analisis, terlihat bahwa didapat
Seperti yang sudah disebutkan, akan digunakan
komponen-komponen regresi linear sebagai
metode KNN untuk dapat memodelkan data-data
berikut:
input menjadi output yang sesuai. Setelah
dilakukan pemodelan KNN, diperoleh model
berupa surface yang menunjukkan hubungan antar
β s2 t-stat p-val uji
variabel independen dengan variabel
0 0.1374 0.0185 7.4244 0 1
dependennya, yaitu:
1 -0.1289 0.0227 -5.6803 0 1
2 -0.0375 0.0044 -8.4747 0 1

Tabel.5.1. Tabel Regresi Linear dari Data Flutter

Dari hasil data ini, terlihat bahwa pada uji model


regresi linear, terlihat bahwa uji hipotesis semua β
berlaku, sehingga semua variabel memiliki 95%
confidence. Dengan ini, persamaannya menjadi:

𝑦𝑦 = 0.1374 − 0.1289x1 − 0.0375𝑥𝑥2 (27)

Dengan 𝑦𝑦 adalah damping coefficient dengan 𝑥𝑥1


sebagai variabel mach number dan 𝑥𝑥2 sebagai
variabel flutter speed. Selain tabel ini, didapatkan
hasil R2 dan RSE sebagai berikut:

15
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

R2 0.2950214291819448
RSE 0.03311694322371763

Tabel.5.2. Tabel R2 dan RSE dari Data Flapping Fin

Dari hasil ini, terlihat bahwa nilai regresi linear


merepresentasikan ke-linear-an yang sangat
rendah dengan nilai R2 yang rendah tapi RSE yang
sangat kecil. Artinya bahwa permodelan ini
memiliki banyak data outlier seperti yang terlihat
pada grafik 5.3.

Grafik 5.5 Model KNN Logistic dari Data Flutter

Meninjau hasil regresi KNN Logistic di atas, dapa


dilihat garis flutter boundary yang lebih akurat
dalam merepresentasikan hasil output yang
ditandai dengan lebih sedikitnya data point yang
berada di wilayah yang salah.

Aproksimasi ini dapat dilakukan dengan nilai n


paling optimal sebanyak 7 tetangga. Hal ini
menghasilkan keakurasian KNN dengan test
dataset sebesar 96.67%.

5.2.4.5. Model Regresi Logistic

Pada model regresi logistic, kita dapat


menemukan nilai beta yang dapat diwakilkan
Grafik 5.4 Model Regresi Linear dari Data Flapping Fin seperti persamaan logaritmik yang
merepresentasikan data tersebut. Dari hasil
Keakurasian dari regresi linear dari pengujian test analisis pada iterasi ke-6, terlihat bahwa didapat
dataset adalah 56.829%. komponen-komponen regresi logistic sebagai
berikut:
5.2.4.4. KNN Model Logistic

Beda dengan KNN Model pada subbab β s2 t-stat p-val uji


sebelumnya, KNN ini menggantikan nilai 0 10.2847 1.6566 6.2085 0 1
damping coeffient menjadi binary sehingga -9.7918 1.8600 -5.2645 0 1
1
mampu melakukan analisis logistic. Setelah -2.4104 0.3774 -6.3874 0 1
2
dilakukan pemodelan KNN, diperoleh model
berupa border yang menunjukkan hubungan antar Tabel.5.3. Tabel Regresi Logistic dari Data Flutter
variabel independen dengan variabel
dependennya, yaitu: Dengan ini, persamaannya menjadi:

𝑃𝑃
log � � = 10.2847 − 9.7918𝑥𝑥1 − 9.7918𝑥𝑥2 (27)
1 − 𝑃𝑃

16
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

Dengan 𝑦𝑦 adalah damping coefficient dengan 𝑥𝑥1 Palar, Pramudita Satria, Lucia Parussini, Luigi
sebagai variabel mach number dan 𝑥𝑥2 sebagai Bregant, Koji Shimoyama, and Lavi Rizki
variabel flutter speed. Selain tabel ini, didapatkan Zuhal. "On kernel functions for bi-fidelity
hasil pseudo R2 dan log loss sebagai berikut: Gaussian process regressions." Structural and
Multidisciplinary Optimization 66, no. 2
(2023): 37.
Pseudo R2 0.23200869207306632
Log loss 0.4713440123977804 7. Individual Contribution

Tabel.5.4. Tabel R2 dan RSE dari Data Flapping Fin


Date Members Agenda
Dari hasil ini, terlihat bahwa nilai regresi logistik 14 Mei Jonwin, Planning Kerja
memberikan R2 yang kurang akurat dengan log 2023 Andhika, Intensif, Buat File
loss yang cukup banyak. Evelio Laporan
18 Mei Jonwin, Coding (No.1 dan
2023 Andhika, sebagain No.2) dan
Evelio Buat Laporan
19 Mei Jonwin, Coding (Sebagian
2023 Andhika, No.2 dan No.3) dan
Evelio Buat Laporan
23 Mei Andhika, Lengkapi Laporan
2023 Evelio dan Presentasi
24 Mei Jonwin, Revisi Coding,
2023 Lengkapi Laporan
25 Mei Jonwin, Finishing Laporan,
2023 Andhika, Finishing Canva
Evelio
26 Mei Jonwin, Rekam Video
Grafik 5.6 Model Regresi Logistik dari Data Flapping Fin 2023 Andhika,
Evelio
6. Referensi
Fathurrohim, Luqman, Lavi Rizki Zuhal, Tabel.7.1. Contributions
Pramudita Satria Palar, and Yohanes Bimo
Dwianto. "Maximizing the thrust performance Laporan: Jonwin, Andhika, Evelio
of flexible caudal fin panels via experimental
optimization." Ocean Engineering 266 (2022): Coding: Jonwin
112969.
Presentasi: Evelio, Andhika

Video: Evelio, Andhika

17
Jonwin Fidelis Fam [1], Andhika Prayoga Tama [2], Evelio Christian Fresley [3]

APPENDIX
Coding Folder:
https://drive.google.com/drive/folders/1VQlDLEfl-XIppdCuI621GSZ7mf_U7h9F?usp=sharing

Link Youtube:
https://www.youtube.com/watch?v=2AE83F0Qxuw

Documentation: Kamis, 18 Mei 2023

Documentation: Jumat, 19 Mei 2023

18

Anda mungkin juga menyukai