Oleh
Rizqy Agung (23621018)
Solusi :
a. Dalam bidang statistika, ada beberapa definisi estimator yang diambil dari beberapa
referensi
• “An estimator is any function that map Z with range in true value. The value of the
function is called the estimate 𝜉̂. Thus
𝜉̂ = 𝜉̂(𝑍, 𝑈)
where Z is the system random variable with the experiment (input) U, taken from the set
(U) of possible experiments on the system.
𝑍 = 𝑍(𝜉̂, 𝑈, 𝜔)
and 𝜔 is the random component of the system.” – Maine and Illif (1985) [1]
• “Estimator is a function of random variables that can be used in estimating unknown
parameters of a theoretical probability distribution” – Encyclopedia of mathematics [2]
• “An estimator is a function of the observations, a specific way of putting them together.
It may be specified by an arithmetic formula, like 𝑦 = ∑ 𝑥𝑖 ⁄𝑛, or by words alone, as in
directions for finding a sample median by ordering and counting” – Mosteller and
Tukey (1987) [3]
̃ : 𝒁𝑵 × 𝑼𝑵 → 𝜣
𝜽
Dimana mean dari populasi samplingnya (jumlah sampling – N) adalah true value-nya.
b. Berdasarkan definisi estimator pada bagian sebelumnya dan referensi [4], “a good
estimator” memiliki ciri-ciri sebagai berikut :
• Mampu mengaproksimasi model yang dapat mererpresentasikan sistem dengan input
tertentu dan output yang diinginkan
• Hasil estimasinya juga unbiased, artinya nilai hasil estimasi wajib sama dengan true
value-nya dengan jumlah sampling yang semakin banyak
𝐸[𝜃̂] = 𝐸 [𝜃]
• Nilai ketidakpastian (uncertainty) atau variance dari parameter yang diestimasi itu
minimum, sehingga kepercayaan atas hasil estimasi tersebut tinggi (minimum
variance)
• Nilai estimasinya konvergen ke suatu nilai tertentu terhadap jumlah sampling yang
meningkat (consistent estimate)
c. Perbedaan antara noise dengan residual dapat direpresentasikan dari segi deskriptif dan
ekspresi matematikanya.
• Dari segi deskriptif, residual 𝒓𝒌 merupakan sisa atau perbedaan nilai dari hasil
pengukuran 𝒛𝒌 dengan luaran atau output dari model 𝒉𝒌 (𝜽, 𝒖, 𝒘
̃ ) dengan asumsi nilai
ekspektasinya sama dengan 0. Atau secara ekspresi matematikanya dapat dirumuskan
sebagai berikut
𝒓𝒌 = 𝒛𝒌 − 𝒉𝒌 (𝜽, 𝒖, 𝒘
̃)
Dengan asumsi 𝐸 [𝒓𝒌 ] = 0. Sehingga hasil pengukurannya akan sama dengan output
dari model yang dibuat.
𝒛𝒌 = 𝒉𝒌 (𝜽, 𝒖, 𝒘
̃)
• Sementara itu, secara deskriptif noise 𝝂𝒌 dapat didekati dengan residual dimana noise itu
sendiri merupakan suatu galat yang didapatkan dari process pengukuran yang dilakukan.
Berarti noise dapat disimpulkan sebagai variabel yang aditif atau tambahan pada ekspresi
matematikanya. Sehingga dapat dirumuskan sebagai berikut (pada kasus additive noise)
𝒛𝒌 = 𝒉𝒌 (𝜽, 𝒖, 𝒘
̃ ) + 𝝂𝒌
𝒓𝒌 = 𝝂𝒌
Dimana 𝒗𝒌 dan 𝒘
̃ merupakan komponen acak.
Maka hasil dari sampling yang dilakukan disajikan dalam kedua plot berikut ini
Terdapat perbedaan pada sumbu vertikal kedua plot tersebut, dimana pada plot histogram
sumbu vertikalnya adalah frekuensi dari sample yang diambil. Sementara itu, pada plot
history yang kanan sumbu vertikalnya merupakan nilai acak yang diambil pada setiap
sampling.
e. Berdasarkan referensi [4], terdapat 3 pendekatan estimator dalam bidang estimasi parameter
yaitu:
• Bayesian Model (dikembangkan sekitar 1701-1761 oleh Thomas Bayes), dimana angka-
angka yang diestimasinya berbentuk distribusi sehingga semua informasi mengenai
angka tersebut telah diketahui lebih lengkap. Dengan asumsi bahwa estimatornya 𝜽
merupakan vector of random variables bukan hanya skalar saja. Residualnya juga
didapat dalam bentuk distribusi dan memiliki covariance matrix. Teori ini dapat
diekspresikan secara matematik dengan persamaan berikut
𝑝(𝜃|𝑧)𝑝(𝜃)
𝑝(𝜃|𝑧) =
𝑝 (𝑧 )
Namun metode ini belum terlalu banyak digunakan dalam bidang kedirgantaraan. Selain
itu asumsi lainnya berupa uninformative prior dapat digunakan apabila parameter
sebelumnya sama sekali tidak diketahui.
• Fisher Model (dikembangkan sekitar 1912-1940 oleh R.A. Fisher), dimana angka-angka
parameternya juga berbentuk vektor namun merupakan unknown constant paramter.
Prosesnya dilakukan dengan mengiterasi angka parameternya yang dapat meminumkan
Cost Function-nya sehingga residualnya mirip dengan noise-nya. Residualnya
merupakan sebuah random vector dengan probability density dan covariance matrix
tertentu. Asumsi yang digunakan adalah hasil pengukuran (𝒛𝒌 )-nya berupa independen
terhadap waktu dan identically distributed disepanjang waktu. Teori ini dapat
diekspresikan secara matematik dengan persamaan berikut
𝑝(𝑍|𝜃)𝑝(𝜃)
𝑝(𝜃|𝑍) =
∫𝑅 𝑝(𝑍|𝜃)𝑝(𝜃)𝑑𝜃
Hasil estimasinya berupa suatu nilai tertentu dengan standar deviasi yang dimilikinya.
• Least-Square Model (dikembangkan sekitar tahun 1795 oleh C.F.Gauss), dimana
parameter yang didapat berupa vektor yang unknown constant paramters, sama seperti
Fisher Method. Namun perbedaannya terletak pada residual yang didapat, dimana
residualnya hanya berbentuk random vector dari additive noise-nya saja tanpa
membentuk suatu distribusi. Cost function dari teori ini dapat diekspresikan secara
matematik seperti berikut
𝑁
1 2
𝐽(𝜃) = ∑ 𝑤𝑘 (𝑧𝑘 − ℎ𝑘 (𝜃, 𝑢, 𝑤
̃ ))
2
𝑘=0
Metode ini merupakan metode yang paling sederhana karena hanya mengoptimalkan cost
function-nya yang merupakan fungsi weighted sum of squares-nya. Metode ini digunakan
tanpa adanya asumsi yang diterapkan.
f. Central Limit Theorem menyatakan bahwa distribusi dari sampling populasi yang diambil
akan selalu membentuk distribusi normal atau Gaussian Distribution seiring dengan
bertambahnya jumlah sampling, hal ini berlaku untuk apapun jenis distribusi data yang
diukurnya. Untuk membuktikan pernyataan sebelumnya, dibuatlah program dengan
menggunakan bahasa Python seperti berikut.
• Distribusi Uniform
Dengan range dari random numbers-nya antara 0 hingga 1 sebanyak 1000 buah. Dengan
sampling sebanyak 10000 kali.
Gambar 2. Pembuktian Central Limit Theorem, Kiri : Distribusi Uniform (Populasi) dan
Kanan : Distribusi Normal (Mean)
Dapat dilihat bahwa, ketika nilai tengah atau mean dari sample random numbers pada
distribusi uniform dihitung. Maka akan terbentuk distribusi normal atau Gaussian
Distribution seperti pada Gambar 2 di atas.
• Distribusi Chi-square
Dengan parameter pembanding sampling variance dan population variance-nya bernilai
2 dan sampling dilakukan sebanyak 1000 kali.
Terbukti bahwa, ketika nilai tengah atau mean dari sample random numbers pada
distribusi uniform dihitung. Maka akan terbentuk distribusi normal atau Gaussian
Distribution seperti pada Gambar 3 di atas.
• Distribusi Weibull
Dengan shape parameter-nya bernilai 2 dan sampling dilakukan sebanyak 5000 kali
dengan 10000 percobaan.
Apabila diplot maka hasilnya seperti berikut
x y
2.5 4.5
3.5 6
4 4
4.5 5.5
Solusi :
𝜃0
𝑧 = [𝑥1 ⋯ 𝑥𝑛𝜃 ] [ ⋮ ] + 𝑣 = 𝑿𝑻 . 𝜽 + 𝑣
𝜃𝑛𝜃
Dimana 𝑧 adalah hasil pengukuran. Untuk semua titik pada data, maka bentuk
persamaan regresinya menjadi
𝑥00 ⋯ 𝑥0𝑛𝜃 𝜃0
𝑧=[ ⋮ ⋱ ⋮ ] [ ⋮ ] + 𝑣 = 𝑿𝑻 . 𝜽 + 𝑣
𝑥𝑁0 ⋯ 𝑥𝑁𝑛𝜃 𝜃𝑛𝜃
Sehingga residualnya dapat dihitung sebagai berikut
𝑣 = 𝑧 − 𝑿𝑻 . 𝜽
Dengan asumsi 𝑣 bernilai tengah 0 dan uncorrelated dengan variance yang konstan.
Berdasarkan buku referensi [5], sesuai dengan kaidah pada teori Ordinary Least Square,
maka penjumlahan dari residual kuadratnya harus diminimumkan
𝑁 𝑁
𝑅𝑆𝑆(𝜽) = 𝑣 𝑇 𝑣 = (𝑧 − 𝑿𝑻 . 𝜽)𝑇 (𝑧 − 𝑿𝑻 . 𝜽)
𝜕𝑣 𝑇 𝑣
= 0 − 2𝑿𝑇 𝑧 + 2(𝑿𝑻 𝑿)𝜽 = 𝟎
𝜕𝜃
2(𝑋 𝑇 𝑋)𝜃 = 2𝑋 𝑇 𝑧
𝜽 = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝒛
b. Berdasarkan referensi [4] dan , kondisi yang harus dipenuhi sebagai “a good estimator”
adalah unbiased estimation, minimum variance, dan consistent estimate.
• Dengan asumsi hasil pengukuran (z) sama dengan luaran atau output model (y),
maka dapat diturunkan persamaannya menjadi
̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝒚
𝜽
̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 (𝑿. 𝜽 + 𝑣)
𝜽
̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝑿. 𝜽 + (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝑣
𝜽
̂ = 𝑰. 𝜽 + (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝑣
𝜽
Dengan meninjau expected value-nya
̂ ] = 𝑬[𝜽] + 𝐸 [(𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝑣]
𝑬[𝜽
̂ ] = 𝑬[𝜽] + (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 . 𝐸 [𝑣]
𝑬[𝜽
Dengan mengasumsikan expected value dari noise atau residualnya sama
dengan 0, maka diperoleh
̂] = 𝜽
𝑬[𝜽
Hal ini berarti, setiap expected value dari parameternya akan menghasilkan nilai
parameter itu sendiri. Sehingga dapat dikatakan bahwa OLS memenuhi
kondisi unbiased estimation.
• Selain itu, efisiensi dari suatu estimator ketika ia memenuhi minimum variance
unbiased dari nilai estimasinya. Jika semua unbiased estimator-nya dari suatu
populasi yang tidak diketahui parameternya, maka estimatornya akan memiliki
variance yang paling kecil. Sehingga nilai estimasinya akan semakin mendekati
nilai tengahnya. Jika 𝜽 merupakan OLS estimator yang linier dan unbiased,
maka 𝑏𝑜∗ merupakan hasil estimasi dari estimator lainnya yang juga linier dan
unbiased.
𝑉𝑎𝑟(𝜽) < 𝑉𝑎𝑟(𝑏𝑜∗ )
Untuk semua nilai estimasi yang didapat (i), maka dituliskan sebagai berikut
𝑉𝑎𝑟(𝜃𝑖 ) < 𝑉𝑎𝑟(𝑏𝑖∗ )
Sehingga dapat dikatakan bahwa OLS juga memenuhi kondisi minimum
variance unbiased dari nilai estimasinya.
• Kondisi ketiga yang harus dipenuhi adalah hasil estimasi yang konsisten atau
consistent estimates. Untuk membuktikannya, maka ketika jumlah sampel
sangat banyak atau diasumsikan tak hingga, maka nilai covariance-nya akan
sama dengan 0.
𝟏 𝟐 𝟏 𝑻 −𝟏
̂
𝒍𝒊𝒎 𝑪𝒐𝒗[𝜽] = 𝒍𝒊𝒎 [ 𝝈 ( 𝑿 𝑿) ] = 𝟎
𝑵→∞ 𝑵→∞ 𝑵 𝑵
Sehingga tidak ada error antara hasil estimasi dengan parameter yang diukur
pada jumlah sampel N menuju tak hingga. Jadi dapat disimpulkan bahwa
OLS memenuhi kondisi constant estimates pada jumlah sampel (N) yang
sangat banyak.
c. Nilai estimasi parameter a dan b dengan relasi 𝑦 = 𝑎. 𝑥 + 𝑏 dapat dihitung
menggunakan Metode Ordinary Least Square (OLS). Dengan data yang telah diberikan
pada soal, maka dapat dibentuk dalam bentuk matriks. Pada matriks regressor (x),
kolom pertama akan diisi dengan 1, karena merupakan regressor dari b, dengan
demikian
1 2.5 4.5
𝑋 = [1 3.5] dan 𝑦 = [ 6 ]
1 4 4
1 4.5 5.5
Dengan memanggil solusi dari OLS
̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝒚
𝜽
1 2.5 −𝟏 4.5
̂ = ([ 𝟏
𝜽
𝟏 𝟏 𝟏 1
][ 3.5]) [ 𝟏 𝟏 𝟏 𝟏
][ 6 ]
𝟐. 𝟓 𝟑. 𝟓 𝟒 𝟒. 𝟓 1 4 𝟐. 𝟓 𝟑. 𝟓 𝟒 𝟒. 𝟓 4
1 4.5 5.5
̂=[ 𝟒 𝟏𝟒. 𝟓 ]−𝟏 [𝟐𝟎]
𝜽
𝟏𝟒. 𝟓 𝟓𝟒. 𝟕𝟓 𝟕𝟑
𝟏 𝟓𝟒. 𝟕𝟓 −𝟏𝟒. 𝟓 𝟐𝟎
̂=
𝜽 [ ][ ]
𝟖. 𝟕𝟓 −𝟏𝟒. 𝟓 𝟒 𝟕𝟑
̂ = [ 𝟔. 𝟐𝟓𝟕 −𝟏. 𝟔𝟓𝟕] [𝟐𝟎]
𝜽
−𝟏. 𝟔𝟓𝟕 𝟎. 𝟒𝟓𝟕 𝟕𝟑
̂ = [𝟒. 𝟏𝟕𝟏]
𝜽
𝟎. 𝟐𝟐𝟗
Dengan mengetahui bahwa komponen pada baris pertama matriks estimator berkorelasi
dengan parameter yang tidak memiliki regressor. Sehingga nilai estimasi a dan b adalah
𝒂 = 𝟎. 𝟐𝟐𝟗 dan 𝒃 = 𝟒. 𝟏𝟕𝟏
Nomor 3
Diberikan model gerak yaw dari suatu pesawat terbang sebagai berikut
𝐶𝑛 = 𝐶𝑛0 + 𝐶𝑛𝛽 𝛽 + 𝐶𝑛𝑝 𝑝 ∗ +𝐶𝑛𝑟 𝑟 ∗ +𝐶𝑛𝛿𝑎 𝛿𝑎 + 𝐶𝑛𝛿𝑟 𝛿𝑟
Solusi :
a. Dengan menggunakan bahasa pemrograman python, dari data yang diberikan dapat diplot
regressor-nya terhadap waktu seperti berikut
b. Dengan metode OLS, maka hasil estimasinya dibuat dengan program seperti berikut
𝐶𝑛𝑝 = −0.05151076
𝐶𝑛𝑟 = −0.19758477
𝐶𝑛𝛿𝑎 = 0.00233649
𝐶𝑛𝛿𝑟 = −0.13053534
c. Setelah semua estimasi nilai pada regressor sudah diketahui, maka dapat dihitung luaran
atau output dari nilai estimasinya. Apabila dibandingkan dalam satu kurva, maka dapat
dibuat program sebagai berikut
Apabila diplot dalam satu plot vs waktu, maka terlihat seperti gambar berikut
Dapat dilihat secara visual bahwa hasil nilai estimasi yang didapat sudah cukup akurat dalam
memodelkan hasil observasi yang dilakukan. Untuk lebih jelas mengenai keakuratan hasil
estimasi, dapat dilihat beberapa parameter sepert standar deviasi, error, dll yang akan dibahas
pada bagian berikut.
d. Standar deviasi dihitung dengan menghitung error dan covariance terlebih dahulu
Dan didapatkan hasil sebagai berikut
Dengan nilai standar deviasi yang sudah sangat kecil, berarti dapat disimpulkan bahwa estimasi
yang dilakukan pada model sudah akurat dan tidak bias (memenuhi salah satu syarat “a good
estimator”.
Untuk lebih memudahkan secara visual, plot dari standar deviasi yang dihitung ditampilkan
pada gambar berikut
Nilai error yang sangat kecil menunjukkan bahwa error dari hasil estimasi 𝛉 terhadap hasil
pengukuran 𝐳 sudah sangat kecil. Selain itu hasil perhitungan covariance juga dapat
ditampilkan pada tabel berikut.
Dengan nilai covariance yang kecil, berarti variance dari estimasi ini juga sudah minimum dan
dapat dikatakan memenuhi kondisi kedua untuk menjadi “a good estimator”
f. Menurut referensi [6], Coefficient of determinant (R2) adalah suatu indikator yang
digunakan untuk menggambarkan berapa banyak variasi yang dijelaskan dalam model.
Indikator tersebut dibuat pada python dengan program seperti berikut.
Berdasarkan nilai R2 yang didapat, maka tingkat signifikansi atau kesesuaian hubungan antara
variabel bebas dan tak bebas dalam regresi ini sudah baik karena nilainya hampir sama dengan
1. Dimana nilai R2 dikatakan baik apabila berada pada rentang 0.5 sampai 1.
g. Dari persamaan residual yang tertera pada bagian sebelumnya, maka nilai residualnya dapat
dihitung seiring dengan data yang berubah tiap waktu. Maka dapat dibuat programnya
seperti berikut
Hasil plotnya seiring dengan bertambahnya waktu sesuai data yang sudah diberikan
sebelumnya adalah sebagai berikut
Dapat dilihat pada Gambar 9 diatas, bahwa nilai residualnya cukup kecil dan hampir mendekati
0 walaupun tidak benar-benar 0. Dalam dunia nyata, memang tidak mungkin suatu residual
akan persis 0 karna hal itu hanya merupakan asumsi agar estimasi modelnya ideal.
REFERENSI
[1] R. E. Maine and K. W. Iliff, Identification of Dynamic System, Ames Research Center,
Dryden Flight Research Facility, Edwards, California: NASA, 1985.
[3] M. F. and T. J.W., The Collected Works of John W. Tukey : Philosophy and Principles of
Data Analysis 1965-1986, University of North Carolina, Chapel Hill: Wadsworth &
Brooks/Cole Advanced Books & Software, 1987.
[4] H. Muhammad and J. Sembiring, Chapter 4 : Estimation Thery (Part 2) - Modul Kuliah
AE6001 Kapita Selekta Dirgantara B : Paramter Identification, Bandung: Institut
Teknologi Bandung, 2022.
[5] A. Buteikis, Practical Econometrics and Data Science, Vilnius University, Faculty of
Mathematics and Informatics, Lithuania, 2018.
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
""" This code is created by Yusuf (2021)
and modified by Rizqy Agung (2022)
"""
# Create the random numbers
x = np.random.normal(4,1,1000)
fig, (ax1, ax2) = plt.subplots(1,2, figsize=(12,4))
ax1.plot(x)
ax2.hist(x, bins='auto')
plt.show()
""" This code is created by Yusuf (2021)
and modified by Rizqy Agung (2022)
"""
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_csv("data_tugas_03.csv")
data.head()
""" This code is created by Pak Javen (2022)
and modified by Rizqy Agung (2022)
"""
fig, ax = plt.subplots(nrows=5, ncols=1, figsize=(14, 20))
ax[0].plot(data.time_s, data.beta_rad, "r-.")
ax[0].set_xlim([0, max(data.time_s)])
ax[0].set_ylabel("Beta (rad)", fontsize=14)
_ = ax[0].set_xlabel("time (s)", fontsize=14)
# Constructing Regressor
X = np.concatenate((np.ones(shape=(len(data),1)), data.iloc[:, 1:6].to_numpy()), axis=1)
X.shape
z = data.iloc[:, 6].to_numpy()
theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(z)
theta
ypred = np.dot(X, theta)
# ypred.shape
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(10, 6))
ax.plot(data.time_s, data.Cn, "r-.", lw=2.0)
ax.plot(data.time_s, ypred, "k", lw=1.0)
ax.set_xlim([0, max(data.time_s)])
ax.set_ylabel("Cn", fontsize=14)
ax.set_title("Observation vs Estimated - Yawing Moment Coefficient")
ax.legend(["Observation", "Estimated"])
_ = ax.set_xlabel("time (s)", fontsize=14)
fit_error = 1/(len(z)-len(theta))*np.sum((z-ypred)**2)
fit_error
Cov = fit_error*np.linalg.inv(np.dot(np.transpose(X),X))
pd.DataFrame(Cov)
std_dev = np.diag(Cov)**0.5
std_dev
plt.figure(figsize=(10,6))
plt.errorbar(list(range(1, 7)),theta,yerr=std_dev,fmt='o',ms=7,capsize=10)
plt.xticks(list(range(1, 7)),[r'$\theta_0$',r'$\theta_1$',r'$\theta_2$', r'$\theta_3$',
r'$\theta_4$',r'$\theta_5$'])
plt.xlabel('Parameter')
plt.ylabel('Standard deviation of Parameter')
plt.show()
z_bar = 1/len(z)*np.sum(z)
r_square = float((np.dot(np.dot(np.transpose(theta),np.transpose(X)),z) - len(z)*z_bar**
2) / (np.dot(np.transpose(z),z) - len(z)*z_bar**2))
r_square
r = z-ypred
plt.plot(data['time_s'],r)
plt.xlabel('Time (s)')
plt.show()