Donald E.kirk Halaman 77-84

u * (t) = f (x (t), t), (3,9-3)
sayangnya prosedur penghitungan tidak menghasilkan ekspresi analitis yang bagus untuk f.
Dimungkinkan untuk mendekati f dalam beberapa mode, tetapi jika ini tidak dapat dilakukan,
hukum kontrol optimal harus dilaksanakan dengan mengekstraksi nilai-nilai kontrol dari
perangkat penyimpanan yang berisi solusi dari Persamaan. (3,8-3) dalam bentuk tabel.
Perbandingan Pemrograman Dinamis dan Enumerasi Langsung
pemrograman dinamis menggunakan prinsip optimalitas untuk mengurangi secara

dramatis jumlah perhitungan yang diperlukan untuk menentukan hukum kontrol optimal.
Dalam rangka untuk lebih menghargai sepenuhnya pentingnya prinsip optimalitas, mari kita
bandingkan algoritma pemrograman dinamis dengan pencacahan langsung semua urutan
kontrol mungkin.
Pertimbangkan proses kontrol orde pertama dengan satu masukan kontrol. Asumsikan
bahwa nilai-nilai state diterima dikuantisasi menjadi 10 level, dan nilai-nilai kontrol diterima
menjadi empat tingkatan. Dalam pencacahan langsung kami mencoba semua dari empat nilai
kontrol di masing-masing 10 nilai state awal untuk satu kali kenaikan . Secara
umum, ini akan memungkinkan untuk menganggap setiap dari 40 nilai-
nilai state diterima. Dengan asumsi bahwa semua nilai-nilai state ini diterima, kita
menerapkan semua empat nilai kontrol di masing-masing 40 nilai-nilai state dan menentukan
nilai-nilai yang dihasilkan dari Prosedur ini berlanjut untuk jumlah yang
sesuai.
Tabel 3-5 CONTOH Perbandingan PEMROGRAMAN DINAMIS DAN
PENGHITUNGAN LANGSUNG
Jumlah Jumlah perhitungan Jumlah perhitungan Jumlah perhitungan yang
Tahapan yang diperlukan oleh yang dibutuhkan diperlukan oleh pencacahan
dalam pemrograman Namic oleh pencacahan langsung (dengan asumsi 50%
proses N dy langsung dari nilai-nilai state diterima
dan berbeda)
1 40 40 40
2 80 200 120
3 120 840 280
4 160 3400 600
5 200 13640 1240
6 240 54.600 2520
L 40L
tahapan. Dalam pemrograman dinamis, pada setiap tahap kami mencoba empat nilai kontrol
di masing-masing 10 nilai state. Tabel 3-5 menunjukkan perbandingan jumlah perhitungan
yang diperlukan oleh dua metode. Tabel juga mencakup jumlah perhitungan yang diperlukan
untuk pencacahan langsung jika diasumsikan bahwa pada akhir setiap tahap hanya setengah
dari nilai-nilai state yang berbeda dan diterima. Titik penting adalah bahwa jumlah
perhitungan yang diperlukan oleh penghitugan lansung meningkat secara eksponelsianl
dengan jumlah
The Curse of Dimensionality

Dari pembahasan sebelumnya mungkin tampak bahwa mungkin dinamis programming
adalah jawaban untuk semua masalah kita; sayangnya, ada satu kelemahan yang serius: untuk
sistem dimensi tinggi jumlah lokasi penyimpanan berkecepatan tinggi menjadi penghalang.
Bellman menyebut kesulitan ini "kutukan dari dimensi." Untuk memahami masalah yang
akan timbul , ingat bahwa untuk mengevaluasi kita memerlukan untuk akses ke
nilai-nilai yang telah di hidung sebelumnya . Untuk sistem orde ketiga dengan
100 level kuantisasi di setiap state koordinat arah , ini berarti bahwa 102 x 102 x 102 = 106
lokasi penyimpanan yang diperlukan; nomor ini mendekati batas penyimpanan cepat-akses
yang tersedia dengan komputer saat ini. Tidak ada yang mencegah kita dari menggunakan
penyimpanan berkecepatan rendah; Namun, ini akan secara drastis mepercepat perhitungan.
Teknik yang telah dikembangkan untuk meringankan kebigugan sebelumnya , "Selisih state
yang dinamis pemrograman" Larson [Ll] tampaknya menjadi yang paling menjanjikan. Ada
metode lain, bagaimanapun, beberapa dari yang dijelaskan dalam [N-1]. [L-2] berisi survei
yang sangat baik dari prosedur penghitungan yang digunakan dalam pemrograman dinamis.
Teknik yang telah dikembangkan untuk meringankan kebingugan sebelumnya, "Selisih state
yang dinamis pemrograman" Larson [Ll] tampaknya menjadi yang paling menjanjikan. Ada
metode lain, bagaimana pun, beberapa dari yang dijelaskan dalam [N-1]. [L-2] berisi survei
yang sangat baik dari prosedur penghitungan yang digunakan dalam pemrograman dinamis.
3.10 HASIL ANALISIS -DISCRETE LINEAR REGULATOR MASALAH

Pada bagian ini kita mempertimbangkan sistem diskrit dijelaskan oleh persamaan state
x (k + 1) = A (k) x (k) + B (k) u (k). (3,10-1)
State-state dan kontrol tidak dibatasi oleh batas-batas apapun. Masalahnya adalah untuk
menemukan kebijakan yang optimal u * (x (k), k) yang meminimalkan ukuran kinerja
dimana
H dan Q (k) adalah nyata simetris positif matriks nxn semi-pasti.
R (k) adalah simetris positif matriks mxm nyata yang pasti.
N adalah bilangan bulat tetap lebih besar dari 0.
Masalah di atas adalah mitra diskrit masalah linear regulator terus menerus dipertimbangkan
dalam Bagian 3.12 dan 5.2.t Untuk menyederhanakan notasi dalam derivasi yang mengikuti,
mari kita membuat asumsi bahwa A, B, R, dan Q adalah matriks konstan. Pendekatan kami
akan mengambil adalah untuk memecahkan persamaan fungsional (3,7-18). Kita mulai
dengan mendefinisikan
di mana P (O) A H. Kebutuhan selama interval akhir diberikan oleh
dan kebutuhan minimum adalah
Sekarang x (N) terkait dengan u (N - 1) dengan persamaan state, sehingga
Hal ini diasumsikan bahwa kontrol diterima tidak dibatasi; Oleh karena itu, untuk
meminimalkan JN-l, N sehubungan dengan u (N - 1) kita perlu mempertimbangkan hanya nilai-
nilai kontrol yang t
Persamaan (3,10-1) dan (3,10-2) mungkin hasil dari pendekatan diskrit untuk masalah
tinuous con, atau formulasi untuk linier, sistem sampel-data (lihat Lampiran 2).
Mengevaluasi derivatif parsial yang ditunjukkan memberi
Ru (N - 1) + BTP (O) [Ax (N - 1) + Bu (N - I)] = OJ (3,10-8)
Nilai-nilai kontrol yang memenuhi persamaan ini dapat menghasilkan minimal
maksimal, atau tidak. Untuk menyelidiki lebih lanjut, kita membentuk matriks parsial kedua
diberikan oleh
Dengan asumsi H [dan karenanya P (O) ] adalah matriks semi-definit positif, dan R adalah
matriks definit positif . Hal ini dapat ditunjukkan bahwa sejak P (O) adalah positif semi pasti,
begitu juga BTP (O) B. Ini berarti bahwa R + BTF (O) B adalah jumlah dari matriks definit
positif dan matriks semi-definit positif, dan ini berarti bahwa R + BTP (O) B adalah positif
definite.t Sejak adalah fungsi kuadrat dari u (N - 1) dan matrk
positif pasti, kontrol yang memenuhi persamaan. (3,10-8) menghasilkan mutlak, atau
global,minimum
Sejak R + BTP (O) B adalah definit positif, kebalikan ditunjukkan adalah jaminan untuk
eksis. Mengganti ekspresi untuk u * (N - I) ke dalam persamaan
fo memberikan yang setelah istilah telah coJlected menjadi.
Simetri R dan P (O) juga telah digunakan di sini. Pembaca akan menemukan hubungan
kalkulus matriks yang diberikan dalam Lampiran 1 membantu dalam mengikuti langkah-
langkah dari derivasi ini. t Lihat Lampiran 1.
Definisi untuk P (l) jelas, dengan pemeriksaan (3,10-11). Titik penting adalah JJ_1 itu, N
adalah bentuk yang sama persis seperti l ° t, N, yang berarti bahwa ketika kita melanjutkan
tahap proses satu lebih jauh ke belakang, hasilnya akan memiliki bentuk yang sama persis;
yaitu,
Dan
Jika Anda tidak percaya ini, mencoba dan melihat. Dengan induksi, untuk tahap Kth
Dan
n kasus waktu bervariasi umum derivasi yang sama memberikan.

Apa implikasi dari hasil ini? Pertama, dan yang paling penting, mengamati bahwa op kontrol
timal pada setiap tahap adalah kombinasi linear dari state-state; Oleh karena itu, kebijakan yang
optimal adalah linear umpan balik state-variabel. Perhatikan bahwa umpan balik waktu
bervariasi, bahkan jika A, B, R, dan Q adalah konstan matriks-ini berarti bahwa controller
untuk kebijakan yang optimal dapat dilaksanakan oleh m waktu bervariasi amplifier-musim
panas masing-masing dengan n masukan ditampilkan pada Gambar. 3 · 8. Pada akhir Bagian
3.8 kita berkomentar, ".. controller yang optimal secara fisik diwujudkan dengan lihat tabel-up
perangkat dan generator sinyal piecewise-konstan"; ketika sistem linear dan ukuran kinerja
kuadrat di state-state dan kontrol,
Gambar 3-8 (a) Tanaman dan linear pengendali umpan balik waktu bervariasi (b) konfigurasi
Pengontrol
Telihat yang terlibat dalam controller adalah untuk menentukan pengaturan gain yang sesuai
dari panggung ke panggung. Hasil penting lain dari derivasi adalah bahwa biaya minimum
untuk proses N-panggung dengan awal state x, diberikan oleh
yang mengikuti langsung dari definisi P (N - K). Ini berarti penyimpanan tha dari P (N - K)
matriks untuk K = I, 2, ..., N memberikan kita sarana untuk menentukan biaya minimum
untuk proses dari 1 sampai N tahap Implikasi penghitungan hasil ini juga penting. Saya
memesan untuk mengevaluasi keuntungan umpan balik dan biaya minimum untuk setiap
state initia, perlu hanya untuk memecahkan persamaan.
Dan
dengan P (O) = H. Kami mendapatkan solusi dengan mengevaluasi F (N - l) menggunakan P

(O) = H, dan kemudian mengganti F (N - 1) di (3,10-20) untuk menentukan P (l). Ini
merupakan satu siklus dari prosedur, yang kemudian kita lanjutkan dengan menghitung F (N
- 2), P (2), dan seterusnya. Solusi yang terbaik adalah dilakukan oleh komputer digital; untuk
pengurangan jumlah operasi aritmatika, akan sangat membantu untuk mendefinisikan
sehingga · prosedur ini adalah untuk memecahkan (3,10-19), maka (3,10-21), dan akhirnya
persamaan
F dan P matriks dicetak untuk digunakan dalam sintesis kontrol optimal dan menentukan
biaya minimum.
Adalah penting untuk menyadari bahwa solusi dari persamaan ini setara dengan
prosedur penghitungan yang diuraikan dalam Bagian 3.8; Namun, karena
dari linear p namics Lant dy dan kuadrat ukuran p erf ormance kita memperoleh hasil yang
ditutup-bentuk yang diberikan dalam Persamaan, (3,10-16) melalui (3.10-20a).
Pembaca mungkin telah memperhatikan bahwa masalah pengendalian Bagian 3.5
adalah dari jenis regulator linear. Lalu mengapa tidak kontrol optimal yang paling kolom
kanan dari Tabel 3-2 dan 3-3 fungsi linear dari nilai-nilai state? Jawabannya adalah bahwa
grid terkuantisasi poin sangat kasar, menyebabkan numericalinaccuracies. Ketika kenaikan
kuantisasi yang dibuat jauh lebih kecil, hubungan linear antara kontrol dan state nilai-nilai
optimal adalah ent appar-; efek ini diilustrasikan dalam Masalah 3-14 melalui 3-17 di akhir
bab ini.
Karakteristik penting lain dari masalah regulator linear adalah bahwa jika sistem
(3,10-1) benar-benar controllablet dan waktu-invariant, H = 0, dan R dan Q adalah matriks
konstan, maka hukum kontrol optimal adalah invarian waktu-untuk tak terbatas proses -tahap;
itu adalah
F (N - K) ---- + F (matriks konstan) sebagai N - + oo,
Dari sudut pandang fisik ini berarti bahwa jika suatu proses harus dikendalikan untuk
sejumlah besar tahapan kontrol optimal dapat diimplementasikan oleh umpan balik dari state-
state melalui konfigurasi penguat-musim panas seperti yang ditunjukkan pada Gambar. 3-8 (b
), tetapi dengan faktor keuntungan. Salah satu cara untuk menentukan fi xed konstan F
matriks adalah untuk memecahkan hubungan rekurensi untuk sebanyak tahapan yang
diperlukan untuk F (N - K) untuk berkumpul untuk matriks konstan.
Contoh 3,10-1. Sistem diskrit linier
adalah untuk dikontrol untuk meminimalkan ukuran kinerja
Menentukan hukum kontrol optimal. Persamaan (3,10-19), (3,10-21), dan

(3.10-20a) paling mudah dipecahkan dengan menggunakan komputer digital dengan A dan B
seperti yang ditentukan dalam persamaan. (3,10-22), t
Sistem diskrit Persamaan, (3,10-1) dengan A dan matriks konstan B benar-benar con trollable
jika dan hanya jika matriks nx mn

Donald E.kirk Halaman 77-84

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Donald E.kirk Halaman 77-84

Diunggah oleh

Hak Cipta:

Format Tersedia

u * (t) = f (x (t), t), (3,9-3)

Perbandingan Pemrograman Dinamis dan Enumerasi Langsung

pemrograman dinamis menggunakan prinsip optimalitas untuk mengurangi secara

The Curse of Dimensionality

3.10 HASIL ANALISIS -DISCRETE LINEAR REGULATOR MASALAH

di mana P (O) A H. Kebutuhan selama interval akhir diberikan oleh

dan kebutuhan minimum adalah

Sekarang x (N) terkait dengan u (N - 1) dengan persamaan state, sehingga

n kasus waktu bervariasi umum derivasi yang sama memberikan.

dengan P (O) = H. Kami mendapatkan solusi dengan mengevaluasi F (N - l) menggunakan P

adalah untuk dikontrol untuk meminimalkan ukuran kinerja

Menentukan hukum kontrol optimal. Persamaan (3,10-19), (3,10-21), dan

Anda mungkin juga menyukai