Algorithms For Fitting The Constrained Lasso
Algorithms For Fitting The Constrained Lasso
Mengutip artikel ini: Brian R. Gaines, Juhyun Kim & Hua Zhou (2018): Algorithms for Fitting the
Constrained Lasso, Journal of Computational and Graphical Statistics, DOI: 10.1080/10618600.2018.1473777
Abstrak
Kata Kunci : Metode pengali arah bolak-balik; Optimasi cembung; laso umum; Kendala linier;
Regresi yang dikenakan sanksi; Jalur regularisasi.
Fokus kami adalah memperkirakan masalah laso yang dibatasi (James et al., 2013)
1 2
memperkecil kamu - Xÿ 2 + ÿÿ1 (1)
2
tunduk pada Aÿ = b dan Cÿ ÿ d,
1
Machine Translated by Google
dimana y ÿ R n adalah vektor respons, X ÿ R n×p adalah matriks desain prediktor atau
kovariat, ÿ ÿ R p adalah vektor koefisien regresi yang tidak diketahui, dan ÿ ÿ 0 adalah penyetelan
parameter yang mengontrol jumlah regularisasi. Diasumsikan bahwa kendala tersebut
matriks A dan C, keduanya mempunyai rangking baris penuh. Seperti namanya, laso yang dibatasi
menambah laso standar (Tibshirani, 1996) dengan persamaan linear dan ketidaksetaraan con-
strain. Sedangkan penggunaan 1 penalti memungkinkan pengguna untuk memaksakan pengetahuan sebelumnya pada
tonisitas dapat dikenakan pada perkiraan koefisien menggunakan laso yang dibatasi dengan
matriks kendala ketimpangan
1 ÿ1
ÿ ÿ
1 ÿ1
C= .. .. (2)
. .
1 ÿ1
ÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ
oleh Tibshirani dan Suo (2016) sebagai laso yang dipesan, dan merupakan kasus khusus dari laso yang
dibatasi (1).
Contoh lain dari laso terbatas yang muncul dalam literatur adalah
laso positif. Pertama kali disebutkan dalam karya penting Efron dkk. (2004), laso positif
mengharuskan koefisien laso menjadi non-negatif. Varian laso ini telah terlihat penerapannya.
et al., 2012), klasifikasi dokumen (El-Arini et al., 2013), dan manajemen portofolio (Wu et al., 2014). Laso
positif adalah kasus khusus dari laso terbatas (1) dengan C = ÿIp dan d = 0p. Selain itu, ada beberapa
interval satuan untuk menafsirkan koefisien sebagai probabilitas yang terkait dengan kehadiran
2
Machine Translated by Google
0,8
Lasso Terkendala (ÿ = 0) •
Regresi Isotonik
• • ••
••••• ••
• •• • •
0,4
• • ••
•
• •• •••
• • ••
• •
• ••
Anomali
0,0
•
• •••• • ••• ••• • • • •
••• ••
••• •• •• •• • ••
• • •• •
Suhu
• •• • •
• • ••• • •• •
•• •• • ••
•• •••
• •• •• •
• ••• ••• •• • • • •• • • •
•• ••• •
•• •• •
ÿ0.4
•• • • ••• ••• • •• • •• •
••
•• • •• •
• •••
Gambar 1: Kesesuaian regresi isotonik menunjukkan tren monoton pada kelainan suhu. Itu
solusi laso terbatas pada ÿ = 0 identik dengan regresi isotonik.
protein tertentu dalam sel atau jaringan. Laso dengan batasan jumlah ke nol di
koefisien telah digunakan untuk regresi (Shi et al., 2016) dan pemilihan variabel (Lin et al.,
2014) dengan komposisi data sebagai kovariat. Data komposisional adalah data multivariat yang
mewakili proporsi keseluruhan dan karenanya harus berjumlah satu, dan sampai pada penerapannya
seperti belanja konsumen di bidang ekonomi, topik konsumsi dokumen dalam pembelajaran mesin,
dan mikrobioma manusia (Lin et al., 2014). Terakhir, batasan simpleks dimanfaatkan oleh Huang et al.
(2013a) saat menggunakan laso untuk memperkirakan bobot tepi di jaringan otak.
Dengan demikian, laso yang dibatasi adalah kerangka yang sangat fleksibel untuk memaksakan pengetahuan tambahan
Selama persiapan naskah kami, kami mengetahui adanya karya yang belum diterbitkan oleh
Dia (2011) yang juga menurunkan algoritma jalur solusi untuk memecahkan laso yang dibatasi.
Namun, pendekatan kami untuk mendapatkan algoritma jalur benar-benar berbeda dan lebih dari itu
kendala (Zhou dan Lange, 2013). Selain itu, kami membahas bagaimana kami
algoritma dapat diadaptasi untuk bekerja dalam pengaturan dimensi tinggi di mana n < p
tidak dilakukan oleh Dia (2011). Selanjutnya pendekatan He (2011) menguraikan parameter
masalah. Di sisi lain, kita bekerja secara langsung dengan vektor koefisien asli di
manfaat efisiensi komputasi dan kesederhanaan notasi. Terakhir, hal penting lainnya
3
Machine Translated by Google
Laso yang dibatasi juga dipelajari oleh James et al. (2013) pada versi sebelumnya
naskah mereka tentang regresi yang dihukum dan dibatasi (PAC). PAC saat ini
kerangka regresi diperluas (1) dengan menggunakan kemungkinan log negatif untuk fungsi kerugian juga
mencakup model linier umum (GLM), dan dengan demikian lebih umum daripada masalahnya
kami belajar. Namun, kami yakin fungsi kerugian kesalahan kuadrat perlu mendapat perhatian tambahan
mengingat penggunaannya yang luas dengan 1 penalti, dan juga karena laso yang dibatasi adalah a
pendekatan alami untuk memecahkan masalah kuadrat terkecil yang semakin umum
pengaturan dimensi tinggi. Selain itu, penggunaan fungsi kehilangan kesalahan kuadrat menghasilkan hasil
sifat bagus dari jalur solusi koefisien yang dapat dimanfaatkan dalam memperoleh jalur
algoritma (Zhou dan Wu, 2014). Algoritma jalur yang dikembangkan oleh James et al. (2013)
bukanlah algoritma jalur solusi tradisional karena sesuai dengan grid tuning yang telah ditentukan sebelumnya
parameter, yang secara fundamental berbeda dari strategi mengikuti jalur kami. Hu dkk.
(2015a) mempelajari laso umum yang dibatasi, yang direduksi menjadi laso yang dibatasi ketika tidak ada
matriks penalti yang disertakan (D = Ip). Namun, mereka tidak menemukan jalan keluarnya
algoritma tetapi malah mengembangkan algoritma penurunan koordinat untuk nilai penyetelan yang tetap
parameter.
antara laso yang dibatasi dan laso yang digeneralisasi, yang menunjukkan bahwa laso yang digeneralisasi bisa
selalu ditransformasikan dan diselesaikan sebagai laso yang dibatasi, bahkan ketika matriks penalti
kekurangan peringkat. Mengingat fleksibilitas laso yang digeneralisasi, hasil ini sangat meluas
penerapan algoritma dan hasil kami. Berbagai algoritma untuk menyelesaikan kendala tersebut
laso, termasuk pemrograman kuadratik (QP), metode pengganda arah bolak-balik (ADMM), dan algoritma
Hasil utama dari simulasi adalah, dalam hal run time, algoritma jalur solusinya adalah
lebih efisien dibandingkan pendekatan lain ketika estimasi koefisien lebih dari segelintir
nilai parameter penyetelan yang diinginkan. Contoh data tolok ukur yang menyoroti
4
Machine Translated by Google
Formulasi laso fleksibel lainnya adalah laso umum (Tibshirani dan Taylor, 2011)
1
2
memperkecil kamu - Xÿ + ÿDÿ1, (3)
2 2
dimana D ÿ R m×p adalah matriks regularisasi tetap yang ditentukan pengguna. Pilihan tertentu D
sesuai dengan versi laso yang berbeda, termasuk laso asli, berbagai bentuk
laso yang menyatu, dan pemfilteran tren. Telah diamati bahwa (3) dapat diubah menjadi laso
standar ketika D memiliki peringkat baris penuh (Tibshirani dan Taylor, 2011), dan dapat
diubah menjadi laso terbatas ketika D memiliki peringkat kolom penuh (James et al., 2013).
Di sini kami mencatat bahwa sebenarnya mungkin untuk menyelesaikan laso yang digeneralisasikan sebagai laso yang dibatasi
bahkan ketika D kekurangan peringkat, yang dinyatakan dalam Teorema 1 (lihat Lampiran A.1 untuk
buktinya).
Teorema 1. Untuk matriks penalti sembarang dengan rank(D) = r, gunakan perubahan berikut
variabel
T
ÿ U1ÿ1V
ÿ
ÿ ÿ = Dÿ˜ = 1 ÿ
, (4)
ÿ V 2T
ÿ ÿ ÿ ÿ
dekomposisi nilai singular (SVD) dari D, ÿ ÿ R m, dan ÿ ÿ R soal pÿr (3) , laso umum
T
tunduk pada U 2 ÿ = 0mÿr,
1. Ketika D mempunyai rangking baris penuh, r = m, matriks U2 adalah nol dan batasan UT ÿ = 0 2
menghilang, berkurang menjadi laso standar seperti yang diamati oleh Tibshirani dan Taylor (2011).
2. Jika D mempunyai pangkat kolom penuh, r = p, matriks V2 adalah nol dan suku XV2ÿ
tetes, menghasilkan laso yang terbatas seperti yang diamati oleh James et al. (2013).
5
Machine Translated by Google
3. Jika D tidak memiliki rank penuh, r < min(m, p), maka permasalahan di atas (5) dapat disederhanakan
menjadi permasalahan laso terbatas hanya pada ÿ dengan memperhatikan bahwa meminimalkan (5)
untuk ÿ apa pun, dengan PXV2 adalah proyeksi ortogonal ke ruang kolom C(XV2).
1
memperkecil kamu˜ ÿ Xÿ˜22 + ÿÿ1
2
T
tunduk pada U 2 ÿ = 0mÿr,
ÿ1 T T T
ÿˆ(ÿ) = V1ÿ 1 kamu
1 (ÿ) + V2(V 2 XTXV2) ÿV ÿˆ 2 XT [kamu ÿ XD+ÿˆ (ÿ)]
T T
= [Saya ÿ V2(V 2 XTXV2) ÿV 2 XTX]D+ÿˆ (ÿ)
T T
+V2(V 2 XTXV2) ÿV 2 XT kamu,
Dengan demikian, setiap masalah laso yang digeneralisasi dapat dirumuskan ulang sebagai laso yang dibatasi, sehingga
algoritma dan hasil yang disajikan di sini dapat diterapkan pada sejumlah besar masalah. Namun,
tidak selalu mungkin untuk mengubah laso yang dibatasi menjadi laso yang digeneralisasi, seperti yang dirinci
NASKAH
3 Algoritma
YANG DITERIMANASKAH
Pada bagian ini, kami memperoleh tiga algoritma berbeda untuk memperkirakan laso yang dibatasi
(1). Sepanjang bagian ini, kami berasumsi bahwa X memiliki peringkat kolom penuh, yang memerlukannya
itu n > hal. Untuk kasus dimensi tinggi yang semakin lazim dimana n < p, kita ikuti
pendekatan standar dalam literatur terkait (Tibshirani dan Taylor, 2011; Hu et al.,
6
Machine Translated by Google
2015a; Arnold dan Tibshirani, 2016) dan menambahkan penalti punggungan kecil ke fungsi tujuan awal pada
1 ÿ
memperkecil 2 2
kamu - Xÿ + ÿÿ1 + 2 ÿ (6)
2 2 2
dimana ÿ adalah konstanta kecil, seperti 10ÿ4 . Perhatikan bahwa tujuan (6) dapat disusun kembali menjadi
1
memperkecil ÿ 2
kamu ÿ (Xÿ )ÿ + ÿÿ1 (7)
2 2
X
= ÿ ÿ dan Xÿ = ÿ ÿ
kamu
ÿ
menggunakan data tambahan y Matriks desain yang diperbesar
ÿ 0p ÿ ÿ ÿ ÿIp ÿ.
memiliki peringkat kolom penuh, sehingga algoritma berikut kemudian dapat diterapkan ke formulir augmented
(7). Sebagaimana dibahas oleh Tibshirani dan Taylor (2011), pendekatan ini menarik bagi lebih dari satu orang
hanya alasan komputasi karena dimasukkannya penalti ridge juga dapat meningkatkan prediktif
ketepatan.
Sebelum menurunkan algoritma, terlebih dahulu kita mendefinisikan beberapa notasi. Untuk vektor v dan indeks
himpunan S, misalkan vS menjadi subvektor berukuran |S| mengandung unsur v yang sesuai dengan
indeks di S, di mana |·| menunjukkan kardinalitas atau ukuran kumpulan indeks. Demikian pula untuk matriks
M dan kumpulan indeks lainnya T , matriks MS,T berisi baris-baris dari M yang bersesuaian
ke indeks di S dan kolom M dari indeks di T . Kami menggunakan titik dua, :, kapan
semua indeks sepanjang salah satu dimensi disertakan. Artinya, MS,: berisi baris-baris dari
NASKAH
3.1 Pemrograman YANG
Kuadrat DITERIMANASKAH
Pendekatan pertama kami adalah menggunakan pemrograman kuadrat untuk menyelesaikan masalah laso yang dibatasi
+
(1). Kuncinya adalah menguraikan ÿ menjadi bagian positif dan negatifnya, ÿ = ÿ ÿÿÿ , sebagai
+
relasi |ÿ| = + ÿ ÿ menangani 1 masa hukuman. Dengan memasukkan ini ke (1) dan
+
menambahkan batasan non-negatif tambahan pada ÿ dan ÿ ÿ , laso yang dibatasi adalah
7
Machine Translated by Google
+
CÿC ÿÿ ÿ
ÿ d, ÿ ÿ ÿ 0p.
ÿ
ÿ- ÿ
Fungsi quadprog Matlab mampu ditingkatkan hingga p ÿ 102 -103 Gurobi , sedangkan komersial
3.2 ADMM
Algoritma berikutnya yang kami terapkan pada masalah laso terbatas (1) adalah metode pengali arah
minat terhadap statistik dan aplikasi pembelajaran mesin dalam beberapa tahun terakhir karena dapat memecahkan masalah besar
kelas masalah, seringkali mudah diimplementasikan, dan dapat dilakukan komputasi terdistribusi;
lihat Boyd dkk. (2011) untuk survei terbaru. Secara umum ADMM merupakan suatu algoritma untuk menyelesaikan a
masalah yang memiliki tujuan yang dapat dipisahkan namun terdapat kendala yang saling berkaitan,
tunduk pada Mx + F z = c,
dimana f, g : R p ÿ R ÿ {ÿ} adalah fungsi cembung sejati tertutup. Idenya adalah untuk mempekerjakan
blok koordinat penurunan ke fungsi Lagrangian yang ditambah diikuti dengan pembaruan
variabel ganda ÿ,
NASKAH YANG DITERIMANASKAH (t+1) x
ÿ arg min Lÿ (x, z
(T) ÿ
, (T) )
X
(t+1) z
ÿ arg min Lÿ (x (t+1) , z, ÿ (T) )
z
ÿ (t+1) ÿÿ (t)
+ ÿ (Mx(t+1) + F z(t+1) ÿ c),
8
Machine Translated by Google
Seringkali lebih mudah untuk bekerja dengan bentuk ADMM berskala setara, yang mana
menskalakan variabel ganda dan menggabungkan istilah linier dan kuadrat dalam augmented
ÿ
(t+1) x
arg min 2 f(x) + ÿ Mx + F z(t) ÿ c + u (t) 2 2
X
ÿ
(t+1) z
arg min 2 g(z) + ÿ Mx(t+1) + F z ÿ c + u (t) 2 2
z
(t+1) ÿ kamu (t)
kamu
+ Mx(t+1) + F z(t+1) ÿ c,
dimana u = ÿ/ÿ adalah variabel ganda berskala. Bentuk berskala sangat berguna dalam kasus ini
di mana prox 1 F
adalah pemetaan proksimal suatu fungsi f dengan parameter ÿ > 0. Ingat itu
ÿ
ÿ
proks 1 F (v) = argumenmin f(x) + xÿv 22.
ÿ
X
2
Salah satu manfaat menggunakan formulir berskala untuk ADMM adalah, dalam banyak situasi termasuk
laso yang dibatasi, pemetaan proksimal memiliki solusi bentuk tertutup yang sederhana, sehingga menghasilkan
pembaruan ADMM langsung. Untuk menerapkan ADMM ke laso yang dibatasi, kami mengidentifikasi f
sebagai tujuan pada (1) dan g sebagai fungsi indikator dari himpunan kendala C = {ÿ ÿ R p :
Aÿ = b, Cÿ ÿ d},
ÿÿÿÿC/
g(ÿ) = ÿC =
0 ÿ ÿ C.ÿÿ
ruang affine C (Algoritma 1). Proyeksi pada himpunan cembung telah dipelajari dengan baik dan, dalam banyak penerapan,
proyeksi tersebut dapat diselesaikan secara analitis (lihat Bagian 15.2 dari Lange (2013) untuk beberapa contoh). Untuk
proyeksi dapat ditemukan dengan menggunakan pemrograman kuadrat untuk menyelesaikan masalah ganda, yaitu
9
Machine Translated by Google
2 ulangi
(t+1) 2 ÿ
3ÿ ÿ argumen 12 kamu - Xÿ 2 + 2 + ÿÿ1; 2 (t) + kamu (t) 2 ÿ + z
z (t+1) 4 (t+1)
ÿ projC (ÿ + u (t) + ÿ (T) );
Pada bagian ini kita memperoleh algoritma jalur solusi baru untuk masalah laso yang dibatasi
kondisi stasioneritas
ditambah dengan batasan linier. Di sini s(ÿ) adalah subgradien ÿÿ1 dengan elemen
ÿ1 ÿj (ÿ) > 0
ÿ1 ÿj (ÿ) < 0
ÿÿÿÿÿ
T
dan µ memenuhi kondisi kelonggaran komplementer. Artinya, ÿl = 0 jika c aku
ÿ < dl dan
T
ÿl ÿ 0 jika c aku
ÿ = dl .
T
A := {j : ÿj = 0}, ZI := {l : c aku ÿ = dl}.
batasan ketimpangan (yang mengikat) pada batas tersebut. Berfokus pada koefisien aktif untuk saat ini,
T
0|SEBUAH| = ÿXT :,A(y ÿ X:,AÿA) + ÿsA + AT :,Aÿ + C ZI ,AµZI (10)
B AA
ÿ ÿ ÿ ÿ =ÿ ÿ
ÿA,
ÿ dZI CZI ,A ÿ
10
Machine Translated by Google
melibatkan variabel dependen yang tidak diketahui ÿA, ÿ, dan µZI , dan variabel independen ÿ.
Menerapkan teorema fungsi implisit pada persamaan vektor (10) menghasilkan jalur yang mengikuti arah
ÿ1
CTZI ,A sA
ÿ ÿA ÿ :,A
ÿ XT :, KAPAK :, A AT ÿ ÿ ÿ
D
ÿ AA 0 0 0 . (11)
dÿ
ÿZI ÿÿÿÿ = ÿ CZI ,A 0 0 0
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ
Ruas kanan adalah konstan pada suatu ruas lintasan sepanjang himpunan A, ZI , dan the
tanda-tanda koefisien aktif sA tetap tidak berubah. Hal ini menunjukkan bahwa jalur solusinya
dari laso yang dibatasi adalah linier sepotong-sepotong. Matriks yang terlibat adalah non-tunggal selama
ÿ AA ÿ
X:,A memiliki peringkat kolom penuh dan matriks batasan memiliki independen linier
CZI ,A
ÿ ÿ
baris. Kondisi stasioneritas dibatasi pada koefisien tidak aktif
T
ÿXT :,Ac [y ÿ X:,AÿA(ÿ)] + ÿsAc (ÿ) + AT :,Acÿ(ÿ) + C ZI ,AcµZI (ÿ) = 0|Ac|
menentukan
T
ÿsAc (ÿ) = XT :,Ac [y ÿ X:,AÿA(ÿ)] ÿ AT :,Acÿ(ÿ) ÿ C ZI ,AcµZI (ÿ). (12)
ÿ ÿXT :, KAPAK :, Ac ÿ ÿA ÿ
D D
J:,Ac ÿ . (13)
dÿ[ÿsAc ] = ÿ dÿ
CZI ,Ac ÿZI
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ
Pertidaksamaan sisa rZc := CZc,AÿA ÿ dZc juga bergerak linier dengan gradien
SAYA SAYA SAYA
D D
dÿÿA.
(14)
Bersama-sama, persamaan (11), (13), dan (14) digunakan untuk memantau perubahan A dan ZI , yang
diinterpolasi. Ringkasan peristiwa-peristiwa ini diberikan pada kolom sebelah kiri pada Tabel 1.
(T)
Kita melakukan lintasan mengikuti arah menurun dari ÿmax menuju ÿ = 0. Misalkan ÿ
11
Machine Translated by Google
Peristiwa Memantau
(t) D (T)
Koefisien aktif mencapai 0 ÿ ÿAÿÿ dÿÿ
[ÿsAc ] = ± A = 0|SEBUAH|
d
Koefisien yang tidak aktif menjadi aktif [ÿ (t)s (t)Ac ] ÿ ÿÿ dÿ (ÿ (t) ÿ ÿÿ)1|Ac|
(T) d
Kendala ketimpangan yang ketat sudah mencapai batasnya R Zc ÿ ÿÿ rZc dÿ = 0|Zc |
SAYA SAYA
D
Kendala ketimpangan tidak melampaui batas saya (t) µ
ZI ÿ ÿÿ dÿµZI = 0|ZI |
d
Pelanggaran subgradien sj dÿ [ÿsj ] < 1 untuk j ÿ Ac dengan sj = ±1
menyatakan solusi pada kekusutan t, maka kekusutan berikutnya t+1 diidentifikasi dengan ÿÿ terkecil, di mana
ÿÿ > 0 ditentukan oleh empat kondisi pertama yang tercantum pada kolom kanan Tabel 1. In
Selain memantau kejadian-kejadian disepanjang jalur, kita juga perlu memantau secara teknis
kondisi untuk memastikan bahwa kondisi subgradien (9) tetap terpenuhi di sepanjang jalur
agar jalur solusi terdefinisi dengan baik. Masalah muncul ketika koefisien tidak aktif pada
batas interval subgradien bergerak terlalu lambat di sepanjang lintasan sehingga tidak dapat mencapai batas tersebut
subgradien akan lolos [-1, 1] pada kekusutan berikutnya t + 1. Untuk mengatasi masalah ini, jika koefisien
dipindahkan ke himpunan aktif A dan persamaan (11) dihitung ulang sebelum melanjutkan lintasan
D
algoritma. Kisaran eksplisit dÿ [ÿsAc ] yang perlu dipantau diberikan pada Tabel 1,
3.3.1 Inisialisasi
Karena kita melakukan jalur mengikuti arah menurun, nilai awal untuk penyetelan
meminimalkan ÿ1 (15)
yang merupakan masalah pemrograman linier standar. Kami pertama-tama menyelesaikan (15) untuk mendapatkan inisial
0
estimasi koefisien ÿ dan himpunan A dan ZI yang bersesuaian , serta nilai awal untuk
0 0
pengali Lagrange ÿ dan µ . Mengikuti Rosset dan Zhu (2007), mengikuti jalur
12
Machine Translated by Google
berawal dari
T 0 ÿC T 0
ÿmaks = maks xj (y ÿ Xÿ0 ) ÿ DI :,jÿ ZI ,jµ ZI , (16)
dan subgradien diatur menurut (9) dan (12). Seperti dicatat oleh James dkk. (2013), pendekatan ini bisa
gagal jika (15) tidak memiliki solusi unik. Misalnya, anggap ÿj = 1. Apa saja
(15). Dalam hal ini, masih dimungkinkan untuk menggunakan (15) dan (16) untuk mengidentifikasi ÿmax, yang kemudian
0
digunakan pada (1) untuk menginisialisasi ÿ , A, ZI , ÿ 0 , dan µ 0
melalui pemrograman kuadrat.
3.3.2 Penghentian
Pertimbangan praktis lainnya untuk mengimplementasikan algoritma jalur solusi adalah prinsip
cara untuk menghentikan algoritma. Untuk tujuan ini, kami memperoleh rumus untuk derajat
kebebasan laso yang dibatasi. Pendekatan standar dalam literatur laso (Efron et al., 2004; Zou et al.,
N
ÿgi
df(g) = E , (17)
ÿyi
saya=1
di mana g adalah fungsi kontinu dan hampir terdiferensiasi, yang dengan g(y) = yˆ = Xÿˆ terpenuhi dalam
kasus kami (Hu et al., 2015a). Untuk menerapkan persamaan (17), kita perlu mengasumsikan bahwa
responsnya terdistribusi normal, yaitu y ÿ N(µ, ÿ2I). Seperti sebelumnya, kami juga berasumsi bahwa keduanya
matriks kendala, A dan C, mempunyai rangking baris penuh, dan X mempunyai rangking kolom penuh. Kemudian,
diberikan oleh
dimana |A| adalah jumlah prediktor aktif, q adalah jumlah batasan kesetaraan, dan |ZI | adalah jumlah
batasan ketimpangan yang mengikat. Penduga derajat kebebasan yang tidak bias adalah |A| ÿ (q + |ZI |).
13
Machine Translated by Google
keluar sebagai jumlah prediktor aktif, dan kemudian satu derajat kebebasan hilang untuk masing-masing prediktor
batasan kesetaraan dan setiap batasan ketidaksetaraan yang mengikat. Apalagi bila ada
tidak ada batasan, (1) menjadi soal laso standar dengan derajat kebebasan sama dengan |A|,
konsisten dengan hasil dalam Zou dkk. (2007). Rumus (18) juga konsisten dengan
hasil estimasi terbatas disajikan dalam Zhou dan Lange (2013) dan Zhou dan Wu (2014). Kami menggunakan
untuk mengakhiri jalur ketika derajat kebebasannya sama dengan n. Jumlah derajat
kebebasan juga merupakan ukuran penting yang menjadi masukan bagi beberapa metrik yang digunakan untuk model
penilaian dan seleksi, seperti Mallows' Cp, AIC, dan BIC. Secara khusus, kriteria ini
dapat diplot sepanjang jalur sebagai fungsi ÿ sebagai teknik pemilihan optimal
4 Contoh Simulasi
Untuk menyelidiki kinerja berbagai algoritma yang diuraikan dalam Bagian 3 untuk penyelesaian
masalah laso yang dibatasi, kami mempertimbangkan tiga contoh simulasi. Untuk simulasi,
kami menggunakan tiga algoritma berbeda yang dibahas di Bagian 3 untuk menyelesaikan (1). Sebagaimana dicatat dalam
Bagian 3.2, algoritma ADMM menyertakan parameter penyetelan tambahan ÿ , yang kita
perbaiki pada 1/n berdasarkan percobaan awal. Selain itu, seperti yang ditunjukkan dalam Boyd et al. (2011),
kinerja metode ADMM dapat sangat dipengaruhi oleh pilihan metode tersebut
kriteria penghentian algoritma, yang kami tetapkan menjadi 10ÿ4 untuk toleransi kesalahan absolut dan relatif.
Jika memungkinkan (simulasi 1 dan 2), kami juga menggunakan fungsi yang ditentukan pengguna
menangani untuk memecahkan submasalah memproyeksikan ke kendala set C untuk ADMM sebagai
ini meningkatkan efisiensi. Dua faktor yang menarik dalam simulasi adalah ukuran
ukuran, (n, p): (50, 100), (100, 500), (500, 1000), dan (1000, 2000). Untuk faktor terakhir, nilai ÿ dihitung sebagai
pecahan dari ÿ maksimum. Pecahan, atau nilai skala ÿ (yaitu, ÿ = ÿscale · ÿmax) yang digunakan dalam simulasi
adalah
0.2, 0.4, 0.6, dan 0.8, untuk menyelidiki bagaimana tingkat regularisasi berdampak pada algoritma
pertunjukan. Agar hasilnya lebih sebanding, total waktu proses untuk solusi tersebut
algoritma jalur dirata-ratakan pada jumlah total kekusutan pada jalur. Untuk menghasilkan
14
Machine Translated by Google
data untuk dua simulasi pertama, kovariat dalam matriks desain, X, dihasilkan sebagai
variabel normal standar independen dan identik (iid), dan respons dihasilkan sebagai y = Xÿ + ÿ di mana
sekali lagi dihasilkan dari distribusi normal dengan mean nol tetapi menggunakan matriks kovarians
dengan elemen (i, j) yang diberikan oleh 0,5 |iÿj| . Seperti yang akan dibahas nanti, setting simulasi ketiga
terinspirasi oleh contoh dalam literatur (Hu et al., 2015a), jadi kami mengikuti datanya
proses pembangkitan. Seluruh simulasi menggunakan 20 ulangan dan dilakukan di Matlab menggunakan
kotak peralatan SparseReg di komputer dengan prosesor Intel i7-6700 3,4 GHz dan 32 GB
sedangkan ADMM dan algoritma jalur solusi adalah implementasi Matlab murni.
Simulasi pertama melibatkan batasan jumlah hingga nol pada vektor parameter sebenarnya, ÿj =
J
digunakan dalam analisis data komposisi serta analisis yang melibatkan biologis apa pun
pengukuran dianalisis relatif terhadap titik referensi (Lin et al., 2014; Shi et al., 2016; Altenbuchinger et
al., 2017). Ditulis dalam rumusan laso yang dibatasi (1), ini sesuai
T
menjawab A = 1 dan b = 0. Untuk simulasi ini, vektor parameter sebenarnya, ÿ, adalah
P
didefinisikan sedemikian rupa sehingga 25% entri pertama adalah 1, 25% entri berikutnya adalah -1, dan
elemen lainnya adalah 0. Jadi parameter sebenarnya memenuhi batasan jumlah hingga nol,
Hasil utama simulasi diberikan pada Gambar 2(a), yang memplot rata-rata hasil waktu proses
algoritma pada ukuran masalah yang berbeda, (n, p). Hasil menggunakan program kuadrat (QP) dan
dari grafik kita dapat melihat bahwa algoritma jalur solusi lebih cepat dibandingkan metode lainnya,
dan kinerja relatifnya bahkan lebih mengesankan seiring dengan bertambahnya ukuran masalah. Grafik
sama pada kedua nilai skala ÿ, namun hal tersebut tidak terjadi pada ADMM. Pada skala ÿ = 0,6,
Performa ADMM sangat mirip dengan QP, namun performa ADMM jauh lebih buruk
nilai ÿ yang lebih kecil. Nilai ÿ yang lebih kecil berarti bobot yang lebih kecil 1 penalti yang
15
Machine Translated by Google
menghasilkan solusi yang lebih jarang. Runtime ADMM juga lebih bervariasi dibandingkan
algoritma lainnya.
• •
Jalur Solusi QP Jalur Solusi QP •
(ÿskala = 0,2) 7.5 (ÿskala = 0,2)
15
ADMM (ÿskala = 0,2) ADMM (ÿskala = 0,2)
QP (ÿskala = 0,6) QP (ÿskala = 0,6)
ADMM (ÿskala = 0,6) ADMM (ÿskala = 0,6)
5.0 •
10 ••
Algoritma
Algoritma
Proses
Proses
Waktu
Waktu
(detik)
(detik)
•
•
• 2.5
5
•
•
• ••
• •
•
0 • • • • 0,0 • ••• • •
(50, 100) (100, 500) (500, 1000) (1000, 2000) (50, 100) (100, 500) (500, 1000) (1000, 2000)
Ukuran Masalah, (n, p) Ukuran Masalah, (n, p)
Jalur Solusi
•
15
QP (ÿskala = 0,2) •
ADMM (ÿskala = 0,2)
QP (ÿskala = 0,6)
10 ADMM (ÿskala = 0,6)
Algoritma
Proses
Waktu
(detik)
•
5
• •
•
• •
•• •
••• • •
0 • •
(50, 100) (100, 500) (500, 1000) (1000, 2000)
Ukuran Masalah, (n, p)
Gambar 2: Pengaturan simulasi yang berbeda menunjukkan kinerja yang sebanding atau unggul secara konsisten
dari algoritma jalur sedangkan kinerja ADMM dan QP bervariasi tergantung pada ukuran dan
kompleksitas masalah. Waktu proses untuk algoritma jalur solusi dirata-ratakan
Meskipun waktu proses algoritme adalah metrik yang menjadi perhatian utama, algoritme yang cepat bukanlah metrik utama
banyak gunanya jika sayangnya tidak akurat. Ketika kita mengadopsi kesalahan nilai objektif relatif
untuk QP sebagai ukuran akurasi, algoritma jalur solusi tidak hanya efisien tetapi juga efisien
tepat. Di sisi lain, akurasi ADMM menurun seiring dengan meningkatnya ÿ. Bagian dari ini
16
Machine Translated by Google
Hal ini diharapkan mengingat toleransi konvergensi yang digunakan untuk ADMM tidak terlalu ketat
daripada yang digunakan untuk QP. Terlepas dari besarnya kesalahan ini, yang umumnya terjadi
kurang dari 0,005%, mungkin tidak penting secara praktis. Plot nilai objektif
kesalahan, baik pada skala asli dan skala log, untuk jalur solusi dan ADMM untuk
(n, p) = (500, 1000) diberikan pada Gambar A.2 pada Lampiran A.4. Hasil dari yang lain
Simulasi kedua melibatkan laso positif yang disebutkan di Bagian 1, sesuai pengetahuan kita.
edge itu adalah versi paling umum dari laso terbatas yang muncul di
literatur. Juga disebut sebagai laso non-negatif, seperti namanya, laso ini membatasi
estimasi koefisien laso menjadi non-negatif. Dalam formulasi laso terbatas (1), laso positif sesuai dengan batasan
ÿ j, j = 1, ..., 10
ÿj = ,
ÿÿ
0, j = 11, ..., p ÿÿ
jadi koefisien sebenarnya mematuhi batasan dan laso yang dibatasi memungkinkan kita untuk menggabungkan
Gambar 2(b) adalah grafik rata-rata runtime untuk setiap algoritma untuk berbagai ukuran masalah yang
dipertimbangkan. Seperti pada simulasi 1, hasil pemrograman kuadratik (QP) dan ADMM digambarkan pada dua
nilai ÿ yang berbeda, sesuai dengan ÿscale = ÿ/ÿmax ÿ {0.2, 0.6} untuk juga menunjukkan dampak ÿ pada waktu
daripada QP untuk dua ukuran lebih besar yang sedang diselidiki, sedangkan ADMM memiliki runtime yang sama
sebanding atau lebih lambat dari QP pada simulasi pertama. Karena ADMM umumnya berskala
lebih efisien daripada QP, kami berharap ADMM mengungguli QP untuk masalah yang lebih besar dan
ini terjadi lebih cepat dalam pengaturan simulasi kedua sejak dimasukkannya p di-
simulasi, hal lain yang menonjol dari hasilnya adalah kinerja yang kuat
17
Machine Translated by Google
algoritma jalur solusi, yang secara umum mengungguli dua metode lainnya. Namun,
untuk (n, p) = (1000, 2000), ADMM dan jalur solusi bekerja dengan cara yang sama, sebagian karena
tumbuh. Dari segi akurasi, nilai tujuan error relatif terhadap QP untuk jalur solusi
dalam literatur, menarik juga untuk melihat bagaimana kinerja algoritma ketika ada kendala
lebih kompleks dan melibatkan banyak parameter sekaligus. Untuk tujuan ini, kami meminjam
kendala yang digunakan dalam salah satu simulasi yang dipelajari oleh Hu et al. (2015a). Vektor parameter
sebenarnya didefinisikan sebagai ÿ = (1, 0.5, ÿ1, 0, ..., 0, 1, 0.5, ÿ1, 0, ..., 0)T , jadi hanya yang ke-1, ke-2, ke-3 ,
Unsur ke-11, ke-12, dan ke-13 bukan nol. Laso yang dibatasi diperkirakan tunduk
kendalanya
ÿ1 + ÿ2 + ÿ3 ÿ 0, ÿ1 + ÿ3 + ÿ11 + ÿ13 = 0
ÿ2 + ÿ5 + ÿ11 ÿ 1, ÿ2 + ÿ8 + ÿ12 = 1.
Hasil pengaturan ini diberikan pada Gambar 2(c). Untuk pengaturan ini, performa
kesenjangan antara QP dan ADMM bahkan lebih besar dari apa yang diamati dalam simulasi 2 sebagai QP
jauh lebih lambat untuk pengaturan terbesar. Seperti dua simulasi lainnya, ADMM lebih dari itu
lebih sensitif terhadap tingkat regularisasi dan menjadi lebih buruk seiring dengan berkembangnya solusi
kurang jarang. QP, sebaliknya, sekali lagi invarian terhadap nilai ÿ. Solusinya
algoritma jalur mampu menangani batasan yang lebih kompleks dengan tenang dan kembali bekerja
pola kinerja relatif algoritme serupa tetapi terdapat kesenjangan di antara keduanya
QP dan metode lainnya bahkan lebih mencolok karena QP tidak berskala dengan baik, meskipun demikian
menggunakan pemecah komersial yang sangat efisien. Hasil simulasi tambahan yang meliputi a
ukuran masalah yang lebih besar untuk menyoroti pola ini diberikan dalam Lampiran A.5.
18
Machine Translated by Google
dipelajari, kami mengeksplorasi empat contoh dari literatur. Untuk hasil di bagian ini,
laso yang dibatasi diperkirakan menggunakan algoritma jalur solusi (Bagian 3.3) sejak saat itu
kontribusi utama kami.
data suhu global disajikan pada Bagian 1, yang disediakan oleh Jones et al. (2016).
Kumpulan data tersebut terdiri dari anomali suhu tahunan dari tahun 1850 hingga 2015, relatif terhadap
rata-rata untuk tahun 1961-90. Seperti disebutkan, tampaknya ada tren data yang monoton
seiring waktu, jadi wajar jika ingin memasukkan informasi ini saat memperkirakan
kecenderungan. Wu dkk. (2001) mencapai hal ini pada kumpulan data versi sebelumnya dengan menggunakan isotonik
1
2
memperkecil kamu ÿ ÿ (19)
2 2
dimana y ÿ R n adalah deret data monotonik yang diinginkan dan ÿ ÿ R n adalah deret data monotonik
koefisien. Analog laso dari regresi isotonik, yang menambahkan 1 suku penalti
(19), dapat diperkirakan dengan laso yang dibatasi (1) menggunakan matriks batasan C seperti pada (2)
dan d = 0 ÿ R pÿ1 . Dalam formulasi ini, laso yang dibatasi menyediakan seluruh keluarga
solusi dengan regresi isotonik sebagai kasus khusus ketika ÿ = 0. Gambar 1 memverifikasi hasil ini
dengan membandingkan estimasi dari algoritma jalur solusi pada ÿ = 0 dengan isotonik
NASKAH YANG DITERIMANASKAH
kecocokan regresi.
Penerapan laso terbatas kami yang kedua menggunakan versi genomik komparatif
data hibridisasi (CGH) dari Bredel et al. (2005) yang dimodifikasi dan dipelajari oleh Tibshirani dan Wang (2008)
19
Machine Translated by Google
pengukuran dari 2 tumor otak glioblastoma multiforme (GBM). Eksperimen susunan CGH
Catatan digunakan untuk memperkirakan jumlah salinan DNA setiap gen dengan mendapatkan rasio log2 dari
jumlah salinan DNA gen dalam sel tumor relatif terhadap jumlah salinan DNA
di sel referensi. Mutasi pada sel kanker mengakibatkan amplifikasi atau penghapusan a
gen dari kromosom, jadi tujuan analisisnya adalah untuk mengidentifikasi keuntungan atau kerugian tersebut
salinan DNA gen itu (Michels et al., 2007). Tibshirani dan Wang (2008) mengusulkan
menggunakan laso leburan renggang untuk memperkirakan sinyal CGH dengan konstanta sedikit demi sedikit
berfungsi untuk menentukan area dengan nilai bukan nol, karena nilai CGH positif (negatif) berhubungan dengan
kemungkinan keuntungan (kerugian). Laso yang menyatu jarang (Tibshirani et al., 2005)
diberikan oleh
P
1
2
memperkecil kamu ÿ ÿ + ÿ1ÿ1 + ÿ2 |ÿj ÿ ÿjÿ1|, (20)
2
2
j=2
serupa, sehingga menghasilkan fungsi konstanta sepotong-sepotong. Modifikasi laso ini adalah
awalnya diistilahkan dengan laso leburan, namun sejalan dengan Tibshirani dan Taylor (2011) kami menyebut
(20) sebagai laso leburan jarang untuk membedakannya dari masalah terkait yang tidak
sertakan norma 1 yang memicu ketersebaran pada koefisien. Terlepas dari itu, laso yang menyatu jarang
adalah kasus khusus dari laso umum (3) dengan matriks penalti
ÿC
D= ÿ ÿ ÿ R (2pÿ1)×p ,
ÿ Aku p ÿ
dimana C seperti pada (2) dan Ip adalah matriks identitas p×p. Sebagaimana dibahas di Bagian 2, jarang
laso yang menyatu dapat dirumuskan ulang dan diselesaikan sebagai masalah laso yang dibatasi. Perkiraan
sinyal CGH yang mendasari dari penyelesaian laso yang menyatu secara jarang sebagai laso yang digeneralisasi
diberikan pada Gambar 3. Seperti dapat dilihat, estimasi dari dua metode berbeda cocok,
Aplikasi data ketiga kami dengan laso terbatas menggunakan data mikrobioma. Analisisnya
mikrobioma manusia, yang terdiri dari gen-gen dari seluruh mikroorganisme di dalam
20
Machine Translated by Google
6
•
•
••• Laso yang dibatasi
Lasso Umum
••• •••
•
•••• ••
4
•
Rasio
2 • •
log
••••••••••••••••• •
2
g
•••• •• •• •• • • • •• • ••
•• • •• ••• •• ••• • • • • •
• • • • •• •• • •• •• • • •• • • •• • ••• • ••
• •• •••••
•• • ••••••••••••••
• •
•••••••••••••••••• ••••••••••• • ••• • • •• ••• •••
•••
•••• •••••••••• • •••• ••••••••••••••••••••• • • •
••••••••• • •• ••••• •••
•••• •••••••••
• • • •• •• • • • • •••••••
•• • •
••••••••• • ••••••••••••••• •
•••••
• ••
• • • •• • ••• • ••••••••• • •• •••
•• •• ••
••••••••••••••••
•• • • •• •••••
• • ••••••
• •
•••••••••• ••• •• •••
0 ••• •••••••••••••••• ••••••••••
•••• ••••••••••••
••• •• • • •••• •••••••••••
•• ••
••••
••• ••
• ••• • • •• • ••• • •
•• ••••
•••
• ••••• •• ••• ••
••
• • •• • ••
••
• ••
•••••• •• •• ••• • •
••
•
ÿ2 •
• •
Gambar 3: Laso umum dan laso terbatas menghasilkan perkiraan laso menyatu jarang yang identik
pada data tumor otak.
tubuh manusia, telah dimungkinkan oleh munculnya teknologi pengurutan generasi berikutnya.
nologi. Penelitian mikrobioma telah menarik banyak perhatian karena sel-sel ini memainkan peran penting
peranannya dalam kesehatan manusia, termasuk tingkat energi dan penyakit; lihat Li (2015) dan referensinya
di dalamnya. Karena jumlah pembacaan sekuensing sangat bervariasi dari satu sampel ke sampel lainnya, seringkali
jumlah tersebut dinormalisasi untuk mewakili kelimpahan relatif masing-masing bakteri, sehingga dihasilkan
dalam data komposisi, yaitu proporsi yang berjumlah satu. Termotivasi oleh ini, regresi
(Shi et al., 2016) dan pemilihan variabel (Lin et al., 2014) alat untuk kovariat komposisi
telah dikembangkan, yang berarti menerapkan batasan jumlah hingga nol pada laso.
Altenbuchinger dkk. (2017) melanjutkan penelitian ini dengan menunjukkan bahwa jumlah-ke-nol
batasan berguna setiap kali normalisasi data relatif terhadap beberapa titik referensi
menghasilkan data proporsional, seperti yang sering terjadi dalam aplikasi biologis, sejak analisis
menggunakan batasan tidak sensitif terhadap pilihan referensi. Altenbuchinger dkk. (2017)
tunduk pada ÿj = 0,
J
namun fokus analisis mereka, yang mereka sebut sebagai regresi zero-sum, sejalan
menjadi ÿ = 1, yang mana (21) direduksi menjadi laso terbatas (1). Altenbuchinger dkk. (2017) menerapkan
regresi zero-sum pada kumpulan data mikrobioma dari Weber et al. (2015) hingga
21
Machine Translated by Google
menunjukkan ketidakpekaan regresi zero-sum terhadap titik acuan, yang bukan merupakan titik acuan
kasus untuk laso biasa. Data tersebut berisi komposisi mikrobioma pasien
indoxyl sulfate (3-IS), suatu metabolit senyawa organik indole yang diproduksi di
usus besar dan hati. Pasien ASCT berisiko tinggi terkena penyakit graft-versus-host akut dan
mikrobioma dan tidak adanya metabolit bawaan mikrobiota pelindung di usus (Taur
dkk., 2012; Holler dkk., 2014; Murphy dan Nguyen, 2011). Salah satu zat pelindung tersebut
adalah indole, yang merupakan produk sampingan ketika bakteri usus memecah asam amino triptofan
Maka yang menarik adalah mengidentifikasi sebagian kecil komposisi mikrobioma yang terkait
dengan kadar 3-IS, seiring dengan keberadaan bakteri penghasil indole yang relatif lebih banyak di usus
diperkirakan menghasilkan kadar 3-IS yang lebih tinggi dalam urin. Pasien ASCT menerima antibiotik
yang membunuh bakteri usus, tetapi dengan pemahaman yang lebih baik tentang bakteri mana yang menghasilkan indole,
antibiotik yang tidak mengandung bakteri tersebut dapat digunakan sebagai gantinya (Altenbuchinger et al., 2017).
Datasetnya sendiri berisi informasi 160 genera bakteri dari 37 pasien. Juga
yang termasuk dalam kumpulan data adalah kadar 3-IS urin mereka yang dinormalisasi terhadap urin
konsentrasi kreatinin untuk mengoreksi variasi laju aliran urin (Waikar et al., 2010). Di dalam
kami mengikuti prosedur prapemrosesan data yang digunakan oleh Altenbuchinger et al. (2017). Setelah
satu jumlah semu ditambahkan, jumlah bakteri ditransformasikan log2 dan kemudian dipusatkan.
Variabel respons yang menarik, level 3-IS yang dinormalisasi, juga ditransformasikan log2.
Gambar A.4 memplot jalur solusi estimasi koefisien, menggunakan regresi zero-sum dan
laso yang dibatasi. Seperti dapat dilihat pada grafik, estimasi koefisiennya hampir sama
rumusan yang berbeda dari kedua permasalahan tersebut. Karena ini adalah kasus dimana n < p, sebuah punggungan kecil
penalti ditambahkan ke fungsi tujuan laso yang dibatasi (6) seperti yang dibahas di Bagian 3, tetapi tidak
seperti (21), bobot pada 2 penalti tidak bervariasi antar ÿ. Yang diamati versus
plot nilai pas pada ÿ optimal diberikan pada Gambar A.5 pada Lampiran A.6. ÿ yang optimal
dipilih melalui perluasan Kriteria Informasi Bayesian (EBIC) yang diusulkan oleh Chen dan
22
Machine Translated by Google
Chen (2008, 2012) karena BIC klasik umumnya tidak berkinerja baik ketika nomor tersebut
Untuk penerapan data keempat dan terakhir, kami menerapkan laso terbatas pada perumahan
kumpulan data dari Ames, Iowa dari tahun 2006 hingga 2010. Kumpulan data Perumahan Ames (De Cock, 2011)
berisi 2.930 properti perumahan sebagai observasi dan 80 variabel penjelas, yang
terdiri dari 23 variabel nominal, 23 variabel ordinal, 14 variabel hitung, dan 20 variabel kontinyu. Prediktor
Variabelnya meliputi lingkungan, tipe bangunan, ukuran garasi, ukuran lahan, dan tipe akses jalan
antara lain terhadap properti. Meskipun awalnya digunakan untuk tujuan penilaian pajak, ini
kumpulan data ini cocok untuk memprediksi atau memodelkan harga jual rumah dengan menggunakan ekstensif
Secara tradisional, variabel faktor dimasukkan ke dalam model melalui skema pengkodean
yang memerlukan pilihan tingkat referensi untuk setiap faktor. Pilihan seperti itu tidak selalu terjadi
Di sini kita mengambil pendekatan alternatif dengan membangun variabel indikator untuk setiap level
suatu faktor sambil menerapkan batasan jumlah hingga nol pada masing-masing faktor, yang meringankan
perlu memilih tingkat referensi. Artinya, variabel faktor i dengan kadar ki diperlakukan sebagai a
berjumlah 0. Setelah melakukan preprocessing data dan mengkodekan variabel faktor sebagai variabel dummy,
matriks desain X adalah matriks berukuran 2925 × 324 dengan matriks kendala A berukuran 48 × 324
T T T T T
Ai,: = 0 0 · · · 1 ki 0 · · · 1 k48 , (22)
k1 k2 ki+1
Variabel respon yang menarik adalah harga jual yang ditransformasikan secara log, yang kemudian ditetapkan
didardisasi memiliki mean 0 dan standar deviasi 1. Gambar 4 memplot solusi yang dihasilkan
perkiraan koefisien jalur terhadap ÿ, serta nilai yang diamati vs. nilai yang dipasang pada nilai optimal
ÿ dipilih menggunakan Kriteria Informasi Bayesian klasik. Fitur yang dipilih dengan
perkiraan koefisien terbesar dalam nilai absolut adalah skor kualitas keseluruhan, luas tempat tinggal, dan
23
Machine Translated by Google
•
•• ••• • • •
• • •• •• •
• • •••••••••••••••
• • ••
2 •••••••••••••••••• •
• •••••• ••••••••••• ••••
2 ••••••• •••••••••••••••••••••••••••••••••••••• •
•••• ••••••••••••••••••••••••••••••••••••••••••••••••••••••• •••••••
••••••••••••
•
• •••••••••• ••••••••• ••••••
••••••••• ••••• ••••
• • •••••••••••••• ••••••••••••••••• ••••••
•••••••••••
••••• •• •••••••
•••••••••••••
• •• ••••••••••••• ••
•••••• •••• •••
••••• •••••• •••••••••••••••••••••
••
1 ••••••••• •• •••••••••••• ••••••
••
•••••••••••• •••••
•• •••
• •••••
•••••••••
••
••• •• •••••••
••••••••• •••••••••••••• •
• ••• ••••••••••••••••
• •••••••
• • • •••• •• • ••
• •
••••••••••••
•••• •
••••
• •
•
•••••••
• • •
•••••••
• ••••••• •
•••••••••••••••• •••••
••••
••••••••
•••••••••••••••••••••••••••••••••••••••••
••••
••••
•••••• •••
•••••• •••••••
•••
••••••
••••••••• ••
••••••••••••••••••
•••••••••••••• ••••
••
0 • ••••••••••••••• •••••••••
•••••• ••
••••••
•••
•••••••••
••••
•• •••• ••••• ••
•••••••• •••
••• •••••• ••
•••
••••••• •••••••••••
••••• •••• •••• ••••
••••
•••• ••••••••
••••
••• ••••
••••• •••••••••••••••••••••••• • • •
• ••••••••••• •••••••• ••••••
•••••••• •
•••• ••••• ••••••• •••••
•••
••• ••••••
••• ••• •
•••• ••••• ••• • • • ••• •
••••••••••••••••••••••••••
•••• • ••
•••
• •••
• •
•• • ••
• ••
•
•••••••••••••••
• • • •
••
•••
•••
• •• • • • • •
••••• • • • • • •
•••••••• •••
•••••••••••••••••••••••••••••••••••
•• •• ••••••••••
•••••••••
••••••••••••••••••••••••••••
••• ••••••
•••••
••
••••••
•••••••
••••
•••••••••• ••••••••••••••••••••••• •• • • • • • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • ••• • • • • • • • • • • • • • • • • •
••• •• ••••••••
•• ••••••••••• ••
• •••••• •• •••••••• •• ••
•
••••••••••• •••
••••
• •••••
• • • • • •
^
• •
•••••••••• ••• •••••••••••••
0 • •• •• •••••• •••••••••••••
• •••••••••••••••• ••••••••••• •••••••••••••••••••••
• •••••• ••• •• •• •••••••••••• •
•
• ••••••••••••••••••••••••• •••••••••••••••••••••••••••••• •• • •
ÿ2 • • • •• • • • •• • ••••
• • • • • • •• ••• ••
• •••
• •
Diamati
ÿ1 • •
yang
Nilai
• • •
• • • •
•
ÿ4
ÿ2 Prediksi R2 = 0,893
ÿ6 •
ÿ3 •
50 40 30 20 10 0 ÿ4 ÿ2 0 2
^
ÿ (ÿ)||1 || Nilai yang Dipasang
Gambar 4: Algoritma jalur menghasilkan jalur solusi laso yang dibatasi untuk data perumahan Ames
dengan 48 faktor. Garis putus-putus menandai model dengan BIC terendah (panel kiri) serta
garis identitas (panel kanan). Di sini responnya adalah harga jual yang ditransformasikan menjadi standar
memiliki mean 0 dan deviasi standar 1.
tahun dibangun. Prediksi R2 , berdasarkan statistik PRESS, adalah sebesar 0,893. Lagi
6. Kesimpulan
Kita telah mempelajari masalah laso yang dibatasi, yang didalamnya terdapat masalah laso aslinya
diperluas untuk mencakup batasan kesetaraan dan ketimpangan linier. Seperti yang telah kita bahas dan
ditunjukkan melalui aplikasi data benchmark, serta contoh lain yang dikutip dari
perkiraan. Selain itu, kami telah menunjukkan varian laso fleksibel lainnya, yang digeneralisasi
laso, selalu dapat dirumuskan ulang dan diselesaikan sebagai laso yang dibatasi, yang sangat membesar
Kami memperoleh dan membandingkan tiga algoritma berbeda untuk menghitung batasan
solusi laso sebagai fungsi dari parameter penyetelan ÿ: pemrograman kuadrat (QP), the
24
Machine Translated by Google
algoritma jalur. Ketika seluruh jalur solusi diinginkan, algoritma jalur akan berkinerja lebih baik
metode lain dalam hal estimasi waktu tanpa mengorbankan akurasi. walaupun
inisialisasi jalur dapat menghambat kinerjanya seiring dengan bertambahnya ukuran masalah, jalur
algoritma paling buruk sebanding dengan QP dan ADMM. Untuk nilai tetap ÿ dalam soal
berukuran sederhana, QP adalah kandidat yang baik karena kompetitif dengan ADMM dan invarian terhadap ADMM
berat 1 penalti. Namun, untuk masalah yang besar dan kompleks, ADMM lebih disukai
skalabilitasnya. Peringatan utama terhadap ADMM adalah kepekaannya terhadap tingkat regularisasi;
Kinerja ADMM cenderung menurun dengan parameter sebenarnya yang lebih sedikit. Kode Matlab ke
mengimplementasikan algoritma ini tersedia di SparseReg kotak alat, dan sumber terbuka
Ada beberapa kemungkinan perluasan yang tersisa untuk penelitian masa depan. Mungkin saja
dimungkinkan untuk meningkatkan efisiensi algoritma jalur solusi dengan menggunakan sapuan
operator (Selamat Malam, 1979) untuk memperbarui (11) di sepanjang jalur, seperti yang dilakukan dalam
pekerjaan terkait oleh Zhou dan Lange (2013). Implementasi terdistribusi dari algoritma yang dikembangkan di sini
adalah arah penelitian lain yang akan meningkatkan runtime. Sebagaimana dicatat oleh Boyd dkk.
mungkin menarik untuk memperluas algoritme ke formulasi yang lebih umum dari batasan tersebut
laso. Semua algoritma dapat diperluas untuk menangani fungsi kerugian cembung umum, misalnya
sebagai fungsi kemungkinan log negatif untuk perluasan model linier umum, yaitu
sudah dipelajari oleh James et al. (2013) menggunakan algoritma penurunan koordinat yang dimodifikasi. Di dalam
dalam hal ini, perpanjangan algoritma jalur solusi dapat dilacak dengan menyelesaikan suatu sistem
MATERI TAMBAHAN
NASKAH YANG DITERIMANASKAH
Lampiran: Rincian lebih lanjut tentang hubungan antara laso yang dibatasi dan gen-
laso yang dieralisasi diberikan dalam Lampiran A.1 dan A.2. Turunan dari tambahan
pada Lampiran A.3. Lampiran A.4 dan A.5 berisi hasil tambahan untuk yang pertama
(Bagian 4.1) dan pengaturan simulasi ketiga (Bagian 4.1) . Hasil tambahan untuk contoh data
25
Machine Translated by Google
soSupplement.pdf).
SparseReg MATLAB Toolbox: Kotak alat Matlab yang terdiri dari fungsi-fungsi untuk re-sparse
Paket ConstrainedLasso Julia: Paket Julia yang terdiri dari implementasi open source
menyebutkan algoritma yang diturunkan di Bagian 3 untuk memasang laso yang dibatasi
ConstrainedLasso.
Kode dan data: Kode dan data untuk mereproduksi hasil di Bagian 4 dan 5 disediakan.
Silakan lihat file README yang terdapat pada file zip untuk lebih jelasnya (codeData.zip)
wasit atas banyak komentar bermanfaatnya. Penelitian ini sebagian didukung oleh National
Hibah kesehatan R01 HG006139, R01 GM53275, dan R01 GM105785. Semua plot telah dibuat
Referensi
Altenbuchinger, M., Rehberg, T., Zacharias, H., St¨ammler, F., Dettmer, K., Weber, D.,
Hiergeist, A., Gessner, A., Holler, E., Oefner, PJ, dkk. (2017), “Titik referensi
26
Machine Translated by Google
Boyd, S., Parikh, N., Chu, E., Peleato, B., dan Eckstein, J. (2011), “ Optimasi Terdistribusi
Bredel, M., Bredel, C., Juric, D., Harsh, GR, Vogel, H., Recht, LD, dan Sikic, BI
(2005), “Pemetaan Genom Resolusi Tinggi dari Perubahan Genetik pada Manusia Glial
Chen, J. dan Chen, Z. (2008), “Kriteria informasi Bayesian yang diperluas untuk pemilihan model
— (2012), “BIC yang diperluas untuk GLM renggang P kecil-besar-,” Statistica Sinica, 555–574.
De Cock, D. (2011), “Ames, Iowa: Alternatif data perumahan Boston sebagai akhir
Efron, B., Hastie, T., Johnstone, I., dan Tibshirani, R. (2004), “ Regresi Sudut Terkecil,”
El-Arini, K., Xu, M., Fox, EB, dan Guestrin, C. (2013), “Mewakili Dokumen
Selamat malam, JH (1979), “Tutorial tentang Operator SWEEP,” Ahli Statistik Amerika,
33, 149–158.
He, T. (2011), “Lasso dan Regresi Regularisasi L1 Umum Di Bawah Kesetaraan Linier dan
Sporrer, D., Hehlgans, T., Kreutz, M., Holler, B., Wolff, D., Edinger, M., Andreesen,
R., Levine, JE, Ferrara, JL, Gessner, A., Spang, R., dan Oefner, PJ (2014),
“Analisis Metagenomik Mikrobioma Kotoran pada Pasien yang Menerima Batang Alogenik
dan Lebih Banyak Diucapkan dalam Penyakit Cangkok Gastrointestinal versus Inang,” Biologi Darah
27
Machine Translated by Google
Hu, Q., Zeng, P., dan Lin, L. (2015a), “Ganda dan Derajat Kebebasan Linear
Lasso Umum yang Dibatasi,” Statistik Komputasi & Analisis Data, 86, 13–26.
Hu, Z., Follmann, DA, dan Miura, K. (2015b), “Desain Vaksin melalui Nonnegative Lasso-
Seleksi Variabel berdasarkan,” Statistics in Medicine, 34, 1791–1798.
Huang, H., Yan, J., Nie, F., Huang, J., Cai, W., Saykin, AJ, dan Shen, L. (2013a),
“Model Simpleks Jarang Baru untuk Analisis Jaringan Anatomi dan Genetik Otak,”
dalam Konferensi Internasional tentang Komputasi Citra Medis dan Interaksi Berbantuan Komputer
Huang, T., Gong, H., Yang, C., dan He, Z. (2013b), “ProteinLasso: Regresi Lasso
James, GM, Paulson, C., dan Rusmevichientong, P. (2013), “ Dihukum dan Dibatasi
Jones, P., Parker, D., Osborn, T., dan Briffa, K. (2016), “Suhu Global dan Belahan Bumi
Anomali perature - Catatan Instrumental Darat dan Laut,” Tren: Ringkasan
Kump, P., Bai, E.-W., Chan, K.-S., Eichinger, B., dan Li, K. (2012), “Pemilihan Variabel melalui RIVAL
(Menghilangkan Variabel yang Tidak Relevan di Tengah Iterasi Lasso) dan Aplikasi
untuk Deteksi Bahan Nuklir,” Automatica, 48, 2107–2115.
Lin, W., Shi, P., Feng, R., dan Li, H. (2014), “ Seleksi Variabel dalam Regresi dengan
Kovariat Komposisi,” Biometrika, 101, 785–797.
Michels, E., De Preter, K., Van Roy, N., dan Speleman, F. (2007), “Deteksi DNA
Salin Perubahan Nomor pada Kanker dengan Hibridisasi Genomik Komparatif Array,”
28
Machine Translated by Google
Murphy, S. dan Nguyen, VH (2011), “Peran Mikrobiota Usus dalam Penyakit Graft-versus-Host
R Core Team (2018), R: Bahasa dan Lingkungan untuk Komputasi Statistik, R Foun-
Rosset, S. dan Zhu, J. (2007), “Jalur Solusi Teratur Linear Sepotong-sepotong,” The Annals
Shi, P., Zhang, A., dan Li, H. (2016), “Analisis Regresi untuk Komposisi Mikrobioma
Taur, Y., Xavier, JB, Lipuma, L., Ubeda, C., Goldberg, J., Gobourne, A., Lee, YJ,
Dubin, KA, Socci, ND, Viale, A., Perales, M.-A., Jenq, RR, van den Brink, M.
pada Pasien yang Menjalani Transplantasi Sel Induk Hematopoietik Alogenik,” Klinis
Tibshirani, R. (1996), “Penyusutan dan Seleksi Regresi melalui Lasso,” Jurnal Royal Statistical Society:
Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., dan Knight, K. (2005), “ Ketersebaran dan
Tibshirani, R. dan Wang, P. (2008), “Pemulusan Spasial dan Deteksi Hot Spot untuk CGH
Tibshirani, RJ, Hoefling, H., dan Tibshirani, R. (2011), “Regresi Hampir Isotonik,”
29
Machine Translated by Google
— (2012), “Derajat Kebebasan dalam Masalah Lasso,” The Annals of Statistics, 40, 1198–
1232.
Waikar, SS, Sabbisetti, VS, dan Bonventre, JV (2010), “Normalisasi saluran kemih
biomarker menjadi kreatinin selama perubahan laju filtrasi glomerulus,” Ginjal interna-
Weber, D., Oefner, PJ, Hiergeist, A., Koestler, J., Gessner, A., Weber, M., Hahn, J.,
Wolff, D., St¨ammler, F., Spang, R., Herr, W., Dettmer, K., dan Holler, E. (2015),
“Tingkat Undoxyl Sulfat Urin yang Rendah Pada Awal Setelah Transplantasi Mencerminkan Gangguan
Mikrobioma dan Berhubungan dengan Hasil yang Buruk,” Blood, 126, 1723–1728.
Wickham, H. (2009), ggplot2: Grafik Elegan untuk Analisis Data, Springer-Verlag Baru
York.
Wu, L., Yang, Y., dan Liu, H. (2014), “Lasso Nonnegatif dan Aplikasi dalam Indeks Track-
Wu, WB, Woodroofe, M., dan Mentz, G. (2001), “Regresi Isotonik: Pandangan Lain pada
Zhou, H. dan Lange, K. (2013), “Algoritma Jalur untuk Estimasi Terbatas,” Jurnal
Zhou, H. dan Wu, Y. (2014), “Algoritma Jalur Generik untuk Estimasi Statistik Teratur
Zou, H., Hastie, T., dan Tibshirani, R. (2007), “Tentang Derajat Kebebasan Lasso,”
30