Anda di halaman 1dari 31

Machine Translated by Google

Jurnal Statistik Komputasi dan Grafis

ISSN: 1061-8600 (Cetak) 1537-2715 (Online) Beranda jurnal: http://www.tandfonline.com/loi/ucgs20

Algoritma untuk Memasang Lasso yang Dibatasi

Brian R. Gaines, Juhyun Kim & Hua Zhou

Mengutip artikel ini: Brian R. Gaines, Juhyun Kim & Hua Zhou (2018): Algorithms for Fitting the
Constrained Lasso, Journal of Computational and Graphical Statistics, DOI: 10.1080/10618600.2018.1473777

Untuk menautkan ke artikel ini: https://doi.org/10.1080/10618600.2018.1473777

Lihat materi tambahan

Versi penulis yang diterima diposting online:


18 Mei 2018.

Kirimkan artikel Anda ke jurnal ini

Lihat artikel terkait

Lihat data Tanda Silang

Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di


http://www.tandfonline.com/action/journalInformation?journalCode=ucgs20
Machine Translated by Google

Algoritma untuk Memasang Lasso yang Dibatasi


Brian R. Gaines
Departemen Statistik, Universitas Negeri Carolina Utara

Juhyun Kim dan Hua Zhou


Departemen Biostatistik, Universitas California, Los Angeles (UCLA)
30 Maret 2018

Abstrak

Kami membandingkan strategi komputasi alternatif untuk memecahkan masalah laso


yang dibatasi. Seperti namanya, laso yang dibatasi memperluas laso yang banyak
digunakan untuk menangani batasan linier, yang memungkinkan pengguna memasukkan
informasi sebelumnya ke dalam model. Selain pemrograman kuadrat, kami menggunakan
metode pengganda arah bolak-balik (ADMM) dan juga memperoleh algoritma jalur solusi
yang efisien. Melalui contoh data simulasi dan benchmark, kami membandingkan
berbagai algoritma dan memberikan rekomendasi praktis dalam hal efisiensi dan akurasi
untuk berbagai ukuran data. Kami juga menunjukkan bahwa, untuk matriks penalti
arbitrer, laso yang digeneralisasi dapat diubah menjadi laso yang dibatasi, sedangkan
kebalikannya tidak benar. Dengan demikian, metode kami juga dapat digunakan untuk
memperkirakan laso umum, yang memiliki penerapan luas. Kode untuk
mengimplementasikan algoritma tersedia secara bebas di kedua toolbox Matlab
SparseReg dan paket Julia ConstrainedLasso. Materi tambahan untuk artikel ini tersedia online.

Kata Kunci : Metode pengali arah bolak-balik; Optimasi cembung; laso umum; Kendala linier;
Regresi yang dikenakan sanksi; Jalur regularisasi.

NASKAH YANG DITERIMANASKAH


1. Perkenalan

Fokus kami adalah memperkirakan masalah laso yang dibatasi (James et al., 2013)

1 2
memperkecil kamu - Xÿ 2 + ÿÿ1 (1)
2
tunduk pada Aÿ = b dan Cÿ ÿ d,

1
Machine Translated by Google

dimana y ÿ R n adalah vektor respons, X ÿ R n×p adalah matriks desain prediktor atau
kovariat, ÿ ÿ R p adalah vektor koefisien regresi yang tidak diketahui, dan ÿ ÿ 0 adalah penyetelan
parameter yang mengontrol jumlah regularisasi. Diasumsikan bahwa kendala tersebut
matriks A dan C, keduanya mempunyai rangking baris penuh. Seperti namanya, laso yang dibatasi

menambah laso standar (Tibshirani, 1996) dengan persamaan linear dan ketidaksetaraan con-
strain. Sedangkan penggunaan 1 penalti memungkinkan pengguna untuk memaksakan pengetahuan sebelumnya pada

estimasi koefisien dalam hal ketersebaran, kendala memberikan sarana tambahan

pengetahuan sebelumnya untuk dimasukkan ke dalam solusi. Misalnya, pertimbangkan tahunan


data anomali suhu diberikan pada Gambar 1. Seperti telah disebutkan sebelumnya di
literatur tentang regresi isotonik, secara umum suhu tampak meningkat secara monoton
selama periode waktu 1850 hingga 2015 (Wu et al., 2001; Tibshirani et al., 2011). Mono-

tonisitas dapat dikenakan pada perkiraan koefisien menggunakan laso yang dibatasi dengan
matriks kendala ketimpangan

1 ÿ1
ÿ ÿ
1 ÿ1
C= .. .. (2)
. .

1 ÿ1
ÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ

dan d = 0 ÿ R pÿ1 . Laso dengan urutan koefisien yang monoton dirujuk

oleh Tibshirani dan Suo (2016) sebagai laso yang dipesan, dan merupakan kasus khusus dari laso yang

dibatasi (1).

Contoh lain dari laso terbatas yang muncul dalam literatur adalah
laso positif. Pertama kali disebutkan dalam karya penting Efron dkk. (2004), laso positif

mengharuskan koefisien laso menjadi non-negatif. Varian laso ini telah terlihat penerapannya.

NASKAH YANG DITERIMANASKAH


tions di berbagai bidang seperti desain vaksin (Hu et al., 2015b), deteksi bahan nuklir (Kump

et al., 2012), klasifikasi dokumen (El-Arini et al., 2013), dan manajemen portofolio (Wu et al., 2014). Laso

positif adalah kasus khusus dari laso terbatas (1) dengan C = ÿIp dan d = 0p. Selain itu, ada beberapa

contoh lain di seluruh literatur dimana

laso asli ditambah dengan informasi tambahan berupa persamaan linier


atau kendala ketimpangan. Huang dkk. (2013b) membatasi perkiraan laso yang masuk

interval satuan untuk menafsirkan koefisien sebagai probabilitas yang terkait dengan kehadiran

2
Machine Translated by Google

0,8
Lasso Terkendala (ÿ = 0) •
Regresi Isotonik
• • ••
••••• ••
• •• • •
0,4
• • ••

• •• •••
• • ••
• •
• ••

Anomali
0,0

• •••• • ••• ••• • • • •
••• ••
••• •• •• •• • ••
• • •• •

Suhu
• •• • •
• • ••• • •• •
•• •• • ••
•• •••
• •• •• •
• ••• ••• •• • • • •• • • •
•• ••• •
•• •• •
ÿ0.4
•• • • ••• ••• • •• • •• •
••
•• • •• •
• •••

1850 1900 1950 2000


Tahun

Gambar 1: Kesesuaian regresi isotonik menunjukkan tren monoton pada kelainan suhu. Itu
solusi laso terbatas pada ÿ = 0 identik dengan regresi isotonik.

protein tertentu dalam sel atau jaringan. Laso dengan batasan jumlah ke nol di

koefisien telah digunakan untuk regresi (Shi et al., 2016) dan pemilihan variabel (Lin et al.,

2014) dengan komposisi data sebagai kovariat. Data komposisional adalah data multivariat yang

mewakili proporsi keseluruhan dan karenanya harus berjumlah satu, dan sampai pada penerapannya

seperti belanja konsumen di bidang ekonomi, topik konsumsi dokumen dalam pembelajaran mesin,

dan mikrobioma manusia (Lin et al., 2014). Terakhir, batasan simpleks dimanfaatkan oleh Huang et al.

(2013a) saat menggunakan laso untuk memperkirakan bobot tepi di jaringan otak.

Dengan demikian, laso yang dibatasi adalah kerangka yang sangat fleksibel untuk memaksakan pengetahuan tambahan

dan menyusunnya ke dalam perkiraan koefisien laso.

Selama persiapan naskah kami, kami mengetahui adanya karya yang belum diterbitkan oleh

Dia (2011) yang juga menurunkan algoritma jalur solusi untuk memecahkan laso yang dibatasi.

Namun, pendekatan kami untuk mendapatkan algoritma jalur benar-benar berbeda dan lebih dari itu

NASKAH YANG DITERIMANASKAH


sejalan dengan literatur tentang algoritma jalur solusi (Rosset dan Zhu, 2007), terutama dengan adanya

kendala (Zhou dan Lange, 2013). Selain itu, kami membahas bagaimana kami

algoritma dapat diadaptasi untuk bekerja dalam pengaturan dimensi tinggi di mana n < p

tidak dilakukan oleh Dia (2011). Selanjutnya pendekatan He (2011) menguraikan parameter

vektor, ÿ, menjadi bagian positif dan negatifnya, ÿ = ÿ + ÿ ÿ ÿ , sehingga menggandakan ukuran

masalah. Di sisi lain, kita bekerja secara langsung dengan vektor koefisien asli di

manfaat efisiensi komputasi dan kesederhanaan notasi. Terakhir, hal penting lainnya

3
Machine Translated by Google

kontribusi pekerjaan kami adalah implementasi algoritma kami di SparseReg Matlab

kotak peralatan dan ConstrainedLasso Paket Julia tersedia di GitHub.

Laso yang dibatasi juga dipelajari oleh James et al. (2013) pada versi sebelumnya

naskah mereka tentang regresi yang dihukum dan dibatasi (PAC). PAC saat ini

kerangka regresi diperluas (1) dengan menggunakan kemungkinan log negatif untuk fungsi kerugian juga

mencakup model linier umum (GLM), dan dengan demikian lebih umum daripada masalahnya

kami belajar. Namun, kami yakin fungsi kerugian kesalahan kuadrat perlu mendapat perhatian tambahan

mengingat penggunaannya yang luas dengan 1 penalti, dan juga karena laso yang dibatasi adalah a

pendekatan alami untuk memecahkan masalah kuadrat terkecil yang semakin umum

pengaturan dimensi tinggi. Selain itu, penggunaan fungsi kehilangan kesalahan kuadrat menghasilkan hasil

sifat bagus dari jalur solusi koefisien yang dapat dimanfaatkan dalam memperoleh jalur

algoritma (Zhou dan Wu, 2014). Algoritma jalur yang dikembangkan oleh James et al. (2013)

bukanlah algoritma jalur solusi tradisional karena sesuai dengan grid tuning yang telah ditentukan sebelumnya

parameter, yang secara fundamental berbeda dari strategi mengikuti jalur kami. Hu dkk.

(2015a) mempelajari laso umum yang dibatasi, yang direduksi menjadi laso yang dibatasi ketika tidak ada

matriks penalti yang disertakan (D = Ip). Namun, mereka tidak menemukan jalan keluarnya

algoritma tetapi malah mengembangkan algoritma penurunan koordinat untuk nilai penyetelan yang tetap

parameter.

Artikel selanjutnya disusun sebagai berikut. Di Bagian 2, kami mendemonstrasikan koneksi

antara laso yang dibatasi dan laso yang digeneralisasi, yang menunjukkan bahwa laso yang digeneralisasi bisa

selalu ditransformasikan dan diselesaikan sebagai laso yang dibatasi, bahkan ketika matriks penalti

kekurangan peringkat. Mengingat fleksibilitas laso yang digeneralisasi, hasil ini sangat meluas

penerapan algoritma dan hasil kami. Berbagai algoritma untuk menyelesaikan kendala tersebut

laso, termasuk pemrograman kuadratik (QP), metode pengganda arah bolak-balik (ADMM), dan algoritma

NASKAH YANG DITERIMANASKAH


mengikuti jalur baru, diturunkan di Bagian 3. Simulasi

hasil yang membandingkan kinerja algoritma disajikan pada Bagian 4. The

Hasil utama dari simulasi adalah, dalam hal run time, algoritma jalur solusinya adalah

lebih efisien dibandingkan pendekatan lain ketika estimasi koefisien lebih dari segelintir

nilai parameter penyetelan yang diinginkan. Contoh data tolok ukur yang menyoroti

fleksibilitas laso yang dibatasi diberikan di Bagian 5, sedangkan Bagian 6 menyimpulkan.

4
Machine Translated by Google

2 Koneksi ke Generalized Lasso

Formulasi laso fleksibel lainnya adalah laso umum (Tibshirani dan Taylor, 2011)
1
2
memperkecil kamu - Xÿ + ÿDÿ1, (3)
2 2

dimana D ÿ R m×p adalah matriks regularisasi tetap yang ditentukan pengguna. Pilihan tertentu D
sesuai dengan versi laso yang berbeda, termasuk laso asli, berbagai bentuk

laso yang menyatu, dan pemfilteran tren. Telah diamati bahwa (3) dapat diubah menjadi laso
standar ketika D memiliki peringkat baris penuh (Tibshirani dan Taylor, 2011), dan dapat
diubah menjadi laso terbatas ketika D memiliki peringkat kolom penuh (James et al., 2013).
Di sini kami mencatat bahwa sebenarnya mungkin untuk menyelesaikan laso yang digeneralisasikan sebagai laso yang dibatasi

bahkan ketika D kekurangan peringkat, yang dinyatakan dalam Teorema 1 (lihat Lampiran A.1 untuk

buktinya).

Teorema 1. Untuk matriks penalti sembarang dengan rank(D) = r, gunakan perubahan berikut
variabel

T
ÿ U1ÿ1V
ÿ
ÿ ÿ = Dÿ˜ = 1 ÿ
, (4)
ÿ V 2T
ÿ ÿ ÿ ÿ

dimana U1 ÿ Rm×r , U2 ÿ R m×(mÿr) , ÿ1 ÿ R r×r


, V1 ÿ R p×r , dan V2 ÿ R p×(pÿr) berasal dari

dekomposisi nilai singular (SVD) dari D, ÿ ÿ R m, dan ÿ ÿ R soal pÿr (3) , laso umum

setara dengan soal laso yang dibatasi


1 2
memperkecil kamu ÿ XD+ÿ ÿ XV2ÿ + ÿÿ1 (5)
2 2

T
tunduk pada U 2 ÿ = 0mÿr,

NASKAH YANG DITERIMANASKAH


dimana D+ menunjukkan invers Moore-Penrose dari matriks D.

Ada tiga kasus khusus yang menarik:

1. Ketika D mempunyai rangking baris penuh, r = m, matriks U2 adalah nol dan batasan UT ÿ = 0 2

menghilang, berkurang menjadi laso standar seperti yang diamati oleh Tibshirani dan Taylor (2011).

2. Jika D mempunyai pangkat kolom penuh, r = p, matriks V2 adalah nol dan suku XV2ÿ
tetes, menghasilkan laso yang terbatas seperti yang diamati oleh James et al. (2013).

5
Machine Translated by Google

3. Jika D tidak memiliki rank penuh, r < min(m, p), maka permasalahan di atas (5) dapat disederhanakan

menjadi permasalahan laso terbatas hanya pada ÿ dengan memperhatikan bahwa meminimalkan (5)

sehubungan dengan hasil ÿ

XV2ÿˆ = PXV2 (y ÿ XD+ÿ)

untuk ÿ apa pun, dengan PXV2 adalah proyeksi ortogonal ke ruang kolom C(XV2).

Jadi, masalah laso terbatas yang dihasilkan diberikan oleh

1
memperkecil kamu˜ ÿ Xÿ˜22 + ÿÿ1
2
T
tunduk pada U 2 ÿ = 0mÿr,

dimana y˜ = (I ÿ PXV2 )y dan X˜ = (I ÿ PXV2 )XD+. Jalur penyelesaian ÿˆ(ÿ) bisa

diterjemahkan kembali ke masalah laso umum asli melalui affine


transformasi

ÿ1 T T T
ÿˆ(ÿ) = V1ÿ 1 kamu
1 (ÿ) + V2(V 2 XTXV2) ÿV ÿˆ 2 XT [kamu ÿ XD+ÿˆ (ÿ)]
T T
= [Saya ÿ V2(V 2 XTXV2) ÿV 2 XTX]D+ÿˆ (ÿ)
T T
+V2(V 2 XTXV2) ÿV 2 XT kamu,

dimana Xÿ menunjukkan invers umum dari matriks X.

Dengan demikian, setiap masalah laso yang digeneralisasi dapat dirumuskan ulang sebagai laso yang dibatasi, sehingga

algoritma dan hasil yang disajikan di sini dapat diterapkan pada sejumlah besar masalah. Namun,

tidak selalu mungkin untuk mengubah laso yang dibatasi menjadi laso yang digeneralisasi, seperti yang dirinci

pada Lampiran A.2.

NASKAH
3 Algoritma
YANG DITERIMANASKAH

Pada bagian ini, kami memperoleh tiga algoritma berbeda untuk memperkirakan laso yang dibatasi

(1). Sepanjang bagian ini, kami berasumsi bahwa X memiliki peringkat kolom penuh, yang memerlukannya

itu n > hal. Untuk kasus dimensi tinggi yang semakin lazim dimana n < p, kita ikuti

pendekatan standar dalam literatur terkait (Tibshirani dan Taylor, 2011; Hu et al.,

6
Machine Translated by Google

2015a; Arnold dan Tibshirani, 2016) dan menambahkan penalti punggungan kecil ke fungsi tujuan awal pada

(1). Masalahnya kemudian menjadi

1 ÿ
memperkecil 2 2
kamu - Xÿ + ÿÿ1 + 2 ÿ (6)
2 2 2

tunduk pada Aÿ = b dan Cÿ ÿ d,

dimana ÿ adalah konstanta kecil, seperti 10ÿ4 . Perhatikan bahwa tujuan (6) dapat disusun kembali menjadi

bentuk laso terbatas standar (1)

1
memperkecil ÿ 2
kamu ÿ (Xÿ )ÿ + ÿÿ1 (7)
2 2

tunduk pada Aÿ = b dan Cÿ ÿ d,

X
= ÿ ÿ dan Xÿ = ÿ ÿ
kamu
ÿ
menggunakan data tambahan y Matriks desain yang diperbesar
ÿ 0p ÿ ÿ ÿ ÿIp ÿ.
memiliki peringkat kolom penuh, sehingga algoritma berikut kemudian dapat diterapkan ke formulir augmented

(7). Sebagaimana dibahas oleh Tibshirani dan Taylor (2011), pendekatan ini menarik bagi lebih dari satu orang

hanya alasan komputasi karena dimasukkannya penalti ridge juga dapat meningkatkan prediktif

ketepatan.

Sebelum menurunkan algoritma, terlebih dahulu kita mendefinisikan beberapa notasi. Untuk vektor v dan indeks

himpunan S, misalkan vS menjadi subvektor berukuran |S| mengandung unsur v yang sesuai dengan

indeks di S, di mana |·| menunjukkan kardinalitas atau ukuran kumpulan indeks. Demikian pula untuk matriks

M dan kumpulan indeks lainnya T , matriks MS,T berisi baris-baris dari M yang bersesuaian

ke indeks di S dan kolom M dari indeks di T . Kami menggunakan titik dua, :, kapan

semua indeks sepanjang salah satu dimensi disertakan. Artinya, MS,: berisi baris-baris dari

M sesuai dengan S tetapi semua kolom di M.

NASKAH
3.1 Pemrograman YANG
Kuadrat DITERIMANASKAH
Pendekatan pertama kami adalah menggunakan pemrograman kuadrat untuk menyelesaikan masalah laso yang dibatasi
+
(1). Kuncinya adalah menguraikan ÿ menjadi bagian positif dan negatifnya, ÿ = ÿ ÿÿÿ , sebagai

+
relasi |ÿ| = + ÿ ÿ menangani 1 masa hukuman. Dengan memasukkan ini ke (1) dan
+
menambahkan batasan non-negatif tambahan pada ÿ dan ÿ ÿ , laso yang dibatasi adalah

7
Machine Translated by Google

dirumuskan sebagai program kuadrat standar variabel 2p,


T T
+ + +
1
ÿÿ ÿÿÿ ÿ ÿÿ
XTX ÿXTX XT kamu
memperkecil ÿ ÿ ÿ + ÿ ÿ ÿÿ12p ÿ ÿÿ ÿ
2
ÿÿ- ÿ ÿ- ÿ ÿÿ- ÿ
ÿXTX XTX ÿXT tahun
ÿ ÿ ÿ ÿÿ
+
ÿÿ ÿ +
tunduk pada AÿA = b, ÿ ÿ 0p
ÿ
ÿ- ÿ

+
CÿC ÿÿ ÿ
ÿ d, ÿ ÿ ÿ 0p.
ÿ
ÿ- ÿ

Fungsi quadprog Matlab mampu ditingkatkan hingga p ÿ 102 -103 Gurobi , sedangkan komersial

Optimizer mampu ditingkatkan hingga p ÿ 103 -104 .

3.2 ADMM

Algoritma berikutnya yang kami terapkan pada masalah laso terbatas (1) adalah metode pengali arah

bolak-balik (ADMM). Algoritma ADMM telah mengalami pembaharuan

minat terhadap statistik dan aplikasi pembelajaran mesin dalam beberapa tahun terakhir karena dapat memecahkan masalah besar

kelas masalah, seringkali mudah diimplementasikan, dan dapat dilakukan komputasi terdistribusi;

lihat Boyd dkk. (2011) untuk survei terbaru. Secara umum ADMM merupakan suatu algoritma untuk menyelesaikan a

masalah yang memiliki tujuan yang dapat dipisahkan namun terdapat kendala yang saling berkaitan,

memperkecil f(x) + g(z)

tunduk pada Mx + F z = c,

dimana f, g : R p ÿ R ÿ {ÿ} adalah fungsi cembung sejati tertutup. Idenya adalah untuk mempekerjakan

blok koordinat penurunan ke fungsi Lagrangian yang ditambah diikuti dengan pembaruan

variabel ganda ÿ,
NASKAH YANG DITERIMANASKAH (t+1) x
ÿ arg min Lÿ (x, z
(T) ÿ
, (T) )
X

(t+1) z
ÿ arg min Lÿ (x (t+1) , z, ÿ (T) )
z

ÿ (t+1) ÿÿ (t)
+ ÿ (Mx(t+1) + F z(t+1) ÿ c),

dimana t adalah penghitung iterasi dan Lagrangian yang diperbesar adalah


ÿ
T
Lÿ (x, z, ÿ) = f(x) + g(z) + ÿ (Mx + F z ÿ c) + 2 Mx + F z ÿ c 22. (8)

8
Machine Translated by Google

Seringkali lebih mudah untuk bekerja dengan bentuk ADMM berskala setara, yang mana

menskalakan variabel ganda dan menggabungkan istilah linier dan kuadrat dalam augmented

Lagrangian (8). Pembaruan menjadi

ÿ
(t+1) x
arg min 2 f(x) + ÿ Mx + F z(t) ÿ c + u (t) 2 2
X
ÿ
(t+1) z
arg min 2 g(z) + ÿ Mx(t+1) + F z ÿ c + u (t) 2 2
z
(t+1) ÿ kamu (t)
kamu
+ Mx(t+1) + F z(t+1) ÿ c,

dimana u = ÿ/ÿ adalah variabel ganda berskala. Bentuk berskala sangat berguna dalam kasus ini

dimana M = F = I, karena pembaruan dapat ditulis ulang menjadi

X (t+1) (t) ÿ kamu (T)


ÿ prok 1 F (c ÿ z )
ÿ

z (t+1) (t+1) ÿ kamu (T)


ÿ prok 1 G
(c ÿ x )
ÿ

kamu (t+1) (t) (t+1) (t+1) + x + z ÿ u ÿ c,

di mana prox 1 F
adalah pemetaan proksimal suatu fungsi f dengan parameter ÿ > 0. Ingat itu
ÿ

pemetaan proksimal didefinisikan sebagai

ÿ
proks 1 F (v) = argumenmin f(x) + xÿv 22.
ÿ
X
2

Salah satu manfaat menggunakan formulir berskala untuk ADMM adalah, dalam banyak situasi termasuk

laso yang dibatasi, pemetaan proksimal memiliki solusi bentuk tertutup yang sederhana, sehingga menghasilkan

pembaruan ADMM langsung. Untuk menerapkan ADMM ke laso yang dibatasi, kami mengidentifikasi f

sebagai tujuan pada (1) dan g sebagai fungsi indikator dari himpunan kendala C = {ÿ ÿ R p :

Aÿ = b, Cÿ ÿ d},

ÿÿÿÿC/
g(ÿ) = ÿC =

NASKAH YANG DITERIMANASKAH ÿÿ

0 ÿ ÿ C.ÿÿ

Untuk updatenya, prox 1 adalah masalah laso biasa dan prox 1 f


G
adalah proyeksi ke
ÿ ÿ

ruang affine C (Algoritma 1). Proyeksi pada himpunan cembung telah dipelajari dengan baik dan, dalam banyak penerapan,

proyeksi tersebut dapat diselesaikan secara analitis (lihat Bagian 15.2 dari Lange (2013) untuk beberapa contoh). Untuk

situasi dimana operator proyeksi eksplisit tidak tersedia, maka

proyeksi dapat ditemukan dengan menggunakan pemrograman kuadrat untuk menyelesaikan masalah ganda, yaitu

mempunyai jumlah variabel yang lebih sedikit.

9
Machine Translated by Google

(0) (0) 0 (0)


1 Inisialisasi ÿ ==z , = 0, ÿ > 0 ; kamu

2 ulangi
(t+1) 2 ÿ
3ÿ ÿ argumen 12 kamu - Xÿ 2 + 2 + ÿÿ1; 2 (t) + kamu (t) 2 ÿ + z

z (t+1) 4 (t+1)
ÿ projC (ÿ + u (t) + ÿ (T) );

kamu (t+1) ÿ kamu 5 (t+1)


+ z (t+1);

6 sampai kriteria konvergensi terpenuhi;

Algoritma 1: ADMM untuk menyelesaikan laso yang dibatasi (1).

3.3 Algoritma Jalur

Pada bagian ini kita memperoleh algoritma jalur solusi baru untuk masalah laso yang dibatasi

(1). Berdasarkan kondisi KKT, titik optimal ÿ(ÿ) dicirikan oleh

kondisi stasioneritas

ÿXT [y ÿ Xÿ(ÿ)] + ÿs(ÿ) + ATÿ(ÿ) + C Tµ(ÿ) = 0p

ditambah dengan batasan linier. Di sini s(ÿ) adalah subgradien ÿÿ1 dengan elemen

ÿ1 ÿj (ÿ) > 0

sj (ÿ) = [ÿ1, 1] ÿj (ÿ) = 0 , (9)


ÿÿÿÿÿ

ÿ1 ÿj (ÿ) < 0
ÿÿÿÿÿ

T
dan µ memenuhi kondisi kelonggaran komplementer. Artinya, ÿl = 0 jika c aku
ÿ < dl dan
T
ÿl ÿ 0 jika c aku
ÿ = dl .

Sepanjang jalan kita perlu melacak dua set,

T
A := {j : ÿj = 0}, ZI := {l : c aku ÿ = dl}.

NASKAH YANG DITERIMANASKAH


Himpunan pertama mengindeks koefisien bukan nol (aktif) dan himpunan kedua melacak himpunan

batasan ketimpangan (yang mengikat) pada batas tersebut. Berfokus pada koefisien aktif untuk saat ini,

kita memiliki persamaan (sub)vektor

T
0|SEBUAH| = ÿXT :,A(y ÿ X:,AÿA) + ÿsA + AT :,Aÿ + C ZI ,AµZI (10)

B AA
ÿ ÿ ÿ ÿ =ÿ ÿ
ÿA,
ÿ dZI CZI ,A ÿ

10
Machine Translated by Google

melibatkan variabel dependen yang tidak diketahui ÿA, ÿ, dan µZI , dan variabel independen ÿ.
Menerapkan teorema fungsi implisit pada persamaan vektor (10) menghasilkan jalur yang mengikuti arah
ÿ1

CTZI ,A sA
ÿ ÿA ÿ :,A
ÿ XT :, KAPAK :, A AT ÿ ÿ ÿ
D
ÿ AA 0 0 0 . (11)
dÿ
ÿZI ÿÿÿÿ = ÿ CZI ,A 0 0 0
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ

Ruas kanan adalah konstan pada suatu ruas lintasan sepanjang himpunan A, ZI , dan the
tanda-tanda koefisien aktif sA tetap tidak berubah. Hal ini menunjukkan bahwa jalur solusinya
dari laso yang dibatasi adalah linier sepotong-sepotong. Matriks yang terlibat adalah non-tunggal selama

ÿ AA ÿ
X:,A memiliki peringkat kolom penuh dan matriks batasan memiliki independen linier
CZI ,A
ÿ ÿ
baris. Kondisi stasioneritas dibatasi pada koefisien tidak aktif

T
ÿXT :,Ac [y ÿ X:,AÿA(ÿ)] + ÿsAc (ÿ) + AT :,Acÿ(ÿ) + C ZI ,AcµZI (ÿ) = 0|Ac|

menentukan

T
ÿsAc (ÿ) = XT :,Ac [y ÿ X:,AÿA(ÿ)] ÿ AT :,Acÿ(ÿ) ÿ C ZI ,AcµZI (ÿ). (12)

Jadi ÿsAc bergerak linier sepanjang jalur via


T

ÿ ÿXT :, KAPAK :, Ac ÿ ÿA ÿ
D D
J:,Ac ÿ . (13)
dÿ[ÿsAc ] = ÿ dÿ
CZI ,Ac ÿZI
ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ ÿÿÿÿ

Pertidaksamaan sisa rZc := CZc,AÿA ÿ dZc juga bergerak linier dengan gradien
SAYA SAYA SAYA

D D

NASKAH YANG DITERIMANASKAH dÿrZc I


= CZc ,A
SAYA

dÿÿA.
(14)

Bersama-sama, persamaan (11), (13), dan (14) digunakan untuk memantau perubahan A dan ZI , yang

berpotensi mengakibatkan kekusutan pada jalur solusi.


Ringkasnya, karena jalur solusinya linier sebagian, kita hanya perlu memantau kejadiannya
dibahas di atas yang dapat mengakibatkan kekusutan di sepanjang jalur, dan jalur lainnya juga dapat menimbulkan kekusutan

diinterpolasi. Ringkasan peristiwa-peristiwa ini diberikan pada kolom sebelah kiri pada Tabel 1.
(T)
Kita melakukan lintasan mengikuti arah menurun dari ÿmax menuju ÿ = 0. Misalkan ÿ

11
Machine Translated by Google

Tabel 1: Peristiwa Jalur Solusi

Peristiwa Memantau

(t) D (T)
Koefisien aktif mencapai 0 ÿ ÿAÿÿ dÿÿ
[ÿsAc ] = ± A = 0|SEBUAH|

d
Koefisien yang tidak aktif menjadi aktif [ÿ (t)s (t)Ac ] ÿ ÿÿ dÿ (ÿ (t) ÿ ÿÿ)1|Ac|
(T) d
Kendala ketimpangan yang ketat sudah mencapai batasnya R Zc ÿ ÿÿ rZc dÿ = 0|Zc |
SAYA SAYA

D
Kendala ketimpangan tidak melampaui batas saya (t) µ
ZI ÿ ÿÿ dÿµZI = 0|ZI |
d
Pelanggaran subgradien sj dÿ [ÿsj ] < 1 untuk j ÿ Ac dengan sj = ±1

menyatakan solusi pada kekusutan t, maka kekusutan berikutnya t+1 diidentifikasi dengan ÿÿ terkecil, di mana

ÿÿ > 0 ditentukan oleh empat kondisi pertama yang tercantum pada kolom kanan Tabel 1. In

Selain memantau kejadian-kejadian disepanjang jalur, kita juga perlu memantau secara teknis

kondisi untuk memastikan bahwa kondisi subgradien (9) tetap terpenuhi di sepanjang jalur

agar jalur solusi terdefinisi dengan baik. Masalah muncul ketika koefisien tidak aktif pada

batas interval subgradien bergerak terlalu lambat di sepanjang lintasan sehingga tidak dapat mencapai batas tersebut

subgradien akan lolos [-1, 1] pada kekusutan berikutnya t + 1. Untuk mengatasi masalah ini, jika koefisien

tidak aktif ÿj , j ÿ Ac , dengan subgradien sj = ±1 bergerak terlalu lambat, koefisiennya adalah

dipindahkan ke himpunan aktif A dan persamaan (11) dihitung ulang sebelum melanjutkan lintasan
D
algoritma. Kisaran eksplisit dÿ [ÿsAc ] yang perlu dipantau diberikan pada Tabel 1,

dan derivasi terkait ada di Lampiran A.3.

3.3.1 Inisialisasi

Karena kita melakukan jalur mengikuti arah menurun, nilai awal untuk penyetelan

NASKAH YANG DITERIMANASKAH


parameter, ÿmax, diperlukan. Sebagai ÿ ÿ ÿ, penyelesaian masalah awal (1) diberikan oleh

meminimalkan ÿ1 (15)

tunduk pada Aÿ = b dan Cÿ ÿ d,

yang merupakan masalah pemrograman linier standar. Kami pertama-tama menyelesaikan (15) untuk mendapatkan inisial
0
estimasi koefisien ÿ dan himpunan A dan ZI yang bersesuaian , serta nilai awal untuk
0 0
pengali Lagrange ÿ dan µ . Mengikuti Rosset dan Zhu (2007), mengikuti jalur

12
Machine Translated by Google

berawal dari

T 0 ÿC T 0
ÿmaks = maks xj (y ÿ Xÿ0 ) ÿ DI :,jÿ ZI ,jµ ZI , (16)

dan subgradien diatur menurut (9) dan (12). Seperti dicatat oleh James dkk. (2013), pendekatan ini bisa

gagal jika (15) tidak memiliki solusi unik. Misalnya, anggap ÿj = 1. Apa saja

laso yang dibatasi dengan batasan jumlah ke satu pada koefisiennya,


J
th
vektor dasar ej , yang memiliki 1 untuk j elemen dan 0 sebaliknya, memenuhi

kendala sekaligus mencapai batas minimum 1 norma, menghasilkan banyak solusi

(15). Dalam hal ini, masih dimungkinkan untuk menggunakan (15) dan (16) untuk mengidentifikasi ÿmax, yang kemudian
0
digunakan pada (1) untuk menginisialisasi ÿ , A, ZI , ÿ 0 , dan µ 0
melalui pemrograman kuadrat.

3.3.2 Penghentian

Pertimbangan praktis lainnya untuk mengimplementasikan algoritma jalur solusi adalah prinsip

cara untuk menghentikan algoritma. Untuk tujuan ini, kami memperoleh rumus untuk derajat

kebebasan laso yang dibatasi. Pendekatan standar dalam literatur laso (Efron et al., 2004; Zou et al.,

2007; Tibshirani dan Taylor, 2011, 2012) adalah mengandalkan ekspresi

untuk derajat kebebasan yang diberikan oleh Stein (1981),

N
ÿgi
df(g) = E , (17)
ÿyi
saya=1

di mana g adalah fungsi kontinu dan hampir terdiferensiasi, yang dengan g(y) = yˆ = Xÿˆ terpenuhi dalam

kasus kami (Hu et al., 2015a). Untuk menerapkan persamaan (17), kita perlu mengasumsikan bahwa

responsnya terdistribusi normal, yaitu y ÿ N(µ, ÿ2I). Seperti sebelumnya, kami juga berasumsi bahwa keduanya

matriks kendala, A dan C, mempunyai rangking baris penuh, dan X mempunyai rangking kolom penuh. Kemudian,

NASKAH YANG DITERIMANASKAH


menggunakan hasil dalam Hu et al. (2015a) dengan D = I, untuk ÿ ÿ 0 derajat kebebasan tetap

diberikan oleh

df(Xÿˆ(ÿ)) = E [|A| ÿ (q + |ZI |)] , (18)

dimana |A| adalah jumlah prediktor aktif, q adalah jumlah batasan kesetaraan, dan |ZI | adalah jumlah

batasan ketimpangan yang mengikat. Penduga derajat kebebasan yang tidak bias adalah |A| ÿ (q + |ZI |).

Hasil ini bersifat intuitif ketika derajat kebebasan dimulai

13
Machine Translated by Google

keluar sebagai jumlah prediktor aktif, dan kemudian satu derajat kebebasan hilang untuk masing-masing prediktor

batasan kesetaraan dan setiap batasan ketidaksetaraan yang mengikat. Apalagi bila ada

tidak ada batasan, (1) menjadi soal laso standar dengan derajat kebebasan sama dengan |A|,

konsisten dengan hasil dalam Zou dkk. (2007). Rumus (18) juga konsisten dengan

hasil estimasi terbatas disajikan dalam Zhou dan Lange (2013) dan Zhou dan Wu (2014). Kami menggunakan

derajat kebebasan saat mengimplementasikan algoritma jalur solusi

untuk mengakhiri jalur ketika derajat kebebasannya sama dengan n. Jumlah derajat

kebebasan juga merupakan ukuran penting yang menjadi masukan bagi beberapa metrik yang digunakan untuk model

penilaian dan seleksi, seperti Mallows' Cp, AIC, dan BIC. Secara khusus, kriteria ini

dapat diplot sepanjang jalur sebagai fungsi ÿ sebagai teknik pemilihan optimal

nilai untuk parameter penyetelan, sebagai alternatif validasi silang.

4 Contoh Simulasi
Untuk menyelidiki kinerja berbagai algoritma yang diuraikan dalam Bagian 3 untuk penyelesaian

masalah laso yang dibatasi, kami mempertimbangkan tiga contoh simulasi. Untuk simulasi,

kami menggunakan tiga algoritma berbeda yang dibahas di Bagian 3 untuk menyelesaikan (1). Sebagaimana dicatat dalam

Bagian 3.2, algoritma ADMM menyertakan parameter penyetelan tambahan ÿ , yang kita

perbaiki pada 1/n berdasarkan percobaan awal. Selain itu, seperti yang ditunjukkan dalam Boyd et al. (2011),

kinerja metode ADMM dapat sangat dipengaruhi oleh pilihan metode tersebut

kriteria penghentian algoritma, yang kami tetapkan menjadi 10ÿ4 untuk toleransi kesalahan absolut dan relatif.

Jika memungkinkan (simulasi 1 dan 2), kami juga menggunakan fungsi yang ditentukan pengguna

menangani untuk memecahkan submasalah memproyeksikan ke kendala set C untuk ADMM sebagai

ini meningkatkan efisiensi. Dua faktor yang menarik dalam simulasi adalah ukuran

NASKAH YANG DITERIMANASKAH


masalah, (n, p), dan nilai parameter penyetelan regularisasi, ÿ. Empat tingkat berbeda digunakan untuk faktor

ukuran, (n, p): (50, 100), (100, 500), (500, 1000), dan (1000, 2000). Untuk faktor terakhir, nilai ÿ dihitung sebagai

pecahan dari ÿ maksimum. Pecahan, atau nilai skala ÿ (yaitu, ÿ = ÿscale · ÿmax) yang digunakan dalam simulasi

adalah

0.2, 0.4, 0.6, dan 0.8, untuk menyelidiki bagaimana tingkat regularisasi berdampak pada algoritma

pertunjukan. Agar hasilnya lebih sebanding, total waktu proses untuk solusi tersebut

algoritma jalur dirata-ratakan pada jumlah total kekusutan pada jalur. Untuk menghasilkan

14
Machine Translated by Google

data untuk dua simulasi pertama, kovariat dalam matriks desain, X, dihasilkan sebagai

variabel normal standar independen dan identik (iid), dan respons dihasilkan sebagai y = Xÿ + ÿ di mana

ÿ ÿ N(0n, In). Untuk pengaturan simulasi ketiga, kovariatnya

sekali lagi dihasilkan dari distribusi normal dengan mean nol tetapi menggunakan matriks kovarians

dengan elemen (i, j) yang diberikan oleh 0,5 |iÿj| . Seperti yang akan dibahas nanti, setting simulasi ketiga

terinspirasi oleh contoh dalam literatur (Hu et al., 2015a), jadi kami mengikuti datanya

proses pembangkitan. Seluruh simulasi menggunakan 20 ulangan dan dilakukan di Matlab menggunakan

kotak peralatan SparseReg di komputer dengan prosesor Intel i7-6700 3,4 GHz dan 32 GB

Penyimpanan. Pemrograman kuadratik menggunakan Gurobi Optimizer melalui antarmuka Matlab,

sedangkan ADMM dan algoritma jalur solusi adalah implementasi Matlab murni.

4.1 Kendala Jumlah-ke-nol

Simulasi pertama melibatkan batasan jumlah hingga nol pada vektor parameter sebenarnya, ÿj =
J

0. Baru-baru ini, jenis pembatasan pada laso ini semakin diminati

digunakan dalam analisis data komposisi serta analisis yang melibatkan biologis apa pun

pengukuran dianalisis relatif terhadap titik referensi (Lin et al., 2014; Shi et al., 2016; Altenbuchinger et

al., 2017). Ditulis dalam rumusan laso yang dibatasi (1), ini sesuai
T
menjawab A = 1 dan b = 0. Untuk simulasi ini, vektor parameter sebenarnya, ÿ, adalah
P

didefinisikan sedemikian rupa sehingga 25% entri pertama adalah 1, 25% entri berikutnya adalah -1, dan

elemen lainnya adalah 0. Jadi parameter sebenarnya memenuhi batasan jumlah hingga nol,

yang dapat kita terapkan pada estimasi menggunakan batasan.

Hasil utama simulasi diberikan pada Gambar 2(a), yang memplot rata-rata hasil waktu proses

algoritma pada ukuran masalah yang berbeda, (n, p). Hasil menggunakan program kuadrat (QP) dan

NASKAH YANG DITERIMANASKAH


ADMM masing-masing digambarkan pada dua nilai skala ÿ, 0,2 dan 0,6. Di dalam

dari grafik kita dapat melihat bahwa algoritma jalur solusi lebih cepat dibandingkan metode lainnya,

dan kinerja relatifnya bahkan lebih mengesankan seiring dengan bertambahnya ukuran masalah. Grafik

juga menunjukkan dampak parameter penyetelan, ÿ, pada QP dan ADMM. QP dilakukan

sama pada kedua nilai skala ÿ, namun hal tersebut tidak terjadi pada ADMM. Pada skala ÿ = 0,6,

Performa ADMM sangat mirip dengan QP, namun performa ADMM jauh lebih buruk

nilai ÿ yang lebih kecil. Nilai ÿ yang lebih kecil berarti bobot yang lebih kecil 1 penalti yang

15
Machine Translated by Google

menghasilkan solusi yang lebih jarang. Runtime ADMM juga lebih bervariasi dibandingkan

algoritma lainnya.

• •
Jalur Solusi QP Jalur Solusi QP •
(ÿskala = 0,2) 7.5 (ÿskala = 0,2)
15
ADMM (ÿskala = 0,2) ADMM (ÿskala = 0,2)
QP (ÿskala = 0,6) QP (ÿskala = 0,6)
ADMM (ÿskala = 0,6) ADMM (ÿskala = 0,6)
5.0 •
10 ••
Algoritma

Algoritma
Proses

Proses
Waktu

Waktu
(detik)

(detik)


• 2.5
5


• ••
• •

0 • • • • 0,0 • ••• • •

(50, 100) (100, 500) (500, 1000) (1000, 2000) (50, 100) (100, 500) (500, 1000) (1000, 2000)
Ukuran Masalah, (n, p) Ukuran Masalah, (n, p)

(a) Simulasi 1: kendala jumlah-ke-nol (b) Simulasi 2: kendala non-negatif

Jalur Solusi

15
QP (ÿskala = 0,2) •
ADMM (ÿskala = 0,2)
QP (ÿskala = 0,6)
10 ADMM (ÿskala = 0,6)
Algoritma
Proses
Waktu
(detik)


5

• •

• •
•• •
••• • •
0 • •
(50, 100) (100, 500) (500, 1000) (1000, 2000)
Ukuran Masalah, (n, p)

(c) Simulasi 3: kendala kompleks

Gambar 2: Pengaturan simulasi yang berbeda menunjukkan kinerja yang sebanding atau unggul secara konsisten

dari algoritma jalur sedangkan kinerja ADMM dan QP bervariasi tergantung pada ukuran dan
kompleksitas masalah. Waktu proses untuk algoritma jalur solusi dirata-ratakan

NASKAH YANG DITERIMANASKAH


jumlah kekusutan pada jalur untuk membuat waktu proses lebih sebanding dengan algoritme lainnya
diperkirakan pada satu nilai parameter penyetelan, ÿ = ÿscale · ÿmax.

Meskipun waktu proses algoritme adalah metrik yang menjadi perhatian utama, algoritme yang cepat bukanlah metrik utama

banyak gunanya jika sayangnya tidak akurat. Ketika kita mengadopsi kesalahan nilai objektif relatif

untuk QP sebagai ukuran akurasi, algoritma jalur solusi tidak hanya efisien tetapi juga efisien

tepat. Di sisi lain, akurasi ADMM menurun seiring dengan meningkatnya ÿ. Bagian dari ini

16
Machine Translated by Google

Hal ini diharapkan mengingat toleransi konvergensi yang digunakan untuk ADMM tidak terlalu ketat

daripada yang digunakan untuk QP. Terlepas dari besarnya kesalahan ini, yang umumnya terjadi

kurang dari 0,005%, mungkin tidak penting secara praktis. Plot nilai objektif

kesalahan, baik pada skala asli dan skala log, untuk jalur solusi dan ADMM untuk

(n, p) = (500, 1000) diberikan pada Gambar A.2 pada Lampiran A.4. Hasil dari yang lain

ukuran masalah secara kualitatif serupa dan karenanya dihilangkan.

4.2 Kendala Non-negatif

Simulasi kedua melibatkan laso positif yang disebutkan di Bagian 1, sesuai pengetahuan kita.

edge itu adalah versi paling umum dari laso terbatas yang muncul di

literatur. Juga disebut sebagai laso non-negatif, seperti namanya, laso ini membatasi

estimasi koefisien laso menjadi non-negatif. Dalam formulasi laso terbatas (1), laso positif sesuai dengan batasan

C = ÿIp dan d = 0p. Untuk setiap ukuran masalah,

vektor parameter sebenarnya didefinisikan sebagai

ÿ j, j = 1, ..., 10
ÿj = ,
ÿÿ

0, j = 11, ..., p ÿÿ

jadi koefisien sebenarnya mematuhi batasan dan laso yang dibatasi memungkinkan kita untuk menggabungkan

memasukkan pengetahuan sebelumnya ini ke dalam estimasi.

Gambar 2(b) adalah grafik rata-rata runtime untuk setiap algoritma untuk berbagai ukuran masalah yang

dipertimbangkan. Seperti pada simulasi 1, hasil pemrograman kuadratik (QP) dan ADMM digambarkan pada dua

nilai ÿ yang berbeda, sesuai dengan ÿscale = ÿ/ÿmax ÿ {0.2, 0.6} untuk juga menunjukkan dampak ÿ pada waktu

estimasi. Satu hal yang perlu diperhatikan

NASKAH YANG DITERIMANASKAH


Hasilnya adalah ADMM bernasib lebih baik dibandingkan QP seiring dengan bertambahnya ukuran masalah dan lebih cepat

daripada QP untuk dua ukuran lebih besar yang sedang diselidiki, sedangkan ADMM memiliki runtime yang sama

sebanding atau lebih lambat dari QP pada simulasi pertama. Karena ADMM umumnya berskala

lebih efisien daripada QP, kami berharap ADMM mengungguli QP untuk masalah yang lebih besar dan

ini terjadi lebih cepat dalam pengaturan simulasi kedua sejak dimasukkannya p di-

kendala kesetaraan khususnya meningkatkan kompleksitas masalah. Seperti yang pertama

simulasi, hal lain yang menonjol dari hasilnya adalah kinerja yang kuat

17
Machine Translated by Google

algoritma jalur solusi, yang secara umum mengungguli dua metode lainnya. Namun,

untuk (n, p) = (1000, 2000), ADMM dan jalur solusi bekerja dengan cara yang sama, sebagian karena

untuk inisialisasi algoritma jalur menghambat kinerjanya sebagai ukuran masalah

tumbuh. Dari segi akurasi, nilai tujuan error relatif terhadap QP untuk jalur solusi

dan ADMM diabaikan dan karenanya dihilangkan.

4.3 Kendala Kompleks

Sedangkan dua pengaturan simulasi pertama dilatarbelakangi oleh popularitas kendala

dalam literatur, menarik juga untuk melihat bagaimana kinerja algoritma ketika ada kendala

lebih kompleks dan melibatkan banyak parameter sekaligus. Untuk tujuan ini, kami meminjam

kendala yang digunakan dalam salah satu simulasi yang dipelajari oleh Hu et al. (2015a). Vektor parameter

sebenarnya didefinisikan sebagai ÿ = (1, 0.5, ÿ1, 0, ..., 0, 1, 0.5, ÿ1, 0, ..., 0)T , jadi hanya yang ke-1, ke-2, ke-3 ,

Unsur ke-11, ke-12, dan ke-13 bukan nol. Laso yang dibatasi diperkirakan tunduk
kendalanya

ÿ1 + ÿ2 + ÿ3 ÿ 0, ÿ1 + ÿ3 + ÿ11 + ÿ13 = 0

ÿ2 + ÿ5 + ÿ11 ÿ 1, ÿ2 + ÿ8 + ÿ12 = 1.

Hasil pengaturan ini diberikan pada Gambar 2(c). Untuk pengaturan ini, performa

kesenjangan antara QP dan ADMM bahkan lebih besar dari apa yang diamati dalam simulasi 2 sebagai QP

jauh lebih lambat untuk pengaturan terbesar. Seperti dua simulasi lainnya, ADMM lebih dari itu

lebih sensitif terhadap tingkat regularisasi dan menjadi lebih buruk seiring dengan berkembangnya solusi

kurang jarang. QP, sebaliknya, sekali lagi invarian terhadap nilai ÿ. Solusinya

algoritma jalur mampu menangani batasan yang lebih kompleks dengan tenang dan kembali bekerja

NASKAH YANG DITERIMANASKAH


terasa lebih cepat dibandingkan metode lain seiring dengan bertambahnya ukuran. Untuk ukuran masalah yang lebih besar,

pola kinerja relatif algoritme serupa tetapi terdapat kesenjangan di antara keduanya

QP dan metode lainnya bahkan lebih mencolok karena QP tidak berskala dengan baik, meskipun demikian

menggunakan pemecah komersial yang sangat efisien. Hasil simulasi tambahan yang meliputi a

ukuran masalah yang lebih besar untuk menyoroti pola ini diberikan dalam Lampiran A.5.

18
Machine Translated by Google

5 Aplikasi Data Tolok Ukur


Untuk menyoroti fleksibilitas formulasi umum dari laso terbatas yang kami miliki

dipelajari, kami mengeksplorasi empat contoh dari literatur. Untuk hasil di bagian ini,

laso yang dibatasi diperkirakan menggunakan algoritma jalur solusi (Bagian 3.3) sejak saat itu
kontribusi utama kami.

5.1 Data Pemanasan Global


Untuk penerapan pertama laso terbatas pada kumpulan data benchmark, kami meninjau kembali

data suhu global disajikan pada Bagian 1, yang disediakan oleh Jones et al. (2016).

Kumpulan data tersebut terdiri dari anomali suhu tahunan dari tahun 1850 hingga 2015, relatif terhadap

rata-rata untuk tahun 1961-90. Seperti disebutkan, tampaknya ada tren data yang monoton

seiring waktu, jadi wajar jika ingin memasukkan informasi ini saat memperkirakan

kecenderungan. Wu dkk. (2001) mencapai hal ini pada kumpulan data versi sebelumnya dengan menggunakan isotonik

regresi, yang diberikan oleh

1
2
memperkecil kamu ÿ ÿ (19)
2 2

tunduk pada ÿ1 ÿ · · · ÿ ÿn,

dimana y ÿ R n adalah deret data monotonik yang diinginkan dan ÿ ÿ R n adalah deret data monotonik

koefisien. Analog laso dari regresi isotonik, yang menambahkan 1 suku penalti

(19), dapat diperkirakan dengan laso yang dibatasi (1) menggunakan matriks batasan C seperti pada (2)

dan d = 0 ÿ R pÿ1 . Dalam formulasi ini, laso yang dibatasi menyediakan seluruh keluarga

solusi dengan regresi isotonik sebagai kasus khusus ketika ÿ = 0. Gambar 1 memverifikasi hasil ini

dengan membandingkan estimasi dari algoritma jalur solusi pada ÿ = 0 dengan isotonik
NASKAH YANG DITERIMANASKAH
kecocokan regresi.

5.2 Data Tumor Otak

Penerapan laso terbatas kami yang kedua menggunakan versi genomik komparatif

data hibridisasi (CGH) dari Bredel et al. (2005) yang dimodifikasi dan dipelajari oleh Tibshirani dan Wang (2008)

yang dapat dilihat pada Gambar 3. Dataset berisi CGH

19
Machine Translated by Google

pengukuran dari 2 tumor otak glioblastoma multiforme (GBM). Eksperimen susunan CGH

Catatan digunakan untuk memperkirakan jumlah salinan DNA setiap gen dengan mendapatkan rasio log2 dari

jumlah salinan DNA gen dalam sel tumor relatif terhadap jumlah salinan DNA

di sel referensi. Mutasi pada sel kanker mengakibatkan amplifikasi atau penghapusan a

gen dari kromosom, jadi tujuan analisisnya adalah untuk mengidentifikasi keuntungan atau kerugian tersebut

salinan DNA gen itu (Michels et al., 2007). Tibshirani dan Wang (2008) mengusulkan

menggunakan laso leburan renggang untuk memperkirakan sinyal CGH dengan konstanta sedikit demi sedikit

berfungsi untuk menentukan area dengan nilai bukan nol, karena nilai CGH positif (negatif) berhubungan dengan

kemungkinan keuntungan (kerugian). Laso yang menyatu jarang (Tibshirani et al., 2005)

diberikan oleh
P
1
2
memperkecil kamu ÿ ÿ + ÿ1ÿ1 + ÿ2 |ÿj ÿ ÿjÿ1|, (20)
2
2
j=2

dimana istilah penalti tambahan mendorong estimasi koefisien tetangganya

serupa, sehingga menghasilkan fungsi konstanta sepotong-sepotong. Modifikasi laso ini adalah

awalnya diistilahkan dengan laso leburan, namun sejalan dengan Tibshirani dan Taylor (2011) kami menyebut

(20) sebagai laso leburan jarang untuk membedakannya dari masalah terkait yang tidak

sertakan norma 1 yang memicu ketersebaran pada koefisien. Terlepas dari itu, laso yang menyatu jarang

adalah kasus khusus dari laso umum (3) dengan matriks penalti

ÿC
D= ÿ ÿ ÿ R (2pÿ1)×p ,
ÿ Aku p ÿ

dimana C seperti pada (2) dan Ip adalah matriks identitas p×p. Sebagaimana dibahas di Bagian 2, jarang

laso yang menyatu dapat dirumuskan ulang dan diselesaikan sebagai masalah laso yang dibatasi. Perkiraan

sinyal CGH yang mendasari dari penyelesaian laso yang menyatu secara jarang sebagai laso yang digeneralisasi

NASKAH YANG DITERIMANASKAH


(menggunakan genlasso Paket R (Arnold dan Tibshirani, 2014)) dan laso yang dibatasi adalah

diberikan pada Gambar 3. Seperti dapat dilihat, estimasi dari dua metode berbeda cocok,

memberikan verifikasi empiris transformasi yang diperoleh di Bagian 2.

5.3 Data Mikrobioma

Aplikasi data ketiga kami dengan laso terbatas menggunakan data mikrobioma. Analisisnya

mikrobioma manusia, yang terdiri dari gen-gen dari seluruh mikroorganisme di dalam

20
Machine Translated by Google

6


••• Laso yang dibatasi
Lasso Umum
••• •••

•••• ••
4

Rasio
2 • •

log
••••••••••••••••• •

2
g
•••• •• •• •• • • • •• • ••
•• • •• ••• •• ••• • • • • •
• • • • •• •• • •• •• • • •• • • •• • ••• • ••
• •• •••••
•• • ••••••••••••••
• •
•••••••••••••••••• ••••••••••• • ••• • • •• ••• •••
•••
•••• •••••••••• • •••• ••••••••••••••••••••• • • •
••••••••• • •• ••••• •••
•••• •••••••••
• • • •• •• • • • • •••••••
•• • •
••••••••• • ••••••••••••••• •
•••••
• ••
• • • •• • ••• • ••••••••• • •• •••
•• •• ••
••••••••••••••••
•• • • •• •••••
• • ••••••
• •
•••••••••• ••• •• •••
0 ••• •••••••••••••••• ••••••••••
•••• ••••••••••••
••• •• • • •••• •••••••••••
•• ••
••••
••• ••

•••••••••••• •••••••• •••••••••••


••• •• •••
••••••••• •••••••
• ••••• •• •••• ••
••••• ••••••• ••••
••••• •••• ••••••• ••••
•••••••••••• •••••••• ••••••• •• •••••••••••••••• •••••• • • •
••••
••••••• •• ••• ••••••••••
•• •• ••• •• ••• •
••
•••••••• ••••••••••• ••••
•• ••• ••
•• •• •••••• •
••• •••••
•• • ••••
• ••••
••
•••• •• •• ••••• •

• ••• • • •• • ••• • •
•• ••••
•••
• ••••• •• ••• ••
••
• • •• • ••
••
• ••
•••••• •• •• ••• • •
••

ÿ2 •
• •

0 200 400 600 800 1000


Urutan Genom

Gambar 3: Laso umum dan laso terbatas menghasilkan perkiraan laso menyatu jarang yang identik
pada data tumor otak.

tubuh manusia, telah dimungkinkan oleh munculnya teknologi pengurutan generasi berikutnya.

nologi. Penelitian mikrobioma telah menarik banyak perhatian karena sel-sel ini memainkan peran penting

peranannya dalam kesehatan manusia, termasuk tingkat energi dan penyakit; lihat Li (2015) dan referensinya

di dalamnya. Karena jumlah pembacaan sekuensing sangat bervariasi dari satu sampel ke sampel lainnya, seringkali

jumlah tersebut dinormalisasi untuk mewakili kelimpahan relatif masing-masing bakteri, sehingga dihasilkan

dalam data komposisi, yaitu proporsi yang berjumlah satu. Termotivasi oleh ini, regresi

(Shi et al., 2016) dan pemilihan variabel (Lin et al., 2014) alat untuk kovariat komposisi

telah dikembangkan, yang berarti menerapkan batasan jumlah hingga nol pada laso.

Altenbuchinger dkk. (2017) melanjutkan penelitian ini dengan menunjukkan bahwa jumlah-ke-nol

batasan berguna setiap kali normalisasi data relatif terhadap beberapa titik referensi

menghasilkan data proporsional, seperti yang sering terjadi dalam aplikasi biologis, sejak analisis

menggunakan batasan tidak sensitif terhadap pilihan referensi. Altenbuchinger dkk. (2017)

NASKAH YANG DITERIMANASKAH


memperoleh algoritma penurunan koordinat untuk jaring elastis dengan batasan jumlah nol,
1 1ÿÿ
2 2
memperkecil kamu - Xÿ + ÿ ÿÿ1 + ÿ (21)
2 2
2 2

tunduk pada ÿj = 0,
J

namun fokus analisis mereka, yang mereka sebut sebagai regresi zero-sum, sejalan

menjadi ÿ = 1, yang mana (21) direduksi menjadi laso terbatas (1). Altenbuchinger dkk. (2017) menerapkan

regresi zero-sum pada kumpulan data mikrobioma dari Weber et al. (2015) hingga

21
Machine Translated by Google

menunjukkan ketidakpekaan regresi zero-sum terhadap titik acuan, yang bukan merupakan titik acuan

kasus untuk laso biasa. Data tersebut berisi komposisi mikrobioma pasien

menjalani transplantasi sel induk alogenik (ASCT) serta kadar urin 3-

indoxyl sulfate (3-IS), suatu metabolit senyawa organik indole yang diproduksi di

usus besar dan hati. Pasien ASCT berisiko tinggi terkena penyakit graft-versus-host akut dan

komplikasi infeksi lainnya, yang dikaitkan dengan komposisi

mikrobioma dan tidak adanya metabolit bawaan mikrobiota pelindung di usus (Taur

dkk., 2012; Holler dkk., 2014; Murphy dan Nguyen, 2011). Salah satu zat pelindung tersebut

adalah indole, yang merupakan produk sampingan ketika bakteri usus memecah asam amino triptofan

(Weber dkk., 2015).

Maka yang menarik adalah mengidentifikasi sebagian kecil komposisi mikrobioma yang terkait

dengan kadar 3-IS, seiring dengan keberadaan bakteri penghasil indole yang relatif lebih banyak di usus

diperkirakan menghasilkan kadar 3-IS yang lebih tinggi dalam urin. Pasien ASCT menerima antibiotik

yang membunuh bakteri usus, tetapi dengan pemahaman yang lebih baik tentang bakteri mana yang menghasilkan indole,

antibiotik yang tidak mengandung bakteri tersebut dapat digunakan sebagai gantinya (Altenbuchinger et al., 2017).

Datasetnya sendiri berisi informasi 160 genera bakteri dari 37 pasien. Juga

yang termasuk dalam kumpulan data adalah kadar 3-IS urin mereka yang dinormalisasi terhadap urin

konsentrasi kreatinin untuk mengoreksi variasi laju aliran urin (Waikar et al., 2010). Di dalam

untuk mengukur kinerja laso yang dibatasi terhadap regresi zero-sum,

kami mengikuti prosedur prapemrosesan data yang digunakan oleh Altenbuchinger et al. (2017). Setelah

satu jumlah semu ditambahkan, jumlah bakteri ditransformasikan log2 dan kemudian dipusatkan.

Variabel respons yang menarik, level 3-IS yang dinormalisasi, juga ditransformasikan log2.

Gambar A.4 memplot jalur solusi estimasi koefisien, menggunakan regresi zero-sum dan

laso yang dibatasi. Seperti dapat dilihat pada grafik, estimasi koefisiennya hampir sama

NASKAH YANG DITERIMANASKAH


tidak dapat dibedakan kecuali beberapa perbedaan yang sangat kecil, yang merupakan akibat dari sedikitnya

rumusan yang berbeda dari kedua permasalahan tersebut. Karena ini adalah kasus dimana n < p, sebuah punggungan kecil

penalti ditambahkan ke fungsi tujuan laso yang dibatasi (6) seperti yang dibahas di Bagian 3, tetapi tidak

seperti (21), bobot pada 2 penalti tidak bervariasi antar ÿ. Yang diamati versus

plot nilai pas pada ÿ optimal diberikan pada Gambar A.5 pada Lampiran A.6. ÿ yang optimal

dipilih melalui perluasan Kriteria Informasi Bayesian (EBIC) yang diusulkan oleh Chen dan

22
Machine Translated by Google

Chen (2008, 2012) karena BIC klasik umumnya tidak berkinerja baik ketika nomor tersebut

parameter relatif besar terhadap jumlah observasi.

5.4 Data Harga Rumah

Untuk penerapan data keempat dan terakhir, kami menerapkan laso terbatas pada perumahan

kumpulan data dari Ames, Iowa dari tahun 2006 hingga 2010. Kumpulan data Perumahan Ames (De Cock, 2011)

berisi 2.930 properti perumahan sebagai observasi dan 80 variabel penjelas, yang

terdiri dari 23 variabel nominal, 23 variabel ordinal, 14 variabel hitung, dan 20 variabel kontinyu. Prediktor

Variabelnya meliputi lingkungan, tipe bangunan, ukuran garasi, ukuran lahan, dan tipe akses jalan

antara lain terhadap properti. Meskipun awalnya digunakan untuk tujuan penilaian pajak, ini

kumpulan data ini cocok untuk memprediksi atau memodelkan harga jual rumah dengan menggunakan ekstensif

informasi properti tersedia.

Secara tradisional, variabel faktor dimasukkan ke dalam model melalui skema pengkodean

yang memerlukan pilihan tingkat referensi untuk setiap faktor. Pilihan seperti itu tidak selalu terjadi

jelas dan juga mempersulit interpretasi koefisien dalam analisis regresi.

Di sini kita mengambil pendekatan alternatif dengan membangun variabel indikator untuk setiap level

suatu faktor sambil menerapkan batasan jumlah hingga nol pada masing-masing faktor, yang meringankan

perlu memilih tingkat referensi. Artinya, variabel faktor i dengan kadar ki diperlakukan sebagai a

kumpulan variabel indikator ki , dan koefisien ki untuk setiap faktor dibatasi

berjumlah 0. Setelah melakukan preprocessing data dan mengkodekan variabel faktor sebagai variabel dummy,

matriks desain X adalah matriks berukuran 2925 × 324 dengan matriks kendala A berukuran 48 × 324

dan b = 048. Perhatikan bahwa baris ke-i dari A berisi ki 1:

T T T T T
Ai,: = 0 0 · · · 1 ki 0 · · · 1 k48 , (22)
k1 k2 ki+1

NASKAH YANG DITERIMANASKAH


dimana 1ki ÿ R ki dan 0kj ÿ R ki masing-masing merupakan vektor satu dan nol.

Variabel respon yang menarik adalah harga jual yang ditransformasikan secara log, yang kemudian ditetapkan

didardisasi memiliki mean 0 dan standar deviasi 1. Gambar 4 memplot solusi yang dihasilkan

perkiraan koefisien jalur terhadap ÿ, serta nilai yang diamati vs. nilai yang dipasang pada nilai optimal

ÿ dipilih menggunakan Kriteria Informasi Bayesian klasik. Fitur yang dipilih dengan

perkiraan koefisien terbesar dalam nilai absolut adalah skor kualitas keseluruhan, luas tempat tinggal, dan

23
Machine Translated by Google


•• ••• • • •
• • •• •• •
• • •••••••••••••••
• • ••
2 •••••••••••••••••• •
• •••••• ••••••••••• ••••
2 ••••••• •••••••••••••••••••••••••••••••••••••• •
•••• ••••••••••••••••••••••••••••••••••••••••••••••••••••••• •••••••
••••••••••••

• •••••••••• ••••••••• ••••••
••••••••• ••••• ••••
• • •••••••••••••• ••••••••••••••••• ••••••
•••••••••••
••••• •• •••••••
•••••••••••••
• •• ••••••••••••• ••
•••••• •••• •••
••••• •••••• •••••••••••••••••••••
••
1 ••••••••• •• •••••••••••• ••••••
••
•••••••••••• •••••
•• •••
• •••••
•••••••••
••
••• •• •••••••
••••••••• •••••••••••••• •
• ••• ••••••••••••••••
• •••••••
• • • •••• •• • ••
• •
••••••••••••
•••• •
••••
• •

•••••••
• • •
•••••••
• ••••••• •
•••••••••••••••• •••••
••••
••••••••
•••••••••••••••••••••••••••••••••••••••••
••••
••••
•••••• •••
•••••• •••••••
•••
••••••
••••••••• ••
••••••••••••••••••
•••••••••••••• ••••
••
0 • ••••••••••••••• •••••••••
•••••• ••
••••••
•••
•••••••••
••••
•• •••• ••••• ••
•••••••• •••
••• •••••• ••
•••
••••••• •••••••••••
••••• •••• •••• ••••
••••
•••• ••••••••
••••
••• ••••
••••• •••••••••••••••••••••••• • • •
• ••••••••••• •••••••• ••••••
•••••••• •
•••• ••••• ••••••• •••••
•••
••• ••••••
••• ••• •
•••• ••••• ••• • • • ••• •
••••••••••••••••••••••••••
•••• • ••
•••
• •••
• •
•• • ••
• ••

•••••••••••••••
• • • •
••
•••
•••
• •• • • • • •
••••• • • • • • •
•••••••• •••
•••••••••••••••••••••••••••••••••••
•• •• ••••••••••
•••••••••
••••••••••••••••••••••••••••
••• ••••••
•••••
••
••••••
•••••••
••••
•••••••••• ••••••••••••••••••••••• •• • • • • • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • ••• • • • • • • • • • • • • • • • • •
••• •• ••••••••
•• ••••••••••• ••
• •••••• •• •••••••• •• ••

••••••••••• •••
••••
• •••••
• • • • • •
^

• •
•••••••••• ••• •••••••••••••
0 • •• •• •••••• •••••••••••••
• •••••••••••••••• ••••••••••• •••••••••••••••••••••
• •••••• ••• •• •• •••••••••••• •

• ••••••••••••••••••••••••• •••••••••••••••••••••••••••••• •• • •
ÿ2 • • • •• • • • •• • ••••
• • • • • • •• ••• ••
• •••
• •

Diamati
ÿ1 • •

yang
Nilai
• • •
• • • •

ÿ4
ÿ2 Prediksi R2 = 0,893

ÿ6 •
ÿ3 •

50 40 30 20 10 0 ÿ4 ÿ2 0 2
^
ÿ (ÿ)||1 || Nilai yang Dipasang

Gambar 4: Algoritma jalur menghasilkan jalur solusi laso yang dibatasi untuk data perumahan Ames

dengan 48 faktor. Garis putus-putus menandai model dengan BIC terendah (panel kiri) serta
garis identitas (panel kanan). Di sini responnya adalah harga jual yang ditransformasikan menjadi standar
memiliki mean 0 dan deviasi standar 1.

tahun dibangun. Prediksi R2 , berdasarkan statistik PRESS, adalah sebesar 0,893. Lagi

rinciannya disajikan dalam Lampiran A.7.

6. Kesimpulan

Kita telah mempelajari masalah laso yang dibatasi, yang didalamnya terdapat masalah laso aslinya

diperluas untuk mencakup batasan kesetaraan dan ketimpangan linier. Seperti yang telah kita bahas dan

ditunjukkan melalui aplikasi data benchmark, serta contoh lain yang dikutip dari

NASKAH YANG DITERIMANASKAH


literatur, kendala memungkinkan pengguna untuk memaksakan pengetahuan sebelumnya pada koefisien

perkiraan. Selain itu, kami telah menunjukkan varian laso fleksibel lainnya, yang digeneralisasi

laso, selalu dapat dirumuskan ulang dan diselesaikan sebagai laso yang dibatasi, yang sangat membesar

kumpulan masalah yang bisa dipecahkan oleh laso terbatas.

Kami memperoleh dan membandingkan tiga algoritma berbeda untuk menghitung batasan

solusi laso sebagai fungsi dari parameter penyetelan ÿ: pemrograman kuadrat (QP), the

metode pengganda arah bolak-balik (ADMM), dan derivasi solusi baru

24
Machine Translated by Google

algoritma jalur. Ketika seluruh jalur solusi diinginkan, algoritma jalur akan berkinerja lebih baik

metode lain dalam hal estimasi waktu tanpa mengorbankan akurasi. walaupun

inisialisasi jalur dapat menghambat kinerjanya seiring dengan bertambahnya ukuran masalah, jalur

algoritma paling buruk sebanding dengan QP dan ADMM. Untuk nilai tetap ÿ dalam soal

berukuran sederhana, QP adalah kandidat yang baik karena kompetitif dengan ADMM dan invarian terhadap ADMM

berat 1 penalti. Namun, untuk masalah yang besar dan kompleks, ADMM lebih disukai

skalabilitasnya. Peringatan utama terhadap ADMM adalah kepekaannya terhadap tingkat regularisasi;

Kinerja ADMM cenderung menurun dengan parameter sebenarnya yang lebih sedikit. Kode Matlab ke

mengimplementasikan algoritma ini tersedia di SparseReg kotak alat, dan sumber terbuka

implementasi tersedia dalam paket Julia ConstrainedLasso.

Ada beberapa kemungkinan perluasan yang tersisa untuk penelitian masa depan. Mungkin saja

dimungkinkan untuk meningkatkan efisiensi algoritma jalur solusi dengan menggunakan sapuan

operator (Selamat Malam, 1979) untuk memperbarui (11) di sepanjang jalur, seperti yang dilakukan dalam

pekerjaan terkait oleh Zhou dan Lange (2013). Implementasi terdistribusi dari algoritma yang dikembangkan di sini

adalah arah penelitian lain yang akan meningkatkan runtime. Sebagaimana dicatat oleh Boyd dkk.

(2011), algoritma ADMM sangat cocok untuk komputasi terdistribusi. Juga

mungkin menarik untuk memperluas algoritme ke formulasi yang lebih umum dari batasan tersebut

laso. Semua algoritma dapat diperluas untuk menangani fungsi kerugian cembung umum, misalnya

sebagai fungsi kemungkinan log negatif untuk perluasan model linier umum, yaitu

sudah dipelajari oleh James et al. (2013) menggunakan algoritma penurunan koordinat yang dimodifikasi. Di dalam

dalam hal ini, perpanjangan algoritma jalur solusi dapat dilacak dengan menyelesaikan suatu sistem

persamaan diferensial biasa (ODE) seperti dalam Zhou dan Wu (2014).

MATERI TAMBAHAN
NASKAH YANG DITERIMANASKAH
Lampiran: Rincian lebih lanjut tentang hubungan antara laso yang dibatasi dan gen-

laso yang dieralisasi diberikan dalam Lampiran A.1 dan A.2. Turunan dari tambahan

kondisi dipantau untuk mencegah pelanggaran kondisi subgradien diberikan

pada Lampiran A.3. Lampiran A.4 dan A.5 berisi hasil tambahan untuk yang pertama

(Bagian 4.1) dan pengaturan simulasi ketiga (Bagian 4.1) . Hasil tambahan untuk contoh data

benchmark menggunakan data mikrobioma (Bagian 5.3) dan perumahan

25
Machine Translated by Google

versi terbaru tersedia online di https://github.com/Hua-Zhou/SparseReg.


data (Bagian 5.4) ada di Lampiran A.6 dan A.7 (GainesKimZhouConstrainedLas-

soSupplement.pdf).

SparseReg MATLAB Toolbox: Kotak alat Matlab yang terdiri dari fungsi-fungsi untuk re-sparse

perkembangan, termasuk algoritma yang diturunkan di Bagian 3 (SparseReg-0.0.2.zip). Itu

Paket ConstrainedLasso Julia: Paket Julia yang terdiri dari implementasi open source

menyebutkan algoritma yang diturunkan di Bagian 3 untuk memasang laso yang dibatasi

(DibatasiLasso-jl.zip). Versi terbaru tersedia online di https://github.com/Hua-Zhou/

ConstrainedLasso.

Kode dan data: Kode dan data untuk mereproduksi hasil di Bagian 4 dan 5 disediakan.

Silakan lihat file README yang terdapat pada file zip untuk lebih jelasnya (codeData.zip)

Ucapan Terima Kasih


Para penulis berterima kasih kepada Colleen McKendry, editor, associate editor, dan dua orang anonim

wasit atas banyak komentar bermanfaatnya. Penelitian ini sebagian didukung oleh National

Science Foundation memberikan DMS-1055210 dan DMS-1127914, dan National Institutes of

Hibah kesehatan R01 HG006139, R01 GM53275, dan R01 GM105785. Semua plot telah dibuat

menggunakan paket ggplot2 (Wickham, 2009) di R (R Core Team, 2018).

Referensi

Altenbuchinger, M., Rehberg, T., Zacharias, H., St¨ammler, F., Dettmer, K., Weber, D.,

Hiergeist, A., Gessner, A., Holler, E., Oefner, PJ, dkk. (2017), “Titik referensi

analisis data molekuler yang tidak sensitif,” Bioinformatika, 33, 219–226.

NASKAH YANG DITERIMA


Arnold, TB dan Tibshirani, RJ (2014), genlasso: Algoritma Jalur untuk Generalisasi
NASKAH
Masalah Lasso, paket R versi 1.3.

— (2016), “Implementasi Efisien dari Algoritma Jalur Ganda Lasso Umum,”

Jurnal Statistik Komputasi dan Grafis, 25, 1–27.

26
Machine Translated by Google

Boyd, S., Parikh, N., Chu, E., Peleato, B., dan Eckstein, J. (2011), “ Optimasi Terdistribusi

misasi dan Pembelajaran Statistik melalui Metode Pengganda Arah Bolak-balik,”

Landasan dan Tren Pembelajaran Mesin, 3, 1–122.

Bredel, M., Bredel, C., Juric, D., Harsh, GR, Vogel, H., Recht, LD, dan Sikic, BI

(2005), “Pemetaan Genom Resolusi Tinggi dari Perubahan Genetik pada Manusia Glial

Tumor Otak,” Penelitian Kanker, 65, 4088–4096.

Chen, J. dan Chen, Z. (2008), “Kriteria informasi Bayesian yang diperluas untuk pemilihan model

dengan ruang model yang besar,” Biometrika, 95, 759–771.

— (2012), “BIC yang diperluas untuk GLM renggang P kecil-besar-,” Statistica Sinica, 555–574.

De Cock, D. (2011), “Ames, Iowa: Alternatif data perumahan Boston sebagai akhir

proyek regresi semester,” Jurnal Pendidikan Statistika, 19.

Efron, B., Hastie, T., Johnstone, I., dan Tibshirani, R. (2004), “ Regresi Sudut Terkecil,”

Sejarah Statistik, 32, 407–499.

El-Arini, K., Xu, M., Fox, EB, dan Guestrin, C. (2013), “Mewakili Dokumen

Melalui Pembacanya,” dalam Prosiding Asosiasi Mesin Komputasi ke-19

Konferensi Internasional tentang Penemuan Pengetahuan dan Penambangan Data, hal.14–22.

Selamat malam, JH (1979), “Tutorial tentang Operator SWEEP,” Ahli Statistik Amerika,

33, 149–158.

He, T. (2011), “Lasso dan Regresi Regularisasi L1 Umum Di Bawah Kesetaraan Linier dan

Kendala Ketimpangan,” Ph.D. tesis, Universitas Purdue, Departemen Statistika.

NASKAH YANG DITERIMANASKAH


Holler, E., Butzhammer, P., Schmid, K., Hundsrucker, C., Koestler, J., Peter, K., Zhu, W.,

Sporrer, D., Hehlgans, T., Kreutz, M., Holler, B., Wolff, D., Edinger, M., Andreesen,

R., Levine, JE, Ferrara, JL, Gessner, A., Spang, R., dan Oefner, PJ (2014),

“Analisis Metagenomik Mikrobioma Kotoran pada Pasien yang Menerima Batang Alogenik

Transplantasi Sel: Hilangnya Keanekaragaman Terkait dengan penggunaan Antibiotik Sistemik

dan Lebih Banyak Diucapkan dalam Penyakit Cangkok Gastrointestinal versus Inang,” Biologi Darah

dan Transplantasi Sumsum, 20, 640–645.

27
Machine Translated by Google

Hu, Q., Zeng, P., dan Lin, L. (2015a), “Ganda dan Derajat Kebebasan Linear

Lasso Umum yang Dibatasi,” Statistik Komputasi & Analisis Data, 86, 13–26.

Hu, Z., Follmann, DA, dan Miura, K. (2015b), “Desain Vaksin melalui Nonnegative Lasso-
Seleksi Variabel berdasarkan,” Statistics in Medicine, 34, 1791–1798.

Huang, H., Yan, J., Nie, F., Huang, J., Cai, W., Saykin, AJ, dan Shen, L. (2013a),

“Model Simpleks Jarang Baru untuk Analisis Jaringan Anatomi dan Genetik Otak,”

dalam Konferensi Internasional tentang Komputasi Citra Medis dan Interaksi Berbantuan Komputer

ventilasi, hal. 625–632.

Huang, T., Gong, H., Yang, C., dan He, Z. (2013b), “ProteinLasso: Regresi Lasso

Pendekatan Masalah Inferensi Protein dalam Shotgun Proteomics,” Biologi Komputasi

dan Kimia, 43, 46–54.

James, GM, Paulson, C., dan Rusmevichientong, P. (2013), “ Dihukum dan Dibatasi

Regresi,” manuskrip yang tidak diterbitkan, University of Southern California.

Jones, P., Parker, D., Osborn, T., dan Briffa, K. (2016), “Suhu Global dan Belahan Bumi
Anomali perature - Catatan Instrumental Darat dan Laut,” Tren: Ringkasan

Data Perubahan Global.

Kump, P., Bai, E.-W., Chan, K.-S., Eichinger, B., dan Li, K. (2012), “Pemilihan Variabel melalui RIVAL

(Menghilangkan Variabel yang Tidak Relevan di Tengah Iterasi Lasso) dan Aplikasi
untuk Deteksi Bahan Nuklir,” Automatica, 48, 2107–2115.

Lange, K. (2013), Optimasi, New York, NY: Springer-Verlag, edisi ke-2.

Li, H. (2015), “Mikrobioma, Metagenomics, dan Data Komposisi Dimensi Tinggi


NASKAH YANG DITERIMANASKAH
Analisis,” Tinjauan Tahunan Statistik dan Penerapannya, 2, 73–94.

Lin, W., Shi, P., Feng, R., dan Li, H. (2014), “ Seleksi Variabel dalam Regresi dengan
Kovariat Komposisi,” Biometrika, 101, 785–797.

Michels, E., De Preter, K., Van Roy, N., dan Speleman, F. (2007), “Deteksi DNA

Salin Perubahan Nomor pada Kanker dengan Hibridisasi Genomik Komparatif Array,”

Genetika dalam Kedokteran, 9, 574–584.

28
Machine Translated by Google

Murphy, S. dan Nguyen, VH (2011), “Peran Mikrobiota Usus dalam Penyakit Graft-versus-Host

meringankan,” Leukemia & Limfoma, 52, 1844–1856.

R Core Team (2018), R: Bahasa dan Lingkungan untuk Komputasi Statistik, R Foun-

tanggal untuk Komputasi Statistik, Wina, Austria.

Rosset, S. dan Zhu, J. (2007), “Jalur Solusi Teratur Linear Sepotong-sepotong,” The Annals

Statistik, 35, 1012–1030.

Shi, P., Zhang, A., dan Li, H. (2016), “Analisis Regresi untuk Komposisi Mikrobioma

Data,” Annals of Applied Statistics, 10, 1019–1040.

Stein, CM (1981), “Estimasi Mean Distribusi Normal Multivariat,” The

Sejarah Statistik, 9, 1135–1151.

Taur, Y., Xavier, JB, Lipuma, L., Ubeda, C., Goldberg, J., Gobourne, A., Lee, YJ,

Dubin, KA, Socci, ND, Viale, A., Perales, M.-A., Jenq, RR, van den Brink, M.

RM, dan Pamer1, EG (2012), “Dominasi Usus dan Risiko Bakteremia

pada Pasien yang Menjalani Transplantasi Sel Induk Hematopoietik Alogenik,” Klinis

Penyakit Menular, 55, 905–914.

Tibshirani, R. (1996), “Penyusutan dan Seleksi Regresi melalui Lasso,” Jurnal Royal Statistical Society:

Seri B (Metodologis), 58, 267–288.

Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., dan Knight, K. (2005), “ Ketersebaran dan

Kelancaran melalui Fused Lasso,” Jurnal Royal Statistical Society: Seri B

(Metodologi Statistik), 67, 91–108.

NASKAH YANG DITERIMANASKAH


Tibshirani, R. dan Suo, X. (2016), “Laso Terurut dan Regresi Berjeda Waktu Jarang,”

Teknometri, 58, 415–423.

Tibshirani, R. dan Wang, P. (2008), “Pemulusan Spasial dan Deteksi Hot Spot untuk CGH

Data menggunakan Fused Lasso,” Biostatistics, 9, 18–29.

Tibshirani, RJ, Hoefling, H., dan Tibshirani, R. (2011), “Regresi Hampir Isotonik,”

Teknometri, 53, 54–61.

29
Machine Translated by Google

Tibshirani, RJ dan Taylor, J. (2011), “Jalur Solusi Generalized Lasso,” The

Sejarah Statistik, 39, 1335–1371.

— (2012), “Derajat Kebebasan dalam Masalah Lasso,” The Annals of Statistics, 40, 1198–
1232.

Waikar, SS, Sabbisetti, VS, dan Bonventre, JV (2010), “Normalisasi saluran kemih

biomarker menjadi kreatinin selama perubahan laju filtrasi glomerulus,” Ginjal interna-

nasional, 78, 486–494.

Weber, D., Oefner, PJ, Hiergeist, A., Koestler, J., Gessner, A., Weber, M., Hahn, J.,

Wolff, D., St¨ammler, F., Spang, R., Herr, W., Dettmer, K., dan Holler, E. (2015),

“Tingkat Undoxyl Sulfat Urin yang Rendah Pada Awal Setelah Transplantasi Mencerminkan Gangguan

Mikrobioma dan Berhubungan dengan Hasil yang Buruk,” Blood, 126, 1723–1728.

Wickham, H. (2009), ggplot2: Grafik Elegan untuk Analisis Data, Springer-Verlag Baru
York.

Wu, L., Yang, Y., dan Liu, H. (2014), “Lasso Nonnegatif dan Aplikasi dalam Indeks Track-

ing,” Statistik Komputasi & Analisis Data, 70, 116–126.

Wu, WB, Woodroofe, M., dan Mentz, G. (2001), “Regresi Isotonik: Pandangan Lain pada

Masalah Titik Perubahan,” Biometrika, 88, 793–804.

Zhou, H. dan Lange, K. (2013), “Algoritma Jalur untuk Estimasi Terbatas,” Jurnal

Statistik Komputasi dan Grafis, 22, 261–283.

Zhou, H. dan Wu, Y. (2014), “Algoritma Jalur Generik untuk Estimasi Statistik Teratur

NASKAH YANG DITERIMANASKAH


mation,” Jurnal Asosiasi Statistik Amerika, 109, 686–699.

Zou, H., Hastie, T., dan Tibshirani, R. (2007), “Tentang Derajat Kebebasan Lasso,”

Sejarah Statistik, 35, 2173–2192.

30

Anda mungkin juga menyukai