A Pliable Lasso

Machine Translated by Google
Jurnal Statistik Komputasi dan Grafis
ISSN: 1061-8600 (Cetak) 1537-2715 (Online) Beranda jurnal: https://www.tandfonline.com/loi/ucgs20
Lasso yang Lentur
Robert Tibshirani & Jerome Friedman
Mengutip artikel ini: Robert Tibshirani & Jerome Friedman (2019): A Pliable Lasso, Journal of
Computational and Graphical Statistics, DOI: 10.1080/10618600.2019.1648271
Untuk menautkan ke artikel ini: https://doi.org/10.1080/10618600.2019.1648271
Lihat materi tambahan
Versi penulis yang diterima diposting online: 30 Juli

2019.
Kirimkan artikel Anda ke jurnal ini
Tampilan artikel: 77
Lihat data Tanda Silang
Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di

https://www.tandfonline.com/action/journalInformation?journalCode=ucgs20
Artikel
Lasso yang Lentur

Robert Tibshirani dan Jerome Friedman
Departemen Ilmu dan Statistik Data Biomedis, Universitas Stanford
Abstrak
Kami mengusulkan generalisasi laso yang memungkinkan koefisien model bervariasi sebagai fungsi dari himpunan umum
beberapa variabel pengubah yang telah ditentukan sebelumnya. Pengubah ini mungkin berupa variabel seperti jenis
kelamin, usia, atau waktu. Paradigmanya cukup umum, dengan setiap koefisien laso dimodifikasi oleh fungsi linier
renggang dari variabel pengubah Z. Model diperkirakan secara hierarki untuk mengontrol derajat kebebasan dan
menghindari overfitting. Variabel pengubah dapat diamati, diamati hanya di set pelatihan, atau tidak diamati secara keseluruhan.
Ada hubungan antara proposal kami dengan model koefisien variasi dan model interaksi dimensi tinggi. Kami menghadirkan
algoritme yang efisien secara komputasi untuk pengoptimalannya, dengan aturan penyaringan yang tepat untuk
memfasilitasi penerapan sejumlah besar prediktor. Metode ini diilustrasikan pada sejumlah contoh simulasi dan nyata
yang berbeda.
1. Perkenalan
Dalam tulisan ini kami mempertimbangkan masalah pembelajaran diawasi yang biasa. Diberikan prediktor xij dan respon
N ÿ salah satudan
nilai yi untuk i ÿ 1,2, metode
j populer , masalah ini adalah laso. Ini
untuk
ÿ 1,2, hal ÿ
pendekatan memecahkan 1 -regresi yang dikenakan sanksi
minimalkan
1
2
Naskah yang Diterima
N
ÿÿÿ|
Saya
ÿ
1
( kamu
Saya
ÿÿ
ÿ 0
P
J 1
ÿ
x ÿ
akuj j
)
2
ÿ ÿ
P
J 1
ÿ
ÿJ |. (1)
Ini setara dengan meminimalkan jumlah kuadrat dengan batasan ÿ ÿ| J | ÿ s. Nilai absolut
penalti pada (1) menginduksi ketersebaran dalam solusi untuk nilai yang cukup besar ÿ ; yaitu, beberapa atau banyak
dari komponen-komponen larutan ˆ adalah nol. Laso dan teknik terkait seperti jaring elastis
ÿ
(Zou dan Hastie (2005)) banyak digunakan. Paket bahasa R glmnet memecahkan laso seperti yang dinyatakan
(1) dan dalam kelas masalah yang lebih luas (seperti model linier umum) dengan sangat efisien, menggunakan a
mengkoordinasikan prosedur penurunan. Perhatikan bahwa fungsi tujuan pada (1) adalah cembung, sehingga menghasilkan
masalah optimasi dapat dilakukan.
Dalam makalah ini kami memperluas laso, menyematkannya dalam model yang lebih umum. Kami berasumsi demikian juga
untuk prediktor dan hasil kami, kami memiliki pengukuran terhadap satu atau lebih “variabel pengubah ” .
i N ÿÿdan
1,2k ÿ 1,2, K ÿ . Misalnya, variabel pengubah tersebut mungkin berupa jenis kelamin (laki-laki atau
ÿ j berbeda untuk laki-laki

perempuan), dan kami memperhitungkan kemungkinan bahwa beberapa atau seluruh koefisien
dan perempuan. Atau Z mungkin adalah waktu dan kita ingin memberikan koefisien yang bervariasi terhadap waktu. Kemungkinan lain
adalah memilih variabel pengubah untuk menjadi beberapa prediktor xij.
Misalkan y adalah N ÿvektor hasil, dan misalkan X, Z adalah matriks N × p dan N × K yang berisi nilai
masing-masing variabel prediktor dan pengubah. Kami sedang memikirkan masalah di mana X bisa berada
besar, dengan N > p atau p Nÿ , sedangkan Z memiliki jumlah kolom yang sedikit hingga sedang. Biarkan Xj menjadi
kolom ke-j dari X (sebuah N-vektor), dan misalkan 1 adalah kolom N-vektor dari satuan. Model laso yang lentur adalah
didefinisikan oleh
P
ˆ
ÿ ÿ ÿÿ ÿ 1
kamu 0 0
ZXZ
ÿ ÿ J (ÿ jj 1 ÿ )
J 1 ÿ
P
(2)
ÿ ÿ ÿÿ ÿ 1
0
ZXXZ
ÿ0 ÿ ÿ ( J
ÿ
)ÿ J
J 1
ÿ
dengan)(XZ
ÿ menyatakan matriks N × K yang dibentuk dengan mengalikan setiap kolom komponen Z
J
adalah skalar.
oleh vektor kolom Xj . Perhatikan ÿj adalah vektor dengan panjang K sedangkan ÿ J
Untuk kekuatan statistik dan kemampuan interpretasi, kami juga menambahkan batasan hierarki lemah (asimetris):
.
ÿ J jika bukan nol
ÿj bisa menjadi bukan nol hanya (3)
Secara sederhana, ini berarti bahwa seorang prediktor hanya dapat berpartisipasi dalam suatu interaksi jika efek utamanya adalah
bukan nol.
Kita membahas bentuk non-linier yang lebih umum untuk laso lentur di Bagian 9.
Sebagai contoh, kami membahas di Bagian 5 prediksi polusi udara di kota di Tiongkok, dengan data yang diberikan
dengan 29 prediktor dari empat kota di Tiongkok lainnya. Dalam hal ini, kami menetapkan Z sama dengan kategorikal
variabel dengan empat tingkat, satu untuk setiap kota. Asumsi hierarki memungkinkan kita membatasi perhatian
untuk interaksi yang memiliki efek utama bukan nol, bukan himpunan lengkap 4 × 29.

Untuk memenuhi batasan hierarki (3), kami menggunakan fungsi tujuan berikut untuk masalah kami:
1 P
ˆ
J ( ÿ, ÿ ÿ
00 , , ÿ) ÿ2
N
ÿ (Yy
Saya
ÿ
Saya
)
2
ÿ ÿ (1 ÿ )ÿ ( ÿ (|| ( ,ÿ) || ÿ
jj
ÿ2
|| ÿ J ||2 )ÿ ÿÿ ÿ ÿ|
jk
|1. (4)
J 1
ÿ
jk,
Saya
0 ÿ0 ÿ
Di mana yˆ adalah elemen ke-i dari nilai yang dipasang ÿ 1 ÿZXZ
ÿÿ jj
(ÿ ÿ J. )Di sini ÿ adalah p 1 × K
J 1
ÿ
ÿ Jumlahnya
matriks parameter dengan baris ke-j ÿj dan entri individual dapat disesuaikan ÿ Dan ÿ
jk,
parameter penyetelan. Suku pertama dalam penalti memberlakukan batasan hierarki (3) sedangkan suku kedua
ÿ
istilah memberikan ketersebaran pada masing-masing komponen ÿj . Parameter mengontrol bobot relatif
pada dua penalti. Seperti laso biasa, untuk diperbaiki ÿ , kita memperoleh jalur solusi yang diindeks oleh
parameter penyetelan ÿ . Faktanya, sebagai ÿ ÿ1, ÿ j menyusut menjadi nol dan permasalahan menghasilkan solusi
mendekati laso biasa. Perhatikan bahwa parameternya disesuaikan ÿ0 dan ÿ 0 dibiarkan tidak terkena penalti: kami yang pertama
dengan kuadrat terkecil dan mengambil residu.
Sebelum kita memberikan rincian lebih lanjut, mari kita lihat contohnya. Dengan
N p ÿ ÿ 100, 20 dan standar normal
prediktor, kami menghasilkan data dari model
yxxÿ ÿaku
1
z · (20) ÿÿÿ Saya
3 · (zxÿ 1) , (5)
Di sini z adalah variabel acak Bernoulli tunggal dan ~ (0,1) N . Gambar 1 menunjukkan jalur solusi sebagai
minimum ÿ . Garis putus-putus dan putus-putus vertikal menunjukkan pilihan model yang sesuai dengan masing-masing
validasi silang dan kesalahan pengujian. Pada nilai-nilai ini, lihat bahwa model telah memasukkan X1 dengan benar dalam
bentuk linier biasa dan memodifikasi suku untuk X2 dan X3.
1.1 Pekerjaan terkait
Ada banyak hubungan antara proposal makalah ini dan karya yang diterbitkan sebelumnya.
Ada hubungan erat dengan kelas model koefisien variasi Cleveland et al. (1991) dan Hastie dan Tibshirani (1993): laso
lentur termasuk dalam kelas ini, menambahkan gagasan tentang ketersebaran, hierarki, dan skalabilitas pada proposal
aslinya. Model yang kami usulkan juga merupakan model interaksi berdimensi tinggi: penelitian terbaru di bidang ini
mencakup Zhao et al. (2009), Bach dkk. (2012), Bien dkk.
(2013), Lim dan Hastie (2014), Pashova dkk. (2016), Dia dkk. (2016), Haris dkk. (2016) dan Yan dan Bien (2017).
Penggunaan laso lentur ketika Z tidak diketahui di set pengujian berkaitan dengan gagasan pelatihan yang disesuaikan
(Powers et al. 2015). Hal ini dibahas di bagian berikutnya. Laso lentur menggunakan hukuman yang diusulkan dalam
kelompok laso (Yuan dan Lin 2007) dan laso kelompok jarang (Simon et al. 2013).
Berbeda dengan model interaksi yang memperlakukan semua variabel dengan cara yang sama, laso lentur
bersifat asimetris dalam cara memperlakukan variabel X dan Z. Variabel X adalah prediktor utama dalam model, dan suku
pengubah ÿjk hanya dapat bernilai bukan nol jika tidak benar. Hal ini berbeda ÿ bukan nol. Tapi kebalikannya adalah j
dengan model interaksi hierarki lainnya untuk sekumpulan prediktor
XXX 1 2 , ÿ
P
: ini menggunakan hierarki yang lemah— interaksi antara Xj dan Xk dianggap jika di
setidaknya salah satu efek utamanya ada dalam model—, atau hierarki yang kuat, yang mana kedua efek utamanya harus
ada dalam model. Contohnya adalah Bien dkk. (2013) dan Lim dan Hastie (2014).

Prosedur terakhir dari Lim dan Hastie (2014) (“Glinternet”) menggunakan laso kelompok yang tumpang tindih laten
sedangkan laso lentur menggunakan laso kelompok dengan kelompok yang tumpang tindih. Perbedaan ini terlihat jelas
pada Tabel 1 Yan dan Bien (2017). Glinternet memodelkan interaksi antara semua pasangan variabel, menerapkan
hierarki yang kuat pada pencarian: yaitu, interaksi hanya dapat muncul jika kedua efek utama ada dalam model.
Selanjutnya, paket R yang sesuai memungkinkan seseorang untuk menentukan "kandidat interaksi":
interaksi hanya dipertimbangkan antara variabel-variabel ini dan semua variabel lainnya. Untuk menerapkan
prosedur ini pada pengaturan kita, kita dapat mengambil himpunan variabel menjadi (X, Z) dan kemudian membatasi
interaksi pada variabel Z. Dalam kasus khusus ini, ini berbeda dari laso lentur dalam penggunaan hierarki kuat vs. lemah,
dan fakta bahwa laso lentur berinteraksi setiap Xj dengan seluruh vektor Z. Kita membandingkan Glinternet dengan
laso lentur dalam contoh simulasi di bagian selanjutnya.
Catatan A. Klaim kami bahwa solusi untuk (4) memenuhi sifat hierarki (3) bergantung pada argumen kontinuitas,
dan kami belum memiliki bukti kuat atas klaim ini.
Catatan B. dimungkinkan untuk menetapkan hasil pemulihan yang konsisten dan mendukung hasil pemulihan, seperti yang
telah ditunjukkan untuk laso. Kami menduga bahwa hal ini memerlukan asumsi serupa pada matriks fitur X seperti
pada laso dan kemungkinan besar, asumsi serupa pada matriks variabel pemodifikasi Z.
1.2 Kasus penggunaan yang berbeda
Properti yang menarik dari laso yang lentur adalah keserbagunaannya. Tabel 1 merangkum berbagai
kemungkinan.
Skenario “Diketahui-Dikenal” adalah yang paling sederhana: kami menyesuaikan model laso yang lentur dan menerapkannya langsung ke
set tes. Dalam Skenario “Diketahui-Tidak Diketahui”, kami menyesuaikan model kami, tetapi untuk prediksi di set pengujian, kami memerlukannya
untuk memperkirakan nilai z untuk set pengujian. Untuk tujuan ini kami menerapkan pembelajaran terawasi terpisah
prosedur untuk memprediksi Z dari x di set pelatihan, dan kemudian menggunakan nilai prediksi Z ˆ saat melamar
laso lentur ke set pengujian. Prosedur ini juga dapat menggunakan informasi lain selain X, jika tersedia,
untuk memprediksi Z. Dalam contoh kita, kita menggunakan pengklasifikasi hutan acak atau laso multinomial.
Dalam Skenario “Unknown-Unknown” kita dapat membentuk cluster berdasarkan X (atau lainnya yang tersedia
pengukuran) menggunakan data pelatihan, atau gabungan data pelatihan dan pengujian. Kita bisa memilih
jumlah cluster dengan validasi silang, untuk meminimalkan kesalahan prediksi. Skenario ini dan juga
skenario “Diketahui-Tidak Diketahui” ketika Z adalah variabel kategori, berkaitan erat dengan proposal pelatihan
yang disesuaikan dari Powers dkk. (2015). Dalam pekerjaan itu, cluster diperkirakan dari data pelatihan,
atau gabungan set pelatihan dan pengujian, lalu model laso lokal disesuaikan dengan masing-masing cluster. Di dalam
Bagian 8 kita bereksperimen dengan pendekatan yang berbeda, memperkirakan kontras linear ZX ÿ ÿ dari
data itu sendiri.
Berikut adalah garis besar dari sisa makalah ini. Bagian 2 menjelaskan strategi pengoptimalan kami, sementara
Bagian 3 membahas studi simulasi. Aplikasi dibahas di Bagian 4, dengan menarik
contoh spasial ditunjukkan pada Bagian 5. Penerapan laso lentur untuk estimasi
efek perlakuan heterogen dibahas di Bagian 6. Derajat kebebasan model yang dipasang adalah
dibahas di Bagian 7, sedangkan latar Z yang tidak diketahui dibahas di Bagian 8. Terakhir, kita bahas
perluasan model di Bagian 9.
2 Optimalisasi fungsi tujuan.

Fungsi tujuan (5) adalah cembung, dan untuk meminimalkannya kita menggunakan koordinat siklik searah blok
ÿ menggunakan solusi sebelumnya sebagai permulaan yang hangat.

prosedur penurunan, melewati jalur dengan nilai yang menurun,
Masalahnya memiliki beberapa struktur menarik yang menyederhanakan perhitungan: khususnya, memperbaiki
ˆ
prediktor lain, kami telah memperoleh kondisi eksplisit untuk menentukan apakah ( ÿ, )j
J
ÿbukan nol dan jika ya
bukan nol, apakah komponenÿ j bukan nol. Jika keduanya bukan nol, kami menggunakan gradien umum
prosedur keturunan untuk menentukan kedua parameter. Strategi ini menghasilkan algoritma yang cepat, karena kami
dapat menelusuri prediktor dan hanya melakukan komputasi yang lebih mahal (penurunan gradien umum)
Saat dibutuhkan.
Bentuk umum dari algoritma ditunjukkan pada Algoritma 1.
Algoritma 1 Algoritma untuk Lasso Lentur
Untuk jalur menurun ÿ nilai:
Untuk prediktor j ÿ
1,2, ÿÿ
P ,1,2, ulangi hingga konvergensi:
ˆ
1. Periksa kondisi (eksplisit) untuk (ÿ J ÿ ÿ , ) 0j . Jika nol, lanjutkan ke j berikutnya.
2. Jika tidak, hitunglah ˆ menggunakan soft-thresholding lalu periksa kondisinya

ÿJ ˆ
ÿj ÿ 0. Jika nol, perbaiki pembaruan ÿ J dan kemudian pindah ke berikutnya J
ˆ ˆ
3. Sebaliknya, jika keduanya (ÿ J , ÿ)j bukan nol, gunakan prosedur gradien umum untuk mencarinya(ÿ, J)Jÿ
.
Rincian prosedur ini diberikan dalam Lampiran. Seperti yang ditunjukkan di sana, kondisi yang digunakan pada Langkah 1
dari algoritma tersebut adalah
T
| X r T / | (1( jj ) ÿÿ ÿÿ
T ) dan || ( / SW r N j ÿÿ
, ÿÿ ) || 22(1 ÿ )ÿ (6)
( J)
ÿ ÿ
Di mana r ( )j adalah sisa parsial dengan kecocokan untuk prediktor ke-j dihilangkan, WXZ ÿ (secara elemen ÿ
ÿ
J J
perkalian di setiap kolom) dan tanda S xt ( , ) |( kemiripan
)(| dengan
xxt ÿ ÿ
)ÿ , operator ambang lunak. Kami mencatat

prosedur penurunan koordinat standar untuk laso (lihat misalnya Friedman dkk.
(2010)). Secara khusus, tanpa pengubah Z, kondisi kedua dan pertama akan hilang
ekspresi persis dengan kondisi nol dalam prosedur penurunan koordinat untuk laso.
Catatan C. Kami telah memasukkan faktor N pada penyebut suku pertama tujuan
fungsi pada (4), untuk mencocokkan parameterisasi yang digunakan dalam program glmnet (Friedman et al. 2010).
Catatan D. Solusi optimasi pada (4) bergantung pada penskalaan variabel X dan Z.
Secara default, kami menstandarkan setiap himpunan agar memiliki mean dan varian satuan nol.
Catatan E. Dalam prosedur penurunan koordinat untuk prosedur laso Friedman dkk. (2010)),
menggunakan pembaruan “naif”, koefisien untuk setiap prediktor dapat diperiksa dan diperbarui di O(N)
operasi. Dalam algoritma saat ini, biaya ini meningkat menjadi ONK ( · ) operasi.
3 Perbandingan simulasi
Dalam contoh ini kita mengambil nrespon
ÿ 100, 50 p ÿ , dan prediktor independen Gaussian standar. Itu
dihasilkan sebagai
yx
ÿ ()
ÿ
ÿ ; ~ (0,1)
ÿ ( ) 0,5·
ÿ ÿ ÿ ÿÿ
ÿ xxxxezxezÿ
11222
N
(
3 3ÿ 2) 1 4ÿ4 ( 2 );
ÿ
ÿ ÿÿ
(2, 2,2,2,0, )
(7)
dengan e ÿ
(1,1,1 ÿ1)T
. Variabel pengubah Z diambil dari distribusi Bernoulli sederhana
dengan probabilitas yang sama. Rasio sinyal terhadap noise sekitar 2. Kami menerapkan laso standar, (menggunakan
paket R glmnet), mesin penambah gradien (menggunakan paket R gbm), Glinternet (menggunakan
Paket R berkilauan), dan laso lentur lebih dari 20 simulasi. Ukuran sampel N, p= jumlah X
variabel, K=jumlah Z variabel ditampilkan di bagian atas setiap panel.
Variasi soal yang berbeda digunakan di setiap panel, dengan rincian diberikan pada keterangan gambar. Di dalam
setiap kasus, laso yang lentur bekerja paling baik. Seperti tercantum dalam keterangannya, semua metode dijalankan dengan default
pengaturan; meskipun kami tidak menyetel laso lentur dengan cara khusus apa pun, mungkin saja GBM dan
glinternet dapat bekerja lebih baik menggunakan pengaturan parameter yang berbeda. Tentu saja GBM lebih cocok
model umum daripada laso yang lentur dan seharusnya bekerja lebih baik dalam pengaturan yang lebih umum, tetapi memang demikian
meyakinkan daripada laso yang lentur dapat mengatasi berbagai masalah ini.
4 Aplikasi
4.1 A Z = X Contoh : Data mutasi HIV

Rhee dkk. (2003) mempelajari enam penghambat transkriptase balik nukleotida (NRTI) yang digunakan untuk mengobati
HIV-1. Target obat ini bisa menjadi resisten melalui mutasi, dan mereka membandingkannya a
kumpulan model untuk memprediksi kerentanan (log) obat ini – ukuran resistensi obat,
berdasarkan lokasi mutasinya. Kami fokus pada obat pertama (3TC), yang memang ada
p = 217 lokasi dan N = 1057 sampel. Kami secara acak membagi sampel menjadi set pelatihan dan pengujian yang berukuran
kira-kira sama. Dalam hal ini kami memilih variabel pengubah Z menjadi subset X dari X
variabel: kami menggunakan mutasi yang memiliki set pelatihan skor z univariat ÿ 2 dalam nilai absolut. Karena itu
model yang dihasilkan memiliki bentuk
ˆ
ÿ 1 ÿ
XXX ÿ ÿ ÿ y 0 jsj
S 0 1ÿ J
(ÿ ÿ ÿ )
J
Gambar 3 menunjukkan kurva kesalahan pengujian untuk laso dan laso lentur. Kami melihat bahwa laso yang lentur dapat dicapai
kesalahan tes agak lebih rendah daripada laso. Model yang dihasilkan mudah dipahami dan melibatkan beberapa orang
mutasi efek utama dan beberapa interaksi berpasangan antara pasangan mutasi.
4.2 Data proteomik kanker kulit

Data dalam contoh ini berasal dari pengukuran spektometri massa DESI dari jaringan pasien
dengan kanker kulit, dari kolaborator di Stanford. Ada 16 pasien di set pelatihan,
berkontribusi dengan total 17.053 pengukuran (ada banyak piksel gambar per pasien) dan 2733
fitur proteomik. Setiap piksel diberi label sebagai normal atau kanker, dengan sebagian besar sampel pasien terdiri darinya
seluruhnya piksel normal atau kanker. Set tes memiliki 7963 pengukuran dari 9 pasien. Untuk
kemudahan komputasi kami mengambil sampel acak sebanyak 1000 pengukuran dari set pelatihan dan memilih
1000 fitur Xj memiliki skor univariat terbesar di set pelatihan. Kami telah menggunakan laso dengan
keberhasilan pada data serupa dengan kanker lain, lihat misalnya Eberlin dkk. (2014).
Di sini kami mengambil Z untuk menjadi ID pasien. Ini adalah contoh skenario Tabel “diketahui-tidak diketahui”.
1: ID pasien di set pengujian berbeda dengan yang ada di set pelatihan. Oleh karena itu kami cocok secara terpisah

(multinomial-lasso) di set pelatihan, dan menggunakannya untuk "memprediksi" Z di set pengujian. Di tempat lain
Dengan kata lain, kami menemukan pasien set pelatihan yang paling mirip dengan pasien set tes yang diberikan, dan menggunakan pasiennya
ID untuk prediksi. Model yang dihasilkan mempunyai bentuk
ˆ
ÿ 1
kamu ÿ ÿ ÿ 0 0 ÿ
ZXZÿ
1ÿ J (ÿ jj
ÿ )
J
dimana Z adalah matriks indikator yang memiliki 16 kolom: ada satu matriks di kolom k yang bersesuaian
pasien k, untuk k ÿ ÿ 1,2, 16 .
Inilah intuisi di balik gagasan ini. Misalkan ada dua jenis kanker kulit A
dan B, tidak diketahui ilmuwan. Misalkan protein 1 bersifat prediktif untuk semua pasien, terutama
prediktif untuk kanker kulit tipe A. Kemudian laso yang lentur dapat mempelajari hal ini dari set pelatihan. Lalu seterusnya
set pengujian, jika ada pasien baru (katakanlah Q) yang tidak ada dalam set pelatihan, pertama-tama kita memprediksi pasien mana yang termasuk dalam set pengujian
set pelatihan paling mirip dengan Q (katakanlah pasien P). Kemudian kami menggunakan model estimasi pasien tersebut untuk memprediksi
hasil untuk Q. Pada dasarnya, Jika paten P menderita kanker kulit tipe A, kami menyimpulkan bahwa pasien Q juga
memiliki tipe A.
Untuk lebih meningkatkan akurasi, kami memfilter lebih lanjut variabel Xj , menjaga variabel tetap univariat
skor dalam 1000 teratas untuk hasilnya (seperti yang disebutkan di atas), tetapi juga mengharuskan mereka memiliki skor
dalam 1000 teratas sehubungan dengan variasi antar pasien. Hal ini mendorong prosedur untuk
membangun model pada set pelatihan yang melibatkan variabel Z yang lebih dapat diprediksi , sehingga akan lebih banyak
efektif bila diterapkan pada set pengujian. Pemfilteran kedua menyisakan 437 fitur di set pelatihan untuk
laso lentur. Pengklasifikasi 16 kelas untuk memprediksi ID pasien di set pelatihan memiliki tingkat kesalahan
validasi silang sekitar 40%.
Uji yang dihasilkan menetapkan AUC untuk laso dan laso lentur ditunjukkan pada Gambar 4. Meskipun
peningkatan yang ditunjukkan oleh laso lentur terhadap laso mungkin tampak kecil, namun sebenarnya cukup
signifikan: dari tingkat terbaik sebesar 94% untuk laso menjadi sekitar 97% untuk laso lentur.
4.3 Contoh peramalan- memprediksi return saham
Berikut adalah contoh lain dari skenario “diketahui-tidak diketahui” pada Tabel 1. Datanya adalah return 21 hari untuk sebuah
saham. Kami membuat prediksi harian dengan memasang laso menggunakan 33 sinyal yang tersedia sebagai fitur.
Rangkaian pelatihan dan tes masing-masing mencakup periode 1997-2001 dan 2002-2005. Model dasar menggunakan
model laso umum yang cocok untuk semua data pelatihan. Untuk laso lentur, kami membagi periode pelatihan menjadi
10 periode waktu yang sama, dan menetapkan Z sama dengan sepuluh variabel kategori yang dihasilkan. Kami kemudian
membuat pengklasifikasi hutan acak untuk memprediksi periode pelatihan yang paling mirip untuk setiap tanggal
pengujian. Gambar 5 menggambarkan klasifikasi setiap tanggal tes.
Korelasi setiap return prediksi dengan return aktual pada set pengujian ditunjukkan pada Gambar 9.
Laso yang lentur mencapai peningkatan hampir 2% dibandingkan laso, yang secara praktis bisa dibilang cukup signifikan.
5 Contoh: Data polusi

Contoh ini berasal dari database UCI. Ini terdiri dari pengukuran konsentrasi PM2.5 harian dari 5 kota di Tiongkok selama
5 tahun. Prediktornya mencakup kelembapan, kecepatan angin, titik embun, dan bulan (totalnya ada 29). Kami
berupaya memprediksi PM2,5 di masing-masing dari 5 kota tersebut, menggunakan model yang sesuai dengan empat kota
lainnya.
Kami menerapkan laso lentur dengan indikator Z= 4 kota di setiap lipatan validasi silang 5 kali lipat; maka Z adalah
matriks dengan 4 kolom. Sekarang ketika kita memprediksi kota ke-5 (katakanlah Beijing) dari 4 kota lainnya, kita tidak dapat
membuat prediksi langsung karena tidak ada observasi untuk Beijing di set pelatihan. Untuk menyempurnakannya, kami
membuat pengklasifikasi 4 kota (multinomial laso) berdasarkan fitur-fiturnya, dan kemudian menggunakannya untuk
ˆ ke-5. Hal ini kemudian digunakan untuk memprediksi polusi di kota ke-5. Skemanya
memprediksi kota z pada lipatan
digambarkan pada Gambar 7.
Tabel 2 merangkum arah estimasi dampak yang dipilih. Misalnya, peningkatan kelembapan berkorelasi dengan peningkatan
PM2.5 yang lebih besar di Beijing, dibandingkan kota-kota lain. Panel kiri Gambar 9 menghitung kesalahan prediksi kuadrat
rata-rata (“tinggalkan satu kota”) di sepanjang jalur regularisasi laso lentur, relatif terhadap model kuadrat terkecil
sederhana yang cocok untuk setiap kelompok yang terdiri dari 4 kota. Kita melihat bahwa laso lentur menawarkan
peningkatan yang jelas pada kuadrat terkecil. Di panel kanan, kami menunjukkan hasil yang sesuai dari “Regresi Jangkar”
(Rothenhäusler dkk. 2018). Pendekatan ini mencoba untuk “mempelajari mekanisme prediksi yang dapat diandalkan dalam
periode waktu, keadaan, lokasi, atau kumpulan eksperimen tertentu yang diamati dalam data pelatihan”. Ia
melakukannya dengan memodelkan “variabel jangkar” di set set pelatihan: dalam hal ini, kota adalah variabel jangkarnya.
Panel kanan pada Gambar 9 menunjukkan hasil regresi jangkar sebagai fungsi dari pengurangan parameter penyetelan di
UMK untuk beberapa kota (terutama Shenyang), namun tampaknya tidak berfungsi ÿ. Ini mencapai beberapa hal
sebaik hasil regresi jangkar.

laso lentur secara keseluruhan. Tentu saja regresi jangkar dapat disesuaikan agar berkinerja lebih baik
dalam contoh ini.1
6 Estimasi efek pengobatan yang heterogen

Estimasi perlakuan heterogen adalah bidang penelitian yang “panas”, terutama menjanjikan bagi para peneliti
bidang pengobatan yang dipersonalisasi. Idenya adalah untuk menemukan kelompok pasien yang akan mendapat manfaat dari a
rezim pengobatan tertentu. Masalah ini sangat menantang dengan fitur berdimensi tinggi dan
data observasi, yaitu penugasan pengobatan non-acak. Ukuran efek kecil terlihat di
banyaknya kumpulan data nyata menjadikan permasalahan ini semakin menantang. Tinjauan pekerjaan terbaru di bidang ini adalah
diberikan oleh Powers dkk. (2018). Di sini kita secara singkat mengeksplorasi penerapan laso lentur untuk ini
pengaturan. Data kita berbentuk ( , , ) XWY
dengan Xi adalah vektor kovariat, Yi adalah respons bernilai nyata
Saya Saya Saya
Dan {0,1} Wi ÿ tugas pengobatan. Kami berasumsi bahwa pengobatan diberikan secara acak
probabilitas yang sama dan membuat asumsi ketidakbingungan yang biasa. Perluasan ke non-acak
studi melalui skor kecenderungan dimungkinkan, tetapi tidak akan dieksplorasi di sini.
Kami menggunakan model laso lentur (2) dengan Z = W; efek pengobatan pada x diperkirakan dengan
ˆ ˆ
W( yx ÿÿ
, W tiga1)model
( , yx ÿ
1) . Dengan 50 prediktor normal standar, kami menghasilkan 100 observasi
berbeda:
( Sebuah
): ÿ ÿ yxxwxx
ÿÿÿ
1 1 2
2
3
N
2 ; ~ (0,1)
( Byxw
): (ÿ ÿ) ÿ: 1ÿ(ÿ 0,5) xx 2 3 2 2 ; ~ (0,1) N (8)
C yx aku ÿÿÿ (
ÿ ÿ ÿ xwxx
1 1 0) 2 2 23 ; ~ (0,1) N
Rasio sinyal terhadap kebisingan sekitar 1,5. Perhatikan bahwa skenario A di “home court” untuk laso lentur,

dengan interaksi hierarki linier tunggal. Skenario B memiliki interaksi non-hierarki, terpusat
sehubungan dengan efek utama. Dalam Skenario C interaksinya bersifat hierarkis, tetapi prediktor X1 bersifat hierarkis
dikotomi pada 0.
Kami membandingkan pendekatan laso yang lentur dengan hutan sebab akibat (Wager dan Athey 2018), sebuah pendekatan canggih yang
metode untuk masalah ini. Hal ini diterapkan dalam paket hutan acak umum dari Athey dkk.
(2019): kami menggunakan versi 0.9.3 dengan pengaturan default. Untuk skenario A dan B, laso lentur berfungsi
terbaik: keuntungan pada (B) tampaknya mengejutkan—mungkin ketidakseimbangan acak dalam pemberian pengobatan
menciptakan efek utama kecil untuk X. Dalam Skenario C, ketika hutan sebab akibat dapat membagi x1 dengan tepat, maka
menunjukkan varians yang lebih kecil dibandingkan laso lentur, namun dengan beberapa bias. Tentu saja hutan sebab akibat mampu
untuk memodelkan interaksi tingkat tinggi yang jauh lebih umum daripada laso yang lentur.
7 Derajat kebebasan fit

Diberikan vektor nilai respons y dan vektor kecocokan y ˆ , Efron (1986) mendefinisikan derajat kecocokan dengan
Catatan
1
Kami berterima kasih kepada Dominik Rothenhaeusler karena telah mengirimi kami skrip R untuk regresi Anchor, dan
menunjukkan contoh ini dalam presentasi.
ˆ
ÿ Cov( , ) yy Saya Saya
Saya
ÿ
df ( )ˆkamu 2 (9)
ÿ
Kekuatan definisi ini berasal dari kenyataan bahwa ia dapat diterapkan pada non-linier, adaptif
estimator.
jika ÿ y
Sekarang Efron dkk. (2004) menunjukkan bahwametode , maka untuk prosedur regresi sudut terkecil (a
NI ~ ( , ) untuk membangun jalur laso) setelah k langkah derajat kebebasannya sama dengan k. Hasil ini adalah
diperkuat dan digeneralisasikan dalam Zou et al. (2007) dan Tibshirani dan Taylor (2012) menunjukkan hal tersebut
laso jumlah elemen bukan nol dalam larutan adalah perkiraan derajat yang tidak bias
kebebasan.
Karena laso lentur merupakan generalisasi dari laso, kita mengajukan pertanyaan: berapa derajat
kebebasan dihabiskan untuk memasang model laso yang lentur dengan syarat k ? Pada prinsipnya, jumlah ini mungkin
dapat dilakukan secara analitis tetapi kami belum berhasil menurunkannya. Oleh karena itu kita beralih ke simulasi
menjelaskan pertanyaan ini. Dalam pengaturan kami, kami mengambil
N p ÿ ÿ 100, 5,10,20,50 , dan menghasilkan standar
prediktor normal dan hasil dari model nol dan model bukan nol dengan varian kesalahan satu.
Hasilnya ada pada Gambar 10. Kami menggunakan estimasi kovarians pada (9) melalui bootstrap, untuk memberikan gambaran
perkiraan derajat kebebasan (sumbu horizontal).
Kita melihat bahwa bilangan tersebut bukan nol ˆ s memberikan perkiraan kasar tentang derajat kebebasan
ÿJ
pas (panel kiri). Di sisi lain, jumlah parameter bukan nol termasuk parameter ÿ s
adalah perkiraan derajat kebebasan yang terlalu berlebihan (panel kanan). Hal ini secara intuitif masuk akal; itu
batasan hierarki membatasi jumlah suku pengubah, jika dimasukkan, koefisiennya
efek utama dan pengubah menyusut. Akan berguna untuk menyelidiki “dugaan” kasar ini

dalam pekerjaan di masa depan. Beberapa penelitian terbaru tentang derajat kebebasan dalam laso terstruktur kelompok mungkin bisa membantu
dalam hal ini: lihat Kato (2009) dan Chen dkk. (2019).
8 Setting Z yang tidak diketahui
Pada bagian ini kita mempertimbangkan model laso yang lentur
P
ÿ ÿ ÿÿ ÿ y1 (
0
ZXXZ
ÿ )
0 ÿ ÿÿ J
ÿ
ÿj (10)
J 1
ÿ
tapi sekarang asumsikan bahwa Z tidak diamati. Untuk mempermudah kita asumsikan bahwa Z adalah vektor kolom yang dapat
dengan ÿ ke
ÿ , (ekstensi
didekati dengan fungsi linier X yaitu ZX ÿ vektor p yang tidak diketahui
Z bernilai matriks juga dimungkinkan). Kami memperkirakan ÿ dengan sebuah

2 penalti. Fungsi tujuan untuk
masalah yang diperbesar adalah
P
1 ˆ ÿ2
J ( ÿ, ÿ0 0 ,ÿ , ÿ 2 hal
,ÿ
)ÿ ÿ ( kamu
Saya
ÿÿÿ
Saya
)
2
(1 ÿ ) ÿ ( ÿ (|| ( ÿ jj , ÿ ) || ÿ2 || ÿ J ||2 ) ÿ ÿÿ ÿ | ÿ
jk | ÿ1
2
2
||ÿ ||2 .
J 1
ÿ
jk,
(11)
Soal ini tidak cembung, tetapi bi-cembung—cembung ke dalam ÿ dengan parameter lain tetap, dan sebaliknya
sebaliknya.
Kedua submasalah tersebut dapat diselesaikan dengan mudah. Dengan ˆ diperbaiki, kami memecahkan masalah laso lentur asli
ÿ
ˆ P
ˆ . Dengan parameter lain diperbaiki, kami menulis WXXXÿ * ) ( Dan
ÿ ÿÿ0 ÿ jj
(4) dengan ZX ÿÿ J 1 ÿ
ˆ ˆ
coba Xÿ 0
ÿÿÿ
ÿ dan memecahkan
1 ÿ 2
2
minimalkan ÿ )2ÿ ||ÿ ||2 (12)
ÿÿ (rW
2N 2
Saya
Ini hanyalah regresi ridge tanpa intersep. Pada prinsipnya kita dapat mengganti kedua langkah ini
sampai prosedurnya mudah-mudahan menyatu.
Untuk menyelidiki prosedur ini, kami mensimulasikan data dengan n ÿhal

200,
ÿ 12 dalam dua rezim
yx ÿ ÿ
T
ÿ z ÿ z 0:
; dengan ÿ
ÿ 0
ÿ
(2,2,2,2,0, 0); ÿ z 1: ÿ
ÿÿÿÿÿÿ
1 (2, 2, 2, 2,0, 0); ÿ
T
Data dihasilkan sebagai ( 0 | ) 1/untuk X
(1 exp( Kesalahan Pr z Bayes ÿ ÿ
xb ÿ ÿ
z )) dengan b ÿ (0,0, 0,10,10, 10,10). Itu
ÿ
ÿ
mengklasifikasikan z dari x adalah 35%. Kami menetapkan ÿ ÿ 0,25 memberikan SNR untuk y sekitar 1,4.
Gambar 11 menunjukkan hasil penerapan hanya dua siklus dari prosedur di atas, dimulai dengan yang sama ÿ
ke estimasi kuadrat terkecil y pada X. Panel kiri menunjukkan korelasi antara estimasi
ˆ
beban ÿ dan bobot pembangkit bz. Panel kanan menunjukkan kesalahan pengujian untuk laso lentur
(hijau) dibandingkan dengan laso biasa (hitam). Kami melihat bahwa dalam contoh ideal ini, terdapat potensi
untuk mempelajari variabel pengubah dari data itu sendiri.
9 Topik lebih lanjut

(a) Laso lentur berbahan dasar pohon. Versi yang lebih umum dari model laso lentur mempunyai bentuk
ÿ ÿÿÿ0 ÿ1 0(
ZX
) kamu j ÿ ÿ
(ÿ 1 ÿ ÿ jj (Z
)) ÿ
J 1
ÿ
(13)
P
ÿ ÿÿÿ0 ÿ1 ÿ ÿÿ 0 ( ZXXZ
) ÿ ( jjjjÿ ( )) ÿ
J 1
ÿ
2
Di mana ~ (0, )ÿ . Pada contoh di atas, ()ÿ adalah perkalian komponen. Dalam bentuk pertama, itu
Z terlihat
N-vektor ( ) ÿ j; bentuk
J kedua memodifikasi koefisien
mengungkapkan hal ini ÿ
setara dengan interaksi. Ada berbagai kemungkinan bentuk ( ) ÿ . Satu Z

J
pilihan yang menarik adalah menggunakan pohon regresi untuk memperkirakan ( )J ÿFaktor Z dalam model
13. Hal ini memungkinkan interaksi tingkat yang lebih umum dan lebih tinggi antara X dan Z. Sebuah koordinat
algoritma keturunan dapat diturunkan untuk optimasi yang dihasilkan, menggunakan regresi tertimbang
kesesuaian pohon. Kami telah bereksperimen dengan ide ini dan cukup berhasil, namun tidak cembung
fungsi objektif membuatnya sulit untuk dikerjakan.
(b) Perluasan ke model lain. Ide-ide yang disajikan di sini untuk model regresi Gaussian
dapat diperluas ke pengaturan lain seperti model linier umum dan proporsional Cox
model bahaya. Salah satu kegunaannya adalah pendekatan gaya Newton standar yang digunakan oleh glmnet
program, memecahkan masalah berbobot di loop dalam.
Dalam model Cox, Z dapat berupa sekumpulan variabel pemodifikasi, seperti pada model Gaussian
kertas. Tapi kita juga bisa menggunakan Z bernilai kategoris untuk menunjukkan strata dalam Cox yang terstratifikasi
model. Secara lebih rinci, model Cox bertingkat mengasumsikan bahwa fungsi bahaya berada pada kth
lapisan memiliki bentuk
T
ÿ
X ÿ
terima
k ( | ) kasih 0k () (14)
( ) fungsi bahaya dasar untuk strata ke-k. Kemungkinan log-partialnya adalah

Di mana ht0 kadalah
biasanya digunakan untuk estimasi, dan merupakan penjumlahan dari strata. Kita dapat menggeneralisasi model ini menjadi
htxht
ÿ
k ( | () )exp[ 0k ÿ xj (ÿ ÿj ÿ
jk
ÿ
( IZ k ))]. (15)
J 1
ÿ
Hal ini akan memungkinkan efek beberapa fitur bervariasi berdasarkan strata. Dengan cara serupa, seseorang juga bisa
pilih Z untuk mengindeks kumpulan risiko dalam analisis kelangsungan hidup atau kumpulan yang cocok dalam kondisi
regresi logistik. Ide ini baru-baru ini dipelajari dalam Du dan Tibshirani (2018).
(c) Aturan penyaringan. Sejumlah penulis telah mengusulkan aturan penyaringan variabel untuk ngebut
up algoritma penurunan koordinat untuk laso dan prosedur terkait. Ini termasuk El
Ghaoui dkk. (2010), Tibshirani dkk. (2012), Wang dkk. (2013) dan Ndiaye dkk. (2016).
Karena fungsi tujuan laso lentur berkaitan erat dengan laso dan renggang
group laso, kami optimis bahwa aturan penyaringan yang efektif dapat dibuat untuknya
optimasi.
Paket R (R Core Team (2019)) untuk laso lentur “lentur” tersedia di perpustakaan CRAN.
Ucapan Terima Kasih

Kami ingin mengucapkan terima kasih kepada Jacob Bien dan dua pengulas atas komentarnya yang bermanfaat. Robert Tibshirani adalah
didukung oleh hibah NIH 5R01 EB001988-16 dan hibah NSF 19 DMS1208164.
Lampiran: rincian optimasi
Model laso yang lentur memiliki bentuk
P
ˆ
ÿ 0ÿ jjjj
ÿ 1 ÿ (ZXW
ÿ ÿ ÿ kamu 0
ÿ ÿ )
J 1
ÿ
ÿ
dimana WXZ j
J ÿ (perkalian unsur pada setiap kolom). Pertama-tama kita melakukan regresi y pada (1,Z ) menjadi
memperkirakan ÿ 0 Dan ÿ 0. Menggunakan sisa dari regresi ini memungkinkan kita untuk menghilangkannya ÿ 0 dan Z ÿ 0 dari
model.
Fungsi tujuannya adalah
1 P
ˆ
J ÿÿ( , ) ÿ
2N
ÿ ( ÿ ÿ ÿ kamu)
Saya Saya
2
(1 ÿ )ÿ ( ÿ (|| (ÿ jj
ÿ , )) || ÿ2
|| ÿ J ||2 )ÿ ÿÿ ÿ ÿ|
jk
|1 .
J 1
ÿ
jk,
Persamaan subgradiennya adalah N

DJ 1 T
ÿÿ
Xrÿÿj (1 ÿ )ÿ kamu
ÿ
0
d ÿN
J
(16)
DJ 1 T
ÿÿ
WrÿÿdN
J (1 ) ÿ( ÿ 2
ÿ ÿ uu 3 ) ÿÿ ay ÿ
0
ÿ
J
ˆ, Dan
dimana ryy ÿ ÿ
ÿJ
kamu
ÿ
jika ÿ jj , ÿ ÿ) dan
0 ÿ { kamu
:|| ||2 1} jika ( ÿÿ jj , ÿ ÿ) 0
|| ÿ jj , ÿ ( ||
ÿ
J
ÿ jj , ÿ dan ÿ { kamu
ÿ
kamu
2 jika )0ÿ :||2 2 2 || 1} jika ( ,ÿ) jj0 ÿ ÿ ÿ
|| (ÿ jj , () ÿ||
ÿ
J
kamu ÿ
3
jika
0 ÿj ÿ dan ÿ { kamu
:||3 3 2 || 1}ÿ jika 0 ÿj ÿ
|| ÿ ||
J
vÿ
tanda(ÿ)j
Kondisi penyaringan: Tentukan sisa parsial, tinggalkan grup ke-j, sebagai
ˆ
coba
( J ) XW ÿ ÿ ÿ ([
ÿ
ÿÿ
ÿ ]
ÿ J
ˆ
Kemudian
T
| X r T / |( (1J j) ÿ
( ÿ, )J 0 ÿJÿ jika

ÿÿ ÿ ÿ
T ) dan || ( / SW r N j ( ÿ
J)
ÿÿ
, ÿÿ ) || 22(1 ÿ ) ÿ. (17)
Kalau tidak, kami memeriksa apakah ˆ 0 dengan komputasi pertama

J
ÿJ ÿ 0, ÿ ÿ
ˆ 2 T
) )ÿ ÿ
ÿ
(18)
ÿ
ÿ ( /( ||) || )· ( n XSX r N / ,(1

J J J ÿ
dan kemudian memeriksa apakah
T
ˆ
|| SW
( r XN(
jj ÿ )/ , ÿÿ ) || 2(1ÿ ÿ ÿ ) ÿ.
ÿ
J ( ÿ
J)
(19)
ˆ
Iterasi: (jika (ÿ J , ÿ Jÿ) ):
0
Membiarkan
ÿ J ÿÿ
(ÿ,.jj)Fungsi tujuan mayoritas adalah
T
1 2
M (ÿ) ( ÿÿ ÿ2ÿ ÿ ÿ ||ÿ || ÿ ÿ(1 ÿ ) ÿ||ÿ ÿÿ ÿ
ÿ 0) ÿ
ÿ
0 || | ÿÿ |1
T
jk
jk,
T T
dengan ÿÿ( R ,ÿ) (0
ÿÿ
/ X r NW r N untuk
, kehilangan
/ kesalahan kuadrat.
ÿ
( J)
ÿ ÿ ÿ
( jj ) ( jj )
Ini setara dengan meminimalkan
1 2
M (ÿ ) ÿ
||ÿ ÿ ÿ(ÿÿ 0ÿ ÿ T ) || (1 ÿ ) ÿ(|| ÿ || ÿ ÿÿ ÿ .
J ÿ Jÿ ÿ
|| ||) |
jk |1
2T jk,
Kemudian ˆ ˆ memuaskan
J
ÿ ÿ,
ÿ )ÿ ˆ
(1 )
ÿ
ton(1
ÿ ˆ ÿ J
ÿ ÿÿ ÿ0 T
ÿJ
|| ÿ ||
(20)
1 1
( 1 ÿ ÿ T (1 ÿ )ÿ ˆ ÿ )ÿ J ÿ ÿSÿ(tÿ 0 ÿ
J
, Tÿÿ ).
ÿ|| J || || ÿ J ||
2 2
Membiarkan A ÿ
|| ÿ J ||, b ÿ
ÿ jadi itu || ÿ||Jÿÿ ab || || . Ambil norma kedua ruas pada setiap persamaan di atas
J
memberi
T (1 )ÿÿ
ÿ
( 1ÿ )A | ÿ ÿÿ ÿ 0
T
ÿJ
|
ab2 ÿ
2
(21)
1
( 1 ÿ ÿ T (1 ÿ 1 ÿ) ( ÿb )S t ÿ||ÿ( bÿÿ
0 ÿ
J
, Tÿÿ ) || .
ab2 ÿ
2
))
Mendefinisikan ct
ÿÿ
(1 ÿ ) ÿ, G 1 | ÿ ÿÿ ÿ0t ÿJ
|, || (2g S t ÿ ÿ ÿ
ÿ
0 ÿ
J
, Tÿÿ ) || , misalkan r1, r2 adalah akar-akarnya
2 2 2
persamaan kuadrat hal 2 2 ÿ ÿ krgggg 1
ÿÿ
. Kemudian
12 1 2
A
ˆ
ÿ
cu ÿ
gu 1
ÿ
ÿÿ
; B Naskah yang Diterima
ˆ
ÿ
( gvcg
1
cv ÿ
ÿ
ÿ
ÿ
2)
(22)
ÿ ÿÿ ÿ ÿÿ
dimana uuvv, , , masing-masing sama dengan salah satu akar r1, r2 memenuhi (21).
ˆ
Akhirnya, solusinya ÿ , jjÿ memuaskan
ˆ
T (1 ÿ )ÿ
ÿ
(1 ÿ
ˆ ˆ ÿ ) J
ÿ ÿÿ ÿ
0
T
ÿJ
ab2 ÿ
2
ˆ (23)
1
( 1 ÿ ÿ T (1 ÿ 1ÿ) ˆ
(b
ÿ
ˆ ˆ ) ÿ
J
ÿ
S (ÿ
0
ÿ ÿT
ÿ
J
, Tÿÿ )
ab2 ÿ
2
))
Misalkan c1, c2 adalah konstanta perkalian

ˆ Dan ˆ di atas, kami memiliki persamaan pembaruan
ÿJ ÿJ
ˆ ÿ ÿ ÿT
0 ÿJ
ÿ
ÿJ
C
1
(24)
ˆ (| S
( ÿ 0 ÿ ÿT ÿ
, Tÿÿ ) ||
J
ÿ ÿ
.
J C
2
ˆ ˆ ˆ tua
j
Kami menggunakan ini untuk mendefinisikan pembaruan (ÿ ÿjj , ) ( ÿU ÿ lama ,ÿ , T)
Semua ini mengarah pada prosedur yang diberikan dalam Algoritma 1 di bawah.
Algoritma 1 (Rincian) Algoritma untuk Lasso Lentur

ˆ
Regresi y pada (1, ) Z dengan kuadrat terkecil, sehingga menghasilkan vektor fit ˆy dan atur yyy ÿ ÿ .
Untuk jalur menurun untuk ÿ nilai:
Untuk prediktor k ÿ
1,2, ÿÿ
P ,1,2, ulangi hingga konvergensi:
ˆ ˆ
1. Periksa kondisi (23) untuk (ÿ ÿjj , )0
ÿ
. jika nol, lewati ke k berikutnya
ˆ
2. Jika tidak, hitunglah ˆ 0 (25). Jika nol, lewati ke
dari (24) dan kemudian periksa apakah ÿ J ÿ dari
J
ÿ
Berikutnya k
ˆ ˆ
jj ,
3. Sebaliknya, jika keduanya ÿ ÿ bukan nol:
4. Ulangi sampai konvergensi
(a) Selesaikan persamaan (29) untuk norma a, b menggunakan (30)

ˆ ˆ ˆ ˆ
tua tua j
(b) Pembaruan ÿ(
( ÿ, )jj ÿU ÿ ,ÿ , t)dari (34). (Akselerasi dan kemunduran Nesterov
dapat ditambahkan untuk kecepatan dan untuk memastikan konvergensi).
Referensi

Athey, S., Tibshirani, J. dan Wager, S. (2019), 'Hutan acak yang digeneralisasikan', Ann. ahli statistik.
47(2), 1148–1178. URL: https:// doi.org/ 10.1214/18-AOS1709
Bach, F., Jenatton, R., Mairal, J. dan Obozinski, G. (2012), 'Ketersebaran terstruktur melalui cembung
optimasi', Statistik. Sains. 27(4), 450–468. URL: https:// doi.org/ 10.1214/12-STS394
Bien, J., Taylor, J. dan Tibshirani, R. (2013), 'Laso untuk interaksi hierarkis', Annals of
Statistik 42(3), 1111–1141.
Chen, X., Lin, Q. dan Sen, B. (2019), 'Tentang derajat kebebasan penduga proyeksi dengan aplikasi
pada regresi nonparametrik multivariat', Jurnal Statistik Amerika
Asosiasi 0(0), 1–30.
Cleveland, W., Grosse, E., Shyu, W. dan Terpenning, I. (1991), Model regresi lokal, dalam
J. Chambers dan T. Hastie, eds, 'Model statistik di S', Wadsworth.
Du, W. dan Tibshirani, R. (2018), 'Laso lentur untuk model Cox', cetakan elektronik ArXiv.
Eberlin, LS, Tibshirani, RJ, Zhang, J., Longacre, TA, Berry, GJ, Bingham, DB, Norton, JA, Zare, RN dan
Poultsides, GA (2014), 'Penilaian molekuler margin reseksi bedah
kanker lambung dengan pencitraan spektrometri massa', Prosiding National Academy of Sciences
111(7), 2436–2441.
Efron, B. (1986), 'Seberapa biaskah tingkat kesalahan aturan prediksi?', Journal of the
Asosiasi Statistik Amerika 81, 461–70.
Efron, B., Hastie, T., Johnstone, I. dan Tibshirani, R. (2004), 'Regresi sudut terkecil', Annals of
Statistik 32(2), 407–499. Dengan diskusi, dan tanggapan dari penulis.
El Ghaoui, L., Viallon, V. dan Rabbani, T. (2010), 'Penghapusan fitur aman dalam pengawasan yang jarang
pembelajaran', jurnal optimasi Pasifik 6(4), 667–698.
Friedman, J., Hastie, T. dan Tibshirani, R. (2010), 'Jalur regularisasi untuk linear umum
model melalui penurunan koordinat', Jurnal Perangkat Lunak Statistik 33, 1–22.
Haris, A., Witten, D. dan Simon, N. (2016), 'Pemodelan interaksi cembung dengan hereditas kuat',
Jurnal Statistik Komputasi dan Grafis 25(4), 981–1004. URL:

https:// doi.org/ 10.1080/10618600.2015.1067217

Hastie, T. dan Tibshirani, R. (1993), 'Model koefisien yang bervariasi (dengan diskusi)', J. Royal. ahli statistik.
sosial. B.55 , 757–796.
Kato, K. (2009), 'Tentang derajat kebebasan dalam estimasi penyusutan', Jurnal Multivariat
Analisis 100(7), 1338 – 1352. URL:

http:// www.sciencedirect.com/ science/ article/ pii/ S0047259X08002753
Lim, M. dan Hastie, T. (2014), 'Mempelajari interaksi melalui regularisasi grup-laso hierarki',
Jurnal Statistik Komputasi dan Grafis hal.1–41.
Ndiaye, E., Fercoq, O., Gramfort, A. dan Salmon, J. (2016), Aturan penyaringan celah yang aman untuk
laso kelompok jarang, di DD Lee, M. Sugiyama, UV Luxburg, I. Guyon dan R. Garnett, eds, 'Kemajuan dalam
Sistem Pemrosesan Informasi Neural 29', Curran Associates, Inc., hlm.388–396. URL:
http:// papers.nips.cc/ paper/ 6405-gap-safe-screening-rules-for-sparse-group-lasso.pdf
Pashova, H., LeBlanc, M. dan Kooperberg, C. (2016), 'Deteksi terstruktur interaksi dengan
mengarahkan laso', Statistik dalam Biosains. URL: https:// doi.org/ 10.1007/ s12561-016-9184-6
Powers, S., Hastie, T. dan Tibshirani, R. (2015), 'Pelatihan yang disesuaikan dengan penerapan pada pelatihan massal
pencitraan spektrometri jaringan kanker', Ann. Aplikasi. Statistik. 9(4), 1709–1725.
Powers, S., Qian, J., Jung, K., Schuler, A., Shah, NH, Hastie, T. dan Tibshirani, R. (2018), 'Beberapa
metode untuk estimasi efek pengobatan heterogen dalam dimensi tinggi, Stat Med. 37(11), 1767–
1787.
Tim Inti R (2019), R: Bahasa dan Lingkungan untuk Komputasi Statistik, R Foundation for Statistical Computing,
Wina, Austria. URL: https:// www.R-project.org/
Rhee, S.-Y., Gonzales, MJ, Kantor, R., Betts, BJ, Ravela, J. dan Shafer, RW (2003), 'Manusia
immunodeficiency virus reverse transkriptase dan database urutan protease', Asam Nukleat
Penelitian 31, 298–303.
Rothenhäusler, D., Meinshausen, N., Bühlmann, P. dan Peters, J. (2018), 'Regresi jangkar:
data heterogen memenuhi kausalitas', cetakan elektronik ArXiv.
Dia, Y., Wang, Z. dan Jiang, H. (2016), 'Estimasi yang diatur kelompok di bawah hierarki struktural',
Jurnal Asosiasi Statistik Amerika 0(ja), 0–0. URL:

https:// doi.org/ 10.1080/01621459.2016.1260470

Simon, N., Friedman, J., Hastie, T. dan Tibshirani, R. (2013), 'A sparse-group Lasso', Journal of
Statistik Komputasi dan Grafis 22(2), 231–245.
'
Tibshirani, R., Bien, J., Friedman, J. Hastie, T., Simon, N. Taylor, J. dan Tibshirani, R. (2012),
Aturan yang kuat untuk membuang prediktor dalam masalah tipe laso', J. Royal Statistical Society B. hal.245–
266.
Tibshirani, RJ dan Taylor, J. (2012), 'Derajat kebebasan dalam masalah laso', Annals of Statistics
40(2), 1198–1232.
Taruhan, S. dan Athey, S. (2018), 'Estimasi dan inferensi efek perlakuan heterogen menggunakan hutan
acak', Jurnal American Statistical Association 113(523), 1228–1242. URL:

https:// doi.org/ 10.1080/01621459.2017.1319839
Wang, J., Lin, B., Gong, P., Wonka, P. dan Ye, J. (2013), Aturan penyaringan Lasso melalui proyeksi
polytope ganda, dalam 'Kemajuan dalam Sistem Pemrosesan Informasi Neural (Prosiding Konferensi NIPS)' ,
hal.1070–1078.
Yan, X. dan Bien, J. (2017), 'Pemodelan renggang hierarki: Pilihan formulasi dua kelompok laso
', Ahli Statistik. Sains. 32(4), 531–560. URL: https:// doi.org/ 10.1214/17-STS622
Yuan, M. dan Lin, Y. (2007), 'Pemilihan model dan estimasi dalam regresi dengan variabel yang dikelompokkan',
Jurnal Royal Statistical Society, Seri B 68(1), 49–67.
Zhao, P., Rocha, G. dan Yu, B. (2009), 'Kelompok hukuman absolut gabungan untuk kelompok dan
pemilihan variabel hierarki', Ann. Statistik hal. 3468–3497.
Zou, H. dan Hastie, T. (2005), 'Regularisasi dan pemilihan variabel melalui jaring elastis', Journal of
Seri Royal Statistics Society B. 67(2), 301–320.
Zou, H., Hastie, T. dan Tibshirani, R. (2007), 'Tentang derajat kebebasan laso', The Annals of
Statistik 35(5), 2173–2192.

Gambar 1 Jalur solusi untuk Contoh 1. Simbol “X” menunjukkan bahwa model telah memasukkan suku
pengubah Zÿj . Garis putus-putus dan putus-putus vertikal masing-masing menunjukkan pilihan model yang
sesuai dengan validasi silang minimum dan kesalahan pengujian.
Gambar 2 Hasil percobaan simulasi menggunakan model (7) dan variannya. Metodenya adalah laso, GBM,
glinternet dan laso lentur. Laso, GBM dan glinternet diberikan X dan Z sebagai prediktor. GBM menggunakan
pohon tunggal yang dibelah (tunggul), yang tampaknya sesuai karena interaksi sebenarnya adalah interaksi orde
pertama. Di glinternet kami hanya mengizinkan interaksi antara Z dan prediktor X lainnya.
Jika tidak, semua metode dijalankan dengan pengaturan default dan masing-masing menggunakan validasi silang untuk
memilih parameter penyetelannya, Panel kiri atas menggunakan model (7), dengan , sementara panel kanan atas
N p ÿ ÿ 100, 10
memiliki N p ÿ ÿ 50 . Di panel kiri bawah, kami menggunakan ( IX ÿ sebagai
100, J pengganti
untuk memberikan
setiap Xj , potensi
0) keuntungan
bagi GBM. Di kanan bawah kami menambahkan istilah efek utama yang kuat di Z, untuk membantu strategi hierarki
glinternet yang kuat.
Gambar 3 Data mutasi HIV: kurva kesalahan pengujian untuk laso dan laso lentur. Angka-angka di bagian atas plot
mewakili jumlah efek utama yang mempunyai istilah interaksi. Garis putus-putus vertikal menunjukkan pilihan model
dari validasi silang. Kami melihat sedikit keuntungan untuk laso lentur dibandingkan laso standar.
Gambar 4 Data kanker kulit: area uji di bawah kurva untuk laso dan laso lentur, untuk berbagai ukuran model. Laso
yang lentur menawarkan beberapa peningkatan dibandingkan laso standar.
Gambar 5 Data return saham: setiap waktu di sebelah kanan diklasifikasikan paling mirip dengan periode waktu pelatihan
yang ditunjukkan di sebelah kiri. Kita melihat, misalnya, bahwa pengamatan set pengujian setelah tahun 2001 diklasifikasikan
sebagai yang paling mirip dengan tahun 2001, sementara pengamatan lainnya diklasifikasikan sebagai yang paling mirip dengan
periode set pelatihan sebelumnya.
Gambar 6 Data return saham: korelasi antara return periode pengujian yang diprediksi dan aktual, untuk laso dan laso lentur.
Gambar 7 Skema laso lentur yang diterapkan pada data polusi. Dalam skema, empat kota pertama bertindak
sebagai set pelatihan, dan kota ke-5 (Beijing) sebagai set validasi. Hal ini diulang sebanyak 5 kali, dengan masing-
masing kota bertindak sebagai set validasi.

Gambar 8 Hasil laso lentur (kiri) dan regresi jangkar (kanan) diterapkan pada data pencemaran.
Sumbu vertikal menunjukkan kesalahan relatif terhadap model kuadrat terkecil biasa (MSE Relatif< 1,0 berarti model
dengan MSE lebih rendah daripada kuadrat terkecil.)
Gambar 9 Hasil untuk hutan sebab akibat dan laso lentur yang diterapkan pada tiga permasalahan di (8). Panel

atas, tengah, dan bawah sesuai dengan skenario A, B, dan C. Garis 45 derajat digambar dengan warna biru pada
setiap panel. Laso yang lentur berfungsi lebih baik dalam memulihkan efek pengobatan yang sebenarnya.

Gambar 10 Perkiraan derajat kebebasan untuk laso lentur, dalam pengaturan nol (panel atas)
dan pengaturan bukan nol (panel bawah). Derajat kebebasan (sumbu horizontal) diperkirakan
dari rumus kovarians, sedangkan bilangan bukan ÿnol
dan parameter ÿ ditunjukkan di sebelah kiri dan
ˆ
ÿ J nol memberikan perkiraan kasar derajat
panel kanan. Kita melihat bahwa jumlah parameter bukan
kebebasan kecocokan (panel kiri) sedangkan jumlah total parameter bukan nol (panel kanan)
memperkirakan derajat kebebasan secara berlebihan.
Gambar 11 Hasil laso lentur, dengan variabel modifikasi Z tidak teramati. Panel kiri menunjukkan korelasi
antara estimasi bobot dan bobot yang dihasilkan ˆbz. Panel kanan menunjukkan kesalahan pengujian laso
ÿ
lentur (hijau) dibandingkan laso biasa (hitam).
Tabel 1 Berbagai kemungkinan untuk memodifikasi variabel Z.
Skenario Contoh Set Tes Set Pelatihan
Dikenal-Dikenal Z diketahui Z diketahui jenis kelamin, usia, Z = X
Diketahui-Tidak Diketahui Z diketahui Z waktu belajar, ID pasien
Tidak Diketahui-Tidak Diketahui Z terpelajar Z belajar cluster dari X

Tabel 2 Data polusi: arah perkiraan dampak model laso lentur yang dipasang. Tanda panah ganda menunjukkan
efek yang lebih kuat.
Beijing Chengdu Guangzhou Shanghai Shenyang
kelembaban ÿ ÿ
Angin barat laut ÿ ^ ^ ÿ

A Pliable Lasso

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

A Pliable Lasso

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Jurnal Statistik Komputasi dan Grafis

ISSN: 1061-8600 (Cetak) 1537-2715 (Online) Beranda jurnal: https://www.tandfonline.com/loi/ucgs20

Lasso yang Lentur

Robert Tibshirani & Jerome Friedman

Untuk menautkan ke artikel ini: https://doi.org/10.1080/10618600.2019.1648271

Lihat materi tambahan

Versi penulis yang diterima diposting online: 30 Juli

Kirimkan artikel Anda ke jurnal ini

Lihat data Tanda Silang

Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di

Lasso yang Lentur

Departemen Ilmu dan Statistik Data Biomedis, Universitas Stanford

pendekatan memecahkan 1 -regresi yang dikenakan sanksi

ÿ j berbeda untuk laki-laki

Naskah yang Diterima

1.1 Pekerjaan terkait

Naskah yang Diterima

1.2 Kasus penggunaan yang berbeda

2 Optimalisasi fungsi tujuan.

Naskah yang Diterima

Bentuk umum dari algoritma ditunjukkan pada Algoritma 1.

Algoritma 1 Algoritma untuk Lasso Lentur

Untuk jalur menurun ÿ nilai:

2. Jika tidak, hitunglah ˆ menggunakan soft-thresholding lalu periksa kondisinya

)ÿ , operator ambang lunak. Kami mencatat

4.1 A Z = X Contoh : Data mutasi HIV

4.2 Data proteomik kanker kulit

Naskah yang Diterima

4.3 Contoh peramalan- memprediksi return saham

5 Contoh: Data polusi

sebaik hasil regresi jangkar.

6 Estimasi efek pengobatan yang heterogen

Naskah yang Diterima

7 Derajat kebebasan fit

Naskah yang Diterima

8 Setting Z yang tidak diketahui

Pada bagian ini kita mempertimbangkan model laso yang lentur

Z bernilai matriks juga dimungkinkan). Kami memperkirakan ÿ dengan sebuah

Untuk menyelidiki prosedur ini, kami mensimulasikan data dengan n ÿhal

1 (2, 2, 2, 2,0, 0); ÿ

9 Topik lebih lanjut

Naskah yang Diterima

setara dengan interaksi. Ada berbagai kemungkinan bentuk ( ) ÿ . Satu Z

( ) fungsi bahaya dasar untuk strata ke-k. Kemungkinan log-partialnya adalah

Ucapan Terima Kasih

Lampiran: rincian optimasi

Model laso yang lentur memiliki bentuk

Fungsi tujuannya adalah

Persamaan subgradiennya adalah N

Kondisi penyaringan: Tentukan sisa parsial, tinggalkan grup ke-j, sebagai

Naskah yang Diterima

Kalau tidak, kami memeriksa apakah ˆ 0 dengan komputasi pertama

ÿ ( /( ||) || )· ( n XSX r N / ,(1

dan kemudian memeriksa apakah

Ini setara dengan meminimalkan

Misalkan c1, c2 adalah konstanta perkalian

Algoritma 1 (Rincian) Algoritma untuk Lasso Lentur

Untuk jalur menurun untuk ÿ nilai:

4. Ulangi sampai konvergensi

(a) Selesaikan persamaan (29) untuk norma a, b menggunakan (30)

Naskah yang Diterima

47(2), 1148–1178. URL: https:// doi.org/ 10.1214/18-AOS1709

optimasi', Statistik. Sains. 27(4), 450–468. URL: https:// doi.org/ 10.1214/12-STS394