Anda di halaman 1dari 25

Machine Translated by Google

Jurnal Statistik Komputasi dan Grafis

ISSN: 1061-8600 (Cetak) 1537-2715 (Online) Beranda jurnal: https://www.tandfonline.com/loi/ucgs20

Lasso yang Lentur

Robert Tibshirani & Jerome Friedman

Mengutip artikel ini: Robert Tibshirani & Jerome Friedman (2019): A Pliable Lasso, Journal of
Computational and Graphical Statistics, DOI: 10.1080/10618600.2019.1648271

Untuk menautkan ke artikel ini: https://doi.org/10.1080/10618600.2019.1648271

Lihat materi tambahan

Versi penulis yang diterima diposting online: 30 Juli


2019.

Kirimkan artikel Anda ke jurnal ini

Tampilan artikel: 77

Lihat data Tanda Silang

Syarat & Ketentuan lengkap akses dan penggunaan dapat ditemukan di


https://www.tandfonline.com/action/journalInformation?journalCode=ucgs20
Machine Translated by Google

Artikel

Lasso yang Lentur


Robert Tibshirani dan Jerome Friedman

Departemen Ilmu dan Statistik Data Biomedis, Universitas Stanford

Abstrak
Kami mengusulkan generalisasi laso yang memungkinkan koefisien model bervariasi sebagai fungsi dari himpunan umum
beberapa variabel pengubah yang telah ditentukan sebelumnya. Pengubah ini mungkin berupa variabel seperti jenis
kelamin, usia, atau waktu. Paradigmanya cukup umum, dengan setiap koefisien laso dimodifikasi oleh fungsi linier
renggang dari variabel pengubah Z. Model diperkirakan secara hierarki untuk mengontrol derajat kebebasan dan
menghindari overfitting. Variabel pengubah dapat diamati, diamati hanya di set pelatihan, atau tidak diamati secara keseluruhan.
Ada hubungan antara proposal kami dengan model koefisien variasi dan model interaksi dimensi tinggi. Kami menghadirkan
algoritme yang efisien secara komputasi untuk pengoptimalannya, dengan aturan penyaringan yang tepat untuk
memfasilitasi penerapan sejumlah besar prediktor. Metode ini diilustrasikan pada sejumlah contoh simulasi dan nyata
yang berbeda.

1. Perkenalan
Dalam tulisan ini kami mempertimbangkan masalah pembelajaran diawasi yang biasa. Diberikan prediktor xij dan respon
N ÿ salah satudan
nilai yi untuk i ÿ 1,2, metode
j populer , masalah ini adalah laso. Ini
untuk
ÿ 1,2, hal ÿ

pendekatan memecahkan 1 -regresi yang dikenakan sanksi

minimalkan
1
2
Naskah yang Diterima
N

ÿÿÿ|
Saya
ÿ
1
( kamu
Saya
ÿÿ

ÿ 0
P

J 1
ÿ
x ÿ
akuj j
)
2
ÿ ÿ
P

J 1
ÿ
ÿJ |. (1)

Ini setara dengan meminimalkan jumlah kuadrat dengan batasan ÿ ÿ| J | ÿ s. Nilai absolut

penalti pada (1) menginduksi ketersebaran dalam solusi untuk nilai yang cukup besar ÿ ; yaitu, beberapa atau banyak

dari komponen-komponen larutan ˆ adalah nol. Laso dan teknik terkait seperti jaring elastis
ÿ
(Zou dan Hastie (2005)) banyak digunakan. Paket bahasa R glmnet memecahkan laso seperti yang dinyatakan
(1) dan dalam kelas masalah yang lebih luas (seperti model linier umum) dengan sangat efisien, menggunakan a
mengkoordinasikan prosedur penurunan. Perhatikan bahwa fungsi tujuan pada (1) adalah cembung, sehingga menghasilkan
masalah optimasi dapat dilakukan.

Dalam makalah ini kami memperluas laso, menyematkannya dalam model yang lebih umum. Kami berasumsi demikian juga
untuk prediktor dan hasil kami, kami memiliki pengukuran terhadap satu atau lebih “variabel pengubah ” .
i N ÿÿdan
1,2k ÿ 1,2, K ÿ . Misalnya, variabel pengubah tersebut mungkin berupa jenis kelamin (laki-laki atau

ÿ j berbeda untuk laki-laki


perempuan), dan kami memperhitungkan kemungkinan bahwa beberapa atau seluruh koefisien
dan perempuan. Atau Z mungkin adalah waktu dan kita ingin memberikan koefisien yang bervariasi terhadap waktu. Kemungkinan lain
adalah memilih variabel pengubah untuk menjadi beberapa prediktor xij.

Misalkan y adalah N ÿvektor hasil, dan misalkan X, Z adalah matriks N × p dan N × K yang berisi nilai
masing-masing variabel prediktor dan pengubah. Kami sedang memikirkan masalah di mana X bisa berada
besar, dengan N > p atau p Nÿ , sedangkan Z memiliki jumlah kolom yang sedikit hingga sedang. Biarkan Xj menjadi
Machine Translated by Google

kolom ke-j dari X (sebuah N-vektor), dan misalkan 1 adalah kolom N-vektor dari satuan. Model laso yang lentur adalah
didefinisikan oleh

P
ˆ
ÿ ÿ ÿÿ ÿ 1
kamu 0 0
ZXZ
ÿ ÿ J (ÿ jj 1 ÿ )
J 1 ÿ

P
(2)
ÿ ÿ ÿÿ ÿ 1
0
ZXXZ
ÿ0 ÿ ÿ ( J
ÿ
)ÿ J
J 1
ÿ

dengan)(XZ
ÿ menyatakan matriks N × K yang dibentuk dengan mengalikan setiap kolom komponen Z
J

adalah skalar.
oleh vektor kolom Xj . Perhatikan ÿj adalah vektor dengan panjang K sedangkan ÿ J

Untuk kekuatan statistik dan kemampuan interpretasi, kami juga menambahkan batasan hierarki lemah (asimetris):

.
ÿ J jika bukan nol
ÿj bisa menjadi bukan nol hanya (3)

Secara sederhana, ini berarti bahwa seorang prediktor hanya dapat berpartisipasi dalam suatu interaksi jika efek utamanya adalah
bukan nol.

Kita membahas bentuk non-linier yang lebih umum untuk laso lentur di Bagian 9.

Sebagai contoh, kami membahas di Bagian 5 prediksi polusi udara di kota di Tiongkok, dengan data yang diberikan
dengan 29 prediktor dari empat kota di Tiongkok lainnya. Dalam hal ini, kami menetapkan Z sama dengan kategorikal
variabel dengan empat tingkat, satu untuk setiap kota. Asumsi hierarki memungkinkan kita membatasi perhatian
untuk interaksi yang memiliki efek utama bukan nol, bukan himpunan lengkap 4 × 29.

Naskah yang Diterima


Untuk memenuhi batasan hierarki (3), kami menggunakan fungsi tujuan berikut untuk masalah kami:

1 P
ˆ
J ( ÿ, ÿ ÿ
00 , , ÿ) ÿ2
N
ÿ (Yy
Saya
ÿ

Saya
)
2
ÿ ÿ (1 ÿ )ÿ ( ÿ (|| ( ,ÿ) || ÿ
jj
ÿ2
|| ÿ J ||2 )ÿ ÿÿ ÿ ÿ|
jk
|1. (4)
J 1
ÿ
jk,

Saya
0 ÿ0 ÿ
Di mana yˆ adalah elemen ke-i dari nilai yang dipasang ÿ 1 ÿZXZ
ÿÿ jj
(ÿ ÿ J. )Di sini ÿ adalah p 1 × K
J 1
ÿ

ÿ Jumlahnya
matriks parameter dengan baris ke-j ÿj dan entri individual dapat disesuaikan ÿ Dan ÿ
jk,
parameter penyetelan. Suku pertama dalam penalti memberlakukan batasan hierarki (3) sedangkan suku kedua
ÿ
istilah memberikan ketersebaran pada masing-masing komponen ÿj . Parameter mengontrol bobot relatif

pada dua penalti. Seperti laso biasa, untuk diperbaiki ÿ , kita memperoleh jalur solusi yang diindeks oleh

parameter penyetelan ÿ . Faktanya, sebagai ÿ ÿ1, ÿ j menyusut menjadi nol dan permasalahan menghasilkan solusi

mendekati laso biasa. Perhatikan bahwa parameternya disesuaikan ÿ0 dan ÿ 0 dibiarkan tidak terkena penalti: kami yang pertama
dengan kuadrat terkecil dan mengambil residu.

Sebelum kita memberikan rincian lebih lanjut, mari kita lihat contohnya. Dengan
N p ÿ ÿ 100, 20 dan standar normal
prediktor, kami menghasilkan data dari model

yxxÿ ÿaku
1
z · (20) ÿÿÿ Saya
3 · (zxÿ 1) , (5)
Machine Translated by Google

Di sini z adalah variabel acak Bernoulli tunggal dan ~ (0,1) N . Gambar 1 menunjukkan jalur solusi sebagai

minimum ÿ . Garis putus-putus dan putus-putus vertikal menunjukkan pilihan model yang sesuai dengan masing-masing
validasi silang dan kesalahan pengujian. Pada nilai-nilai ini, lihat bahwa model telah memasukkan X1 dengan benar dalam
bentuk linier biasa dan memodifikasi suku untuk X2 dan X3.

1.1 Pekerjaan terkait

Ada banyak hubungan antara proposal makalah ini dan karya yang diterbitkan sebelumnya.
Ada hubungan erat dengan kelas model koefisien variasi Cleveland et al. (1991) dan Hastie dan Tibshirani (1993): laso
lentur termasuk dalam kelas ini, menambahkan gagasan tentang ketersebaran, hierarki, dan skalabilitas pada proposal
aslinya. Model yang kami usulkan juga merupakan model interaksi berdimensi tinggi: penelitian terbaru di bidang ini
mencakup Zhao et al. (2009), Bach dkk. (2012), Bien dkk.
(2013), Lim dan Hastie (2014), Pashova dkk. (2016), Dia dkk. (2016), Haris dkk. (2016) dan Yan dan Bien (2017).
Penggunaan laso lentur ketika Z tidak diketahui di set pengujian berkaitan dengan gagasan pelatihan yang disesuaikan
(Powers et al. 2015). Hal ini dibahas di bagian berikutnya. Laso lentur menggunakan hukuman yang diusulkan dalam
kelompok laso (Yuan dan Lin 2007) dan laso kelompok jarang (Simon et al. 2013).

Berbeda dengan model interaksi yang memperlakukan semua variabel dengan cara yang sama, laso lentur
bersifat asimetris dalam cara memperlakukan variabel X dan Z. Variabel X adalah prediktor utama dalam model, dan suku

pengubah ÿjk hanya dapat bernilai bukan nol jika tidak benar. Hal ini berbeda ÿ bukan nol. Tapi kebalikannya adalah j
dengan model interaksi hierarki lainnya untuk sekumpulan prediktor
XXX 1 2 , ÿ

P
: ini menggunakan hierarki yang lemah— interaksi antara Xj dan Xk dianggap jika di

setidaknya salah satu efek utamanya ada dalam model—, atau hierarki yang kuat, yang mana kedua efek utamanya harus
ada dalam model. Contohnya adalah Bien dkk. (2013) dan Lim dan Hastie (2014).

Naskah yang Diterima


Prosedur terakhir dari Lim dan Hastie (2014) (“Glinternet”) menggunakan laso kelompok yang tumpang tindih laten
sedangkan laso lentur menggunakan laso kelompok dengan kelompok yang tumpang tindih. Perbedaan ini terlihat jelas
pada Tabel 1 Yan dan Bien (2017). Glinternet memodelkan interaksi antara semua pasangan variabel, menerapkan
hierarki yang kuat pada pencarian: yaitu, interaksi hanya dapat muncul jika kedua efek utama ada dalam model.
Selanjutnya, paket R yang sesuai memungkinkan seseorang untuk menentukan "kandidat interaksi":
interaksi hanya dipertimbangkan antara variabel-variabel ini dan semua variabel lainnya. Untuk menerapkan
prosedur ini pada pengaturan kita, kita dapat mengambil himpunan variabel menjadi (X, Z) dan kemudian membatasi
interaksi pada variabel Z. Dalam kasus khusus ini, ini berbeda dari laso lentur dalam penggunaan hierarki kuat vs. lemah,
dan fakta bahwa laso lentur berinteraksi setiap Xj dengan seluruh vektor Z. Kita membandingkan Glinternet dengan
laso lentur dalam contoh simulasi di bagian selanjutnya.

Catatan A. Klaim kami bahwa solusi untuk (4) memenuhi sifat hierarki (3) bergantung pada argumen kontinuitas,
dan kami belum memiliki bukti kuat atas klaim ini.

Catatan B. dimungkinkan untuk menetapkan hasil pemulihan yang konsisten dan mendukung hasil pemulihan, seperti yang
telah ditunjukkan untuk laso. Kami menduga bahwa hal ini memerlukan asumsi serupa pada matriks fitur X seperti
pada laso dan kemungkinan besar, asumsi serupa pada matriks variabel pemodifikasi Z.

1.2 Kasus penggunaan yang berbeda

Properti yang menarik dari laso yang lentur adalah keserbagunaannya. Tabel 1 merangkum berbagai
kemungkinan.
Machine Translated by Google

Skenario “Diketahui-Dikenal” adalah yang paling sederhana: kami menyesuaikan model laso yang lentur dan menerapkannya langsung ke
set tes. Dalam Skenario “Diketahui-Tidak Diketahui”, kami menyesuaikan model kami, tetapi untuk prediksi di set pengujian, kami memerlukannya
untuk memperkirakan nilai z untuk set pengujian. Untuk tujuan ini kami menerapkan pembelajaran terawasi terpisah
prosedur untuk memprediksi Z dari x di set pelatihan, dan kemudian menggunakan nilai prediksi Z ˆ saat melamar
laso lentur ke set pengujian. Prosedur ini juga dapat menggunakan informasi lain selain X, jika tersedia,
untuk memprediksi Z. Dalam contoh kita, kita menggunakan pengklasifikasi hutan acak atau laso multinomial.

Dalam Skenario “Unknown-Unknown” kita dapat membentuk cluster berdasarkan X (atau lainnya yang tersedia
pengukuran) menggunakan data pelatihan, atau gabungan data pelatihan dan pengujian. Kita bisa memilih
jumlah cluster dengan validasi silang, untuk meminimalkan kesalahan prediksi. Skenario ini dan juga
skenario “Diketahui-Tidak Diketahui” ketika Z adalah variabel kategori, berkaitan erat dengan proposal pelatihan
yang disesuaikan dari Powers dkk. (2015). Dalam pekerjaan itu, cluster diperkirakan dari data pelatihan,
atau gabungan set pelatihan dan pengujian, lalu model laso lokal disesuaikan dengan masing-masing cluster. Di dalam
Bagian 8 kita bereksperimen dengan pendekatan yang berbeda, memperkirakan kontras linear ZX ÿ ÿ dari
data itu sendiri.

Berikut adalah garis besar dari sisa makalah ini. Bagian 2 menjelaskan strategi pengoptimalan kami, sementara
Bagian 3 membahas studi simulasi. Aplikasi dibahas di Bagian 4, dengan menarik
contoh spasial ditunjukkan pada Bagian 5. Penerapan laso lentur untuk estimasi
efek perlakuan heterogen dibahas di Bagian 6. Derajat kebebasan model yang dipasang adalah
dibahas di Bagian 7, sedangkan latar Z yang tidak diketahui dibahas di Bagian 8. Terakhir, kita bahas
perluasan model di Bagian 9.

2 Optimalisasi fungsi tujuan.


Fungsi tujuan (5) adalah cembung, dan untuk meminimalkannya kita menggunakan koordinat siklik searah blok
ÿ menggunakan solusi sebelumnya sebagai permulaan yang hangat.

Naskah yang Diterima


prosedur penurunan, melewati jalur dengan nilai yang menurun,

Masalahnya memiliki beberapa struktur menarik yang menyederhanakan perhitungan: khususnya, memperbaiki
ˆ
prediktor lain, kami telah memperoleh kondisi eksplisit untuk menentukan apakah ( ÿ, )j
J
ÿbukan nol dan jika ya

bukan nol, apakah komponenÿ j bukan nol. Jika keduanya bukan nol, kami menggunakan gradien umum
prosedur keturunan untuk menentukan kedua parameter. Strategi ini menghasilkan algoritma yang cepat, karena kami
dapat menelusuri prediktor dan hanya melakukan komputasi yang lebih mahal (penurunan gradien umum)
Saat dibutuhkan.

Bentuk umum dari algoritma ditunjukkan pada Algoritma 1.

Algoritma 1 Algoritma untuk Lasso Lentur

Untuk jalur menurun ÿ nilai:

Untuk prediktor j ÿ
1,2, ÿÿ
P ,1,2, ulangi hingga konvergensi:
ˆ
1. Periksa kondisi (eksplisit) untuk (ÿ J ÿ ÿ , ) 0j . Jika nol, lanjutkan ke j berikutnya.

2. Jika tidak, hitunglah ˆ menggunakan soft-thresholding lalu periksa kondisinya


ÿJ ˆ
ÿj ÿ 0. Jika nol, perbaiki pembaruan ÿ J dan kemudian pindah ke berikutnya J
ˆ ˆ
3. Sebaliknya, jika keduanya (ÿ J , ÿ)j bukan nol, gunakan prosedur gradien umum untuk mencarinya(ÿ, J)Jÿ
.
Machine Translated by Google

Rincian prosedur ini diberikan dalam Lampiran. Seperti yang ditunjukkan di sana, kondisi yang digunakan pada Langkah 1
dari algoritma tersebut adalah

T
| X r T / | (1( jj ) ÿÿ ÿÿ
T ) dan || ( / SW r N j ÿÿ
, ÿÿ ) || 22(1 ÿ )ÿ (6)
( J)
ÿ ÿ

Di mana r ( )j adalah sisa parsial dengan kecocokan untuk prediktor ke-j dihilangkan, WXZ ÿ (secara elemen ÿ
ÿ

J J
perkalian di setiap kolom) dan tanda S xt ( , ) |( kemiripan
)(| dengan
xxt ÿ ÿ

)ÿ , operator ambang lunak. Kami mencatat


prosedur penurunan koordinat standar untuk laso (lihat misalnya Friedman dkk.
(2010)). Secara khusus, tanpa pengubah Z, kondisi kedua dan pertama akan hilang
ekspresi persis dengan kondisi nol dalam prosedur penurunan koordinat untuk laso.

Catatan C. Kami telah memasukkan faktor N pada penyebut suku pertama tujuan
fungsi pada (4), untuk mencocokkan parameterisasi yang digunakan dalam program glmnet (Friedman et al. 2010).

Catatan D. Solusi optimasi pada (4) bergantung pada penskalaan variabel X dan Z.
Secara default, kami menstandarkan setiap himpunan agar memiliki mean dan varian satuan nol.

Catatan E. Dalam prosedur penurunan koordinat untuk prosedur laso Friedman dkk. (2010)),
menggunakan pembaruan “naif”, koefisien untuk setiap prediktor dapat diperiksa dan diperbarui di O(N)
operasi. Dalam algoritma saat ini, biaya ini meningkat menjadi ONK ( · ) operasi.

3 Perbandingan simulasi
Dalam contoh ini kita mengambil nrespon
ÿ 100, 50 p ÿ , dan prediktor independen Gaussian standar. Itu
dihasilkan sebagai

yx

ÿ ()
ÿ
ÿ ; ~ (0,1)
ÿ ( ) 0,5·
ÿ ÿ ÿ ÿÿ
ÿ xxxxezxezÿ
Naskah yang Diterima
11222
N

(
3 3ÿ 2) 1 4ÿ4 ( 2 );
ÿ

ÿ ÿÿ
(2, 2,2,2,0, )
(7)

dengan e ÿ
(1,1,1 ÿ1)T
. Variabel pengubah Z diambil dari distribusi Bernoulli sederhana
dengan probabilitas yang sama. Rasio sinyal terhadap noise sekitar 2. Kami menerapkan laso standar, (menggunakan
paket R glmnet), mesin penambah gradien (menggunakan paket R gbm), Glinternet (menggunakan
Paket R berkilauan), dan laso lentur lebih dari 20 simulasi. Ukuran sampel N, p= jumlah X
variabel, K=jumlah Z variabel ditampilkan di bagian atas setiap panel.

Variasi soal yang berbeda digunakan di setiap panel, dengan rincian diberikan pada keterangan gambar. Di dalam
setiap kasus, laso yang lentur bekerja paling baik. Seperti tercantum dalam keterangannya, semua metode dijalankan dengan default

pengaturan; meskipun kami tidak menyetel laso lentur dengan cara khusus apa pun, mungkin saja GBM dan
glinternet dapat bekerja lebih baik menggunakan pengaturan parameter yang berbeda. Tentu saja GBM lebih cocok
model umum daripada laso yang lentur dan seharusnya bekerja lebih baik dalam pengaturan yang lebih umum, tetapi memang demikian
meyakinkan daripada laso yang lentur dapat mengatasi berbagai masalah ini.

4 Aplikasi

4.1 A Z = X Contoh : Data mutasi HIV


Rhee dkk. (2003) mempelajari enam penghambat transkriptase balik nukleotida (NRTI) yang digunakan untuk mengobati
HIV-1. Target obat ini bisa menjadi resisten melalui mutasi, dan mereka membandingkannya a
Machine Translated by Google

kumpulan model untuk memprediksi kerentanan (log) obat ini – ukuran resistensi obat,
berdasarkan lokasi mutasinya. Kami fokus pada obat pertama (3TC), yang memang ada
p = 217 lokasi dan N = 1057 sampel. Kami secara acak membagi sampel menjadi set pelatihan dan pengujian yang berukuran
kira-kira sama. Dalam hal ini kami memilih variabel pengubah Z menjadi subset X dari X
variabel: kami menggunakan mutasi yang memiliki set pelatihan skor z univariat ÿ 2 dalam nilai absolut. Karena itu
model yang dihasilkan memiliki bentuk

ˆ
ÿ 1 ÿ
XXX ÿ ÿ ÿ y 0 jsj
S 0 1ÿ J
(ÿ ÿ ÿ )
J

Gambar 3 menunjukkan kurva kesalahan pengujian untuk laso dan laso lentur. Kami melihat bahwa laso yang lentur dapat dicapai
kesalahan tes agak lebih rendah daripada laso. Model yang dihasilkan mudah dipahami dan melibatkan beberapa orang
mutasi efek utama dan beberapa interaksi berpasangan antara pasangan mutasi.

4.2 Data proteomik kanker kulit


Data dalam contoh ini berasal dari pengukuran spektometri massa DESI dari jaringan pasien
dengan kanker kulit, dari kolaborator di Stanford. Ada 16 pasien di set pelatihan,
berkontribusi dengan total 17.053 pengukuran (ada banyak piksel gambar per pasien) dan 2733
fitur proteomik. Setiap piksel diberi label sebagai normal atau kanker, dengan sebagian besar sampel pasien terdiri darinya
seluruhnya piksel normal atau kanker. Set tes memiliki 7963 pengukuran dari 9 pasien. Untuk
kemudahan komputasi kami mengambil sampel acak sebanyak 1000 pengukuran dari set pelatihan dan memilih
1000 fitur Xj memiliki skor univariat terbesar di set pelatihan. Kami telah menggunakan laso dengan
keberhasilan pada data serupa dengan kanker lain, lihat misalnya Eberlin dkk. (2014).

Di sini kami mengambil Z untuk menjadi ID pasien. Ini adalah contoh skenario Tabel “diketahui-tidak diketahui”.
1: ID pasien di set pengujian berbeda dengan yang ada di set pelatihan. Oleh karena itu kami cocok secara terpisah

Naskah yang Diterima


(multinomial-lasso) di set pelatihan, dan menggunakannya untuk "memprediksi" Z di set pengujian. Di tempat lain
Dengan kata lain, kami menemukan pasien set pelatihan yang paling mirip dengan pasien set tes yang diberikan, dan menggunakan pasiennya
ID untuk prediksi. Model yang dihasilkan mempunyai bentuk

ˆ
ÿ 1
kamu ÿ ÿ ÿ 0 0 ÿ
ZXZÿ
1ÿ J (ÿ jj
ÿ )
J

dimana Z adalah matriks indikator yang memiliki 16 kolom: ada satu matriks di kolom k yang bersesuaian
pasien k, untuk k ÿ ÿ 1,2, 16 .

Inilah intuisi di balik gagasan ini. Misalkan ada dua jenis kanker kulit A
dan B, tidak diketahui ilmuwan. Misalkan protein 1 bersifat prediktif untuk semua pasien, terutama
prediktif untuk kanker kulit tipe A. Kemudian laso yang lentur dapat mempelajari hal ini dari set pelatihan. Lalu seterusnya
set pengujian, jika ada pasien baru (katakanlah Q) yang tidak ada dalam set pelatihan, pertama-tama kita memprediksi pasien mana yang termasuk dalam set pengujian

set pelatihan paling mirip dengan Q (katakanlah pasien P). Kemudian kami menggunakan model estimasi pasien tersebut untuk memprediksi

hasil untuk Q. Pada dasarnya, Jika paten P menderita kanker kulit tipe A, kami menyimpulkan bahwa pasien Q juga
memiliki tipe A.

Untuk lebih meningkatkan akurasi, kami memfilter lebih lanjut variabel Xj , menjaga variabel tetap univariat
skor dalam 1000 teratas untuk hasilnya (seperti yang disebutkan di atas), tetapi juga mengharuskan mereka memiliki skor
dalam 1000 teratas sehubungan dengan variasi antar pasien. Hal ini mendorong prosedur untuk
membangun model pada set pelatihan yang melibatkan variabel Z yang lebih dapat diprediksi , sehingga akan lebih banyak
efektif bila diterapkan pada set pengujian. Pemfilteran kedua menyisakan 437 fitur di set pelatihan untuk
Machine Translated by Google

laso lentur. Pengklasifikasi 16 kelas untuk memprediksi ID pasien di set pelatihan memiliki tingkat kesalahan
validasi silang sekitar 40%.

Uji yang dihasilkan menetapkan AUC untuk laso dan laso lentur ditunjukkan pada Gambar 4. Meskipun
peningkatan yang ditunjukkan oleh laso lentur terhadap laso mungkin tampak kecil, namun sebenarnya cukup
signifikan: dari tingkat terbaik sebesar 94% untuk laso menjadi sekitar 97% untuk laso lentur.

4.3 Contoh peramalan- memprediksi return saham

Berikut adalah contoh lain dari skenario “diketahui-tidak diketahui” pada Tabel 1. Datanya adalah return 21 hari untuk sebuah
saham. Kami membuat prediksi harian dengan memasang laso menggunakan 33 sinyal yang tersedia sebagai fitur.
Rangkaian pelatihan dan tes masing-masing mencakup periode 1997-2001 dan 2002-2005. Model dasar menggunakan
model laso umum yang cocok untuk semua data pelatihan. Untuk laso lentur, kami membagi periode pelatihan menjadi
10 periode waktu yang sama, dan menetapkan Z sama dengan sepuluh variabel kategori yang dihasilkan. Kami kemudian
membuat pengklasifikasi hutan acak untuk memprediksi periode pelatihan yang paling mirip untuk setiap tanggal
pengujian. Gambar 5 menggambarkan klasifikasi setiap tanggal tes.

Korelasi setiap return prediksi dengan return aktual pada set pengujian ditunjukkan pada Gambar 9.

Laso yang lentur mencapai peningkatan hampir 2% dibandingkan laso, yang secara praktis bisa dibilang cukup signifikan.

5 Contoh: Data polusi


Contoh ini berasal dari database UCI. Ini terdiri dari pengukuran konsentrasi PM2.5 harian dari 5 kota di Tiongkok selama
5 tahun. Prediktornya mencakup kelembapan, kecepatan angin, titik embun, dan bulan (totalnya ada 29). Kami
berupaya memprediksi PM2,5 di masing-masing dari 5 kota tersebut, menggunakan model yang sesuai dengan empat kota
lainnya.
Naskah yang Diterima
Kami menerapkan laso lentur dengan indikator Z= 4 kota di setiap lipatan validasi silang 5 kali lipat; maka Z adalah
matriks dengan 4 kolom. Sekarang ketika kita memprediksi kota ke-5 (katakanlah Beijing) dari 4 kota lainnya, kita tidak dapat

membuat prediksi langsung karena tidak ada observasi untuk Beijing di set pelatihan. Untuk menyempurnakannya, kami
membuat pengklasifikasi 4 kota (multinomial laso) berdasarkan fitur-fiturnya, dan kemudian menggunakannya untuk
ˆ ke-5. Hal ini kemudian digunakan untuk memprediksi polusi di kota ke-5. Skemanya
memprediksi kota z pada lipatan
digambarkan pada Gambar 7.

Tabel 2 merangkum arah estimasi dampak yang dipilih. Misalnya, peningkatan kelembapan berkorelasi dengan peningkatan
PM2.5 yang lebih besar di Beijing, dibandingkan kota-kota lain. Panel kiri Gambar 9 menghitung kesalahan prediksi kuadrat
rata-rata (“tinggalkan satu kota”) di sepanjang jalur regularisasi laso lentur, relatif terhadap model kuadrat terkecil
sederhana yang cocok untuk setiap kelompok yang terdiri dari 4 kota. Kita melihat bahwa laso lentur menawarkan
peningkatan yang jelas pada kuadrat terkecil. Di panel kanan, kami menunjukkan hasil yang sesuai dari “Regresi Jangkar”
(Rothenhäusler dkk. 2018). Pendekatan ini mencoba untuk “mempelajari mekanisme prediksi yang dapat diandalkan dalam
periode waktu, keadaan, lokasi, atau kumpulan eksperimen tertentu yang diamati dalam data pelatihan”. Ia
melakukannya dengan memodelkan “variabel jangkar” di set set pelatihan: dalam hal ini, kota adalah variabel jangkarnya.
Panel kanan pada Gambar 9 menunjukkan hasil regresi jangkar sebagai fungsi dari pengurangan parameter penyetelan di

UMK untuk beberapa kota (terutama Shenyang), namun tampaknya tidak berfungsi ÿ. Ini mencapai beberapa hal

sebaik hasil regresi jangkar.


Machine Translated by Google

laso lentur secara keseluruhan. Tentu saja regresi jangkar dapat disesuaikan agar berkinerja lebih baik
dalam contoh ini.1

6 Estimasi efek pengobatan yang heterogen


Estimasi perlakuan heterogen adalah bidang penelitian yang “panas”, terutama menjanjikan bagi para peneliti
bidang pengobatan yang dipersonalisasi. Idenya adalah untuk menemukan kelompok pasien yang akan mendapat manfaat dari a
rezim pengobatan tertentu. Masalah ini sangat menantang dengan fitur berdimensi tinggi dan
data observasi, yaitu penugasan pengobatan non-acak. Ukuran efek kecil terlihat di
banyaknya kumpulan data nyata menjadikan permasalahan ini semakin menantang. Tinjauan pekerjaan terbaru di bidang ini adalah
diberikan oleh Powers dkk. (2018). Di sini kita secara singkat mengeksplorasi penerapan laso lentur untuk ini
pengaturan. Data kita berbentuk ( , , ) XWY
dengan Xi adalah vektor kovariat, Yi adalah respons bernilai nyata
Saya Saya Saya

Dan {0,1} Wi ÿ tugas pengobatan. Kami berasumsi bahwa pengobatan diberikan secara acak

probabilitas yang sama dan membuat asumsi ketidakbingungan yang biasa. Perluasan ke non-acak
studi melalui skor kecenderungan dimungkinkan, tetapi tidak akan dieksplorasi di sini.

Kami menggunakan model laso lentur (2) dengan Z = W; efek pengobatan pada x diperkirakan dengan
ˆ ˆ
W( yx ÿÿ
, W tiga1)model
( , yx ÿ
1) . Dengan 50 prediktor normal standar, kami menghasilkan 100 observasi
berbeda:

( Sebuah
): ÿ ÿ yxxwxx
ÿÿÿ
1 1 2
2
3
N
2 ; ~ (0,1)
( Byxw
): (ÿ ÿ) ÿ: 1ÿ(ÿ 0,5) xx 2 3 2 2 ; ~ (0,1) N (8)

C yx aku ÿÿÿ (
ÿ ÿ ÿ xwxx
1 1 0) 2 2 23 ; ~ (0,1) N

Rasio sinyal terhadap kebisingan sekitar 1,5. Perhatikan bahwa skenario A di “home court” untuk laso lentur,

Naskah yang Diterima


dengan interaksi hierarki linier tunggal. Skenario B memiliki interaksi non-hierarki, terpusat
sehubungan dengan efek utama. Dalam Skenario C interaksinya bersifat hierarkis, tetapi prediktor X1 bersifat hierarkis
dikotomi pada 0.

Kami membandingkan pendekatan laso yang lentur dengan hutan sebab akibat (Wager dan Athey 2018), sebuah pendekatan canggih yang
metode untuk masalah ini. Hal ini diterapkan dalam paket hutan acak umum dari Athey dkk.
(2019): kami menggunakan versi 0.9.3 dengan pengaturan default. Untuk skenario A dan B, laso lentur berfungsi

terbaik: keuntungan pada (B) tampaknya mengejutkan—mungkin ketidakseimbangan acak dalam pemberian pengobatan
menciptakan efek utama kecil untuk X. Dalam Skenario C, ketika hutan sebab akibat dapat membagi x1 dengan tepat, maka
menunjukkan varians yang lebih kecil dibandingkan laso lentur, namun dengan beberapa bias. Tentu saja hutan sebab akibat mampu
untuk memodelkan interaksi tingkat tinggi yang jauh lebih umum daripada laso yang lentur.

7 Derajat kebebasan fit


Diberikan vektor nilai respons y dan vektor kecocokan y ˆ , Efron (1986) mendefinisikan derajat kecocokan dengan

Catatan

1
Kami berterima kasih kepada Dominik Rothenhaeusler karena telah mengirimi kami skrip R untuk regresi Anchor, dan
menunjukkan contoh ini dalam presentasi.
Machine Translated by Google

ˆ
ÿ Cov( , ) yy Saya Saya

Saya

ÿ
df ( )ˆkamu 2 (9)
ÿ

Kekuatan definisi ini berasal dari kenyataan bahwa ia dapat diterapkan pada non-linier, adaptif
estimator.

jika ÿ y
Sekarang Efron dkk. (2004) menunjukkan bahwametode , maka untuk prosedur regresi sudut terkecil (a
NI ~ ( , ) untuk membangun jalur laso) setelah k langkah derajat kebebasannya sama dengan k. Hasil ini adalah
diperkuat dan digeneralisasikan dalam Zou et al. (2007) dan Tibshirani dan Taylor (2012) menunjukkan hal tersebut
laso jumlah elemen bukan nol dalam larutan adalah perkiraan derajat yang tidak bias
kebebasan.

Karena laso lentur merupakan generalisasi dari laso, kita mengajukan pertanyaan: berapa derajat
kebebasan dihabiskan untuk memasang model laso yang lentur dengan syarat k ? Pada prinsipnya, jumlah ini mungkin
dapat dilakukan secara analitis tetapi kami belum berhasil menurunkannya. Oleh karena itu kita beralih ke simulasi
menjelaskan pertanyaan ini. Dalam pengaturan kami, kami mengambil
N p ÿ ÿ 100, 5,10,20,50 , dan menghasilkan standar
prediktor normal dan hasil dari model nol dan model bukan nol dengan varian kesalahan satu.
Hasilnya ada pada Gambar 10. Kami menggunakan estimasi kovarians pada (9) melalui bootstrap, untuk memberikan gambaran
perkiraan derajat kebebasan (sumbu horizontal).

Kita melihat bahwa bilangan tersebut bukan nol ˆ s memberikan perkiraan kasar tentang derajat kebebasan
ÿJ
pas (panel kiri). Di sisi lain, jumlah parameter bukan nol termasuk parameter ÿ s
adalah perkiraan derajat kebebasan yang terlalu berlebihan (panel kanan). Hal ini secara intuitif masuk akal; itu
batasan hierarki membatasi jumlah suku pengubah, jika dimasukkan, koefisiennya
efek utama dan pengubah menyusut. Akan berguna untuk menyelidiki “dugaan” kasar ini

Naskah yang Diterima


dalam pekerjaan di masa depan. Beberapa penelitian terbaru tentang derajat kebebasan dalam laso terstruktur kelompok mungkin bisa membantu
dalam hal ini: lihat Kato (2009) dan Chen dkk. (2019).

8 Setting Z yang tidak diketahui

Pada bagian ini kita mempertimbangkan model laso yang lentur

P
ÿ ÿ ÿÿ ÿ y1 (
0
ZXXZ
ÿ )
0 ÿ ÿÿ J
ÿ
ÿj (10)
J 1
ÿ

tapi sekarang asumsikan bahwa Z tidak diamati. Untuk mempermudah kita asumsikan bahwa Z adalah vektor kolom yang dapat
dengan ÿ ke
ÿ , (ekstensi
didekati dengan fungsi linier X yaitu ZX ÿ vektor p yang tidak diketahui

Z bernilai matriks juga dimungkinkan). Kami memperkirakan ÿ dengan sebuah


2 penalti. Fungsi tujuan untuk
masalah yang diperbesar adalah

P
1 ˆ ÿ2
J ( ÿ, ÿ0 0 ,ÿ , ÿ 2 hal
,ÿ
)ÿ ÿ ( kamu
Saya
ÿÿÿ
Saya
)
2
(1 ÿ ) ÿ ( ÿ (|| ( ÿ jj , ÿ ) || ÿ2 || ÿ J ||2 ) ÿ ÿÿ ÿ | ÿ
jk | ÿ1
2
2
||ÿ ||2 .
J 1
ÿ
jk,

(11)

Soal ini tidak cembung, tetapi bi-cembung—cembung ke dalam ÿ dengan parameter lain tetap, dan sebaliknya
sebaliknya.
Machine Translated by Google

Kedua submasalah tersebut dapat diselesaikan dengan mudah. Dengan ˆ diperbaiki, kami memecahkan masalah laso lentur asli
ÿ
ˆ P
ˆ . Dengan parameter lain diperbaiki, kami menulis WXXXÿ * ) ( Dan
ÿ ÿÿ0 ÿ jj
(4) dengan ZX ÿÿ J 1 ÿ

ˆ ˆ
coba Xÿ 0
ÿÿÿ
ÿ dan memecahkan

1 ÿ 2
2
minimalkan ÿ )2ÿ ||ÿ ||2 (12)
ÿÿ (rW
2N 2
Saya

Ini hanyalah regresi ridge tanpa intersep. Pada prinsipnya kita dapat mengganti kedua langkah ini
sampai prosedurnya mudah-mudahan menyatu.

Untuk menyelidiki prosedur ini, kami mensimulasikan data dengan n ÿhal


200,
ÿ 12 dalam dua rezim

yx ÿ ÿ
T
ÿ z ÿ z 0:
; dengan ÿ
ÿ 0
ÿ
(2,2,2,2,0, 0); ÿ z 1: ÿ
ÿÿÿÿÿÿ

1 (2, 2, 2, 2,0, 0); ÿ

T
Data dihasilkan sebagai ( 0 | ) 1/untuk X
(1 exp( Kesalahan Pr z Bayes ÿ ÿ
xb ÿ ÿ
z )) dengan b ÿ (0,0, 0,10,10, 10,10). Itu
ÿ
ÿ

mengklasifikasikan z dari x adalah 35%. Kami menetapkan ÿ ÿ 0,25 memberikan SNR untuk y sekitar 1,4.

Gambar 11 menunjukkan hasil penerapan hanya dua siklus dari prosedur di atas, dimulai dengan yang sama ÿ
ke estimasi kuadrat terkecil y pada X. Panel kiri menunjukkan korelasi antara estimasi
ˆ
beban ÿ dan bobot pembangkit bz. Panel kanan menunjukkan kesalahan pengujian untuk laso lentur
(hijau) dibandingkan dengan laso biasa (hitam). Kami melihat bahwa dalam contoh ideal ini, terdapat potensi
untuk mempelajari variabel pengubah dari data itu sendiri.

9 Topik lebih lanjut

Naskah yang Diterima


(a) Laso lentur berbahan dasar pohon. Versi yang lebih umum dari model laso lentur mempunyai bentuk

ÿ ÿÿÿ0 ÿ1 0(
ZX
) kamu j ÿ ÿ
(ÿ 1 ÿ ÿ jj (Z
)) ÿ
J 1
ÿ

(13)
P

ÿ ÿÿÿ0 ÿ1 ÿ ÿÿ 0 ( ZXXZ
) ÿ ( jjjjÿ ( )) ÿ
J 1
ÿ

2
Di mana ~ (0, )ÿ . Pada contoh di atas, ()ÿ adalah perkalian komponen. Dalam bentuk pertama, itu

Z terlihat
N-vektor ( ) ÿ j; bentuk
J kedua memodifikasi koefisien
mengungkapkan hal ini ÿ

setara dengan interaksi. Ada berbagai kemungkinan bentuk ( ) ÿ . Satu Z


J
pilihan yang menarik adalah menggunakan pohon regresi untuk memperkirakan ( )J ÿFaktor Z dalam model
13. Hal ini memungkinkan interaksi tingkat yang lebih umum dan lebih tinggi antara X dan Z. Sebuah koordinat
algoritma keturunan dapat diturunkan untuk optimasi yang dihasilkan, menggunakan regresi tertimbang
kesesuaian pohon. Kami telah bereksperimen dengan ide ini dan cukup berhasil, namun tidak cembung
fungsi objektif membuatnya sulit untuk dikerjakan.

(b) Perluasan ke model lain. Ide-ide yang disajikan di sini untuk model regresi Gaussian
dapat diperluas ke pengaturan lain seperti model linier umum dan proporsional Cox
model bahaya. Salah satu kegunaannya adalah pendekatan gaya Newton standar yang digunakan oleh glmnet
program, memecahkan masalah berbobot di loop dalam.
Machine Translated by Google

Dalam model Cox, Z dapat berupa sekumpulan variabel pemodifikasi, seperti pada model Gaussian
kertas. Tapi kita juga bisa menggunakan Z bernilai kategoris untuk menunjukkan strata dalam Cox yang terstratifikasi
model. Secara lebih rinci, model Cox bertingkat mengasumsikan bahwa fungsi bahaya berada pada kth
lapisan memiliki bentuk

T
ÿ
X ÿ
terima
k ( | ) kasih 0k () (14)

( ) fungsi bahaya dasar untuk strata ke-k. Kemungkinan log-partialnya adalah


Di mana ht0 kadalah

biasanya digunakan untuk estimasi, dan merupakan penjumlahan dari strata. Kita dapat menggeneralisasi model ini menjadi

htxht
ÿ

k ( | () )exp[ 0k ÿ xj (ÿ ÿj ÿ
jk
ÿ
( IZ k ))]. (15)
J 1
ÿ

Hal ini akan memungkinkan efek beberapa fitur bervariasi berdasarkan strata. Dengan cara serupa, seseorang juga bisa
pilih Z untuk mengindeks kumpulan risiko dalam analisis kelangsungan hidup atau kumpulan yang cocok dalam kondisi
regresi logistik. Ide ini baru-baru ini dipelajari dalam Du dan Tibshirani (2018).

(c) Aturan penyaringan. Sejumlah penulis telah mengusulkan aturan penyaringan variabel untuk ngebut
up algoritma penurunan koordinat untuk laso dan prosedur terkait. Ini termasuk El
Ghaoui dkk. (2010), Tibshirani dkk. (2012), Wang dkk. (2013) dan Ndiaye dkk. (2016).
Karena fungsi tujuan laso lentur berkaitan erat dengan laso dan renggang
group laso, kami optimis bahwa aturan penyaringan yang efektif dapat dibuat untuknya
optimasi.

Paket R (R Core Team (2019)) untuk laso lentur “lentur” tersedia di perpustakaan CRAN.

Ucapan Terima Kasih


Naskah yang Diterima
Kami ingin mengucapkan terima kasih kepada Jacob Bien dan dua pengulas atas komentarnya yang bermanfaat. Robert Tibshirani adalah

didukung oleh hibah NIH 5R01 EB001988-16 dan hibah NSF 19 DMS1208164.

Lampiran: rincian optimasi

Model laso yang lentur memiliki bentuk

P
ˆ
ÿ 0ÿ jjjj
ÿ 1 ÿ (ZXW
ÿ ÿ ÿ kamu 0
ÿ ÿ )
J 1
ÿ

ÿ
dimana WXZ j
J ÿ (perkalian unsur pada setiap kolom). Pertama-tama kita melakukan regresi y pada (1,Z ) menjadi

memperkirakan ÿ 0 Dan ÿ 0. Menggunakan sisa dari regresi ini memungkinkan kita untuk menghilangkannya ÿ 0 dan Z ÿ 0 dari
model.

Fungsi tujuannya adalah

1 P
ˆ
J ÿÿ( , ) ÿ

2N
ÿ ( ÿ ÿ ÿ kamu)
Saya Saya
2
(1 ÿ )ÿ ( ÿ (|| (ÿ jj
ÿ , )) || ÿ2
|| ÿ J ||2 )ÿ ÿÿ ÿ ÿ|
jk
|1 .
J 1
ÿ
jk,

Persamaan subgradiennya adalah N


Machine Translated by Google

DJ 1 T
ÿÿ
Xrÿÿj (1 ÿ )ÿ kamu
ÿ
0
d ÿN
J
(16)
DJ 1 T
ÿÿ
WrÿÿdN
J (1 ) ÿ( ÿ 2
ÿ ÿ uu 3 ) ÿÿ ay ÿ
0
ÿ
J

ˆ, Dan
dimana ryy ÿ ÿ
ÿJ
kamu
ÿ
jika ÿ jj , ÿ ÿ) dan
0 ÿ { kamu
:|| ||2 1} jika ( ÿÿ jj , ÿ ÿ) 0
|| ÿ jj , ÿ ( ||

ÿ
J
ÿ jj , ÿ dan ÿ { kamu
ÿ
kamu
2 jika )0ÿ :||2 2 2 || 1} jika ( ,ÿ) jj0 ÿ ÿ ÿ
|| (ÿ jj , () ÿ||

ÿ
J
kamu ÿ
3
jika
0 ÿj ÿ dan ÿ { kamu
:||3 3 2 || 1}ÿ jika 0 ÿj ÿ
|| ÿ ||
J

vÿ
tanda(ÿ)j

Kondisi penyaringan: Tentukan sisa parsial, tinggalkan grup ke-j, sebagai

ˆ
coba
( J ) XW ÿ ÿ ÿ ([
ÿ
ÿÿ
ÿ ]
ÿ J

ˆ
Kemudian

T
| X r T / |( (1J j) ÿ
( ÿ, )J 0 ÿJÿ jika

Naskah yang Diterima


ÿÿ ÿ ÿ
T ) dan || ( / SW r N j ( ÿ

J)
ÿÿ
, ÿÿ ) || 22(1 ÿ ) ÿ. (17)

Kalau tidak, kami memeriksa apakah ˆ 0 dengan komputasi pertama


J
ÿJ ÿ 0, ÿ ÿ
ˆ 2 T
) )ÿ ÿ
ÿ
(18)
ÿ

ÿ ( /( ||) || )· ( n XSX r N / ,(1


J J J ÿ

dan kemudian memeriksa apakah

T
ˆ
|| SW
( r XN(
jj ÿ )/ , ÿÿ ) || 2(1ÿ ÿ ÿ ) ÿ.
ÿ

J ( ÿ

J)
(19)

ˆ
Iterasi: (jika (ÿ J , ÿ Jÿ) ):
0

Membiarkan
ÿ J ÿÿ
(ÿ,.jj)Fungsi tujuan mayoritas adalah

T
1 2
M (ÿ) ( ÿÿ ÿ2ÿ ÿ ÿ ||ÿ || ÿ ÿ(1 ÿ ) ÿ||ÿ ÿÿ ÿ
ÿ 0) ÿ
ÿ

0 || | ÿÿ |1
T
jk
jk,

T T
dengan ÿÿ( R ,ÿ) (0
ÿÿ
/ X r NW r N untuk
, kehilangan
/ kesalahan kuadrat.
ÿ

( J)
ÿ ÿ ÿ

( jj ) ( jj )
Machine Translated by Google

Ini setara dengan meminimalkan

1 2
M (ÿ ) ÿ
||ÿ ÿ ÿ(ÿÿ 0ÿ ÿ T ) || (1 ÿ ) ÿ(|| ÿ || ÿ ÿÿ ÿ .
J ÿ Jÿ ÿ
|| ||) |
jk |1
2T jk,

Kemudian ˆ ˆ memuaskan
J
ÿ ÿ,

ÿ )ÿ ˆ
(1 )
ÿ

ton(1
ÿ ˆ ÿ J
ÿ ÿÿ ÿ0 T
ÿJ
|| ÿ ||
(20)
1 1
( 1 ÿ ÿ T (1 ÿ )ÿ ˆ ÿ )ÿ J ÿ ÿSÿ(tÿ 0 ÿ
J
, Tÿÿ ).
ÿ|| J || || ÿ J ||

2 2
Membiarkan A ÿ
|| ÿ J ||, b ÿ
ÿ jadi itu || ÿ||Jÿÿ ab || || . Ambil norma kedua ruas pada setiap persamaan di atas
J
memberi

T (1 )ÿÿ
ÿ

( 1ÿ )A | ÿ ÿÿ ÿ 0
T
ÿJ
|
ab2 ÿ
2

(21)
1
( 1 ÿ ÿ T (1 ÿ 1 ÿ) ( ÿb )S t ÿ||ÿ( bÿÿ

0 ÿ
J
, Tÿÿ ) || .
ab2 ÿ
2
))

Mendefinisikan ct
ÿÿ
(1 ÿ ) ÿ, G 1 | ÿ ÿÿ ÿ0t ÿJ
|, || (2g S t ÿ ÿ ÿ
ÿ

0 ÿ
J
, Tÿÿ ) || , misalkan r1, r2 adalah akar-akarnya
2 2 2
persamaan kuadrat hal 2 2 ÿ ÿ krgggg 1
ÿÿ

. Kemudian
12 1 2

A
ˆ
ÿ

cu ÿ
gu 1
ÿ

ÿÿ
; B Naskah yang Diterima
ˆ
ÿ
( gvcg
1

cv ÿ
ÿ
ÿ

ÿ
2)
(22)

ÿ ÿÿ ÿ ÿÿ
dimana uuvv, , , masing-masing sama dengan salah satu akar r1, r2 memenuhi (21).

ˆ
Akhirnya, solusinya ÿ , jjÿ memuaskan

ˆ
T (1 ÿ )ÿ
ÿ

(1 ÿ
ˆ ˆ ÿ ) J
ÿ ÿÿ ÿ
0
T
ÿJ
ab2 ÿ
2

ˆ (23)
1
( 1 ÿ ÿ T (1 ÿ 1ÿ) ˆ
(b
ÿ
ˆ ˆ ) ÿ
J
ÿ
S (ÿ
0
ÿ ÿT
ÿ
J
, Tÿÿ )
ab2 ÿ
2
))

Misalkan c1, c2 adalah konstanta perkalian


ˆ Dan ˆ di atas, kami memiliki persamaan pembaruan
ÿJ ÿJ

ˆ ÿ ÿ ÿT
0 ÿJ
ÿ
ÿJ
C
1
(24)
ˆ (| S
( ÿ 0 ÿ ÿT ÿ
, Tÿÿ ) ||
J
ÿ ÿ
.
J C
2
Machine Translated by Google

ˆ ˆ ˆ tua
j
Kami menggunakan ini untuk mendefinisikan pembaruan (ÿ ÿjj , ) ( ÿU ÿ lama ,ÿ , T)

Semua ini mengarah pada prosedur yang diberikan dalam Algoritma 1 di bawah.

Algoritma 1 (Rincian) Algoritma untuk Lasso Lentur


ˆ
Regresi y pada (1, ) Z dengan kuadrat terkecil, sehingga menghasilkan vektor fit ˆy dan atur yyy ÿ ÿ .

Untuk jalur menurun untuk ÿ nilai:

Untuk prediktor k ÿ
1,2, ÿÿ
P ,1,2, ulangi hingga konvergensi:
ˆ ˆ
1. Periksa kondisi (23) untuk (ÿ ÿjj , )0
ÿ
. jika nol, lewati ke k berikutnya
ˆ
2. Jika tidak, hitunglah ˆ 0 (25). Jika nol, lewati ke
dari (24) dan kemudian periksa apakah ÿ J ÿ dari
J
ÿ
Berikutnya k
ˆ ˆ
jj ,
3. Sebaliknya, jika keduanya ÿ ÿ bukan nol:

4. Ulangi sampai konvergensi

(a) Selesaikan persamaan (29) untuk norma a, b menggunakan (30)


ˆ ˆ ˆ ˆ
tua tua j
(b) Pembaruan ÿ(
( ÿ, )jj ÿU ÿ ,ÿ , t)dari (34). (Akselerasi dan kemunduran Nesterov
dapat ditambahkan untuk kecepatan dan untuk memastikan konvergensi).

Referensi

Naskah yang Diterima


Athey, S., Tibshirani, J. dan Wager, S. (2019), 'Hutan acak yang digeneralisasikan', Ann. ahli statistik.

47(2), 1148–1178. URL: https:// doi.org/ 10.1214/18-AOS1709

Bach, F., Jenatton, R., Mairal, J. dan Obozinski, G. (2012), 'Ketersebaran terstruktur melalui cembung

optimasi', Statistik. Sains. 27(4), 450–468. URL: https:// doi.org/ 10.1214/12-STS394

Bien, J., Taylor, J. dan Tibshirani, R. (2013), 'Laso untuk interaksi hierarkis', Annals of

Statistik 42(3), 1111–1141.

Chen, X., Lin, Q. dan Sen, B. (2019), 'Tentang derajat kebebasan penduga proyeksi dengan aplikasi

pada regresi nonparametrik multivariat', Jurnal Statistik Amerika

Asosiasi 0(0), 1–30.

Cleveland, W., Grosse, E., Shyu, W. dan Terpenning, I. (1991), Model regresi lokal, dalam
J. Chambers dan T. Hastie, eds, 'Model statistik di S', Wadsworth.

Du, W. dan Tibshirani, R. (2018), 'Laso lentur untuk model Cox', cetakan elektronik ArXiv.
Machine Translated by Google

Eberlin, LS, Tibshirani, RJ, Zhang, J., Longacre, TA, Berry, GJ, Bingham, DB, Norton, JA, Zare, RN dan
Poultsides, GA (2014), 'Penilaian molekuler margin reseksi bedah

kanker lambung dengan pencitraan spektrometri massa', Prosiding National Academy of Sciences

111(7), 2436–2441.

Efron, B. (1986), 'Seberapa biaskah tingkat kesalahan aturan prediksi?', Journal of the

Asosiasi Statistik Amerika 81, 461–70.

Efron, B., Hastie, T., Johnstone, I. dan Tibshirani, R. (2004), 'Regresi sudut terkecil', Annals of

Statistik 32(2), 407–499. Dengan diskusi, dan tanggapan dari penulis.

El Ghaoui, L., Viallon, V. dan Rabbani, T. (2010), 'Penghapusan fitur aman dalam pengawasan yang jarang

pembelajaran', jurnal optimasi Pasifik 6(4), 667–698.

Friedman, J., Hastie, T. dan Tibshirani, R. (2010), 'Jalur regularisasi untuk linear umum

model melalui penurunan koordinat', Jurnal Perangkat Lunak Statistik 33, 1–22.

Haris, A., Witten, D. dan Simon, N. (2016), 'Pemodelan interaksi cembung dengan hereditas kuat',

Jurnal Statistik Komputasi dan Grafis 25(4), 981–1004. URL:


https:// doi.org/ 10.1080/10618600.2015.1067217

Naskah yang Diterima


Hastie, T. dan Tibshirani, R. (1993), 'Model koefisien yang bervariasi (dengan diskusi)', J. Royal. ahli statistik.

sosial. B.55 , 757–796.

Kato, K. (2009), 'Tentang derajat kebebasan dalam estimasi penyusutan', Jurnal Multivariat

Analisis 100(7), 1338 – 1352. URL:


http:// www.sciencedirect.com/ science/ article/ pii/ S0047259X08002753

Lim, M. dan Hastie, T. (2014), 'Mempelajari interaksi melalui regularisasi grup-laso hierarki',

Jurnal Statistik Komputasi dan Grafis hal.1–41.

Ndiaye, E., Fercoq, O., Gramfort, A. dan Salmon, J. (2016), Aturan penyaringan celah yang aman untuk
laso kelompok jarang, di DD Lee, M. Sugiyama, UV Luxburg, I. Guyon dan R. Garnett, eds, 'Kemajuan dalam

Sistem Pemrosesan Informasi Neural 29', Curran Associates, Inc., hlm.388–396. URL:
http:// papers.nips.cc/ paper/ 6405-gap-safe-screening-rules-for-sparse-group-lasso.pdf

Pashova, H., LeBlanc, M. dan Kooperberg, C. (2016), 'Deteksi terstruktur interaksi dengan

mengarahkan laso', Statistik dalam Biosains. URL: https:// doi.org/ 10.1007/ s12561-016-9184-6
Machine Translated by Google

Powers, S., Hastie, T. dan Tibshirani, R. (2015), 'Pelatihan yang disesuaikan dengan penerapan pada pelatihan massal

pencitraan spektrometri jaringan kanker', Ann. Aplikasi. Statistik. 9(4), 1709–1725.

Powers, S., Qian, J., Jung, K., Schuler, A., Shah, NH, Hastie, T. dan Tibshirani, R. (2018), 'Beberapa

metode untuk estimasi efek pengobatan heterogen dalam dimensi tinggi, Stat Med. 37(11), 1767–
1787.

Tim Inti R (2019), R: Bahasa dan Lingkungan untuk Komputasi Statistik, R Foundation for Statistical Computing,
Wina, Austria. URL: https:// www.R-project.org/

Rhee, S.-Y., Gonzales, MJ, Kantor, R., Betts, BJ, Ravela, J. dan Shafer, RW (2003), 'Manusia

immunodeficiency virus reverse transkriptase dan database urutan protease', Asam Nukleat

Penelitian 31, 298–303.

Rothenhäusler, D., Meinshausen, N., Bühlmann, P. dan Peters, J. (2018), 'Regresi jangkar:

data heterogen memenuhi kausalitas', cetakan elektronik ArXiv.

Dia, Y., Wang, Z. dan Jiang, H. (2016), 'Estimasi yang diatur kelompok di bawah hierarki struktural',

Jurnal Asosiasi Statistik Amerika 0(ja), 0–0. URL:


https:// doi.org/ 10.1080/01621459.2016.1260470

Naskah yang Diterima


Simon, N., Friedman, J., Hastie, T. dan Tibshirani, R. (2013), 'A sparse-group Lasso', Journal of

Statistik Komputasi dan Grafis 22(2), 231–245.

'
Tibshirani, R., Bien, J., Friedman, J. Hastie, T., Simon, N. Taylor, J. dan Tibshirani, R. (2012),

Aturan yang kuat untuk membuang prediktor dalam masalah tipe laso', J. Royal Statistical Society B. hal.245–
266.

Tibshirani, RJ dan Taylor, J. (2012), 'Derajat kebebasan dalam masalah laso', Annals of Statistics

40(2), 1198–1232.

Taruhan, S. dan Athey, S. (2018), 'Estimasi dan inferensi efek perlakuan heterogen menggunakan hutan

acak', Jurnal American Statistical Association 113(523), 1228–1242. URL:


https:// doi.org/ 10.1080/01621459.2017.1319839

Wang, J., Lin, B., Gong, P., Wonka, P. dan Ye, J. (2013), Aturan penyaringan Lasso melalui proyeksi
polytope ganda, dalam 'Kemajuan dalam Sistem Pemrosesan Informasi Neural (Prosiding Konferensi NIPS)' ,

hal.1070–1078.

Yan, X. dan Bien, J. (2017), 'Pemodelan renggang hierarki: Pilihan formulasi dua kelompok laso

', Ahli Statistik. Sains. 32(4), 531–560. URL: https:// doi.org/ 10.1214/17-STS622
Machine Translated by Google

Yuan, M. dan Lin, Y. (2007), 'Pemilihan model dan estimasi dalam regresi dengan variabel yang dikelompokkan',

Jurnal Royal Statistical Society, Seri B 68(1), 49–67.

Zhao, P., Rocha, G. dan Yu, B. (2009), 'Kelompok hukuman absolut gabungan untuk kelompok dan

pemilihan variabel hierarki', Ann. Statistik hal. 3468–3497.

Zou, H. dan Hastie, T. (2005), 'Regularisasi dan pemilihan variabel melalui jaring elastis', Journal of

Seri Royal Statistics Society B. 67(2), 301–320.

Zou, H., Hastie, T. dan Tibshirani, R. (2007), 'Tentang derajat kebebasan laso', The Annals of

Statistik 35(5), 2173–2192.

Naskah yang Diterima


Machine Translated by Google

Gambar 1 Jalur solusi untuk Contoh 1. Simbol “X” menunjukkan bahwa model telah memasukkan suku
pengubah Zÿj . Garis putus-putus dan putus-putus vertikal masing-masing menunjukkan pilihan model yang
sesuai dengan validasi silang minimum dan kesalahan pengujian.

Naskah yang Diterima

Gambar 2 Hasil percobaan simulasi menggunakan model (7) dan variannya. Metodenya adalah laso, GBM,
glinternet dan laso lentur. Laso, GBM dan glinternet diberikan X dan Z sebagai prediktor. GBM menggunakan
pohon tunggal yang dibelah (tunggul), yang tampaknya sesuai karena interaksi sebenarnya adalah interaksi orde
pertama. Di glinternet kami hanya mengizinkan interaksi antara Z dan prediktor X lainnya.
Machine Translated by Google

Jika tidak, semua metode dijalankan dengan pengaturan default dan masing-masing menggunakan validasi silang untuk
memilih parameter penyetelannya, Panel kiri atas menggunakan model (7), dengan , sementara panel kanan atas
N p ÿ ÿ 100, 10
memiliki N p ÿ ÿ 50 . Di panel kiri bawah, kami menggunakan ( IX ÿ sebagai
100, J pengganti
untuk memberikan
setiap Xj , potensi
0) keuntungan
bagi GBM. Di kanan bawah kami menambahkan istilah efek utama yang kuat di Z, untuk membantu strategi hierarki
glinternet yang kuat.

Gambar 3 Data mutasi HIV: kurva kesalahan pengujian untuk laso dan laso lentur. Angka-angka di bagian atas plot
mewakili jumlah efek utama yang mempunyai istilah interaksi. Garis putus-putus vertikal menunjukkan pilihan model
dari validasi silang. Kami melihat sedikit keuntungan untuk laso lentur dibandingkan laso standar.

Naskah yang Diterima

Gambar 4 Data kanker kulit: area uji di bawah kurva untuk laso dan laso lentur, untuk berbagai ukuran model. Laso
yang lentur menawarkan beberapa peningkatan dibandingkan laso standar.
Machine Translated by Google

Gambar 5 Data return saham: setiap waktu di sebelah kanan diklasifikasikan paling mirip dengan periode waktu pelatihan
yang ditunjukkan di sebelah kiri. Kita melihat, misalnya, bahwa pengamatan set pengujian setelah tahun 2001 diklasifikasikan
sebagai yang paling mirip dengan tahun 2001, sementara pengamatan lainnya diklasifikasikan sebagai yang paling mirip dengan
periode set pelatihan sebelumnya.

Naskah yang Diterima

Gambar 6 Data return saham: korelasi antara return periode pengujian yang diprediksi dan aktual, untuk laso dan laso lentur.
Machine Translated by Google

Gambar 7 Skema laso lentur yang diterapkan pada data polusi. Dalam skema, empat kota pertama bertindak
sebagai set pelatihan, dan kota ke-5 (Beijing) sebagai set validasi. Hal ini diulang sebanyak 5 kali, dengan masing-
masing kota bertindak sebagai set validasi.

Naskah yang Diterima


Gambar 8 Hasil laso lentur (kiri) dan regresi jangkar (kanan) diterapkan pada data pencemaran.
Sumbu vertikal menunjukkan kesalahan relatif terhadap model kuadrat terkecil biasa (MSE Relatif< 1,0 berarti model
dengan MSE lebih rendah daripada kuadrat terkecil.)
Machine Translated by Google

Gambar 9 Hasil untuk hutan sebab akibat dan laso lentur yang diterapkan pada tiga permasalahan di (8). Panel

Naskah yang Diterima


atas, tengah, dan bawah sesuai dengan skenario A, B, dan C. Garis 45 derajat digambar dengan warna biru pada
setiap panel. Laso yang lentur berfungsi lebih baik dalam memulihkan efek pengobatan yang sebenarnya.
Machine Translated by Google

Naskah yang Diterima


Gambar 10 Perkiraan derajat kebebasan untuk laso lentur, dalam pengaturan nol (panel atas)
dan pengaturan bukan nol (panel bawah). Derajat kebebasan (sumbu horizontal) diperkirakan
dari rumus kovarians, sedangkan bilangan bukan ÿnol
dan parameter ÿ ditunjukkan di sebelah kiri dan
ˆ
ÿ J nol memberikan perkiraan kasar derajat
panel kanan. Kita melihat bahwa jumlah parameter bukan
kebebasan kecocokan (panel kiri) sedangkan jumlah total parameter bukan nol (panel kanan)
memperkirakan derajat kebebasan secara berlebihan.
Machine Translated by Google

Gambar 11 Hasil laso lentur, dengan variabel modifikasi Z tidak teramati. Panel kiri menunjukkan korelasi
antara estimasi bobot dan bobot yang dihasilkan ˆbz. Panel kanan menunjukkan kesalahan pengujian laso
ÿ
lentur (hijau) dibandingkan laso biasa (hitam).

Tabel 1 Berbagai kemungkinan untuk memodifikasi variabel Z.

Skenario Contoh Set Tes Set Pelatihan

Dikenal-Dikenal Z diketahui Z diketahui jenis kelamin, usia, Z = X

Diketahui-Tidak Diketahui Z diketahui Z waktu belajar, ID pasien

Tidak Diketahui-Tidak Diketahui Z terpelajar Z belajar cluster dari X

Naskah yang Diterima


Tabel 2 Data polusi: arah perkiraan dampak model laso lentur yang dipasang. Tanda panah ganda menunjukkan
efek yang lebih kuat.

Beijing Chengdu Guangzhou Shanghai Shenyang

kelembaban ÿ ÿ

Angin barat laut ÿ ^ ^ ÿ

Anda mungkin juga menyukai