Anda di halaman 1dari 25

Halaman 1

Pembuatan Pohon Keputusan yang Efisien pada Data Streaming

Ruoming Jin
Departemen Komputer dan Informasi
Ilmu Pengetahuan
Ohio State University, Columbus OH 43210
jinr@cis.ohio-state.edu
Gagan Agrawal
Departemen Komputer dan Informasi
Ilmu Pengetahuan
Ohio State University, Columbus OH 43210
agrawal@cis.ohio-state.edu
ABSTRAK
Konstruksi pohon keputusan merupakan masalah yang dipelajari dengan baik
dalam data min-
ing. Baru-baru ini, ada banyak minat dalam penggalangan pertambangan
data. Domingos dan Hulten telah mempresentasikan algoritma satu-pass
untuk pembuatan pohon keputusan Pekerjaan mereka menggunakan
ketidaksetaraan Hoeffding-
Untuk mencapai probabilistik terikat pada keakuratan pohon con-
terstruktur.
Dalam tulisan ini, kami meninjau kembali masalah ini. Kami membuat dua berikut
kontribusi: 1) Kami menyajikan pemangkasan interval numerik (NIP) ap-
proach untuk efisien pengolahan atribut numerik. Hasil kami
menunjukkan rata-rata pengurangan 39% dalam waktu eksekusi. 2) Kami ex-
ploit sifat entropi fungsi gain (dan gini) untuk mengurangi
ukuran sampel yang dibutuhkan untuk mendapatkan ikatan yang diberikan pada
accu-
bersemangat. Hasil percobaan kami menunjukkan pengurangan 37% dalam jumlah
dari contoh data yang dibutuhkan
Kategori dan Deskriptor Subjek
H.2.8 [Manajemen Database]: Aplikasi Database - data min
ing; I.2.6 [Artificial Intelligence]: Belajar
Kata kunci
Streaming Data, Decision Tree, Sampling
1. PERKENALAN
Konstruksi pohon keputusan merupakan masalah data mining yang penting.
Selama dekade terakhir, pembuatan pohon keputusan di atas disk-resident
kumpulan data telah mendapat banyak perhatian [7, 9, 15, 16]. Lebih
Baru-baru ini, komunitas database telah berfokus pada model baru
pengolahan data, dimana data tiba dalam bentuk continuous
sungai [2, 3, 5, 8]. Isu utama dalam penambangan data streaming
adalah bahwa hanya satu celah diperbolehkan selama keseluruhan data. Bahkan,
ada real-time kendala, yaitu waktu pemrosesan dibatasi oleh
tingkat kedatangan contoh dalam aliran data, dan memori
tersedia untuk menyimpan informasi ringkasan dapat dibatasi. Untuk

Karya ini didukung oleh hibah NSF ACR-9982087, NSF CA-


Penghargaan REER ACR-9733520, dan pemberian NSF ACR-0130437.
Izin membuat salinan digital atau keras dari semua atau sebagian dari karya ini
penggunaan pribadi atau kelas diberikan tanpa biaya asalkan salinannya ada
tidak dibuat atau didistribusikan untuk keuntungan atau keuntungan komersial dan
salinan itu
Berikan pemberitahuan ini dan kutipan lengkap di halaman pertama. Untuk
menyalin sebaliknya, ke
ulangi, untuk posting di server atau untuk mendistribusikan ke daftar, memerlukan
spesifik sebelumnya
izin dan / atau biaya.
SIGKDD '03, 24-27 Agustus 2003, Washington, DC, USA
Copyright 2003 ACM 1-58113-737-0 / 03/0008 ... $ 5,00.
Sebagian besar masalah data mining, algoritma one pass tidak bisa sangat
tepat. Algoritma yang ada biasanya mencapai baik deter-
ministik terikat pada keakuratan [10], atau batas probabilistik [6].
Algoritma data mining dikembangkan untuk streaming data juga berfungsi sebagai
dasar yang berguna untuk membuat perkiraan, namun terukur, implementa-
tions untuk dataset yang sangat besar dan disk-resident.
Domingos dan Hulten telah membahas masalah keputusan tersebut
konstruksi pohon pada data streaming [6, 13]. Algoritma mereka guar-
Antees sebuah probabilistik terikat pada keakuratan pohon keputusan
yang dibangun Dalam tulisan ini, kami meninjau kembali masalah keputusan
konstruksi pohon pada data streaming Kami membuat dua berikut
kontribusi:
Pengolahan Efisien Numerik Atribut: Salah-tantangan yang
Lenges dalam pengolahan atribut numerik adalah jumlah total
dari perpecahan kandidat poin sangat besar, yang dapat menyebabkan high compu-
overhead tasional dan memori untuk menentukan titik split terbaik.
Karya yang disajikan oleh Domingos dan Hulten dievaluasi untuk cat-
atribut egorika saja. Kami menyajikan pemangkasan Interval numerik
(NIP) yang secara signifikan mengurangi waktu pemrosesan
atribut numerik, tanpa kehilangan akurasi. Pengalaman kami-
Hasil tal menunjukkan rata-rata pengurangan 39% dalam waktu eksekusi.
Menggunakan Ukuran Sampel yang Lebih Kecil untuk Bound Probabilistik
yang Sama:
Domingos dan Hulten menggunakan ikatan Hoeffding untuk mencapai a
terikat probabilistik Hasil hoeffding berhubungan dengan ukuran sampel
tingkat akurasi yang diinginkan, dan probabilitas untuk memenuhi level ini
akurasi, dan berlaku independen dari distribusi in-
letakkan data Dalam tulisan ini, kami menunjukkan bagaimana kita bisa
menggunakan propertinya
dari entropi fungsi gain (dan gini) untuk mengurangi ukuran sampel
diperlukan untuk mendapatkan probabilitas yang sama. Sekali lagi, hasil ini
tidak tergantung pada distribusi input data. Percobaan kami
Hasil penelitian menunjukkan bahwa jumlah sampel yang dibutuhkan dikurangi
dengan
rata-rata 37%.
Secara keseluruhan, kedua kontribusi ini meningkatkan efisiensi pro-
cessing streaming data, di mana kendala real-time mungkin ada
waktu pemrosesan, dan memori terbatas mungkin tersedia.
Pekerjaan kami juga memiliki implikasi penting untuk analisis streaming
data di luar konstruksi pohon keputusan Kami akan menjajaki ini
selanjutnya dalam pekerjaan masa depan kita.
2. KONSTRUKSI POHON KEPUTUSAN
Bagian ini memberikan informasi latar belakang tentang keputusan tersebut
masalah konstruksi pohon
2.1 Decision Tree Classifier
Asumsikan ada kumpulan data
¡£ ¢ ¥ ¤§| © ¨§ | | "!
, dimana
| # $ ¢ &%
'() 1 032 '46 58 7. '(@ 9 © ACB ¢ D% (¨ (FE 0 adalah data yang terkait
571

Halaman 2
dengan contoh dan
)
adalah label kelas Setiap (¡disebut lapangan
atau atribut instance data. '49 © ACB ¢ 4 5 4E adalah
domain contoh data dan
4 adalah domain dari atribut (¢.
Domain dari atribut baik dapat menjadi set kategoris, seperti
¤ ¤ £ | ¥ ¤§ © ¥ © ¡¥ 3!
, Atau satu set numerik, seperti! #"
"¤ $ | $%.
7
adalah
domain dari label kelas Dalam tulisan ini, diskusi kita akan berasumsi
bahwa hanya ada dua label kelas yang berbeda, walaupun karya kita bisa jadi
mudah diperluas ke kasus umum.
Klasifikasi masalah adalah untuk menemukan fungsi komputasi & ( '
'4 0) 1 7
, sehingga untuk contoh apapun
|
diekstraksi dari distri-
bution as
¡
, & 32
| © '(54 akan memberikan seakurat mungkin prediksi
dari
| ©)
. Pengklasifikasian pohon keputusan sering digunakan untuk mencapai
fungsi diatas Pengelompokan pohon keputusan biasanya berupa biner
pohon, di mana setiap node non-daun
|
dikaitkan dengan predikat 6.
Partisi predikat kumpulan instance data yang terkait dengan node
berdasarkan nilai atribut tertentu (#. Jika (# milik
domain kategoris, 6 adalah predikat bagian, misalnya, 6
¢|7£8¥
jika (# 2¤ £ 8 ¥ ¤§ © 9 @ ¥!
. Jika (# milik domain numerik, 6 adalah
berbagai predikat, misalnya, 6
¢|A£¥
jika (# CBE D $. Di sini, D $ adalah
disebut pemotongan atau titik split.
2.2 Fungsi Entropi
Fungsi pengotor memberikan pengukuran ketidakmurnian pada
dataset Awalnya diusulkan dalam literatur teori informasi,
entropi telah menjadi salah satu fungsi pengotor paling populer.
Misalkan, kita melihat dataset pelatihan
¡
. Mari 6
¨
dan 6
menjadi
proporsi kasus dengan label kelas "dan F masing-masing.
Jelas, 6
¨ HG6 ¢
".
Fungsi entropi didefinisikan sebagai
IQP F| A £ 6 2 ¡4 ¢ SR6 5 HTVU8W6 ¨ R6 5 XTYU|W6
¢ SR6 5 `TYU|W6 ¨ aR2A "R6 ¨ 4 5 `TYU|W2A" R6 ¨ 4
Sekarang, anggaplah kita membagi simpul menggunakan predikat split
)
dan cre-
makan dua subset
¡cb
dan
cd ¡
, Yang merupakan himpunan bagian kiri dan kanan,
masing-masing. Biarkan 6b menunjukkan sebagian kecil dari contoh data dalam
¡
yang berhubungan dengan
¡cb
. Kemudian, keuntungan yang terkait dengan split-
ting menggunakan predikat
)
didefinisikan sebagai
e8f ¢ e2 ¡cb ¡gd 4
¢ hIQP F| A £ 6 2 ¡4 R2 © 2 # 6b 5 iIQP F| A £ 6 2 ¡b4 © 4 G2 #
6d 5 iIQP F| A £ 6 2 ¡d4 © 4 © 4
Selanjutnya, biarkan 6
¨ pb
jadilah proporsi contoh dengan label kelas
"dalam
¡cb
, Dan biarkan 6
¨ pd
menjadi proporsi contoh dengan
label kelas "dalam
¡d
. Karena
IQP | 7 £ 8 6 2 ¡4 adalah konstan, kami
dapat mengobati e|f sebagai fungsi dari tiga variabel, 6b, 6
¨ pb
, Dan 6
¨ pd
.
ef ¢ e2 # 6b
6
¨ pb
6
¨ PD4 ¢ qIQP F| A £ 6 2 ¡4
R6b 5
2R6
¨ pb 5 HTYU8W6 ¨ PBX R2A "R6 ¨ pb 4 5 HTYU|W2A" R6 ¨ pb 4 © 4
R2A "R6b4 5
2R6
¨ pd 5 XTYU|W6 ¨ pd R2A "R6 ¨ PD4 5 HTVU8W2A" R6 ¨ PD4 © 4
Untuk atribut tertentu (#, biarkan e2 (# 4 menunjukkan yang terbaik gain mungkin
menggunakan atribut ini untuk membelah simpul. Jika kita memiliki atribut r,
kami tertarik dalam menentukan s, sehingga
e2 (# 4u t VUW x
y € ¨ ©, ƒƒƒ, E ... “9 † € #“e2
(¢ 4
3. STREAMING DATA PROBLEM
Pada bagian ini, kita fokus pada masalah decision tree con-
struction pada data streaming Kami memberikan template dari algoritma,
yang akan digunakan sebagai dasar presentasi kami dalam dua berikutnya
bagian. Selain itu, kami menggambarkan bagaimana pengambilan sampel
digunakan untuk mencapai a
probabilistik terikat pada kualitas pohon yang dibangun.
3.1 Algoritma Template
StreamTree ‡ Streaming ‰
'i'¤ ‘’ “3' global ¤ • 9 •” -A- ™ ~edf "gd¡" i hj p klhnm
lokal ol • 9 p “rq @ • 9 p“m
lokal 'id ¢ tu “™ -Am
hw vx ogyiz3z {m @ klh | vx ogyiz3zim
} pp ‡ u'¤ • 9 • -A-7k hi ‰ © m
sementara tidak ‡ “” € s -ƒ,¡ ‡ 7HE ‰ dan mengosongkan ‡ uklhe ‰ “‰
- ™ v ... l † ‡ "" - A ‡ ‰ Am
q @ • 9p "ev ‰ Št} | <" <gŒŽ, ¢ ‡ '9 • 9 • -A-p - "‰ © m
jika q • 9 p “NKH} pp ‡ q • 9 p“† <”} € s¡tV“p - “‰ Am
jika q @ • 9 p “† <”} - OEZ <, <-z • Sebagai g •”q @ POE-Œ • q
'¤ "g € g •"' 8 "‡ q • 9p" -7k hi ‰ © m
jika q @ • 9 p “†‘’q @ •” d¡ ‡ '<”} € Cs ¢ tV“<‡ ‰
d <"<s ¢ tŒ- d ¢ q @ © -Œ •" qQ -Ž • {‡ "g-f-Ž ¢" r "©" <- <s ¢ tŒ-Am
‡ uq @ • 9p "
¨
-7 q • 9p "
‰ ™ v ‰ q @ • 9p "† © '¤"} - Ž "‡ ƒ ‰ Am
'¤ "g € g •"' 8 "‡ q • 9p" -7k hi ‰ © m
} pp ‡ “‡ uq @ • 9 p” ¨
- "q @ • 9p"
‰ © - dia ‰ Am
sementara “” q • d ¢ ‡ '€ g ‘g € g •’' 9,¡ ‡ uklhC-”dia ‰
‡ "" - A ‡ uq @ • p "-9 hi ‰ © m
} pp ‡ uq @ • p "-Aklhe ‰ Am
Gambar 1: StreamTree Algorithm
Kami pertama kali mencantumkan masalah dalam menganalisis data
streaming. Ukuran total
dari data biasanya jauh lebih besar dari memori yang tersedia. Saya t
tidak mungkin menyimpan dan membaca ulang semua data dari
memori. Demikian,
diperlukan algoritma single pass, yang juga perlu untuk memenuhi
kendala real-time, yaitu waktu komputasi untuk setiap item harus
kurangi interval antara waktu kedatangan untuk dua kali berturut-turut
item.
Properti utama yang diperlukan untuk analisis data streaming adalah
bahwa data contoh tiba mengikuti distribusi yang mendasarinya.
Ini menyiratkan bahwa jika kita mengumpulkan interval data streaming tertentu,
Kita bisa melihatnya sebagai sampel acak yang diambil dari yang mendasari
distribusi. Mungkin saja pembuatan pohon keputusan
Algoritma untuk menyesuaikan pohon terhadap perubahan dalam distribusi data
contoh di arus [13], tapi kami tidak mempertimbangkan kemungkinan ini
sini.
Gambar 1 menyajikan algoritma tingkat tinggi untuk decision tree con-
struction pada data streaming Algoritma ini menjadi dasar bagi
presentasi kami di sisa kertas. Algoritma berbasis
pada dua antrian,”dan • X”. • X”adalah singkatan dari antrian aktif dan de-
catat kumpulan simpul pohon keputusan yang sedang kami kerjakan
pada perluasan. ”Adalah set node pohon keputusan yang belum
telah terpecah, namun saat ini belum diproses. Perbedaan ini
dibuat karena secara aktif memproses setiap node membutuhkan tambahan
ingatan. Misalnya, kita mungkin perlu menyimpan jumlah yang terkait
dengan masing-masing nilai berbeda dari masing-masing atribut. Karena itu, set
AQ ini
dibangun dari set”dengan memasukkan sebanyak node mungkin,
sampai tersedia memori yang cukup.
Algoritma, seperti yang disajikan di sini, hanya berbeda dari pekerjaan
oleh Domingos dan Hulten [6] tidak mengasumsikan bahwa semua node pada satu
Tingkat pohon bisa diproses secara simultan. Memori ulang-
Persyaratan untuk memproses satu set node adalah salah satu masalah yang kita
hadapi
mengoptimalkan pekerjaan kita. Jika kebutuhan memori untuk diproses
Sebuah node yang diberikan di pohon berkurang, lebih banyak simpul bisa masuk
ke dalam
set • X”, dan oleh karena itu, adalah lebih mungkin bahwa contoh data yang
diberikan
dapat digunakan untuk mempartisi sebuah node.
572

Halaman 3
3.2 Menggunakan Sampling
Di sini, kami meninjau kembali masalah memilih pemecah predikat berbasis
pada sampel Diskusi kami mengasumsikan penggunaan entropi sebagai
fungsi gain, meski pendekatannya bisa diterapkan pada func-
Seperti gini.
Membiarkan menjadi sampel yang diambil dari dataset
¡
. Kami fokus pada keuntungan
e8f terkait dengan titik perpecahan potensial
)
untuk atribut numerik
(#. Jika 6
¨
dan 6
adalah pecahan contoh data dengan label kelas
1 dan 2, masing-masing, 6
¨
dan 6
adalah estimasi yang dihitung dengan menggunakan
contoh. Demikian pula, kita memiliki definisi untuk 6b
6
¨ pb
,6
¨ pd
, E8f,
dan
IQP F| A £ 6 2 ¡4.
Kita punya,
ef ¢ e26b
6
¨ pb
6
¨ PD4 ¢ IQP F| A £ 6 2 ¡4
R6b2A "R6 ¨ pb TYU8W6 ¨ pb R2A" R6 ¨ pb 4 TYU|W2A "R6 ¨ pb 4 © 4
R2A "R6b426 ¨ pdl TYU|W6 ¨ pd R2A" R6 ¨ pd 4 TYU8W2A "R6 ¨ PD4 © 4
Nilai e|f berfungsi sebagai perkiraan dari e|f. Perhatikan bahwa kita melakukannya
tidak perlu menghitung
IQP | 7 £ 8 6 2 ¡4, karena kita hanya tertarik pada
nilai relatif dari nilai keuntungan yang terkait dengan perpecahan yang berbeda
poin.
Sekarang, kami mempertimbangkan prosedur untuk menemukan pemecahan titik
terbaik
perkiraan keuntungan di atas. Mari e2 (# 4 menjadi perkiraan yang terbaik
gain yang kita bisa dapatkan dari atribut (#. Dengan asumsi ada r
atribut, kita akan menggunakan atribut (#, sehingga
e2 (# 4 R
vuwx
¤y ¢ € ¨ ©, ƒƒƒ, E “† € #“e2
(¢ 4 ... t ¢ ¡
di mana ¡adalah angka positif kecil. Kondisi di atas (disebut
uji statistik) digunakan untuk menyimpulkan bahwa (# kemungkinan untuk
memuaskan asli
tes untuk memilih atribut terbaik, yang
e2 (# 4u t VUW x
y € ¨ ©, ƒƒƒ, E ... “9 † € #“e2
(¢ 4
Untuk menggambarkan kepercayaan kita atas inferensi statistik di atas, param-
eter £ digunakan. £ probabilitas bahwa tes asli memegang jika
uji statistik memegang, dan harus sedekat mungkin dengan 1 mungkin. ¡bisa
dipandang sebagai fungsi dari £ dan ukuran sampel ¤ ¥ ¤, yaitu
¡¢
& 32 | £
¤ ¤¤
4
Domingos dan Hulten menggunakan Hoeffding bound [11] untuk membangun
fungsi ini Rumus khusus yang mereka gunakan adalah
¡© ¨ ¢
T
2A " ¡2A "R £
4©4
F
5
¤ ¤¤
dimana adalah penyebaran fungsi gain. Dalam konteks ini, di mana
Ada dua kelas dan entropi digunakan sebagai fungsi kenajisan,
¢
F. Pada Bagian 5, kita akan menjelaskan pendekatan alternatif,
yang mengurangi ukuran sampel yang dibutuhkan.
Berdasarkan probabilistik yang terikat pada kondisi pemisahan
Setiap node, Domingos dan Hulten menghasilkan hasil berikut
kualitas pohon keputusan yang dihasilkan. Hasil ini didasarkan pada
pengukuran ketidaksepakatan intensional. Secara intensif dis-
persetujuan
#
antara dua pohon keputusan
¡¨
dan
¡
adalah
kemungkinan bahwa jalan contoh melalui
¡¨
akan berbeda
dari jalannya
¡
.
HEOREM T 1. Jika

"!
adalah pohon yang dihasilkan oleh algoritma
untuk streaming data dengan yang diinginkan tingkat akurasi £,
¡ adalah pohonnya
diproduksi oleh batch processing urutan pelatihan yang tak terbatas, dan
6 adalah probabilitas daun, yaitu, probabilitas bahwa diberikan contoh
mencapai node daun pada tingkat tertentu dari pohon keputusan, lalu
SAYA!
#
2#
$! ¡ % B2A "R £
4
Š6
di mana saya!
#
2#
$! ¡ 4% adalah nilai yang diharapkan dari
#
2#
$! ¡ 4
diambil alih urutan pelatihan yang tak terbatas.
4. ALGORITMA BARU UNTUK PENANGANAN
ATTRIBUT NUMERIK
Pada bagian ini, kami menyajikan selang numerik kami pemangkasan ap-
melakukan pembuatan pembuatan pohon keputusan pada data streaming
lebih banyak memori dan perhitungan yang efisien.
4.1 Permasalahan dan Pendekatan Kami
Salah satu masalah utama dalam pembuatan pohon keputusan pada arus-
Data ing adalah bahwa memori dan biaya komputasi untuk penyimpanan dan
memproses informasi yang dibutuhkan untuk mendapatkan keuntungan split
terbaik
bisa sangat tinggi Untuk atribut kategoris, jumlah yang berbeda
Nilai biasanya kecil, dan karena itu, histogram kelas tidak
tidak membutuhkan banyak memori Begitu pula mencari split terbaik
predikat tidak mahal jika jumlah kondisi split kandidat tersebut
relatif kecil.
Namun, untuk atribut numerik dengan sejumlah besar berbeda
nilai, memori dan biaya komputasi bisa sangat tinggi.
Banyak pendekatan yang ada untuk scalable, tapi multi-pass, de-
konstruksi pohon curang memerlukan fase preprocessing dimana at-
daftar upeti untuk atribut numerik diurutkan [15, 16]. Preprocess-
Dengan data, perbandingan, bukanlah pilihan dengan dataset streaming,
dan pemilahan selama eksekusi bisa sangat mahal. Domingos dan
Hulten telah menjelaskan dan mengevaluasi algoritma satu-pass mereka untuk-
cusing hanya pada atribut kategoris [6]. Diklaim bahwa numer-
Atribut ical dapat diproses dengan membiarkan predikat bentuknya
“(# 3% (# ”, Untuk setiap nilai yang berbeda (# . Ini menyiratkan sangat tinggi
memori dan overhead komputasi untuk menentukan perpecahan terbaik
titik untuk atribut numerik
Kami telah mengembangkan pendekatan Pemangkasan Numerik Interval (NIP)
untuk mengatasi masalah ini Dasar pendekatan kami adalah untuk
partisi kisaran atribut numerik ke dalam interval, dan kemudian
menggunakan uji statistik untuk memangkas interval ini. Pada waktu tertentu, a
interval baik dipangkas atau utuh. Interval dipangkas jika terjadi
sepertinya tidak mungkin menyertakan titik perpecahan. Interval yang utuh adalah
a
Interval yang belum dipangkas. Dalam pekerjaan kita saat ini, kita punya
interval yang sama-lebar digunakan, yaitu kisaran atribut numerik
dibagi dalam interval dengan lebar yang sama.
Dalam pendekatan pemangkasan interval numerik, kita mempertahankan fol-
set rendah untuk setiap node yang sedang diproses.
Kecil Kelas Histogram: ini terutama terdiri dari kelas his
togram untuk semua atribut kategoris. Jumlah yang berbeda-
Untuk atribut kategoris tidak terlalu besar, dan karena itu,
Ukuran histogram kelas untuk setiap atribut cukup kecil. Dalam iklan-
Kami juga menambahkan histogram kelas untuk atribut numerik
yang jumlah nilai yang berbeda di bawah ambang batas.
Ringkas Kelas Histogram: Kisaran atribut numerik yang
memiliki sejumlah besar elemen yang berbeda dalam kumpulan data dibagi
ke dalam interval Untuk setiap interval atribut numerik, kon-
Cise class histogram mencatat jumlah kejadian kejadian
dengan masing-masing label kelas yang nilai atribut numeriknya ada di dalamnya
interval itu
Informasi rinci: Informasi rinci untuk interval dapat
berada di salah satu dari dua format, tergantung pada apa yang efisien. Itu
Format pertama adalah histogram kelas untuk sampel yang berada di dalam
573

Halaman 4
selang. Bila jumlah sampelnya besar dan jumlahnya
Nilai atribut numerik yang berbeda relatif kecil, ini untuk-
tikar lebih efisien. Format kedua adalah dengan hanya mempertahankan
set sampel dengan masing-masing label kelas. Tidak perlu pro-
cess informasi rinci dalam interval dipangkas untuk mendapatkan split terbaik
titik.
Keuntungan dari pendekatan ini adalah kita tidak perlu melakukan pro-
Informasi rinci cess yang terkait dengan interval pemangkasan. Ini
menghasilkan pengurangan yang signifikan dalam waktu eksekusi, tapi tidak ada
kerugian
akurasi.
NIP-Classifier ‡ Node , Streaming C ‰
sementara tidak <”} - OEZ <, <-z • Sebagai Š • q POE-Œ • q ™ ‡ w ‰
¡
* Dapatkan Beberapa Sampel dari Streaming * ¢
£} € s ¢ tu “¥ ¤` v0 ‡ † ‡ ‘’ - A ‡ ‰ p ‰ Am
y3s ¢ p} -Ž "
£
€} TVT | et} 8 <<§ lŒŽ <-A ‡ © ¤ r ‰ © m
y3s ¢ p} -z “| e • q @ OEZ <“| et} 8 <<§ lŒŽ <-A ‡ © ¤ r ‰ © m
y3s ¢ p} -Ž " "" -} Œtu "" hal ¤q • '9 €} -Œ • q ‡ ¤ ‰ Am
¡
* Cari keuntungan terbaik * ¢
‡ @v Cari Terbaik Gain (ClassHist) m
‡ v yq e'9d ¢ qŒq ‡ ‡ u ‡ - Concise ClassHist ‰ Am
¡
* Berpisah * ¢
jika £
-} - ŒŽ <-Œ} tutY, "<- } Œq ™ ‡
‡|‰
£
s ¢ tŒ- ol • 9p "‡ | ‰ Am
“A'¤“}! m
¡
* Pemangkasan * ¢
e'9d ¢ qŒq ‡ ‡
‡ - Concise ClassHist ‰ Am
Gambar 2: Algoritma NIP untuk Penanganan Atribut Numerik
Tantangan utama dalam algoritma ini adalah efektif tapi benar
memangkas interval Over-pemangkasan adalah situasi yang terjadi ketika
Interval tampaknya tidak akan menyertakan titik perpecahan setelah kita
telah menganalisis sampel kecil, tapi bisa termasuk titik perpecahan setelahnya
informasi lebih lanjut tersedia. Under-pemangkasan berarti bahwa
Interval tampaknya tidak akan menyertakan titik perpecahan namun memiliki
belum dipangkas Kami mengacu pada pemangkasan dan pemangkasan di atas
bersama sebagai pemangkasan palsu.
Kode pseudo untuk Pemangkasan Numerik Interval (NIP) algo-
Ritme disajikan pada Gambar 2. Di sini, setelah mengumpulkan beberapa sampel,
Kami menggunakan histogram kelas kecil, histogram kelas ringkas, dan
informasi rinci dari interval yang utuh dan mendapatkan perkiraan
keuntungan terbaik (tertinggi). Hal ini dilambangkan sebagai e . Kemudian,
dengan menggunakan e ,
Kami selesaikan interval yang terlihat menjanjikan untuk mendapatkan keuntungan
terbaik,
berdasarkan kumpulan sampel saat ini. Yang terbaik gain "
e dapat berasal dari
e atau interval yang baru diputuskan. Kemudian, dengan melakukan statisti-
uji cal, kita periksa apakah kita sekarang bisa membagi simpul ini. Jika tidak, kita
butuh
untuk mengumpulkan lebih banyak sampel. Sebelum itu, bagaimanapun, kami
memeriksa apakah ada beberapa
Selang tambahan bisa dipangkas.
Rincian lebih lanjut dari pendekatan di atas tersedia secara teknis
laporan dari penulis [14].
T HEOREM 2. gain terbaik "
e dihitung dengan menggunakan numerik kami
Pendekatan pemangkasan interval sama dengan yang dihitung oleh a
Algoritma yang menggunakan histogram kelas penuh, memberikan dua algo-
rithms menggunakan set sampel yang sama.
Dalam algoritma yang disajikan di sini, interval pencegahan adalah sebuah
kebutuhan-
untuk membuktikan akurasi yang sama seperti pada algoritma
itu tidak melakukan pemangkasan. Oleh karena itu, kita perlu menjaga dan
terus perbarui informasi rinci yang terkait dengan pemangkasan
interval. Namun, kemungkinan pemangkasan berlebihan dapat ditunjukkan
menjadi sangat kecil Oleh karena itu, kita bisa memodifikasi algoritma asli kita
untuk tidak menyimpan informasi rinci terkait dengan pemangkasan antar-
vals Optimalisasi ini memiliki dua manfaat. Pertama, memori membutuhkan-
Pengurangan berkurang secara signifikan. Kedua, kita bisa lebih menghemat
biaya komputasi dengan tidak harus memperbarui informasi rinci
terkait dengan interval pemangkasan.
5. PENDEKATAN SAMPLING BARU
Bagian ini memperkenalkan pendekatan baru untuk memilih sam-
ukuran ple. Dibandingkan dengan ketidaksetaraan Hoeffding [11] berdasarkan ap-
proak yang digunakan oleh Domingos dan Hulten [6], metode kami
memungkinkan
akurasi probabilistik yang sama pasti akan dicapai dengan menggunakan signifi-
Ukuran sampel lebih kecil.
5.1 Mengeksploitasi Fungsi Keuntungan
Seperti yang telah kami sebutkan sebelumnya, pohon keputusan satu atap
Algoritma konstruksi oleh Domingos dan Hulten menggunakan Hoeffding
ketidaksetaraan untuk menghubungkan terikat pada keakuratan ¡, probabilitas £,
dan ukuran sampel ¤ §¤. Hoeffding bound based result adalah indepen-
penyokongan distribusi contoh data dalam kumpulan data. Sini,
kami mendapatkan pendekatan lain, yang masih independen dari dis-
distribusi contoh data, namun menggunakan fungsi keuntungan
seperti entropi dan gini.
Kami menggunakan teorema berikut, juga dikenal sebagai multivariant yang
Hasil delta [4]. Di sini, simbol I2 (4 menunjukkan nilai yang diharapkan
variabel (,
7C$#
2
(A 4 menunjukkan kovarian dari dua variabel-
ables (dan
, Dan% j2Ž $
'&
4 adalah distribusi normal dengan
berarti 0 dan varians (atau kuadrat dari standar deviasi)
&
.
T HEOREM 3. (multivariat Delta Method) Mari
4¨§ § 4) (
menjadi
sampel acak Membiarkan
4 # ¢ 4C # © 4 10 #
. Selanjutnya, biarkan I2 4 # 4 ¢
2#
dan
7 C #!
2
4 # 4 43 4 ¢ 65 F # . Membiarkan
4#
menjadi rata-rata
4#¨4#§
4#7(
dan biarkan
'2 ¢
2
2 ¨ § 20 4. Untuk fungsi e diberikan dengan con
derivatif parsial pertama yang marak, kita miliki
e2 4 § 4 0 4Re2 '2 41
% W2Ž $
'&
P4
dimana,
& ¢ 98 @ 8a5 # E2 CB '2 4
B2
# EDB
e2 '2 4
B2

Bukti: Lihat referensi [4], misalnya. F


Di bawah ini, kami menunjukkan aplikasi hasil di atas pada gain
fungsi entropi Hal ini juga bisa diterapkan pada gain func-
gini, tapi kami tidak menyajikan rinciannya disini.
Dalam menerapkan hasil di atas pada fungsi entropi, kita pertimbangkan
pengikut. Fungsi e merupakan fungsi dari tiga pengukuran,
6b, 6
¨ pb
, Dan 6
¨ pd
. Ketiga nilai atau ukuran tersebut adalah indepen-
penyok satu sama lain, yaitu kovariansi
7 C #!
2
(A 4 adalah 0 jika (EG ¢
.
L EMMA 1. Let
P
menjadi ukuran sampel ,% Menjadi normal
distribusi. Kemudian, untuk fungsi entropi e, kita memiliki
e IH ¢ e26b
6
¨ pb
6
¨ PD4 1
% w2e2
(54 P &
H
P4
dimana,
&

2
B
e
B 6B4
D 6b2A "R6b4
G2 B
e
B6
¨ PB4
D6
¨ pb2A "R6 ¨ PB4 G2 B
e
B6
PD4 ¨
D6
¨ pd2A "PD4 R6 ¨
574

Halaman 5
Bukti: Buktinya mengikuti dari penerapan multivari-
makan hasil delta (disajikan di atas), dan pengamatan itu yang pertama
derivatif untuk entropi adalah fungsi kontinyu (rincian dihilangkan
sini). F
Selanjutnya, kita fokus pada masalah berikut. Asumsikan ada a
titik
milik atribut
4
s
G ¢ j. Kita perlu menentukan

jika e H 0 e y
atau e H% e y, hanya menggunakan sampel . Karena
juga
memenuhi Lema 1, dan (dan
adalah independen, kita miliki

e y1
% W2E yP&
y
P4
Karena itu,

e H Re 1 y
% W2E
IH Re y
2
&
HG9&

y4
P4
Hal ini menyebabkan lemma berikut.
L EMMA 2. Let

¡(¢ z!
D
/&
HG&
YP
di mana z!
adalah 2A "R £
4 persentil ke dari terjadinya distribusi standar normal

bution. Jika e H Re y t ¡(
, Kemudian dengan probabilitas £, kita memiliki e H te y.
Jika e IH Re y BR ¡(
, Kemudian dengan probabilitas £, kita memiliki e y
th e H.
Bukti: di atas lemma berikut dari aplikasi juga dikenal
hasil pada inferensi statistik simultan [12]. F
Kami menyebutnya tes di atas tes normal.
5.2 Soal Ukuran Sampel
Setelah tingkat akurasi yang diinginkan £ dipilih, isu kunci dengan
kinerja algoritma one-pass adalah ukuran sampel selec-
Masalahnya, yaitu seberapa besar sampel dibutuhkan untuk menemukan
pemecahan terbaik
menunjuk dengan £ probabilitas. Secara khusus, kami tertarik pada

Ukuran sampel yang bisa memisahkan e H e dan y,


di mana (dan (b
titik yang memaksimalkan gain split fungsi untuk dua besar
atribut
4 dan
4 b.
Mari e IH Re ya ¢ ¡. Jadi, dengan distribusi normal, yang dibutuhkan
ukuran sampel
%(


!/&
HG&

y
¡
Ukuran sampel yang dibutuhkan dari Hoeffding bound adalah
%¨¢
T
2A " ¡2A "R £
4©4

Membandingkan dua persamaan di atas, kita memiliki re-
sult.
T HEOREM 4. Ukuran sampel yang dibutuhkan dengan menggunakan tes normal
akan selalu kurang atau sama dengan ukuran sampel yang dibutuhkan untuk
Tes guntingan, yaitu,
%(
B

Bukti: Ini mengikuti dari membandingkan dua persamaan di atas. F
6. HASIL EKSPERIMENTAL
Pada bagian ini, kami melaporkan serangkaian percobaan yang dirancang
untuk mengevaluasi kinerja teknik baru kita. Terutama,
kami tertarik untuk mengevaluasi 1) keuntungan menggunakan Numer-
ical Interval Pruning (NIP), dan 2) keuntungan menggunakan normal
distribusi perkiraan fungsi entropi, dibandingkan dengan Ho-
effound terikat
Kumpulan data yang kami gunakan untuk eksperimen kami dibuat menggunakan a
Alat dijelaskan oleh Agrawal et al. [1]. Ada dua alasan untuk kita-
ing dataset ini Pertama, kumpulan data ini telah banyak digunakan
mengevaluasi sejumlah upaya yang ada pada keputusan scalable con-
struction [9, 7, 15, 16]. Kedua, satu-satunya dataset nyata yang kita miliki
Sadar akan ukurannya cukup kecil, dan karena itu, tidak sesuai
untuk eksperimen kami Kumpulan data yang kami hasilkan memiliki 10 juta
catatan pelatihan, masing-masing dengan 6 atribut numerik dan 3 kategoris
atribut. Kami menggunakan fungsi 1, 6, dan 7 untuk eksperimen kami.
Untuk masing-masing fungsi ini, kami membuat dataset yang terpisah dengan
0%, 2%, 4%, 6%, 8%, dan 10% noise.
Hasil dari percobaan yang dirancang untuk mengevaluasi apet NIP-
proach dan manfaat menggunakan distribusi normal estimasi
fungsi entropi dilaporkan bersama. Kami menciptakan 4 berbeda
versi, semua berdasarkan algoritma StreamTree dasar yang dipresentasikan
pada Gambar 1. Contoh-H adalah versi yang menggunakan Hoeffding terikat,
dan menyimpan sampel untuk mengevaluasi kondisi split kandidat.
ClassHist-H menggunakan Hoeffding terikat dan menciptakan penuh his kelas
tograms. NIP-H dan NIP-N menggunakan pemangkasan Interval numerik,
dengan
Hoeffding terikat dan distribusi fungsi entropi normal,
masing-masing. Versi NIP yang kami implementasikan dan eval-
Anda menghasilkan interval setelah 10.000 sampel telah dibaca
sebuah node, melakukan pemangkasan interval, dan kemudian menghapus
sampelnya.
Dengan demikian, unpruning bukanlah pilihan di sini, dan karena itu,
keakuratannya
bisa lebih rendah dari pendekatan yang menggunakan histogram kelas
penuh. Kami
Implementasi menggunakan memory bound sebesar 60 MB untuk keempat ver-
sions. Konsisten dengan apa yang dilaporkan untuk implementasi
Domingos dan Hulten, kami melakukan atribut pemangkasan, yaitu, melakukan
jangan mempertimbangkan atribut yang tampaknya menunjukkan keuntungan yang
buruk
setelah beberapa sampel dianalisis.
Gambar 3 menunjukkan jumlah node rata-rata pada pohon keputusan
dihasilkan dengan menggunakan fungsi 1, 6, dan 7, dan menggunakan tingkat
kebisingan
0%, 2%, 4%, 6%, 8%, dan 10%. Nomor ini
tidak berubah dengan cara yang signifikan dari empat versi yang berbeda
kami bereksperimen dengan Seperti yang diharapkan, ukuran pohon keputusan
meningkat dengan tingkat kebisingan dalam data.
Satu pertanyaan menarik adalah, ketidaktepatan apa yang mungkin diperkenalkan
oleh versi kita NIP-H, karena tidak memiliki pilihan untuk un-
pemangkasan. Gambar 4 menunjukkan peningkatan ketidaktepatan untuk NIP-H,
dibandingkan dengan rata-rata ketidaktelitian dari Contoh-H dan
ClassHist-H. Seperti bisa dilihat dari gambar, tidak ada sig-
Kemungkinan besar dalam ketidaktepatan. Perhatikan bahwa setiap kali ada
himpunan yang berbeda
Contoh data digunakan untuk membagi sebuah node, ketidakakuratan yang
dihitung
nilai bisa berbeda. Demikian pula, Gambar 5 menunjukkan peningkatan
ketidaktelitian untuk NIP-N, dibandingkan dengan rata-rata ketidaktelitian
dari Contoh-H dan ClassHist-H. Sekali lagi, tidak ada signifi-
tidak dapat berubah, dan nilai rata-rata perbedaannya sangat dekat
nol.
Untuk bagian yang tersisa dari bagian ini, kami hanya melaporkan hasil dari
penggunaan fungsi 6. Hasil dari fungsi 1 dan 7 tersedia
dalam laporan teknis [14].
Gambar 6 menunjukkan waktu eksekusi untuk konstruksi pohon keputusan
dengan empat versi dan tingkat kebisingan yang berbeda, untuk fungsi
6. Secara keseluruhan, kita akan fokus pada membandingkan kinerja
NIP-N dan NIP-H dengan lebih baik antara Contoh-H dan
ClassHist-H, yang kita dilambangkan dengan yang ada. Eksekusi
kali dari NIP-H adalah antara 40% dan 70% dari waktu eksekusi
yang ada. Selain itu, NIP-N lebih lanjut mengurangi waktu eksekusi
antara 7% sampai 80%.
Kami selanjutnya membandingkan keempat versi ini menggunakan dua metrik
yang kami gunakan.
sider penting Metrik ini, jumlah kasus membaca (TIR), dan
contoh aktif diproses (IAP). TIR adalah jumlah sampel
atau contoh data yang dibaca sebelum pohon keputusan bertemu.
Ketika sebuah sampel dibaca, tidak bisa selalu digunakan sebagai bagian dari al-
gorithm Hal ini karena mungkin ditugaskan ke node yang melakukan
tidak perlu diperluas lebih jauh, atau tidak diproses cur-
575

Halaman 6
0
100
200
300
400
500
600
700
800
0
0,02
0,04
0,06
0,08
0,1
Jumlah Node
Faktor Kebisingan
F1
F6
F7
Gambar 3: Ukuran Konsep
-4
-2
0
2
4
6
8
10
0
0,02
0,04
0,06
0,08
0,1
Ketidaktepatan relatif (%)
Faktor Kebisingan
NIP-H-F1
NIP-H-F6
NIP-H-F7
Gambar 4: Ketidaktepatan dengan NIP
-4
-2
0
2
4
6
8
10
0
0,02
0,04
0,06
0,08
0,1
Ketidaktepatan relatif (%)
Faktor Kebisingan
NIP-N-F1
NIP-N-F6
NIP-N-F7
Gambar 5: Ketidaktepatan dengan Normal
0
100
200
300
400
500
600
0
0,02
0,04
0,06
0,08
0,1
Waktu Berjalan (Detik)
Faktor Kebisingan
ClassHist-H
Contoh-H
NIP-H
NIP-N
Gambar 6: Waktu Berjalan: F6
0
20
40
60
80
100
0
0,02
0,04
0,06
0,08
0,1
Jumlah Instances (Jutaan)
Faktor Kebisingan
ClassHist-H
Contoh-H
NIP-H
NIP-N
Gambar 7: TIR: F6
0
1
2
3
4
5
6
0
0,02
0,04
0,06
0,08
0,1
Jumlah Instances (Jutaan)
Faktor Kebisingan
ClassHist-H
Contoh-H
NIP-H
NIP-N
Gambar 8: IAP: F6
karena pertimbangan ingatan. Karena itu, kami mengukur
IAP sebagai jumlah data contoh yang digunakan untuk evaluasi
kondisi split kandidat Gambar 7 menunjukkan TIR untuk keempat versi
dan untuk fungsi 6. Penggunaan histogram kelas menghasilkan tinggi
persyaratan memori, yang menghasilkan nilai TIR yang sangat tinggi. Di
semua kasus, nilai-nilai TIR Sampel-H dan NIP-H hampir
identik. Ini menunjukkan keunggulan kinerja utama dari NIP
Pendekatan datang karena pengurangan biaya komputasi,
dan bukan karena ingatan. Apalagi pengurangan eksekusi
Waktu dengan penggunaan pendekatan NIP yang ditunjukkan sebelumnya
sebenarnya adalah re-
Duksi dalam waktu pemrosesan per data contoh, yang merupakan hal yang penting
masalah dalam pengolahan data stream. Perbandingan antara NIP-
H dan versi NIP-N menunjukkan manfaat mengeksploitasi normal
distribusi fungsi entropi yang diperkirakan. Penurunan TIR
adalah antara 18% dan 60% untuk fungsi 6. Gambar 8 menunjukkan val-
ues dari IAP Tiga versi, Contoh-H, ClassHist-H, dan
NIP-H memiliki nilai yang hampir sama dari IAP. Ini karena mereka
menggunakan uji statistik yang sama untuk membuat keputusan. Pengurangannya
di IAP untuk versi NIP-N sangat mirip dengan pengurangan dilihat
dalam nilai TIR untuk versi ini.
7. KESIMPULAN DAN MASA DEPAN BEKERJA
This paper has focused on a critical issue arising in decision tree
construction on streaming data, ie, the space and time efficiency.
This includes processing time per data instance, memory require-
ments (or the number of data instances required), and the total time
required for constructing the decision tree. We have developed and
evaluated two techniques, numerical interval pruning and exploit-
ing the normal distribution property of the estimated value of the
gain function.
In the future, we will like to expand our work in many directions.
First, we want to consider other ways of creating intervals, besides
the equal-width intervals we are currently using. Second, we want
to extend our work to drifting data streams [13]. Another area will
be to apply the ideas behind our normal test to other mining prob-
lems, such as k-means and EM clustering.
8. DAFTAR PUSTAKA
[1] R. Agrawal, T. Imielinski, and A. Swami. Database mining: A performance
perspective. IEEE Transactions on
Knowledge and Data Eng., 5(6):914-925, , December 1993.
[2] A. Arasu, B. Babcock, S. Babu, J. McAlister, and J. Widom. Characterizing
memory requirements for queries
over continuous data streams. Dalam Proc. of the 2002 ACM Symp. on Principles
of Database Systems . ACM Press,
June 2002.
[3] B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom. Models and Issues
in Data Stream Systems. Di
Proceedings of the 2002 ACM Symposium on Principles of Database Systems
(PODS 2002) (Invited Paper) .
ACM Press, June 2002.
[4] George Casella and Roger L. Berger. Statistical Inference,
2nd. Edition. DUXBURY Publishers, 2001.
[5] A. Dobra, J. Gehrke, M. Garofalakis, and R. Rastogi. Processing complex
aggregate queries over data streams. Di
Proc. of the 2002 ACM SIGMOD Intl. Conf. on Management of Data , June 2002.
[6] P. Domingos and G. Hulten. Mining high-speed data streams. In Proceedings
of the ACM Conference on
Knowledge and Data Discovery (SIGKDD) , 2000.
[7] J. Gehrke, V. Ganti, R. Ramakrishnan, and W. Loh. Boat– optimistic decision
tree construction. Dalam Proc. dari
ACM SIGMOD Conference on Management of Data , June 1999.
[8] J. Gehrke, F. Korn, and D. Srivastava. On computing correlated aggregates
over continual data streams. Dalam Proc.
of the 2001 ACM SIGMOD Intl. Conf. on Management of Data , pages 13–24.
acmpress, June 2001.
[9] J. Gehrke, R. Ramakrishnan, and V. Ganti. Rainforest - a framework for fast
decision tree construction of large
dataset In VLDB , 1998.
[10] S. Guha, N. Mishra, R. Motwani, and L. O'Callaghan. Clustering Data
Streams. In Proceedings of 2000 Annual
IEEE Symp. on Foundations of Computer Science (FOCS) , pages 359–366. ACM
Press, 2000.
[11] W. Hoeffding. Probability inequalities for sums of bounded random
variables. Jurnal Statistik Amerika
Association , pages 58:18–30, 1963.
[12] Jason C. Hsu. Multiple Comparisons, Theory and methods . Chapman and
Hall, 1996.
[13] G. Hulten, L. Spencer, and P. Domingos. Mining time-changing data streams.
In Proceedings of the ACM
Conference on Knowledge and Data Discovery (SIGKDD) , 2001.
[14] Ruoming Jin and Gagan Agrawal. Efficient Decision Tree Construction on
Streaming Data. Laporan teknikal
OSU-CISRC-6/03-TR34, Department of Computer and Information Sciences, The
Ohio State University, June
2003.
[15] M. Mehta, R. Agrawal, and J.Rissanen. Sliq: A fast scalable classifier for data
mining. In In Proc. of the Fifth
Int'l Conference on Extending Database Technology , Avignon, France, 1996.
[16] J. Shafer, R. Agrawal, and M. Mehta. SPRINT: A scalable parallel classifier
for data mining. In Proceedings of
the 22nd International Conference on Very Large Databases (VLDB) , pages 544–
555, September 1996.
576

Anda mungkin juga menyukai