Intr oduction
Buku ini adalah pengantarto bidang data mining yang muda dan berkembang pesat (juga
dikenal sebagai penemuan pengetahuan dari data, atau disingkat KDD). Buku ini
berfokus pada konsep dan teknik penggalian data fundamental untuk menemukan pola
yang menarik dari data dalam berbagai aplikasi. Secara khusus, kami menekankan
teknik terkemuka untuk mengembangkan alat data mining yang efektif, efisien, dan
skalabel.
Bab ini disusun sebagai berikut. Di Bagian 1.1, Anda akan mempelajari mengapa
data mining sangat diminati dan bagaimana hal itu merupakan bagian dari evolusi
alami teknologi informasi. Bagian 1.2 mendefinisikan penggalian data sehubungan
dengan proses penemuan pengetahuan. Selanjutnya, Anda akan belajar tentang data
mining dari banyak aspek, seperti jenis data yang dapat ditambang (Bagian 1.3), jenis
pengetahuan yang akan ditambang (Bagian 1.4), jenis teknologi yang akan digunakan
(Bagian 1.5) , dan aplikasi yang ditargetkan (Bagian 1.6). Dengan cara ini, Anda akan
mendapatkan tampilan data mining multidimensi. Akhirnya, Bagian 1.7 menguraikan
masalah penelitian dan pengembangan data mining utama.
WKita hidup di dunia tempat sejumlah besar data dikumpulkan setiap hari.
Menganalisis data semacam itu merupakan kebutuhan penting. Bagian 1.1.1 melihat
bagaimana data mining dapat memenuhi kebutuhan ini dengan menyediakan alat
untuk menemukan pengetahuan dari data. Di Bagian 1.1.2, kami mengamati
bagaimana data mining dapat dilihat sebagai hasil dari evolusi alami teknologi
informasi.
1 Petabyteadalah satuan informasi atau penyimpanan komputer yang setara dengan 1 kuadriliun byte,
atau seribu terabyte, atau 1 juta gigabyte.
masyarakat, sains dan teknik, kedokteran, dan hampir setiap aspek kehidupan sehari-
hari. Pertumbuhan eksplosif dari volume data yang tersedia ini adalah hasil dari
komputerisasi masyarakat kita dan perkembangan cepat alat pengumpulan dan
penyimpanan data yang kuat. Bisnis di seluruh dunia menghasilkan kumpulan data
yang sangat besar, termasuk transaksi penjualan, catatan perdagangan saham, deskripsi
produk, promosi penjualan, profil dan kinerja perusahaan, dan umpan balik pelanggan.
Misalnya, toko besar, seperti Wal-Mart, menangani ratusan juta transaksi per minggu
di ribuan cabang di seluruh dunia. Praktik ilmiah dan teknik menghasilkan pesanan
tinggi dari petabyte data secara terus menerus, mulai dari penginderaan jauh,
pengukuran proses, eksperimen ilmiah, kinerja sistem, pengamatan teknik, dan
pengawasan lingkungan.
Jaringan telekomunikasi tulang punggung global membawa puluhan petabyte lalu
lintas data setiap hari. Industri medis dan kesehatan menghasilkan sejumlah besar data
dari rekam medis, pemantauan pasien, dan pencitraan medis. Miliaran pencarian Web
yang didukung oleh mesin pencari memproses puluhan petabyte data setiap hari.
Komunitas dan media sosial telah menjadi sumber data yang semakin penting,
menghasilkan gambar dan video digital, blog, komunitas Web, dan berbagai jenis
jejaring sosial. Daftar sumber yang menghasilkan data dalam jumlah besar tidak
terbatas.
Kumpulan data yang tumbuh secara eksplosif, tersedia secara luas, dan sangat besar
ini menjadikan waktu kita benar-benar era data. Alat yang kuat dan serbaguna sangat
dibutuhkan untuk secara otomatis mengungkap informasi berharga dari data yang
sangat banyak dan untuk mengubah data tersebut menjadi pengetahuan yang
terorganisir. Kebutuhan ini menyebabkan lahirnya data mining. Lapangannya masih
muda, dinamis, dan menjanjikan. Penambangan data telah dan akan terus membuat
langkah besar dalam perjalanan kita dari era data menuju era informasi yang akan
datang.
Contoh 1.1 Data mining mengubah sekumpulan besar data menjadi pengetahuan.Mesin
pencari (mis., Google) menerima ratusan juta kueri setiap hari. Setiap kueri dapat
dilihat sebagai transaksi di mana pengguna menggambarkan kebutuhan informasinya.
Pengetahuan baru dan berguna apa yang dapat dipelajari mesin pencari dari kumpulan
kueri yang begitu besar yang dikumpulkan dari pengguna sepanjang waktu?
Menariknya, beberapa pola yang ditemukan dalam kueri penelusuran pengguna dapat
mengungkapkan pengetahuan tak ternilai yang tidak dapat diperoleh dengan membaca
item data individu saja. Misalnya, Pantau Flu Dunia Google menggunakan istilah
penelusuran khusus sebagai indikator aktivitas flu. Ditemukan hubungan erat antara
jumlah orang yang mencari informasi terkait flu dan jumlah orang yang benar-benar
mengalami gejala flu. Sebuah pola muncul ketika semua kueri penelusuran yang
terkait dengan flu digabungkan. Menggunakan data pencarian Google yang
dikumpulkan,
pemrosesan transaksi. Saat ini banyak sistem basis data menawarkan pemrosesan kueri
dan transaksi sebagai praktik umum. Analisis data tingkat lanjut secara alami menjadi
langkah berikutnya.
6 Chapter 1 Introduction 1.1 Why Data Mining?6
SSejak tahun 1960-an, database dan teknologi informasi telah berkembang secara
sistematis dari sistem pemrosesan file primitif menjadi sistem database yang canggih
dan kuat. Penelitian dan pengembangan dalam sistem basis data sejak tahun 1970-an
berkembang dari sistem basis data hierarki dan jaringan awal ke sistem basis data
relasional (di mana data disimpan dalam struktur tabel relasional; lihat Bagian 1.3.1),
alat pemodelan data, dan metode pengindeksan dan pengaksesan. Selain itu, pengguna
memperoleh akses data yang nyaman dan fleksibel melalui bahasa kueri, antarmuka
pengguna, pengoptimalan kueri, dan manajemen transaksi. Metode efisien untuk
pemrosesan transaksi online (OLTP), di mana kueri dipandang sebagai transaksi hanya
baca, berkontribusi secara substansial terhadap evolusi dan penerimaan luas teknologi
relasional sebagai alat utama untuk penyimpanan yang efisien,
SEBUAHSetelah pembentukan sistem manajemen basis data, teknologi basis data
bergerak menuju pengembangan sistem basis data canggih, pergudangan data, dan
penambangan data untuk analisis data tingkat lanjut dan basis data berbasis web.
Sistem database yang maju, misalnya, dihasilkan dari peningkatan penelitian dari
pertengahan 1980-an dan seterusnya. Sistem ini menggabungkan model data baru dan
kuat seperti model relasional yang diperluas, berorientasi objek, relasional objek, dan
deduktif. Sistem basis data berorientasi aplikasi telah berkembang, termasuk basis data
spasial, temporal, multimedia, aktif, aliran dan sensor, basis data ilmiah dan teknik,
basis pengetahuan, dan basis informasi kantor. Masalah yang terkait dengan distribusi,
diversifikasi, dan berbagi data telah dipelajari secara ekstensif.
Iklananalisis data yang menguntungkan bermunculan sejak akhir 1980-an dan
seterusnya. Kemajuan yang mantap dan mempesona dari teknologi perangkat keras
komputer dalam tiga dekade terakhir menyebabkan banyak persediaan komputer,
peralatan pengumpulan data, dan media penyimpanan yang kuat dan terjangkau.
Teknologi ini memberikan dorongan besar untuk database dan industri informasi, dan
memungkinkan sejumlah besar database dan repositori informasi tersedia untuk
manajemen transaksi, pengambilan informasi, dan analisis data. Data sekarang dapat
disimpan di berbagai jenis database dan repositori informasi.
Salah satu arsitektur repositori data yang muncul adalah gudang data (Bagian
1.3.2). Ini adalah repositori dari beberapa sumber data heterogen yang diatur dalam
skema terpadu di satu situs untuk memfasilitasi pengambilan keputusan manajemen.
Teknologi data warehouse mencakup pembersihan data, integrasi data, dan
pemrosesan analitik online (OLAP) —yaitu, teknik analisis dengan fungsionalitas
seperti peringkasan, pemadatan, dan agregasi, serta kemampuan untuk melihat
informasi dari berbagai sudut. Meskipun alat OLAP mendukung analisis multidimensi
dan pengambilan keputusan, alat analisis data tambahan diperlukan untuk analisis
mendalam — misalnya, alat penambangan data yang menyediakan klasifikasi data,
pengelompokan, deteksi pencilan / anomali, dan karakterisasi perubahan dalam data.
waktu.
H.Sejumlah besar data telah terkumpul di luar database dan gudang data. Selama
tahun 1990-an, World Wide Web dan database berbasis web (misalnya, database
XML) mulai muncul. Basis informasi global berbasis internet, seperti WWW dan
berbagai jenis basis data heterogen yang saling berhubungan, telah muncul dan
memainkan peran penting dalam industri informasi. Analisis data yang efektif dan
7 Chapter 1 Introduction 1.1 Why Data Mining?7
efisien dari berbagai bentuk data dengan integrasi pencarian informasi, penggalian
data, dan teknologi analisis jaringan informasi adalah tugas yang menantang.
5 Chapter 1 Introduction 1.2 What Is Data Mining?5
dengan berbagai cara. Bahkan istilah data mining tidak benar-benar menampilkan
semua komponen utama dalam gambar. Untuk merujuk pada penambangan emas dari
batu atau pasir, kita mengatakan penambangan emas bukan penambangan batu atau
pasir. Secara analogi, data mining seharusnya lebih banyak
7 Chapter 1 Introduction 1.2 What Is Data Mining?7
Pengetahua
n
Gambar 1.3Data mining — mencari pengetahuan (pola yang menarik) dalam data.
secara tepat dinamai "penambangan pengetahuan dari data", yang sayangnya agak
panjang. Namun, dalam jangka pendek, penambangan pengetahuan mungkin tidak
mencerminkan penekanan pada penambangan dari sejumlah besar data. Namun
demikian, penambangan adalah istilah yang jelas yang mencirikan proses yang
menemukan sekumpulan kecil nugget berharga dari banyak bahan mentah (Gambar
1.3). Jadi, kesalahan nama yang membawa baik "data" dan "penambangan" menjadi
pilihan populer. Selain itu, banyak istilah lain yang memiliki arti serupa dengan data
mining — misalnya, penambangan pengetahuan dari data, ekstraksi pengetahuan,
analisis data / pola, arkeologi data, dan pengerukan data.
Msetiap orang memperlakukan data mining sebagai sinonim untuk istilah lain yang
populer digunakan, penemuan pengetahuan dari data, atau KDD, sementara yang lain
melihat data mining hanya sebagai langkah penting dalam proses penemuan
pengetahuan. Proses penemuan pengetahuan ditunjukkan pada Gambar 1.4 sebagai
urutan iteratif dari langkah-langkah berikut:
3 Trenpopuler dalam industri informasi adalah melakukan pembersihan data dan integrasi data
sebagai langkah preprocessing, dimana data yang dihasilkan disimpan di gudang data.
9 Chapter 1 Introduction 1.2 What Is Data Mining?9
Penam Pola
bangan
data
Seleksi dan
transformasi
Data
Gudang
Pembersihan
dan integrasi
File datar
Database
3. Pemilihan data(di mana data yang relevan dengan tugas analisis diambil dari
database)
4. Transformasi data(di mana data diubah dan dikonsolidasikan ke dalam bentuk
yang sesuai untuk penambangan dengan melakukan operasi ringkasan atau
agregasi) 4
5. Penambangan data(proses penting di mana metode cerdas diterapkan untuk
mengekstrak pola data)
6. Evaluasi pola(untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan ukuran ketertarikan — lihat Bagian 1.4.6)
7. Presentasi pengetahuan(di mana teknik visualisasi dan representasi
pengetahuan digunakan untuk menyajikan pengetahuan yang ditambang kepada
pengguna)
4 Terkadang transformasi dan konsolidasi data dilakukan sebelum proses pemilihan data, khususnya
dalam kasus data warehousing. Reduksi data juga dapat dilakukan untuk mendapatkan representasi
yang lebih kecil dari data asli tanpa mengorbankan integritasnya.
9 Chapter 1 Introduction 1.3 What Kinds of Data Can Be Mined?9
Rdata elasional dapat diakses oleh query database yang ditulis dalam bahasa query
relasional (misalnya SQL) atau dengan bantuan antarmuka pengguna grafis. Kueri
tertentu diubah menjadi sekumpulan operasi relasional, seperti penggabungan,
pemilihan, dan proyeksi, dan kemudian dioptimalkan untuk pemrosesan yang efisien.
Query memungkinkan pengambilan subset tertentu dari data. Misalkan tugas Anda
adalah menganalisis data AllElectronics. Melalui penggunaan kueri relasional, Anda
dapat menanyakan hal-hal seperti, "Tunjukkan daftar semua item yang terjual pada
kuartal terakhir". Bahasa relasional juga menggunakan fungsi agregat seperti sum, avg
(average), count, max (maximum), dan min (minimum). Menggunakan agregat
memungkinkan Anda bertanya: "Tunjukkan total penjualan bulan lalu, dikelompokkan
menurut cabang, "Atau" Berapa banyak transaksi penjualan yang terjadi di bulan
Desember? " atau "Penjual mana yang memiliki penjualan tertinggi?"
WSaat menambang database relasional, kita dapat melangkah lebih jauh dengan
mencari tren atau pola data. Misalnya, sistem data mining dapat menganalisis data
pelanggan untuk memprediksi risiko kredit pelanggan baru berdasarkan pendapatan,
usia, dan informasi kredit sebelumnya. Sistem data mining juga dapat mendeteksi
penyimpangan — yaitu, item dengan penjualan yang jauh dari yang diharapkan
dibandingkan dengan tahun sebelumnya. Penyimpangan tersebut kemudian dapat
diselidiki lebih lanjut. Misalnya, data mining mungkin menemukan bahwa telah terjadi
perubahan kemasan suatu barang atau kenaikan harga yang signifikan.
Rdatabase elasionaladalah salah satu repositori informasi yang paling umum
tersedia dan terkaya, dan dengan demikian merupakan bentuk data utama dalam studi
data mining.
setiap toko atau, diringkas ke tingkat yang lebih tinggi, untuk setiap wilayah
penjualan.
Gudang data biasanya dimodelkan oleh struktur data multidimensi, yang disebut
kubus data, di mana setiap dimensi terkait dengan atribut atau sekumpulan atribut
dalam skema, dan setiap sel menyimpan nilai dari beberapa ukuran agregat seperti
hitungan.
13 Chapter 1 Introduction 1.3 What Kinds of Data Can Be Mined?13
Clean
Sumber data di New York Integrate Data Query dan
Transform
Load Warehouse alat analisis
Refresh
Hair sum (jumlah penjualan). Sebuah kubus data menyediakan tampilan data
multidimensi dan memungkinkan prakomputasi dan akses cepat dari data yang
diringkas.
Contoh 1.3 Sebuah kubus data untuk AllElectronics.Kubus data untuk ringkasan data
penjualan AllElectronics disajikan pada Gambar 1.7 (a). Kubus memiliki tiga dimensi:
alamat (dengan nilai kota Chicago, New York, Toronto, Vancouver), waktu (dengan
nilai kuartal Q1, Q2, Q3, Q4), dan item (dengan nilai jenis item hiburan rumah,
komputer, telepon, keamanan ). Nilai agregat yang disimpan di setiap sel kubus adalah
jumlah penjualan (dalam ribuan). Misalnya, total penjualan untuk kuartal pertama, Q1,
untuk item yang terkait dengan sistem keamanan di Vancouver
$ 400, 000, sebagai disimpan di sel hVancouver, Q1, securityi. Kubus tambahan dapat
digunakan untuk menyimpan
agregat sums over setiap dimensi, sesuai dengan nilai agregat yang diperoleh dengan
menggunakan kelompok SQL yang berbeda (mis., jumlah total penjualan per kota dan
kuartal, atau per kota dan item, atau per kuartal dan item, atau per setiap dimensi
individu).
Chicago 440
New York 1560
Toronto 395
V.ancouver
<Vancouver,
P1 6085825 14400 Q1,
keamanan>
waktu(kuartal)
P2
P3
P4
komputer keamanan
hiburan telepon
rumah
barang(jenis
)
(Se
bu
ah)
Lihat perincian Roll-up
data waktu untuk Q1 di alamat
P1
waktu(bulan)
V.ancouver
150 Jan P2
100 Feb P3
150 Maret P4
Gambar 1.7Sebuah kubus data multidimensi, biasanya digunakan untuk data warehousing, (a)
menunjukkan data ringkasan untuk AllElectronics dan (b) menampilkan data ringkasan
yang dihasilkan dari operasi drill-down dan roll-up pada kubus di (a). Untuk meningkatkan
keterbacaan, hanya beberapa nilai sel kubus yang ditampilkan.
16 Chapter 1 Introduction 1.3 What Kinds of Data Can Be Mined?16
Contoh 1.4 Basis data transaksional untuk AllElectronics.Transactions dapat disimpan dalam
tabel, dengan satu record per transaksi. Sebuah fragmen dari database transaksional
untuk AllElectronics ditunjukkan pada Gambar 1.8. Dari sudut pandang database
relasional, tabel penjualan pada gambar adalah relasi bertingkat karena daftar atribut
ID item berisi sekumpulan item. Karena sebagian besar sistem database relasional
tidak mendukung struktur relasional bersarang, database transaksional biasanya
disimpan dalam file datar dalam format yang mirip dengan tabel pada Gambar 1.8 atau
dibuka menjadi relasi standar dalam format yang mirip dengan tabel item yang dijual
pada Gambar. 1.5.
Haif barang yang sering dijual bersama. Penambangan pola yang sering terjadi dari
data transaksional dibahas di Bab 6 dan 7.
Struktur spasial 3-D dari genom dapat hidup berdampingan untuk objek biologis
tertentu. Menambang berbagai sumber data dari data yang kompleks sering kali
menghasilkan temuan yang bermanfaat karena peningkatan timbal balik dan
konsolidasi berbagai sumber tersebut. Di sisi lain, ini juga menantang karena kesulitan
dalam pembersihan data dan integrasi data, serta interaksi yang kompleks di antara
berbagai sumber data tersebut.
WMeskipun data tersebut memerlukan fasilitas canggih untuk penyimpanan,
pengambilan, dan pembaruan yang efisien, data tersebut juga menyediakan lahan
subur dan menimbulkan masalah penelitian dan implementasi yang menantang untuk
data mining. Penambangan data pada data semacam itu adalah topik lanjutan. Metode
yang digunakan adalah perluasan dari teknik dasar yang disajikan dalam buku ini.
WKami telah mengamati berbagai jenis penyimpanan data dan informasi di mana
datanya
penambangan dapat dilakukan. Sekarang mari kita periksa jenis pola yang dapat
ditambang.
Ada sejumlah fungsi data mining. Ini termasuk karakterisasi dan diskriminasi
(Bagian 1.4.1); penambangan pola, asosiasi, dan korelasi yang sering (Bagian 1.4.2);
klasifikasi dan regresi (Bagian 1.4.3); analisis pengelompokan (Bagian 1.4.4); dan
analisis pencilan (Bagian 1.4.5). Fungsi data mining digunakan untuk menentukan
jenis pola yang akan ditemukan dalam tugas data mining. Secara umum, tugas
semacam itu dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif.
Tugas pertambangan deskriptif mencirikan properti data dalam kumpulan data target.
Tugas penambangan prediktif melakukan induksi pada data saat ini untuk membuat
prediksi.
Fungsi data mining, dan jenis pola yang dapat ditemukannya, dijelaskan di bawah
ini. Selain itu, Bagian 1.4.6 melihat apa yang membuat sebuah pola menarik. Pola
yang menarik mewakili pengetahuan.
Karakterisasi dataadalah ringkasan dari karakteristik atau fitur umum dari kelas
data target. Data yang sesuai dengan kelas yang ditentukan pengguna biasanya
dikumpulkan oleh kueri. Misalnya, untuk mempelajari karakteristik produk perangkat
lunak dengan penjualan yang meningkat 10% pada tahun sebelumnya, data terkait
produk tersebut dapat dikumpulkan dengan menjalankan query SQL pada database
penjualan.
17 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?17
Ada beberapa metode untuk peringkasan dan karakterisasi data yang efektif.
Ringkasan data sederhana berdasarkan ukuran dan plot statistik dijelaskan di Bab 2.
Operasi roll-up OLAP berbasis kubus data (Bagian 1.3.2) dapat digunakan untuk
melakukan peringkasan data yang dikontrol pengguna sepanjang dimensi yang
ditentukan. Proses ini dijelaskan lebih lanjut di Bab 4 dan 5, yang membahas tentang
data warehousing. Teknik induksi berorientasi atribut dapat digunakan untuk
melakukan generalisasi dan karakterisasi data tanpa interaksi pengguna langkah demi
langkah. Teknik ini juga dijelaskan pada Bab 4.
Keluaran karakterisasi data dapat disajikan dalam berbagai bentuk. Contohnya
termasuk diagram lingkaran, diagram batang, kurva, kubus data multidimensi, dan
tabel multidimensi, termasuk tabel silang. Deskripsi yang dihasilkan juga dapat
disajikan sebagai relasi umum atau dalam bentuk aturan (disebut aturan karakteristik).
Diskriminasi dataadalah perbandingan fitur umum objek data kelas target terhadap
fitur umum objek dari satu atau beberapa kelas yang kontras. Kelas target dan kontras
dapat ditentukan oleh pengguna, dan objek data yang sesuai dapat diambil melalui
kueri database. Misalnya, pengguna mungkin ingin membandingkan fitur umum
produk perangkat lunak dengan penjualan yang meningkat 10% tahun lalu
dibandingkan dengan penjualan yang turun setidaknya 30% selama periode yang
sama. Metode yang digunakan untuk diskriminasi data serupa dengan yang digunakan
untuk karakterisasi data. “Bagaimana keluaran deskripsi diskriminasi?” Bentuk-bentuk
presentasi keluaran
mirip dengan deskripsi karakteristik, meskipun deskripsi diskriminasi harus mencakup
tindakan komparatif yang membantu membedakan antara kelas sasaran dan kelas yang
kontras. Deskripsi diskriminasi yang diekspresikan dalam bentuk aturan disebut
sebagai aturan diskriminan.
Typically,aturan asosiasi akan dianggap tidak menarik jika tidak memenuhi ambang
batas dukungan minimum dan ambang batas keyakinan minimum. Analisis tambahan
dapat dilakukan untuk mengungkap korelasi statistik yang menarik antara pasangan
atribut-nilai yang terkait.
Fritem yang samapertambanganadalah bentuk fundamental dari penambangan pola
yang sering dilakukan. Penambangan pola yang sering, asosiasi, dan korelasi dibahas
dalam Bab 6 dan 7, di mana penekanan khusus ditempatkan pada algoritma yang
efisien untuk penambangan item yang sering. Penambangan pola sekuensial dan
penambangan pola terstruktur dianggap sebagai topik lanjutan.
age?
f3 f6kelas A
pemuda usia menengah,
agef1
f4 f7kelas B
pendapatan? kelas C senior
pendapatan f2
tinggi rendah f5 f8kelas C
kelas A kelas B
(b) (c)
Gambar 1.9Klasifikasimodel dapat direpresentasikan dalam berbagai bentuk: (a) IF-THEN rules, (b)
decision tree, atau (c) neural network.
21 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?21
Contoh 1.8 Klasifikasi dan regresi.Smisalkan sebagai manajer penjualan AllElectronics Anda
ingin mengklasifikasikan sekumpulan besar item di toko, berdasarkan tiga jenis
tanggapan untuk kampanye penjualan: tanggapan baik, tanggapan ringan, dan tidak
ada tanggapan. Anda ingin mendapatkan model untuk masing-masing dari ketiga kelas
ini berdasarkan fitur deskriptif item, seperti harga, merek, tempat pembuatan, jenis,
dan kategori. Klasifikasi yang dihasilkan harus secara maksimal membedakan setiap
kelas dari yang lain, menyajikan gambaran yang terorganisir dari kumpulan data.
Ssampai klasifikasi yang dihasilkan dinyatakan sebagai pohon keputusan. Pohon
keputusan, misalnya, dapat mengidentifikasi harga sebagai faktor tunggal yang paling
membedakan ketiga kelas tersebut. Pohon tersebut dapat mengungkapkan bahwa,
selain harga, fitur lain yang membantu untuk lebih membedakan objek dari setiap
kelas satu sama lain termasuk merek dan tempat yang dibuat. Pohon keputusan seperti
itu dapat membantu Anda memahami dampak kampanye penjualan yang diberikan
dan merancang kampanye yang lebih efektif di masa mendatang.
Suppose sebaliknya, daripada memprediksi label respons kategoris untuk setiap
item toko, Anda ingin memprediksi jumlah pendapatan yang akan dihasilkan setiap
item selama penjualan mendatang di AllElectronics, berdasarkan data penjualan
sebelumnya. Ini adalah contoh analisis regresi karena model regresi yang dibangun
akan memprediksi fungsi berkelanjutan (atau nilai yang dipesan).
CBab 8 dan 9 membahas klasifikasi secara lebih rinci. Analisis regresi berada di
luar cakupan buku ini. Sumber informasi lebih lanjut diberikan dalam catatan
bibliografi.
Unseperti klasifikasi dan regresi, yang menganalisis kumpulan data berlabel kelas
(pelatihan), pengelompokan menganalisis objek data tanpa label kelas konsultasi.
Dalam banyak kasus, data berlabel kelas mungkin tidak ada di awal. Pengelompokan
dapat digunakan untuk menghasilkan
23 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?23
Gambar 1.10SEBUAHPlot data pelanggan 2-D sehubungan dengan lokasi pelanggan di sebuah kota,
yang menunjukkan tiga kluster data.
Contoh 1.9 Analisis cluster.Analisis cluster dapat dilakukan pada data pelanggan AllElectronics
untuk mengidentifikasi subpopulasi pelanggan yang homogen. Cluster ini mungkin
mewakili masing-masing kelompok sasaran pemasaran. Gambar 1.10 menunjukkan
plot 2-D pelanggan sehubungan dengan lokasi pelanggan di kota. Tiga kelompok titik
data terbukti.
pencilan sebagai noise atau pengecualian. Namun, pada beberapa aplikasi (misalnya,
deteksi penipuan) jarang terjadi
25 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?25
malamnts bisa lebih menarik daripada yang lebih sering muncul. Analisis data
pencilan disebut sebagai analisis pencilan atau penambangan anomali.
Pencilan dapat dideteksi dengan menggunakan uji statistik yang mengasumsikan
model distribusi atau probabilitas untuk data, atau menggunakan pengukuran jarak di
mana objek yang jauh dari cluster lain dianggap pencilan. Daripada menggunakan
ukuran statistik atau jarak, metode berbasis kepadatan dapat mengidentifikasi pencilan
di wilayah lokal, meskipun mereka terlihat normal dari tampilan distribusi statistik
global.
Contoh 1.10 Analisis pencilan.Analisis outlier dapat mengungkap penipuan penggunaan kartu
kredit dengan mendeteksi pembelian dalam jumlah besar yang tidak biasa untuk
nomor rekening tertentu dibandingkan dengan biaya reguler yang ditimbulkan oleh
rekening yang sama. Nilai pencilan juga dapat dideteksi sehubungan dengan lokasi
dan jenis pembelian, atau frekuensi pembelian.
sayaSecara umum, setiap ukuran ketertarikan dikaitkan dengan ambang batas, yang
dapat dikontrol oleh pengguna. Misalnya, aturan yang tidak memenuhi ambang batas
keyakinan,
27 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?27
1.5.1 Statistik
Statistikstudipengumpulan, analisis, interpretasi atau penjelasan, dan penyajian data.
Penambangan data memiliki hubungan yang melekat dengan statistik.
Model statistik adalah sekumpulan fungsi matematika yang mendeskripsikan
perilaku objek dalam kelas target dalam hal variabel acak dan distribusi probabilitas
yang terkait. Model statistik banyak digunakan untuk memodelkan data dan kelas data.
Misalnya, dalam tugas penambangan data seperti karakterisasi dan klasifikasi data,
statistik
Penambanga
n Data
model kelas sasaran dapat dibangun. Dengan kata lain, model statistik seperti itu dapat
menjadi hasil dari tugas data mining. Sebagai alternatif, tugas penambangan data dapat
dibangun di atas model statistik. Misalnya, kita dapat menggunakan statistik untuk
memodelkan kebisingan dan nilai data yang hilang. Kemudian, saat menambang pola
dalam kumpulan data besar, proses penambangan data dapat menggunakan model
tersebut untuk membantu mengidentifikasi dan menangani nilai yang berisik atau
hilang dalam data.
Penelitian statistik mengembangkan alat untuk prediksi dan peramalan
menggunakan data dan model statistik. Metode statistik dapat digunakan untuk
meringkas atau mendeskripsikan kumpulan data. Deskripsi statistik dasar dari data
diperkenalkan di Bab 2. Statistik berguna untuk menggali berbagai pola dari data serta
untuk memahami mekanisme yang mendasari menghasilkan dan mempengaruhi pola.
Statistik inferensial (atau statistik prediktif) memodelkan data dengan cara yang
memperhitungkan keacakan dan ketidakpastian dalam pengamatan dan digunakan
untuk menarik kesimpulan tentang proses atau populasi yang sedang diselidiki.
Statistikmetode juga dapat digunakan untuk memverifikasi hasil data mining.
Misalnya, setelah model klasifikasi atau prediksi ditambang, model tersebut harus
diverifikasi dengan pengujian hipotesis statistik. Uji hipotesis statistik (terkadang
disebut analisis data konfirmatori) membuat keputusan statistik menggunakan data
eksperimen. Suatu hasil disebut signifikan secara statistik jika tidak mungkin terjadi
secara kebetulan. Jika model klasifikasi atau prediksi benar, maka statistik deskriptif
model tersebut meningkatkan kesesuaian model.
ApplyingMetode statistik dalam data mining jauh dari kata sepele. Seringkali,
tantangan serius adalah bagaimana meningkatkan skala metode statistik pada
kumpulan data yang besar. Banyak metode statistik yang memiliki kompleksitas
komputasi yang tinggi. Ketika metode seperti itu diterapkan pada kumpulan data besar
yang juga didistribusikan di beberapa situs logis atau fisik, algoritme harus dirancang
dan disetel dengan cermat untuk mengurangi biaya komputasi. Tantangan ini semakin
berat untuk aplikasi online, seperti saran kueri online di mesin telusur, di mana data
mining diperlukan untuk terus menangani aliran data real-time yang cepat.
kode pos yang ditulis tangan dan terjemahannya yang dapat dibaca mesin
digunakan sebagai contoh pelatihan, yang mengawasi pembelajaran model
klasifikasi.
26 Chapter 1 Introduction 1.5 Which Technologies Are Used?26
Kebisingan / pencilan
Gambar 1.12Semi-diawasibelajar.
28 Chapter 1 Introduction 1.5 Which Technologies Are Used?28
Youdapat melihat ada banyak kesamaan antara data mining dan pembelajaran
mesin. Untuk tugas klasifikasi dan pengelompokan, penelitian machine learning sering
kali berfokus pada keakuratan model. Selain akurasi, penelitian data mining sangat
menekankan pada efisiensi dan skalabilitas metode mining pada kumpulan data yang
besar, serta pada cara untuk menangani tipe data yang kompleks dan mengeksplorasi
metode alternatif baru.
dari beberapa model topik. Dengan mengintegrasikan model pencarian informasi dan
teknik data mining, kita dapat menemukannya
27 Chapter 1 Introduction 1.6 Which Kinds of Applications Are Targeted?27
topik utama dalam kumpulan dokumen dan, untuk setiap dokumen dalam koleksi,
topik utama yang terlibat.
sayancreasinglysejumlah besar data teks dan multimedia telah dikumpulkan dan
tersedia secara online karena pertumbuhan yang cepat dari Web dan aplikasi seperti
perpustakaan digital, pemerintahan digital, dan sistem informasi perawatan kesehatan.
Pencarian dan analisis efektif mereka telah mengangkat banyak masalah yang
menantang dalam penggalian data. Oleh karena itu, penambangan teks dan penggalian
data multimedia, yang terintegrasi dengan metode pencarian informasi, menjadi
semakin penting.
SEBUAHssebuah disiplin yang sangat digerakkan oleh aplikasi, data mining telah
meraih sukses besar dalam banyak aplikasi. Tidak mungkin untuk menghitung semua
aplikasi di mana data mining memainkan peran penting. Presentasi data mining dalam
domain aplikasi padat pengetahuan, seperti bioinformatika dan rekayasa perangkat
lunak, memerlukan perlakuan yang lebih mendalam dan berada di luar cakupan buku
ini. Untuk menunjukkan pentingnya aplikasi sebagai dimensi utama dalam penelitian
dan pengembangan data mining, kami secara singkat membahas dua contoh aplikasi
data mining yang sangat sukses dan populer: intelijen bisnis dan mesin pencari.
karakterisasi, kami dapat lebih memahami fitur dari setiap grup pelanggan dan
mengembangkan program penghargaan pelanggan yang disesuaikan.
29 Chapter 1 Introduction 1.6 Which Kinds of Applications Are Targeted?29
seperti itu menjadi tantangan bagi banyak metode penambangan data dan
pembelajaran mesin.
5 SEBUAHWeb crawler adalah program komputer yang menjelajahi Web secara otomatis dan metodis.
29 Chapter 1 Introduction 1.7 Major Issues in Data Mining29
Penambangan data adalah bidang yang dinamis dan berkembang cepat dengan
kekuatan besar. Di bagian ini, kami menguraikan secara singkat masalah utama dalam
penelitian data mining, membaginya menjadi lima kelompok: metodologi
penambangan, interaksi pengguna, efisiensi dan skalabilitas, keragaman tipe data, dan
penambangan data dan masyarakat. Banyak dari masalah ini telah ditangani dalam
penelitian dan pengembangan data mining hingga batas tertentu dan sekarang
dianggap sebagai persyaratan data mining; yang lainnya masih dalam tahap penelitian.
Masalah-masalah tersebut terus mendorong investigasi dan perbaikan lebih lanjut
dalam data mining.
to menambang data dengan teks bahasa alami, masuk akal untuk menggabungkan
metode penambangan data dengan metode pengambilan informasi dan pemrosesan
bahasa alami. Sebagai contoh lain, pertimbangkan penambangan bug perangkat
lunak dalam program besar. Bentuk penambangan ini, yang dikenal sebagai
penambangan bug, mendapatkan keuntungan dari penggabungan pengetahuan
rekayasa perangkat lunak ke dalam proses penambangan data.
Boostingkekuatan penemuan dalam lingkungan jaringan:MSebagian besar objek
data berada dalam lingkungan yang terhubung atau saling berhubungan, baik itu
Web, hubungan database, file, atau dokumen. Tautan semantik di beberapa objek
data dapat digunakan untuk memanfaatkan data mining. Pengetahuan yang
diperoleh dalam satu kumpulan objek dapat digunakan untuk meningkatkan
penemuan pengetahuan dalam kumpulan objek yang "terkait" atau terkait secara
semantik.
H.mengatasi ketidakpastian, kebisingan, atau ketidaklengkapan data:Data sering
kali berisi gangguan, kesalahan, pengecualian, atau ketidakpastian, atau tidak
lengkap. Kesalahan dan kebisingan dapat membingungkan proses penggalian data,
yang mengarah pada penurunan pola yang salah. Pembersihan data, preprocessing
data, deteksi dan penghapusan outlier, dan alasan ketidakpastian adalah contoh
teknik yang perlu diintegrasikan dengan proses data mining.
P.evaluasi atterndan penambangan yang dipandu pola atau batasan:Natau semua
pola yang dihasilkan oleh proses data mining menarik. Apa yang membuat pola
menarik mungkin berbeda dari pengguna ke pengguna. Oleh karena itu, teknik
diperlukan untuk menilai ketertarikan dari pola yang ditemukan berdasarkan
ukuran subjektif. Ini memperkirakan nilai pola sehubungan dengan kelas pengguna
tertentu, berdasarkan keyakinan atau harapan pengguna. Selain itu, dengan
menggunakan ukuran ketertarikan atau batasan yang ditentukan pengguna untuk
memandu proses penemuan, kami dapat menghasilkan pola yang lebih menarik dan
mengurangi ruang pencarian.
baru tanpa harus menambang seluruh data "dari awal". Metode tersebut melakukan
modifikasi pengetahuan secara bertahap untuk mengubah dan memperkuat apa
yang telah ditemukan sebelumnya.
35 Chapter 1 Introduction 1.7 Major Issues in Data Mining35
Masalah-masalah ini dan banyak masalah tambahan lainnya yang berkaitan dengan
penelitian, pengembangan, dan penerapan data mining dibahas di seluruh buku ini.
1.8 Ringkasan
1.9 Latihan
1.1 Apa itu data mining? Dalam jawaban Anda, alamatkan yang berikut:
(a) Apakah ini sensasi lain?
(b) Apakah transformasi sederhana atau aplikasi teknologi yang dikembangkan dari
database,
statistik, pembelajaran mesin,dan pengenalan pola?
(c) Kami telah mempresentasikan pandangan bahwa data mining adalah hasil evolusi
teknologi database. Apakah menurut Anda data mining juga merupakan hasil dari
evolusi penelitian pembelajaran mesin? Dapatkah Anda menyajikan pandangan
seperti itu berdasarkan sejarah kemajuan disiplin ini? Alamat yang sama untuk
bidang statistik dan pengenalan pola.
(d) Jelaskan langkah-langkah yang terlibat dalam penggalian data jika dipandang
sebagai proses penemuan pengetahuan.
1.2 Bagaimana data warehouse berbeda dari database? Bagaimana mereka mirip?
1.3 Tentukan setiap fungsi data mining berikut: karakterisasi, diskriminasi, asosiasi dan
analisis korelasi, klasifikasi, regresi, pengelompokan, dan
35 Chapter 1 Introduction 1.10 Bibliographic Notes35
analisis pencilan. Berikan contoh dari setiap fungsionalitas data mining, menggunakan
database kehidupan nyata yang Anda kenal.
1.4 Sajikan contoh di mana penambangan data sangat penting untuk keberhasilan bisnis.
Fungsi data mining apa yang dibutuhkan bisnis ini (misalnya, pikirkan jenis pola yang
dapat ditambang)? Dapatkah pola tersebut dihasilkan sebagai alternatif dengan
pemrosesan kueri data atau analisis statistik sederhana?
1.5 Jelaskan perbedaan dan persamaan antara diskriminasi dan klasifikasi, antara
karakterisasi dan pengelompokan, serta antara klasifikasi dan regresi.
1.6 Berdasarkan pengamatan Anda, jelaskan jenis pengetahuan lain yang mungkin perlu
ditemukan dengan metode data mining tetapi belum dicantumkan dalam bab ini.
Apakah ini memerlukan metodologi penambangan yang sangat berbeda dari yang
diuraikan dalam bab ini?
1.7 Pencilan sering kali diabaikan sebagai noise. Namun, sampah satu orang bisa menjadi
harta karun orang lain. Misalnya, pengecualian dalam transaksi kartu kredit dapat
membantu kami mendeteksi penggunaan kartu kredit yang tidak benar. Menggunakan
deteksi kecurangan sebagai contoh, usulkan dua metode yang dapat digunakan untuk
mendeteksi pencilan dan mendiskusikan mana yang lebih dapat diandalkan.
1.8 Jelaskan tiga tantangan untuk data mining mengenai metodologi data mining dan
masalah interaksi pengguna.
1.9 Apa tantangan utama dari menambang sejumlah besar data (misalnya, milyaran tupel)
dibandingkan dengan menambang sejumlah kecil data (misalnya, kumpulan data dari
beberapa ratus tupel)?
1.10 Garis besar tantangan penelitian utama dari data mining dalam satu domain aplikasi
tertentu, seperti analisis data stream / sensor, analisis data spasiotemporal, atau
bioinformatika.
Databy Liu [Liu06]; Data Mining: Topik Pengantar dan Lanjutan oleh Dunham
[Dun03]; dan Data Mining: Multimedia, Soft Computing, dan Bioinformatika oleh
Mitra dan Acharya [MA03].
Ada juga buku yang berisi kumpulan makalah atau bab tentang aspek-aspek
tertentu dari penemuan pengetahuan — misalnya, Relational Data Mining yang diedit
oleh Dzeoski dan Lavrac [De01]; Data Grafik Penambangan diedit oleh Cook and
Holder [CH07]; Aliran Data: Model dan Algoritma diedit oleh Aggarwal [Agg06];
Data Mining Generasi Berikutnya diedit oleh Kargupta, Han, Yu, dkk. [KHY + 08];
Multimedia Data Mining: Pengantar Sistematika Konsep dan Teori yang diedit oleh Z.
Zhang dan R. Zhang [ZZ09]; Penambangan Data Geografis dan Penemuan
Pengetahuan diedit oleh Miller dan Han [MH09]; dan Link Mining: Model, Algoritma
dan Aplikasi diedit oleh Yu, Han, dan Faloutsos [YHF10]. Ada banyak catatan tutorial
tentang data mining di database utama, data mining, pembelajaran mesin, statistik, dan
konferensi teknologi Web.
KDNuggetsadalah buletin elektronik reguler yang berisi informasi yang relevan
dengan penemuan pengetahuan dan penggalian data, dimoderatori oleh Piatetsky-
Shapiro sejak 1991. Situs Internet KDNuggets(www.kdnuggets.com)bersamanmemiliki
kumpulan informasi yang berhubungan dengan KDD.
Komunitas data mining memulai konferensi internasional pertamanya tentang
penemuan pengetahuan dan penggalian data pada tahun 1995. Konferensi tersebut
berkembang dari empat lokakarya internasional tentang penemuan pengetahuan dalam
basis data, yang diadakan dari tahun 1989 hingga 1994. ACM-SIGKDD, sebuah
Kelompok Minat Khusus tentang Pengetahuan Discovery in Databases didirikan di
bawah ACM pada tahun 1998 dan telah menyelenggarakan konferensi internasional
tentang penemuan pengetahuan dan penambangan data sejak 1999. IEEE Computer
Science Society telah menyelenggarakan konferensi penambangan data tahunan,
Konferensi Internasional tentang Penambangan Data (ICDM), sejak 2001. SIAM
(Society on Industrial and Applied Mathematics) telah menyelenggarakan konferensi
data mining tahunannya, SIAM Data Mining Conference (SDM), sejak 2002. Jurnal
khusus, Data Mining and Knowledge Discovery, diterbitkan oleh Kluwers Publishers,
telah tersedia sejak 1997 .Jurnal ACM, ACM Transactions on Knowledge Discovery
from Data, menerbitkan volume pertamanya pada tahun 2007.
SEBUAHCM-SIGKDDjuga menerbitkan buletin dua tahunan, SIGKDD
Explorations. Ada beberapa konferensi internasional atau regional lainnya tentang data
mining, seperti European Conference on Machine Learning and Principles and
Practice of Knowledge Discovery in Databases (ECML PKDD), Pacific-Asia
Conference on Knowledge Discovery and Data Mining (PAKDD), dan Konferensi
Internasional tentang Data Warehousing and Knowledge Discovery (DaWaK).
Research dalam data mining juga telah diterbitkan dalam buku, konferensi, dan
jurnal tentang database, statistik, pembelajaran mesin, dan visualisasi data. Referensi
ke sumber-sumber tersebut dicantumkan di akhir buku ini.
PoBuku teks pokok pada sistem basis data meliputi Sistem Basis Data: Buku
Lengkap karangan Garcia-Molina, Ullman, dan Widom [GMUW08]; Sistem
Manajemen Basis Data oleh Ramakrishnan dan Gehrke [RG03]; Konsep Sistem
Database oleh Silberschatz, Korth, dan Sudarshan [SKS10]; dan Dasar-dasar Sistem
Database oleh Elmasri dan Navathe [EN10]. Untuk kumpulan artikel penting yang
38 Chapter 1 Introduction 1.10 Bibliographic Notes38
diedit pada sistem database, lihat Bacaan dalam Sistem Database oleh Hellerstein dan
Stonebraker [HS05].
39 Chapter 1 Introduction 1.10 Bibliographic Notes39
Ada juga banyak buku tentang teknologi data warehouse, sistem, dan aplikasinya,
seperti The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
oleh Kimball dan Ross [KR02]; Perangkat Siklus Hidup Gudang Data oleh Kimball,
Ross, Thornthwaite, dan Mundy [KRTM08]; Menguasai Desain Data Warehouse:
Teknik Relasional dan Dimensi oleh Imhoff, Galemmo, dan Geiger [IGG03]; dan
Membangun Data Warehouse oleh Inmon [Inm96]. Satu set makalah penelitian
tentang tampilan terwujud dan implementasi gudang data dikumpulkan dalam
Tampilan Terwujud: Teknik, Implementasi, dan Aplikasi oleh Gupta dan Mumick
[GM99]. Chaudhuri dan Dayal [CD97] menyajikan gambaran umum awal yang
komprehensif tentang teknologi gudang data.
RHasil pencarian yang berkaitan dengan data mining dan data warehousing telah
diterbitkan dalam prosiding banyak konferensi database internasional, termasuk ACM-
SIGMOD International Conference on Management of Data (SIGMOD), International
Conference on Very Large Data Bases (VLDB), ACM SIGACT- SIGMOD-SIGART
Simposium Prinsip Sistem Basis Data (PODS), Konferensi Internasional tentang
Rekayasa Data (ICDE), Konferensi Internasional tentang Memperluas Teknologi
Basis Data (EDBT), Konferensi Internasional tentang Teori Basis Data (ICDT),
Konferensi Internasional tentang Manajemen Informasi dan Pengetahuan (CIKM),
Konferensi Internasional tentang Basis Data dan Aplikasi Sistem Pakar (DEXA), dan
Simposium Internasional tentang Sistem Basis Data untuk Aplikasi Tingkat Lanjut
(DASFAA).Riset dalam data mining juga dipublikasikan di jurnal database utama,
seperti IEEE Transactions on Knowledge and Data Engineering (TKDE), ACM
Transactions on Database Systems (TODS), Information Systems, The VLDB Journal,
Data and Knowledge Engineering, International Journal of Intelligent Sistem
Informasi (JIIS), dan Pengetahuan dan Sistem Informasi (KAIS).
Mmetode data mining yang efektif telah dikembangkan oleh ahli statistik dan
diperkenalkan dalam satu set buku teks yang kaya. Tinjauan klasifikasi dari perspektif
pengenalan pola statistik dapat ditemukan di Klasifikasi Pola oleh Duda, Hart, dan
Stork [DHS01]. Ada juga banyak buku teks yang membahas regresi dan topik lain
dalam analisis statistik, seperti Statistik Matematika: Ide Dasar dan Topik Pilihan oleh
Bickel dan Doksum [BD01]; Detektif Statistik: Kursus dalam Metode Analisis Data
oleh Ramsey dan Schafer [RS01]; Model Statistik Linear Terapan oleh Neter, Kutner,
Nacht- sheim, dan Wasserman [NKNW96]; Pengantar Model Linear Umum oleh
Dobson [Dob90]; Analisis Rangkaian Waktu Statistik Terapan oleh Shumway
[Shu88]; dan Analisis Statistik Multivariat Terapan oleh Johnson dan Wichern
[JW92].
Researchdalam statistik diterbitkan dalam prosiding beberapa konferensi statistik
utama, termasuk Rapat Statistik Bersama, Konferensi Internasional Masyarakat
Statistik Kerajaan dan Simposium tentang Antarmuka: Ilmu Komputer dan Statistik.
Sumber publikasi lain termasuk Journal of Royal Statistics Society, The Annals of
Statistics, Journal of American Statistics Association, Technometrics, dan Biometrika.
Textbooks dan buku referensi tentang pembelajaran mesin dan pengenalan pola
termasuk Machine Learning oleh Mitchell [Mit97]; Pengenalan Pola dan Pembelajaran
Mesin oleh Bishop [Bis06]; Pengenalan Pola oleh Theodoridis dan Koutroumbas
[TK08]; Pengenalan ke Machine Learning oleh Alpaydin [Alp11]; Model Grafis
Probabilistik: Prinsip
40 Chapter 1 Introduction 1.10 Bibliographic Notes40
dan Teknikby Koller dan Friedman [KF09]; dan Pembelajaran Mesin: Perspektif
Algoritmik oleh Marsland [Mar09]. Untuk kumpulan artikel penting yang telah diedit
tentang pembelajaran mesin, lihat Pembelajaran Mesin, Pendekatan Kecerdasan
Buatan, Volume 1 sampai 4, diedit oleh Michalski et al. [MCM83, MCM86, KM90,
MT94], dan Bacaan dalam Pembelajaran Mesin oleh Shavlik dan Dietterich [SD90].
Mpembelajaran achine dan penelitian pengenalan pola diterbitkan dalam prosiding
beberapa pembelajaran mesin utama, kecerdasan buatan, dan konferensi pengenalan
pola, termasuk Konferensi Internasional tentang Pembelajaran Mesin (ML),
Konferensi ACM tentang Teori Pembelajaran Komputasi (COLT), Konferensi IEEE
tentang Visi Komputer dan Pengenalan Pola (CVPR), Konferensi Internasional
tentang Pengenalan Pola (ICPR), Konferensi Bersama Internasional tentang
Kecerdasan Buatan (IJCAI), dan Konferensi Asosiasi Kecerdasan Buatan Amerika
(AAAI). Sumber publikasi lainnya termasuk pembelajaran mesin utama, kecerdasan
buatan, pengenalan pola, dan jurnal sistem pengetahuan, beberapa di antaranya telah
disebutkan sebelumnya. Lainnya termasuk Machine Learning (ML), Pattern
Recognition (PR),
Textbooks dan buku referensi tentang pencarian informasi termasuk Pengantar
Pencarian Informasi oleh Manning, Raghavan, dan Schutz [MRS08]; Pengambilan
Informasi: Menerapkan dan Mengevaluasi Mesin Pencari oleh Bu¨tcher, Clarke, dan
Cormack [BCC10]; Mesin Pencari: Pengambilan Informasi dalam Praktek oleh Croft,
Metzler, dan Strohman [CMS09]; Pengambilan Informasi Modern: Konsep dan
Teknologi di Balik Pencarian oleh Baeza-Yates dan Ribeiro-Neto [BYRN11]; dan
Pengambilan Informasi: Algoritma dan Heuristik oleh Grossman dan Frieder [GR04].
sayaPenelitian pengambilan informasi dipublikasikan dalam prosiding beberapa
pencarian informasi dan pencarian Web dan konferensi pertambangan, termasuk
Konferensi Internasional ACM SIGIR tentang Penelitian dan Pengembangan dalam
Pencarian Informasi (SIGIR), Konferensi Web Dunia Internasional (WWW), ACM
Konferensi Internasional tentang Pencarian Web dan Penambangan Data (WSDM),
Konferensi ACM tentang Manajemen Informasi dan Pengetahuan (CIKM), Konferensi
Eropa tentang Pengambilan Informasi (ECIR), Konferensi Pengambilan Teks (TREC),
dan ACM / Konferensi Bersama IEEE tentang Perpustakaan Digital (JCDL). Sumber
publikasi lainnya termasuk pencarian informasi utama, sistem informasi, dan jurnal
Web, seperti Journal of Information Retrieval, ACM Transactions on Information
Systems (TOIS), Information Processing and Management,
41 Chapter 1 Introduction 1.10 Bibliographic Notes41