5 Validasi Pengetahuan
Fakta bahwa data mining adalah pilihan antara alternatif,
Aspek penting dalam data mining adalah pengetahuan
validasi Untungnya kebenaran seperti yang didefinisikan oleh Saint Thomas
adalah
cukup banyak metrik dan bukan nilai tetap, memungkinkan kita melakukannya
diskusikan di kelas seberapa bagus data mining kita. Kapan
melakukan klasifikasi dengan menggunakan berbagai algoritma pembelajaran
mesin
kita berakhir dengan satu pengukuran: Success = Right
Klasifikasi / Total jumlah klasifikasi. Asalkan
kami menggunakan distribusi normal dan hukum dalam jumlah besar,
kita dapat menentukan tingkat kepercayaan untuk klasifikasi oleh
memecahkan probabilitas p seperti yang disarankan oleh Hall et al. [7]. Itu
Poin penting dalam solusi ini adalah karena jumlah kasus
meningkatkan rentang interval bisa dikurangi, sehingga mendapatkan lebih
banyak
perkiraan yang tepat Memang ukuran datanya lebih banyak
penting seperti yang dikemukakan oleh Halevy, Norvig, dan Pereira [5] dan
Domingos [2]. Ditambahkan ke ini validasi lintas sepuluh kali lipat juga
cara yang baik untuk memvalidasi klasifikasi. Penggunaan kebingungan
matriks dan pengukuran Kappa adalah cara standar untuk melihat
kinerja algoritma pembelajaran mesin sejak kita
mengurangi hasil classificator acak.
6 Diawasi dan tidak diawasi
Klasifikasi
Asosiasi afinitas versus klasifikasi masih ada lagi
topik diskusi penting di kelas Sebagian besar karena
Pilihan atribut tanpa pengawasan adalah pendekatan standar saat
dihadapkan dengan hubungan antar berbagai aktivitas yang dilihat
atribut. Yang disebut "analisis keranjang pasar" terjadi saat
pengecer berusaha memahami perilaku pembelian
pelanggan. Weka menyediakan baik disaring dan tanpa filter a priori
associator yang dapat digunakan siswa untuk Analisis Afinitas di Indonesia
Berbeda dengan Prism yang digunakan dalam pengawasan tradisional
klasifikasi.
7 Korelasi: Dasar Data Besar
Pertambangan
Akhirnya kita membahas pendekatan yang paling umum digunakan
data mining, contoh berbasis mesin pembelajaran atau memori
belajar berdasarkan korelasi Dalam kasus ini bukan
melakukan model a priori yang eksplisit, contoh baru
dibandingkan dengan kondisi lingkungan sebelumnya yang terlihat di
pelatihan yang telah tersimpan di memori. Inilah alasannya
untuk menyebut pendekatan ini malas belajar; pada kenyataannya seharusnya
disebut tertunda belajar. Hipotesis dibuat
secara dinamis sehingga memungkinkan data dan kompleksitas tumbuh. Nya
Praktek umum dapat dikaitkan dengan kemampuannya untuk menyesuaikan diri
data sebelumnya tak terlihat Contohnya dibandingkan dengan yang sederhana
Pengukuran jarak numerik seperti Euclidean (kuadrat
nilai) atau Manhattan (nilai absolut) dengan menggunakan berikut
Metrik sederhana mempertimbangkan semua atribut (atribut 1 sampai k) atau
fitur untuk dua contoh yang dimaksud (i1, i2):
D = SQRT [(a1
i1-a1
i2) 2 + (a2
i1-a2
i2) 2 +. . . + (ak
i1-ak
i2) 2] (2)
Dengan menggunakan pendekatan ini, normalisasi atribut diperlukan sebagai
Begitu juga dengan penugasan nilai maksimal. Contoh ini
Jenis klasifikasi adalah algoritma tetangga terdekat k dan
mesin kernel untuk pencarian terbatas. Karena lebih banyak data ditambahkan
Manajemen memori menjadi masalah saat menyimpan semuanya
contoh pelatihan; Perhatian harus diambil agar tidak terlalu pas
kebisingan di set pelatihan Clustering sudah banyak digunakan
Pendekatan pembelajaran tanpa pengawasan dimana kelompok dikelompokkan
menurut sebuah (1) alam pusat massa menggunakan jarak berbasis
pengukuran atau K berarti, (2) probabilitas yang diharapkan
maksimalisasi, atau (3) pengorganisasian sendiri. Siswa perlu tahu
bagaimana dan kapan harus menggunakan clustering Weka berguna
kelas untuk pengelompokan, contoh-contoh yang ditunjukkan pada Gambar 3
[7] dan Gambar 4 [7].
8 Hadoop
Kursus di Big Data tidak akan lengkap tanpa
MAP / REDUCE model pemrograman stream untuk diproses
dan menghasilkan dataset besar dengan menggunakan paralel terdistribusi
Arsitektur. Dengan data mining, set awal MAP / REDUCE
Langkah - langkah tersebut dapat dianggap sebagai penyaringan yang
dibutuhkan untuk mempersiapkan
dataset menyediakan penyimpanan yang berlebihan.
Memang penelitian di Big Data dan data mining merupakan topik hangat
hari ini, namun jika terobosan ini tidak diajarkan di
Tingkat sarjana topik tidak menjadi inovasi.
Sama seperti Peter Denning menyatakan, inovasi membutuhkan rutinitas baru
untuk diciptakan dan dengan demikian mengajarkan konsep-konsep ini menjadi
sebuah
bagian penting dari proses inovasi. Di institusi kita kita
Mengajar kursus tentang data mining dan visualisasi terbuka untuk junior
dan manula; terutama kita tertarik pada programmer cerdas
yang telah terpapar pada kedua struktur data dan database
konsep. Kursus ini menghadapkan siswa pada tren saat ini,
masalah, dan teknologi. Proyek tim, pembelajaran aktif,
dan ukuran kelas kecil semuanya berkontribusi terhadap kesuksesan
Tentu saja. Dalam penilaian siswa formal, siswa sangat banyak
laporkan kursus itu menantang dan penting. Kami mendorong
departemen untuk memasukkan kursus dalam data mining dan
visualisasi dalam program sarjana CS dan IT mereka.