Pemesanan Produk
Ini mengukur seberapa andal asumsi yang dibuat oleh aturan tersebut.
2/5
1/6
4/5
4. Pertanyaan 4
Apa artinya support itemset {milk, diapers, beer} adalah 0,25?
1 poin
Dari 4 transaksi yang ada di database, hanya 1 yang berisi susu, popok, dan bir
25% transaksi menunjukkan bahwa susu, popok, dan bir dibeli bersamaan
25% konsumen yang membeli susu dan popok juga membeli bir
5. Pertanyaan 5
Apa yang diukur dengan keyakinan dari suatu aturan?
1 poin
Ini mengukur seberapa andal asumsi yang dibuat oleh aturan tersebut.
Frekuensi relatif dari aturan atas jumlah total transaksi
75% konsumen yang membeli susu dan popok juga membeli bir
Dari 4 transaksi yang ada di database, hanya 3 yang berisi susu, popok, dan bir
75% konsumen yang membeli bir juga membeli susu dan popok
7. Pertanyaan 7
Apa artinya lift menjadi lebih besar dari satu?
1 poin
Artinya anteseden berpengaruh negatif terhadap terjadinya konsekuen, sehingga probabilitasnya turun.
Ini berarti probabilitas konsekuensi dari aturan tersebut meningkat setelah kita mengetahui bahwa konsumen membeli item anteseden.
Artinya anteseden tidak memberikan informasi apapun mengenai pembelian atau terjadinya konsekuen.
Ini berarti bahwa konsekuensinya memiliki efek negatif pada kemunculan anteseden, menurunkan probabilitasnya.
8. Pertanyaan 8
Berapa banyak kemungkinan itemset dengan n elemen?
1 poin
2^n-1
2*n
2^n
2*n - 1
9. Pertanyaan 9
Apa yang dimaksud dengan prinsip monotonitas? Harap centang alternatif yang benar
1 poin
Itemset {beras, mayones, roti} adalah frequent, sehingga kita dapat memastikan bahwa itemset {beras}, {beras, mayones}, {mayones, nasi} juga sering.
Jika sebuah itemset tidak sering, maka semua subgrupnya juga sering
Jika sebuah itemset TIDAK sering, maka set apa pun yang berisi kumpulan item ini juga tidak akan sering.
10. Pertanyaan 10
Apa itu aturan asosiasi?
1 poin
MINGGU 2
kita akan berbicara tentang penyortiran otomatis.
Putar video mulai dari 13 detik dan ikuti transkrip 0:13
Tujuan utama dari video ini adalah untuk memahami apa itu
klasifikasi otomatis dan apa jenis pembelajaran yang terkait.
Teknik klasifikasi otomatis mencari model
mampu secara otomatis mengidentifikasi kelas yang dimiliki objek tertentu.
Putar video mulai dari 30 detik dan ikuti transkrip 0:30
Misalnya, merancang sistem yang mampu membedakan antara huemul atau rusa kutub
dari sebuah gambar.
Putar video mulai dari 40 detik dan ikuti transkrip 0:40
Contoh lain adalah sistem yang mampu mengidentifikasi digit yang muncul
sebuah gambar.
Sistem ini dapat digunakan dalam identifikasi otomatis
jumlah uang dalam dokumen bank.
Putar video mulai dari 53 detik dan ikuti transkrip 0:53
Juga masalah klasifikasi otomatis adalah memutuskan apakah seorang pasien
apakah Anda menderita diabetes atau tidak berdasarkan hasil tes kesehatan Anda.
Putar video mulai dari 1 menit 5 detik dan ikuti transkrip 1:05
Contoh klasifikasi yang menarik juga menentukan
apakah sebuah planet muncul atau tidak dalam citra bintang, sesuatu yang banyak digunakan
hari ini untuk mendeteksi planet yang berpotensi dihuni oleh manusia.
Putar video mulai dari 1 menit 21 detik dan ikuti transkrip 1:21
Sistem penyortiran otomatis juga digunakan dalam industri
untuk menilai kualitas suatu produk.
Misalnya,
sebuah sistem yang mampu mengklasifikasikan buah dalam kondisi baik atau buruk sedemikian rupa
buang buah yang buruk sebelum menggunakannya untuk produksi pulp beku.
Putar video mulai dari 1 menit 41 detik dan ikuti transkrip 1:41
Skema umum untuk memecahkan masalah klasifikasi otomatis
Anda terutama harus memiliki dua hal.
Satu set pelatihan, yaitu,
satu set dengan data yang sebelumnya diklasifikasikan dan model klasifikasi.
Putar video mulai dari 1 menit 58 detik dan ikuti transkrip 1:58
Setelah kami memiliki data pelatihan kami
dan model klasifikasi, kita lanjutkan ke tahap penyesuaian atau pelatihan
dari classifier sedemikian rupa untuk menyelesaikan
menjadi model terlatih yang siap digunakan dalam praktik.
Putar video mulai dari 2 menit 16 detik dan ikuti transkrip 2:16
Saat model dipasang ke kumpulan data pelatihan,
kami mengatakan bahwa kami menghadapi proses pembelajaran yang diawasi.
Putar video mulai dari 2 menit 28 detik dan ikuti transkrip 2:28
Di sini kami juga memiliki contoh pembelajaran yang diawasi.
Misalkan kita tertarik pada model klasifikasi
mampu membedakan antara kucing dan anjing dari gambar mereka.
Hal pertama kemudian adalah bahwa kita harus memiliki satu set pelatihan.
Yakni, dari berbagai gambar kucing dan anjing yang teridentifikasi.
Putar video mulai dari 2 menit 51 detik dan ikuti transkrip 2:51
Selain set pelatihan, kami membutuhkan algoritma pelatihan.
Artinya, umumnya proses iteratif yang menganalisis data
dari set pelatihan sampai belajar bagaimana untuk memisahkan
antara kelas yang berbeda dan kemudian dapat mengklasifikasikan data di masa depan.
Putar video mulai dari 3 menit 10 detik dan ikuti transkrip 3:10
Setelah proses pelatihan selesai,
model Anda yang terlatih mampu mengklasifikasikan data baru.
Misalnya, jika gambar anjing dalam gambar tiba,
Putar video mulai dari 3 menit 24 detik dan ikuti transkrip 3:24
model terlatih kami akan dapat mengklasifikasikannya sebagai anjing.
Putar video mulai dari 3 menit 30 detik dan ikuti transkrip 3:30
Dalam video ini kita mempelajari konsep klasifikasi otomatis
dan pembelajaran yang diawasi.
Kami melihat bahwa perlu memiliki satu set pelatihan,
yaitu, kumpulan data dengan kasus berlabel sebelumnya
dan algoritme yang mampu mengulangi data tersebut dan menghasilkan model yang terlatih.
Putar video mulai dari 3 menit 52 detik dan ikuti transkrip 3:52
Saya membayangkan bahwa mereka memiliki keraguan tentang bagaimana algoritma realitas itu
pelatihan dan model klasifikasi.
Jangan khawatir, sekarang kita siap untuk memulai
Saya akan mengulas beberapa teknik ini di video mendatang.
[AUDIO_BLANK]
REPRESENTASI OBJEK
[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.
Dalam video ini kita akan berbicara tentang cara kita merepresentasikan objek dunia nyata
di database kami.
Tujuan utama dari video ini adalah untuk memahami bagaimana kita merepresentasikan objek dalam
komputer untuk memungkinkan nanti
penerapan algoritma klasifikasi otomatis.
Putar video mulai dari 27 detik dan ikuti transkrip 0:27
Secara umum, saat kita ingin mengembangkan algoritme otomatis yang menganalisis data,
kita harus melihat bagaimana memasukkan data itu ke komputer.
Putar video mulai dari 35 detik dan ikuti transkrip 0:35
Kemudian perlu untuk menentukan cara terstruktur untuk merepresentasikan objek
dari dunia nyata dan dengan demikian dapat memasukkannya ke dalam algoritma komputasi.
Misalnya, bagaimana komputer dapat memahami gambar binatang
atau hasil pemeriksaan kesehatan atau pelanggan yang melakukan pembelian?
Putar video mulai dari 57 detik dan ikuti transkrip 0:57
Misalkan kita ingin membangun database pelanggan yang berkunjung
toko kami.
Salah satu cara yang mungkin untuk memperkenalkan pelanggan di komputer,
Putar video mulai dari 1 menit 8 detik dan ikuti transkrip 1:08
adalah vektor nilai yang menggambarkan klien dengan variabelnya sendiri dan koheren
dari konteks.
Misalnya, total pembelian, profesi, lokasi toko,
jenis kelamin, dll.
Putar video mulai dari 1 menit 21 detik dan ikuti transkrip 1:21
Selain representasi melalui vektor
dalam konteks di mana kami juga tertarik untuk melakukan klasifikasi otomatis
kami perlu mengetahui kelas pelanggan kami dalam riwayat pembelian.
Biasanya kelas ditambahkan sebagai kolom baru,
menunjukkan nilai kelas tempat objek kita berada.
Dalam contoh ini, klien kami termasuk dalam kelas preferensial.
Perhatikan bahwa kelas yang mungkin harus ditentukan sebelumnya.
Putar video mulai dari 1 menit 50 detik dan ikuti transkrip 1:50
Vektor yang kemudian mewakili data kami,
biasanya akan memiliki pengidentifikasi yang sesuai dengan nilai
unik dalam database dan umumnya bukan bagian dari analisis itu sendiri.
Putar video mulai dari 2 menit 1 detik dan ikuti transkrip 2:01
Daftar atribut atau disebut juga variabel, deskriptor atau fitur.
Dan akhirnya nilai yang sesuai dengan kelas tempat objek tersebut berada.
Putar video mulai dari 2 menit 12 detik dan ikuti transkrip 2:12
Perhatikan bahwa mungkin ada kasus di database kami di mana kelas objek tidak
dikenal.
Putar video mulai dari 2 menit 18 detik dan ikuti transkrip 2:18
Justru untuk kasus-kasus inilah kita membutuhkan bantuan algoritme
klasifikasi otomatis untuk memprediksi nilai kelas dari objek tersebut.
Putar video mulai dari 2 menit 31 detik dan ikuti transkrip 2:31
Secara umum, kami memiliki banyak objek dalam data kami.
Biasanya objek sesuai dengan baris database.
Misalnya, dalam kasus pelanggan, jika kita memiliki 1200
pelanggan berarti kita akan memiliki 1.200 baris dalam database kita.
Putar video mulai dari 2 menit 49 detik dan ikuti transkrip 2:49
Contoh lain untuk merepresentasikan objek adalah gambar.
Yang biasanya dilakukan adalah merender gambar
sebagai vektor yang berisi piksel gambar.
Ada juga cara untuk menghitung variabel pada gambar.
Misalnya histogram warna atau fitur bentuk.
Putar video mulai dari 3 menit 11 detik dan ikuti transkrip 3:11
Misalkan kita ingin mengklasifikasikan digit yang terdapat dalam sebuah gambar,
Putar video mulai dari 3 menit 15 detik dan ikuti transkrip 3:15
Kami dapat merepresentasikan gambar sebagai vektor piksel, sedemikian rupa sehingga
classifier dapat mengenali nomor mana yang sesuai dengan gambar.
Putar video mulai dari 3 menit 26 detik dan ikuti transkrip 3:26
Ingat kembali contoh klasifikasi yang disebutkan di video sebelumnya,
tentang pemeriksaan medis pasien yang mungkin atau mungkin tidak menderita diabetes.
Putar video mulai dari 3 menit 38 detik dan ikuti transkrip 3:38
Cara alami untuk merepresentasikan ujian di komputer adalah melalui
vektor yang berisi semua deskriptor hasil tes,
Putar video mulai dari 3 menit 47 detik dan ikuti transkrip 3:47
Selain karakteristik pasien.
Putar video mulai dari 3 menit 50 detik dan ikuti transkrip 3:50
Setelah kami dapat memastikan apakah pasien menderita diabetes atau tidak,
kami akan memiliki kolom di akhir setiap baris yang menunjukkan kelas pasien.
Dalam hal ini, diabetes positif atau negatif.
Putar video mulai dari 4 menit 3 detik dan ikuti transkrip 4:03
Dalam video ini, kita melihat cara merepresentasikan berbagai jenis objek
dalam database, sedemikian rupa sehingga Anda dapat menggunakan
representasi ini sebagai masukan untuk algoritma klasifikasi otomatis.
[AUDIO_ KOSONG]
TETANGGA DEKAT
Minggu Evaluasi 2
TOTAL POIN DARI 10
1. Pertanyaan 1
Apa itu klasifikasi?
1 poin
Masalah klasifikasi berusaha untuk menemukan sistem yang mampu mengidentifikasi secara otomatis untuk setiap objek kelas yang
menjadi miliknya.
Ini adalah teknik untuk mencari asosiasi antara produk yang berbeda.
Ini adalah teknik untuk mengelompokkan informasi ke dalam kelompok atau cluster yang berbeda.
2. Pertanyaan 2
Bagaimana objek direpresentasikan untuk menerapkan algoritma klasifikasi? Tandai alternatif yang benar.
1 poin
Tidak diperlukan pra-pemrosesan. Umumnya adalah mendapatkan data apa adanya dan melatih menggunakan model klasifikasi
Jika itu adalah gambar, salah satu kemungkinannya adalah menggunakan setiap piksel gambar sebagai variabel.
3. Pertanyaan 3
Apa yang dilakukan algoritma tetangga terdekat?
1 poin
Mengklasifikasikan data baru dengan asumsi independensi antara variabel yang berbeda
4. Pertanyaan 4
Mengapa nyaman untuk menormalkan variabel sebelum melakukan algoritma tetangga terdekat?
2 poin
Sehingga variabel dengan peringkat lebih tinggi tidak mendominasi terhadap variabel dengan peringkat lebih rendah
5. Pertanyaan 5
Basis datanya adalah sebagai berikut:
Jenis variabel apa yang masing-masing akan menjadi atribut Olahraga, Jabatan di perusahaan dan Gaji?
1 poin
6. Pertanyaan 6
Manakah dari pernyataan berikut yang sesuai dengan kemungkinan modifikasi algoritme Tetangga Terdekat? (Tandai SEMUA alternatif
yang benar)
3 poin
menormalkan data
Gunakan bobot untuk dimensi sedemikian rupa sehingga memberikan bobot yang lebih rendah ke dimensi yang kurang relevan
Pertimbangkan jarak dari tetangga untuk pemungutan suara kelas
7. Pertanyaan 7
Apa kerugian utama dari algoritma Near Neighbors?
1 poin
Dengan menggunakan banyak dimensi dan semuanya memiliki relevansi yang sama, algoritme menjadi tidak layak dalam praktiknya.
Algoritma tetangga terdekat tidak memiliki kelemahan yang ditandai dengan baik.
ENTROPI
[MUSIK] Selamat datang di video baru dalam kursus Penambangan Data kami!
Dalam video ini, kita akan mempelajari secara detail konsep entropi, sebuah istilah kunci
untuk pemilihan variabel selama pembangunan pohon keputusan.
Apa yang memotivasi kami dalam video ini adalah untuk memahami kriteria apa yang dievaluasi
kualitas variabel dalam database kami, saat memilih
node terbaik selama proses pembangunan pohon.
Hal pertama yang harus dipahami adalah, dalam konteks klasifikasi otomatis, kualitas
variabel ada hubungannya dengan kemampuannya untuk memisahkan elemen antara
kelas yang mungkin berbeda, setelah variabel itu mengambil salah satu dari nilai-nilai itu.
Misalnya, nilai variabel berbeda
[INCOMPRESSIBLE] nilai kelas yang berbeda.
Jika ada hubungan langsung antara nilai variabel dan kemungkinan
kelas, itu berarti bahwa variabel sangat baik dalam mengklasifikasikan.
Kualitas suatu variabel kemudian berkaitan dengan seberapa baik variabel dipisahkan.
kelas, setiap kali kita instantiate atribut itu.
Kelas-kelas terpisah dengan baik ketika setiap subkelompok dihasilkan oleh
pembagian atribut bersifat homogen, yaitu
di setiap subkelompok semua milik kelas yang sama.
Misalnya, pada gambar kita memiliki variabel umur.
Kami melihat bahwa dibutuhkan dua kemungkinan nilai antara 18 dan 25 dan lebih besar dari 25.
Mari tandai dengan warna nilai berbeda yang dapat diambil variabel!
Dalam kasus di mana klien berusia antara 18 dan 25 tahun,
kelas yang muncul adalah Frequent dan Occasional yaitu,
berusia antara 18 dan 25 tahun tidak menjelaskan kepada kami kelas mana yang dimiliki klien.
Di sisi lain, jika usia lebih dari 25 tahun, kelas juga dibagi,
yaitu, ketika pelanggan berusia di atas 25 tahun,
juga tidak jelas bagi kita termasuk kelas mana mereka.
Oleh karena itu, variabel tersebut buruk untuk diklasifikasikan.
Sekarang kita punya contoh lain.
Variabel jenis kelamin.
Nilai yang mungkin adalah laki-laki atau perempuan.
Mari tandai dengan warna nilai berbeda yang dapat diambil variabel.
Jika kita memilih dari data,
Dalam kasus di mana kliennya adalah wanita, kami melihat bahwa dalam kedua kasus,
kelas sesekali, oleh karena itu, ketika jenis kelamin klien adalah perempuan,
itu adalah prediktor yang baik untuk pelanggan sesekali.
Sekarang, jika kita pilih dari data, kasus di mana kliennya laki-laki,
kita melihat bahwa mereka semua termasuk dalam kelas Frequent.
Oleh karena itu, pelanggan pria merupakan prediktor yang baik untuk kelas Frequent.
Akhirnya, kita dapat menyimpulkan bahwa variabel jenis kelamin baik,
Anda bahwa ketika kita instantiate, menghasilkan tingkat homogenitas kelas yang baik.
Karena kami mencatat bahwa kualitas suatu variabel memiliki
berkaitan dengan homogenitas kelas, setelah kita membuat instance variabel,
kita membutuhkan metrik homogenitas.
Mari kita lihat sebuah contoh, sedikit lebih rumit.
Misalkan kita memiliki dua kemungkinan kelas ya dan tidak.
Jika ada 100 catatan dalam database kami,
di mana setiap kelas memiliki setengah catatan,
dan misalkan ketika meninjau kasus di mana A adalah 0, kami menemukan 48
baris milik kelas Ya dan dua baris milik kelas No.
Melihat sekarang pada kasus di mana A sama dengan 1,
kita melihat bahwa masih ada dua kasus kelas Ya dan 48 kelas No.
Jadi, variabel A sebagian besar berhasil memisahkan kelas dengan baik saat
ini dipakai.
Sekarang mari kita lihat variabel B.
Misalkan dengan membuat instance variabel B pada nilainya 0,
memberi kita bahwa 26 catatan milik kelas Ya dan 24 milik kelas Tidak.
Ini tidak baik, maksud Anda variabel B nilainya 0,
itu gagal untuk menghomogenkan kelas.
Terbalik, itu membuat mereka kira-kira setengah dari satu kelas dan setengah dari yang lain.
Hal serupa terjadi ketika variabel B dipakai pada nilai 1.
24 kasus tetap di kelas Ya dan 26 kasus tetap di kelas No.
Di sini juga variabel meninggalkan homogenisasi kelas yang buruk.
Sekali lagi, kita memiliki kasus variabel baik dan buruk,
tetapi di sini kita melihat bahwa homogenisasi mengambil nilai antara, yaitu,
kita membutuhkan ukuran yang memberi kita nilai homogenisasi untuk masing-masing
proporsi yang mungkin dari unsur-unsur yang termasuk dalam satu kelas dan kelas lainnya.
Karena kami memahami dari contoh-contoh bahwa perlu untuk dapat mengukur
homogenitas kelas setiap kali kita instantiate variabel kita
mengevaluasi, kita berada dalam posisi untuk mempelajari konsep entropi.
Entropi berasal dari teori informasi,
Ini adalah indikator yang memungkinkan kita mengukur tingkat gangguan dalam kumpulan data.
Kami akan menunjukkan entropi dengan H dan itu sesuai dengan minus jumlah
dari istilah p log p, untuk setiap kemungkinan kelas, di mana p menunjukkan
proporsi kasus milik setiap nilai kelas yang bersangkutan.
Mari kita lihat contoh penggunaan entropi.
Pertimbangkan data yang muncul di slide.
Pertama, perhatikan bahwa ada dua kemungkinan kelas, Frequent dan Ocasional.
Kami menandai baris dengan warna berbeda, agar lebih mudah memvisualisasikannya.
Jika kita ingin menghitung entropi kelas,
Menerapkan rumus yang kita lihat sebelumnya,
kita harus melihat proporsi kasus yang terjadi untuk setiap kemungkinan
nilai-nilai yang diambil kelas, dalam hal ini, Sering dan Sesekali.
Dalam kasus Sering, kami memiliki satu baris dari total empat baris,
dan dalam kasus Sesekali, kami memiliki tiga baris dari total empat baris.
Menerapkan proporsi ini dalam rumus, kita melihat hasilnya di layar.
Entropi sama dengan 1, jika kita memiliki 50% data
milik masing-masing dari dua kelas yang mungkin.
Dalam video ini kita belajar konsep entropi,
yang mengukur tingkat homogenitas dalam satu set nilai.
Biasanya, kami mengukur homogenitas dalam kolom kelas data.
yang sesuai dengan target yang ingin kita prediksi di
klasifikasi otomatis.
DI POHON KEPUTUSAN
contohb
[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.
Dalam video ini, kita akan melihat contoh lengkap membangun pohon keputusan.
Motivasi utama dari video ini adalah untuk meninjau
menyelesaikan proses membangun pohon, sedemikian rupa untuk memperkuat
konsep yang paling penting yang terlibat dalam proses ini.
Putar video mulai dari 25 detik dan ikuti transkrip 0:25
Misalkan kita memiliki tabel data yang muncul di slide.
Kami melihat bahwa kami memiliki tiga variabel dan,
pada akhirnya, di sisi kanan, kolom dengan kelas dari setiap elemen.
Idenya adalah untuk membangun pohon keputusan yang memungkinkan untuk mengklasifikasikan
panorama yang harus dinikmati anak muda tergantung cuaca,
tinggal atau tidaknya anak muda tersebut dengan orang tuanya dan keadaan ekonominya.
Nilai yang mungkin untuk panorama adalah, pergi ke bioskop atau tinggal di rumah.
Putar video mulai dari 53 detik dan ikuti transkrip 0:53
Penting untuk disebutkan bahwa dalam latihan ini kita tidak akan menggunakan jenis apa pun
plum untuk membuat contoh sesederhana mungkin.
Putar video mulai dari 1 menit 2 detik dan ikuti transkrip 1:02
Maka, hal pertama untuk membangun pohon adalah menemukan variabel terbaik,
khususnya, yang sesuai dengan simpul akar pohon.
Untuk melakukan ini, ingatlah bahwa kita harus menghitung perolehan informasi
dari masing-masing variabel.
Persamaan yang diperlukan tercantum pada slide.
untuk menghitung setiap perolehan informasi.
Putar video mulai dari 1 menit 26 detik dan ikuti transkrip 1:26
Saya sangat menyarankan Anda menjeda video
dan perhatikan baik-baik setiap suku dari persamaan tersebut.
Secara khusus, slide ini menunjukkan cara menghitung keuntungan dari
informasi dari variabel Iklim dan Kehidupan dengan orang tua mereka.
Putar video mulai dari 1 menit 42 detik dan ikuti transkrip 1:42
Kita sekarang melihat persamaan untuk menghitung perolehan informasi
dari variabel situasi Ekonomi.
Perhatikan bahwa untuk tiga perolehan informasi
perlu menghitung entropi awal kelas, dalam hal ini, Panorama.
Putar video mulai dari 1 menit 57 detik dan ikuti transkrip 1:57
Dan kemudian rata-rata tertimbang dari entropi kelas satu kali
bahwa kami membuat contoh nilai yang mungkin dari variabel yang dimaksud.
Putar video mulai dari 2 menit 7 detik dan ikuti transkrip 2:07
Mari kita mulai dengan perhitungan entropi kelas.
Kami menandai dengan warna baris yang sesuai
untuk nilai kelas yang berbeda.
Putar video mulai dari 2 menit 16 detik dan ikuti transkrip 2:16
Kami melihat ada lima kasing untuk Bioskop dan tiga kasing untuk Rumah.
Karena total ada delapan kasus, kami akan menggunakan proporsi lima per delapan dan tiga
seperdelapan untuk menghitung entropi.
Putar video mulai dari 2 menit 29 detik dan ikuti transkrip 2:29
Mengikuti perhitungan yang muncul dalam persamaan, kita dapat melihat bahwa
entropi, menggunakan proporsi yang ditunjukkan, adalah 0,9544.
Kemudian, kami melanjutkan dengan perolehan informasi untuk variabel Iklim.
Karena kita perlu menghitung entropi Panorama,
setiap kali kami membuat instance variabel Iklim, kami menandainya dengan warna
nilai yang mungkin dari variabel ini, dalam hal ini Panas, Angin dan Hujan.
Dengan kata lain,
kita akan menghitung entropi Panorama tiga kali; pertama dengan baris ungu,
lalu dengan barisan biru, dan terakhir dengan barisan kuning.
Setelah itu, kita ambil rata-rata tertimbang dari ketiganya dan seterusnya
kami siap untuk mendapatkan perolehan informasi dari variabel Iklim.
Maka, kita mulai dengan entropi Panorama saat Iklim sama dengan Panas.
Kami membuat instance variabel Cuaca ke nilai Panasnya, yang berarti hanya mempertimbangkan
deretan data yang variabelnya adalah Panas.
Dengan baris tersebut kami menghitung entropi Panorama.
Pada kasus ini,
Panorama memiliki dua baris, satu dengan kelas Cinema dan satu lagi dengan kelas Home.
Ini menyiratkan bahwa kita harus menggunakan proporsi satu-setengah dan satu-setengah untuk
perhitungan entropi.
Putar video mulai dari 3 menit 37 detik dan ikuti transkrip 3:37
Ini memberi kita entropi sama dengan 1.
Sekarang, kami menghitung entropi Panorama
untuk kasus di mana variabel Iklim sama dengan Angin.
Kami memiliki dua kasing dari tiga untuk nilai Bioskop dan satu dari tiga kasing untuk nilai Rumah.
Kami mendapatkan entropi, kemudian, dengan proporsi dua pertiga dan sepertiga.
Putar video mulai dari 3 menit 59 detik dan ikuti transkrip 3:59
Entropi ketiga yang tersisa
Putar video mulai dari 4 menit 3 detik dan ikuti transkrip 4:03
adalah Panorama ketika variabel Iklim adalah Hujan.
Kami memilih baris itu, dalam hal ini yang kuning, dan kami melihatnya
kami memiliki satu kasing milik kelas Rumah dan dua kasing milik kelas Sinema.
Kami mengambil entropi, kemudian, dengan rasio itu dan memberi kami 0,9183.
Terakhir, untuk menghitung perolehan informasi dari variabel Iklim,
kami mengambil rata-rata tertimbang dari tiga entropi yang baru saja kami peroleh.
Dalam hal ini, bobotnya adalah dua per delapan, tiga per delapan dan tiga per delapan,
yang sesuai dengan jumlah baris ungu,
masing-masing biru dan kuning.
Putar video mulai dari 4 menit 44 detik dan ikuti transkrip 4:44
Keuntungannya adalah entropi awal yang lebih kecil 0,9544
rata-rata tertimbang, memberi kita total 0,0015675.
Saya mengundang Anda untuk melakukan prosedur yang sama dengan variabel
Dia tinggal bersama orang tuanya dan situasi ekonomi.
Putar video mulai dari 5 menit 1 detik dan ikuti transkrip 5:01
Perolehan informasi masing-masing muncul di layar.
Putar video mulai dari 5 menit 8 detik dan ikuti transkrip 5:08
Membandingkan tiga keuntungan informasi,
kita melihat bahwa variabel Tinggal bersama orang tua mereka adalah yang memiliki keuntungan tertinggi
informasi, oleh karena itu, dipilih untuk menjadi simpul akar dari pohon.
[SUARA] Kami melanjutkan untuk menempatkannya
dan telusuri setiap kemungkinan nilai yang dapat diambil oleh variabel ini.
Dalam hal ini, Ya atau Tidak.
Ketika variabelnya Ya, tabel datanya adalah yang muncul di sisi kiri.
Ketika variabelnya adalah Tidak,
kita memiliki tabel data yang berbeda; kita bisa melihatnya di sisi kanan pohon.
Putar video mulai dari 5 menit 48 detik dan ikuti transkrip 5:48
Kami melanjutkan, kemudian, dengan pembangunan pohon yang sama.
Intinya, kita akan melakukan hal yang sama seperti yang kita lakukan untuk menemukan simpul akar,
hanya sekarang seperti Anda, kami turun ke simpul di pohon itu,
Kami hanya akan bekerja dengan data yang memenuhi persyaratan dari
variabel Tinggal bersama orang tua Ya, yaitu tabel yang muncul di layar.
Putar video mulai dari 6 menit 12 detik dan ikuti transkrip 6:12
Seperti iterasi sebelumnya,
kita harus menghitung perolehan informasi dari semua variabel
kandidat, dalam hal ini variabel Iklim dan Situasi Ekonomi.
Putar video mulai dari 6 menit 26 detik dan ikuti transkrip 6:26
Seperti sebelumnya, hal pertama yang harus dilakukan adalah menghitung entropi awal kelas.
Jangan lupa bahwa nilai ini akan berbeda dengan iterasi sebelumnya,
Anda bahwa kami sekarang memiliki lebih sedikit baris dalam tabel data kami.
Kami melihat bahwa kelas tersebut memiliki empat kasing yang sama dengan Bioskop dan satu kasing yang sama dengan Rumah.
Menghitung entropi dengan rasio tersebut memberi kita 0,7219.
Untuk menghitung perolehan informasi dari variabel Iklim,
Seperti sebelumnya, kita harus mendapatkan entropi dari
kelas untuk setiap nilai yang mungkin dari variabel.
Dalam hal ini, perhitungan dilakukan lebih cepat,
Anda bahwa kami melihat bahwa kami memiliki sangat sedikit baris yang tersisa untuk melakukan perhitungan.
Misalnya, ketika kita hanya memiliki satu baris, entropinya adalah 0,
Anda bahwa kami memiliki data milik kelas, berarti 100%
kasus ada di kelas itu, yaitu kasus di mana entropi sama dengan 0.
Jika kita memiliki dua baris, dan dalam kedua kasus kelasnya berbeda, itu artinya
bahwa kami memiliki 50% kasus di satu kelas dan 50% kasus di kelas lain.
Putar video mulai dari 7 menit 35 detik dan ikuti transkrip 7:35
Ini sesuai dengan situasi di mana entropi sama dengan 1.
Saya mengundang Anda untuk menghitung tiga entropi
kelas untuk masing-masing nilai variabel Iklim.
Konfirmasikan bahwa mereka sesuai dengan angka yang muncul di layar.
Putar video mulai dari 7 menit 51 detik dan ikuti transkrip 7:51
Terakhir, mengambil rata-rata tertimbang dari ketiga entropi dan melakukan
pengurangan seperti yang kita lihat di layar, kita memperoleh informasi tambahan
Putar video mulai dari 8 menit 2 detik dan ikuti transkrip 8:02
sebesar 0,3219 untuk variabel Iklim pada saat variabel Tinggal Bersama Orang Tua adalah Ya.
Putar video mulai dari 8 menit 9 detik dan ikuti transkrip 8:09
Mari kita hitung perolehan informasi untuk variabel
Situasi ekonomi.
Putar video mulai dari 8 menit 14 detik dan ikuti transkrip 8:14
Seperti halnya Iklim, kita perlu menghitung entropi kelas
untuk setiap nilai variabel situasi ekonomi.
Misalnya, untuk kasus di mana situasi ekonomi baik,
kami memiliki dua baris yang ditandai dengan warna kuning.
Putar video mulai dari 8 menit 31 detik dan ikuti transkrip 8:31
Di sana kita melihat bahwa kedua baris milik kelas Cinema, oleh karena itu,
100% kasus berada di kelas yang sama, yaitu entropinya adalah 0.
Dalam kasus di mana situasi Ekonomi variabel Buruk,
kami memiliki tiga kasing yang ditandai dengan warna biru.
Dari kasus-kasus ini, dua milik Cine dan satu milik Casa, oleh karena itu, the
diperoleh entropi dengan perbandingan dua pertiga dan sepertiga, menghasilkan 0,9183.
Putar video mulai 9 menit 0 detik dan ikuti transkrip 9:00
Menerapkan, kemudian, nilai yang ditemukan untuk dua entropi,
mendapatkan rata-rata tertimbang dan melakukan pengurangan, hasilnya untuk
perolehan informasi dari variabel situasi ekonomi adalah 0,17.
Karena perolehan informasi dari atribut Cuaca lebih besar
dengan atribut Situasi ekonomi, simpul Iklim akan menjadi simpul berikutnya yang dipilih.
Putar video mulai dari 9 menit 27 detik dan ikuti transkrip 9:27
Kami kemudian menempatkannya di pohon kami dan melanjutkan konstruksi.
Putar video mulai dari 9 menit 33 detik dan ikuti transkrip 9:33
Kami melihat bahwa simpul Cuaca memiliki tiga anak panah yang keluar darinya,
satu untuk setiap nilai variabel.
Putar video mulai dari 9 menit 40 detik dan ikuti transkrip 9:40
Dalam setiap kasus, tabel data yang berbeda dihasilkan.
Di sini kemungkinan besar salah satu kriteria penahanan terpenuhi
dari algoritma.
Ingatlah bahwa kriteria ini terpenuhi ketika kita memilikinya
bahwa semua data milik kelas yang sama atau
ketika semua data memiliki nilai yang sama di atributnya.
Putar video mulai dari 10 menit 1 detik dan ikuti transkrip 10:01
Jika tidak ada kriteria berhenti yang terpenuhi.
kita harus memilih node lagi.
Putar video mulai dari 10 menit 7 detik dan ikuti transkrip 10:07
Untungnya, kami hanya memiliki satu kemungkinan variabel yang tersisa, jadi kami tidak
Itu akan menjadi pilihan lain, untuk menempatkan simpul yang sesuai dengan variabel itu.
Dalam hal ini Situasi Ekonomi.
Putar video mulai dari 10 menit 20 detik dan ikuti transkrip 10:20
Mari kita lihat kemungkinan panah pertama.
Di sini kita melihat bahwa tidak ada kriteria penahanan yang terpenuhi.
bahwa kelasnya berbeda dan juga nilai dalam atributnya berbeda.
Putar video mulai dari 10 menit 36 detik dan ikuti transkrip 10:36
Kami kemudian harus memilih node terbaik
Karena hanya variabel Situasi Ekonomi yang tersisa, maka variabel itulah yang akan dipilih.
Putar video mulai dari 10 menit 46 detik dan ikuti transkrip 10:46
Kami menempatkan variabel di pohon kami seperti ini,
kita dapat melihat bahwa secara alami setelah variabel Situasi Ekonomi, the
kriteria penghentian Anda bahwa kami hanya memiliki satu baris tersisa di setiap lengan,
oleh karena itu kami menempatkan kelas yang sesuai dengan setiap baris.
Ketika Situasi Ekonomi buruk, kelas yang muncul adalah Rumah
dan ketika Situasi Ekonomi sedang bagus, maka kelas yang muncul adalah Bioskop.
Putar video mulai dari 11 menit 15 detik dan ikuti transkrip 11:15
Kita sekarang melihat bahwa iklim adalah Angin, salah satunya
kriteria berhenti Anda bahwa semua kasus di bioskop kelas.
Putar video mulai dari 11 menit 26 detik dan ikuti transkrip 11:26
Kami kemudian meletakkan selembar dengan kelas Cinema dalam kasus itu.
Hal serupa terjadi dalam kasus di mana cuaca bernilai Hujan.
Kami melihat bahwa salah satu kriteria berhenti juga terpenuhi,
sebenarnya keduanya terpenuhi.
Karena?
Putar video mulai dari 11 menit 42 detik dan ikuti transkrip 11:42
Kami kemudian menempatkan lembar dengan kelas Cinema juga dalam kasus itu.
Putar video mulai dari 11 menit 49 detik dan ikuti transkrip 11:49
Kita harus melihat apa yang terjadi di cabang di mana node Tinggal bersama orang tuanya, oke tidak.
Tabel data pada situasi tersebut dapat dilihat pada gambar.
Putar video mulai 12 menit 0 detik dan ikuti transkrip 12:00
Kami melihat bahwa tidak ada kriteria penghentian yang terpenuhi,
oleh karena itu kita harus memilih variabel terbaik untuk kasus itu.
Putar video mulai dari 12 menit 9 detik dan ikuti transkrip 12:09
Itu berarti kita harus menghitung perolehan informasi untuk
atribut Iklim dan Situasi Ekonomi dengan tabel data di layar.
Putar video mulai dari 12 menit 22 detik dan ikuti transkrip 12:22
Sekali lagi kita harus menghitung entropi awal Kelas.
Berikut adalah dua baris di mana Kelas bernilai Rumah dan satu baris di mana Kelas bernilai Bioskop,
oleh karena itu entropi dihitung dengan proporsi dua pertiga dan sepertiga,
hasilnya 0,91.
Putar video mulai dari 12 menit 40 detik dan ikuti transkrip 12:40
Kami melanjutkan untuk menghitung perolehan informasi dari variabel Iklim.
Itu membutuhkan penghitungan entropi Kelas untuk masing-masing
dari nilai variabel Iklim.
Disini terlihat bahwa nilai yang muncul adalah Wind dan Rain.
Dalam kasus Angin, entropinya adalah 0 dan dalam kasus Angin, entropinya adalah 1.
Putar video mulai dari 13 menit 2 detik dan ikuti transkrip 13:02
Jangan lupa untuk meninjau mengapa situasi ini terjadi.
Putar video mulai dari 13 menit 7 detik dan ikuti transkrip 13:07
Seperti yang Anda ketahui, kami mengambil rata-rata tertimbang,
kami menerapkan pengurangan dan hasilnya adalah 0,2516.
Kami melakukan hal yang sama untuk variabel Situasi Ekonomi.
Di sini entropi Kelas untuk setiap nilai variabel
Situasi ekonomi adalah,
0 jika Situasi Ekonomi baik dan 1 jika Situasinya buruk.
Putar video mulai dari 13 menit 33 detik dan ikuti transkrip 13:33
Mengambil rata-rata tertimbang dan menerapkan pengurangan,
Kami mendapatkan hasilnya di layar.
Putar video mulai dari 13 menit 43 detik dan ikuti transkrip 13:43
Kita melihat perolehan informasi Situasi Ekonomi dan Iklim
memberi kita nilai yang sama.
Biasanya apa yang dilakukan dalam kasus ini
adalah memilih salah satu variabel secara acak.
Putar video mulai dari 13 menit 55 detik dan ikuti transkrip 13:55
Misalkan kita akan memilih variabel Situasi Ekonomi.
Putar video mulai dari 14 menit 3 detik dan ikuti transkrip 14:03
Akhirnya pohon itu seperti yang terlihat pada slide.
Putar video mulai dari 14 menit 7 detik dan ikuti transkrip 14:07
Saya mengundang Anda untuk memeriksa lembar yang kami tambahkan dan memverifikasi bahwa itu benar.
Putar video mulai dari 14 menit 15 detik dan ikuti transkrip 14:15
Dalam video ini,
kami melihat contoh lengkap membangun pohon keputusan.
Putar video mulai dari 14 menit 22 detik dan ikuti transkrip 14:22
Kami melihat bahwa secara rekursif
langkah yang sama pada setiap tahap konstruksi pohon.
Putar video mulai dari 14 menit 30 detik dan ikuti transkrip 14:30
Jangan lupa bahwa dalam contoh khusus ini kami tidak menggunakan Pemangkasan,
Anda bahwa tujuannya adalah untuk meninjau proses konstruksi dari
0.
Minggu Evaluasi 3
TOTAL POIN DARI 10
1. Pertanyaan 1
Apa jenis algoritma pohon keputusan?
1 poin
2. Pertanyaan 2
Berapa peringkat kredit untuk pelanggan dengan riwayat bagus dan pendapatan $750?
1 poin
tidak dapat ditentukan
Tergantung situasinya
Disetujui
Ditolak
3. Pertanyaan 3
Menggunakan angka dari pertanyaan sebelumnya, apa variabel dengan perolehan informasi terbesar?
1 poin
Catatan
Penghasilan
Pelanggan
tidak dapat ditentukan
4. Pertanyaan 4
Manakah dari pernyataan berikut yang paling cocok dengan istilah entropi untuk algoritma klasifikasi?
1 poin
Entropi memungkinkan kita untuk memilih variabel yang akan dipilih pada iterasi berikutnya
p*log(p)
5. Pertanyaan 5
Apa yang dilambangkan oleh gambar di bawah ini?
1 poin
Menunjukkan nilai entropi versus proporsi elemen kelas. Di sini kita mengasumsikan bahwa ada tiga kemungkinan kelas
Menunjukkan nilai entropi versus proporsi elemen kelas. Di sini kita mengasumsikan bahwa ada dua kemungkinan kelas
Menunjukkan nilai perolehan versus proporsi item dalam suatu kelas. Di sini kita mengasumsikan bahwa ada tiga kemungkinan kelas
Menunjukkan nilai perolehan versus proporsi item dalam suatu kelas. Di sini kita mengasumsikan bahwa ada dua kemungkinan kelas
6. Pertanyaan 6
Bagaimana perolehan informasi didefinisikan?
1 poin
Perolehan informasi adalah cara untuk memilih variabel mana yang akan dipilih saat memisahkan dalam pohon keputusan
Perolehan informasi adalah pengurangan entropi yang diharapkan dari pemisahan menurut atribut tertentu.
p*log(p)
Mengukur tingkat homogenitas kumpulan data
7. Pertanyaan 7
Perhatikan tabel berikut. Manakah dari variabel berikut yang memberikan perolehan informasi yang lebih besar?
2 poin
Jenis kelamin
Usia
Kisaran gaji
Anda tidak dapat mengetahui secara apriori, Anda harus melakukan perhitungan matematis
8. Pertanyaan 8
Apa masalah utama overtraining atau overfitting algoritme kita? Tandai alternatif yang benar.
2 poin
Overtraining akan membuat model kami cocok dengan kesalahan itu juga.
Model kami sangat cocok dengan data pelatihan yang menghasilkan model yang lebih baik dalam praktiknya.
MODEL KLASIFIKASI.
[MUSIK] Selamat datang di video baru dalam kursus penambangan data kami.
Dalam video ini kita akan melihat bagaimana mengevaluasi model klasifikasi kita.
Putar video mulai dari 14 detik dan ikuti transkrip 0:14
Apa yang terutama memotivasi kami dalam video ini adalah untuk memahami bagaimana kami harus mendesain
proses mengevaluasi kinerja model klasifikasi kami,
sedemikian rupa untuk memiliki indikator yang kira-kira mencerminkan seberapa baik
model kami akan berfungsi setelah dimasukkan ke dalam produksi.
Putar video mulai dari 36 detik dan ikuti transkrip 0:36
Ingatlah bahwa sejauh ini kita telah melihat dua model klasifikasi,
model tetangga terdekat dan model pohon keputusan.
Putar video mulai dari 46 detik dan ikuti transkrip 0:46
Misalkan kami meminta Anda melatih pohon keputusan itu
Mengklasifikasikan pelanggan ke dalam kelas sesekali dan sering.
Putar video mulai dari 55 detik dan ikuti transkrip 0:55
Tujuan utamanya adalah agar model kami mengklasifikasikan dengan baik pelanggan siapa
akan melihat di masa depan
yaitu, klien yang tidak dilihat oleh model kami selama proses pelatihan.
Putar video mulai dari 1 menit 6 detik dan ikuti transkrip 1:06
Alasan utama untuk ini adalah bahwa untuk klien di masa depan,
kami tidak tahu kelasnya, jadi kami tertarik dengan model yang bisa
untuk memprediksi kelas seakurat mungkin,
Anda bahwa organisasi kita akan membuat keputusan penting,
tergantung pada kelas masing-masing klien tersebut.
Putar video mulai dari 1 menit 29 detik dan ikuti transkrip 1:29
Misalkan model kami menghasilkan peringkat untuk pelanggan baru.
Dalam contoh ini,
model kami memberi tahu kami bahwa pelanggan termasuk dalam kelas sesekali.
Bagaimana kita bisa tahu jika model mengatakan hal yang benar atau melakukan kesalahan?
Putar video mulai dari 1 menit 46 detik dan ikuti transkrip 1:46
Sayangnya, kita tidak bisa tahu.
Anda bahwa kami tidak mengetahui kelas sebenarnya tempat klien ini berada.
Putar video mulai dari 1 menit 54 detik dan ikuti transkrip 1:54
Untungnya, kami punya jalan keluar.
Apa yang dilakukan adalah untuk mensimulasikan kasus masa depan,
meninggalkan beberapa data pelatihan kami.
Misalnya, jika dalam hal ini kami mengabaikan klien kami yang muncul di
sisi kanan daftar pelanggan dan latih pohon keputusan kita
hanya dengan klien yang muncul di sisi kiri, lalu,
kita dapat meminta model untuk mengklasifikasikan klien ini yang kita tinggalkan.
Model tidak pernah melihat klien ini,
Anda bahwa kami menghapusnya dari set pelatihan.
Selain itu, untuk klien ini kami mengetahui kelasnya, oleh karena itu,
ya kita bisa membandingkan prediksi classifier dengan kelas sebenarnya.
Putar video mulai dari 2 menit 42 detik dan ikuti transkrip 2:42
Maka, idenya adalah membagi kumpulan data pelatihan kami menjadi dua
bagian, satu dengan data yang akan kita gunakan untuk melatih model,
disebut set pelatihan, dan lainnya
Putar video mulai dari 2 menit 55 detik dan ikuti transkrip 2:55
dengan data yang hanya akan kita gunakan untuk mengevaluasi model, yang disebut test set.
Biasanya, divisi database kami ini mengalokasikan 20-30% untuk
bagian dari set tes dan 80 atau 70% untuk set pelatihan, masing-masing.
Putar video mulai dari 3 menit 15 detik dan ikuti transkrip 3:15
Ada beberapa cara untuk menghasilkan pembagian ini,
Mereka terutama berkaitan dengan mencoba menguji pemisahan yang berbeda
memastikan bahwa pemilihan data untuk pengujian sebisa mungkin tidak bias.
Nanti, kita akan melihat secara detail terdiri dari apa saja.
Teknik membagi data ini, yang paling terkenal adalah Hold Out,
Sub-Sampling Acak dan Validasi Silang atau Cross Validation.
Putar video mulai dari 3 menit 42 detik dan ikuti transkrip 3:42
Setelah kita berhasil berpisah, maka,
data kami dalam set pelatihan dan set tes,
kami melatih classifier kami hanya menggunakan set pelatihan kami.
Putar video mulai dari 3 menit 54 detik dan ikuti transkrip 3:54
Kami kemudian menggunakan model terlatih untuk menghasilkan klasifikasi
untuk semua data yang hanya ada di set pengujian.
Putar video mulai dari 4 menit 4 detik dan ikuti transkrip 4:04
Terakhir, kami membandingkan kelas sebenarnya dari data set pengujian dengan
class yang dibuat classifier kami, dan bandingkan secara langsung.
Putar video mulai dari 4 menit 18 detik dan ikuti transkrip 4:18
Dengan membuat perbandingan antara kelas aktual dan kelas yang diprediksi oleh
model, kita harus memberikan indikator yang mencerminkan
seberapa dekat prediksi dengan kelas yang sebenarnya.
Putar video mulai dari 4 menit 32 detik dan ikuti transkrip 4:32
Indikator ini juga akan kita lihat nanti,
yang paling khas adalah Accuracy, Recall dan Precision.
Putar video mulai dari 4 menit 43 detik dan ikuti transkrip 4:43
Singkatnya, untuk mengevaluasi model klasifikasi kita, pertama-tama kita harus
membagi data kami menjadi set pelatihan dan set tes.
Selanjutnya, kita perlu melatih model kita hanya pada data pelatihan.
Langkah selanjutnya adalah meminta model kami untuk mengklasifikasikan kumpulan data
test dan terakhir kita langsung bandingkan ranking dengan nilainya
kelas nyata dari data tersebut, sehingga menghasilkan indikator kinerja.
Putar video mulai dari 5 menit 12 detik dan ikuti transkrip 5:12
Dalam video ini kami melihat skema umum
untuk mengevaluasi kinerja classifier.
Putar video mulai dari 5 menit 18 detik dan ikuti transkrip 5:18
Kita tidak boleh lupa bahwa kinerja kita
memperkirakan sesuai dengan kinerja yang akan dimiliki model kami dalam kasus mendatang,
Putar video mulai dari 5 menit 28 detik dan ikuti transkrip 5:28
kasus yang belum Anda lihat selama set pelatihan.
[AUDIO_BLANK]
EVALUASI KLASIFIKASI,
[MUSIK] Selamat datang di video baru kursus penambangan data kami.
Pada video ini akan dilanjutkan dengan evaluasi classifier,
khususnya kami akan membahas lebih detail tentang topik yang disebutkan dalam
video terakhir.
Apa yang memotivasi kami dalam video ini adalah untuk mempelajari lebih detail tentang
teknik yang berbeda untuk membagi data kami untuk pelatihan dan pengujian.
Putar video mulai dari 28 detik dan ikuti transkrip 0:28
Mengingat skema umum, apa yang akan kita pelajari dalam video ini sesuai
yang ada di lingkaran merah.
Putar video mulai dari 36 detik dan ikuti transkrip 0:36
Idenya adalah membagi data berlabel kami menjadi satu bagian untuk dilatih
dan di tempat lain untuk pengujian, model klasifikasi yang akan digunakan
untuk memperkirakan kinerja, itu dibangun hanya dari set pelatihan.
Putar video mulai dari 51 detik dan ikuti transkrip 0:51
Selanjutnya, kami meminta model kami untuk mengklasifikasikan data yang sesuai
ke set tes untuk membandingkan prediksi dengan kelas nyata.
Putar video mulai dari 1 menit 2 detik dan ikuti transkrip 1:02
Kami kemudian akan melihat secara rinci tiga cara berbeda untuk membagi data kami
pelabelan, tahan, sub-sampling acak dan validasi silang k-fold.
Tahan adalah metode termudah,
Ini hanya terdiri dari memisahkan kumpulan data berlabel kami menjadi dua bagian,
yang pertama melatih algoritme dan yang kedua mengujinya.
Biasanya bagian pelatihan berisi 70 atau 80% dari ukuran
data kami sementara bagian pengujian berisi sisanya.
Putar video mulai dari 1 menit 37 detik dan ikuti transkrip 1:37
Pada gambar kita melihat skema yang menunjukkan bahwa kita akan melatih model kita
dengan n satu dan kami akan menggunakannya untuk mengklasifikasikan data n dua.
Putar video mulai dari 1 menit 47 detik dan ikuti transkrip 1:47
Sesuatu yang penting untuk disebutkan,
adalah model yang kami gunakan untuk mendapatkan indikator kinerja kami
Ini belum tentu model yang sama yang akan kami produksi.
Putar video mulai dari 1 menit 59 detik dan ikuti transkrip 1:59
Biasanya, model yang kami masukkan ke dalam produksi dilatih pada semua data
yang telah kami beri label, agar dapat mencapai pelatihan dengan sebaik-baiknya
jumlah informasi yang mungkin, proses ini hanya untuk
memperkirakan indikator kinerja model dalam produksi untuk kasus mendatang.
Putar video mulai dari 2 menit 21 detik dan ikuti transkrip 2:21
Pertimbangan lain yang sangat penting saat menghasilkan pemisahan antara
pelatihan dan pengujian
adalah bahwa setiap bagian harus mempertahankan proporsi elemen yang sama dari setiap kelas.
Misalnya, jika kita memiliki tiga kemungkinan kelas di mana jumlah elemennya adalah
setiap kelas berbeda, jumlah tersebut harus dijaga secara proporsional
di setiap bagian pelatihan, juga di bagian pengujian.
Putar video mulai dari 2 menit 48 detik dan ikuti transkrip 2:48
Pada gambar kita melihat dalam warna proporsi masing-masing kelas,
kita kemudian melihat bahwa proporsi data yang kita miliki
dari awal database kami yang diberi tag
itu tetap sama di set pelatihan dan di set tes.
Putar video mulai dari 3 menit 3 detik dan ikuti transkrip 3:03
Salah satu kelemahan dari metode hold out,
adalah mungkin kita baru saja memilih rangkaian pengujian yang sangat kompleks.
mudah atau mungkin sangat sulit atau mungkin juga yang baru saja kita pilih
sebagai pelatihan menetapkan proporsi yang sangat miring dari data berlabel kami.
Putar video mulai dari 3 menit 21 detik dan ikuti transkrip 3:21
Justru untuk menghindari jenis masalah ini, yang ideal adalah mengulangi metode tersebut
tahan beberapa kali, ini sesuai dengan metode sub-sampling acak,
jadi kami menghasilkan lebih banyak keacakan dalam proses, mengurangi probabilitas
memilih bagian yang sangat bias untuk pelatihan atau pengujian.
Putar video mulai dari 3 menit 42 detik dan ikuti transkrip 3:42
Sebagai hasil dari proses sub-sampling acak, b kolom baru dihasilkan
dengan prediksi masing-masing dari masing-masing b model yang dilatih.
Metode validasi silang k-fold umumnya yang paling banyak digunakan dalam praktik,
idenya adalah untuk memastikan bahwa semua data dalam database berlabel kami
Mereka telah menjadi bagian dari set pelatihan dan juga set tes.
Putar video mulai dari 4 menit 12 detik dan ikuti transkrip 4:12
Kami melanjutkan untuk mempartisi data ke dalam setiap bagian atau lipatan,
Putar video mulai dari 4 menit 17 detik dan ikuti transkrip 4:17
karena ini adalah partisi, persimpangan antara lipatan juga kosong
persatuan mereka membentuk basis data awal kami yang diberi tag.
Putar video mulai dari 4 menit 27 detik dan ikuti transkrip 4:27
Proses iterasi k kali, iterasi i, kami melatih classifier dengan semua
lipatan minus lipat i dan kami menggunakan model untuk memprediksi kelas lipatan i,
Jadi, dalam iterasi satu kita tinggalkan lipatan dan latih dengan
lipatan dari dua ke k, dalam iterasi dua,
kami meninggalkan lipatan dua di luar dan berlatih dengan lipatan lainnya.
Kami kemudian menggunakan model terlatih untuk memberi label pada data lipat dua,
Putar video mulai dari 4 menit 56 detik dan ikuti transkrip 4:56
dan seterusnya hingga mencapai fold k.
Putar video mulai 5 menit 0 detik dan ikuti transkrip 5:00
Sebagai hasil dari proses yang kami peroleh untuk semua data berlabel kami
kolom baru dengan prediksi yang dibuat oleh masing-masing model,
Pada gambar kami mewakili kolom ini dengan warna oranye.
Di video berikutnya kita akan melihat bagaimana kita akan menggunakan semua kolom tersebut
untuk menghasilkan indikator kinerja.
Putar video mulai dari 5 menit 21 detik dan ikuti transkrip 5:21
Jangan lupa, seperti pada metode sebelumnya, kita juga harus melakukannya
khawatir dalam k-fold cross validasi mempertahankan proporsi yang sama
data untuk setiap kelas di setiap lipatan, jika kita tidak melakukan hal ini bisa terjadi
bahwa beberapa lipatan dibiarkan tanpa elemen apa pun, menghasilkan beberapa
model dilatih tanpa melihat data apa pun di kelas tertentu.
Putar video mulai dari 5 menit 46 detik dan ikuti transkrip 5:46
Kasus khusus dari metode validasi k-fold cross adalah ketika kita memilikinya
lipatan untuk setiap item data dalam kumpulan data berlabel kami,
jadi kalau misalnya kita punya 100 data pasti ada 100 fold,
kita harus mengulangi 100 kali dengan meninggalkan di setiap iterasi hanya satu data di luar,
Proses ini disebut validasi silang leave-one put, ini digunakan saat kita memilikinya
cukup sumber daya komputasi Anda yang jelas jauh lebih mahal
Putar video mulai dari 6 menit 15 detik dan ikuti transkrip 6:15
daripada membandingkannya dengan metode untuk nilai yang lebih kecil di k.
Setelah kita menyiapkan partisi yang berisi prediksi model dan
kelas sebenarnya, kami melanjutkan untuk menempatkan mereka bersama dalam dua kolom besar dan kemudian
menghitung indikator kinerja yang akan kita lihat di video berikutnya.
Ada kasus di mana masing-masing partisi cukup besar
bagaimana menggunakan masing-masing secara terpisah dan kemudian mengambil rata-rata dan penyimpangan
standar indikator kinerja, tetapi secara umum,
yang paling banyak digunakan adalah menyatukan semua partisi.
Putar video mulai dari 6 menit 53 detik dan ikuti transkrip 6:53
Dalam video ini kami melihat tiga metode berbeda untuk dilakukan
pembagian data berlabel kami menjadi pelatihan dan pengujian.
Putar video mulai dari 7 menit 2 detik dan ikuti transkrip 7:02
Hal utama adalah memastikan keacakan dan mengurangi risiko pembangkitan
bagian yang sangat bias untuk dilatih atau diuji, kami melihat bahwa itu penting
stratified sampling untuk mempertahankan proporsi data dari masing-masing kelas.
[AUDIO_BLANK]
INDIKATOR KINERJA,
[MUSIK] Halo,
selamat datang di video asisten baru dari kursus penambangan data kami.
Dalam video ini, kita akan melihat contoh algoritma Near Neighbors.
Tujuan utama dari video ini adalah untuk menerapkan algoritma yang saya sebutkan sebelumnya,
yang disebut tetangga dekat, pada gambar skala abu-abu.
Gambar-gambar ini berisi angka dari nol hingga sembilan, dibuat dengan tangan, idenya
buat algoritma yang mampu mengenali atau mengklasifikasikan antara sepuluh digit ini.
Pertama,
Saya ingin mengingatkan sedikit tentang algoritma Near Neighbors.
Seperti yang terlihat beberapa minggu lalu, ini terdiri dari menempatkan data kami di a
Ruang berdimensi N, di mana N sesuai dengan jumlah variabel yang kita miliki.
Dalam hal ini, kami memiliki 18 contoh dalam ruang dua dimensi,
sembilan dari kelas satu dan sembilan dari kelas dua.
Untuk mengklasifikasikan data baru, seperti yang terlihat di layar, atau contoh baru,
yang kami lakukan adalah menempatkannya di ruang dua dimensi ini.
Kemudian, kami menghitung jarak antara data baru ini dan 18 data sebelumnya.
Jika kita hanya menggunakan tetangga dekat,
kami tinggal dengan kelas tetangga terdekat.
Dalam hal ini, yang paling dekat dengan data kita adalah yang memiliki lingkaran hijau,
di layar, dan sesuai dengan kelas satu.
Kasus lain adalah menggunakan lebih banyak tetangga, seperti tujuh.
Dalam hal ini, data kami akan sesuai dengan data dengan frekuensi tertinggi.
Melihat kembali contoh kita di layar,
enam memprediksi bahwa itu adalah kelas satu dan satu bahwa itu adalah kelas dua,
Oleh karena itu, kami mengklasifikasikan data kami sebagai kelas satu, karena merupakan mayoritas.
Setelah mengingat tentang apa algoritma yang terlihat di kelas,
Kita akan melihat contoh nyata yang diambil dari Kaggle.
Seperti yang saya sebutkan sebelumnya di awal video ini,
kita akan menggunakan database nyata,
yang memiliki citra grayscale dengan nilai dari nol hingga sembilan.
Pengklasifikasi kami harus dapat melihat gambar-gambar ini dan memprediksi apa itu
nilai ini
Seperti yang akan Anda ingat, sebuah gambar terdiri dari beberapa piksel dan untuk menggunakan
Algoritma tetangga terdekat mengambil dimensi N.
Dalam hal ini, kami akan menggunakan jumlah total piksel sebagai variabel
model, yang kira-kira
Atau:784 piksel, yang setara dengan 28 x 28.
Secara intuitif, yang kami lakukan adalah membandingkan piksel demi piksel dalam gambar
yang kita miliki, dan yang serupa harus memiliki pewarnaan di area yang sama.
Dalam hal ini, misalnya, empat di kiri sangat mirip dengan empat di
tepat di berbagai bagian gambar, yang merupakan algoritme kami
Anda harus bisa memprediksi dan memprediksi dengan benar bahwa itu adalah nomor empat.
Seperti yang kami sebutkan sebelumnya di video ini, apa yang akan kami coba lakukan atau apa
yang akan kita lakukan adalah algoritma untuk mengenali digit pada sebuah gambar.
Untuk itu, pertama-tama kita akan mendownload databasenya,
menggunakan platform Kaggel.
Platform Kaggel, seperti yang disebutkan pertama kali sebagai asisten,
Ini terdiri dari platform tempat kami dapat menemukan kumpulan data publik yang berbeda,
dan di mana ada kompetisi di mana kelompok atau kelompok orang
mereka bersaing untuk mendapatkan akurasi terbaik dan model terbaik.
Dalam hal ini, kami akan bekerja dengan database yang disebut Digit Recognizer,
yang dapat diunduh secara gratis,
yang kita butuhkan hanyalah akun, yang dapat dibuat dengan mudah.
Ini terdiri dari dua database, satu untuk pelatihan dan satu untuk pengujian,
tapi untuk latihan ini karena RapidMiner hanya mampu
gunakan 10.000 baris dengan lisensi gratis,
kami hanya akan menggunakan kumpulan data pelatihan.
Kami mengunduhnya, yang saya miliki di sini,
Saya memilikinya di komputer saya dan apa
Yang harus Anda lakukan adalah mengurangi ukuran kumpulan data ini menjadi hanya 10.000 baris.
Setelah mereka memprosesnya,
kami langsung membuka platform RapidMiner kami.
Hal pertama yang akan kita lakukan adalah menambahkan data,
Inilah sebabnya kami akan pergi ke Tambah Data, Komputer Saya.
Kami akan mencari file untuk dapat menambahkannya.
[SOUND] Kami klik next dan next lagi, karena diproses dengan baik.
Di bagian ini, kita harus memformat kolom, ini adalah sesuatu yang belum pernah mereka lihat
dalam asisten video pertama, karena klasifikasi tidak diperlukan.
Kita harus memberi tahu RapidMiner kolom mana yang sesuai dengan kelas.
Dalam hal ini, kolom pertama, yang berlabel, sesuai dengan nomor dari
gambar, inilah mengapa kami akan mengubah peran kolom.
Ubah Peran dan kami akan menempatkan peran label.
Selain itu, RapidMiner tidak mampu bekerja dengan bilangan bulat,
yang bilangan bulat, tetapi bekerja dengan kata-kata, yaitu,
kita harus mengubah jenis kolom, dalam hal ini, polinomial.
Kami menekan berikutnya lagi dan menyimpannya.
Saya menyimpannya, karena membutuhkan waktu sekitar 30,
40 detik untuk memuat.
Setelah Anda memuatnya ke RapidMiner Anda,
Kami akan melanjutkan untuk menjalankan algoritme.
Pertama-tama, kami akan memindahkan database di Ambers ke
jendela proses dan kami akan menambahkan operator berikut.
Operator pertama adalah Normalize, yang memungkinkan kita untuk menormalkan setiap kolom.
Meskipun kolom ini berada di antara nol dan satu, kami dapat mengatakan bahwa Anda
dinormalisasi untuk subjek jarak, itu selalu baik untuk dinormalisasi.
Setelah kolom kami dinormalisasi, kami akan melanjutkan untuk membuat
set pelatihan dan set pengujian, untuk ini kita akan menggunakan blok yang disebut Split It,
yang memungkinkan kita untuk membagi database kita menjadi dua.
Dan kita lihat di parameter dan kita akan menekan Edit Pencacahan.
Kami akan menambahkan input, kami akan menempatkan 70% dan 30% untuk pengujian.
Setelah Data Terpisah kami ditambahkan, kami akan melanjutkan untuk menambahkan operator dan
juga untuk metrik evaluasi.
Operator disebut K-NN, untuk Tetangga Terdekat, dan berwarna hijau.
Jika mereka memperhatikan,
RapidMiner secara otomatis memiliki warna yang berbeda untuk tahapan yang berbeda.
Warna hijau sesuai dengan model,
warna dalam ungu muda sesuai dengan
preprocessing dan yang ungu sesuai dengan data itu sendiri.
Kami menghubungkan output exa dengan input exa dari Split Data dan memasangkannya dengan
pintu masuk belakang.
Ini, setelah kita memiliki model K-NN,
Blok ini memberi kita model, model Mod.
Bahkan jika mereka mengklik kanan dan memilih Show bright info,
akan keluar bahwa dia adalah seorang model.
Kami menambahkan, kami harus menerapkan model kami,
untuk ini kita akan menggunakan blok Terapkan Model,
yang memungkinkan kami untuk menambahkan model ini ke data yang tidak terlihat sebelumnya.
Kami menghubungkan keluaran mod dengan masukan mod dan keluaran genap,
yang sesuai dengan pengujian kami dengan input Model Terapkan kami.
Operator ini akan menghasilkan database baru,
sama seperti sebelumnya dengan kolom tambahan,
yang merupakan kolom prediksi untuk setiap baris ini.
Terakhir, kami akan menambahkan blok bernama Performance,
yang akan memungkinkan kami untuk mengukur kinerja classifier kami.
Kami menghubungkan output lab ke input lab dan per output ke input res.
Setelah semuanya terhubung, kita dapat melanjutkan untuk menekan Jalankan.
Penting untuk ditekankan bahwa kami saat ini menggunakan tetangga terdekat,
dan kami akan mengubah jarak ke jarak Euclidean.
Ketika mereka menekan Jalankan itu akan memakan waktu sedikit lebih lama,
karena kami bekerja dengan 30 megabita.
Inilah mengapa kita akan melihat hasil yang berbeda,
bahwa saya memiliki mereka preprocessed.
Di bagian kedua video ini, yang ingin saya tunjukkan adalah perbedaannya
Parameter dapat berubah dan juga Performa model kita.
Dalam hal ini, kita akan menggunakan dua ukuran jarak,
jarak Euclidean dan jarak Manhattan.
Untuk ini kami pergi ke operator K-NN,
yang memiliki parameter yang sama dan kita akan memodifikasinya.
Apa yang akan kita coba adalah memodifikasi parameter K,
yang merupakan jumlah tetangga terdekat, kita akan menempatkan satu, tiga, dan tujuh.
Dan kita juga akan mengubah ukuran jarak, Ukuran numerik,
Kita akan membuktikan ukuran Manhattan dan jarak Euclidean.
Seperti yang saya sebutkan sebelumnya,
hasil ini dapat memakan waktu tergantung pada komputer, inilah alasannya
bahwa saya telah memprosesnya dan itulah yang akan kita lanjutkan ke selanjutnya.
Seperti yang Anda lihat, di sini
temukan dua matriks kebingungan, keduanya dalam jarak Euclidean
dengan tetangga dekat, seperti di kejauhan Manhattan dengan tetangga dekat.
Dalam kedua kasus tersebut kita melihat bahwa akurasi rata-rata jarak Manhattan dengan a
tetangga terdekat lebih besar dari jarak Euclidean.
Tapi tetap saja kedua kualifikasi itu cukup bagus.
Menggunakan tiga tetangga dekat, kita melihat dengan jelas, sekali lagi, jaraknya
Manhattan meningkatkan performa, lebih jauh mengungguli jarak Euclidean.
Dan akhirnya, dengan tujuh tetangga dekat,
sekali lagi jarak Manhattan juga lebih besar dari jarak Euclidean.
Seperti dalam matriks kebingungan, baris,
kami memiliki Presisi dan kami memiliki Recall.
Dalam video ini, kami melihat bagaimana menerapkan algoritma tetangga terdekat,
menggunakan program RapidMiner.
Kami dapat mengklasifikasikan gambar digit dengan benar,
dengan hasil lebih dari 90%.
Selain itu, kami menggunakan varian algoritme, seperti jarak yang digunakan,
yang terakhir bisa sangat penting untuk kinerja classifier kami
dan disarankan untuk mencoba lebih dari satu yang masuk akal dengan masalahnya.
Itu saja untuk hari ini, dan saya berharap dapat melihat Anda segera di video berikutnya,
dimana kita akan menerapkan algoritma pohon keputusan.
[AUDIO_BLANK]
TOTAL POIN DARI 10
1. Pertanyaan 1 salah
Mengapa Anda harus memisahkan kumpulan data ke dalam grup untuk pelatihan dan pengujian?
1 poin
2. Pertanyaan 2 salah
Apa itu metode "Hold Out"?
1 poin
Latih model dengan sepotong data dan uji dengan data yang belum dilihat model
Pisahkan kumpulan data menjadi K lipatan dan uji masing-masing secara terpisah
Pisahkan elemen untuk diuji dan dilatih dengan kumpulan data lainnya
Pisahkan set pelatihan menjadi sepuluh bagian dan latih setiap bagian secara terpisah
3. Pertanyaan 3
Mengapa bagus untuk melakukan pengambilan sampel bertingkat saat memisahkan set pelatihan dan pengujian?
2 poin
Untuk melatih model dengan proporsi kelas yang mirip dengan kumpulan data lengkap
4. Pertanyaan 4 salah
Apa keuntungan dari metode “K-Fold Cross Validation”?
1 poin
Latih model yang sama di partisi yang berbeda dan dengan demikian memiliki hasil yang lebih kuat
5. Pertanyaan 5 salah
Untuk matriks kebingungan 3×3 yang tidak dinormalisasi, apa yang diwakili oleh elemen 2, 1 (baris 2, kolom 1)?
Nyata
1 2 3
1
diprediksi 2 X
3
1 poin
Ingatan kelas 2
6. Pertanyaan 6
Apa ingatan kelas "i"?
1 poin
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "i", berapa banyak yang benar-benar ada?
Dari unsur-unsur yang harus dideteksi oleh pengklasifikasi dari kelas "i", berapa banyak yang sebenarnya dideteksi?
Jumlah kasus di mana pengklasifikasi menghasilkan prediksi yang benar dibagi dengan jumlah total kasus
Dari elemen-elemen yang harus dideteksi oleh classifier dari kelas "j", berapa banyak yang sebenarnya dideteksi?
7. Pertanyaan 7
Apa yang dimaksud dengan presisi kelas "i"?
1 poin
Jumlah kasus di mana pengklasifikasi menghasilkan prediksi yang benar dibagi dengan jumlah total kasus
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "i", berapa banyak yang benar-benar ada?
Dari unsur-unsur yang harus dideteksi oleh pengklasifikasi dari kelas "i", berapa banyak yang sebenarnya dideteksi?
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "j", berapa banyak yang benar-benar ada?
8. Pertanyaan 8
Jika kita memiliki model prediksi kanker, dimana jika kita mengatakan bahwa orang tersebut menderita kanker itu karena mereka benar-
benar mengidapnya. Melakukan kesalahan dalam diagnosis bisa sangat merugikan pihak klinik dengan mengatakan hal-hal yang tidak
sesuai. Di sisi lain, jika seseorang menderita kanker dan tidak terdeteksi, itu tidak terlalu penting karena tes tambahan wajib lainnya
dilakukan. Apakah kita ingin memiliki daya ingat atau presisi yang lebih baik?
2 poin
Kita tidak boleh mengistimewakan satu sama lain, keduanya sama pentingnya
Presisi
mengingat
Putar video mulai dari 1 menit 9 detik dan ikuti transkrip 1:09
Sekarang, kami menetapkan setiap titik dalam database ke pusat terdekatnya.
Pada gambar kita memvisualisasikannya mewarnai dengan hal yang sama
warna ke titik-titik yang ditugaskan ke pusat yang sama.
Artinya, mereka tetap berada di cluster yang sama.
Putar video mulai dari 1 menit 26 detik dan ikuti transkrip 1:26
Karena grup sekarang dikonfigurasi ulang,
ada kemungkinan bahwa setiap kelompok akan menemukan pusat yang lebih baik daripada yang sebelumnya.
Dengan kata lain, kami memperbarui pusat setiap grup.
Ketika metrik jarak yang digunakan adalah Euclidean,
pusat masing-masing kelompok bertepatan dengan rata-rata.
Putar video mulai dari 1 menit 46 detik dan ikuti transkrip 1:46
Setelah kami memperbarui pusat, ke setiap grup,
center terbaik Anda dipindahkan ke Anda saat center berubah, mungkin saja
sekarang ada pusat yang lebih baik dari yang sebelumnya untuk setiap titik.
Putar video mulai dari 2 menit 1 detik dan ikuti transkrip 2:01
Demikian seterusnya sampai konvergensi dihasilkan,
yaitu, sampai pusat Anda tidak mengubah posisi.
Putar video mulai dari 2 menit 11 detik dan ikuti transkrip 2:11
Kita melihat bahwa algoritma k-means adalah algoritma iteratif, dimana utamanya
diulang antara dua langkah, menugaskan titik ke pusat terdekat
terdekat dan memperbarui hub setelah poin dialokasikan kembali.
Putar video mulai dari 2 menit 28 detik dan ikuti transkrip 2:28
Penyelesaian iterasi algoritma terjadi ketika pusat
Anda tidak mengubah posisi secara signifikan.
Misalnya kita dapat mendefinisikan delta yang sangat kecil dan menentukan konvergensi
dari algoritma ketika posisi semua pusat
berubah kurang dari delta yang ditentukan sebelumnya.
Jelas jika pusat tidak berubah secara signifikan,
itu juga tidak akan mengubah penetapan cluster untuk setiap titik.
Putar video mulai dari 2 menit 58 detik dan ikuti transkrip 2:58
Dalam video ini kita melihat algoritma k-means.
Kita harus ingat bahwa metode ini membutuhkan penentuan jumlah cluster secara apriori.
Ini adalah proses yang berulang di antara dua langkah utama.
Di video selanjutnya kami akan mengulas beberapa pertimbangan dari algoritma tersebut.
[AUDIO_BLANK]
ALGORITMA K-MEANS.
[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.
Dalam video ini, kami memiliki contoh lengkap menjalankan Algoritma K-Means.
Motivasi utama dalam video ini adalah untuk memastikan bahwa kita mencapai pemahaman
tentang bagaimana Algoritma K-Means beroperasi,
sedemikian rupa sehingga mereka dapat membuat keputusan desain khusus
situasi masa depan di mana kita harus menerapkan algoritma ini dalam praktek.
Putar video mulai dari 33 detik dan ikuti transkrip 0:33
Misalkan kita ingin mengelompokkan database Pelanggan
yang muncul di slide.
Putar video mulai dari 42 detik dan ikuti transkrip 0:42
Kami memiliki dalam contoh ini enam klien yang dijelaskan dalam tiga variabel,
senioritas dalam tahun, gaji dan biaya bulanan.
Ingatlah bahwa pengelompokan adalah pembelajaran tanpa pengawasan, oleh karena itu,
tidak ada kolom dengan kelas dari setiap instance.
Putar video mulai dari 59 detik dan ikuti transkrip 0:59
Hal pertama yang perlu kita lakukan adalah menormalkan variabel,
sedemikian rupa sehingga tidak ada bias yang tidak diinginkan dalam perhitungan jarak.
Putar video mulai dari 1 menit 9 detik dan ikuti transkrip 1:09
Di layar kita melihat visualisasi enam poin dari contoh ini.
Putar video mulai dari 1 menit 16 detik dan ikuti transkrip 1:16
Hal pertama adalah menentukan nilai K,
yaitu, jumlah cluster yang ingin kita temukan.
Misalkan, dalam hal ini, K sama dengan 2.
Sekarang, kita memiliki generasi acak dari posisi awal pusat.
Asumsikan bahwa nilainya adalah yang muncul di tabel pada slide.
Putar video mulai dari 1 menit 37 detik dan ikuti transkrip 1:37
Kami melihat di layar dengan titik merah pusat yang baru saja kami tentukan.
Putar video mulai dari 1 menit 42 detik dan ikuti transkrip 1:42
Langkah selanjutnya adalah menghitung jarak dari setiap titik ke dua pusat.
Mari kita asumsikan jarak Euclidean.
Nilai jarak untuk setiap titik muncul di layar.
menuju dua pusat yang mungkin.
Sekarang kita harus memilih pusat terdekatnya untuk setiap titik, dalam hal ini,
kami menandai dengan lingkaran hijau jarak yang lebih kecil untuk setiap titik.
Sebagai contoh, kita melihat Nicolás, María, Pedro dan Juan,
pusat terdekat adalah 1, Anda bahwa untuk masing-masing klien tersebut
Jarak dari mereka ke Pusat 1 kurang dari jarak ke Pusat 2.
Putar video mulai dari 2 menit 22 detik dan ikuti transkrip 2:22
Anda kami memiliki, kemudian, kelompok iterasi pertama.
Gugus 1 terdiri dari Juan, Pedro,
Maria dan Nicholas; dan Cluster 2 terdiri dari Ángela dan Carlos.
Putar video mulai dari 2 menit 36 detik dan ikuti transkrip 2:36
Langkah selanjutnya adalah, untuk setiap klaster, memperbarui pusat mereka.
Karena kita menggunakan jarak Euclidean,
pusat setiap cluster hanya dihitung sebagai rata-rata
di antara semua data Anda untuk masing-masing dari tiga variabel.
Perhitungan pusat baru untuk Cluster 1 muncul di layar.
Putar video mulai dari 2 menit 58 detik dan ikuti transkrip 2:58
Dengan cara yang sama, kami memperbarui pusat Cluster 2, menghitung
rata-rata data atau klien yang saat ini membentuk cluster tersebut.
Hasilnya muncul di layar.
Putar video mulai dari 3 menit 11 detik dan ikuti transkrip 3:11
Sekarang, kita dapat memvisualisasikan posisi pusat yang baru di layar.
Putar video mulai dari 3 menit 16 detik dan ikuti transkrip 3:16
Untuk perbandingan,
ini adalah posisinya, itu adalah posisi dari iterasi sebelumnya.
Mari kita kembali untuk melihat bagaimana mereka berubah saat itu.
Sekarang, karena kami memiliki pusat baru, kami memilikinya, untuk setiap titik data,
lihat pusat terdekat lagi
dan berpotensi menugaskan kembali poin ke cluster yang berbeda.
Putar video mulai dari 3 menit 39 detik dan ikuti transkrip 3:39
Kami menghitung ulang jarak dari masing-masing titik
ke pusat-pusat baru.
Nilai muncul di layar.
Kami menandai jarak yang lebih kecil dengan lingkaran hijau.
Kami melihat bahwa untuk Pedro, María dan Nicolás, Center 1 adalah yang paling dekat;
sedangkan untuk Juan, Ángela dan Carlos, Center 2 adalah yang paling dekat.
Putar video mulai dari 4 menit 3 detik dan ikuti transkrip 4:03
Kami kemudian menugaskan setiap klien ke pusat terdekat mereka.
Cluster didistribusikan sesuai dengan tampilannya di layar.
Putar video mulai dari 4 menit 13 detik dan ikuti transkrip 4:13
Sekarang, karena klaster berubah, kami harus mendapatkan pusat baru.
Putar video mulai dari 4 menit 19 detik dan ikuti transkrip 4:19
Untuk Cluster 1 kami memperbarui pusat melalui rata-rata
dari klien yang tetap di cluster itu.
Putar video mulai dari 4 menit 28 detik dan ikuti transkrip 4:28
Kita lihat pada slide titik yang dihasilkan dari rata-rata ini.
Putar video mulai dari 4 menit 34 detik dan ikuti transkrip 4:34
Kami melakukan hal yang sama untuk Cluster 2.
Pusat 0,81, 0,33 dan 0,44 kemudian dihasilkan.
Pada slide, kami memvisualisasikan cluster saat ini dengan
masing-masing pusat yang diperbarui diwakili oleh titik merah.
Putar video mulai dari 4 menit 53 detik dan ikuti transkrip 4:53
Untuk menghargai bagaimana pusat-pusat itu bergerak,
di sini kita melihat visualisasi dengan posisi pusat sebelumnya.
Putar video mulai dari 5 menit 2 detik dan ikuti transkrip 5:02
Dan di sini kita kembali untuk melihat posisi saat ini.
Saya sarankan untuk memeriksa apakah perubahan posisi pusat masuk akal bagi Anda.
Putar video mulai dari 5 menit 14 detik dan ikuti transkrip 5:14
Karena hub baru saja berubah, kami perlu memperbarui lagi
penugasan setiap klien ke pusat-pusat baru yang memungkinkan.
Putar video mulai dari 5 menit 25 detik dan ikuti transkrip 5:25
Untuk melakukan ini, kami menghitung ulang jarak dari setiap titik
ke pusat-pusat ini.
Nilai muncul di layar.
Putar video mulai dari 5 menit 35 detik dan ikuti transkrip 5:35
Sekali lagi, kami menandai jarak yang lebih kecil dengan warna hijau.
Kita melihat bahwa, sekali lagi, Peter,
María dan Nicolás ditugaskan ke Pusat 1, dan bahwa Juan,
Ángela dan Carlos ditugaskan ke Pusat 2, yaitu cluster tidak berubah.
Putar video mulai dari 5 menit 52 detik dan ikuti transkrip 5:52
Karena cluster tidak berubah,
pusat juga tidak akan berubah; oleh karena itu, algoritma konvergen.
Putar video mulai dari 6 menit 0 detik dan ikuti transkrip 6:00
Kita melihat pada gambar bagaimana cluster akhirnya dikonfigurasi.
Putar video mulai dari 6 menit 7 detik dan ikuti transkrip 6:07
Dalam video ini, kami melihat contoh lengkap menjalankan Algoritma K-Means.
Kami dapat menghargai bahwa perlu mengulang beberapa kali
penugasan kembali poin dan memperbarui pusat sampai terjadi konvergensi.
Putar video mulai dari 6 menit 23 detik dan ikuti transkrip 6:23
Kedua langkah itu sama seperti yang Anda lakukan
komputer yang menjalankan Algoritma K-Means pada database nyata.
[AUDIO_BLANK]
2 poin
2. Pertanyaan 2
Kapan eksekusi algoritma K-Means berhenti?
1 poin
3. Pertanyaan 3
Mengapa Anda harus menormalkan variabel sebelum melakukan K-Means?
1 poin
Sehingga variabel dengan peringkat lebih tinggi tidak mendominasi terhadap variabel dengan peringkat lebih rendah
4. Pertanyaan 4
Apa perbedaan jumlah cluster awal di K-Means dan clustering hierarkis?
1 poin
Yang pertama ada K cluster sedangkan yang kedua sama dengan jumlah titik
5. Pertanyaan 5
Untuk apa dendrogram digunakan?
Representasi grafis yang memungkinkan untuk menghargai pengelompokan data berdasarkan level.
6. Pertanyaan 6
Apa yang mendefinisikan bentuk cluster dalam algoritma DBSCAN?
1 poin
7. Pertanyaan 7
Apa keuntungan paling penting dari algoritma DBSCAN?
1 poin