Evaluasi Minggu 1

Minggu Evaluasi 1
TOTAL POIN DARI 10

1. Pertanyaan 1
Di mana dari aplikasi kehidupan nyata ini yang tidak akan berhasil menggunakan Algoritma A-Priori?
Pemesanan Produk
Temukan pola di seluruh produk
Menganalisis data pembelian pelanggan
Mengklasifikasikan ke dalam jenis pelanggan

2. Pertanyaan 2
Apa itu itemset?
Ini mengukur seberapa andal asumsi yang dibuat oleh aturan tersebut.
Frekuensi relatif di mana kumpulan item muncul dalam data
Ini adalah ukuran klasifikasi
Kumpulan dari satu atau lebih elemen

3. Pertanyaan 3
Apa dukungan dari {Roti, susu, popok}?
Anda item
1 roti, susu
2 Roti, susu, popok
3 Buku harian, air, popok
Anda item
4 Cokelat, air, susu
5 Roti, cokelat, koran, susu, popok
1 poin
2/5
1/6
4/5
4. Pertanyaan 4
Apa artinya support itemset {milk, diapers, beer} adalah 0,25?
1 poin
25% itu tidak mengandung susu, popok, dan bir
Dari 4 transaksi yang ada di database, hanya 1 yang berisi susu, popok, dan bir
25% transaksi menunjukkan bahwa susu, popok, dan bir dibeli bersamaan
25% konsumen yang membeli susu dan popok juga membeli bir
5. Pertanyaan 5
Apa yang diukur dengan keyakinan dari suatu aturan?
1 poin
Ini mengukur seberapa andal asumsi yang dibuat oleh aturan tersebut.
Frekuensi relatif dari aturan atas jumlah total transaksi
Keyakinan aturan dibagi dengan dukungan konsekuen
Frekuensi relatif di mana kumpulan item muncul dalam data

6. Pertanyaan 6
Apa artinya kepercayaan itemset {susu, popok} -> {bir} adalah 0,75?
1 poin
75% konsumen yang membeli susu dan popok juga membeli bir
Dari 4 transaksi yang ada di database, hanya 3 yang berisi susu, popok, dan bir
75% konsumen membeli susu, popok, dan bir
75% konsumen yang membeli bir juga membeli susu dan popok
7. Pertanyaan 7
Apa artinya lift menjadi lebih besar dari satu?
1 poin
Artinya anteseden berpengaruh negatif terhadap terjadinya konsekuen, sehingga probabilitasnya turun.
Ini berarti probabilitas konsekuensi dari aturan tersebut meningkat setelah kita mengetahui bahwa konsumen membeli item anteseden.
Artinya anteseden tidak memberikan informasi apapun mengenai pembelian atau terjadinya konsekuen.
Ini berarti bahwa konsekuensinya memiliki efek negatif pada kemunculan anteseden, menurunkan probabilitasnya.
8. Pertanyaan 8
Berapa banyak kemungkinan itemset dengan n elemen?
1 poin
2^n-1
2*n
2^n
2*n - 1
9. Pertanyaan 9
Apa yang dimaksud dengan prinsip monotonitas? Harap centang alternatif yang benar
1 poin
Itemset {beras, mayones, roti} adalah frequent, sehingga kita dapat memastikan bahwa itemset {beras}, {beras, mayones}, {mayones, nasi} juga sering.
Jika sebuah itemset sering, maka semua subgrupnya juga sering
Jika sebuah itemset tidak sering, maka semua subgrupnya juga sering
Jika sebuah itemset TIDAK sering, maka set apa pun yang berisi kumpulan item ini juga tidak akan sering.
10. Pertanyaan 10
Apa itu aturan asosiasi?
1 poin
Ekspresi bentuk X <-> Y, dimana X dan Y adalah Itemsets
Ekspresi bentuk X -> Y, di mana X dan Y adalah perkalian.

Ekspresi dari bentuk X -> Y, dimana X dan Y adalah Itemsets.
Ekspresi bentuk X = Y, dimana X dan Y adalah Itemsets
MINGGU 2
kita akan berbicara tentang penyortiran otomatis.
Putar video mulai dari 13 detik dan ikuti transkrip 0:13
Tujuan utama dari video ini adalah untuk memahami apa itu
klasifikasi otomatis dan apa jenis pembelajaran yang terkait.
Teknik klasifikasi otomatis mencari model
mampu secara otomatis mengidentifikasi kelas yang dimiliki objek tertentu.
Misalnya, merancang sistem yang mampu membedakan antara huemul atau rusa kutub
dari sebuah gambar.
Contoh lain adalah sistem yang mampu mengidentifikasi digit yang muncul
sebuah gambar.
Sistem ini dapat digunakan dalam identifikasi otomatis
jumlah uang dalam dokumen bank.
Juga masalah klasifikasi otomatis adalah memutuskan apakah seorang pasien
apakah Anda menderita diabetes atau tidak berdasarkan hasil tes kesehatan Anda.
Putar video mulai dari 1 menit 5 detik dan ikuti transkrip 1:05
Contoh klasifikasi yang menarik juga menentukan
apakah sebuah planet muncul atau tidak dalam citra bintang, sesuatu yang banyak digunakan
hari ini untuk mendeteksi planet yang berpotensi dihuni oleh manusia.
Sistem penyortiran otomatis juga digunakan dalam industri
untuk menilai kualitas suatu produk.
Misalnya,
sebuah sistem yang mampu mengklasifikasikan buah dalam kondisi baik atau buruk sedemikian rupa
buang buah yang buruk sebelum menggunakannya untuk produksi pulp beku.
Skema umum untuk memecahkan masalah klasifikasi otomatis
Anda terutama harus memiliki dua hal.
Satu set pelatihan, yaitu,
satu set dengan data yang sebelumnya diklasifikasikan dan model klasifikasi.
Setelah kami memiliki data pelatihan kami
dan model klasifikasi, kita lanjutkan ke tahap penyesuaian atau pelatihan
dari classifier sedemikian rupa untuk menyelesaikan
menjadi model terlatih yang siap digunakan dalam praktik.
Saat model dipasang ke kumpulan data pelatihan,
kami mengatakan bahwa kami menghadapi proses pembelajaran yang diawasi.
Di sini kami juga memiliki contoh pembelajaran yang diawasi.
Misalkan kita tertarik pada model klasifikasi
mampu membedakan antara kucing dan anjing dari gambar mereka.
Hal pertama kemudian adalah bahwa kita harus memiliki satu set pelatihan.
Yakni, dari berbagai gambar kucing dan anjing yang teridentifikasi.
Selain set pelatihan, kami membutuhkan algoritma pelatihan.
Artinya, umumnya proses iteratif yang menganalisis data
dari set pelatihan sampai belajar bagaimana untuk memisahkan
antara kelas yang berbeda dan kemudian dapat mengklasifikasikan data di masa depan.
Setelah proses pelatihan selesai,
model Anda yang terlatih mampu mengklasifikasikan data baru.
Misalnya, jika gambar anjing dalam gambar tiba,
model terlatih kami akan dapat mengklasifikasikannya sebagai anjing.
Dalam video ini kita mempelajari konsep klasifikasi otomatis
dan pembelajaran yang diawasi.
Kami melihat bahwa perlu memiliki satu set pelatihan,
yaitu, kumpulan data dengan kasus berlabel sebelumnya
dan algoritme yang mampu mengulangi data tersebut dan menghasilkan model yang terlatih.
Saya membayangkan bahwa mereka memiliki keraguan tentang bagaimana algoritma realitas itu
pelatihan dan model klasifikasi.
Jangan khawatir, sekarang kita siap untuk memulai
Saya akan mengulas beberapa teknik ini di video mendatang.
[AUDIO_BLANK]
REPRESENTASI OBJEK
[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.
Dalam video ini kita akan berbicara tentang cara kita merepresentasikan objek dunia nyata
di database kami.
Tujuan utama dari video ini adalah untuk memahami bagaimana kita merepresentasikan objek dalam
komputer untuk memungkinkan nanti
penerapan algoritma klasifikasi otomatis.
Secara umum, saat kita ingin mengembangkan algoritme otomatis yang menganalisis data,
kita harus melihat bagaimana memasukkan data itu ke komputer.
Kemudian perlu untuk menentukan cara terstruktur untuk merepresentasikan objek
dari dunia nyata dan dengan demikian dapat memasukkannya ke dalam algoritma komputasi.
Misalnya, bagaimana komputer dapat memahami gambar binatang
atau hasil pemeriksaan kesehatan atau pelanggan yang melakukan pembelian?
Misalkan kita ingin membangun database pelanggan yang berkunjung
toko kami.
Salah satu cara yang mungkin untuk memperkenalkan pelanggan di komputer,
adalah vektor nilai yang menggambarkan klien dengan variabelnya sendiri dan koheren
dari konteks.
Misalnya, total pembelian, profesi, lokasi toko,
jenis kelamin, dll.
Selain representasi melalui vektor
dalam konteks di mana kami juga tertarik untuk melakukan klasifikasi otomatis
kami perlu mengetahui kelas pelanggan kami dalam riwayat pembelian.
Biasanya kelas ditambahkan sebagai kolom baru,
menunjukkan nilai kelas tempat objek kita berada.
Dalam contoh ini, klien kami termasuk dalam kelas preferensial.
Perhatikan bahwa kelas yang mungkin harus ditentukan sebelumnya.
Vektor yang kemudian mewakili data kami,
biasanya akan memiliki pengidentifikasi yang sesuai dengan nilai
unik dalam database dan umumnya bukan bagian dari analisis itu sendiri.
Daftar atribut atau disebut juga variabel, deskriptor atau fitur.
Dan akhirnya nilai yang sesuai dengan kelas tempat objek tersebut berada.
Perhatikan bahwa mungkin ada kasus di database kami di mana kelas objek tidak
dikenal.
Justru untuk kasus-kasus inilah kita membutuhkan bantuan algoritme
klasifikasi otomatis untuk memprediksi nilai kelas dari objek tersebut.
Secara umum, kami memiliki banyak objek dalam data kami.
Biasanya objek sesuai dengan baris database.
Misalnya, dalam kasus pelanggan, jika kita memiliki 1200
pelanggan berarti kita akan memiliki 1.200 baris dalam database kita.
Contoh lain untuk merepresentasikan objek adalah gambar.
Yang biasanya dilakukan adalah merender gambar
sebagai vektor yang berisi piksel gambar.
Ada juga cara untuk menghitung variabel pada gambar.
Misalnya histogram warna atau fitur bentuk.
Misalkan kita ingin mengklasifikasikan digit yang terdapat dalam sebuah gambar,
Kami dapat merepresentasikan gambar sebagai vektor piksel, sedemikian rupa sehingga
classifier dapat mengenali nomor mana yang sesuai dengan gambar.
Ingat kembali contoh klasifikasi yang disebutkan di video sebelumnya,
tentang pemeriksaan medis pasien yang mungkin atau mungkin tidak menderita diabetes.
Cara alami untuk merepresentasikan ujian di komputer adalah melalui
vektor yang berisi semua deskriptor hasil tes,
Selain karakteristik pasien.
Setelah kami dapat memastikan apakah pasien menderita diabetes atau tidak,
kami akan memiliki kolom di akhir setiap baris yang menunjukkan kelas pasien.
Dalam hal ini, diabetes positif atau negatif.
Dalam video ini, kita melihat cara merepresentasikan berbagai jenis objek
dalam database, sedemikian rupa sehingga Anda dapat menggunakan
representasi ini sebagai masukan untuk algoritma klasifikasi otomatis.
[AUDIO_ KOSONG]
TETANGGA DEKAT

Dalam video ini kita akan melihat algoritma klasifikasi pertama
disebut K Tetangga Terdekat.
Gagasan utama yang menjadi dasar pengklasifikasi ini
adalah menggunakan data yang paling mirip untuk mengklasifikasikan, misalnya,
apa kelas objek yang muncul dengan warna kuning menggunakan ide ini?
Perhatikan bahwa karena kita berbicara tentang klasifikasi
Kami berasumsi bahwa kami memiliki set pelatihan dengan data
sebelumnya diberi label dalam hal ini data merah dan hijau.
Perhatikan juga bahwa dalam data dalam contoh ini
mereka diwakili oleh titik-titik yang hidup dalam dua variabel V1 dan V2.
Jika kita menggunakan, misalnya, pengklasifikasi tetangga terdekat, itu berarti kita punya
untuk menemukan data yang paling dekat dengan data kami yang dimaksud
dan gunakan kelasnya untuk memprediksi kelas data yang kita lihat dengan warna kuning.
Pertimbangkan bahwa untuk berbicara tentang data paling mirip yang perlu kita tentukan sebelumnya
pengertian jarak antar data dengan asumsi bahwa dalam data yang paling mirip
mereka paling dekat dalam ruang dengan variabel V1 dan V2.
Biasanya untuk mengukur
jarak kami menggunakan metrik yang dikenal sebagai jarak Euclidean.
Seperti yang Anda ketahui, jarak itu sesuai dengan akar dari
jumlah perbedaan kuadrat.
Perbedaan ini dihitung untuk masing-masing variabel.
yang digunakan untuk mewakili data, perhatikan metrik jarak ini
Ini juga berfungsi untuk jumlah variabel yang lebih besar.
Kembali ke contoh kita, kita secara visual memperhatikan ketiganya
jarak yang lebih kecil, kita melihat bahwa jarak yang lebih kecil sesuai dengan V1,
oleh karena itu data ini yang paling mirip yaitu tetangga terdekat.
Jadi menggunakan teknik tetangga dekat klasifikasi data kami
itu akan menjadi hijau.
Seperti apa tekniknya jika kita menggunakan K di dekat tetangga?
Demikian pula, pengklasifikasi K-nearest-neighbor menemukan
data yang paling mirip dengan data yang bersangkutan dan kemudian menghasilkan klasifikasi
menggunakan kelas yang paling banyak mengulang di antara K tetangga.
Model ini mengasumsikan bahwa nilai K telah ditentukan sebelumnya.
Misalnya jika nilai K adalah tiga,
kita harus menemukan tiga item data yang paling mirip dengan item data yang dimaksud.
Dalam hal ini mereka ditandai dengan lingkaran hijau.
Kami kemudian memiliki kebulatan suara untuk klasifikasi
Anda bahwa tiga tetangga terdekat milik kelas hijau,
oleh karena itu yang akan menjadi prediksi untuk data kelas yang tidak diketahui.
Ini contoh lain, misalkan nilai K adalah 6.
Apa yang akan menjadi klasifikasi untuk data kuning?
Kami melihat enam tetangga terdekat yang ditandai dengan lingkaran hijau.
Dalam hal ini pengklasifikasi kami memiliki empat suara yang mendukung kelas merah dan
dua suara mendukung kelas hijau, untuk
oleh karena itu klasifikasinya adalah kelas merah.
Di sini kita melihat contoh lain, dalam hal ini data yang akan diklasifikasikan lebih rumit.
yang terletak di daerah yang tidak jelas kelas tetangganya.
Jika misalnya nilai K adalah 2,
Apa yang akan menjadi prediksi untuk kelas data kuning?
Kami melihat dua tetangga terdekat dengan data kuning ditandai dengan lingkaran hijau.
Masalahnya adalah bahwa masing-masing milik kelas yang berbeda,
oleh karena itu tidak ada kejelasan tentang klasifikasi yang harus kami usulkan.
Nanti kita akan melihat beberapa modifikasi pada teknik ini
yang dapat membantu kami memecahkan kasus semacam ini.
Singkatnya, kita telah melihat sejauh ini
bahwa algoritma tetangga terdekat adalah algoritma klasifikasi,
itu didasarkan pada gagasan menggunakan data yang paling mirip untuk mengklasifikasikan.
Sangat penting untuk dicatat bahwa ini memerlukan definisi metrik jarak
dan nilai K
Pertimbangan penting adalah bahwa teknik ini hanya menggunakan waktu komputasi.
saat melakukan klasifikasi, di situlah Anda harus menemukan
tetangga dan hitung jumlah suara dari setiap kelas, karena ini hanya berfungsi saat
Anda meminta algoritma ini terdaftar sebagai logaritma malas belajar.
Kita akan melihat nanti algoritma lain yang membuang waktu komputasi
sebelum mereka diminta untuk melakukan penyortiran.
VARIABEL TETANGGA DEKAT 1

[MUSIK] Selamat datang
ke video baru dari kursus Penambangan Data kami.
Dalam video ini kita akan melihat beberapa varian penting dalam pengklasifikasi tetangga
menutup.
Varian utama dari metode tetangga terdekat yaitu
Apa yang akan kita jelajahi dalam video ini adalah penggunaan ukuran jarak yang berbeda.
Yang memotivasi kami adalah tergantung pada jenis variabelnya
kita harus menjelaskan data yang harus kita ubah metrik kita.
Seperti yang kita lihat sebelumnya,
data umumnya diwakili oleh vektor deskriptor.
Secara umum, biasanya nilai-nilai yang bisa diambil
kolom yang berbeda dalam vektor ini sangat berbeda sifatnya.
Misalnya, dalam kasus database pelanggan, variabel profesi
Dibutuhkan nilai yang sangat berbeda dari yang diambil oleh jumlah variabel pengeluaran bulanan.
Faktanya, yang satu kategoris dan yang lainnya numerik.
Misalnya, jika kami mewakili klien kami dengan profesi variabel,
kisaran gaji, jumlah pengeluaran bulanan, dan lokasi toko, caranya
menghitung jarak antara klien Juan dan María dengan mempertimbangkan variabel-variabel ini?
Hal pertama yang harus diperhatikan adalah selalu saat menghitung jarak
Kami akan membandingkan variabel yang sesuai,
yaitu, kami tidak akan pernah menghitung perbedaan antara variabel yang berbeda.
Dalam contoh ini, fungsi jarak kita harus terakumulasi
entah bagaimana perbedaan antara masing-masing variabel yang bersangkutan.
Pertama mari kita lihat bagaimana membandingkan dua objek menggunakan variabel lokasi.
Dalam hal ini variabel itu sesuai dengan sepasang angka kontinu.
Lintang dan bujur.
Hal yang paling wajar adalah dengan menggunakan jarak Euclidean atau Manhattan
menghitung jarak antara dua pasangan bilangan.
Menggunakan jarak Euclidean, kita harus menghitung akar kuadrat dari jumlah tersebut
dari selisih setiap koordinat pasangan bilangan kita yang dikuadratkan.
Jadi dalam contoh ini kita mendapatkan kira-kira jarak 88,079.
Perhatikan bahwa jika kita ingin mengukur jarak antara keduanya
data yang direpresentasikan dalam dimensi D sederhana
rumus yang sama memperluas pengurangan untuk setiap dimensi data.
Kami juga dapat menghitung jarak menggunakan lokasi
melalui jarak dari Manhattan, yang sesuai dengan jumlahnya
dari nilai absolut perbedaan masing-masing koordinat.
Menggunakan kemudian Manhattan,
kita akan memiliki jarak antara kedua klien kira-kira 124,07.
Sekarang mari beralih ke jenis variabel lainnya.
Mengikuti contoh pelanggan,
Variabel gender dapat mengambil dua kemungkinan nilai, feminin dan maskulin.
Variabel yang dapat mengambil dua nilai dikenal sebagai variabel biner.
dan umumnya kami mengubahnya sehingga mengambil nilai 0 atau 1.
Dalam kasus khusus ini, kita dapat menetapkan nilai,
ke nilai feminin 1 dan ke nilai maskulin 0.
Jarak Hamming adalah yang paling umum untuk variabel biner.
Ini sangat sederhana, bandingkan saja bilangan biner yang mengembalikan 1
jika berbeda atau 0 jika sama.
Dalam contoh pelanggan kita, jika kita memiliki pria dan wanita,
jarak antara mereka mengingat variabel gender akan sama dengan 1.
bahwa variabel jenis kelamin laki-laki sama dengan 0 dan variabel jenis kelamin perempuan sama dengan 1.
Demikian pula, jika kita memiliki dua wanita,
jarak antara mereka dengan mempertimbangkan variabel jenis kelamin
akan menjadi 0 Anda yang keduanya memiliki nilai 1 dalam variabel itu.
Jika kita memiliki beberapa variabel biner, kita harus mengelompokkan semua variabel menjadi satu.
dan menghitung jarak Hamming antara himpunan variabel.
Ekstensi ini cukup sederhana, yang harus kita lakukan hanyalah menambahkan nomornya
kali variabel biner berbeda.
Misalnya, pada gambar kami menandai dengan warna merah semua kasus di mana variabelnya
biner berbeda.
Jadi jarak Hamming antara vektor yang kita lihat sama dengan 3.
Sekarang mari kita pertimbangkan bahwa variabel biner adalah jenis kelamin
apakah Anda seorang pekerja mandiri atau tidak dan apakah Anda memiliki anak atau tidak.
Pada slide kita melihat dua klien yang berbeda,
seorang wanita yang bukan wiraswasta dan yang memiliki anak
dan seorang pria yang wiraswasta dan tidak memiliki anak.
Pengkodean untuk kedua klien masing-masing adalah 101 dan 010.
Jarak Hamming antara kedua klien akan sama dengan 3 Anda
ketiga variabel biner tersebut berbeda.
Sesuatu yang banyak digunakan dalam praktek adalah untuk membagi jumlah kasus di mana
variabel biner berbeda dengan jumlah total variabel biner
sedemikian rupa untuk menjaga angka kecil dalam hasil jarak.
Dalam contoh yang sama, alih-alih menggunakan 3 sebagai jarak antara vektor biner,
kita menggunakan 3 dibagi 7.
Alasan mengapa kami ingin menjaga jarak tetap kecil
itu karena jika sekelompok variabel mengambil nilai jarak yang sangat besar
ini akan mengatur jarak total saat menggabungkan jarak antara
berbagai jenis variabel.
Sesuatu yang juga digunakan untuk memvisualisasikan jarak antara dua vektor variabel
biner adalah larik yang menunjukkan kepada kita berapa kali masing-masing telah terjadi
kemungkinan kombinasi nilai biner.
Kami melihat dalam warna kemungkinan kombinasi dalam matriks,
Berapa kali setiap kombinasi terjadi dihitung.
Misalnya, kombinasi 10 terjadi dua kali,
Saya melihat mereka ditandai dengan warna merah di vektor biner.
Jenis variabel lain yang menarik adalah variabel kategori.
Variabel tersebut pada umumnya dapat mengambil beberapa nilai atau kategori,
Selain itu, kategori-kategori ini tidak memiliki urutan yang pasti di antara mereka sendiri,
misalnya variabel profesi.
Contoh lain bisa jadi olahraga variabel yang Anda latih, nilai yang mungkin
akan mengambil variabel ini adalah sepak bola, tenis, bola basket, renang, dll.
Mari kita lihat contoh cara menghitung jarak antara dua benda
menggunakan satu set variabel kategori.
Dalam hal ini objek kita adalah Pedro dan Sofía yang dijelaskan melalui tiga
variabel kategori, profesi, kota dan olahraga yang mereka praktikkan.
Untuk mendapatkan jarak kita cukup menghitung jumlah kasus di mana
variabel berbeda dibagi dengan total variabel kategori.
Di sini mereka berbeda dalam kasus variabel profesi dan kota.
Jarak antara Pedro dan Sofia akan menjadi 2 dibagi 3.
Pertimbangan penting adalah bahwa kita harus peduli
dari jumlah kemungkinan nilai yang dapat diambil oleh variabel kategorikal,
Anda bahwa semakin banyak nilai yang dapat diambil oleh variabel, semakin kecil kemungkinannya
bahwa objek yang berbeda memiliki nilai yang sama dalam variabel itu.
Misalnya, variabel profesi
dapat memiliki lebih banyak nilai yang mungkin daripada variabel status perkawinan.
Itu harus dipertimbangkan entah bagaimana.
Salah satu solusi yang mungkin adalah dengan menggunakan bobot jarak,
bobot tinggi terkait dengan variabel dengan nilai lebih sedikit
nilai yang mungkin dan bobot rendah yang terkait dengan variabel dengan nilai yang lebih mungkin.
Sedemikian rupa sehingga setiap kali dua objek berbeda,
pada variabel kategorikal yang mengambil banyak nilai,
ini tidak terlalu berpengaruh dalam perhitungan jarak.
Misalnya, jika kita memiliki 100 kemungkinan profesi dan 4 kemungkinan status perkawinan,
alih-alih menambahkan 1 setiap kali objek berbeda dalam suatu variabel,
Kami menambahkan keempat dan 1 masing-masing dibagi 100.
Jenis variabel lain yang banyak muncul dalam praktek
adalah variabel ordinal.
Variabel-variabel ini seperti variabel kategori tetapi perbedaan utamanya
adalah bahwa kemungkinan nilai yang dapat mereka ambil memiliki urutan.
Misalnya, kisaran gaji.
Kami melihat dalam kasus ini bahwa ada 5 kemungkinan rentang gaji.
Tapi tentu saja kisaran kurang dari 200 berada di bawah kisaran antara 200 dan 500.
Cara paling umum untuk memperlakukan variabel-variabel ini
adalah dengan memetakan dari nilai minimum ke maksimum ke interval 0 1.
Sedemikian rupa untuk menghasilkan angka yang terkait dengan setiap rentang yang memungkinkan.
Dengan demikian, rentang kurang dari 200 akan sesuai dengan 0,
maka kisaran antara 200 dan 500 akan sesuai dengan 0,25 dan seterusnya.
Setelah transformasi ini,
kita cukup menggunakan jarak Euclidean untuk variabel-variabel ini.
Mari kita lihat contoh konkret.
Misalkan kita ingin menghitung jarak antara Juan dan María
sesuai dengan variabel posisi di perusahaan dan kisaran gaji.
Nilai yang dipetakan ke rentang 0 1 berada dalam tanda kurung.
Pertama kami memetakan setiap nilai ke nilai yang sesuai dalam rentang 0 1.
Sekarang kita cukup menggunakan jarak Euclidean
untuk mendapatkan jarak akhir antara Juan dan María.
Dalam hal ini memberi kita 1,03.
Dalam video ini kita belajar menghitung jarak untuk variabel numerik,
biner, kategorikal dan ordinal.
Karena pada kenyataannya kami menemukan semua variabel ini saat membuat
klasifikasi dengan tetangga terdekat.
Penting untuk menentukan ukuran jarak kita dengan sangat hati-hati.
[AUDIO_BLANK]
TETANGGA DEKAT II
[MUSIK] Selamat datang di video baru kursus penambangan data kami.

Hari ini kita akan melihat varian baru dari algoritma tetangga terdekat.
Varian utama yang akan kita lihat di video ini berkaitan dengan pertimbangan
jarak ke tetangga saat menghitung kelas yang paling banyak dipilih,
dan juga dengan memperbesar atau memperkecil variabel tertentu saat menghitung
jarak.
Gagasan pertama adalah untuk mencatat bahwa memperkuat atau mengurangi jarak tertentu dapat dilakukan
sangat berguna, terutama untuk lebih menekankan pada elemen yang lebih dekat dan
elemen yang kurang ke yang lebih jauh, saat menentukan kelas mana yang paling banyak dipilih.
Misalnya, pada gambar kita melihat bahwa kita memiliki
dua tetangga dari kelas merah dan dua tetangga dari kelas hijau.
Dalam hal ini, algoritme tradisional akan menjawab bahwa ada ikatan antara keduanya
kelas, dalam kasus di mana K sama dengan 4.
Kita dapat melihat bahwa jawaban yang lebih tepat, dalam hal ini, adalah
kelas merah, Anda tetangga merah itu jauh lebih dekat daripada tetangga hijau.
Sekarang mari kita lihat kasus yang lebih ekstrim.
Pertimbangkan situasi gambar tersebut.
Jika nilai K adalah 7, tetangga yang diberi tanda akan menjadi yang terdekat.
Jika kita menggunakan algoritma tradisional, klasifikasinya akan menjadi kelas hijau.
Tapi sekali lagi
kita melihat bahwa tetangga hijau sedikit lebih jauh daripada tetangga merah.
Dengan cara yang sama, mungkin klasifikasi yang lebih tepat adalah kelas merah,
Anda bahwa terlepas dari kenyataan bahwa mereka adalah tetangga yang lebih sedikit, mereka lebih dekat.
Lalu bagaimana kita mengatur untuk mengubah
algoritma tetangga terdekat tradisional sedemikian rupa sehingga secara otomatis
informasi jarak tetangga dimasukkan?
Efek ini dapat dicapai dengan menggunakan bobot yang terkait dengan jarak
ketika menghitung kelas dengan suara terbanyak di antara penduduk.
Pada umumnya bobot ini berbanding terbalik dengan jarak,
sedemikian rupa sehingga jika jaraknya lebih besar, bobotnya lebih kecil.
Dua bobot yang paling umum ditampilkan pada slide.
Opsi pertama adalah mengalikan setiap suara dengan satu dibagi dengan
jarak antara tetangga dan titik yang akan diklasifikasikan.
Yang kedua adalah menggunakan fungsi dengan peluruhan eksponensial,
sedemikian rupa sehingga penalti untuk jarak lebih besar
semakin dekat tetangganya, dan semakin kecil semakin jauh tetangganya.
Untuk melakukan klasifikasi akhir, masing-masing tetangga
berikan suara Anda sehubungan dengan kelas, tetapi setiap suara ditimbang dengan bobot W,
yang akan lebih kecil jika tetangganya lebih jauh dari datum yang bersangkutan.
Varian lain dari algoritma tetangga terdekat adalah mempertimbangkan pentingnya
variabel atau dimensi saat menghitung jarak.
Misalnya,
Misalkan kita telah mengklasifikasikan data yang didistribusikan seperti pada gambar.
Mari kita ambil
Dalam hal ini, variabel V2 jauh lebih relevan daripada variabel V1.
Kita melihat bahwa tiga tetangga terdekat berwarna hijau hanya diproyeksikan pada variabel V1
mereka lebih jauh dari tetangga terdekat merah yang diproyeksikan juga di V1.
Di sisi lain, kita melihat bahwa tetangga hijau lebih dekat ke
data yang bersangkutan dari tetangga merah, jika kita memproyeksikan data ke dalam variabel V2.
Jika variabel V2 jauh lebih banyak
relevan dari variabel V1, kita harus mengklasifikasikan data yang dimaksud sebagai hijau,
Anda bahwa dalam variabel tetangga hijau lebih dekat.
Derajat kepentingan harus ditentukan
sebelumnya menggunakan pengetahuan tentang pemilihan variabel.
Kemudian derajat kepentingan tersebut harus digunakan sebagai bobot.
untuk setiap variabel dalam perhitungan jarak.
Misalnya,
jika kita telah menentukan bobot yang menunjukkan pentingnya setiap variabel,
kita melihat bahwa kita hanya perlu mengalikan setiap perbedaan
yang muncul dalam jarak Euclidean dengan bobot masing-masing.
Kesimpulan,
dalam video ini kita melihat bagaimana memodifikasi algoritma tetangga dekat, sedemikian rupa
cara untuk mempertimbangkan jarak setiap tetangga dalam keputusan, dan juga
pentingnya variabel yang berbeda dalam menghitung jarak.
[AUDIO_BLANK]
Contoh Tetangga Terdekat

Dalam video ini kita akan melihat beberapa contoh terapan dari algoritma tetangga
menutup.
Motivasi utama video ini adalah menggunakan sebagian besar konsep
Terlihat pada Teknik Tetangga Terdekat
menunjukkan seperti apa eksekusi algoritme yang lengkap.
Misalkan kita memiliki tabel data pelatihan berikut
dengan tiga kasus kelas A dan tiga kasus kelas B.
Kemudian data baru P7 tiba yang kelasnya tidak kita ketahui dan kita inginkan
melakukan klasifikasi dengan menggunakan teknik tetangga dekat.
Dalam slide ini kami menunjukkan distribusi titik-titik
pelatihan penglihatan.
Sumbu horizontal sesuai dengan variabel X
dan sumbu vertikal ke variabel Y.
Untuk contoh ini kita akan menggunakan jarak Euclidean
Anda bahwa semua data numerik.
Hal pertama yang harus kita lakukan adalah menghitung jarak dari data yang kita inginkan
peringkat terhadap semua poin lain dalam database pelatihan kami.
Dalam slide ini kami tampilkan sebagai contoh cara menghitung jarak
Euclidean antara P1 dan P7 dan antara P2 dan P7.
Setelah menghitung jarak antara P7 dan semua titik lainnya,
dengan cara yang sama seperti yang ditunjukkan pada slide sebelumnya dengan P1 dan P2 tersebut
hasil dari semua jarak terlihat pada slide ini.
Kita dapat menggunakan matriks seperti yang ditunjukkan pada gambar
untuk mewakili berturut-turut jarak antara titik P7
dan semua titik lainnya ditampilkan di sebelah kanan dalam kolom.
Misalkan kita akan menggunakan pengklasifikasi tetangga dekat, dalam hal ini
kasus pertama kita harus mendeteksi jarak terkecil dalam array kami
jarak untuk mengetahui tetangga terdekat dan kemudian memverifikasi kelasnya.
Dalam hal ini, tetangga terdekat milik kelas A Akhirnya
maka klasifikasi yang harus kita perkirakan untuk titik P7 adalah
kelas A Anda bahwa ini adalah kelas tetangga terdekat.
Apa yang terjadi jika kita menggunakan pengklasifikasi 3 tetangga terdekat?
Kami kemudian melihat di layar tiga jarak terkecil
oleh karena itu kami telah mengidentifikasi tiga tetangga terdekat.
Kami juga memvisualisasikan kelas mereka, dua tetangga pertama
milik kelas A dan tetangga ketiga milik kelas B.
Terakhir kemudian dilakukan klasifikasi untuk data P7 menggunakan tiga
tetangga terdekat adalah kelas A, Anda adalah salah satu dari tiga tetangga yang memiliki dua
ke kelas A dan hanya satu milik kelas B.
Sekarang mari kita lihat contoh lain.
Misalkan kita memiliki database pelanggan
seperti yang ditunjukkan pada tabel.
Variabel pertama adalah numerik dan sesuai dengan senioritas dalam beberapa tahun
pelanggan yang sesuai dengan baris yang sedang kita pertimbangkan.
Perhatikan bahwa nama tidak dianggap sebagai variabel tetapi
lebih seperti pengidentifikasi setiap pelanggan.
Variabel kedua adalah ordinal,
dan sesuai dengan kisaran gaji yang diperoleh klien yang bersangkutan.
Variabel ketiga dan keempat adalah biner, yang ketiga memberi tahu jika klien kami
punya anak atau tidak dan yang keempat sesuai dengan jenis kelamin.
Variabel kelima dan keenam bersifat kategoris,
sesuai dengan status perkawinan dan negara tempat toko berada
dimana masing-masing klien berafiliasi.
Akhirnya, kolom terakhir sesuai dengan kelas
yang menjadi milik setiap klien dalam database pelatihan kami.
Lalu apa yang terjadi jika klien muncul yang kelasnya tidak kita ketahui?
Misalkan kita akan menggunakan teknik tetangga dekat
untuk membuat klasifikasi ini.
Kami pertama-tama mencatat bahwa kita harus mengubah variabel biner menjadi 0 dan 1.
Kemudian ingat bahwa kita harus mengubah variabel ordinal, dalam hal ini kita memetakan
variabel rentang gaji ke rentang 0 1 dengan nilai yang muncul di layar,
0 untuk rentang kurang dari 200 05 untuk rentang tersebut
250 750 dan 1 untuk rentang yang lebih besar dari 750.
Kami kemudian melihat bahwa variabel rentang gaji ditransformasikan dengan nilai
yang ditandai dalam tabel.
Meskipun variabel senioritas adalah numerik, Anda, yang sesuai dengan jumlah
tahun klien kami telah berada di perusahaan, perlu untuk menormalkannya.
Normalisasi ini terdiri dari mengambil semua nilai variabel ke kisaran 0 1.
Misalkan misalnya kita menghitung jarak Euclidean
dan kami mencatat bahwa rentang di mana jarak bergerak menurut variabel 1 pergi
dari 0 hingga 1000, sedangkan rentang di mana variabel 2 bergerak adalah dari 0 hingga 1.
Ini akan menimbulkan masalah di mana jarak total akan terlihat sepenuhnya
diatur oleh variabel 1.
Itu sebabnya kita harus membawa kisaran 0 1000 ke kisaran 0 1 juga.
Untuk menormalkan rentang A1 B1 ke rentang baru A2 B2
sederhananya data kita harus ditempatkan sedemikian rupa
secara proporsional mempertahankan posisi relatif mereka dalam jangkauan.
Misalnya, jika kita ingin mengambil nilai X1 ke range baru bernama X2
kami cukup menerapkan rumus yang terlihat di layar.
Istilah kedua dari persamaan berkaitan dengan menyelamatkan ukuran
segmen A2 X2 dan suku pertamanya adalah
bersangkutan bahwa segmen ini terletak mulai dari A2.
Dalam contoh kita kemudian pada senioritas variabel jika kita mengira bahwa
perusahaan telah beroperasi selama 5 tahun, kami memiliki variabel mulai dari 0 hingga 5 tahun,
Jika kita ingin membawanya ke kisaran 0 1, kita cukup menerapkan rumus yang terlihat di
slide sebelumnya untuk setiap nilai variabel saat ini.
Kami kemudian melihat pada gambar nilai-nilai kuno variabel dinormalisasi di
rentang 0 1.
Sekarang kita hanya perlu mengidentifikasi jumlah nilai yang mungkin
bahwa variabel kategori kami mengambil.
Putar video mulai 7 menit 0 detik dan ikuti transkrip 7:00
Kami kemudian akan mempertimbangkan bahwa variabel status perkawinan memiliki empat kemungkinan nilai
dan bahwa variabel tempat mempertimbangkan 10 negara yang tersedia.
Mari kita hitung sebagai contoh jarak Euclidean
antara klien Pedro dan Ángela.
Untuk melakukan ini, kami akan mendapatkan perbedaan di masing-masing kelompok yang berbeda
variabel.
Mempertimbangkan usia mereka memiliki perbedaan 0,2.
Mempertimbangkan kisaran gaji, mereka memiliki selisih 0,5.
Dan pada variabel biner keduanya memiliki selisih 1.
Dalam status perkawinan mereka sama sehingga ada perbedaan mereka adalah 0 dan di tempat
Mereka berbeda.
Tetapi karena ada 10 negara, selisihnya adalah 1 dibagi 10.
Menambahkan semua perbedaan yang disebutkan di atas,
kita melihat bahwa total jarak adalah 2,8.
Karena Maria termasuk dalam kelas sesekali,
dan karena kita mengklasifikasikan menggunakan tetangga terdekat,
kami kemudian menugaskan Angela kelas sesekali juga.
Dalam video ini kami melihat contoh lengkap dari algoritma eksekusi
tetangga terdekat mempertimbangkan masalah dengan jenis variabel campuran.
Kami belajar bahwa algoritme dapat digunakan dengan semua jenis jarak
tetapi ini harus didefinisikan dengan hati-hati
tergantung pada jenis variabel yang kita pertimbangkan.
[AUDIO_BLANK]
Dalam video ini kita akan melihat beberapa contoh terapan dari algoritma tetangga
menutup.
Motivasi utama video ini adalah menggunakan sebagian besar konsep
Terlihat pada Teknik Tetangga Terdekat
menunjukkan seperti apa eksekusi algoritme yang lengkap.
Misalkan kita memiliki tabel data pelatihan berikut
dengan tiga kasus kelas A dan tiga kasus kelas B.
Kemudian data baru P7 tiba yang kelasnya tidak kita ketahui dan kita inginkan
melakukan klasifikasi dengan menggunakan teknik tetangga dekat.
Dalam slide ini kami menunjukkan distribusi titik-titik
pelatihan penglihatan.
Sumbu horizontal sesuai dengan variabel X
dan sumbu vertikal ke variabel Y.
Untuk contoh ini kita akan menggunakan jarak Euclidean
Anda bahwa semua data numerik.
Hal pertama yang harus kita lakukan adalah menghitung jarak dari data yang kita inginkan
peringkat terhadap semua poin lain dalam database pelatihan kami.
Dalam slide ini kami tampilkan sebagai contoh cara menghitung jarak
Euclidean antara P1 dan P7 dan antara P2 dan P7.
Setelah menghitung jarak antara P7 dan semua titik lainnya,
dengan cara yang sama seperti yang ditunjukkan pada slide sebelumnya dengan P1 dan P2 tersebut
hasil dari semua jarak terlihat pada slide ini.
Kita dapat menggunakan matriks seperti yang ditunjukkan pada gambar
untuk mewakili berturut-turut jarak antara titik P7
dan semua titik lainnya ditampilkan di sebelah kanan dalam kolom.
Misalkan kita akan menggunakan pengklasifikasi tetangga dekat, dalam hal ini
kasus pertama kita harus mendeteksi jarak terkecil dalam array kami
jarak untuk mengetahui tetangga terdekat dan kemudian memverifikasi kelasnya.
Dalam hal ini, tetangga terdekat milik kelas A Akhirnya
maka klasifikasi yang harus kita perkirakan untuk titik P7 adalah
kelas A Anda bahwa ini adalah kelas tetangga terdekat.
Apa yang terjadi jika kita menggunakan pengklasifikasi 3 tetangga terdekat?
Kami kemudian melihat di layar tiga jarak terkecil
oleh karena itu kami telah mengidentifikasi tiga tetangga terdekat.
Kami juga memvisualisasikan kelas mereka, dua tetangga pertama
milik kelas A dan tetangga ketiga milik kelas B.
Terakhir kemudian dilakukan klasifikasi untuk data P7 menggunakan tiga
tetangga terdekat adalah kelas A, Anda adalah salah satu dari tiga tetangga yang memiliki dua
ke kelas A dan hanya satu milik kelas B.
Sekarang mari kita lihat contoh lain.
Misalkan kita memiliki database pelanggan
seperti yang ditunjukkan pada tabel.
Variabel pertama adalah numerik dan sesuai dengan senioritas dalam beberapa tahun
pelanggan yang sesuai dengan baris yang sedang kita pertimbangkan.
Perhatikan bahwa nama tidak dianggap sebagai variabel tetapi
lebih seperti pengidentifikasi setiap pelanggan.
Variabel kedua adalah ordinal,
dan sesuai dengan kisaran gaji yang diperoleh klien yang bersangkutan.
Variabel ketiga dan keempat adalah biner, yang ketiga memberi tahu jika klien kami
punya anak atau tidak dan yang keempat sesuai dengan jenis kelamin.
Variabel kelima dan keenam bersifat kategorikal,
sesuai dengan status perkawinan dan negara tempat toko berada
dimana masing-masing klien berafiliasi.
Akhirnya, kolom terakhir sesuai dengan kelas
yang menjadi milik setiap klien dalam database pelatihan kami.
Lalu apa yang terjadi jika klien muncul yang kelasnya tidak kita ketahui?
Misalkan kita akan menggunakan teknik tetangga dekat
untuk membuat klasifikasi ini.
Kami pertama-tama mencatat bahwa kita harus mengubah variabel biner menjadi 0 dan 1.
Kemudian ingat bahwa kita harus mengubah variabel ordinal, dalam hal ini kita memetakan
variabel rentang gaji ke rentang 0 1 dengan nilai yang muncul di layar,
0 untuk rentang kurang dari 200 05 untuk rentang tersebut
250 750 dan 1 untuk rentang yang lebih besar dari 750.
Kami kemudian melihat bahwa variabel rentang gaji ditransformasikan dengan nilai
yang ditandai dalam tabel.
Meskipun variabel senioritas adalah numerik, Anda, yang sesuai dengan jumlah
tahun klien kami telah berada di perusahaan, perlu untuk menormalkannya.
Normalisasi ini terdiri dari mengambil semua nilai variabel ke kisaran 0 1.
Misalkan misalnya kita menghitung jarak Euclidean
dan kami mencatat bahwa rentang di mana jarak bergerak menurut variabel 1 pergi
dari 0 hingga 1000, sedangkan rentang di mana variabel 2 bergerak adalah dari 0 hingga 1.
Ini akan menimbulkan masalah di mana jarak total akan terlihat sepenuhnya
diatur oleh variabel 1.
Itu sebabnya kita harus membawa kisaran 0 1000 ke kisaran 0 1 juga.
Untuk menormalkan rentang A1 B1 ke rentang baru A2 B2
sederhananya data kita harus ditempatkan sedemikian rupa
secara proporsional mempertahankan posisi relatif mereka dalam jangkauan.
Misalnya, jika kita ingin mengambil nilai X1 ke range baru bernama X2
kami cukup menerapkan rumus yang terlihat di layar.
Istilah kedua dari persamaan berkaitan dengan menyelamatkan ukuran
segmen A2 X2 dan suku pertamanya adalah
bersangkutan bahwa segmen ini terletak mulai dari A2.
Dalam contoh kita kemudian pada senioritas variabel jika kita mengira bahwa
perusahaan telah beroperasi selama 5 tahun, kami memiliki variabel mulai dari 0 hingga 5 tahun,
Jika kita ingin membawanya ke kisaran 0 1, kita cukup menerapkan rumus yang terlihat di
slide sebelumnya untuk setiap nilai variabel saat ini.
Kami kemudian melihat pada gambar nilai-nilai kuno variabel dinormalisasi di
rentang 0 1.
Sekarang kita hanya perlu mengidentifikasi jumlah nilai yang mungkin
bahwa variabel kategori kami mengambil.
Kami kemudian akan mempertimbangkan bahwa variabel status perkawinan memiliki empat kemungkinan nilai
dan bahwa variabel tempat mempertimbangkan 10 negara yang tersedia.
Mari kita hitung sebagai contoh jarak Euclidean
antara klien Pedro dan Ángela.
Untuk melakukan ini, kami akan mendapatkan perbedaan di masing-masing kelompok yang berbeda
variabel.
Mempertimbangkan usia mereka memiliki perbedaan 0,2.
Mempertimbangkan kisaran gaji, mereka memiliki selisih 0,5.
Dan pada variabel biner keduanya memiliki selisih 1.
Dalam status perkawinan mereka sama sehingga ada perbedaan mereka adalah 0 dan di tempat
Mereka berbeda.
Tetapi karena ada 10 negara, selisihnya adalah 1 dibagi 10.
Menambahkan semua perbedaan yang disebutkan di atas,
kita melihat bahwa total jarak adalah 2,8.
Karena Maria termasuk dalam kelas sesekali,
dan karena kita mengklasifikasikan menggunakan tetangga terdekat,
kami kemudian menugaskan Angela kelas sesekali juga.
Dalam video ini kami melihat contoh lengkap dari algoritma eksekusi
tetangga terdekat mempertimbangkan masalah dengan jenis variabel campuran.
Kami belajar bahwa algoritme dapat digunakan dengan semua jenis jarak
tetapi ini harus didefinisikan dengan hati-hati
tergantung pada jenis variabel yang kita pertimbangkan.
[AUDIO_BLANK]
Minggu Evaluasi 2
TOTAL POIN DARI 10
1. Pertanyaan 1
Apa itu klasifikasi?
1 poin
Masalah klasifikasi berusaha menemukan pola dalam sekelompok item.
Masalah klasifikasi berusaha untuk menemukan sistem yang mampu mengidentifikasi secara otomatis untuk setiap objek kelas yang
menjadi miliknya.
Ini adalah teknik untuk mencari asosiasi antara produk yang berbeda.
Ini adalah teknik untuk mengelompokkan informasi ke dalam kelompok atau cluster yang berbeda.
2. Pertanyaan 2
Bagaimana objek direpresentasikan untuk menerapkan algoritma klasifikasi? Tandai alternatif yang benar.
1 poin
Vektor dengan deskriptor yang relevan untuk klasifikasi
Tidak diperlukan pra-pemrosesan. Umumnya adalah mendapatkan data apa adanya dan melatih menggunakan model klasifikasi
Dalam variabel menggunakan karakteristik objek dan kelasnya
Jika itu adalah gambar, salah satu kemungkinannya adalah menggunakan setiap piksel gambar sebagai variabel.
3. Pertanyaan 3
Apa yang dilakukan algoritma tetangga terdekat?
1 poin
Kelompokkan data baru dari data serupa lainnya
Mengklasifikasikan data baru dari data yang paling mirip
Mengklasifikasikan data baru menggunakan pohon keputusan
Mengklasifikasikan data baru dengan asumsi independensi antara variabel yang berbeda
4. Pertanyaan 4
Mengapa nyaman untuk menormalkan variabel sebelum melakukan algoritma tetangga terdekat?
2 poin
Untuk menghindari artefak numerik atau ketidakpastian yang mungkin muncul

Untuk mempercepat perhitungan pada iterasi pertama
Untuk mengubah dimensi di mana data pelatihan ada
Sehingga variabel dengan peringkat lebih tinggi tidak mendominasi terhadap variabel dengan peringkat lebih rendah
5. Pertanyaan 5
Basis datanya adalah sebagai berikut:
Olahraga posisi di perusahaan gaji
tenis sekretaris $1.200
sepak bola analis $2.500
Jenis variabel apa yang masing-masing akan menjadi atribut Olahraga, Jabatan di perusahaan dan Gaji?
1 poin
Variabel kategorikal, biner, dan ordinal

Variabel ordinal, kategorikal dan numerik
Variabel kategorikal, ordinal, dan numerik
Variabel kategorikal, ordinal, dan kategoris
6. Pertanyaan 6
Manakah dari pernyataan berikut yang sesuai dengan kemungkinan modifikasi algoritme Tetangga Terdekat? (Tandai SEMUA alternatif
yang benar)
3 poin
Memperbesar/mengurangi variabel tertentu untuk perhitungan jarak
menormalkan data
Gunakan bobot untuk dimensi sedemikian rupa sehingga memberikan bobot yang lebih rendah ke dimensi yang kurang relevan
Pertimbangkan jarak dari tetangga untuk pemungutan suara kelas
7. Pertanyaan 7
Apa kerugian utama dari algoritma Near Neighbors?
1 poin
Dengan menggunakan banyak dimensi dan semuanya memiliki relevansi yang sama, algoritme menjadi tidak layak dalam praktiknya.
Algoritma tetangga terdekat relatif sederhana.
Algoritma tetangga terdekat tidak memiliki kelemahan yang ditandai dengan baik.
Algoritma tetangga terdekat mempertimbangkan jarak tetangga untuk pemilihan kelas.

POHON KEPUTUSAN

Dalam video ini kita akan mulai melihat model baru dari klasifikasi otomatis,
pohon keputusan.
Motivasi utama video ini adalah untuk memahami cara kerja pohon.
keputusan dengan terlebih dahulu memahami cara pohon beroperasi
setelah Anda membangun dan kemudian mem-parsing
bagaimana algoritma bekerja untuk membangun pohon langsung dari data.
Misalkan kita memiliki masalah di mana kita tertarik pada model yang tahu cara mengklasifikasikan
Aplikasi pinjaman hipotek antara kelas Disetujui dan Ditolak.
Perhatikan tabel data pelatihan yang muncul di slide.
Ingatlah bahwa ini adalah pelatihan, Anda yang kolom terakhir berisi kelas yang dituju
yang dimiliki oleh setiap data, yaitu,
kami memiliki riwayat pengajuan pinjaman hipotek dan kami tahu,
untuk setiap kasus tersebut, respons yang benar untuk setiap permintaan tersebut.
Variabel dalam contoh ini adalah Pelanggan, yang menunjukkan apakah suatu permintaan kredit
itu dihasilkan oleh nasabah bank atau tidak; variabel pendapatan,
menunjukkan tingkat pendapatan orang yang meminta kredit;
dan variabel Sejarah, yang menunjukkan seberapa baik perilaku tersebut
kredit orang di masa lalu.
Pada slide kita memiliki contoh pohon keputusan
yang bisa menjadi solusi untuk masalah kita.
Node biru adalah node internal pohon,
node merah dan hijau adalah daun pohon.
Secara umum, setiap node internal pohon mewakili variabel
atau atribut dari database kami.
Misalnya, simpul Pelanggan mengacu pada variabel Pelanggan yang sesuai dengan
kolom pertama dari data pelatihan kami.
Setiap tautan yang meninggalkan simpul masing-masing mewakili
kemungkinan nilai yang dapat diambil oleh simpul dari mana tautan pergi.
Misalnya, node yang sesuai dengan variabel History
Itu bisa mengambil nilai-nilai Baik atau Buruk.
Setiap node mengajukan pertanyaan berdasarkan nilai yang dapat diambil atribut,
Bergantung pada hasilnya, pohon itu memandu kita di sepanjang jalan yang harus diikuti.
Misalnya,
node History menanyakan apakah nilai variabel History baik atau buruk.
Jika bagus, jalurnya mengikuti panah di sisi kiri; Jika buruk,
jalan mengikuti panah di sisi kanan.
Node daun sesuai dengan hasil akhir klasifikasi
dihasilkan oleh pohon.
Misalnya, jika sepotong data mencapai daun hijau pertama di sisi kiri,
berarti bahwa klasifikasi data disetujui.
Mengklasifikasikan data baru menggunakan pohon keputusan cukup sederhana,
kita hanya perlu memasukkan data baru ke pohon,
turun dari simpul akar hingga mencapai daun.
Mari kita lihat contohnya.
Misalkan data baru kita adalah orang yang menjadi pelanggan,
Ia memiliki rekam jejak yang baik dan pendapatan yang tinggi.
Idenya kemudian adalah untuk melihat seperti apa klasifikasi mereka nantinya.
Kami kemudian turun pohon dengan data baru ini.
Pertama, kita melalui node klien.
Pertanyaannya adalah apakah data tersebut sesuai dengan klien atau tidak.
Karena dalam hal ini jawabannya adalah ya, kami turun ke cabang di sisi kiri.
Sekarang kita bertanya-tanya seperti apa sejarah orang ini.
Karena kita tahu sejarahnya bagus, kita turun ke cabang kiri.
Akhirnya, kita sampai pada sebuah daun, yang memberi kita nilai kelas
bahwa model akan memilih untuk data itu.
Dalam hal ini, orang tersebut disetujui.
Kita baru saja melihat bahwa mengklasifikasikan menggunakan pohon cukup sederhana, tetapi
jelas apa yang menarik untuk kita ketahui, bagaimana kita mendapatkan pohon keputusan?
Terutama, bagaimana kita membuatnya hanya dari data?
Hal pertama yang kita perlukan untuk membangun pohon adalah himpunan kita
pelatihan, yaitu database dengan instance berlabel.
Konstruksi pohon dimulai dengan pemilihan simpul akar.
Untuk melakukan ini, kita harus memilih variabel terbaik dari database kita.
Untuk sekarang,
Kami akan berasumsi bahwa kami memiliki kriteria untuk memilih variabel terbaik.
Nanti kita akan masuk ke rincian bagaimana mengevaluasi
kualitas dari masing-masing variabel.
Misalkan variabel terbaik dalam hal ini adalah variabel Pelanggan.
Kami kemudian melanjutkan untuk memulai pembangunan pohon,
menempatkan sebagai simpul akar simpul yang sesuai dengan variabel Klien.
Idenya sekarang adalah mengulang hal yang sama, tetapi memilih variabel terbaik
ketika kita berasumsi bahwa nilai pelanggan adalah Ya,
dan ketika kita mengasumsikan bahwa nilai pelanggan adalah No.
Untuk melakukan pemisahan ini, kita harus mengidentifikasi baris,
dengan mempertimbangkan kemungkinan nilai yang dapat diambil oleh variabel Pelanggan,
sedemikian rupa untuk mengirim baris dengan lengan yang berbeda di bawah simpul akar.
Dalam hal ini, nilai yang mungkin adalah Ya dan Tidak,
dan masing-masing ditandai dengan warna biru dan merah.
Langkah selanjutnya adalah membagi seluruh database pelatihan kita menjadi dua,
baris yang sesuai dengan nilai Ya dari variabel Klien dan
baris yang sesuai dengan nilai No dari variabel yang sama.
Kami melanjutkan untuk memisahkan, kemudian, tabel data dan masing-masing dikirim
ke setiap lengan yang mungkin dari simpul Klien.
Kemudian kita harus memilih variabel terbaik untuk dimasukkan
di setiap lengan yang mungkin.
Misalnya, misalkan di sisi kiri variabel terbaik adalah Sejarah.
Kami kemudian menempatkan node baru yang sesuai dengan variabel History
sebagai anak kiri dari variabel Pelanggan.
Demikian pula, untuk sisi kanan, kami juga mencari variabel terbaik.
Misalkan dalam hal ini variabel terbaik adalah Pendapatan.
Kami menempatkan, kemudian, simpul baru yang sesuai dengan variabel Pendapatan
sebagai anak kanan dari variabel Pelanggan.
Sekarang seluruh proses diulangi, mulai dari node History dan Entry,
Jadi kami melanjutkan sampai tidak ada data yang tersisa untuk melanjutkan.
Rekursi umum, kemudian, dari algoritma,
berisi langkah-langkah berikut, ambil atribut terbaik,
tempatkan sebagai simpul root, pisahkan set pelatihan sesuai dengan nilainya
atribut ini dan terus melakukan hal yang sama secara rekursif.
Kriteria pertama untuk menghentikan proses konstruksi,
yaitu, panggilan rekursif, untuk menanyakan apakah kita mencapai suatu titik
di mana semua baris yang tersisa milik kelas yang sama.
Dalam hal ini, kami meletakkan lembar dengan nama kelas itu.
Kriteria kedua untuk menghentikan rekursi adalah ketika kita mencapai a
titik di mana semua baris dalam database sama dalam variabelnya.
Kemudian,
Kami menempatkan lembar yang berisi kelas yang paling banyak diulang di antara baris tersebut.
Dalam video ini, kita belajar secara umum bagaimana proses membangun a
pohon keputusan.
Kami melihat terdiri dari apa panggilan rekursif dan
kriteria penghentian algoritma.
Kita tidak boleh lupa bahwa sebatang pohon membutuhkan satu set pelatihan untuk dapat melakukannya
dibangun, yang mengklasifikasikannya sebagai jenis pembelajaran yang diawasi.
Jangan lupa bahwa kita masih harus mempelajari jalannya
di mana kami memilih atribut terbaik untuk menempatkan setiap node.
[AUDIO_BLANK]
ENTROPI
[MUSIK] Selamat datang di video baru dalam kursus Penambangan Data kami!
Dalam video ini, kita akan mempelajari secara detail konsep entropi, sebuah istilah kunci
untuk pemilihan variabel selama pembangunan pohon keputusan.
Apa yang memotivasi kami dalam video ini adalah untuk memahami kriteria apa yang dievaluasi
kualitas variabel dalam database kami, saat memilih
node terbaik selama proses pembangunan pohon.
Hal pertama yang harus dipahami adalah, dalam konteks klasifikasi otomatis, kualitas
variabel ada hubungannya dengan kemampuannya untuk memisahkan elemen antara
kelas yang mungkin berbeda, setelah variabel itu mengambil salah satu dari nilai-nilai itu.
Misalnya, nilai variabel berbeda
[INCOMPRESSIBLE] nilai kelas yang berbeda.
Jika ada hubungan langsung antara nilai variabel dan kemungkinan
kelas, itu berarti bahwa variabel sangat baik dalam mengklasifikasikan.
Kualitas suatu variabel kemudian berkaitan dengan seberapa baik variabel dipisahkan.
kelas, setiap kali kita instantiate atribut itu.
Kelas-kelas terpisah dengan baik ketika setiap subkelompok dihasilkan oleh
pembagian atribut bersifat homogen, yaitu
di setiap subkelompok semua milik kelas yang sama.
Misalnya, pada gambar kita memiliki variabel umur.
Kami melihat bahwa dibutuhkan dua kemungkinan nilai antara 18 dan 25 dan lebih besar dari 25.
Mari tandai dengan warna nilai berbeda yang dapat diambil variabel!
Dalam kasus di mana klien berusia antara 18 dan 25 tahun,
kelas yang muncul adalah Frequent dan Occasional yaitu,
berusia antara 18 dan 25 tahun tidak menjelaskan kepada kami kelas mana yang dimiliki klien.
Di sisi lain, jika usia lebih dari 25 tahun, kelas juga dibagi,
yaitu, ketika pelanggan berusia di atas 25 tahun,
juga tidak jelas bagi kita termasuk kelas mana mereka.
Oleh karena itu, variabel tersebut buruk untuk diklasifikasikan.
Sekarang kita punya contoh lain.
Variabel jenis kelamin.
Nilai yang mungkin adalah laki-laki atau perempuan.
Mari tandai dengan warna nilai berbeda yang dapat diambil variabel.
Jika kita memilih dari data,
Dalam kasus di mana kliennya adalah wanita, kami melihat bahwa dalam kedua kasus,
kelas sesekali, oleh karena itu, ketika jenis kelamin klien adalah perempuan,
itu adalah prediktor yang baik untuk pelanggan sesekali.
Sekarang, jika kita pilih dari data, kasus di mana kliennya laki-laki,
kita melihat bahwa mereka semua termasuk dalam kelas Frequent.
Oleh karena itu, pelanggan pria merupakan prediktor yang baik untuk kelas Frequent.
Akhirnya, kita dapat menyimpulkan bahwa variabel jenis kelamin baik,
Anda bahwa ketika kita instantiate, menghasilkan tingkat homogenitas kelas yang baik.
Karena kami mencatat bahwa kualitas suatu variabel memiliki
berkaitan dengan homogenitas kelas, setelah kita membuat instance variabel,
kita membutuhkan metrik homogenitas.
Mari kita lihat sebuah contoh, sedikit lebih rumit.
Misalkan kita memiliki dua kemungkinan kelas ya dan tidak.
Jika ada 100 catatan dalam database kami,
di mana setiap kelas memiliki setengah catatan,
dan misalkan ketika meninjau kasus di mana A adalah 0, kami menemukan 48
baris milik kelas Ya dan dua baris milik kelas No.
Melihat sekarang pada kasus di mana A sama dengan 1,
kita melihat bahwa masih ada dua kasus kelas Ya dan 48 kelas No.
Jadi, variabel A sebagian besar berhasil memisahkan kelas dengan baik saat
ini dipakai.
Sekarang mari kita lihat variabel B.
Misalkan dengan membuat instance variabel B pada nilainya 0,
memberi kita bahwa 26 catatan milik kelas Ya dan 24 milik kelas Tidak.
Ini tidak baik, maksud Anda variabel B nilainya 0,
itu gagal untuk menghomogenkan kelas.
Terbalik, itu membuat mereka kira-kira setengah dari satu kelas dan setengah dari yang lain.
Hal serupa terjadi ketika variabel B dipakai pada nilai 1.
24 kasus tetap di kelas Ya dan 26 kasus tetap di kelas No.
Di sini juga variabel meninggalkan homogenisasi kelas yang buruk.
Sekali lagi, kita memiliki kasus variabel baik dan buruk,
tetapi di sini kita melihat bahwa homogenisasi mengambil nilai antara, yaitu,
kita membutuhkan ukuran yang memberi kita nilai homogenisasi untuk masing-masing
proporsi yang mungkin dari unsur-unsur yang termasuk dalam satu kelas dan kelas lainnya.
Karena kami memahami dari contoh-contoh bahwa perlu untuk dapat mengukur
homogenitas kelas setiap kali kita instantiate variabel kita
mengevaluasi, kita berada dalam posisi untuk mempelajari konsep entropi.
Entropi berasal dari teori informasi,
Ini adalah indikator yang memungkinkan kita mengukur tingkat gangguan dalam kumpulan data.
Kami akan menunjukkan entropi dengan H dan itu sesuai dengan minus jumlah
dari istilah p log p, untuk setiap kemungkinan kelas, di mana p menunjukkan
proporsi kasus milik setiap nilai kelas yang bersangkutan.
Mari kita lihat contoh penggunaan entropi.
Pertimbangkan data yang muncul di slide.
Pertama, perhatikan bahwa ada dua kemungkinan kelas, Frequent dan Ocasional.
Kami menandai baris dengan warna berbeda, agar lebih mudah memvisualisasikannya.
Jika kita ingin menghitung entropi kelas,
Menerapkan rumus yang kita lihat sebelumnya,
kita harus melihat proporsi kasus yang terjadi untuk setiap kemungkinan
nilai-nilai yang diambil kelas, dalam hal ini, Sering dan Sesekali.
Dalam kasus Sering, kami memiliki satu baris dari total empat baris,
dan dalam kasus Sesekali, kami memiliki tiga baris dari total empat baris.
Menerapkan proporsi ini dalam rumus, kita melihat hasilnya di layar.
Entropi sama dengan 1, jika kita memiliki 50% data
milik masing-masing dari dua kelas yang mungkin.
Dalam video ini kita belajar konsep entropi,
yang mengukur tingkat homogenitas dalam satu set nilai.
Biasanya, kami mengukur homogenitas dalam kolom kelas data.
yang sesuai dengan target yang ingin kita prediksi di
klasifikasi otomatis.
KONSEP MENDAPATKAN INFORMASI,

[SUARA] Selamat datang di video baru kursus penambangan data kami.
Pada video kali ini kita akan mempelajari secara detail konsep information gain,
istilah kunci untuk pemilihan variabel selama konstruksi
dari pohon keputusan.
Apa yang memotivasi kami dalam video ini adalah untuk memahami bagaimana,
Akhirnya, kami mengevaluasi kualitas variabel,
terutama menggunakan konsep entropi, terlihat di video sebelumnya.
Karena kita mengetahui konsep entropi, sekarang kita akan melihat caranya
menggunakannya secara langsung untuk dapat menghitung kualitas suatu variabel.
Ingatlah bahwa untuk menilai kualitas suatu variabel kita melihat apa
begitu homogen adalah kelas dari kelompok data yang dirangkai
setelah kita membuat instance variabel di setiap nilai yang mungkin.
Dalam contoh ini, saat mengevaluasi variabel jenis kelamin, kami memisahkan data menurut mereka
nilai-nilai dan kita memiliki bagian kiri dengan tiga kasus kelas sesekali dan
dua kasus kelas sering, yang tidak baik bagi Anda yang tidak homogen.
Di sisi kanan, ada dua kasus kelas sesekali dan satu kasus kelas
sering, yang juga tidak begitu homogen.
Ketika mengevaluasi variabel pendapatan,
karena memiliki tiga nilai yang mungkin, kami menghasilkan tiga pemisahan.
Kita melihat bahwa bagian yang sesuai dengan nilai kurang dari 100 memiliki semua
kasus dari kelas yang sama, itu sangat bagus.
Bagian yang sesuai dengan kisaran 100-200 memiliki dua kasus
kelas sering dan kasus kelas sesekali, yang tidak homogen.
Dan akhirnya, bagian yang sesuai dengan nilai lebih besar dari 200 memiliki
kasus dari kelas sesekali dan kelas dari kelas yang sering juga
situasi yang sangat tidak menguntungkan untuk dapat melakukan klasifikasi yang baik.
Kita lihat nanti,
bahwa untuk variabel yang sama, kualitas yang berbeda
pemisahan untuk nilai-nilai berbeda yang dapat diambil oleh variabel.
Ini kemudian menyarankan penggunaan rata-rata tertimbang dari homogenitas untuk
setiap variabel yang mempertimbangkan homogenitas.
Yaitu, entropi kelas pada setiap nilai yang diambil oleh variabel tertimbang
dengan jumlah relatif baris di mana variabel itu mengambil nilai itu.
Maka dengan jelas ini,
kita dapat mendefinisikan apa perolehan informasi itu.
Perolehan informasi merupakan indikator yang mengukur kualitas suatu variabel.
Apa yang dilakukannya, dengan kata sederhana, adalah menghitung berapa banyak entropi yang berkurang
kelas yang sesuai dengan suku pertama di ruas kanan persamaan
ketika kita membuat instance variabel A yang dimaksud.
Jika kita melihat suku kedua di ruas kanan persamaan,
kita melihat bahwa apa yang dilakukannya adalah menghitung entropi dari
kelas di setiap tabel data yang tersisa,
setelah kita membuat instance variabel yang dimaksud.
Setelah Anda menghitung semua entropi itu, Anda mengambil rata-rata tertimbang Anda.
Bobot rata-rata hanya menetapkan bobot terkait
dengan jumlah baris di mana variabel mengambil nilai itu,
nilai B tertentu, dibagi dengan jumlah baris.
Kita juga dapat melihat perolehan informasi,
sebagai perbedaan entropi kelas setelah kita turun di
pohon dengan atribut yang kita evaluasi.
Mari kita lihat contoh konkretnya.
Kita akan menghitung perolehan informasi dari
variabel jenis kelamin menggunakan tabel data yang kita lihat di slide.
Mengikuti persamaan yang kita lihat untuk definisi perolehan informasi,
Hal pertama adalah menghitung entropi kelas, yaitu seberapa homogen kelas tersebut
distribusi kelas sebelum membuat instance variabel apa pun.
Dalam hal ini kita melihat bahwa ada delapan baris, lima di antaranya milik
kelas sesekali dan tiga di antaranya ke kelas sering.
Oleh karena itu, entropi adalah apa yang kita lihat pada persamaan di layar.
Sekarang kita kehilangan istilah kedua dari persamaan definisi laba
informasi.
Untuk mendapatkannya kita harus membuat instance variabel gender dalam kemungkinannya
nilai dan ukur entropi kelas berdasarkan baris yang tersisa
setelah kita instantiate variabel.
Kita melihat, kemudian, bahwa dengan memberi contoh variabel dalam nilai manusia yang tersisa
dua kasus kelas sesekali dan satu kasus kelas sering.
Oleh karena itu, entropi diperoleh dengan mensubstitusikan rasio dua
sepertiga dan sepertiga dalam rumus, ini adalah 0,91.
Sekarang kita instantiate variabel gender pada nilai wanita, dan lihat itu
masih ada tiga kasus di kelas sesekali dan dua kasus di kelas sering.
Karena itu,
kami menghitung entropi dengan rasio tiga per lima dan dua per lima.
Entropi ini adalah 0,97.
Akhirnya kemudian, untuk memperoleh perolehan informasi dari variabel
jenis kelamin, pertama-tama kita harus mendapatkan rata-rata tertimbang
dari dua entropi yang kami hitung di atas, di mana setiap bobot memiliki
hubungannya dengan jumlah baris yang dianggap menghitung setiap entropi.
Dalam kasus entropi sama dengan 0,91, tiga dari delapan baris digunakan,
dan dalam kasus entropi sama dengan 0,97, lima dari delapan baris digunakan.
Perhitungan ini ditandai dengan lingkaran hijau pada slide.
Suku pertama di ruas kanan sederhana
entropi awal kelas.
kami menghitungnya dan nilainya 0,95,
kami menandainya dengan lingkaran hijau di slide.
Akhirnya kemudian, keuntungan dari
informasi dari variabel jenis kelamin memberi kita nilai 0,0025.
Untuk berlatih sedikit lagi,
Mari kita hitung perolehan informasi dari variabel pendapatan.
Kami kemudian memisahkan data
membuat instance setiap nilai yang dapat diambil oleh variabel ini.
Untuk kasus di mana variabel pendapatan mengambil nilai kurang dari 100,
kita melihat bahwa kita memiliki semua data di kelas sesekali.
Oleh karena itu, entropi adalah nol.
Dalam kasus di mana variabel pendapatan mengambil nilai antara 100 dan 200,
kita melihat bahwa kita memiliki dua kasus dari kelas sering dan satu kasus dari kelas sesekali.
Oleh karena itu, entropi dihitung dengan rasio sepertiga dan dua pertiga.
Akhirnya, untuk kasus di mana variabel pendapatan lebih besar dari 200,
kami memiliki kasing untuk kelas sesekali dan kasing untuk kelas sering.
Oleh karena itu, entropi dihitung dengan rasio satu setengah dan satu setengah,
yang menghasilkan entropi sama dengan 1.
untuk memperoleh information gain dari variabel pendapatan,
Kami menerapkan persamaan yang sama dengan yang Anda ketahui, menggantikannya
entropi awal pada suku pertama di sisi kiri persamaan,
dan rata-rata tertimbang dari entropi yang baru saja kita hitung,
bahwa dalam istilah kedua di sisi kanan persamaan.
Ini menghasilkan perolehan informasi
sebesar 0,35 untuk variabel pendapatan.
Saya meninggalkan Anda sebagai tantangan untuk menghitung perolehan informasi dari variabel tempat.
Saya dapat memberi tahu Anda bahwa, hasilnya akan memberi Anda 0,265.
Sekarang jika kita ingin memutuskan variabel mana yang terbaik di antara semua variabel dalam
meja secara sederhana
kita harus memilih variabel yang memiliki perolehan informasi tertinggi.
yaitu, variabel pendapatan, yang memberi kami keuntungan informasi sebesar 0,35.
Dalam video ini, kita mempelajari apa itu perolehan informasi,
yang sesuai dengan indikator akhir yang kami gunakan untuk mengevaluasi kualitas suatu variabel
untuk dipilih selama konstruksi pohon.
[AUDIO_BLANK]
DI POHON KEPUTUSAN

Di video kali ini kita akan membahas tentang konsep overfit
dalam pohon keputusan.
Motivasi utama dari video ini adalah untuk memahami konsep overfitting atau
overfitting dan lihat bagaimana pengaruhnya terhadap kita dalam pembuatan pohon keputusan.
Secara umum, saat kita melatih model lebih dari yang diperlukan, model akan dimulai
untuk overmodeling data pelatihan, yang mengarah ke hasil yang tidak diinginkan.
Pada gambar kita dapat melihat dua model klasifikasi yang berbeda,
satu diwakili oleh garis hitam dan yang lainnya oleh garis hijau.
Garis hitam adalah model yang tampaknya cukup masuk akal,
Anda yang memiliki bentuk halus, akrab dengan banyak fungsi yang Anda ketahui.
Jalur hijau di sisi lain,
tampaknya merupakan pola yang tidak wajar, seolah-olah dengan paksa
Anda mencoba membentuk semua data dari kedua kelas dengan sempurna.
Secara umum, saat kita melatih model lebih dari yang diperlukan, model akan dimulai
untuk overmodeling data pelatihan, yang mengarah ke hasil yang tidak diinginkan.
Pada gambar kita dapat melihat dua model klasifikasi yang berbeda,
satu diwakili oleh garis hitam dan satu oleh garis hijau.
Garis hitam adalah model yang tampaknya cukup masuk akal,
Anda yang memiliki bentuk halus, akrab dengan banyak fungsi yang Anda ketahui.
Garis hijau di sisi lain tampaknya merupakan pola yang tidak wajar, seolah-olah di
force sedang mencoba memodelkan semua data dari kedua kelas dengan sempurna.
Biasanya set pelatihan memiliki kesalahan,
kesalahan tersebut berasal dari berbagai sumber, misalnya kesalahan yang harus
lakukan dengan beberapa jenis kebisingan dalam data, atau kesalahan yang ada hubungannya dengan fakta bahwa
set pelatihan sesuai dengan sampel yang bias,
artinya sedikit perwakilan dari data realitas.
Jika kita melatih model kita secara berlebihan, itu akan mulai belajar dari kesalahan, yang menyebabkannya
akibatnya hasil terburuknya ketika kami menggunakan model kami dalam kasus-kasus mendatang,
tepatnya saat kita ingin model kita bekerja dengan baik.
Kemampuan model untuk bekerja dengan baik dalam kasus masa depan,
Ini dikenal sebagai kapasitas generalisasi.
Gambar pada slide menunjukkan kepada kita contoh kumpulan data,
Bayangkan kita ingin mempelajari model yang sesuai dengan data tersebut.
Artinya, ia belajar memprediksi nilai Y mengingat nilai X.
Sekarang kita melihat dengan garis hijau tiga kemungkinan model prediksi.
Dari kiri ke kanan, kita memiliki model linier sederhana,
kemudian model kuadrat dan terakhir model yang sesuai dengan penggabungan titik-titik
dengan garis di antara setiap pasangan data.
Secara intuitif kita melihat bahwa model linier sangat sederhana.
cukup untuk dapat memodelkan data, yaitu, tidak memiliki fleksibilitas yang diperlukan.
Dalam hal ini kita katakan bahwa model tersebut memiliki bias atau bias yang tinggi,
kemungkinan besar model linier tidak akan
bekerja juga dalam kasus masa depan karena kurangnya kompleksitas.
Kasus menggabungkan titik-titik secara intuitif terlalu banyak menyesuaikan data,
tingkat kecocokannya membuat kita meragukan kualitas modelnya,
Anda itu adalah model yang tidak wajar.
Kemungkinan besar saat data mendatang tiba, model akan mengalami kesalahan
sangat tinggi karena overfitting ke data pelatihan.
Model kuadrat lebih dekat untuk ditunjukkan dalam contoh ini daripada
ini memiliki keseimbangan yang lebih baik antara kesederhanaan dan tingkat penyesuaian.
Secara umum, sebagian besar teknik belajar di bidang mesin
cobalah untuk menemukan model yang mengontrol trade off antara
sesuai dengan data, tetapi dengan model sesederhana mungkin.
Trade off ini juga dikenal sebagai bias varians trade off.
Bias atau bias seperti yang kami sebutkan itu
pertama berkaitan dengan tingkat fleksibilitas model,
semakin sederhana, semakin tidak fleksibel, oleh karena itu biasnya lebih tinggi.
Konsep varians atau varians berkaitan dengan seberapa besar model akan berubah
jika kami telah menyesuaikannya dengan sampel selain data pelatihan.
Ketika modelnya sangat kompleks atau fleksibel, ia cenderung menjadi sangat sensitif.
untuk perubahan kecil dalam kumpulan data yang cocok dan sangat bervariasi.
Itu sebabnya kami mengatakan bahwa model yang sangat kompleks memiliki varians yang tinggi.
Itulah alasan mengapa kami menyebutnya bias varians trade off.
Pada gambar, kita melihat titik ideal di mana kesalahan terjadi
generalisasi minimal, itu adalah ketika kita memiliki titik di mana bias dan
varians serendah mungkin.
Ada prinsip filosofis di balik kontrol overfitting, yang dikenal sebagai
prinsip pisau cukur Ockham dan mengatakan dengan kata sederhana bahwa jika kita memiliki dua
model yang memiliki kinerja yang sama, kita harus memilih model yang lebih sederhana.
Di pohon keputusan kita juga harus khawatir
kontrol kompleksitas sehingga kita tidak overfit.
Khususnya analog untuk menghubungkan titik-titik dalam kasus pohon
Ini seperti terus membangun pohon sampai kita kehabisan data,
yaitu, sampai kriteria berhenti dari algoritma konstruksi terpenuhi.
patuhi karena kami hanya memiliki satu informasi.
Untuk mencegah hal ini terjadi, maka
kita harus mengontrolnya setiap kali kita menempatkan a
lembar karena salah satu kriteria penahanan terpenuhi,
kami mendukung keputusan itu dengan jumlah data yang masuk akal.
Dengan kata lain, kita harus memaksa menghentikan
konstruksi dan letakkan lembar dengan kelas data paling sering yang tersisa.
Jika jumlah data yang tersisa mencapai batas minimum
data yang kami izinkan.
Kita harus menentukan nilai itu.
Misalnya,
kita dapat mengatakan bahwa jumlah minimum data untuk meletakkan daun di pohon adalah 50.
Proses ini dikenal sebagai pemangkasan pohon.
Jika kita melihatnya dari sudut pandang lain,
menghentikan pembangunan pohon sama dengan memangkas pohon,
yaitu ambil cabang, hapus semua subpohon yang menggantung darinya
cabang itu dan menggantinya dengan daun di kelas yang paling sering
dari subdatabase yang tersisa setelah mengikuti jalur ke cabang itu.
Ada dua jenis pemangkasan, pemangkasan awal yang berhubungan dengan penghentian
konstruksi pohon dengan menempatkan daun pada saat tertentu.
Ini juga dikenal sebagai Penghentian Awal pada jenis model penjualan lainnya.
pembelajaran mesin.
Di sisi lain ada pos pemangkasan yang akan membangun pohon
tanpa batasan dan kemudian menghasilkan pemangkasan beberapa cabang secara acak,
memilih potongan yang menghasilkan pohon dengan hasil terbaik.
Dalam praktiknya, lebih efisien untuk melakukan pra-pemangkasan daripada proses pasca-pemangkasan
menjadi sangat mahal.
Mari kita lihat contoh nyata tentang bagaimana rasanya memangkas pohon terlebih dahulu.
Misalkan kita memiliki kumpulan data pelatihan yang terlihat di
layar.
Mari kita asumsikan juga bahwa jumlah baris minimum untuk melanjutkan pembangunan pohon adalah 4.
Keuntungan dan nilai informasi adalah
sama seperti yang kami peroleh di salah satu contoh sebelumnya.
Pada kasus ini,
variabel pendapatan adalah yang memiliki perolehan informasi terbesar.
Itulah mengapa dipilih sebagai root node.
Kami ingat pada gambar bagaimana perpecahannya
untuk nilai yang berbeda dari variabel pendapatan.
Di cabang node masuknya,
ketika ini antara 100 dan 200, kita melihat bahwa kita hanya memiliki 3 baris.
Oleh karena itu kami tidak memenuhi minimum yang disyaratkan oleh kriteria pemangkasan.
Dalam contoh ini minimum adalah 4 baris,
kita kemudian harus meletakkan selembar dengan kelas mayoritas.
Dalam situasi ini akan menjadi kelas yang sering.
Jangan lupa bahwa jika kita menggunakan pemangkasan, kita harus memilih
variabel yang lebih baik daripada meletakkan selembar dengan kelas.
Di video ini kita belajar konsep overfitting atau overfitting.
Kami juga melihat bagaimana mereka diinterpretasikan dalam model pohon keputusan
dan bagaimana menanganinya selama proses pelatihan.
[AUDIO_BLANK]
Variabel Kontinu dalam Pohon Keputusan
[SUARA] Selamat datang di video baru kursus Penambangan Data kami.

Dalam video ini kita akan berbicara tentang manajemen variabel kontinu di
pohon keputusan.
Motivasi utama dari video ini adalah untuk memahami bagaimana kita harus menggabungkan pra
pengolahan data dengan algoritma konstruksi pohon keputusan
untuk menangani variabel kontinu.
Mari pertimbangkan tabel data yang terlihat pada slide.
Kami kemudian memiliki variabel Umur dan Jenis Kelamin dan jenis Kelas pelanggan.
Untuk tujuan didaktik, kami akan menangani variabel Usia dengan sangat rinci,
artinya dengan desimal presisi.
Mengingat tipe data yang kami gunakan dalam variabel Umur,
tidak mungkin menggunakan lengan yang keluar dari simpul Usia untuk masing-masing
nilai yang mungkin dari variabel, Anda yang akan terlalu banyak lengan.
Yang biasanya dilakukan adalah memilih titik potong atau titik pisah
dalam rentang angka yang dapat diambil oleh variabel
dengan ide mengubahnya menjadi variabel biner.
Misalnya, jika titik potong kita adalah angka 15, variabelnya akan mengambil dua
nilai yang mungkin, lebih besar dari 15 atau kurang dari 15.
Bagaimana kita memilih nilai potongan?
Salah satu opsi adalah mencoba beberapa kemungkinan nilai
dalam grid yang didefinisikan dalam rentang variabel
dan untuk setiap nilai, hitung perolehan informasi dari variabel tersebut,
sedemikian rupa untuk memilih potongan yang menghasilkan perolehan informasi yang lebih besar.
Kita harus ingat bahwa jika kita menguji terlalu banyak kemungkinan pemotongan,
algoritme kami mungkin menjadi terlalu lambat.
Pilihan lainnya adalah mencoba potongan yang cocok
masing-masing kemungkinan nilai yang benar-benar kita lihat dalam data.
Misalnya, hitung perolehan informasi untuk
variabel Usia jika cutoff adalah 30,5 maka
menghitung keuntungan informasi jika cutoff adalah 20,7 dan seterusnya.
Sedemikian rupa untuk memilih potongan yang menghasilkan perolehan informasi yang lebih besar.
Karena bahkan opsi di atas bisa sangat lambat jika kita memiliki banyak data
berbeda, opsi ketiga mungkin memilih secara acak
subset dari nilai yang mungkin dalam data dan hitung
perolehan informasi hanya untuk kasus-kasus itu seolah-olah itu adalah pemotongan.
seperti sebelumnya,
Kami akan memilih potongan yang menghasilkan perolehan informasi yang lebih besar.
Saya kira mereka berpikir tentang
semua tingkat detail yang kita sia-siakan saat mengubah
variabel kontinu menjadi pada dasarnya variabel biner.
Ini bukan transformasi yang buruk,
kita harus berpikir bahwa satu-satunya hal yang penting bagi kita adalah pohon keputusan
melakukan dengan baik dalam mengklasifikasikan data baru.
Dalam praktiknya, transformasi ini berjalan dengan baik.
karena jika terjadi hal tersebut merupakan variabel kontinu
kehilangan banyak informasi yang relevan dengan klasifikasi dengan binarisasi,
itu akan mendapatkan keuntungan informasi yang rendah oleh karena itu
kemungkinan besar itu tidak akan dipilih oleh proses pembangunan pohon.
Kita dapat melihat secara visual bahwa apa yang dilakukan pohon adalah menghasilkan potongan linier
di masing-masing variabel, sedemikian rupa untuk mencoba hanya menyisakan data dari
kelas yang sama di dalam setiap sub kubus yang tersisa saat memotong sumbu.
Pertimbangan penting lainnya adalah node yang sesuai dengan variabel
kontinum biner dapat lagi dipilih lebih jauh ke bawah pohon, Anda daripada
kita dapat membuat potongan baru yang lebih halus di dalam potongan yang dibuat sebelumnya.
Misalnya, jika simpul A dibinerkan dengan nilai lebih besar dari 10 dan lebih kecil dari
sama dengan 10, setelah kita menurunkan lengan kurang dari atau sama dengan 10,
kita bisa memilih node lagi,
mempertimbangkan mungkin memotong nilai kurang dari atau sama dengan 5 dan lebih besar dari 5,
dengan kata lain, pembagian yang lebih halus dalam potongan yang Anda potong dari variabel.
Perhatikan bahwa ini tidak terjadi untuk variabel yang biner.
sejak awal.
Dalam video ini kita melihat bahwa variabel kontinu pada umumnya bertransformasi
ke variabel biner melalui pilihan pemotongan,
sedemikian rupa sehingga pohon hanya memiliki dua jalur yang mungkin untuk diikuti,
setelah kita melewati variabel kontinu.
Kami juga menghargai bahwa pohon dapat dilihat sebagai rangkaian irisan linier
dilakukan pada ruang variabel tempat data berada.
[AUDIO_BLANK]
contohb
Dalam video ini, kita akan melihat contoh lengkap membangun pohon keputusan.
Motivasi utama dari video ini adalah untuk meninjau
menyelesaikan proses membangun pohon, sedemikian rupa untuk memperkuat
konsep yang paling penting yang terlibat dalam proses ini.
Misalkan kita memiliki tabel data yang muncul di slide.
Kami melihat bahwa kami memiliki tiga variabel dan,
pada akhirnya, di sisi kanan, kolom dengan kelas dari setiap elemen.
Idenya adalah untuk membangun pohon keputusan yang memungkinkan untuk mengklasifikasikan
panorama yang harus dinikmati anak muda tergantung cuaca,
tinggal atau tidaknya anak muda tersebut dengan orang tuanya dan keadaan ekonominya.
Nilai yang mungkin untuk panorama adalah, pergi ke bioskop atau tinggal di rumah.
Penting untuk disebutkan bahwa dalam latihan ini kita tidak akan menggunakan jenis apa pun
plum untuk membuat contoh sesederhana mungkin.
Maka, hal pertama untuk membangun pohon adalah menemukan variabel terbaik,
khususnya, yang sesuai dengan simpul akar pohon.
Untuk melakukan ini, ingatlah bahwa kita harus menghitung perolehan informasi
dari masing-masing variabel.
Persamaan yang diperlukan tercantum pada slide.
untuk menghitung setiap perolehan informasi.
Saya sangat menyarankan Anda menjeda video
dan perhatikan baik-baik setiap suku dari persamaan tersebut.
Secara khusus, slide ini menunjukkan cara menghitung keuntungan dari
informasi dari variabel Iklim dan Kehidupan dengan orang tua mereka.
Kita sekarang melihat persamaan untuk menghitung perolehan informasi
dari variabel situasi Ekonomi.
Perhatikan bahwa untuk tiga perolehan informasi
perlu menghitung entropi awal kelas, dalam hal ini, Panorama.
Dan kemudian rata-rata tertimbang dari entropi kelas satu kali
bahwa kami membuat contoh nilai yang mungkin dari variabel yang dimaksud.
Mari kita mulai dengan perhitungan entropi kelas.
Kami menandai dengan warna baris yang sesuai
untuk nilai kelas yang berbeda.
Kami melihat ada lima kasing untuk Bioskop dan tiga kasing untuk Rumah.
Karena total ada delapan kasus, kami akan menggunakan proporsi lima per delapan dan tiga
seperdelapan untuk menghitung entropi.
Mengikuti perhitungan yang muncul dalam persamaan, kita dapat melihat bahwa
entropi, menggunakan proporsi yang ditunjukkan, adalah 0,9544.
Kemudian, kami melanjutkan dengan perolehan informasi untuk variabel Iklim.
Karena kita perlu menghitung entropi Panorama,
setiap kali kami membuat instance variabel Iklim, kami menandainya dengan warna
nilai yang mungkin dari variabel ini, dalam hal ini Panas, Angin dan Hujan.
Dengan kata lain,
kita akan menghitung entropi Panorama tiga kali; pertama dengan baris ungu,
lalu dengan barisan biru, dan terakhir dengan barisan kuning.
Setelah itu, kita ambil rata-rata tertimbang dari ketiganya dan seterusnya
kami siap untuk mendapatkan perolehan informasi dari variabel Iklim.
Maka, kita mulai dengan entropi Panorama saat Iklim sama dengan Panas.
Kami membuat instance variabel Cuaca ke nilai Panasnya, yang berarti hanya mempertimbangkan
deretan data yang variabelnya adalah Panas.
Dengan baris tersebut kami menghitung entropi Panorama.
Pada kasus ini,
Panorama memiliki dua baris, satu dengan kelas Cinema dan satu lagi dengan kelas Home.
Ini menyiratkan bahwa kita harus menggunakan proporsi satu-setengah dan satu-setengah untuk
perhitungan entropi.
Ini memberi kita entropi sama dengan 1.
Sekarang, kami menghitung entropi Panorama
untuk kasus di mana variabel Iklim sama dengan Angin.
Kami memiliki dua kasing dari tiga untuk nilai Bioskop dan satu dari tiga kasing untuk nilai Rumah.
Kami mendapatkan entropi, kemudian, dengan proporsi dua pertiga dan sepertiga.
Entropi ketiga yang tersisa
adalah Panorama ketika variabel Iklim adalah Hujan.
Kami memilih baris itu, dalam hal ini yang kuning, dan kami melihatnya
kami memiliki satu kasing milik kelas Rumah dan dua kasing milik kelas Sinema.
Kami mengambil entropi, kemudian, dengan rasio itu dan memberi kami 0,9183.
Terakhir, untuk menghitung perolehan informasi dari variabel Iklim,
kami mengambil rata-rata tertimbang dari tiga entropi yang baru saja kami peroleh.
Dalam hal ini, bobotnya adalah dua per delapan, tiga per delapan dan tiga per delapan,
yang sesuai dengan jumlah baris ungu,
masing-masing biru dan kuning.
Keuntungannya adalah entropi awal yang lebih kecil 0,9544
rata-rata tertimbang, memberi kita total 0,0015675.
Saya mengundang Anda untuk melakukan prosedur yang sama dengan variabel
Dia tinggal bersama orang tuanya dan situasi ekonomi.
Perolehan informasi masing-masing muncul di layar.
Membandingkan tiga keuntungan informasi,
kita melihat bahwa variabel Tinggal bersama orang tua mereka adalah yang memiliki keuntungan tertinggi
informasi, oleh karena itu, dipilih untuk menjadi simpul akar dari pohon.
[SUARA] Kami melanjutkan untuk menempatkannya
dan telusuri setiap kemungkinan nilai yang dapat diambil oleh variabel ini.
Dalam hal ini, Ya atau Tidak.
Ketika variabelnya Ya, tabel datanya adalah yang muncul di sisi kiri.
Ketika variabelnya adalah Tidak,
kita memiliki tabel data yang berbeda; kita bisa melihatnya di sisi kanan pohon.
Kami melanjutkan, kemudian, dengan pembangunan pohon yang sama.
Intinya, kita akan melakukan hal yang sama seperti yang kita lakukan untuk menemukan simpul akar,
hanya sekarang seperti Anda, kami turun ke simpul di pohon itu,
Kami hanya akan bekerja dengan data yang memenuhi persyaratan dari
variabel Tinggal bersama orang tua Ya, yaitu tabel yang muncul di layar.
Seperti iterasi sebelumnya,
kita harus menghitung perolehan informasi dari semua variabel
kandidat, dalam hal ini variabel Iklim dan Situasi Ekonomi.
Seperti sebelumnya, hal pertama yang harus dilakukan adalah menghitung entropi awal kelas.
Jangan lupa bahwa nilai ini akan berbeda dengan iterasi sebelumnya,
Anda bahwa kami sekarang memiliki lebih sedikit baris dalam tabel data kami.
Kami melihat bahwa kelas tersebut memiliki empat kasing yang sama dengan Bioskop dan satu kasing yang sama dengan Rumah.
Menghitung entropi dengan rasio tersebut memberi kita 0,7219.
Untuk menghitung perolehan informasi dari variabel Iklim,
Seperti sebelumnya, kita harus mendapatkan entropi dari
kelas untuk setiap nilai yang mungkin dari variabel.
Dalam hal ini, perhitungan dilakukan lebih cepat,
Anda bahwa kami melihat bahwa kami memiliki sangat sedikit baris yang tersisa untuk melakukan perhitungan.
Misalnya, ketika kita hanya memiliki satu baris, entropinya adalah 0,
Anda bahwa kami memiliki data milik kelas, berarti 100%
kasus ada di kelas itu, yaitu kasus di mana entropi sama dengan 0.
Jika kita memiliki dua baris, dan dalam kedua kasus kelasnya berbeda, itu artinya
bahwa kami memiliki 50% kasus di satu kelas dan 50% kasus di kelas lain.
Ini sesuai dengan situasi di mana entropi sama dengan 1.
Saya mengundang Anda untuk menghitung tiga entropi
kelas untuk masing-masing nilai variabel Iklim.
Konfirmasikan bahwa mereka sesuai dengan angka yang muncul di layar.
Terakhir, mengambil rata-rata tertimbang dari ketiga entropi dan melakukan
pengurangan seperti yang kita lihat di layar, kita memperoleh informasi tambahan
sebesar 0,3219 untuk variabel Iklim pada saat variabel Tinggal Bersama Orang Tua adalah Ya.
Mari kita hitung perolehan informasi untuk variabel
Situasi ekonomi.
Seperti halnya Iklim, kita perlu menghitung entropi kelas
untuk setiap nilai variabel situasi ekonomi.
Misalnya, untuk kasus di mana situasi ekonomi baik,
kami memiliki dua baris yang ditandai dengan warna kuning.
Di sana kita melihat bahwa kedua baris milik kelas Cinema, oleh karena itu,
100% kasus berada di kelas yang sama, yaitu entropinya adalah 0.
Dalam kasus di mana situasi Ekonomi variabel Buruk,
kami memiliki tiga kasing yang ditandai dengan warna biru.
Dari kasus-kasus ini, dua milik Cine dan satu milik Casa, oleh karena itu, the
diperoleh entropi dengan perbandingan dua pertiga dan sepertiga, menghasilkan 0,9183.
Menerapkan, kemudian, nilai yang ditemukan untuk dua entropi,
mendapatkan rata-rata tertimbang dan melakukan pengurangan, hasilnya untuk
perolehan informasi dari variabel situasi ekonomi adalah 0,17.
Karena perolehan informasi dari atribut Cuaca lebih besar
dengan atribut Situasi ekonomi, simpul Iklim akan menjadi simpul berikutnya yang dipilih.
Kami kemudian menempatkannya di pohon kami dan melanjutkan konstruksi.
Kami melihat bahwa simpul Cuaca memiliki tiga anak panah yang keluar darinya,
satu untuk setiap nilai variabel.
Dalam setiap kasus, tabel data yang berbeda dihasilkan.
Di sini kemungkinan besar salah satu kriteria penahanan terpenuhi
dari algoritma.
Ingatlah bahwa kriteria ini terpenuhi ketika kita memilikinya
bahwa semua data milik kelas yang sama atau
ketika semua data memiliki nilai yang sama di atributnya.
Jika tidak ada kriteria berhenti yang terpenuhi.
kita harus memilih node lagi.
Untungnya, kami hanya memiliki satu kemungkinan variabel yang tersisa, jadi kami tidak
Itu akan menjadi pilihan lain, untuk menempatkan simpul yang sesuai dengan variabel itu.
Dalam hal ini Situasi Ekonomi.
Mari kita lihat kemungkinan panah pertama.
Di sini kita melihat bahwa tidak ada kriteria penahanan yang terpenuhi.
bahwa kelasnya berbeda dan juga nilai dalam atributnya berbeda.
Kami kemudian harus memilih node terbaik
Karena hanya variabel Situasi Ekonomi yang tersisa, maka variabel itulah yang akan dipilih.
Kami menempatkan variabel di pohon kami seperti ini,
kita dapat melihat bahwa secara alami setelah variabel Situasi Ekonomi, the
kriteria penghentian Anda bahwa kami hanya memiliki satu baris tersisa di setiap lengan,
oleh karena itu kami menempatkan kelas yang sesuai dengan setiap baris.
Ketika Situasi Ekonomi buruk, kelas yang muncul adalah Rumah
dan ketika Situasi Ekonomi sedang bagus, maka kelas yang muncul adalah Bioskop.
Kita sekarang melihat bahwa iklim adalah Angin, salah satunya
kriteria berhenti Anda bahwa semua kasus di bioskop kelas.
Kami kemudian meletakkan selembar dengan kelas Cinema dalam kasus itu.
Hal serupa terjadi dalam kasus di mana cuaca bernilai Hujan.
Kami melihat bahwa salah satu kriteria berhenti juga terpenuhi,
sebenarnya keduanya terpenuhi.
Karena?
Kami kemudian menempatkan lembar dengan kelas Cinema juga dalam kasus itu.
Kita harus melihat apa yang terjadi di cabang di mana node Tinggal bersama orang tuanya, oke tidak.
Tabel data pada situasi tersebut dapat dilihat pada gambar.
Kami melihat bahwa tidak ada kriteria penghentian yang terpenuhi,
oleh karena itu kita harus memilih variabel terbaik untuk kasus itu.
Itu berarti kita harus menghitung perolehan informasi untuk
atribut Iklim dan Situasi Ekonomi dengan tabel data di layar.
Sekali lagi kita harus menghitung entropi awal Kelas.
Berikut adalah dua baris di mana Kelas bernilai Rumah dan satu baris di mana Kelas bernilai Bioskop,
oleh karena itu entropi dihitung dengan proporsi dua pertiga dan sepertiga,
hasilnya 0,91.
Kami melanjutkan untuk menghitung perolehan informasi dari variabel Iklim.
Itu membutuhkan penghitungan entropi Kelas untuk masing-masing
dari nilai variabel Iklim.
Disini terlihat bahwa nilai yang muncul adalah Wind dan Rain.
Dalam kasus Angin, entropinya adalah 0 dan dalam kasus Angin, entropinya adalah 1.
Jangan lupa untuk meninjau mengapa situasi ini terjadi.
Seperti yang Anda ketahui, kami mengambil rata-rata tertimbang,
kami menerapkan pengurangan dan hasilnya adalah 0,2516.
Kami melakukan hal yang sama untuk variabel Situasi Ekonomi.
Di sini entropi Kelas untuk setiap nilai variabel
Situasi ekonomi adalah,
0 jika Situasi Ekonomi baik dan 1 jika Situasinya buruk.
Mengambil rata-rata tertimbang dan menerapkan pengurangan,
Kami mendapatkan hasilnya di layar.
Kita melihat perolehan informasi Situasi Ekonomi dan Iklim
memberi kita nilai yang sama.
Biasanya apa yang dilakukan dalam kasus ini
adalah memilih salah satu variabel secara acak.
Misalkan kita akan memilih variabel Situasi Ekonomi.
Akhirnya pohon itu seperti yang terlihat pada slide.
Saya mengundang Anda untuk memeriksa lembar yang kami tambahkan dan memverifikasi bahwa itu benar.
Dalam video ini,
kami melihat contoh lengkap membangun pohon keputusan.
Kami melihat bahwa secara rekursif
langkah yang sama pada setiap tahap konstruksi pohon.
Jangan lupa bahwa dalam contoh khusus ini kami tidak menggunakan Pemangkasan,
Anda bahwa tujuannya adalah untuk meninjau proses konstruksi dari
0.
Minggu Evaluasi 3
TOTAL POIN DARI 10
1. Pertanyaan 1
Apa jenis algoritma pohon keputusan?
1 poin
Ini adalah algoritma tipe Unsupervised
Ini adalah algoritma tipe yang diawasi.
Ini jenis pohon
Ini adalah campuran antara Diawasi dan Tanpa Diawasi
2. Pertanyaan 2
Berapa peringkat kredit untuk pelanggan dengan riwayat bagus dan pendapatan $750?
1 poin
tidak dapat ditentukan
Tergantung situasinya
Disetujui
Ditolak
3. Pertanyaan 3
Menggunakan angka dari pertanyaan sebelumnya, apa variabel dengan perolehan informasi terbesar?
1 poin
Catatan
Penghasilan
Pelanggan
tidak dapat ditentukan
4. Pertanyaan 4
Manakah dari pernyataan berikut yang paling cocok dengan istilah entropi untuk algoritma klasifikasi?
1 poin
Entropi adalah ukuran ketidakteraturan
Entropi mengukur tingkat homogenitas kumpulan data.
Entropi memungkinkan kita untuk memilih variabel yang akan dipilih pada iterasi berikutnya
p*log(p)
5. Pertanyaan 5
Apa yang dilambangkan oleh gambar di bawah ini?
1 poin
Menunjukkan nilai entropi versus proporsi elemen kelas. Di sini kita mengasumsikan bahwa ada tiga kemungkinan kelas
Menunjukkan nilai entropi versus proporsi elemen kelas. Di sini kita mengasumsikan bahwa ada dua kemungkinan kelas
Menunjukkan nilai perolehan versus proporsi item dalam suatu kelas. Di sini kita mengasumsikan bahwa ada tiga kemungkinan kelas
Menunjukkan nilai perolehan versus proporsi item dalam suatu kelas. Di sini kita mengasumsikan bahwa ada dua kemungkinan kelas
6. Pertanyaan 6
Bagaimana perolehan informasi didefinisikan?
1 poin
Perolehan informasi adalah cara untuk memilih variabel mana yang akan dipilih saat memisahkan dalam pohon keputusan
Perolehan informasi adalah pengurangan entropi yang diharapkan dari pemisahan menurut atribut tertentu.
p*log(p)
Mengukur tingkat homogenitas kumpulan data
7. Pertanyaan 7
Perhatikan tabel berikut. Manakah dari variabel berikut yang memberikan perolehan informasi yang lebih besar?
Nama Jenis kelamin Usia Kisaran gaji Kelas
Carlos H 23 < $250 1
Daniela M 31 $500 - $750 2
Nicholas H 45 > $750 1
Karim H 32 > $750 1
javiera M 17 $250 - $500 2
2 poin
Jenis kelamin
Usia
Kisaran gaji
Anda tidak dapat mengetahui secara apriori, Anda harus melakukan perhitungan matematis
8. Pertanyaan 8
Apa masalah utama overtraining atau overfitting algoritme kita? Tandai alternatif yang benar.
2 poin
Model kami mampu menggeneralisasi lebih baik
Overtraining akan membuat model kami cocok dengan kesalahan itu juga.
Kami kehilangan kemampuan untuk menggeneralisasi
Model kami sangat cocok dengan data pelatihan yang menghasilkan model yang lebih baik dalam praktiknya.
MODEL KLASIFIKASI.
[MUSIK] Selamat datang di video baru dalam kursus penambangan data kami.
Dalam video ini kita akan melihat bagaimana mengevaluasi model klasifikasi kita.
Apa yang terutama memotivasi kami dalam video ini adalah untuk memahami bagaimana kami harus mendesain
proses mengevaluasi kinerja model klasifikasi kami,
sedemikian rupa untuk memiliki indikator yang kira-kira mencerminkan seberapa baik
model kami akan berfungsi setelah dimasukkan ke dalam produksi.
Ingatlah bahwa sejauh ini kita telah melihat dua model klasifikasi,
model tetangga terdekat dan model pohon keputusan.
Misalkan kami meminta Anda melatih pohon keputusan itu
Mengklasifikasikan pelanggan ke dalam kelas sesekali dan sering.
Tujuan utamanya adalah agar model kami mengklasifikasikan dengan baik pelanggan siapa
akan melihat di masa depan
yaitu, klien yang tidak dilihat oleh model kami selama proses pelatihan.
Alasan utama untuk ini adalah bahwa untuk klien di masa depan,
kami tidak tahu kelasnya, jadi kami tertarik dengan model yang bisa
untuk memprediksi kelas seakurat mungkin,
Anda bahwa organisasi kita akan membuat keputusan penting,
tergantung pada kelas masing-masing klien tersebut.
Misalkan model kami menghasilkan peringkat untuk pelanggan baru.
Dalam contoh ini,
model kami memberi tahu kami bahwa pelanggan termasuk dalam kelas sesekali.
Bagaimana kita bisa tahu jika model mengatakan hal yang benar atau melakukan kesalahan?
Sayangnya, kita tidak bisa tahu.
Anda bahwa kami tidak mengetahui kelas sebenarnya tempat klien ini berada.
Untungnya, kami punya jalan keluar.
Apa yang dilakukan adalah untuk mensimulasikan kasus masa depan,
meninggalkan beberapa data pelatihan kami.
Misalnya, jika dalam hal ini kami mengabaikan klien kami yang muncul di
sisi kanan daftar pelanggan dan latih pohon keputusan kita
hanya dengan klien yang muncul di sisi kiri, lalu,
kita dapat meminta model untuk mengklasifikasikan klien ini yang kita tinggalkan.
Model tidak pernah melihat klien ini,
Anda bahwa kami menghapusnya dari set pelatihan.
Selain itu, untuk klien ini kami mengetahui kelasnya, oleh karena itu,
ya kita bisa membandingkan prediksi classifier dengan kelas sebenarnya.
Maka, idenya adalah membagi kumpulan data pelatihan kami menjadi dua
bagian, satu dengan data yang akan kita gunakan untuk melatih model,
disebut set pelatihan, dan lainnya
dengan data yang hanya akan kita gunakan untuk mengevaluasi model, yang disebut test set.
Biasanya, divisi database kami ini mengalokasikan 20-30% untuk
bagian dari set tes dan 80 atau 70% untuk set pelatihan, masing-masing.
Ada beberapa cara untuk menghasilkan pembagian ini,
Mereka terutama berkaitan dengan mencoba menguji pemisahan yang berbeda
memastikan bahwa pemilihan data untuk pengujian sebisa mungkin tidak bias.
Nanti, kita akan melihat secara detail terdiri dari apa saja.
Teknik membagi data ini, yang paling terkenal adalah Hold Out,
Sub-Sampling Acak dan Validasi Silang atau Cross Validation.
Setelah kita berhasil berpisah, maka,
data kami dalam set pelatihan dan set tes,
kami melatih classifier kami hanya menggunakan set pelatihan kami.
Kami kemudian menggunakan model terlatih untuk menghasilkan klasifikasi
untuk semua data yang hanya ada di set pengujian.
Terakhir, kami membandingkan kelas sebenarnya dari data set pengujian dengan
class yang dibuat classifier kami, dan bandingkan secara langsung.
Dengan membuat perbandingan antara kelas aktual dan kelas yang diprediksi oleh
model, kita harus memberikan indikator yang mencerminkan
seberapa dekat prediksi dengan kelas yang sebenarnya.
Indikator ini juga akan kita lihat nanti,
yang paling khas adalah Accuracy, Recall dan Precision.
Singkatnya, untuk mengevaluasi model klasifikasi kita, pertama-tama kita harus
membagi data kami menjadi set pelatihan dan set tes.
Selanjutnya, kita perlu melatih model kita hanya pada data pelatihan.
Langkah selanjutnya adalah meminta model kami untuk mengklasifikasikan kumpulan data
test dan terakhir kita langsung bandingkan ranking dengan nilainya
kelas nyata dari data tersebut, sehingga menghasilkan indikator kinerja.
Dalam video ini kami melihat skema umum
untuk mengevaluasi kinerja classifier.
Kita tidak boleh lupa bahwa kinerja kita
memperkirakan sesuai dengan kinerja yang akan dimiliki model kami dalam kasus mendatang,
kasus yang belum Anda lihat selama set pelatihan.
[AUDIO_BLANK]
EVALUASI KLASIFIKASI,
Pada video ini akan dilanjutkan dengan evaluasi classifier,
khususnya kami akan membahas lebih detail tentang topik yang disebutkan dalam
video terakhir.
Apa yang memotivasi kami dalam video ini adalah untuk mempelajari lebih detail tentang
teknik yang berbeda untuk membagi data kami untuk pelatihan dan pengujian.
Mengingat skema umum, apa yang akan kita pelajari dalam video ini sesuai
yang ada di lingkaran merah.
Idenya adalah membagi data berlabel kami menjadi satu bagian untuk dilatih
dan di tempat lain untuk pengujian, model klasifikasi yang akan digunakan
untuk memperkirakan kinerja, itu dibangun hanya dari set pelatihan.
Selanjutnya, kami meminta model kami untuk mengklasifikasikan data yang sesuai
ke set tes untuk membandingkan prediksi dengan kelas nyata.
Kami kemudian akan melihat secara rinci tiga cara berbeda untuk membagi data kami
pelabelan, tahan, sub-sampling acak dan validasi silang k-fold.
Tahan adalah metode termudah,
Ini hanya terdiri dari memisahkan kumpulan data berlabel kami menjadi dua bagian,
yang pertama melatih algoritme dan yang kedua mengujinya.
Biasanya bagian pelatihan berisi 70 atau 80% dari ukuran
data kami sementara bagian pengujian berisi sisanya.
Pada gambar kita melihat skema yang menunjukkan bahwa kita akan melatih model kita
dengan n satu dan kami akan menggunakannya untuk mengklasifikasikan data n dua.
Sesuatu yang penting untuk disebutkan,
adalah model yang kami gunakan untuk mendapatkan indikator kinerja kami
Ini belum tentu model yang sama yang akan kami produksi.
Biasanya, model yang kami masukkan ke dalam produksi dilatih pada semua data
yang telah kami beri label, agar dapat mencapai pelatihan dengan sebaik-baiknya
jumlah informasi yang mungkin, proses ini hanya untuk
memperkirakan indikator kinerja model dalam produksi untuk kasus mendatang.
Pertimbangan lain yang sangat penting saat menghasilkan pemisahan antara
pelatihan dan pengujian
adalah bahwa setiap bagian harus mempertahankan proporsi elemen yang sama dari setiap kelas.
Misalnya, jika kita memiliki tiga kemungkinan kelas di mana jumlah elemennya adalah
setiap kelas berbeda, jumlah tersebut harus dijaga secara proporsional
di setiap bagian pelatihan, juga di bagian pengujian.
Pada gambar kita melihat dalam warna proporsi masing-masing kelas,
kita kemudian melihat bahwa proporsi data yang kita miliki
dari awal database kami yang diberi tag
itu tetap sama di set pelatihan dan di set tes.
Salah satu kelemahan dari metode hold out,
adalah mungkin kita baru saja memilih rangkaian pengujian yang sangat kompleks.
mudah atau mungkin sangat sulit atau mungkin juga yang baru saja kita pilih
sebagai pelatihan menetapkan proporsi yang sangat miring dari data berlabel kami.
Justru untuk menghindari jenis masalah ini, yang ideal adalah mengulangi metode tersebut
tahan beberapa kali, ini sesuai dengan metode sub-sampling acak,
jadi kami menghasilkan lebih banyak keacakan dalam proses, mengurangi probabilitas
memilih bagian yang sangat bias untuk pelatihan atau pengujian.
Sebagai hasil dari proses sub-sampling acak, b kolom baru dihasilkan
dengan prediksi masing-masing dari masing-masing b model yang dilatih.
Metode validasi silang k-fold umumnya yang paling banyak digunakan dalam praktik,
idenya adalah untuk memastikan bahwa semua data dalam database berlabel kami
Mereka telah menjadi bagian dari set pelatihan dan juga set tes.
Kami melanjutkan untuk mempartisi data ke dalam setiap bagian atau lipatan,
karena ini adalah partisi, persimpangan antara lipatan juga kosong
persatuan mereka membentuk basis data awal kami yang diberi tag.
Proses iterasi k kali, iterasi i, kami melatih classifier dengan semua
lipatan minus lipat i dan kami menggunakan model untuk memprediksi kelas lipatan i,
Jadi, dalam iterasi satu kita tinggalkan lipatan dan latih dengan
lipatan dari dua ke k, dalam iterasi dua,
kami meninggalkan lipatan dua di luar dan berlatih dengan lipatan lainnya.
Kami kemudian menggunakan model terlatih untuk memberi label pada data lipat dua,
dan seterusnya hingga mencapai fold k.
Sebagai hasil dari proses yang kami peroleh untuk semua data berlabel kami
kolom baru dengan prediksi yang dibuat oleh masing-masing model,
Pada gambar kami mewakili kolom ini dengan warna oranye.
Di video berikutnya kita akan melihat bagaimana kita akan menggunakan semua kolom tersebut
untuk menghasilkan indikator kinerja.
Jangan lupa, seperti pada metode sebelumnya, kita juga harus melakukannya
khawatir dalam k-fold cross validasi mempertahankan proporsi yang sama
data untuk setiap kelas di setiap lipatan, jika kita tidak melakukan hal ini bisa terjadi
bahwa beberapa lipatan dibiarkan tanpa elemen apa pun, menghasilkan beberapa
model dilatih tanpa melihat data apa pun di kelas tertentu.
Kasus khusus dari metode validasi k-fold cross adalah ketika kita memilikinya
lipatan untuk setiap item data dalam kumpulan data berlabel kami,
jadi kalau misalnya kita punya 100 data pasti ada 100 fold,
kita harus mengulangi 100 kali dengan meninggalkan di setiap iterasi hanya satu data di luar,
Proses ini disebut validasi silang leave-one put, ini digunakan saat kita memilikinya
cukup sumber daya komputasi Anda yang jelas jauh lebih mahal
daripada membandingkannya dengan metode untuk nilai yang lebih kecil di k.
Setelah kita menyiapkan partisi yang berisi prediksi model dan
kelas sebenarnya, kami melanjutkan untuk menempatkan mereka bersama dalam dua kolom besar dan kemudian
menghitung indikator kinerja yang akan kita lihat di video berikutnya.
Ada kasus di mana masing-masing partisi cukup besar
bagaimana menggunakan masing-masing secara terpisah dan kemudian mengambil rata-rata dan penyimpangan
standar indikator kinerja, tetapi secara umum,
yang paling banyak digunakan adalah menyatukan semua partisi.
Dalam video ini kami melihat tiga metode berbeda untuk dilakukan
pembagian data berlabel kami menjadi pelatihan dan pengujian.
Hal utama adalah memastikan keacakan dan mengurangi risiko pembangkitan
bagian yang sangat bias untuk dilatih atau diuji, kami melihat bahwa itu penting
stratified sampling untuk mempertahankan proporsi data dari masing-masing kelas.
[AUDIO_BLANK]
INDIKATOR KINERJA,

Dalam video ini kita akan melihat cara mendapatkan indikator kinerja,
setelah kita memiliki kolom data dengan kelas yang sebenarnya
dan kolom dengan prediksi kelas.
Yang memotivasi kami adalah belajar membandingkan kolom dengan benar
prediksi dan kelas nyata, sedemikian rupa untuk memperoleh indikator kinerja yang
mencerminkan kualitas model ketika bekerja dengan data masa depan.
Mengingat skema umum, apa yang akan kita pelajari dalam video ini sesuai
ke apa yang ada di lingkaran merah yang kita lihat di slide.
Misalkan kita memiliki database dengan pelanggan, ada dua kemungkinan kelas,
sering dan sesekali.
Misalkan kita menjalankan metode validasi silang K-fold dan mendapatkan
kolom dengan prediksi kelas.
Misalkan setelah proses validasi silang kita dapatkan
prediksi yang Anda lihat di layar,
untuk setiap klien kami, kami menandainya dengan warna merah
prediksi yang salah dan berwarna hijau yang benar.
Langkah selanjutnya adalah membangun matriks konfusi,
matriks ini hanya menghitung kemungkinan kasus kesalahan
dilakukan oleh model, baris menunjukkan prediksi model,
sedangkan kolom menunjukkan nilai sebenarnya dari kelas tersebut.
Melanjutkan contoh kami, kami menandai setiap kemungkinan dengan warna
skenario perbandingan antara kelas yang dikatakan model dan kelas sebenarnya.
Misalnya, kasus hijau adalah situasi di mana model mengatakan bahwa
datum milik kelas sesekali dan kelas sebenarnya memang sesekali.
Kasus biru terjadi ketika model menghasilkan prediksi
untuk kelas reguler, tapi mereka sebenarnya adalah kelas sesekali.
Saya sarankan Anda meluangkan waktu sebentar dan memeriksa apakah semua nomor sudah benar
yang muncul dalam matriks.
Anda, kami dapat menggeneralisasi ke matriks yang kami miliki
T kemungkinan kelas.
Kita lihat di slide seperti apa matriks kebingungan itu,
kita akan memiliki baris T dan kolom T, setiap sel A sub i,
j dari matriks membawa jumlah kasus di mana kata pengklasifikasi
bahwa kelasnya adalah C sub i, tetapi sebenarnya C sub j.
Kami akan mempelajari tiga indikator kinerja, Accuracy, Recall dan Precision.
Akurasi adalah yang paling sederhana, dan sesuai dengan jumlah kasus di mana
classifier menghasilkan prediksi yang benar, dibagi dengan jumlah total kasus.
Melihat dari matriks kebingungan, itu hanya akan menjadi jumlah dari elemen
diagonal, dibagi dengan jumlah angka total di dalam matriks.
Masalah hanya menggunakan Akurasi sebagai indikator kinerja,
adalah ketika kita memiliki jumlah kasus yang tidak seimbang di setiap kelas.
Misalkan kita memiliki dua kemungkinan kelas, A dan B,
dan ada 10.000 kasus kelas A dan hanya 100 kasus kelas B.
Jika kita memiliki classifier bodoh yang selalu memprediksi kelas A,
akan mendapatkan Akurasi 99%, Anda yang A adalah mayoritas.
Jelas kami tidak ingin model kami bekerja seperti itu,
kami ingin mendeteksinya, mendeteksi jenis kesalahan tersebut.
Jadi salah satu cara untuk mengatasi masalah tersebut
adalah memiliki bendera terpisah untuk setiap kelas.
Recall adalah indikator yang berkaitan dengan kemampuan untuk mendeteksi sebagian besar
kasus kelas, sesuai dengan indikator yang mencerminkan
kasus kelas i yang harus dideteksi, berapa banyak yang dapat dideteksi?
Kami melihat bahwa itu sesuai dengan jumlah kasus di posisi i dari diagonal
matriks kebingungan, dibagi dengan jumlah kasus di kolom i.
Saya sangat menyarankan agar Anda menjeda video dan memeriksanya sendiri.
kebenaran rumus itu.
Di sisi lain, indikator yang disebut Presisi mengukur kasus
di mana classifier mengatakan bahwa data milik kelas C sub i,
berapa banyak sebenarnya milik kelas?
Kembali ke matriks kebingungan kita, kita melihat bahwa indikator Presisi untuk
kelas C sub i, dihitung sebagai bilangan A sub i,
i dari diagonal, dibagi dengan jumlah elemen baris i.
Mereka harus menjeda video lagi dan menganalisis rumusnya,
sehingga mereka dapat sepenuhnya mengasimilasinya.
Ada trade-off yang menarik antara Recall dan Precision.
Misalkan kita memiliki penyortir apel,
model harus memprediksi untuk setiap apel apakah sudah tua atau belum.
Misalkan kita memiliki kumpulan data yang diberi label dengan apel tua
dan tidak berumur, untuk setiap apel kami mengukur tingkat kematangannya dalam beberapa hari.
Pada slide kita melihat distribusi apel yang tidak berumur dan berumur,
sesuai dengan tingkat kematangannya.
Distribusi apel tua ditunjukkan dengan warna biru,
apel lainnya terlihat di histogram berwarna ungu.
Ide utamanya bukan untuk menjual buah-buahan tua, oleh karena itu, kami menginginkannya
classifier tidak membuat kesalahan dengan mengatakan bahwa buah tidak tua ketika itu.
Dengan kata lain, presisi kelas non-basi harus sangat tinggi.
Kami melihat bahwa ini membuat kami membayar harga di Recall dari kelas yang sama.
Misalkan kita memiliki classifier yang hanya memprediksi menggunakan garis merah.
Grader mengatakan bahwa kelas itu tua jika hari-hari kematangan buahnya
di sisi kanan baris
dan tidak menua jika hari-hari kedewasaan berada di sisi kiri garis yang sama.
Pengklasifikasi ini memaksimalkan akurasi kelas non-basi,
tetapi bayar harga di Recall dari kelas yang sama.
Ini karena penyortir melewatkan buah-buahan yang tidak berumur yang ada di atas
sisi kiri garis tumpang tindih dengan buah dari kelas vintage.
Kita bisa melihatnya ditandai dengan lingkaran hijau di slide.
Dalam video ini, kami melihat cara menghitung indikator kinerja,
setelah kita memiliki kolom dengan prediksi dan kelas sebenarnya.
Kami belajar membangun matriks kebingungan
serta menghitung indikator Accuracy, Recall dan Precision.
Kami juga menghargai pertukaran alami
yang ada di antara dua indikator terakhir ini.
CONTOH ALGORITMA NEAREST NEIGHBORS.
[MUSIK] Halo,
selamat datang di video asisten baru dari kursus penambangan data kami.
Dalam video ini, kita akan melihat contoh algoritma Near Neighbors.
Tujuan utama dari video ini adalah untuk menerapkan algoritma yang saya sebutkan sebelumnya,
yang disebut tetangga dekat, pada gambar skala abu-abu.
Gambar-gambar ini berisi angka dari nol hingga sembilan, dibuat dengan tangan, idenya
buat algoritma yang mampu mengenali atau mengklasifikasikan antara sepuluh digit ini.
Pertama,
Saya ingin mengingatkan sedikit tentang algoritma Near Neighbors.
Seperti yang terlihat beberapa minggu lalu, ini terdiri dari menempatkan data kami di a
Ruang berdimensi N, di mana N sesuai dengan jumlah variabel yang kita miliki.
Dalam hal ini, kami memiliki 18 contoh dalam ruang dua dimensi,
sembilan dari kelas satu dan sembilan dari kelas dua.
Untuk mengklasifikasikan data baru, seperti yang terlihat di layar, atau contoh baru,
yang kami lakukan adalah menempatkannya di ruang dua dimensi ini.
Kemudian, kami menghitung jarak antara data baru ini dan 18 data sebelumnya.
Jika kita hanya menggunakan tetangga dekat,
kami tinggal dengan kelas tetangga terdekat.
Dalam hal ini, yang paling dekat dengan data kita adalah yang memiliki lingkaran hijau,
di layar, dan sesuai dengan kelas satu.
Kasus lain adalah menggunakan lebih banyak tetangga, seperti tujuh.
Dalam hal ini, data kami akan sesuai dengan data dengan frekuensi tertinggi.
Melihat kembali contoh kita di layar,
enam memprediksi bahwa itu adalah kelas satu dan satu bahwa itu adalah kelas dua,
Oleh karena itu, kami mengklasifikasikan data kami sebagai kelas satu, karena merupakan mayoritas.
Setelah mengingat tentang apa algoritma yang terlihat di kelas,
Kita akan melihat contoh nyata yang diambil dari Kaggle.
Seperti yang saya sebutkan sebelumnya di awal video ini,
kita akan menggunakan database nyata,
yang memiliki citra grayscale dengan nilai dari nol hingga sembilan.
Pengklasifikasi kami harus dapat melihat gambar-gambar ini dan memprediksi apa itu
nilai ini
Seperti yang akan Anda ingat, sebuah gambar terdiri dari beberapa piksel dan untuk menggunakan
Algoritma tetangga terdekat mengambil dimensi N.
Dalam hal ini, kami akan menggunakan jumlah total piksel sebagai variabel
model, yang kira-kira
Atau:784 piksel, yang setara dengan 28 x 28.
Secara intuitif, yang kami lakukan adalah membandingkan piksel demi piksel dalam gambar
yang kita miliki, dan yang serupa harus memiliki pewarnaan di area yang sama.
Dalam hal ini, misalnya, empat di kiri sangat mirip dengan empat di
tepat di berbagai bagian gambar, yang merupakan algoritme kami
Anda harus bisa memprediksi dan memprediksi dengan benar bahwa itu adalah nomor empat.
Seperti yang kami sebutkan sebelumnya di video ini, apa yang akan kami coba lakukan atau apa
yang akan kita lakukan adalah algoritma untuk mengenali digit pada sebuah gambar.
Untuk itu, pertama-tama kita akan mendownload databasenya,
menggunakan platform Kaggel.
Platform Kaggel, seperti yang disebutkan pertama kali sebagai asisten,
Ini terdiri dari platform tempat kami dapat menemukan kumpulan data publik yang berbeda,
dan di mana ada kompetisi di mana kelompok atau kelompok orang
mereka bersaing untuk mendapatkan akurasi terbaik dan model terbaik.
Dalam hal ini, kami akan bekerja dengan database yang disebut Digit Recognizer,
yang dapat diunduh secara gratis,
yang kita butuhkan hanyalah akun, yang dapat dibuat dengan mudah.
Ini terdiri dari dua database, satu untuk pelatihan dan satu untuk pengujian,
tapi untuk latihan ini karena RapidMiner hanya mampu
gunakan 10.000 baris dengan lisensi gratis,
kami hanya akan menggunakan kumpulan data pelatihan.
Kami mengunduhnya, yang saya miliki di sini,
Saya memilikinya di komputer saya dan apa
Yang harus Anda lakukan adalah mengurangi ukuran kumpulan data ini menjadi hanya 10.000 baris.
Setelah mereka memprosesnya,
kami langsung membuka platform RapidMiner kami.
Hal pertama yang akan kita lakukan adalah menambahkan data,
Inilah sebabnya kami akan pergi ke Tambah Data, Komputer Saya.
Kami akan mencari file untuk dapat menambahkannya.
[SOUND] Kami klik next dan next lagi, karena diproses dengan baik.
Di bagian ini, kita harus memformat kolom, ini adalah sesuatu yang belum pernah mereka lihat
dalam asisten video pertama, karena klasifikasi tidak diperlukan.
Kita harus memberi tahu RapidMiner kolom mana yang sesuai dengan kelas.
Dalam hal ini, kolom pertama, yang berlabel, sesuai dengan nomor dari
gambar, inilah mengapa kami akan mengubah peran kolom.
Ubah Peran dan kami akan menempatkan peran label.
Selain itu, RapidMiner tidak mampu bekerja dengan bilangan bulat,
yang bilangan bulat, tetapi bekerja dengan kata-kata, yaitu,
kita harus mengubah jenis kolom, dalam hal ini, polinomial.
Kami menekan berikutnya lagi dan menyimpannya.
Saya menyimpannya, karena membutuhkan waktu sekitar 30,
40 detik untuk memuat.
Setelah Anda memuatnya ke RapidMiner Anda,
Kami akan melanjutkan untuk menjalankan algoritme.
Pertama-tama, kami akan memindahkan database di Ambers ke
jendela proses dan kami akan menambahkan operator berikut.
Operator pertama adalah Normalize, yang memungkinkan kita untuk menormalkan setiap kolom.
Meskipun kolom ini berada di antara nol dan satu, kami dapat mengatakan bahwa Anda
dinormalisasi untuk subjek jarak, itu selalu baik untuk dinormalisasi.
Setelah kolom kami dinormalisasi, kami akan melanjutkan untuk membuat
set pelatihan dan set pengujian, untuk ini kita akan menggunakan blok yang disebut Split It,
yang memungkinkan kita untuk membagi database kita menjadi dua.
Dan kita lihat di parameter dan kita akan menekan Edit Pencacahan.
Kami akan menambahkan input, kami akan menempatkan 70% dan 30% untuk pengujian.
Setelah Data Terpisah kami ditambahkan, kami akan melanjutkan untuk menambahkan operator dan
juga untuk metrik evaluasi.
Operator disebut K-NN, untuk Tetangga Terdekat, dan berwarna hijau.
Jika mereka memperhatikan,
RapidMiner secara otomatis memiliki warna yang berbeda untuk tahapan yang berbeda.
Warna hijau sesuai dengan model,
warna dalam ungu muda sesuai dengan
preprocessing dan yang ungu sesuai dengan data itu sendiri.
Kami menghubungkan output exa dengan input exa dari Split Data dan memasangkannya dengan
pintu masuk belakang.
Ini, setelah kita memiliki model K-NN,
Blok ini memberi kita model, model Mod.
Bahkan jika mereka mengklik kanan dan memilih Show bright info,
akan keluar bahwa dia adalah seorang model.
Kami menambahkan, kami harus menerapkan model kami,
untuk ini kita akan menggunakan blok Terapkan Model,
yang memungkinkan kami untuk menambahkan model ini ke data yang tidak terlihat sebelumnya.
Kami menghubungkan keluaran mod dengan masukan mod dan keluaran genap,
yang sesuai dengan pengujian kami dengan input Model Terapkan kami.
Operator ini akan menghasilkan database baru,
sama seperti sebelumnya dengan kolom tambahan,
yang merupakan kolom prediksi untuk setiap baris ini.
Terakhir, kami akan menambahkan blok bernama Performance,
yang akan memungkinkan kami untuk mengukur kinerja classifier kami.
Kami menghubungkan output lab ke input lab dan per output ke input res.
Setelah semuanya terhubung, kita dapat melanjutkan untuk menekan Jalankan.
Penting untuk ditekankan bahwa kami saat ini menggunakan tetangga terdekat,
dan kami akan mengubah jarak ke jarak Euclidean.
Ketika mereka menekan Jalankan itu akan memakan waktu sedikit lebih lama,
karena kami bekerja dengan 30 megabita.
Inilah mengapa kita akan melihat hasil yang berbeda,
bahwa saya memiliki mereka preprocessed.
Di bagian kedua video ini, yang ingin saya tunjukkan adalah perbedaannya
Parameter dapat berubah dan juga Performa model kita.
Dalam hal ini, kita akan menggunakan dua ukuran jarak,
jarak Euclidean dan jarak Manhattan.
Untuk ini kami pergi ke operator K-NN,
yang memiliki parameter yang sama dan kita akan memodifikasinya.
Apa yang akan kita coba adalah memodifikasi parameter K,
yang merupakan jumlah tetangga terdekat, kita akan menempatkan satu, tiga, dan tujuh.
Dan kita juga akan mengubah ukuran jarak, Ukuran numerik,
Kita akan membuktikan ukuran Manhattan dan jarak Euclidean.
Seperti yang saya sebutkan sebelumnya,
hasil ini dapat memakan waktu tergantung pada komputer, inilah alasannya
bahwa saya telah memprosesnya dan itulah yang akan kita lanjutkan ke selanjutnya.
Seperti yang Anda lihat, di sini
temukan dua matriks kebingungan, keduanya dalam jarak Euclidean
dengan tetangga dekat, seperti di kejauhan Manhattan dengan tetangga dekat.
Dalam kedua kasus tersebut kita melihat bahwa akurasi rata-rata jarak Manhattan dengan a
tetangga terdekat lebih besar dari jarak Euclidean.
Tapi tetap saja kedua kualifikasi itu cukup bagus.
Menggunakan tiga tetangga dekat, kita melihat dengan jelas, sekali lagi, jaraknya
Manhattan meningkatkan performa, lebih jauh mengungguli jarak Euclidean.
Dan akhirnya, dengan tujuh tetangga dekat,
sekali lagi jarak Manhattan juga lebih besar dari jarak Euclidean.
Seperti dalam matriks kebingungan, baris,
kami memiliki Presisi dan kami memiliki Recall.
Dalam video ini, kami melihat bagaimana menerapkan algoritma tetangga terdekat,
menggunakan program RapidMiner.
Kami dapat mengklasifikasikan gambar digit dengan benar,
dengan hasil lebih dari 90%.
Selain itu, kami menggunakan varian algoritme, seperti jarak yang digunakan,
yang terakhir bisa sangat penting untuk kinerja classifier kami
dan disarankan untuk mencoba lebih dari satu yang masuk akal dengan masalahnya.
Itu saja untuk hari ini, dan saya berharap dapat melihat Anda segera di video berikutnya,
dimana kita akan menerapkan algoritma pohon keputusan.
[AUDIO_BLANK]
TOTAL POIN DARI 10
1. Pertanyaan 1 salah
Mengapa Anda harus memisahkan kumpulan data ke dalam grup untuk pelatihan dan pengujian?
1 poin
Untuk mempercepat proses pelatihan
Untuk mensimulasikan kasus masa depan
Untuk memaksa lebih pas
Untuk meningkatkan akurasi dalam set pelatihan
Apa itu metode "Hold Out"?
1 poin
Latih model dengan sepotong data dan uji dengan data yang belum dilihat model
Pisahkan kumpulan data menjadi K lipatan dan uji masing-masing secara terpisah
Pisahkan elemen untuk diuji dan dilatih dengan kumpulan data lainnya
Pisahkan set pelatihan menjadi sepuluh bagian dan latih setiap bagian secara terpisah
3. Pertanyaan 3
Mengapa bagus untuk melakukan pengambilan sampel bertingkat saat memisahkan set pelatihan dan pengujian?
2 poin
Untuk melatih model lebih cepat
Untuk memiliki jumlah data dan variabel yang sama
Untuk menemukan kombinasi terbaik dari parameter model
Untuk melatih model dengan proporsi kelas yang mirip dengan kumpulan data lengkap
Apa keuntungan dari metode “K-Fold Cross Validation”?
1 poin
Latih model yang sama di partisi yang berbeda dan dengan demikian memiliki hasil yang lebih kuat
Ini adalah metode tercepat untuk melatih model
Meningkatkan kinerja pengklasifikasi pada database besar
Memudahkan interpretasi hasil
Untuk matriks kebingungan 3×3 yang tidak dinormalisasi, apa yang diwakili oleh elemen 2, 1 (baris 2, kolom 1)?
Nyata
1 2 3
1
diprediksi 2 X
3
1 poin
Ingatan kelas 2
Berapa kali kelas 1 diklasifikasikan dengan benar

Berapa kali kelas 2 diklasifikasikan sebagai kelas 1
Berapa kali kelas 1 salah diklasifikasikan sebagai kelas 2
6. Pertanyaan 6
Apa ingatan kelas "i"?
1 poin
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "i", berapa banyak yang benar-benar ada?
Dari unsur-unsur yang harus dideteksi oleh pengklasifikasi dari kelas "i", berapa banyak yang sebenarnya dideteksi?
Jumlah kasus di mana pengklasifikasi menghasilkan prediksi yang benar dibagi dengan jumlah total kasus
Dari elemen-elemen yang harus dideteksi oleh classifier dari kelas "j", berapa banyak yang sebenarnya dideteksi?
7. Pertanyaan 7
Apa yang dimaksud dengan presisi kelas "i"?
1 poin
Jumlah kasus di mana pengklasifikasi menghasilkan prediksi yang benar dibagi dengan jumlah total kasus
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "i", berapa banyak yang benar-benar ada?
Dari unsur-unsur yang harus dideteksi oleh pengklasifikasi dari kelas "i", berapa banyak yang sebenarnya dideteksi?
Dari kasus-kasus di mana pengklasifikasi mengatakan itu adalah kelas "j", berapa banyak yang benar-benar ada?
8. Pertanyaan 8
Jika kita memiliki model prediksi kanker, dimana jika kita mengatakan bahwa orang tersebut menderita kanker itu karena mereka benar-
benar mengidapnya. Melakukan kesalahan dalam diagnosis bisa sangat merugikan pihak klinik dengan mengatakan hal-hal yang tidak
sesuai. Di sisi lain, jika seseorang menderita kanker dan tidak terdeteksi, itu tidak terlalu penting karena tes tambahan wajib lainnya
dilakukan. Apakah kita ingin memiliki daya ingat atau presisi yang lebih baik?
2 poin
Kita tidak boleh mengistimewakan satu sama lain, keduanya sama pentingnya
Presisi
mengingat
Itu tidak mempengaruhi, model akan menyadari mana yang diistimewakan

algoritma pengelompokan.

Dalam video ini, kita akan mulai melihat topik baru, algoritme pengelompokan.
Yang paling memotivasi kami adalah belajar
apa itu algoritma pengelompokan dan untuk apa kita dapat menggunakannya dalam praktik.
Hal pertama yang perlu diketahui adalah bahwa metode pengelompokan biasanya tidak
berisi data berlabel seperti dalam kasus algoritma klasifikasi.
Itu sebabnya teknik clustering
Mereka termasuk dalam keluarga algoritma pembelajaran tanpa pengawasan.
Mari kita ingat ketika kita melihat model klasifikasi, seperti pohon
keputusan atau tetangga dekat, kami berasumsi bahwa ada kolom dengan
kelas dari setiap data, tepatnya kelas yang harus diprediksi oleh model.
Dalam pengelompokan, itu bukan tujuan dari algoritma.
Clustering sesuai dengan teknik untuk menemukan kelompok data yang berdekatan.
antara mereka dan dipisahkan dari yang lain.
Misalnya, jika kita ingin mencari kelompok pelanggan yang berbeda
berperilaku dengan cara yang sama saat melakukan pembelian di toko kami,
kita menghadapi masalah pengelompokan.
Dalam dunia retail dikenal juga dengan segmentasi pelanggan.
Juga jika kita tertarik untuk menemukan kelompok orang yang termasuk
ke komunitas yang sama dalam jejaring sosial, itu juga akan menjadi a
penerapan eksekusi beberapa algoritma clustering.
Contoh lain adalah ketika kita perlu mengelompokkan dokumen teks itu
mereka berbicara tentang topik serupa dalam database jutaan dokumen.
Dalam hal ini juga diperlukan untuk menjalankan beberapa algoritma pengelompokan
untuk memisahkan dokumen satu sama lain.
Apa kesamaan contoh yang disebutkan di atas
adalah bahwa data tidak diberi tag atau label.
Algoritma harus menemukan cara untuk memisahkannya secara langsung dari
variabel yang menggambarkan setiap potongan data tanpa bantuan set pelatihan.
Jika kami melihat data kami sebagai kumpulan poin dalam beberapa ruang
dimensi terbatas, misalnya, dua dimensi,
kita dapat memiliki sesuatu seperti apa yang terlihat di slide.
Sepintas kita bisa menyadari bahwa ada lima kelompok
data atau cluster.
Pada gambar di bawah ini kita bisa melihat mereka ditandai dengan warna yang berbeda.
Biasanya, algoritme yang menemukan cluster sangat berbasis
dalam metrik jarak atau kesamaan yang ditentukan untuk data kami.
Dengan cara yang sama seperti yang terjadi pada kami ketika kami melihat algoritme tetangga dekat.
Di video ini barulah kita melihat pengertian umum dari apa itu clustering,
kami menyebutkan bahwa itu sesuai dengan jenis pembelajaran tanpa pengawasan
dan itu secara alami membutuhkan ukuran kesamaan.
[AUDIO_BLANK]
Algoritma K-means.

Di video kali ini kita akan mengulas beberapa pertimbangan yang harus kita miliki
sebelum menjalankan algoritma K-means.
Apa yang memotivasi kami dalam video ini adalah untuk mempelajari cara mengamankan sebanyak mungkin a
paling dekat dengan hasil yang benar setelah menjalankan algoritma K-Means.
Pertimbangan pertama yang harus kita miliki adalah bahwa algoritma tidak selalu konvergen.
ke hasil yang sama.
Ini karena posisi awal pusat-pusat itu acak.
Misalnya dalam beberapa kasus,
Beberapa pusat mungkin sangat jauh dari massa data, mencegah
bahwa ini dapat diperbarui dan dipindahkan ke area dengan kepadatan lebih tinggi.
Salah satu solusi yang mungkin adalah menjalankan algoritma K-Means beberapa kali,
sedemikian rupa untuk mengurangi kemungkinan bahwa kita
meninggalkan dengan hasil pengelompokan yang sangat ekstrim.
Kita juga harus mempertimbangkan nilai ko jumlah cluster yang akan ditemukan
jelas itu adalah faktor kunci dalam hasil yang akan kita peroleh.
Sebagai contoh, pada gambar kita melihat kemungkinan hasil pengelompokan dengan k sama dengan 2.
Jika kita mengeksekusi k-means dengan data yang sama tetapi setting
nilai k sampai 5, kita sampai pada hasil yang sama sekali berbeda.
Mungkin meninggalkan poin terpisah yang mungkin harus muncul bersama.
Dalam hal ini juga solusi yang potensial adalah dengan menjalankan algoritma k-means
beberapa kali, mengubah nilai k dan menganalisis hasilnya.
Biasanya kami mengambil beberapa pasang poin yang kami miliki
ide apakah mereka harus berada dalam kelompok yang sama atau jika mereka harus terpisah.
Jika hasil k-means memisahkan titik yang kita tahu seharusnya
bersama-sama, sangat mungkin nilai k sangat tinggi.
Juga jika kita melihat bahwa sebagian besar klaster memiliki titik yang sangat sedikit,
adalah indikator bahwa kita harus menurunkan nilai k.
Karena k-means sangat bergantung pada ukuran jarak,
penting untuk memastikan bahwa dalam jarak euclidean mereka tidak berpartisipasi
variabel yang tidak penting ketika membandingkan data.
Itu akan membuat kebisingan dalam perhitungan pusat terdekat
dan dalam memperbaruinya.
Kita tidak boleh lupa bahwa ketika posisi pusat baru
bertepatan dengan rata-rata titik-titik yang termasuk dalam cluster,
kami mengasumsikan bahwa jarak yang digunakan adalah Euclidean.
Dalam kasus di mana kami menggunakan ukuran jarak lain
kita harus menghitung pusat-pusat baru sebagai titik yang meminimalkan
jumlah jarak semua titik cluster ke arahnya.
Ada beberapa varian dari algoritma k-means.
tepatnya terkait dengan jenis modifikasi ini.
Dalam video ini kami melihat beberapa pertimbangan yang harus kami ambil
menggunakan algoritma k-means.
Kami belajar bahwa perlu mengeksekusi algoritme lebih dari sekali
terutama karena pusat awal dihasilkan secara acak.
Kami juga melihat bahwa penting untuk memvariasikan nilai k
untuk mendapatkan gambaran tentang jumlah pusat yang paling tepat.
Kami juga menyebutkan bahwa ukuran jarak
sejalan dengan bagaimana hub diperbarui
sedemikian rupa untuk memastikan fungsi yang benar dari algoritma.
[SUARA] Selamat datang di video baru kursus Penambangan Data kami.
Dalam video ini kita akan melihat algoritma pengelompokan pertama kita,
algoritma k-means.
Apa yang terutama memotivasi kami dalam video ini,
adalah mempelajari secara detail bagaimana algoritma k-means bekerja.
Yang terdiri dari menemukan kelompok atau cluster data yang serupa.

Misalkan kita memiliki database dalam dua variabel seperti yang ditunjukkan
dalam gambar.

Hal pertama yang harus dilakukan adalah menentukan nilai k,
yaitu, berapa banyak cluster yang ingin kita temukan.
Sayangnya nilai ini adalah parameter dari algoritma
oleh karena itu kita harus memutuskannya sebelum eksekusi.
Dalam banyak kasus kita tidak memiliki cara untuk mengetahui jumlah cluster.

Itulah salah satu kelemahan utama dari algoritma k-means.
Setelah kami memutuskan jumlah cluster,
Kami menghasilkan k pusat acak, kami dapat melihatnya pada gambar dengan titik merah.
Sekarang, kami menetapkan setiap titik dalam database ke pusat terdekatnya.
Pada gambar kita memvisualisasikannya mewarnai dengan hal yang sama
warna ke titik-titik yang ditugaskan ke pusat yang sama.
Artinya, mereka tetap berada di cluster yang sama.
Karena grup sekarang dikonfigurasi ulang,
ada kemungkinan bahwa setiap kelompok akan menemukan pusat yang lebih baik daripada yang sebelumnya.
Dengan kata lain, kami memperbarui pusat setiap grup.
Ketika metrik jarak yang digunakan adalah Euclidean,
pusat masing-masing kelompok bertepatan dengan rata-rata.
Setelah kami memperbarui pusat, ke setiap grup,
center terbaik Anda dipindahkan ke Anda saat center berubah, mungkin saja
sekarang ada pusat yang lebih baik dari yang sebelumnya untuk setiap titik.
Demikian seterusnya sampai konvergensi dihasilkan,
yaitu, sampai pusat Anda tidak mengubah posisi.
Kita melihat bahwa algoritma k-means adalah algoritma iteratif, dimana utamanya
diulang antara dua langkah, menugaskan titik ke pusat terdekat
terdekat dan memperbarui hub setelah poin dialokasikan kembali.
Penyelesaian iterasi algoritma terjadi ketika pusat
Anda tidak mengubah posisi secara signifikan.
Misalnya kita dapat mendefinisikan delta yang sangat kecil dan menentukan konvergensi
dari algoritma ketika posisi semua pusat
berubah kurang dari delta yang ditentukan sebelumnya.
Jelas jika pusat tidak berubah secara signifikan,
itu juga tidak akan mengubah penetapan cluster untuk setiap titik.
Dalam video ini kita melihat algoritma k-means.
Kita harus ingat bahwa metode ini membutuhkan penentuan jumlah cluster secara apriori.
Ini adalah proses yang berulang di antara dua langkah utama.
Di video selanjutnya kami akan mengulas beberapa pertimbangan dari algoritma tersebut.
[AUDIO_BLANK]
ALGORITMA K-MEANS.
Dalam video ini, kami memiliki contoh lengkap menjalankan Algoritma K-Means.
Motivasi utama dalam video ini adalah untuk memastikan bahwa kita mencapai pemahaman
tentang bagaimana Algoritma K-Means beroperasi,
sedemikian rupa sehingga mereka dapat membuat keputusan desain khusus
situasi masa depan di mana kita harus menerapkan algoritma ini dalam praktek.
Misalkan kita ingin mengelompokkan database Pelanggan
yang muncul di slide.
Kami memiliki dalam contoh ini enam klien yang dijelaskan dalam tiga variabel,
senioritas dalam tahun, gaji dan biaya bulanan.
Ingatlah bahwa pengelompokan adalah pembelajaran tanpa pengawasan, oleh karena itu,
tidak ada kolom dengan kelas dari setiap instance.
Hal pertama yang perlu kita lakukan adalah menormalkan variabel,
sedemikian rupa sehingga tidak ada bias yang tidak diinginkan dalam perhitungan jarak.
Di layar kita melihat visualisasi enam poin dari contoh ini.
Hal pertama adalah menentukan nilai K,
yaitu, jumlah cluster yang ingin kita temukan.
Misalkan, dalam hal ini, K sama dengan 2.
Sekarang, kita memiliki generasi acak dari posisi awal pusat.
Asumsikan bahwa nilainya adalah yang muncul di tabel pada slide.
Kami melihat di layar dengan titik merah pusat yang baru saja kami tentukan.
Langkah selanjutnya adalah menghitung jarak dari setiap titik ke dua pusat.
Mari kita asumsikan jarak Euclidean.
Nilai jarak untuk setiap titik muncul di layar.
menuju dua pusat yang mungkin.
Sekarang kita harus memilih pusat terdekatnya untuk setiap titik, dalam hal ini,
kami menandai dengan lingkaran hijau jarak yang lebih kecil untuk setiap titik.
Sebagai contoh, kita melihat Nicolás, María, Pedro dan Juan,
pusat terdekat adalah 1, Anda bahwa untuk masing-masing klien tersebut
Jarak dari mereka ke Pusat 1 kurang dari jarak ke Pusat 2.
Anda kami memiliki, kemudian, kelompok iterasi pertama.
Gugus 1 terdiri dari Juan, Pedro,
Maria dan Nicholas; dan Cluster 2 terdiri dari Ángela dan Carlos.
Langkah selanjutnya adalah, untuk setiap klaster, memperbarui pusat mereka.
Karena kita menggunakan jarak Euclidean,
pusat setiap cluster hanya dihitung sebagai rata-rata
di antara semua data Anda untuk masing-masing dari tiga variabel.
Perhitungan pusat baru untuk Cluster 1 muncul di layar.
Dengan cara yang sama, kami memperbarui pusat Cluster 2, menghitung
rata-rata data atau klien yang saat ini membentuk cluster tersebut.
Hasilnya muncul di layar.
Sekarang, kita dapat memvisualisasikan posisi pusat yang baru di layar.
Untuk perbandingan,
ini adalah posisinya, itu adalah posisi dari iterasi sebelumnya.
Mari kita kembali untuk melihat bagaimana mereka berubah saat itu.
Sekarang, karena kami memiliki pusat baru, kami memilikinya, untuk setiap titik data,
lihat pusat terdekat lagi
dan berpotensi menugaskan kembali poin ke cluster yang berbeda.
Kami menghitung ulang jarak dari masing-masing titik
ke pusat-pusat baru.
Nilai muncul di layar.
Kami menandai jarak yang lebih kecil dengan lingkaran hijau.
Kami melihat bahwa untuk Pedro, María dan Nicolás, Center 1 adalah yang paling dekat;
sedangkan untuk Juan, Ángela dan Carlos, Center 2 adalah yang paling dekat.
Kami kemudian menugaskan setiap klien ke pusat terdekat mereka.
Cluster didistribusikan sesuai dengan tampilannya di layar.
Sekarang, karena klaster berubah, kami harus mendapatkan pusat baru.
Untuk Cluster 1 kami memperbarui pusat melalui rata-rata
dari klien yang tetap di cluster itu.
Kita lihat pada slide titik yang dihasilkan dari rata-rata ini.
Kami melakukan hal yang sama untuk Cluster 2.
Pusat 0,81, 0,33 dan 0,44 kemudian dihasilkan.
Pada slide, kami memvisualisasikan cluster saat ini dengan
masing-masing pusat yang diperbarui diwakili oleh titik merah.
Untuk menghargai bagaimana pusat-pusat itu bergerak,
di sini kita melihat visualisasi dengan posisi pusat sebelumnya.
Dan di sini kita kembali untuk melihat posisi saat ini.
Saya sarankan untuk memeriksa apakah perubahan posisi pusat masuk akal bagi Anda.
Karena hub baru saja berubah, kami perlu memperbarui lagi
penugasan setiap klien ke pusat-pusat baru yang memungkinkan.
Untuk melakukan ini, kami menghitung ulang jarak dari setiap titik
ke pusat-pusat ini.
Nilai muncul di layar.
Sekali lagi, kami menandai jarak yang lebih kecil dengan warna hijau.
Kita melihat bahwa, sekali lagi, Peter,
María dan Nicolás ditugaskan ke Pusat 1, dan bahwa Juan,
Ángela dan Carlos ditugaskan ke Pusat 2, yaitu cluster tidak berubah.
Karena cluster tidak berubah,
pusat juga tidak akan berubah; oleh karena itu, algoritma konvergen.
Kita melihat pada gambar bagaimana cluster akhirnya dikonfigurasi.
Dalam video ini, kami melihat contoh lengkap menjalankan Algoritma K-Means.
Kami dapat menghargai bahwa perlu mengulang beberapa kali
penugasan kembali poin dan memperbarui pusat sampai terjadi konvergensi.
Kedua langkah itu sama seperti yang Anda lakukan
komputer yang menjalankan Algoritma K-Means pada database nyata.
[AUDIO_BLANK]

Dalam video ini, kita akan melihat algoritma pengelompokan baru.
Apa yang terutama memotivasi kami dalam video ini adalah untuk belajar
Apa itu pengelompokan hierarkis-aglomeratif?
Kita akan melihat bahwa ini didasarkan pada ide yang cukup sederhana dan bisa jadi
cukup berguna dalam praktek.
Gagasan utama pengelompokan hierarkis adalah dari suatu ukuran
kesamaan, langkah demi langkah yang paling
dalam data, menghasilkan hierarki hasil pengelompokan.
Idenya adalah bahwa dalam setiap langkah kita menggabungkan pasangan klaster terdekat.
Pada awalnya, setiap titik adalah sebuah cluster.
Pada langkah pertama, kami menggabungkan dua cluster terdekat.
Kita lihat pada gambar bahwa mereka ditandai dengan oval biru.
Kami mengidentifikasinya dengan nomor 1.
Sekarang kedua titik ini membentuk cluster baru.
Langkah selanjutnya sekarang adalah bergabung dengan dua cluster terdekat
dari hasil langkah sebelumnya.
Pada gambar, itu akan sesuai dengan sepasang titik yang dihubungkan dengan oval biru,
diidentifikasi dengan nomor dua.
Jadi, secara berurutan, kami bergabung dengan pasangan cluster terdekat.
Pada langkah terakhir,
kita pasti akan tiba di satu cluster yang berisi semua data,
kecuali kami memiliki beberapa kriteria untuk menghentikan algoritme.
Ada beberapa kriteria yang bisa kita gunakan untuk bisa menghentikan eksekusi.
Salah satunya mungkin kita mendefinisikan jumlah cluster minimum
yang ingin kita tuju.
Pilihan lainnya adalah menentukan ambang batas jarak maksimum, agar tidak
menggabungkan pasangan cluster yang lebih jauh dari jarak tersebut.
Juga, salah satu opsinya adalah mengatur jumlah langkah maksimum yang akan kita jalankan.
Secara umum, semua kriteria tersebut membutuhkan pemahaman yang mendalam
dari data yang kami analisis,
Anda bahwa setiap kriteria ini akan berbeda untuk database yang berbeda.
Selain kriteria penghentian, kita perlu menentukan ukuran
jarak antar cluster, Anda yang dari langkah 2 dan seterusnya,
cluster yang berisi lebih dari satu titik mulai muncul.
Jadi, kita harus tahu bagaimana mengukur jarak antar kelompok titik,
yaitu cluster.
Kita akan melihat empat jenis jarak antar cluster, koneksi sederhana,
koneksi lengkap, jarak antara rata-rata dan jarak rata-rata antara rekan-rekan.
Koneksi sederhana mengasumsikan bahwa jarak antara dua cluster
dihitung dengan cara berikut.
Kami menghitung jarak antara semua kemungkinan pasangan titik
dari dua cluster dan kami memilih minimum.
Pada gambar kita melihat contoh.
Dapat dilihat bahwa hubungan sederhana adalah jarak antar titik
terdekat antara dua cluster dan sesuai dengan titik hijau.
Sambungan penuh adalah kebalikan dari sambungan sederhana,
mengasumsikan bahwa jarak antara dua cluster
Itu dihitung sebagai jarak antara dua titik terjauh.
Pada gambar kita dapat melihat bahwa itu sesuai dengan jarak antara titik biru.
Jarak antar rata-rata hanya mengasumsikan bahwa jarak antara dua cluster
Ini dihitung sebagai jarak antara sarana masing-masing.
Pada gambar kita melihat bahwa rata-rata ditandai dengan X biru.
Jarak kemudian antara cluster
C sub A dan C sub B diberikan oleh ukuran panah biru.
Terakhir, jarak rata-rata antar pasangan sesuai dengan rata-rata
antara semua jarak yang bisa kita dapatkan antara semua pasangan titik.
Fakta bahwa pengelompokan hierarki bersatu pada setiap langkah
ke cluster terdekat, memungkinkan kita untuk menghasilkan visualisasi proses.
Tampilan ini dikenal sebagai dendrogram.
Misalnya, jika kita menjalankan algoritme dan pada langkah pertama kita menggabungkan intinya
A dengan B, lalu langkah selanjutnya kita gabungkan titik D dengan E,
lalu kami mengelompokkan DE dengan titik C dan, akhirnya,
kami menggabungkan gugus DEC dengan gugus AB,
Kita dapat memvisualisasikan seluruh proses dengan gambar yang muncul pada gambar.
Saya menyarankan Anda untuk menjeda video dan memeriksa langkah-langkahnya
terkait dengan dendrogram yang kita lihat di layar.
Dalam video ini, kami mempelajari apa itu pengelompokan hierarkis-aglomeratif.
Kami melihat bahwa perlu untuk menentukan ukuran jarak antar cluster.
Jelas jarak ini mengasumsikan bahwa kita memiliki cara untuk mengukur
jarak antar titik.
Di sini, sekali lagi, kami menemukan diri kami dengan kebutuhan untuk memiliki jarak yang baik
diuraikan, terutama berdasarkan variabel yang paling
yang menggambarkan data, agar pengelompokan masuk akal.
Kita tidak boleh lupa bahwa kita juga perlu menentukan kriteria untuk
menghentikan algoritme, Anda yang meskipun tidak perlu mengetahuinya
jumlah cluster seperti dalam kasus [Tak terdengar] kami memiliki nomor
cluster yang berbeda pada setiap langkah dari algoritma hirarkis.
Dengan kata lain, jumlah cluster akan ditentukan oleh
kriteria penghentian yang kita gunakan.
[AUDIO_BLANK]
DIKENAL SEBAGAI DBSCAN.

Dalam video ini kita akan melihat algoritma pengelompokan baru, yang dikenal sebagai DBSCAN.
Apa yang terutama memotivasi kami dalam video ini
adalah untuk mengetahui algoritma yang bekerja dengan cara yang sama sekali berbeda
ke algoritma K-Means dan algoritma pengelompokan hierarkis.
Ini membuat DBSCAN lebih cocok daripada
teknik yang ditinjau sebelumnya dalam beberapa kasus dalam praktik.
DBSCAN adalah algoritma pengelompokan yang didasarkan pada gagasan untuk menghubungkan
data dalam cluster yang sama jika mereka berada di zona kepadatan data yang sama.
Kriteria ini menghasilkan kelompok bentuk sembarang, biasanya DBSCAN
Ini digunakan untuk melakukan pengelompokan pada peta geografis misalnya.
Hal pertama yang harus kita lakukan adalah mendefinisikan beberapa konsep.
Konsep pertama adalah objek inti,
datum sesuai dengan objek inti jika kebetulan memiliki sejumlah tetangga
yang melebihi ambang batas yang telah ditentukan dalam radius yang telah ditentukan.
Jadi kami melihat bahwa di sini kami mendeteksi dua parameter algoritme, angka
jumlah minimum tetangga dan radius di mana kita akan menghitung tetangga potensial ini.
Maksud di balik definisi ini adalah bahwa objek inti adalah titik kandidat.
untuk membentuk sebuah cluster, Anda yang dikelilingi oleh tetangga pada jarak yang sangat dekat,
dengan kata lain, dengan kepadatan data yang tinggi.
Misalnya, misalkan jumlah minimum tetangga adalah 3,
pada gambar kita melihat titik yang ditandai dengan x,
diberi jari-jari r, titik itu memiliki tiga tetangga, oleh karena itu merupakan objek inti.
Kita sekarang melihat kasus di mana titik z hanya memiliki dua tetangga dalam radius r,
oleh karena itu z bukan objek inti.
Kami kemudian dapat mengetahui bahwa algoritma DBSCAN mulai mencari di dalam
database ke semua titik yang merupakan objek inti,
untuk membentuk cluster awal, dalam hal ini,
objek inti yang sama dan kemudian memperluas cluster ini, seperti yang akan kita lihat nanti.
Pada gambar kita dapat memeriksa bahwa titik m, p, o, j dan r adalah
objek inti secara efektif, sekarang langkah selanjutnya adalah memperluas cluster ini.
Definisi lain yang harus kita lihat adalah sebagai berikut.
Kami akan mengatakan bahwa objek h dapat dijangkau secara langsung dengan kepadatan dari yang lain
objek o, jika h berada di sekitar o,
didefinisikan oleh radiusnya r dan juga o adalah objek inti.
Gambar tersebut menunjukkan skema dari definisi di atas.
Intuisi di balik definisi ini adalah bahwa kita sedang melihat
yang akan menjadi objek yang dapat digabungkan oleh objek inti ke klasternya sendiri.
Objek pertama yang dapat dilampirkan oleh setiap objek inti
adalah yang dapat dicapai secara langsung oleh kepadatan.
Langkah alami lain dari algoritme adalah melanjutkan perluasan cluster,
Maka jelaslah bahwa langkah selanjutnya adalah setiap objek inti dilampirkan padanya
klaster ke titik-titik yang dapat dijangkau dari titik-titik yang baru saja Anda lampirkan.
Di sini kita memiliki definisi lain, objek s dapat dijangkau secara tidak langsung
dengan kepadatan dari objek lain atau, jika ada urutan objek
di mana setiap objek dapat dijangkau secara langsung dengan kepadatan dari yang sebelumnya.
Pada gambar kita melihat bahwa objek s dapat dijangkau
dari atau tidak langsung melalui h, karena h adalah
dapat dijangkau langsung dari o dan s dapat dijangkau langsung dari h.
Penting untuk dicatat bahwa objek perantara yang melanjutkan rantai
cakupan semuanya harus menjadi objek inti.
Proses sebelumnya memunculkan definisi baru.
Katakanlah dua objek, pys, terhubung dengan kepadatan,
jika ada objek h sehingga p dapat dijangkau oleh kerapatan dari
h dan juga s dapat dicapai dengan kepadatan dari h.
Dalam data yang ditunjukkan pada gambar,
misalkan kita memiliki objek inti m, p, o, j dan r,
jari-jari lingkungan ditandai dengan warna biru dan minimum tetangga adalah 3,
Kami pertama-tama membuat cluster untuk setiap objek inti, kami menandainya dengan warna.
Langkah selanjutnya adalah memperluas masing-masing objek inti
melampirkan ke masing-masing data yang dapat dijangkau secara langsung oleh
kepadatan, kami tandai
warna solid penugasan poin saat ini ke cluster masing-masing.
Karena m dan p dihubungkan oleh kerapatan,
keduanya digabungkan ke dalam cluster yang sama, kami menandai semuanya dengan warna hijau,
Kami melakukan hal yang sama dengan cluster yang sesuai dengan o, j dan r.
Kami melihat dengan lingkaran putus-putus bahwa tidak ada lagi lingkungan yang memenuhi angka tersebut
jumlah minimum tetangga, sehingga tidak ada lagi poin yang dapat dicapai.
Karena tidak ada lagi poin untuk dijangkau, Anda tidak memiliki inti lagi
objek yang lebih banyak data dapat dilampirkan, algoritma berhenti.
Kami melihat dalam warna kemudian cluster terakhir, titik-titik merah bukan milik
ke cluster mana pun, itu dapat dianggap sebagai noise yang ada dalam data.
[SUARA] Dalam video ini kita belajar bagaimana algoritma DBSCAN bekerja.
Kita harus ingat bahwa ini adalah teknik yang didasarkan pada kerapatan data,
Ini berarti bahwa bentuk cluster yang ditemukannya diberikan langsung oleh
cara di mana titik-titik yang menghasilkan area dengan kepadatan tinggi didistribusikan.
Mengingat ini,
jika kita memiliki data dimana terdapat cluster yang memiliki derajat kepadatan yang berbeda
satu sama lain, DBSCAN kemungkinan besar bukan algoritma yang paling tepat.
[AUDIO_BLANK]
Pilih alternatif yang benar mengenai perbandingan antara algoritma pengelompokan dan klasifikasi
2 poin
Clustering adalah metode tanpa pengawasan dan algoritma klasifikasi diawasi.
2. Pertanyaan 2
Kapan eksekusi algoritma K-Means berhenti?
1 poin
Ketika pusat tidak bergerak dalam toleransi tertentu
3. Pertanyaan 3
Mengapa Anda harus menormalkan variabel sebelum melakukan K-Means?
1 poin
Sehingga variabel dengan peringkat lebih tinggi tidak mendominasi terhadap variabel dengan peringkat lebih rendah
4. Pertanyaan 4
Apa perbedaan jumlah cluster awal di K-Means dan clustering hierarkis?
1 poin
Yang pertama ada K cluster sedangkan yang kedua sama dengan jumlah titik
5. Pertanyaan 5
Untuk apa dendrogram digunakan?
Representasi grafis yang memungkinkan untuk menghargai pengelompokan data berdasarkan level.
6. Pertanyaan 6
Apa yang mendefinisikan bentuk cluster dalam algoritma DBSCAN?
1 poin
Bentuk daerah dengan kepadatan tinggi
7. Pertanyaan 7
Apa keuntungan paling penting dari algoritma DBSCAN?
1 poin
Temukan kelompok bentuk acak

Evaluasi Minggu 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Evaluasi Minggu 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Minggu Evaluasi 1

TOTAL POIN DARI 10

Temukan pola di seluruh produk

Menganalisis data pembelian pelanggan

Mengklasifikasikan ke dalam jenis pelanggan

Frekuensi relatif di mana kumpulan item muncul dalam data

Ini adalah ukuran klasifikasi

Kumpulan dari satu atau lebih elemen

25% itu tidak mengandung susu, popok, dan bir

Keyakinan aturan dibagi dengan dukungan konsekuen

Frekuensi relatif di mana kumpulan item muncul dalam data

75% konsumen membeli susu, popok, dan bir

Jika sebuah itemset sering, maka semua subgrupnya juga sering

Ekspresi bentuk X <-> Y, dimana X dan Y adalah Itemsets

Ekspresi bentuk X -> Y, di mana X dan Y adalah perkalian.

Ekspresi bentuk X = Y, dimana X dan Y adalah Itemsets

[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.

VARIABEL TETANGGA DEKAT 1

[MUSIK] Selamat datang di video baru kursus penambangan data kami.

Contoh Tetangga Terdekat

Masalah klasifikasi berusaha menemukan pola dalam sekelompok item.

Vektor dengan deskriptor yang relevan untuk klasifikasi

Dalam variabel menggunakan karakteristik objek dan kelasnya

Kelompokkan data baru dari data serupa lainnya

Mengklasifikasikan data baru dari data yang paling mirip

Mengklasifikasikan data baru menggunakan pohon keputusan

Untuk menghindari artefak numerik atau ketidakpastian yang mungkin muncul

Untuk mengubah dimensi di mana data pelatihan ada

Olahraga posisi di perusahaan gaji

tenis sekretaris $1.200

sepak bola analis $2.500

Variabel kategorikal, biner, dan ordinal

Variabel kategorikal, ordinal, dan numerik

Variabel kategorikal, ordinal, dan kategoris

Memperbesar/mengurangi variabel tertentu untuk perhitungan jarak

Algoritma tetangga terdekat relatif sederhana.

Algoritma tetangga terdekat mempertimbangkan jarak tetangga untuk pemilihan kelas.

[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.

KONSEP MENDAPATKAN INFORMASI,

[MUSIK] Selamat datang di video baru kursus penambangan data kami.

Variabel Kontinu dalam Pohon Keputusan

[SUARA] Selamat datang di video baru kursus Penambangan Data kami.

Ini adalah algoritma tipe Unsupervised

Ini adalah algoritma tipe yang diawasi.

Ini jenis pohon

Ini adalah campuran antara Diawasi dan Tanpa Diawasi

Entropi adalah ukuran ketidakteraturan

Entropi mengukur tingkat homogenitas kumpulan data.

Nama Jenis kelamin Usia Kisaran gaji Kelas

Carlos H 23 < $250 1

Daniela M 31 $500 - $750 2

Nicholas H 45 > $750 1

Karim H 32 > $750 1

javiera M 17 $250 - $500 2

Model kami mampu menggeneralisasi lebih baik

Kami kehilangan kemampuan untuk menggeneralisasi

[MUSIK] Selamat datang di video baru kursus Penambangan Data kami.

CONTOH ALGORITMA NEAREST NEIGHBORS.

Untuk mempercepat proses pelatihan

Untuk mensimulasikan kasus masa depan

Untuk memaksa lebih pas

Untuk meningkatkan akurasi dalam set pelatihan

Untuk melatih model lebih cepat