0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
8 tayangan2 halaman
Dokumen tersebut membahas tentang data mining dan pra-pemrosesan data. Pra-pemrosesan data meliputi penyucian data, integrasi data, reduksi dimensi, dan transformasi data untuk menghilangkan kekurangan-kekurangan awal sebelum analisis. Setelah itu, dilakukan analisis pola dan klasifikasi/klasteiring sesuai kebutuhan, lalu hasil dievaluasi untuk memperoleh pengetahuan baru. Diskusi lebih lanjut tentang teknik-te
Dokumen tersebut membahas tentang data mining dan pra-pemrosesan data. Pra-pemrosesan data meliputi penyucian data, integrasi data, reduksi dimensi, dan transformasi data untuk menghilangkan kekurangan-kekurangan awal sebelum analisis. Setelah itu, dilakukan analisis pola dan klasifikasi/klasteiring sesuai kebutuhan, lalu hasil dievaluasi untuk memperoleh pengetahuan baru. Diskusi lebih lanjut tentang teknik-te
Dokumen tersebut membahas tentang data mining dan pra-pemrosesan data. Pra-pemrosesan data meliputi penyucian data, integrasi data, reduksi dimensi, dan transformasi data untuk menghilangkan kekurangan-kekurangan awal sebelum analisis. Setelah itu, dilakukan analisis pola dan klasifikasi/klasteiring sesuai kebutuhan, lalu hasil dievaluasi untuk memperoleh pengetahuan baru. Diskusi lebih lanjut tentang teknik-te
- Pre processing data : Data inegrasi, normalisasi/transformasi, feature selection, dimension reduction - Data mining : Pattern discovery (cek dl, lihat pola data, stat descriptive, diagram dll) Analisis sesuai kebutuhan (klasifikasi/clustering) - Post processing : Visualisasi, interpretasi, evaluasi Evaluasi untuk mrlihat performance dr metode yang sudah dilakukan di data mining Memperoleh knowledge yang baru PRE-PROCESSING DATA - Dilakukan Ketika data masih mentah (banyak kekurangan) - Data cleaning 1. Kita bersihkan dari raw data jadi data yang siap dianalisis 2. Karena data biasanya ada human error, computer error, missing value/data, tidak konsisten, noise data, outlier (missing value : missal dalam data set ada baris atau kolom yang tidak terisi atau kosong atau nol atau strip) 3. Pertama cek missing value : cara 1 (biarkan, tidak usah diapa-apakan) atau imputasi menggunakan mean atau median atau modus atau menggunakan rumus bayes 4. Rata-rata -> data usia, berat badan 5. Modus -> data kategori (1 atau 0) 6. Outlier : apakah akan dibuang atau tidak, harus berdasar. - Data Integrasi 1. Apabila mengambil dari banyak sumber - Data Reduction (pengurangan data) 1. Dimensi yang dipangkas -> variabelnya atau featurenya di pangkas/dikurangi/combine bisa menggunakan metode Principle Method Analysis (PCA) 2. Misal ada 10 feature mengenai pengaruh kemiskinan, dr 10 feature dialkukan PCA, lalu diperoleh 5 variabel (ada variable yang digabungkan) 3. Feaure selection : memilih variable yang penting saja (dibuat ranking dr yg paling penting sampai tidak penting) 4. Jumlah : clustering, klasifikasi, dll - Transformasi data 1. Biasanya data ditransformasi karena satuan data yang dipunyai berbeda (ditransformasi agar memiliki satuan yang sama) 2. Cara transformasi data : a) Normalisasi : menggunakan nilai min max normalisasi, nilai z score normalisasi (ada rumusnya, merubah satuan data yg dipunya) - Apabila sudah dilakukan pre-processing, dapat dibilang data sudah berkualitas dan dapat dilakukan metode selanjutnya TUGAS DATA MINING - Mau melakukan apa dari data yang kalian punya - Pre-processing data (langkah-langkah) -> missing value, syntax, interpretasi dll - Membuat statistika descriptive (table, plot, diagram) + interpretasi - Analisis software R - Susun hasil analisis di Ms. Word – PDF + syntax - Tugas individu - Kumpulin ke koor : mba hana - Pengumpulan minggu : 12.00 siang - Coba cari syntax di google missing value dan outlier menggunakan R - Data (14 variabel) : pilih data from txt or csv atau pake notepad