PEMAHAMAN DATA-WPS Office

PEMAHAMAN DATA
Untuk mulai merumuskan rencana, kami duduk bersama Gill untuk meninjau aset datanya. Setiap atlet
yang telah mendaftar di akademi Gill selama beberapa tahun terakhir telah menjalani tes baterai, yang
menguji sejumlah sifat atletik dan pribadi. Baterai telah diberikan kepada anak laki-laki dan perempuan
yang berpartisipasi dalam sejumlah olahraga yang berbeda, tetapi untuk penelitian pendahuluan ini kami
telah memutuskan dengan Gill bahwa kami akan melihat data hanya untuk anak laki-laki. Karena
akademi telah beroperasi selama beberapa waktu, Gill mendapat manfaat dari mengetahui mana dari
mantan muridnya yang telah berspesialisasi dalam satu olahraga tunggal, dan olahraga apa yang cocok
untuk mereka masing-masing. Bekerja dengan Gill, kami mengumpulkan hasil baterai untuk semua
mantan klien yang telah pergi ke spesialisasi, Gill menambahkan olahraga setiap orang mengkhususkan
diri dalam, dan kami memiliki satu set data yang terdiri dari 493 pengamatan yang berisi atribut berikut:
 Usia : Ini adalah usia dalam tahun (satu ketepatan desimal untuk bagian tahun sejak ulang tahun
terakhir klien) pada saat tes baterai sifat atletik dan kepribadian diberikan. Usia peserta berkisar
antara 13-19 tahun pada saat mereka mengambil baterai
 Kekuatan: Ini adalah kekuatan peserta yang diukur melalui serangkaian latihan angkat beban dan
dicatat pada skala 0-10, dengan 0 sebagai kekuatan terbatas dan 10 menjadi kekuatan yang
cukup untuk melakukan semua lift tanpa kesulitan. Tidak ada peserta yang mendapat skor 8, 9
atau 10, tetapi beberapa peserta mendapat skor 0
 Kecepatan: Ini adalah performa peserta pada serangkaian tes responsif. Peserta diberi batas
waktu seberapa cepat mereka dapat menekan tombol ketika mereka menyala atau melompat
ketika bel berbunyi. Waktu respons mereka ditabulasikan pada skala 0-6, dengan 6 respons
sangat cepat dan 0 sangat lambat. Peserta mencetak seluruh spektrum untuk atribut ini.
 Cedera: Ini adalah kolom ya (1) / tidak (0) sederhana yang menunjukkan apakah atlet muda
sudah mengalami cedera terkait atletik yang cukup parah sehingga memerlukan pembedahan
atau intervensi medis besar lainnya. Cedera umum atau sakit yang diobati dengan es, istirahat,
peregangan, dll dimasukkan sebagai 0. Cedera yang membutuhkan waktu lebih dari tiga minggu
untuk sembuh, yang memerlukan terapi fisik atau pembedahan ditandai sebagai 1
 Visi: Atlet tidak hanya diuji pada biasanya 20 / 20 skala penglihatan menggunakan grafik mata,
tetapi juga diuji menggunakan teknologi pelacakan mata untuk melihat seberapa baik mereka
dapat mengambil objek secara visual. Tes ini menantang peserta untuk mengidentifikasi item
yang bergerak cepat melintasi bidang penglihatan mereka, dan untuk memperkirakan kecepatan
dan arah objek bergerak. Skor mereka dicatat pada skala 0 hingga 4 dengan 4 menjadi
penglihatan sempurna dan identifikasi objek bergerak. Tidak ada peserta yang mendapat skor
sempurna 4, tetapi skornya berkisar dari 0 hingga 3.
 Daya tahan: Peserta menjadi sasaran serangkaian tes kebugaran fisik termasuk berlari, senam,
latihan aerobik dan kardiovaskular, dan renang jarak jauh. Kinerja mereka dinilai pada skala 0-
10, dengan 10 mewakili kemampuan untuk melakukan semua tugas tanpa kelelahan apa pun.
Skor berkisar dari 0 hingga 6 pada atribut ini. Gill telah mengakui kepada kita bahwa bahkan
atlet profesional yang disetel dengan halus tidak akan mampu mencetak skor 10 pada bagian
baterai ini, karena ia dirancang khusus untuk menguji batas daya tahan tubuh manusia.
 Agility: Ini adalah skor peserta pada serangkaian tes. kemampuan mereka untuk bergerak,
memutar, memutar, melompat, mengubah arah, dll. Tes ini memeriksa kemampuan atlet untuk
bergerak dengan gesit, tepat, dan kuat dalam berbagai arah. Metrik ini sifatnya komprehensif,
dan dipengaruhi oleh beberapa metrik lainnya, karena kelincahan sering ditentukan oleh
kekuatan, kecepatan, dll. Peserta diberi skor antara 0 dan 100 pada atribut ini, dan dalam
kumpulan data kami dari Gill, kami telah menemukan kinerja antara 13 dan 80.
 Pembuatan Keputusan: Bagian baterai ini menguji proses atlet untuk memutuskan apa yang
harus dilakukan dalam situasi atletik. Atlet berpartisipasi dalam simulasi yang menguji pilihan
mereka apakah mengayunkan kelelawar atau tidak, mengoper bola, pindah ke lokasi yang
berpotensi menguntungkan dari permukaan permainan, dll. Skor mereka harus dicatat pada
skala 0 hingga 100, meskipun Gill telah menunjukkan bahwa tidak ada orang yang
menyelesaikan tes seharusnya mampu mencetak skor lebih rendah dari 3, karena tiga poin
diberikan hanya karena berhasil masuk dan keluar dari bagian pengambilan keputusan baterai.
Gill tahu bahwa semua 493 mantan atletnya yang diwakili dalam kumpulan data ini berhasil
masuk dan keluar dari bagian ini, tetapi ada beberapa nilai lebih rendah dari 3, dan juga
beberapa lebih dari 100 dalam kumpulan data, jadi kami tahu kami memiliki beberapa persiapan
data di masa depan kita.
 Prime Sport : Atribut ini adalah olahraga yang diikuti masing-masing dari 453 atlet setelah
mereka meninggalkan akademi Gill. Ini adalah atribut yang diharapkan Gill untuk dapat
diprediksi untuk kliennya saat ini. Untuk anak laki-laki dalam penelitian ini, atribut ini akan
menjadi salah satu dari empat olahraga: Sepakbola (sepak bola Amerika, bukan sepak bola;
penggemar sepak bola maaf), Bola Basket, Baseball, atau Hoki
Saat kami menganalisis dan membiasakan diri dengan data ini, kami menyadari bahwa semua atribut
dengan pengecualian Prime_Sport adalah numerik, dan dengan demikian, kita bisa mengecualikan
Prime_Sport dan melakukan latihan pengelompokan data k-Means pengelompokan pada set data.
Dengan melakukan ini, kita mungkin dapat mengelompokkan individu menjadi satu kelompok olahraga
atau lainnya berdasarkan pada sarana untuk masing-masing atribut dalam kumpulan data. Namun,
memiliki atribut Prime Sport memberi kita kemampuan untuk menggunakan berbagai jenis model
penambangan data: Analisis Diskriminan, Tetangga k-Terdekat, dan Naïve Bayes. Kami akan mulai
dengan Analisis Diskriminan dan kemudian memperkenalkan dua lainnya. Ketiga metode ini sangat mirip
dengan k-Means dustering, karena mereka mengelompokkan pengamatan bersama menjadi tipe-tipe
nilai yang serupa, tetapi mereka juga memberi kita sesuatu yang lebih, dan itu adalah kemampuan untuk
memprediksi. Metode-metode ini membantu kita melintasi persimpangan yang terlihat pada diagram
Venn di Bab (Gambar 1-2). Mereka adalah metodologi penambangan data untuk mengklasifikasikan
pengamatan, tetapi mereka mengklasifikasikannya dalam prediksi Mei. Ketika kita memiliki kumpulan
data yang berisi atribut yang kita tahu berguna dalam memprediksi nilai yang sama untuk pengamatan
lain yang belum memiliki atribut itu, maka kita dapat menggunakan data pelatihan dan mencetak data
untuk menambang secara prediktif. Data pelatihan hanyalah kumpulan data yang memiliki atribut
prediksi yang diketahui. Untuk pengamatan dalam set data pelatihan, hasil dari atribut prediksi sudah
diketahui. Atribut prediksi juga kadang-kadang disebut sebagai atribut dependen (atau variabel) atau
atribut target. Ini adalah hal yang Anda coba prediksi. RapidMiner akan meminta kami untuk
menetapkan atribut ini menjadi label saat kami membangun model kami. Data penilaian adalah
observasi yang memiliki semua atribut ame sebagai kumpulan data pelatihan, dengan pengecualian dari
atribut prediksi. Kita dapat menggunakan set data pelatihan untuk memungkinkan RapidMiner untuk
mengevaluasi nilai-nilai untuk semua atribut kita dalam konteks variabel prediksi yang dihasilkan (dalam
hal ini, Prime Sport), dan kemudian membandingkan nilai-nilai itu dengan set data skor dan memprediksi
Prime Olahraga untuk setiap pengamatan dalam set data penilaian. Itu mungkin tampak sedikit
membingungkan, tetapi contoh bab kami harus membantu memperjelasnya, jadi mari kita beralih ke
langkah CRISP-DM berikutnya.
PERSIAPAN DATA
Contoh bab ini akan sedikit berbeda dari bab-bab lain. Alih-alih ada satu contoh data ditetapkan dalam
format CSV untuk Anda unduh, ada dua kali ini. Anda dapat mengakses set data Bab 7 di situs web
pengiring buku (https://sites.google.com/site/dataminingforthemasses/se)
Mereka diberi label Chapter07DataSet Scoring.csv dan Chapter07DataSet Training.csv. Silakan dan
unduh itu sekarang, dan jika Anda mau, impor keduanya ke dalam repositori RapidMiner Anda. Pastikan
untuk menunjuk nama atribut di baris pertama kumpulan data saat Anda mengimpornya. Pastikan Anda
memberikan masing-masing dari dua set data nama deskriptif, sehingga Anda dapat memberi tahu
mereka untuk Bab 7, dan juga agar Anda dapat mengetahui perbedaan antara set data pelatihan dan set
data penilaian Seperti pada bab-bab sebelumnya, kami akan gunakan operator Baca CSV alih-alih
mengimpor, dan akan mulai dengan hanya membaca data pelatihan Bab 7 yang ditetapkan di jendela
Proses Utama kami.
1) Sejauh ini, ketika kami telah menambahkan data ke proses baru, kami telah mengizinkan
operator untuk hanya diberi label 'Baca CSV, atau Ambil' untuk set data yang diimpor. Pelabelan
kotak Operator ini di jendela proses dilakukan oleh RapidMiner secara otomatis. Untuk pertama
kalinya dalam teks ini, kami akan memiliki lebih dari satu operator Baca atau Ambil dalam model
kami karena kami memiliki satu set data pelatihan dan satu set data scoring. Agar mudah
membedakan keduanya, mari kita mulai dengan mengganti nama operator Read 'atau' Retrieve
'untuk kumpulan data pelatihan yang ada di jendela Proses Utama Anda. Klik kanan pada
operator dan pilih Ubah nama. Anda kemudian dapat mengetik nama baru untuk operator ini.
Untuk contoh ini, kita akan menamai Pelatihan operator ', seperti yang digambarkan pada
Gambar 7-1
2) Kami tahu dari tahap Persiapan Data kami bahwa kami memiliki beberapa data yang perlu
diperbaiki sebelum kami dapat menambang kumpulan data ini. Secara khusus, Gill melihat
beberapa inkonsistensi dalam atribut Decision_Making. Jalankan model Anda dan mari kita
periksa Statistik, seperti yang terlihat pada Gambar 7-2
Gambar 7-2. Mengidentifikasi data yang tidak konsisten dalam atribut Decision_Making
3) Sementara masih dalam perspektif Hasil, beralih ke tab Data. Klik judul kolom untuk atribut
Decision_Making. Ini akan mengurutkan atribut dari terkecil ke terbesar (perhatikan segitiga
kecil yang muncul yang menunjukkan bahwa data diurutkan dalam urutan naik menggunakan
atribut ini). Dalam pandangan ini (Gambar 7-3) kita melihat bahwa kita memiliki tiga
pengamatan dengan skor lebih kecil dari tiga. Kita perlu menangani pengamatan ini
Gambar 7-3. Kumpulan data diurutkan dalam urutan menaik dengan atribut Decision_Making.
4) Klik pada atribut Decision_Making lagi. Ini akan mengurutkan ulang atribut dalam urutan
menurun. Sekali lagi, kami memiliki beberapa nilai yang perlu ditangani (Gambar 7-4)
Gambar 7-4. Variable Decision_Making, disortir ulang dalam urutan menurun.
5) Beralih kembali ke perspektif Desain. Mari kita bahas pengamatan yang tidak konsisten ini
dengan menghapusnya dari kumpulan data pelatihan kami. Kita dapat mengatur nilai-nilai yang
tidak konsisten ini menjadi hilang, kemudian menetapkan nilai-nilai yang hilang ke nilai lain,
seperti rata-rata, tetapi dalam contoh ini kita tidak benar-benar tahu apa yang seharusnya ada
dalam variabel ini, jadi mengubah ini dengan rata-rata tampak agak acak , dan bahkan mungkin
salah representatif. Menghapus ketidakkonsistenan ini berarti hanya menghapus 11 dari 493
pengamatan kami, jadi daripada berisiko membuat dan menggunakan data yang buruk, kami
hanya akan menghapusnya. Untuk melakukan ini, tambahkan operator Contoh Filter ke aliran
Anda. Gunakan tombol Tambahkan Filter di panel Parameter (ingat kami menggunakan ini
dalam memenuhi kriteria Bab 6 berikut untuk mengatur rentang atribut ini ke Decision_Making
2 3 dan Decision_Making 100 untuk yang kedua. Anda harus menggunakan tombol Tambahkan
Entri di jendela Buat Filter untuk menetapkan lebih dari satu kriteria filter add Entri. Ketika
diterapkan, ini akan mengurangi data pelatihan kami yang diatur ke 482 pengamatan.
Pengaturan yang dijelaskan dalam langkah ini ditunjukkan pada Gambar 7-5. Setelah dua aturan
filter Anda dikonfigurasi, klik OK untuk menutup kotak dialog Buat Filter.
Gambar 7-5. Memfilter pengamatan dengan data yang tidak konsisten
6) Jika Anda mau, Anda dapat menjalankan model untuk mengonfirmasi bahwa jumlah
pengamatan Anda (contoh) telah dikurangi menjadi 482. Kemudian, dalam perspektif Desain,
gunakan bidang pencarian di tab Operator untuk melihat untuk Diskriminan 'dan cari operator
untuk Analisis Linear Diskriminan. Tambahkan operator ini ke aliran Anda, seperti yang
ditunjukkan pada Gambar 7-6.
7) Port tra pada operator LDA (atau Linear Discriminant Analysis) menunjukkan bahwa alat ini
berharap untuk menerima input dari set data pelatihan seperti yang kami sediakan, tetapi
meskipun demikian, kami masih menerima dua kesalahan, seperti ditunjukkan oleh panah hitam
yang menunjuk ke jendela pop up pada gambar 7-6. Jika Anda melihat port merah atau
setengah merah pada operator di RapidMiner, ini menunjukkan kesalahan atau peringatan yang
perlu diselidiki. Anda dapat menyebabkan jendela pop up yang jelas muncul dengan
mengarahkan mouse Anda ke port. Kesalahan pertama adalah karena atribut Prime Sport kami.
Ini adalah data yang diketikkan sebagai polinominal, dan LDA menyukai atribut yang numerik. Ini
OK, karena atribut target (variabel dependen) dapat memiliki tipe data polinominal, dan atribut
Prime_Sport adalah yang ingin kami prediksi, sehingga kesalahan ini akan segera teratasi. Kami
akan menyelesaikan kedua kesalahan karena yang pertama terkait dengan kesalahan kedua,
yang memberi tahu kami bahwa operator LDA ingin salah satu atribut kami ditetapkan sebagai
label '. Dalam RapidMiner label adalah atribut yang ingin Anda prediksi; dengan kata lain,
variabel dependen atau target. Pada saat kami membaca kumpulan data kami dan bekerja
melalui wizard impor, kami dapat menetapkan atribut Prime_Sport untuk memiliki peran 'abel',
daripada peran atribut tepat di pengaturan Anda sebagai atribut normal, tetapi sangat
sederhana untuk mengubah aliran. Menggunakan bidang Pencarian di tab Operator, cari
operator bernama Set Role Tambahkan ini ke aliran Anda di antara operator Contoh Filter dan
operator LDA Kemudian di area parameter di sisi kanan jendela, pilih Prime_Sport di nama
atribut bidang, dan dalam daftar turun bawah peran target, pilih label. Ingat bahwa jika daftar
atribut Anda tidak muncul di menu tarik turun parameter 'nama atribut', Anda dapat mengklik
ikon rantai Tinta di bilah alat di sebelah kiri panel Parameter untuk mereset data meta untuk
kumpulan data Anda.
Gambar 7-7. Menetapkan peran atribut dalam RapidMiner
Dengan data tidak konsisten kami dihapus, kesalahan kami diselesaikan, dan atribut target kami ditunjuk,
kami sekarang siap untuk beralih ke ..
MODELING
8) Kami sekarang memiliki aliran fungsional, Silakan dan jalankan model seperti itu sekarang.
Dengan port mod terhubung ke port res, Rapid Miner akan menghasilkan output Analisis
Diskriminan untuk kita.
Gambar 7-8. Hasil analisis diskriminan pada set data pelatihan kami
9) Probabilitas yang diberikan dalam hasil akan berjumlah 1. Ini karena pada tahap model Analisis
Diskriminan kami, semua yang telah dihitung adalah kemungkinan pendaratan pengamatan di
salah satu empat kategori dalam atribut target kami dari Prime Sport. Karena ini adalah
kumpulan data pelatihan kami, RapidMiner dapat menghitung probabilitas tesis ini dengan
mudah — setiap observasi sudah diklasifikasi. Sepak bola memiliki probabilitas 0,3237, Jika
Anda merujuk kembali ke Gambar 7-2, Anda akan melihat bahwa Sepakbola sebagai PrimeSport
terdiri dari 160 dari 493 pengamatan kami. Dengan demikian, probabilitas pengamatan memiliki
Football adalah 160/493, atau 0,3245. Tetapi dalam langkah 3 dan 4 (Gambar 7-3 dan 7-4), kami
menghapus 11 pengamatan yang memiliki data tidak konsisten dalam atribut Pengambilan
Keputusan mereka. Empat di antaranya adalah pengamatan Sepak Bola (Gambar 7-4), sehingga
jumlah Sepakbola kami turun menjadi 156 dan jumlah total kami 0,3237. Karena kami tidak
memiliki pengamatan di mana nilai untuk turun menjadi 482: 156/482 Prime Sport hilang, cach
nilai yang mungkin di Prime Sport akan memiliki beberapa bagian dari jumlah total, dan jumlah
bagian ini akan sama dengan 1, seperti halnya pada Gambar 7-8. Probabilitas ini, ditambah
dengan nilai-nilai untuk setiap atribut, akan digunakan untuk memprediksi klasifikasi Prime Sport
untuk setiap klien Gill saat ini yang diwakili dalam kumpulan data skor kami. Kembali sekarang
ke perspektif Desain dan seret Bab 7 mencetak data yang ditetapkan dan letakkan di jendela
proses utama (jika Anda mengimpornya ke dalam Gudang Anda), atau sambungkan ke sana
menggunakan operator Read CSV. Jangan menyambungkan kumpulan data ini ke aliran Anda
yang ada, tetapi sebaliknya, biarkan terhubung langsung ke port res. Klik kanan operator dan
ganti namanya menjadi Scoring. Langkah-langkah ini diilustrasikan pada Gambar7-9
10) Perhatikan bahwa atribut dalam set data Penilaian dinamai sama persis, dan berada dalam
urutan yang sama dengan atribut dalam set data pelatihan. Satu-satunya pengecualian adalah
bahwa set data Penilaian tidak memiliki Prime_Sport, yang merupakan label yang akan kami
prediksi menggunakan model yang dibuat dari data pelatihan kami. Jalankan model lagi.
RapidMiner akan memberi Anda tab tambahan dalam Penambangan Data untuk Perspektif,
Perspektif Hasil Edisi Kedua kali ini. Jika Anda melihat Statistik untuk tab ini, Anda akan melihat
meta data untuk set data penilaian (Gambar 7-10)
Gambar 7-10. Perspektif hasil Statistik untuk set data skor kami ..
11) Set data skoring berisi 1.841 catatan, seperti yang ditunjukkan oleh panah hitam di kolom Max
pada Gambar 7-10, atribut Pengambilan Keputusan memiliki beberapa data yang tidak konsisten
lagi. Mengulangi proses yang sebelumnya diuraikan dalam langkah 3 dan 4, kembali ke
perspektif Desain dan menggunakan operator Contoh Filter untuk menghapus pengamatan dari
set data Penilaian yang memiliki nilai di bawah 3 atau di atas 100 dalam atribut Pengambilan
Keputusan (Gambar 7-11). Ini akan memberi kita 1.767 pengamatan, dan Anda dapat
memeriksanya dengan menjalankan model itu lagi (Gambar 7-12)
Gambar 7-11. Memfilter pengamatan yang mengandung nilai-nilai Pengambilan Keputusan yang
tidak konsisten.
12) Kami sekarang hanya memiliki satu langkah tersisa untuk menyelesaikan model kami dan
memprediksi Primeport untuk 1.767 anak laki-laki yang diwakili dalam kumpulan data Penilaian
kami. Kembali ke perspektif Desain, dan gunakan bidang pencarian di tab Operator untuk
menemukan operator yang disebut Terapkan Model. Seret operator ini dan letakkan di aliran
Kumpulan data skor, seperti yang ditunjukkan pada Gambar 7-13
Gambar 7-13. Menambahkan operator Terapkan Model ke model Analisis Diskriminan kami.
13) Seperti yang dapat Anda lihat pada Gambar 7-13, operator Model Terapkan telah memberi kami
kesalahan (kami melayang di atas port setengah merah di sisi kiri operator Model Terapkan untuk
memeriksa kesalahan). Kesalahan terjadi karena operator Terapkan Model mengharapkan
output dari suatu model operator pembangkit sebagai inputnya. Ini adalah perbaikan yang
mudah; operator LDA kami (yang menghasilkan model bagi kami) memiliki port mod untuk
hasilnya. Kita hanya perlu memutuskan port mod LDA dari port ns yang saat ini terhubung, dan
menghubungkannya sebagai gantinya ke port input mod operator Model Terapkan. Untuk
melakukan ini, klik pada port mod di sisi kanan operator LDA, dan kemudian klik pada port mod
di sisi kiri operator Model Terapkan. Ketika Anda melakukan ini, peringatan yang mirip dengan
Gambar 7-14 dapat muncul, tergantung pada versi dan pengaturan RapidMiner Anda
Gambar 7-14. Peringatan koneksi ulang port di RapidMiner.
14) Jika Anda menerima peringatan, klik OK untuk menunjukkan kepada RapidMiner bahwa Anda
memang ingin mengkonfigurasi ulang spline untuk menghubungkan port mod ke port mod.
Pesan kesalahan akan hilang. Jika Anda tidak mendapatkan peringatan, spline Anda akan
memutuskan mod secara otomatis dari res, dan mengatur ulang model Anda untuk menjalankan
aliran Pelatihan melalui operator Terapkan Model. Model Penilaian Anda siap untuk prediksi
(Gambar 7-15)
15) Jalankan model dengan mengklik tombol play. RapidMiner akan menghasilkan lima atribut baru
dan menambahkannya ke perspektif Hasil kami (Gambar 7-16), mempersiapkan kami untuk

PEMAHAMAN DATA-WPS Office

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

PEMAHAMAN DATA-WPS Office

Diunggah oleh

Hak Cipta:

Format Tersedia

PEMAHAMAN DATA

Gambar 7-4. Variable Decision_Making, disortir ulang dalam urutan menurun.

Gambar 7-5. Memfilter pengamatan dengan data yang tidak konsisten

Gambar 7-7. Menetapkan peran atribut dalam RapidMiner

Gambar 7-14. Peringatan koneksi ulang port di RapidMiner.

Anda mungkin juga menyukai