Anda di halaman 1dari 14

Ujian Tengah Semester Data Mining

(Take Home)
Review Data Mining for the Masses
Matthew North

Disusun oleh :
Stefanus Eko J. R (G. 231. 16. 0001)

FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI


UNIVERSITAS SEMARANG
Konten dan Prespektif
Juan adalah seorang analis kinerja statistic untuk sebuah tim profesional athletic yang terkenal. Timnya
mengalami peningkatan yang stabil diakhir musim-musim ini, dan menuju kemusim selanjutnya pihak
manajemen percaya jika menambah sekitar 2 atau 4 pemain yang bagus, ti mini akan memiliki
kesempatan yang luar biasa bagus untuk meraih liga kejuaraan. Mereka telah menugaskan Juan untuk
mengidentifikasi kesempatan terbaik mereka dari 59 daftar pemain berpengalaman yang tersedia bagi
mereka. Semua pemain tersebut memiliki pengalaman, beberapa pemain sudah pernah bermain secara
profesional sebelumnya, dan beberapa pemain memiliki bertahun-tahun pengalaman bermain sebagai
amatir. Tidak ada yang dikesampingkan tanpa dinilai kemampuan potensi mereka untuk menambah
bintang dan produktivitas tim yang sudah ada. Para eksekutif pimpinan Juan sangat ingin untuk segera
menghubungi prospek yang paling menjanjikan, jadi Juan butuh untuk secepatnya mengevaluasi kinerja
masa lalu para atlit dan membuat rekomendasi berdasarkan hasil analisanya.

Tujuan Pembelajaran
Setelah menyelesaikan pembacaan dan latihan dalam bab ini, anda harus dapat untuk :
 Menjelaskan apakah neural network itu, bagaimana neural network digunakan, dan keuntungan
penggunaan neural network.
 Mengenali format yang diperlukan untuk data agar dapat melakukan neural network data
mining.
 Mengembangkan model data mining neural network di RapidMiner menggunakan sebuah data
set latihan.
 Menafsirkan keluaran model dan menerapkannya ke kumpulan data pemberian skor untuk
menerapkan model.

Pemahaman
Juan menghadapi ekspetasi yang tinggi dan memiliki tenggat waktu yang harus ditemui. Dia adalah
seorang profesional, dia mengetahui bisnisnya dan mengetahui seberapa pentingnya hal-hal yang tidak
dapat dipahami dalam menilai kemampuan atletik. Dia juga tau bahwa hal-hal yang tidak dapat dipahami
tersebut seringkali diwujudkan oleh performa masa lalu para atlit. Dia ingin menambang data set dari
semua pemain di liga saat ini untuk membantu menemukan prospek yang dapat membawa kegembiraan,
penilaian dan pertahanan ke tim untuk mencapai liga kejuaraan. Sementara pertimbangan gaji selalu
menjadi perhatian, manajemen telah menunjukkan kepada Juan bahwa keinginan mereka adalah untuk
mendorong kejuaraan di musim yang akan datang, dan mereka bersedia untuk melakukan semua yang
mereka dapat secara finansial untuk mendatangkan dua hingga empat atlet terbaik yang Juan dapat
identifikasi. Dengan tujuan para manajer memperjelasnya, Juan siap untuk mengevaluasi masing-masing
dari 59 kinerja statistik masa lalu prospek untuk membantunya merumuskan rekomendasi apa yang akan
dibuatnya.

Data Understanding
Juan tahu bisnis analisis statistik atletik. Dia telah melihat bagaimana kinerja dalam satu bidang, seperti
scoring, sering saling berhubungan dengan area lain seperti pertahanan atau pelanggaran. Atlet terbaik
umumnya memiliki hubungan yang kuat antara dua atau lebih area performa, sementara atlet yang lebih
khas mungkin memiliki kekuatan di satu area tetapi kelemahan pada yang lain. Misalnya, pemain peran
yang baik sering menjadi pemain bertahan yang baik, tetapi tidak dapat berkontribusi banyak dalam
mencetak gol untuk tim. Dengan menggunakan data liga dan pengetahuan serta pengalamannya dengan
para pemain di liga, Juan menyiapkan satu data set pelatihan yang terdiri dari 263 observasi dan 19 atribut.
Ke 59 calon atlet tim Juan dapat memperoleh dari kumpulan data penilaian, dan ia memiliki atribut yang
sama untuk masing-masing orang tersebut. Kaita akan membantu Juan membangun sebuah neural
network, yang merupakan metodologi data mining yang dapat memprediksi kategori atau klasifikasi
dengan cara yang sama seperti yang dilakukan pohon keputusan, tetapi jaringan saraf lebih baik dalam
menemukan kekuatan koneksi antar atribut, dan itu adalah koneksi tersebut yang Juan tertarik.
Atribut-atribut neural network yang akan dievaluasi antara lain :
Player_Name : Ini adalah nama dari para pemain. Didalam langkah data preparation, attribute ini akan
diganti “role”-nya menjadi “id” dikarenakan attribut Player_Name (Nama Pemain) tidak akan dimasukan
kedalam kalkulasi prediksi neural network. Tetapi attribute ini penting untuk tetap berada didalam data
ser agar nantinya Juan dapat membuat daftar rekomendasi tanpa perlu mencocokan data dengan nama
para pemain.
A. Position_ID : Olahraga yang akan dimainkan oleh tim milik Juan memiliki 12 posisi. Dan posisi
– posisi ini direpresentasikan oleh bilangan (integer) dari 0 sampai dengan 11 didalam data set.
B. Shots : Ini adalah total “tembakan” ataupun kesempatan mencetak score/angka setiap
pemain pada akhir-akhir musim ini.
C. Makes : Ini adalah jumlah kali atlet mencetak gol selama musim belakangan ini.
D. Personal_Points : Ini adalah jumlah poin yang diperoleh atlet secara pribadi selama musim
belakangan ini.
E. Total_Points : Ini adalah jumlah total poin yang dikontribusikan atlet untuk mencetak gol di
musim belakangan ini. Dalam pertandingan olahraga yang dimainkan oleh tim Juan, statistik ini
dicatat untuk setiap poin dan seorang atlet berkontribusi untuk mencetak gol. Dengan kata lain,
setiap kali seorang atlet mencetak poin pribadi, total poin mereka meningkat satu, dan setiap kali
seorang atlet berkontribusi pada skor tim, total poin mereka juga bertambah satu.
F. Assists : Ini adalah statistik defensif yang menunjukkan berapa kali atlet membantu
timnya mendapatkan bola dari tim lawan selama musim belakangan ini.
G. Concessions : Ini adalah berapa kali atlit bermain secara langsung menyebabkan tim lawan
untuk mengakui keunggulan ofensif selama musim belakangan ini.
H. Blocks : Ini adalah berapa kali atlet secara langsung dan independen memblokir
tembakan tim lawan selama musim terbaru
I. Block_Assists : Ini adalah berapa kali seorang atlet berkolaborasi dengan rekan satu tim untuk
memblokir tembakan tim lawan selama musim belakangan ini. Jika dicatat sebagai block assist
(Bantuan block), dua atau lebih pemain pasti telah dilibatkan. Jika hanya satu pemain yang
memblokir tembakan, itu dicatat sebagai blok. Karena permukaan bermainnya besar dan para
pemain tersebar, maka lebih mungkin bagi seorang atlet melakukan blok daripada dua atau lebih
untuk block assist.
J. Fouls : Ini adalah berapa kali, di musim paling baru, bahwa atlit melakukan pelanggaran.
Karena mengotori tim lain memberi mereka keuntungan, semakin rendah angka ini, semakin baik
kinerja atlet untuk timnya sendiri.
K. Years_Pro : Dalam set data pelatihan, ini adalah jumlah tahun yang dimainkan atlet di level
profesional. Dalam scoring data set, ini adalah jumlah pengalaman tahun yang dimiliki atlet,
termasuk tahun sebagai pemain profesional jika ada, dan tahun di liga amatir yang terorganisir
dan kompetitif.
L. Career_Shots : Ini sama dengan atribut Shots, kecuali sifatnya kumulatif untuk seluruh karier
atlet. Semua atribut karier adalah upaya untuk menilai kemampuan seseorang untuk bekerja
secara konsisten dari waktu ke waktu.
M. Career_Makes : Ini sama dengan atribut Makes, kecuali sifatnya kumulatif untuk seluruh karier
atlet.
N. Career_PP : Ini sama dengan atribut Personal Points, kecuali sifatnya kumulatif untuk
seluruh karier atlet.
O. Career_TP : Ini sama dengan atribut Total Points, kecuali sifatnya kumulatif untuk seluruh
karier atlet.
P. Career_Assists : Ini sama dengan atribut Assists, kecuali sifatnya kumulatif untuk seluruh karier
atlet.
Q. Career_Con : Ini sama dengan atribut Consession, kecuali sifatnya kumulatif untuk seluruh
karier atlet
R. Team_Value : Ini adalah atribut kategoris yang merangkum nilai atlet ke timnya. Ini hanya ada
dalam data pelatihan, karena akan berfungsi sebagai label untuk memprediksi Team_Value untuk
setiap observasi dalam kumpulan data penilaian. Terdapat 4 kategori :
a) Role Player : Ini adalah atlet yang cukup bagus untuk bermain di level profesional, dan
mungkin benar-benar bagus dalam satu area, tetapi tidak bagus secara keseluruhan.
b) Contributor : Ini adalah atlet yang berkontribusi di beberapa kategori pertahanan dan
penyerangan, serta dapat diandalkan untuk secara teratur membantu tim menang.
c) Franchise Player : Ini adalah atlet yang keterampilannya sangat luas, kuat, dan konsisten
sehingga tim akan ingin mempertahankannya untuk waktu yang lama. Para pemain ini
memiliki level bakat yang sangat tinggi sehingga mereka dapat membentuk dasar dari tim
yang sangat baik dan kompetitif.
d) Superstar : Ini adalah individu langka yang bakatnya sangat unggul sehingga mereka
membuat perbedaan di setiap pertandingan. Sebagian besar tim di liga akan memiliki satu
pemain seperti itu, tetapi tim dengan dua atau tiga selalu bersaing untuk gelar liga.

Data Preparation
1. Hal pertama yang dilakukan adalah menyapkan data set yang akan diimport kedalam rapid miner.
Disini ada 2 data set yang akan digunakan, “data set Scoring” dan “data set Training”.
2. Pilih data set yang akan di import

3. Dalam data set Scoring, ganti role attribute Player_ID menjadi “id”, agar attribute tersebut tidak
masuk kedalam kalkulasi perhitungan algoritma neural network.
4. Lakukan hal yang sama untuk Training data set, tetapi dalam Training data set ini ada 2 attribut
yang role-nya perlu untuk diganti. Yang pertama adalah Player_ID -> id, agar attribute Player_ID
tidak masuk dalam kalkulasi perhitungan algoritma Neural Network. Yang kedua adalah
Team_Value -> label.

Modelling
5. Buat model seperti gambar dibawah ini :
 Masukkan ke 2 data set kedalam process.
 Tambahkan 3 Set Role yang akan digunakan. Set Role 1 dan 2 digunakan pada data set
training (Player_ID -> id dan Team_Value -> label). Set Role 3 digunakan pada data set
Scoring (Player_ID -> id).
 Tambahkan operator Neural Net
 Tambahkan dan gunakan Apply Model untuk menghubungkan Neural Network dengan
Scoring data set.
 Pastikan lab dan mod pada Apply Model terhubung kepada res.
6. Setelah selesai, model bisa untuk di jalankan / run.

Evaluation
Neural Network menggunakan sesuatu yang disebut “hidden layer” untuk membandingkan semua
attribute dalam data set dengan semua attribute yang lain. Lingkaran-lingkaran yang terdapat didalam
grafik neural network disebut dengan “nodes” dan garis yang menghubungkan nodes disebut dengan
“neuron”. Semakin tebal garis neuron antara 2 nodes, maka semakin kuat pula persamaan diantara nodes
tersebut. Berikut adalah gambar dari grafik neural network dari data set yang telah kita modelling :

Setiap nodes pada sebelah kiri merupakan predictor attribute (Possition_ID, Shots, dan lainnya).
Sedangkan nodes yang berada ditengah merupakan hidden layer yang berguna melakukan perbandingan
antara semua attribute. Yang terakhir, nodes pada sebelah kanan merupakan 4 nilai yang mungkin
didalam label attribute : Role_Player, Contributor, Franchise Player, dan Superstar.
Lalu seperti yang terlihat pada gambar diatas, hasil dari Apply Model pada bagian Statistik, Rapid Miner
terlah membuat 4 attribut baru yang akan digunakan Juan dalam menentukan siapa yang akan
direkomendasikannya.

Selanjutnya, ke-59 prospek telah dikategorikan, maka sekarang Juan dapat mulai pekerjaannya.

Deployment
Juan ingin dengan cepat dan mudah menilai 59 prospek ini berdasarkan kinerja masa lalu mereka. Dia
dapat menyebarkan modelnya dengan menanggapi manajemen dengan beberapa output yang berbeda
dari neural network kita. Pertama, dia dapat mengklik dua kali pada judul kolom prediksi (Team_Value)
untuk membawa semua Superstars ke atas.

Terdapat 7 atlet yang memiliki potesi untuk menjadi pemain superstar. Dan dari daftar diatas, ada 2
pemain yang terlihat menonjol Ian Tucker dan Robert Holloway meskipun juga memiliki sedikit
kemungkinan untuk menjadi Franchise player ataupun menjadi Contributor. Tetapi Juan juga harus
mencari pemain berpotensi lainnya untuk menjadi alternative, karena ada kemungkinan jika tim lain telah
mengincar pemain berpotensi superstar tersebut. Klik 2 kali pada confident (Franchise Player) :

Muncul 11 pemain yang diprediksi berpotensi menjadi Franchise Player. Juan harus terus menggunakan
keahlian, pengalaman, dalam evaluasinya terhadap faktor-faktor lain yang tidak terwakili dalam set data,
untuk membuat rekomendasi akhirnya. Sebagai contoh, sementara semua 59 prospek memiliki beberapa
tahun pengalaman, bagaimana jika statistik kinerja mereka semua telah dikumpulkan terhadap
persaingan yang lebih rendah? Ini mungkin tidak mewakili kemampuan mereka untuk tampil di tingkat
profesional. Sementara model dan prediksi telah memberi Juan banyak hal untuk dipikirkan, dia masih
harus menggunakan pengalamannya untuk membuat rekomendasi yang bagus untuk manajemen.
Kesimpulan
Neural Network (jaringan saraf) adalah sebuah metode yang meniru otak manusia dengan menggunakan
“neurons” untuk membandingkan attribute ke attribute yang lainnya dan mencari hubungan yang kuat.
Model data mining ini dapat menawarkan prediksi dan persentase keyakinan, bahkan di tengah
ketidakpastian dalam beberapa data. Neural Network tidak terbatas mengenai rentang nilai seperti
beberapa metodologi lainnya. Dalam representasi grafik neural network, neural net digambarkan dengan
nodes dan neutron. Semakin tebal garis neutron, semakin kuat hubungan yang direpresentasikan oleh
neutron tersebut.

Pertanyaan Ulasan
1. Di mana neural network mendapatkan nama mereka? Apa karakteristik model yang
membuatnya 'neural'?
Jawab : Neural Network mendapatkan namanya dikarenakan metode ini seperti jaringan saraf
(neural network) didalam otak, karena memang pada dasarnya metode ini mencoba meniru
fungsi otak manusia. Nodes yang dihubungkan dengan neurons adalah karakteristik model yang
membuatnya mirip seperti ‘neural’.
2. Cari pengamatan lain dalam contoh bab ini yang menarik tetapi tidak jelas, mirip dengan
pengamatan Lance Goodwin. Mengapa pengamatan yang Anda temukan menarik? Mengapa itu
kurang jelas dari beberapa orang?
3. Bagaimana seharusnya persentase kepercayaan digunakan bersama dengan prediksi neural
network ?
Jawab : Persentase keyakinan dapat lebih lanjut menginformasikan nilai prediksi observasi.
4. Mengapa mungkin seorang data miner lebih memilih jaringan saraf di atas pohon keputusan ?
Jawab : Karena neural Network lebih baik dalam menemukan kekuatan koneksi antar attribute.
5. Jika Anda ingin melihat detail node dalam grafik RapidMiner, apa yang dapat Anda lakukan?
Jawab : Klik pada lingkaran nodes untuk memunculkan detail nodes tersebut.

Latihan
1. Akses situs web pendamping untuk teks ini. Cari dan unduh set data pelatihan berlabel
Bab11Exercise_TrainingData.csv.
2. Impor set data pelatihan ke dalam reparasi RapidMiner Anda dan beri nama secara deskriptif.
Seret dan jatuhkan kumpulan data ke dalam proses utama baru yang kosong.
3. Setel atribut Credit_Risk sebagai label Anda. Ingat bahwa Applicant_ID tidak prediktif.
4. Tambahkan operator Neural Net ke model Anda.
5. Buat kumpulan data skor Anda sendiri menggunakan atribut dalam kumpulan data pelatihan
sebagai panduan. Masukkan setidaknya 20 pengamatan. Anda dapat memasukkan data untuk
orang yang Anda kenal (Anda mungkin harus memperkirakan beberapa nilai atribut mereka,
misalnya nilai kredit mereka), atau Anda dapat menguji nilai yang berbeda untuk masing-masing
atribut. Misalnya, Anda dapat memilih untuk memasukkan empat pengamatan berurutan dengan
nilai yang sama di semua atribut kecuali untuk skor kredit, di mana Anda dapat menaikkan nilai
kredit setiap observasi sebesar 100 dari 400 hingga 800.

Data set Bab11Exercise_TrainingData.csv :


Data set Exercise_Scoring :

Anda mungkin juga menyukai