02 Pendahuluan Machine Learning
02 Pendahuluan Machine Learning
Pendahuluan*
* Beberapa bagian dari slide ini adalah terjemahan dari slide Data Mining oleh I. H. Witten, E. Frank dan M. A. Hall
Data vs Informasi
2
Data vs Informasi
Machine Learning
Latar Belakang
… … … … …
If-then rules:
If tear production rate = reduced
then recommendation = none
Otherwise, if age = young and astigmatic = no
then recommendation = soft
5
Machine Learning
Deskripsi Struktural: Penentuan Jenis Contact Lens
Age Spectacle prescription Astigmatism Tear production rate Recommended
lenses
Young Myope No Reduced None
Young Myope No Normal Soft
Young Myope Yes Reduced None
Young Myope Yes Normal Hard
Young Hypermetrope No Reduced None
Young Hypermetrope No Normal Soft
Young Hypermetrope Yes Reduced None
Young Hypermetrope Yes Normal hard
Pre-presbyopic Myope No Reduced None
Pre-presbyopic Myope No Normal Soft
Pre-presbyopic Myope Yes Reduced None
Pre-presbyopic Myope Yes Normal Hard
Pre-presbyopic Hypermetrope No Reduced None
Pre-presbyopic Hypermetrope No Normal Soft
Pre-presbyopic Hypermetrope Yes Reduced None
Pre-presbyopic Hypermetrope Yes Normal None
Presbyopic Myope No Reduced None
Presbyopic Myope No Normal None
Presbyopic Myope Yes Reduced None
Presbyopic Myope Yes Normal Hard
Presbyopic Hypermetrope No Reduced None
Presbyopic Hypermetrope No Normal Soft
6
Presbyopic Hypermetrope Yes Reduced None
Presbyopic Hypermetrope Yes Normal None
Machine Learning
Deskripsi Struktural: Penentuan Jenis Contact Lens
Machine Learning
Deskripsi Struktural: Penentuan Jenis Contact Lens
Decision Tree:
8
Machine Learning
Deskripsi Struktural: Prediksi Kinerja CPU
Machine Learning
Deskripsi Struktural: Representasi
10
Machine Learning
Definisi
11
Machine Learning
Tahapan Umum Proses
x1
x2
f(x,w) t
:
xD
Diberikan data pelatihan (training data), misal xi dan/atau ti, i = 1 sd N
• Preprocessing: pemilihan/ekstraksi fitur dari data, misal xi = (x1, x2, .., xD)T
• Learning: penentuan parameter metode, misal w, berdasarkan data
pelatihan
• Testing: pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metode
12
Machine Learning
Preprocessing: Pemilihan Fitur
Machine Learning
Preprocessing: Pemilihan Fitur
[]
1
2
3
.
.
.
.
14
Machine Learning
Preprocessing: Ekstraksi Fitur
15
Machine Learning
Preprocessing: Verifikasi Data
16
Machine Learning
Preprocessing: Verifikasi Data
17
Machine Learning
Preprocessing: Verifikasi Data
18
Machine Learning
Learning: Jenis-Jenis Learning
Machine Learning
Supervised Learning
• Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output dengan
akurat untuk data baru
– Contoh: Prediksi kinerja CPU
• Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
20
Machine Learning
Supervised Learning
21
Machine Learning
Unsupervised Learning
22
Machine Learning
Testing: Generalization Capability
Aplikasi
Computer Vision
24
Aplikasi
Speech Recognation
25
Aplikasi
Web: Learning to Rank, Recommender System
26
Aplikasi
Environment, Finance, Diseases, Agriculture
27
Topik
• Semisupervised Learning
• Reinformance Learning
28
Perangkat Lunak
• WEKA
– Dikembang dengan Java
– Dapat digunakan melalui GUI maupun command-line dari
Java
– Open source dapat di unduh di http://weka.pentaho.com/
• scikit-learn
– Dikembangkan dengan Python
– Dapat digunakan hanya melalui command-line dari Python
– Open source dapat di unduh di http://www.scikit-learn.org
29
Perangkat Lunak
• LIBSVM
– Dikembang dengan C/C++
– Dapat digunakan melalui command-line dari DOS, Java,
Python, Matlab, R, WEKA, dll
– Free dapat di unduh di
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
• SVMlight
– Dikembangkan dengan C/C++
– Dapat digunakan melalui command-line dari DOS, Java,
Python, Matlab, dll
– Free dapat diunduh di http://svmlight.joachims.org/
30
Buku Referensi
• Witten, I. H., et. al., Data Mining: Practical Machine Learning Tools and
Techniques, Elsevier Inc., 2011
• Bishop, C. H., Pattern Recognition and Machine Learning, Springer, 2006
• Schoelkopf and Smola, Learning with Kernels, MIT Press, 2002
• C. E. Rasmussen & C. K. I. Williams, Gaussian Process for Machine
Learning, MIT Press, 2006
• Vapnik, The Nature of Statistical Learning Theory, Spinger, 2000
• Jolliffe, Principal Component Analysis, Springer, 2000
• Hyvaerinen, Karhunen & Oja, Independent Component Analysis, Wiley,
2001
• Landauer,T. K., McNamara, D.S., Dennis, S. and Kintsch W. (Eds),
Handbook of Latent Semantic Analysis, Mahwah NJ: Lawrence Erlbaum
Associates, 2007
31
Grup Riset
– Google (http://research.google.com)
– Microsoft (http://research.microsoft.com)
– Yahoo (http://research.yahoo.com/)
– TU Berlin (http://www.ml.tu-berlin.de/,
http://www.ni.tu-berlin.de/, http://www.dai-labor.de/en/)
32
Konferensi dan Jurnal