Anda di halaman 1dari 35

Bab4: Analisis Data Lanjutan

dan Pembelajaran Mesin

Data Besar & Analisis

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 1
Bab 4: Analisis Data Tingkat
Lanjut dan Pembelajaran
Mesin

Data Besar & Analisis

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 8
Bab4- Bagian & Tujuan
 4.1 Analisis Prediktif
• Identifikasi kemungkinan hasil di masa depan melalui penggunaan data,
algoritme statistik, dan teknik pembelajaran mesin, berdasarkan data
historis.

 4.2 Evaluasi Model


• Periksa berbagai metrik evaluasi yang digunakan dalam analisis
prediktif.

 4.3 Lab / Praktikum

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 9
4.1 Analisis Prediktif

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 10
Pembelajaran mesin
Melihat ke depan

 Karakteristik yang
membedakan Big Data dari
data:
• Volume
• Kecepatan
• Variasi
• Kebenaran
 Big Data digunakan untuk
membuat model prediksi
yang menjawab:
• Apa yang akan terjadi?
• Bagaimana kita harus
bertindak?

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 11
Pembelajaran mesin
Apa itu Pembelajaran Mesin?
 Kevin Patrick Murphey mendefinisikan
pembelajaran mesin sebagai
“…seperangkat metode yang dapat
secara otomatis mendeteksi pola dalam
data, dan kemudian menggunakan pola
yang tidak terungkap untuk memprediksi
data masa depan, atau untuk melakukan
jenis pengambilan keputusan lainnya di
bawahketakpastian."
• Algoritme pembelajaran mesin meningkatkan
kinerjanya pada tugas tertentu berdasarkan
kinerja berulang dari tugas tersebut. Metode
pembelajaran mesin diterapkan ke berbagai
aplikasi termasuk pengenalan suara, diagnosa
medis, mobil self-driving, mesin rekomendasi
penjualan, dan banyak lainnya.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 12
Pembelajaran mesin
Jenis Analisis Pembelajaran Mesin
 Dua kategori utama dari algoritma pembelajaran mesin:
• Diawasi – biasanya digunakan untuk analitik prediktif. Digunakan
untuk menyelesaikan masalah regresi dan klasifikasi.
• Tanpa pengawasan – mereka secara mandiri menemukan pola
dalam data. Contoh masalah yang diselesaikan dengan metode
tanpa pengawasan adalah pengelompokan dan asosiasi.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 13
Pembelajaran mesin
Proses Pembelajaran Mesin
 Mengembangkan solusi pembelajaran mesin dapat
disederhanakan menjadi langkah-langkah berikut:
• Langkah 1 – Siapkan data
• Langkah 2 – Buat perangkat pembelajaran
• Langkah 3 – Buat set tes
• Langkah 4 – Buat lingkaran
• Langkah 5 – uji solusinya
• Langkah 6 – Terapkan solusi

proses
pembelajaran
data algoritma yang calon model evaluasi model implementasi
pembelajaran dipilih model

data yang
disiapkan
pemilihan model
penyempurnaan model
pemilihan fitur
penyetelan model
data uji yang
dicadangkan
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 14
Pembelajaran mesin
Aplikasi Umum Pembelajaran Mesin
 Algoritma analitik prediktif telah
diterapkan pada berbagai aplikasi,
termasuk penggunaan analitik teknologi
di bidang hiburan, pertanian,
kedokteran, dan ritelpenjualan.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 15
Regresi
Analisis regresi
 Analisis Regresi adalah salah satu
metode statistik tertua dan paling umum
digunakan untuk menganalisis data.
 Tujuan utama dari regresi adalah untuk
memenuhi syarat hubungan matematis
antara satu atau lebih variabel
independen (variabel prediktor), dan satu
variabel dependen (variabel target).

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 16
Regresi
Regresi linier
 Regresi linier adalah yang paling sederhana dari sudut
pandang komputasi dan matematika.
• Istilah linier menyiratkan bahwa fungsi regresi akan selalu mencoba
menyesuaikan data dengan menggunakan pembobotan rata-rata fungsi
lainnya, apakah itu fungsilinier atau tidak.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 17
Regresi
Aplikasi Regresi Analisis
 Analisis Regresi memiliki banyak
aplikasi. Ini sering digunakan dalam
analisis bisnis dan keuangan dengan
data historis untuk menginformasikan
strategi untuk tindakan di masa depan.
 Ini dapat digunakan untuk memprediksi
tren ekonomi dan dapat
menginformasikan tindakan politik untuk
memandu pertumbuhan ekonomi.
 Perilaku nasabah juga dapat diprediksi
untuk menentukan normal dari
kemungkinan perilaku curang di bidang
asuransi dan kredit konsumen.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 18
Analisis statistik
Masalah Klasifikasi
 Klasifikasi dapat dilihat sebagai
masalah regresi di mana variabel
targetnya adalah diskrit, dan
mewakili kelas di mana seorang ahli
manusia telah mengklasifikasikan
sampel data.
• Misalnya, perusahaan perjalanan berbasis
web tertarik untuk memberikan peringkat
keandalan untuk penerbangan yang
ditemukannya bagi pelanggan. Melalui trial
error model yang berbeda, telah ditentukan
variabel mana di antara semua variabel
dalam dataset yang paling relevan untuk
klasifikasi. Ini juga dikenal sebagai variabel
dengan kekuatan diskriminan tertinggi.
Hanya fitur yang relevan ini yang
diekstraksi dari data dan digunakan untuk
melatih pengklasifikasi.
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 19
Analisis statistik
Algoritma Klasifikasi
 k-tetangga terdekat (k-NN)- k-NN mungkin
adalah pengklasifikasi paling sederhana, yang
menggunakan jarak antara contoh pelatihan
sebagai ukuran kesamaan. Untuk
memvisualisasikan cara kerja pengklasifikasi k-
NN, bayangkan bahwa setiap sampel memiliki
dua fitur, yang nilainya dapat direpresentasikan
dalam plot 2D.
 Mendukung mesin vektor (SVM)-Mendukung
mesin vektor (SVM)adalah contoh pengklasifikasi
machine learning yang diawasi. Daripada
mendasarkan penetapan keanggotaan kategori
pada jarak dari titik lain, mesin vektor dukungan
menghitung perbatasan, atau hyperplane, yang
memisahkan dengan lebih baikkelompok.
 Pohon keputusan- Pohon keputusan mewakili
masalah klasifikasi sebagai satu set keputusan
berdasarkan nilai fitur. Setiap simpul pohon
mewakili ambang batas atas nilai fitur, dan
membagi sampel pelatihan dalam dua set yang
lebih kecil.
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 20
Analisis statistik
Aplikasi Klasifikasi
 Algoritma klasifikasi memiliki banyak
aplikasi. Sebagai contoh:
• Tugas beresiko- Sistem klasifikasi dapat
digunakan untuk menentukan faktor mana yang
berkontribusi terhadap kemungkinan berbagai
risiko.
• Diagnostik Medis- Sistem klasifikasi dapat
menggunakan pertanyaan terpandu untuk
membangun pohon keputusan yang dapat
membantu mendiagnosis berbagai penyakit dan
risikopenyakit.
• Pengenalan Gambar-Dipengenalan tulisan
tangan, suatu sistem mungkin bekerja pada
tugas mengidentifikasi angka tulisan tangan.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 21
4.2 Evaluasi Model

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 22
Validitas dan Keandalan
Masalah dalam Menggunakan analisis
 Proses enam langkah untuk
penemuan ilmiah adalah:
• Ajukan pertanyaan tentang
pengamatan
• Lakukan riset
• Buatlah hipotesis
• Uji hipotesis
• Analisis data dari percobaan untuk
menarik kesimpulan
• Komunikasikan hasilnya

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 23
Validitas dan Keandalan
Keabsahan
 KetikaAda banyak istilah yang
digunakan untuk
menggambarkan jenis validitas,
peneliti biasanya membedakan
antara empat jenis validitas:
• Validitas konstruk- Apakah penelitian
benar-benar mengukur apa yang
diklaimnya diukur?
• Validitas internal- Apakah
eksperimen dirancang dengan benar?
Apakah itu mencakup semua langkah
metode ilmiah?
• Validitas eksternal- Bisakah
kesimpulan berlaku untuk situasi lain
atau orang lain di tempat lain di waktu
lain? Apakah ada hubungan kausal
lain dalam penelitian yang mungkin
menjelaskan hasil?
• Validitas kesimpulan- Berdasarkan
hubungan dalam data, apakah
kesimpulan penelitian masuk akal?
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 24
Validitas dan Keandalan
Keandalan
 Eksperimen atau studi yang andal
berarti bahwa orang lain dapat
mengulanginya dan mencapai hasil
yang sama. Peneliti membedakan
antara empat jenis atau reliabilitas:
• Keandalan antar-penilai- Seberapa
miripkah skor orang yang berbeda pada
tes yang sama?
• Reliabilitas Tes Ulang- Berapa banyak
variasi antara skor untuk orang yang
sama yang mengikuti tes beberapa kali?
• Keandalan Bentuk Paralel- Seberapa
miripkah hasil dari dua tes berbeda yang
dibuat dari konten yang sama?
• Reliabilitas Konsistensi Internal- Apa
variasi hasil untuk item yang berbeda
dalam tes yang sama??

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 25
Kesalahan dalam Analisis
Kesalahan dalam DataAnalitik
 Kesalahan, dan lebih umum
lagi, ketidakpastian,
memengaruhi proses analitik
data pada tingkat yang
berbeda:
• Jenis kesalahan pertama adalah
kesalahan pengukuran. Setiap perangkat
untuk melakukan pengukuran terbatas
dalam presisi. Oleh karena itu, semua
pengukuran memiliki kesalahan
bawaankomponen.
• Lainjenis kesalahannya adalah kesalahan
prediksi. Dalam pembelajaran terawasi,
kesalahan prediksi dikuantifikasi sebagai
perbedaan antara nilai yang diprediksi oleh
model dan nilai yang diamati.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 26
KesalahandiAnalisis
Jenis dan Sumber Kesalahan Pengukuran
 Kesalahan pengukuran dapat
dikategorikan ke dalam tiga
kelompok ini:
• Kesalahan besar- Hal ini disebabkan
oleh kesalahan pada alat yang
digunakan untuk melakukan
pengukuran, atau dalam pencatatan
hasil pengukuranpengukuran.
• Kesalahan acak – Ini disebabkan oleh Kesalahan acak
faktor-faktor yang secara acak
mempengaruhi pengukuran atas
sampeldata.
• Kesalahan sistematis – Ini adalah
disebabkan oleh faktor instrumental
atau lingkungan yang mempengaruhi
semua pengukuran yang dilakukan
selama periode waktu tertentu.
Kesalahan sistematis
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 27
KesalahandiAnalisis
Distribusi Kesalahan Acak
 Kesalahan acak cenderung membuat
distribusi normal di sekitar rata-rata
pengamatan. Dimungkinkan untuk
membangun model statistik
kesalahan,dalam hal ini algoritma regresi
dan klasifikasi dapat dengan mudah
memasukkannya ke dalamAkun.
 Kesalahan sistematis cenderung
menggeser distribusi pengamatan (sisi
kanan gambar) ke satu arah atau lainnya.
Oleh karena itu kesalahan sistematis lebih
sulit untuk ditangani, karena nilai
sebenarnya tidak diketahui, sehingga
satu-satunya cara untuk mendeteksi
kesalahan sistematis adalah dengan
menggunakan sistem pengukuran lain
yang kami anggap lebihdapat diandalkan.
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 28
KesalahandiAnalisis
Kesalahan dalam Analisis Prediktif
 Kesalahan prediksi adalah perbedaan antara nilai
yang diprediksi oleh model regresi atau klasifikasi,
dan nilai yang diukur.
 Kesalahan prediksi adalah jarak antara fungsi
regresi, dan titik data. Kesalahan prediksi memiliki
dua komponen
• Komponen pertama disebabkan oleh pemilihan
model…kamimembuat asumsi tentang bagaimana data
didistribusikan, yang pastiperkiraan.
• Bahkan ketika model yang dipilih secara sempurna
mencerminkan distribusi yang sebenarnya, masih akan
ada perbedaan antara nilai prediksi dan nilai aktual
karena pengukurankesalahan.
 Dalam pembelajaran mesin, penyebab pertama
kesalahan prediksi sering disebut bias dari model,
sedangkan yang kedua adalah perbedaan.
Seseorang tidak dapat meminimalkan keduanya, dan
situasi ini sering disebut bias-varians pertukaran.
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 29
Evaluasi Model
Penelitian Menyesatkan
 Memahami dampak validitas, reliabilitas,
dan kesalahan dalam pola data
merupakan langkah pertama yang penting
untuk memastikan bahwa kesimpulan
Anda didasarkan pada desain penelitian
yang solid.
 Penelitian yang menyesatkan, buruk, atau
salah lebih umum daripada yang Anda
kira. Faktanya, John PA Ioannidis
menyatakan bahwa sebagian besar
temuan penelitian salah.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 30
Evaluasi Model
Pedoman untuk Mengevaluasi Hasil
 Ada beberapa panduan yang dapat Anda ikuti
saat mengevaluasi hasil yang dilaporkan oleh
studi penelitian atau laporan analisis data:
• Statistik- Apakah penelitian memiliki ukuran
sampel yang cukup besar untuk
mendukung?temuan?
• Desain penelitian- Apakah arsitek penelitian
mengikuti metode penelitian yang diterima secara
umum?rancangan?
• Durasi- Apakah penelitian dengan tepat
memperhitungkan dampak pada waktu??
• Korelasi dan sebab akibat- Hanya karena dua
variabel berkorelasi tidak berarti bahwa satu
menyebabkanlainnya.
• Keselarasan dengan studi lain- Apakah hasil
mengkonfirmasi atau menyelaraskan dengan
penelitian lain di lapangan?
• ulasan sejawat- Apakah penelitian telah ditinjau
oleh para ahli di bidang yang sama?
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 31
4.3 Persiapan untuk Bab 4
Lab

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 32
Persiapan untuk Bab 4 Lab
Menggunakan scikit-belajar untuk Regresi
Analisis
 scikit-learn adalah perpustakaan pembelajaran
mesin untuk Pythondibangun di atasJumlahPy,SciPy,
danmatplotlib
 Dilab pertama, Anda akan menggunakan analisis regresi
untuk melihat data historis tentang pertumbuhan lalu
lintas Internet. Anda akan mengukur hubungan antara
tahun dan pengukuran lalu lintas Internet.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 33
Persiapan untuk Bab 4 Lab
Lembar Gaya untuk Plot
 Kamu akanInstallpanda,numpy, danmatplotlib.
Itumatplotlibperpustakaan mencakup gaya yang berbeda
untuk menampilkan plot Anda.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 34
Persiapan untuk Bab 4 Lab
Menyesuaikan Data
 Kelakukan regresi linier dengan Python, Anda akan
memanggillumpuhkelas,polifit. Meskipunpolifitmemiliki
banyak argumen, Anda hanya akan menentukan nilai
untuk x, y, dan deg. Nilai x dan y akan digunakan untuk
sumbu x dan y. Menggunakanpolifitakan memungkinkan
Anda untuk memplot regresi linier sederhana yang
ditunjukkan pada gambar. Nilai untukderajatakan
menentukan tingkat kecocokan..

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 35
Persiapan untuk Bab 4 Lab
Merencanakan dalam 3D
 Andaakan memvisualisasikan data dalam tiga dimensi.
Untuk melakukannya, Anda akan memperpanjang
matplotlib perpustakaan dengan menginstalmpl_toolkit
kelas dari perpustakaan mplot3d. Anda kemudian akan
menggunakan data meteran Internet untuk membuat
plot 3D untuk menampilkan tiga sumbu: kecepatan
unduh (sumbu x); kecepatan unggah (sumbu y); dan
kecepatan ping (sumbu z). Visualisasi ini akan
menampilkan di mana tarif untuk sebagian besar cluster
ping

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 36
Persiapan untuk Bab 4 Lab
Memvisualisasikan Batas untuk Anomali
 Data Anomali dapat disebabkan oleh
korupsiataudistorsiselama pengukuran, transmisi, atau
penyimpanan. Nilai-nilai ini dianggap outlier. Mereka
menyimpang begitu jauh dari nilai yang diharapkan sehingga
mereka dapat mendistorsi hasil darianalisis.
 anomalisering dihapus dari kumpulan data setelah
pertimbangan yang cermat.
 Bola menunjukkan batas keputusan antara data normal dan
data anomali.

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 37
4.4Ringkasan

Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 38
Ringkasan Bab
Ringkasan
 Big Data dicirikan oleh volume, kecepatan, variasi, dan kejujuran.
 Contoh pendekatan pembelajaran mesin yang diawasi,yaitu: Regresi
dan Klasifikasi.
• Regresi menggunakan hubungan historis antara satu atau lebih variabel independen
dan variabel dependen untuk memprediksi nilai masa depan dari variabel dependen.
• Model klasifikasi dikenal sebagai pengklasifikasi. Ada banyak algoritma
pengklasifikasi. Contoh: k-nearest neighbor, Support vector machine dan Decision
tree.

 Bab ini membahas proses enam langkah yang digunakan oleh metode
ilmiah untuk memvalidasi model evaluasi.
 Empat jenisvaliditas adalah: konstruk, internal, eksternal,
dankesimpulan.
 Empat jeniskeandalanadalah: antar penilai, tes ulang, bentuk paralel,
dan internalkonsistensi.
 Kesalahan adalah perbedaan antara nilai sebenarnya dan nilai yang
diukur dari suatu pengamatan.
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 39
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 40
Presentation_ID © 2008 Cisco Systems, Inc. All rights reserved. Cisco Confidential 41

Anda mungkin juga menyukai