Data set yang sangat besar dan kompleks dimana alat pemrosesan data tradisional
tidak memadai untuk memprosesnya. Tantangannya meliputi analisis,
pengambilan, kurasi data, pencarian, berbagi, penyimpanan, transfer, visualisasi,
permintaan, pembaruan dan privasi informasiKarakteristik utama :
- Volume, big data memiliki jumlah data yang sangat besar sehingga dalam
proses pengolahan data dibutuhkan suatu penyimpanan yang besar dan
dibutuhkan analisis yang lebih spesifik.
- Velocity, big data memiliki aliran data yang yang cepat dan real time.
- Variety, big data memiliki bentuk format data yang beragam baik terstruktur
(numerik) ataupun tidak terstruktur dan bergantung pada banyaknya sumber
data. (text, gambar, audio, video serta data transaksi keuangan).
Salah satu contoh penggunaan big data sendiri adalah penggunaan Hadoop untuk
pemantauan kondisi vital pasien di beberapa rumah sakit seluruh dunia.
o Data analytics
Ilmu yang menguji data mentah dengan tujuan menarik kesimpulan tentang suatu
informasi. Data Analytics digunakan dalam industri untuk memungkinkan
perusahaan dan organisasi membuat keputusan bisnis yang lebih baik dan untuk
memverifikasi atau menyangkal model atau teori yang ada.
1. Estimasi: Proses menerka Nilai yang belum diketahui secara pasti. Metode
yang biasa digunakan adalah multiple regression, Simple linear regression
dan Corellation. Contohnya: Estimasi Waktu pengantaran Pizza
2. Prediction: Memprediksikan nilai suatu data dari data- data yang sudah ada.
Data yang di prediksi biasa di sebut variable tak bebas, dan data yang
digunakan untuk memprediksi disebut explanatory. Contohnya:
memprediksi Harga Pasar Saham.
3. Classification: Classification adalah tindakan untuk memberikan kelompok
pada setiap keadaan. Classification adalah metode yang paling umum pada
data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management
biasanya melibatkan metode Classification. Contohnya:
Mengklasifikasikan waktu wisuda para mahasiswa.
4. Clustering: tujuannya adalah untuk mengelompokkan data dengan
karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan
karakteristik yang berbeda ke ‘wilayah’ yang lain. Contohnya: Finding Iris
Flowe Cluster
5. Association: disebut sebagai Market Basket Analysis. Sebuah problem
bisnis yang khas adalah menganalisa tabel transaksi penjualan dengan
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh
customer. Contohnya: Association Product Sold (Ketika orang membeli
susu, dia biasanya membeli keju).
o Data science
Proses mengekstrak dari data-data dan menghasilkan informasi secara struktur dan
tidak terstruktur
Salah satu penggunaan data science adalah digunakannya data science untuk kereta. Maka
pemeliharaan kereta dapat dilakukan dengan lebih terukur. Sensor IoT dapat digunakan
untuk mengecek bagian-bagian kereta setiap waktu. Hal ini tentunya akan memudahkan
perusahaan kereta dalam melakukan perawatan kereta dan meningkatkan kualitas
layanannya.
2. Apa manfaat, peluang, tantangan terkait Big Data dan Data Analytics dan berikan
contoh
Manfaat :
1. Penghematan biaya, Teknologi analisis Big data seperti hadoop dan analisis berbasis
cloud membawa pengurangan biaya yang signifikan dalam hal untuk menyimpan data
set dalam jumlah besar, selain mereka dapat mengidentifikasi cara-cara yang lebih
efisien dalam melakukan bisnis.
2. Lebih cepat dan baik dalam pengambilan keputusan, dengan kecepatan teknologi big
data seperti Hadoop dalam melakukan analisis dengan dikombinasikan dengan
kemampuan untuk menganalisis berbagai macam sumber data baru, membuat bisnis
mampu menganalisis informasi dengan cepat dan membuat keputusan berdasarkan
hasil analisis tersebut.
3. Melahirkan produk dan pelayanan baru, dengan kemampuan mengukur kebutuhan dan
kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan produk
dan layanan baru yang sesuai dengan keinginan dan kebutuhan dari pelanggan.
Peluang :
Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini hampir tak
terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa henti. Artinya, Big Data
memiliki potensi tinggi untuk mengumpulkan wawasan kunci dari informasi bisnis.
Sayangnya sampai saat ini, baru sebagian kecil data yang telah dianalisis. Big Data dalam
bisnis menjadi strategi yang baik dalam mengolah informasi mentah menjadi keuntungan
yang terus mengalir ke organisasi bisnis setiap hari.
Analisis Big Data membantu organisasi memanfaatkan data dan menggunakannya untuk
mengidentifikasi peluang-peluang baru. Yang pada gilirannya menyebabkan bisnis
bergerak lebih cerdas dan cepat karena didukung oleh operasional yang lebih efisien, yang
pada akhirnya mendatangkan keuntungan yang lebih tinggi dan pelanggan lebih senang
tentunya.
Tantangan :
Contoh penggunaan :
1. Lembaga keuangan dapat menggunakan analisis big data agar cepat mengidentifikasi
potensi penipuan sebelum menjadi besar efeknya, sehingga meminimalkan resiko
kerugian secara finansial.
2. Pemerintahan dapat manfaatkan analisis big data untuk meningkatkan keamanan
negara dengan mampu mendeteksi, mencegah dan melawan serangan cyber.
3. Industri kesehatan dapat menggunakan analisis terhadap big data untuk meningkatkan
layanan perawatan pasien dan menemukan cara yang lebih baik untuk mengelola
sumber daya dan personil.
4. Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mencegah
churn pelanggan, dan juga merencanakan cara terbaik untuk mengoptimalkan jaringan
nirkabel baik yang baru maupun yang sudah ada.
5. Marketing dapat menggunakan big data untuk melakukan analisis sentimen untuk
mengetahui tingkat kepuasan pelanggan terhadap produk dan layanan yang dipasarkan.
6. Perusahaan asuransi dapat menggunakan analisis big data untuk mengkategorikan
pengajuan asuransi yang dapat segera diproses, dan mana yang perlu divalidasi dengan
dilakukan kunjungan oleh agen asuransi.
7. Perusahaan ritel dapat menggunakan informasi dari social media seperti Facebook,
Twitter, Google+ yang disimpan dengan teknologi big data, yang selanjutnya
digunakan untuk menganalisis bagaimana perilaku, persepsi pelanggan terhadap suatu
produk atau brand dari perusahan.
3. Berikan contoh dan penjelasan penggunaan model data analytics di bisnis (jelaskan
pula model dan metode yang dipakai)
-Industri Penerbangan
Setiap perusahaan penerbangan mempunyai data masing-masing, namun perusahaan
penerbangan saat ini umumnya hanya menggunakan data pembelian tiket penumpang,
seperti kota asal dan kota tujuan, serta pembelian tiket melalui situs resmi atau tidak.
Perusahaan penerbangan tidak melihat data di luar itu, misalnya data interaksi ketika calon
penumpang berada di depan komputer untuk membeli tiket. Mereka mungkin hanya
melihat pelanggan terbang dari Jakarta-Jogja misalnya, tapi sebelum memutuskan itu
sebenarnya dia ingin menuju Solo. Penting bagi perusahaan penerbangan untuk melihat
pola interaksi calon penumpangnya. Sebagai contoh, ketika penumpang mengetik Solo
dalam situs penjualan tiket, kemudian menge-klik back dan mengetik Jogja, kota dengan
bandara terdekat dari Solo, perusahaan patut mencurigai pola interaksi seperti ini. Bisa jadi
penumpang membeli tiket Jogja karena penerbangan Solo lebih terbatas atau lebih mahal.
Perusahaan penerbangan dapat memanfaatkan Big Data tersebut untuk kemudian
memperbanyak jumlah penerbangan ke Solo atau memberikan harga promo atau bekerja
sama dengan travel agent untuk memfasilitasi penumpang dari Jogja ke Solo. Jika
perusahaan penerbangan mengetahui data ini (Big Data aktivitas penumpang di website),
mereka mungkin bisa mengambil keputusan yang lebih tepat, dengan membuat rute yang
lebih atraktif karena mengetahui market yang potensial.
Contoh : Email, video, files, audio files, web pages, presentations, social media feeds
6. Beri contoh sebuah model (data analytics) dan sebuah metode/algoritma yang sesuai,
dan jelaskan hasil yang bisa didapatkan dari model tersebut
Terdapat kasus untuk membuat model prediksi pada elektabilitas caleg dalam data pemilu.
Untuk membuat model tersebut bisa menggunakan beberapa aplikasi yang sudah
disebutkan, maka dalam membuat model prediksi ini tool yang digunakan yaitu aplikasi
RapidMiner. Pada prediksi dalam data pemilu ini menggunakan metode Klasifikasi,
karena kita akan mencari tahu dengan menggunakan model Decision Tree.
Pada tahap awal training prediksi model dalam aplikasi maka harus mengumpulkan
data terlebih dahulu yang disimpan dalam excel dengan format .csv agar bisa terbaca dalam
RapidMiner, data yang didapatkan untuk memprediksi elektabilitas caleg seperti berikut
1. Decision Tree
Decision tree termasuk dari kategori klasifikasi, decision tree terdiri dari kumpulan
decision node. Dimana setiap node akan dihubungkan oleh cabang. Node yang teratas
disebut root node sedangkan yang paling bawah disebut sebagai leaf node. Saat proses
decision tree berjalan semua node pada tree akan dievaluasi. Dalam decision tree, akan
dilakukan pembagian sekumpulan variabel independen ke kelompok-kelompok yang lebih
kecil lagi. Proses tersebut akan dilakukan berulang di setiap cabang dari tree untuk
memilih variable independen yang memiliki keterkaitan yang kuat dengan variable
dependen berdasarkan suatu kriteria yang diinginkan. Model dari decision tree yang dibuat
akan bergantung pada komposisi data dalam data yang akan di training dan di testing
(training dan testing set).
Hasil :
Berdasarkan hasil yang didapatkan bahwa jika hasil suara sah caleg itu lebih dari 3.082
suara maka akan . Lalu, jika hasil suara sah caleg kurang dari sama dengan 3.082 suara
maka akan melihat suara sah caleg lainnya, dari hasil tersebut jika terdapat suara kurang
dari sama dengan 2.418 suara maka akan melihat kembali suara sah caleg lainnya, jika
suara tersebut mendapatkan hasil kurang dari sama dengan 1.436 maka . Jika mendapatkan
suara lebih dari 1.436 suara maka akan melihat kembali suara caleg yang lain, jika pada
caleg tersebut memperoleh lebih dari 1.468 maka akan Lalu, jika suara yang diperoleh oleh
caleg lain lebih dari 1.468 .
Lalu melihat kembali dengan prediksi sebelumnya, jika suara yang diperoleh lebih dari
2.418 maka akan melihat lagi suara sah caleg lainnya, jika suara yang diperoleh lebih dari
2.935 Namun jika suara yang diperoleh kurang dari sama dengan 2.935 . Jika suara
partainya kurang dari sama dengan 16.443 , dan jika suara sah partainya lebih dari 16.443
Jika daerah pemilihannya kurang dari sama dengan 1 , lalu jika daerah pemilihannya
lebih dari 1 maka akan dilihat lagi suara sah partai lainnya. Jika suara yang diperoleh lebih
dari 83.822 . Lalu, jika suara partai yang diperoleh kurang dari sama dengan 83.822 maka
akan dilihat hasil suara sah calegnya. Jika suara yang diperoleh lebih dari 244 , dan jika
suara yang diperoleh kurang dari sama dengan 244 . Kesimpulan Accuracy
7. Berikan sebuah contoh insight dari sebuah visualisasi (ambil contoh di ppt)
Pattern tersebut menunjukkan pola pendengaran lagu orang di wilayah america dalam
kurun waktu 120 hari. Terlihat dari pola nya terdapat perbedaan warna yang menunjukkan mood
dari pendengar music beserta lagu yang di dengarkan nya.
8. Apa yang dimaksud dengan korelasi, berikan contohnya dan jelaskan
Secara sederhana, korelasi dapat diartikan sebagai hubungan. Korelasi merupakan salah
satu teknik analisis dalam statistik yang digunakan untuk mencari hubungan antara dua
variabel yang bersifat kuantitatif. Hubungan dua variabel tersebut dapat terjadi karena
adanya hubungan sebab akibat atau dapat pula terjadi karena kebetulan saja.
-Perfect Positive Correlation : adalah hubungan antara dua variabel di mana kedua variabel
bergerak bersama-sama. Korelasi positif ada ketika satu variabel menurun ketika variabel
lain menurun, atau satu variabel meningkat sementara yang lain meningkat.
High Positive Correlation
Low Positive Correlation : Ketika nilai r lebih dekat ke +1 atau -1, itu menunjukkan bahwa
ada hubungan linear yang lebih kuat antara dua variabel. Korelasi 0,10 akan menjadi
korelasi positif yang lemah.
No Correlation : adalah korelasi yang terjadi apabila kedua variabel (X dan Y) tidak
menunjukkan adanya hubungan linear
Low Negative Correlation : Korelasi negatif berarti bahwa ada hubungan terbalik antara
dua variabel - ketika satu variabel menurun, yang lain meningkat. Sebaliknya adalah
korelasi negatif juga, di mana satu variabel meningkat dan yang lainnya menurun.
High Negative Correlation : Ketika nilai r lebih dekat ke +1 atau -1, itu menunjukkan
bahwa ada hubungan linear yang lebih kuat antara dua variabel. Korelasi -0,97 adalah
korelasi negatif yang kuat.
Perfect Negative Correlation : adalah hubungan antara dua variabel di mana satu variabel
meningkat ketika yang lain menurun, dan sebaliknya. Dalam statistik, korelasi negatif
sempurna diwakili oleh nilai -1,00, 0,00 menunjukkan tidak ada korelasi, dan +1,00
menunjukkan korelasi positif yang sempurna.
9. Apa yang dimaksud dengan time series, jelaskan insight apa yang bisa didapat
Deret Waktu (Time series) adalah serangakaian nilai-nilai variabel yang disusun
berdasarkan waktu. Analisis time series mempelajari pola gerakan nilai-nilai variabel pada
satu interval waktu (misalnya minggu, bulan, tahun) yang teratur. Metode ini didasarkan
pada asumsi bahwa pola lama akan terulang.
Banyaknya data yang berasal dari berbagai sumber menyebabkan cukup sulitnya
menghubungkan, mencocokan, membersihkan dan mengubah data di seluruh sistem.
- Komputasi teori kompleksitas adalah cabang dari teori komputasi dalam ilmu komputer
teoritis yang berfokus pada mengklasifikasikan masalah komputasi sesuai dengan kesulitan
yang melekat, dan menghubungkan kelas kompleksitas yang dihasilkan satu sama
lain.(Wikipedia.com) computational complexity sejenis dengan analisis dari suatu
algoritma, dan secara umum merupakan cabang dari teori matematis.
- Data Structure Complexity, data struktur adalah sutu pengorganisasian data, manajemen
dan format penyimpanan yang mamu memberikan akses secara efisien dan modifikasi.
kompleksitas dari suatu data struktur bergantung pada seberapa sering data struktur
tersebut digunakan dan bagaimana data struktur tersebut mudah dimengerti, digunakan dan
diaplikasikan. contoh data struktur yang complex, radix trees, tries, sufix tree
1. Sistem yang complex terdiri dari elemen dalam jumlah besar yang bisa menjadi sederhana.
2. Elemen-elemennya secara dinamis bertukar energi atau informasi, interaksi dalam jumlah
yang besar melalui suatu sistem (interaksi bentuk nonlinear).
3. Terdapat banyak perputaran feedback baik secara langsung maupun tidak langsung.
4. Sistem kompleks adalah sistem yang terbuka, beroperasi pada kondisi yang jauh dari
ekuilibrium.
5. Sistem yang kompleks memiliki memory, tidak terletak pada tempat yang spesifik namun
terdistribusi melalui sistem. sehingga tiap sistem yang compleks memiliki history, dimana
history tersebut sangat penting bagi perilaku sistem.
6. Tidak dapat terprediksi dari pemeriksaan bagian dari komponen-komponennya karena
interaksi sistem yang dinamis, feedback, nonlinear.
7. Sistem yang kompleks memiliki karakteristik yang adaptif. sistemnnya dapat mengenali
struktur internalnya tanpa campur tangan dari agen external.
12. Apa itu algoritma
Alogaritma adalah prosedur yaang terdefinisi dengan baik yang memungkinkan komputer
memecahkan masalah.
Alogaritma merupakan seperangkat aturan yang secara tepat mendefinisikan urutan
operasi.
Cara lain untuk menggambarkan suatu algoritma adalah urutan instruksi yang tidak
ambigu. Penggunaan istilah 'tidak ambigu' menunjukkan bahwa tidak ada ruang untuk
interpretasi subjektif. Setiap kali Anda meminta komputer Anda untuk melakukan
algoritma yang sama, itu akan melakukannya dengan cara yang persis sama dengan hasil
yang sama persis.
a) Time : berapa lama waktu yang dibutuhkan algoritma untuk menyelesaikan data
b) Space : berapa banyak memori (RAM) yang diutuhkan oleh algoritma dalam sebuah data
Ada 2 aspek yaitu:
- jumlah memori yang dibutuhkan oleh kode
- jumlah memori yang dibutuhkan pada operasi kode
14. Apa itu modelling
- Modelling adalah proses menghasilkan model; model adalah
representasi/perbuatan dari konstruksi dan kerja dari beberapa sistem yang
diminati.
- Sebuah Model mirip dengan tetapi lebih sederhana daripada sistem yang
diwakilinya.
- Salah satu tujuan dari sebuah model adalah untuk memungkinkan analis
memprediksi efek perubahan pada sistem.
- Suatu model harus mendekati perkiraan sistem yang sebenarnya dan
menggabungkan sebagian besar fitur yang menonjol.
- Di sisi lain, seharusnya tidak begitu rumit sehingga sulit memahami dan
bereksperimen dengannya. Model yang baik adalah tradeoff yang bijaksana
antara realisme dan kesederhanaan.
- Masalah penting dalam pemodelan adalah validitas model. Validasi model
teknik termasuk simulasi model di bawah kondisi input yang dikenal dan
membandingkan output model dengan output sistem.
Why Simulation? Model sangat kompleks (dengan banyak variabel) dan komponen yang
saling berinteraksi
16. Jelaskan apa itu Data Pre-Processing berikut tugas-tugas yang ada di dalamnya
Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu
proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang
berkualitas(input yang baik untuk data mining tools).
Why Data Pre-Processing?
Karen dalam data mentah masih banyak yang:
Akurasi: benar atau salah, akurat atau tidak
Kelengkapan: tidak direkam, tidak tersedia, ...
Konsistensi: beberapa dimodifikasi tetapi beberapa tidak, ...
Ketepatan waktu: pembaruan tepat waktu?
Percaya/Believability: seberapa aman data itu benar?
Interpretasi: seberapa mudah data dapat dipahami?
2. Data Integration
- Pengurangan dimensi
- Pengurangan numerosity
- Kompresi data
3. Data Transformation
Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih
berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing),
meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur.
4. Data Reduction
Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang
akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi
data.
Kenapa data reduction?
Database / gudang data dapat menyimpan terabyte data
Analisis data yang rumit membutuhkan waktu yang sangat lama untuk berjalan pada
dataset lengkap
Strategi Pengurangan Data
Pengurangan dimensi
Seleksi Fitur (pilih atribut apa yang paling berkorelasi)
Ekstraksi Fitur (Contoh: BOD usia)
Pengurangan Numerosity (Pengurangan Data)
Model Regresi dan Log-Linear
Histogram, pengelompokan, sampling.
Metode Umum dalam Model Data Analitik
1. Estimation (estimasi), untuk menerka sebuah nilai yang belum diketahui, misal menerka
penghasilan seseorang ketika informasi mengenai orang tersebut diketahui. Metode yang
digunakan antara lain Point Estimation dan Confidence Interval Estimations, Simple
Linear Regression dan Correlation, dan Multiple Regression.
5. Association (asosiasi), dinamakan juga analisis keranjang pasar dimana fungsi ini
mengidentifikasi item-item produk yang kemungkinan dibeli konsumen bersamaan dengan
produk lain. Metode atau algoritma dalam fungsi ini adalah Apriori, Generalized
Sequential Pattern (GSP), FP-Growthdan GRI algorithm
Aplikasi Machine learning membutuhkan Data sebagai bahan belajar (training) sebelum
mengeluarkan output. Aplikasi sejenis ini juga biasanya berada dalam domain spesifik alias
tidak bisa diterapkan secara general untuk semua permasalahan.
2. Shuffled sampling: Shuffled sampling membangun subset acak dari dataset Contoh
dipilih secara acak untuk membuat himpunan bagian.
Estimasi : Memperkirakan suatu hal dari sejumlah sample yang kita miliki (yg tidak
kita ketahui) atau data historis.
Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah
berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit)
Estimasi nilai dari variabletarget ditentukan berdasarkan nilai dari variabel prediktor(
atribut)
Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network,
Support Vector Machine.
Prediksi/forecasting sama dengan algoritma estimasi di mana label/target/classbertipe
numerik, bedanya adalah data yang digunakan merupakan data rentet waktu (data
timeseries)
Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi
timeseries, karena sifatnya yang bisa menghasilkan classberdasarkan berbagai atribut
yang kita sediakan
Semua algoritma estimasi dapat digunakan untuk prediksi/forecasting
Misalnya, bank menilai resiko pemohon kredit rumah berdasarkan usia, pendapatan
bulanan, biaya bulanan, pekerjaan, jumlah anak, penggunaaan kartu kredit, dll
Model Persamaan Regresi Linear Sederhana adalah seperti berikut ini :
Y = a + bX
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent)
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor.
Berikut ini adalah Langkah-langkah dalam melakukan Analisis Regresi Linear Sederhana
:
1. Tentukan Tujuan dari melakukan Analisis Regresi Linear Sederhana
2. Identifikasikan Variabel Faktor Penyebab (Predictor) dan Variabel Akibat
(Response)
3. Lakukan Pengumpulan Data
4. Hitung X², Y², XY dan total dari masing-masingnya
5. Hitung a dan b berdasarkan rumus diatas.
6. Buatkan Model Persamaan Regresi Linear Sederhana.
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau Variabel
Akibat.
Seorang Engineer ingin mempelajari Hubungan antara Suhu Ruangan dengan Jumlah Cacat yang
diakibatkannya, sehingga dapat memprediksi atau meramalkan jumlah cacat produksi jika suhu
ruangan tersebut tidak terkendali. Engineer tersebut kemudian mengambil data selama 30 hari
terhadap rata-rata (mean) suhu ruangan dan Jumlah Cacat Produksi.
Penyelesaian
Tujuan : Memprediksi Jumlah Cacat Produksi jika suhu ruangan tidak terkendali
Berikut ini adalah data yang berhasil dikumpulkan selama 30 hari (berbentuk tabel) :
Berikut ini adalah tabel yang telah dilakukan perhitungan X², Y², XY dan totalnya :
a = -24,38
b = 1,45
Y = a + bX
Y = -24,38 + 1,45X
Langkah 7 : Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau
Variabel Akibat
I. Prediksikan Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X), contohnya :
30°C
Y = -24,38 + 1,45 (30)
Y = 19,12
Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 19,12 unit
cacat yang dihasilkan oleh produksi.
II. Jika Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 4 unit, maka berapakah suhu
ruangan yang diperlukan untuk mencapai target tersebut ?
4 = -24,38 + 1,45X
1,45X = 4 + 24,38
X = 28,38 / 1,45
X = 19,57
Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah
sekitar 19,57°C
Data Driven Metod: Tidak ada perbedaan antara prediktor dan target. Teknik seperti time series
averaging atau smoothing dianggap sebagai pendekatan berbasis data untuk peramalan seri waktu.
Data Driven Methods: Naïve Forecast, Simple Average, Moving Average, Weighted Moving
Average.
Model Driven Method: Mirip dengan model prediksi "konvensional", yang memiliki variabel
independen dan dependen, tetapi dengan twist: variabel independen sekarang waktu
Tujuan: catatan yang sebelumnya tidak terlihat harus diberi kelas seakurat mungkin.
Satu set tes digunakan untuk menentukan akurasi model. Biasanya, set data yang diberikan
dibagi menjadi pelatihan dan set tes, dengan set pelatihan yang digunakan untuk
membangun model dan set tes yang digunakan untuk memvalidasi itu.
Ilustrasi Tugas Klasifikasi
3 No Small 70K No
6 No Medium 60K No
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
23. Berikan contoh penerapan model klasifikasi pada bisnis/proses
24. Apa yang dimaksud dengan underfitting dan overfitting Apa yang dimaksud dengan
underfitting dan overfitting
Underfitting : ketika suatu model terlalu simple, lalu error pada training dan testnya.
Overfitting : kekurangan data point di bagian bawah diagram sehingga sulit untuk memprediksi
secara benar class labels pada wilayah tertentu.
25. Metrik apa yang digunakan untuk mengukur akurasi model klasifikasi
Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja
suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang
membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang
seharusnya. Berdasarkan jumlah keluaran kelasnya, sistem klasifikasi dapat dibagi menjadi 4
(empat) jenis yaitu klasifikasi binary, multi-class, multi-label dan hierarchical.
1. Pada klasifikasi binary, data masukan dikelompokkan ke dalam salah satu dari dua kelas.
Jenis klasifikasi ini merupakan bentuk klasifikasi yang paling sederhana dan banyak
digunakan.
2. klasifikasi multi-class, data masukan diklasifikasikan menjadi beberapa kelas. Sebagai
contoh sistem yang dapat mengklasifikasikan jenis kendaraan seperti sepeda, sepeda
motor, mobil, bus, truk, dan sebagainya.
3. Klasifikasi multi-label pada dasarnya sama dengan multi-class dimana data
dikelompokkan menjadi beberapa kelas, namun pada klasifikasi multi-label, data dapat
dimasukkan dalam beberapa kelas sekaligus.
4. Klasifikasi Hierarchical. Data masukan dikelompokkan menjadi beberapa kelas, namun
kelas tersebut dapat dikelompokkan kembali menjadi kelas-kelas yang lebih sederhana
secara hirarkis.
Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat) istilah sebagai
representasi hasil proses klasifikasi. Keempat istilah tersebut adalah True Positive (TP),
True Negative (TN), False Positive (FP) dan False Negative (FN). Nilai True Negative
(TN) merupakan jumlah data negatif yang terdeteksi dengan benar, sedangkan False
Positive (FP) merupakan data negatif namun terdeteksi sebagai data positif. Sementara itu,
True Positive (TP) merupakan data positif yang terdeteksi benar. False Negative (FN)
merupakan kebalikan dari True Positive, sehingga data positif namun terdeteksi sebagai
data negatif.
26. Metode apa yang digunakan untuk mengukur presisi model klasifikasi
Confusion matrix adalah suatu metode yang biasanya digunakan untuk
melakukan perhitungan akurasi pada konsep data mining. Rumus ini
melakukan perhitungan dengan 4 keluaran, yaitu: recall, precision, acuraccy
dan error rate.
- Recall adalah proporsi kasus positif yang diidentifikasi dengan benar.
Rumus dari recall = d/(c+d)
- Precision adalah proporsi kasus dengan hasil positif yang benar.
Rumus dari Precision = d/(b+d)
- Accuracy adalah perbandingan kasus yang diidentifikasi benar denganjumlah semua kasus
Rumus dari accuracy= (a+c)/(a+b+c+d)
- Error Rate adalah kasus yang diidentifikasi salah dengan sejumlah semuakasus
Rumus dari Error Rate = (b+c)/(a+b+c+d)
Keterangan:
a) a jika hasil prediksi negatif dan data sebenarnya negatif.
b) b jika hasil prediksi positif sedangkan nilai sebenarnya negatif.
c) c jika hasil prediksi negatif sedangkan nilai sebenarnya positif.
d) d jika hasil prediksi positif dan nilai sebenarnya positif