Anda di halaman 1dari 29

SILABUS

1. Fenomena, framework, peluang dan tantangan dari keseluruhan aktivitas yang


berhubungan dengan Big Data
2. Konsep, teori, framework di dalam aktivitas Data Analytics
3. Mencari pola dari suatu dataset melalui hubungan korelasi
4. Alogaritma dan kompleksitas pada big data
5. Konsep data mining dalam data science
6. Model estimasi dan forecasting menggunakan metode regresi dan time series
7. Model klasifikasi dan beberapa metode di dalamnya
BY :
ANNISA NADA SYIFA
FITRA NURWINDA
GINA KHAIRANI

SOAL LATIHAN UTS


Soal-soal berikut mengandung intisari materi dari minggu ke-1 sampai dengan minggu ke-7. Untuk
persiapan UTS, anda diharapkan bisa menjawab seluruh pertanyaan berikut dengan singkat, padat,
dan jelas.

1. Jelaskan definisinya berikut contohnya


o Apa itu big data (3 karakteristik utama)

Data set yang sangat besar dan kompleks dimana alat pemrosesan data tradisional
tidak memadai untuk memprosesnya. Tantangannya meliputi analisis,
pengambilan, kurasi data, pencarian, berbagi, penyimpanan, transfer, visualisasi,
permintaan, pembaruan dan privasi informasiKarakteristik utama :

- Volume, big data memiliki jumlah data yang sangat besar sehingga dalam
proses pengolahan data dibutuhkan suatu penyimpanan yang besar dan
dibutuhkan analisis yang lebih spesifik.
- Velocity, big data memiliki aliran data yang yang cepat dan real time.
- Variety, big data memiliki bentuk format data yang beragam baik terstruktur
(numerik) ataupun tidak terstruktur dan bergantung pada banyaknya sumber
data. (text, gambar, audio, video serta data transaksi keuangan).
Salah satu contoh penggunaan big data sendiri adalah penggunaan Hadoop untuk
pemantauan kondisi vital pasien di beberapa rumah sakit seluruh dunia.

o Data analytics

Ilmu yang menguji data mentah dengan tujuan menarik kesimpulan tentang suatu
informasi. Data Analytics digunakan dalam industri untuk memungkinkan
perusahaan dan organisasi membuat keputusan bisnis yang lebih baik dan untuk
memverifikasi atau menyangkal model atau teori yang ada.

5 framework (common roles) data analytics:

1. Estimasi: Proses menerka Nilai yang belum diketahui secara pasti. Metode
yang biasa digunakan adalah multiple regression, Simple linear regression
dan Corellation. Contohnya: Estimasi Waktu pengantaran Pizza
2. Prediction: Memprediksikan nilai suatu data dari data- data yang sudah ada.
Data yang di prediksi biasa di sebut variable tak bebas, dan data yang
digunakan untuk memprediksi disebut explanatory. Contohnya:
memprediksi Harga Pasar Saham.
3. Classification: Classification adalah tindakan untuk memberikan kelompok
pada setiap keadaan. Classification adalah metode yang paling umum pada
data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management
biasanya melibatkan metode Classification. Contohnya:
Mengklasifikasikan waktu wisuda para mahasiswa.
4. Clustering: tujuannya adalah untuk mengelompokkan data dengan
karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan
karakteristik yang berbeda ke ‘wilayah’ yang lain. Contohnya: Finding Iris
Flowe Cluster
5. Association: disebut sebagai Market Basket Analysis. Sebuah problem
bisnis yang khas adalah menganalisa tabel transaksi penjualan dengan
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh
customer. Contohnya: Association Product Sold (Ketika orang membeli
susu, dia biasanya membeli keju).

o Data science

Proses mengekstrak dari data-data dan menghasilkan informasi secara struktur dan
tidak terstruktur
Salah satu penggunaan data science adalah digunakannya data science untuk kereta. Maka
pemeliharaan kereta dapat dilakukan dengan lebih terukur. Sensor IoT dapat digunakan
untuk mengecek bagian-bagian kereta setiap waktu. Hal ini tentunya akan memudahkan
perusahaan kereta dalam melakukan perawatan kereta dan meningkatkan kualitas
layanannya.

2. Apa manfaat, peluang, tantangan terkait Big Data dan Data Analytics dan berikan
contoh

Manfaat :

1. Penghematan biaya, Teknologi analisis Big data seperti hadoop dan analisis berbasis
cloud membawa pengurangan biaya yang signifikan dalam hal untuk menyimpan data
set dalam jumlah besar, selain mereka dapat mengidentifikasi cara-cara yang lebih
efisien dalam melakukan bisnis.
2. Lebih cepat dan baik dalam pengambilan keputusan, dengan kecepatan teknologi big
data seperti Hadoop dalam melakukan analisis dengan dikombinasikan dengan
kemampuan untuk menganalisis berbagai macam sumber data baru, membuat bisnis
mampu menganalisis informasi dengan cepat dan membuat keputusan berdasarkan
hasil analisis tersebut.
3. Melahirkan produk dan pelayanan baru, dengan kemampuan mengukur kebutuhan dan
kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan produk
dan layanan baru yang sesuai dengan keinginan dan kebutuhan dari pelanggan.

Peluang :

Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini hampir tak
terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa henti. Artinya, Big Data
memiliki potensi tinggi untuk mengumpulkan wawasan kunci dari informasi bisnis.
Sayangnya sampai saat ini, baru sebagian kecil data yang telah dianalisis. Big Data dalam
bisnis menjadi strategi yang baik dalam mengolah informasi mentah menjadi keuntungan
yang terus mengalir ke organisasi bisnis setiap hari.

Analisis Big Data membantu organisasi memanfaatkan data dan menggunakannya untuk
mengidentifikasi peluang-peluang baru. Yang pada gilirannya menyebabkan bisnis
bergerak lebih cerdas dan cepat karena didukung oleh operasional yang lebih efisien, yang
pada akhirnya mendatangkan keuntungan yang lebih tinggi dan pelanggan lebih senang
tentunya.

Tantangan :

Tantangan pertama dalam mengembangkan big data analytics adalah Bagaimana


memecah data untuk dapat memungkinkan mengakses semua data organisasi yang
disimpan di tempat penyimpanan yang berbeda dan bahkan juga disimpan pada sistem
yang berbeda. Tantangan besar kedua adalah Membuat platform yang dapat manarik
unstructured data semudah menarik structured data. Volume data ini begitu besar
sehingga sulit untuk memprosesnya menggunakan database dan metode perancangan
software yang tradisional. Tatangan utama dalam menangani big data dan beban kerjanya
yang besar adalah, keragaman dan volume data, kompleksitas beban kerja analitis dan
beban kerja.

Contoh penggunaan :

1. Lembaga keuangan dapat menggunakan analisis big data agar cepat mengidentifikasi
potensi penipuan sebelum menjadi besar efeknya, sehingga meminimalkan resiko
kerugian secara finansial.
2. Pemerintahan dapat manfaatkan analisis big data untuk meningkatkan keamanan
negara dengan mampu mendeteksi, mencegah dan melawan serangan cyber.
3. Industri kesehatan dapat menggunakan analisis terhadap big data untuk meningkatkan
layanan perawatan pasien dan menemukan cara yang lebih baik untuk mengelola
sumber daya dan personil.
4. Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mencegah
churn pelanggan, dan juga merencanakan cara terbaik untuk mengoptimalkan jaringan
nirkabel baik yang baru maupun yang sudah ada.
5. Marketing dapat menggunakan big data untuk melakukan analisis sentimen untuk
mengetahui tingkat kepuasan pelanggan terhadap produk dan layanan yang dipasarkan.
6. Perusahaan asuransi dapat menggunakan analisis big data untuk mengkategorikan
pengajuan asuransi yang dapat segera diproses, dan mana yang perlu divalidasi dengan
dilakukan kunjungan oleh agen asuransi.
7. Perusahaan ritel dapat menggunakan informasi dari social media seperti Facebook,
Twitter, Google+ yang disimpan dengan teknologi big data, yang selanjutnya
digunakan untuk menganalisis bagaimana perilaku, persepsi pelanggan terhadap suatu
produk atau brand dari perusahan.

3. Berikan contoh dan penjelasan penggunaan model data analytics di bisnis (jelaskan
pula model dan metode yang dipakai)
-Industri Penerbangan
Setiap perusahaan penerbangan mempunyai data masing-masing, namun perusahaan
penerbangan saat ini umumnya hanya menggunakan data pembelian tiket penumpang,
seperti kota asal dan kota tujuan, serta pembelian tiket melalui situs resmi atau tidak.
Perusahaan penerbangan tidak melihat data di luar itu, misalnya data interaksi ketika calon
penumpang berada di depan komputer untuk membeli tiket. Mereka mungkin hanya
melihat pelanggan terbang dari Jakarta-Jogja misalnya, tapi sebelum memutuskan itu
sebenarnya dia ingin menuju Solo. Penting bagi perusahaan penerbangan untuk melihat
pola interaksi calon penumpangnya. Sebagai contoh, ketika penumpang mengetik Solo
dalam situs penjualan tiket, kemudian menge-klik back dan mengetik Jogja, kota dengan
bandara terdekat dari Solo, perusahaan patut mencurigai pola interaksi seperti ini. Bisa jadi
penumpang membeli tiket Jogja karena penerbangan Solo lebih terbatas atau lebih mahal.
Perusahaan penerbangan dapat memanfaatkan Big Data tersebut untuk kemudian
memperbanyak jumlah penerbangan ke Solo atau memberikan harga promo atau bekerja
sama dengan travel agent untuk memfasilitasi penumpang dari Jogja ke Solo. Jika
perusahaan penerbangan mengetahui data ini (Big Data aktivitas penumpang di website),
mereka mungkin bisa mengambil keputusan yang lebih tepat, dengan membuat rute yang
lebih atraktif karena mengetahui market yang potensial.

- Model yang digunakan adalah Klasifikasi


Klasifikasi adalah salah satu teknik machine learning. Teknik ini termasuk ke dalam tipe
supervised learning. Istilah dari klasifikasi didapat dari tujuan utama teknik ini untuk
memprediksikan suatu kategori dari input data.

- Metode yang digunakan adalah Market Basket

Market Basket Analysis merupakan sebuah analisis terhadap kebiasaan customer


berbelanja pada supermarket dengan cara menemukan asosiasi dan korelasi di antara
berbagai macam item yang dimasukkan customer di dalam keranjang belanjaannya. Market
Basket Analysis bertujuan untuk mengetahui item apa saja yang sering dibeli bersamaan
oleh customer.

4. Jelaskan aktivitas apa saja dalam data analytics

Data analytics work flow

Data Set  Data Analytics Method  Knowledge


- estimation : merupakan metode dengan pendekatan algoritma linear regression untuk
mengetahui hubungan antara dependen variabel dan independen variabel
- prediction : disebut time series forecasting, merupakan teknik untuk memprediksi data
analitik dengan metode Data Driven dan Model Driven
- classification :Memberikan koleksi rekaman/ given a collection of records (training
set) ;setiap records berisikan a set of attributes, salah satu atributenya adalah class.
- clustering : metode penganalisaan data, yang sering dimasukkan sebagai salah satu
metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan
karakteristik yang sama ke suatu 'wilayah' yang sama dan data dengan karakteristik yang
berbeda ke 'wilayah' yang lain.
- association : Tujuan metode ini adalah menghasilkan sejumlah role yang menjelaskan
sejumlah data yang terhubung kuat satu dengan yang lainnya.

5. Jelaskan minimal 2 tipe data yang anda ketahui berikut contohnya

Structured Data : data yang mudah diterjemahkan, mudah dipahami, dianalisis

Contoh : Relational database, Customer Data, Sales Data, Sensor Data


Unstructured Data : informasi yang sulit dikelola/diolah menggunakan mekanisme
tradisional, membutuhkan proses untuk memahami data, strukturnya tidak beraturan, sulit
untuk dipahami

Contoh : Email, video, files, audio files, web pages, presentations, social media feeds

6. Beri contoh sebuah model (data analytics) dan sebuah metode/algoritma yang sesuai,
dan jelaskan hasil yang bisa didapatkan dari model tersebut

Terdapat kasus untuk membuat model prediksi pada elektabilitas caleg dalam data pemilu.
Untuk membuat model tersebut bisa menggunakan beberapa aplikasi yang sudah
disebutkan, maka dalam membuat model prediksi ini tool yang digunakan yaitu aplikasi
RapidMiner. Pada prediksi dalam data pemilu ini menggunakan metode Klasifikasi,
karena kita akan mencari tahu dengan menggunakan model Decision Tree.

Training Prediction Model (DataSet)

Pada tahap awal training prediksi model dalam aplikasi maka harus mengumpulkan
data terlebih dahulu yang disimpan dalam excel dengan format .csv agar bisa terbaca dalam
RapidMiner, data yang didapatkan untuk memprediksi elektabilitas caleg seperti berikut

Training Pemodelan Data


Setelah mengumpulkan data maka tahap selanjutnya yaitu membuat model dengan
aplikasi RapidMiner, model yang digunakan pada RapidMiner yaitu Decision Tree,

1. Decision Tree

Decision tree termasuk dari kategori klasifikasi, decision tree terdiri dari kumpulan
decision node. Dimana setiap node akan dihubungkan oleh cabang. Node yang teratas
disebut root node sedangkan yang paling bawah disebut sebagai leaf node. Saat proses
decision tree berjalan semua node pada tree akan dievaluasi. Dalam decision tree, akan
dilakukan pembagian sekumpulan variabel independen ke kelompok-kelompok yang lebih
kecil lagi. Proses tersebut akan dilakukan berulang di setiap cabang dari tree untuk
memilih variable independen yang memiliki keterkaitan yang kuat dengan variable
dependen berdasarkan suatu kriteria yang diinginkan. Model dari decision tree yang dibuat
akan bergantung pada komposisi data dalam data yang akan di training dan di testing
(training dan testing set).

Hasil :

Berdasarkan hasil yang didapatkan bahwa jika hasil suara sah caleg itu lebih dari 3.082
suara maka akan . Lalu, jika hasil suara sah caleg kurang dari sama dengan 3.082 suara
maka akan melihat suara sah caleg lainnya, dari hasil tersebut jika terdapat suara kurang
dari sama dengan 2.418 suara maka akan melihat kembali suara sah caleg lainnya, jika
suara tersebut mendapatkan hasil kurang dari sama dengan 1.436 maka . Jika mendapatkan
suara lebih dari 1.436 suara maka akan melihat kembali suara caleg yang lain, jika pada
caleg tersebut memperoleh lebih dari 1.468 maka akan Lalu, jika suara yang diperoleh oleh
caleg lain lebih dari 1.468 .

Lalu melihat kembali dengan prediksi sebelumnya, jika suara yang diperoleh lebih dari
2.418 maka akan melihat lagi suara sah caleg lainnya, jika suara yang diperoleh lebih dari
2.935 Namun jika suara yang diperoleh kurang dari sama dengan 2.935 . Jika suara
partainya kurang dari sama dengan 16.443 , dan jika suara sah partainya lebih dari 16.443

Jika daerah pemilihannya kurang dari sama dengan 1 , lalu jika daerah pemilihannya
lebih dari 1 maka akan dilihat lagi suara sah partai lainnya. Jika suara yang diperoleh lebih
dari 83.822 . Lalu, jika suara partai yang diperoleh kurang dari sama dengan 83.822 maka
akan dilihat hasil suara sah calegnya. Jika suara yang diperoleh lebih dari 244 , dan jika
suara yang diperoleh kurang dari sama dengan 244 . Kesimpulan Accuracy

7. Berikan sebuah contoh insight dari sebuah visualisasi (ambil contoh di ppt)

Gambar rekaan patern


- Jeweloree’s mood

Pattern tersebut menunjukkan pola pendengaran lagu orang di wilayah america dalam
kurun waktu 120 hari. Terlihat dari pola nya terdapat perbedaan warna yang menunjukkan mood
dari pendengar music beserta lagu yang di dengarkan nya.
8. Apa yang dimaksud dengan korelasi, berikan contohnya dan jelaskan

Secara sederhana, korelasi dapat diartikan sebagai hubungan. Korelasi merupakan salah
satu teknik analisis dalam statistik yang digunakan untuk mencari hubungan antara dua
variabel yang bersifat kuantitatif. Hubungan dua variabel tersebut dapat terjadi karena
adanya hubungan sebab akibat atau dapat pula terjadi karena kebetulan saja.

-Perfect Positive Correlation : adalah hubungan antara dua variabel di mana kedua variabel
bergerak bersama-sama. Korelasi positif ada ketika satu variabel menurun ketika variabel
lain menurun, atau satu variabel meningkat sementara yang lain meningkat.
High Positive Correlation
Low Positive Correlation : Ketika nilai r lebih dekat ke +1 atau -1, itu menunjukkan bahwa
ada hubungan linear yang lebih kuat antara dua variabel. Korelasi 0,10 akan menjadi
korelasi positif yang lemah.
No Correlation : adalah korelasi yang terjadi apabila kedua variabel (X dan Y) tidak
menunjukkan adanya hubungan linear
Low Negative Correlation : Korelasi negatif berarti bahwa ada hubungan terbalik antara
dua variabel - ketika satu variabel menurun, yang lain meningkat. Sebaliknya adalah
korelasi negatif juga, di mana satu variabel meningkat dan yang lainnya menurun.
High Negative Correlation : Ketika nilai r lebih dekat ke +1 atau -1, itu menunjukkan
bahwa ada hubungan linear yang lebih kuat antara dua variabel. Korelasi -0,97 adalah
korelasi negatif yang kuat.
Perfect Negative Correlation : adalah hubungan antara dua variabel di mana satu variabel
meningkat ketika yang lain menurun, dan sebaliknya. Dalam statistik, korelasi negatif
sempurna diwakili oleh nilai -1,00, 0,00 menunjukkan tidak ada korelasi, dan +1,00
menunjukkan korelasi positif yang sempurna.
9. Apa yang dimaksud dengan time series, jelaskan insight apa yang bisa didapat

Deret Waktu (Time series) adalah serangakaian nilai-nilai variabel yang disusun
berdasarkan waktu. Analisis time series mempelajari pola gerakan nilai-nilai variabel pada
satu interval waktu (misalnya minggu, bulan, tahun) yang teratur. Metode ini didasarkan
pada asumsi bahwa pola lama akan terulang.

10. Apa yang dimaksud dengan kompleksitas

Banyaknya data yang berasal dari berbagai sumber menyebabkan cukup sulitnya
menghubungkan, mencocokan, membersihkan dan mengubah data di seluruh sistem.

- Komputasi teori kompleksitas adalah cabang dari teori komputasi dalam ilmu komputer
teoritis yang berfokus pada mengklasifikasikan masalah komputasi sesuai dengan kesulitan
yang melekat, dan menghubungkan kelas kompleksitas yang dihasilkan satu sama
lain.(Wikipedia.com) computational complexity sejenis dengan analisis dari suatu
algoritma, dan secara umum merupakan cabang dari teori matematis.
- Data Structure Complexity, data struktur adalah sutu pengorganisasian data, manajemen
dan format penyimpanan yang mamu memberikan akses secara efisien dan modifikasi.
kompleksitas dari suatu data struktur bergantung pada seberapa sering data struktur
tersebut digunakan dan bagaimana data struktur tersebut mudah dimengerti, digunakan dan
diaplikasikan. contoh data struktur yang complex, radix trees, tries, sufix tree

11. Jelaskan Karakteristik sebuah sistem/data/masalah kompleks

1. Sistem yang complex terdiri dari elemen dalam jumlah besar yang bisa menjadi sederhana.
2. Elemen-elemennya secara dinamis bertukar energi atau informasi, interaksi dalam jumlah
yang besar melalui suatu sistem (interaksi bentuk nonlinear).
3. Terdapat banyak perputaran feedback baik secara langsung maupun tidak langsung.
4. Sistem kompleks adalah sistem yang terbuka, beroperasi pada kondisi yang jauh dari
ekuilibrium.
5. Sistem yang kompleks memiliki memory, tidak terletak pada tempat yang spesifik namun
terdistribusi melalui sistem. sehingga tiap sistem yang compleks memiliki history, dimana
history tersebut sangat penting bagi perilaku sistem.
6. Tidak dapat terprediksi dari pemeriksaan bagian dari komponen-komponennya karena
interaksi sistem yang dinamis, feedback, nonlinear.
7. Sistem yang kompleks memiliki karakteristik yang adaptif. sistemnnya dapat mengenali
struktur internalnya tanpa campur tangan dari agen external.
12. Apa itu algoritma

Alogaritma adalah prosedur yaang terdefinisi dengan baik yang memungkinkan komputer
memecahkan masalah.
Alogaritma merupakan seperangkat aturan yang secara tepat mendefinisikan urutan
operasi.

Cara lain untuk menggambarkan suatu algoritma adalah urutan instruksi yang tidak
ambigu. Penggunaan istilah 'tidak ambigu' menunjukkan bahwa tidak ada ruang untuk
interpretasi subjektif. Setiap kali Anda meminta komputer Anda untuk melakukan
algoritma yang sama, itu akan melakukannya dengan cara yang persis sama dengan hasil
yang sama persis.

13. Apa saja faktor pengukuran kompleksitas

a) Time : berapa lama waktu yang dibutuhkan algoritma untuk menyelesaikan data
b) Space : berapa banyak memori (RAM) yang diutuhkan oleh algoritma dalam sebuah data
Ada 2 aspek yaitu:
- jumlah memori yang dibutuhkan oleh kode
- jumlah memori yang dibutuhkan pada operasi kode
14. Apa itu modelling
- Modelling adalah proses menghasilkan model; model adalah
representasi/perbuatan dari konstruksi dan kerja dari beberapa sistem yang
diminati.
- Sebuah Model mirip dengan tetapi lebih sederhana daripada sistem yang
diwakilinya.
- Salah satu tujuan dari sebuah model adalah untuk memungkinkan analis
memprediksi efek perubahan pada sistem.
- Suatu model harus mendekati perkiraan sistem yang sebenarnya dan
menggabungkan sebagian besar fitur yang menonjol.
- Di sisi lain, seharusnya tidak begitu rumit sehingga sulit memahami dan
bereksperimen dengannya. Model yang baik adalah tradeoff yang bijaksana
antara realisme dan kesederhanaan.
- Masalah penting dalam pemodelan adalah validitas model. Validasi model
teknik termasuk simulasi model di bawah kondisi input yang dikenal dan
membandingkan output model dengan output sistem.

15. Apa itu simulation


- Simulasi sistem adalah operasi dari model sistem.
- Model dapat dikonfigurasi/dibentuk ulang dan bereksperimen; biasanya, ini
tidak mungkin, terlalu mahal atau tidak praktis untuk dilakukan dalam sistem
yang diwakilinya.
- Operasi model dapat dipelajari, dan karenanya, sifat-sifat yang menyangkut
perilaku sistem aktual atau subsistemnya dapat disimpulkan.
- Dalam arti luasnya, simulasi adalah alat untuk mengevaluasi kinerja suatu
sistem, yang ada atau yang diusulkan, di bawah konfigurasi minat yang berbeda
dan selama periode waktu nyata(realtime) yang lama.
- Contoh Simulasi: Metode Monte Carlo adalah kelas luas dari algoritma
komputasi yang bergantung pada pengulangan sampling acak untuk
mendapatkan hasil numerik. Ide esensial mereka adalah menggunakan
keacakan untuk memecahkan masalah yang mungkin bersifat deterministic atau
dapat diukur dengan derajat kepastian yang cukup tinggi.

Why Simulation? Model sangat kompleks (dengan banyak variabel) dan komponen yang
saling berinteraksi

 Model berisi variasi acak


 Biaya tinggi untuk membuat prototipe atau tidak praktis
 Kerapuhan sistem
 Menghasilkan lingkungan bebas risiko + menghemat uang dan waktu
Monte Carlo Methods

16. Jelaskan apa itu Data Pre-Processing berikut tugas-tugas yang ada di dalamnya
Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu
proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang
berkualitas(input yang baik untuk data mining tools).
Why Data Pre-Processing?
Karen dalam data mentah masih banyak yang:
Akurasi: benar atau salah, akurat atau tidak
Kelengkapan: tidak direkam, tidak tersedia, ...
Konsistensi: beberapa dimodifikasi tetapi beberapa tidak, ...
Ketepatan waktu: pembaruan tepat waktu?
Percaya/Believability: seberapa aman data itu benar?
Interpretasi: seberapa mudah data dapat dipahami?

Tugas-tugas yang ada didalamnya:


1. Data Cleaning

- Mengisi nilai yang hilang


- Meratakan noisy data
- Identifikasi atau menghapus outliers
- Menyelesaikan inkonsistensi

2. Data Integration
- Pengurangan dimensi
- Pengurangan numerosity
- Kompresi data

3. Data Transformation
Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih
berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing),
meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur.
4. Data Reduction

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang
akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi
data.
Kenapa data reduction?
Database / gudang data dapat menyimpan terabyte data

Analisis data yang rumit membutuhkan waktu yang sangat lama untuk berjalan pada
dataset lengkap
Strategi Pengurangan Data
Pengurangan dimensi
Seleksi Fitur (pilih atribut apa yang paling berkorelasi)
Ekstraksi Fitur (Contoh: BOD usia)
Pengurangan Numerosity (Pengurangan Data)
Model Regresi dan Log-Linear
Histogram, pengelompokan, sampling.
Metode Umum dalam Model Data Analitik

1. Estimation (estimasi), untuk menerka sebuah nilai yang belum diketahui, misal menerka
penghasilan seseorang ketika informasi mengenai orang tersebut diketahui. Metode yang
digunakan antara lain Point Estimation dan Confidence Interval Estimations, Simple
Linear Regression dan Correlation, dan Multiple Regression.

2. Prediction (prediksi), untuk memperkirakan nilai masa mendatang, missal memprediksi


stok barang satu tahun ke depan. Fungsi ini mencakup metode Neural Network, Decision
Tree, dan k–Nearest Neighbor.

3. Classification (klasifikasi), merupakan proses penemuan model atau fungsi yang


menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Metode yang
digunakan antara lain Neural Network, Decision Tree, k-Nearest Neighbor, dan Naive
Bayes.

4. Clustering (pengelompokan), yaitu pengelompokan mengidentifikasi data yang memiliki


karakteristik tertentu. Metode dalam fungsi ini diantaranya Hierarchical Clustering,
metode K-Means, dan Self Organizing Map (SOM)

5. Association (asosiasi), dinamakan juga analisis keranjang pasar dimana fungsi ini
mengidentifikasi item-item produk yang kemungkinan dibeli konsumen bersamaan dengan
produk lain. Metode atau algoritma dalam fungsi ini adalah Apriori, Generalized
Sequential Pattern (GSP), FP-Growthdan GRI algorithm

17. Apa itu Machine Learning


Machine learning adalah cabang aplikasi dari Artificial Intelligence (Kecerdasan Buatan)
yang focus pada pengembangan sebuah sistem yang mampu belajar "sendiri" tanpa harus
berulang kali di program oleh manusia.

Aplikasi Machine learning membutuhkan Data sebagai bahan belajar (training) sebelum
mengeluarkan output. Aplikasi sejenis ini juga biasanya berada dalam domain spesifik alias
tidak bisa diterapkan secara general untuk semua permasalahan.

Contoh penerapan machine learning dalam kehidupan adalah sebagai berikut.

1. Penerapan di bidang kedoteran contohnya adalah mendeteksi penyakit seseorang dari


gejala yang ada. Contoh lainnya adalah mendeteksi penyakit jantung dari
rekaman elektrokardiogram.
2. Pada bidang computer vision contohnya adalah penerapan pengenalan wajah dan
pelabelan wajah seperti pada facebook. Contoh lainnya adalah penterjemahan tulisan
tangan menjadi teks.

3. Pada biang information retrival contohnya adalah penterjemahan bahasa dengan


menggunakan komputer, mengubah suara menjadi teks, dan filter email spam.

18. Apa yang dimaksud dengan Data-Split (dataset splitting)


The Split Data Operator mengambil dataset sebagai inputnya dan mengirimkan subset dari
dataset tersebut melalui port outputnya.
Parameter jenis pengambilan sampel memutuskan bagaimana contoh harus dikocok dalam
partisi yang dihasilkan:

1. Pengambilan sampel linier: Pengambilan sampel linier secara sederhana membagi


dataset ke dalam partisi tanpa mengubah urutan contoh Subset dengan contoh yang
berurutan dibuat.

2. Shuffled sampling: Shuffled sampling membangun subset acak dari dataset Contoh
dipilih secara acak untuk membuat himpunan bagian.

3 Stratified sampling: Stratified sampling membangun subset acak dan memastikan


distribusi kelas dalam subset sama dengan seluruh dataset Dalam kasus klasifikasi
binominal, stratified sampling membangun subset acak sehingga masing-masing bagian
berisi kira-kira proporsi yang sama dari dua nilai label.

Metode Cross-Validasi digunakan untuk menghindari overlappingchoice dari data


pengujian

19. Apa perbedaan Estimasi dan Perkiraan (Estimation and Forecasting)

 Estimasi : Memperkirakan suatu hal dari sejumlah sample yang kita miliki (yg tidak
kita ketahui) atau data historis.
Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah
berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit)
Estimasi nilai dari variabletarget ditentukan berdasarkan nilai dari variabel prediktor(
atribut)
Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network,
Support Vector Machine.
 Prediksi/forecasting sama dengan algoritma estimasi di mana label/target/classbertipe
numerik, bedanya adalah data yang digunakan merupakan data rentet waktu (data
timeseries)
Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi
timeseries, karena sifatnya yang bisa menghasilkan classberdasarkan berbagai atribut
yang kita sediakan
Semua algoritma estimasi dapat digunakan untuk prediksi/forecasting

20. Apa yang dimaksud dengan regression, berikan contoh


Regresi adalah sebuah fungsi yang digunakan untuk melihat pengaruh antara dua
atau lebih variabel, dengan cara melihat hubungan antara variable yang ingin
diramalkan (Dependent variabel) dengan variabel lain (Independent variabel).

Misalnya, bank menilai resiko pemohon kredit rumah berdasarkan usia, pendapatan
bulanan, biaya bulanan, pekerjaan, jumlah anak, penggunaaan kartu kredit, dll
Model Persamaan Regresi Linear Sederhana adalah seperti berikut ini :

Y = a + bX
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent)
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor.

Berikut ini adalah Langkah-langkah dalam melakukan Analisis Regresi Linear Sederhana
:
1. Tentukan Tujuan dari melakukan Analisis Regresi Linear Sederhana
2. Identifikasikan Variabel Faktor Penyebab (Predictor) dan Variabel Akibat
(Response)
3. Lakukan Pengumpulan Data
4. Hitung X², Y², XY dan total dari masing-masingnya
5. Hitung a dan b berdasarkan rumus diatas.
6. Buatkan Model Persamaan Regresi Linear Sederhana.
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau Variabel
Akibat.

Contoh Kasus Analisis Regresi Linear Sederhana

Seorang Engineer ingin mempelajari Hubungan antara Suhu Ruangan dengan Jumlah Cacat yang
diakibatkannya, sehingga dapat memprediksi atau meramalkan jumlah cacat produksi jika suhu
ruangan tersebut tidak terkendali. Engineer tersebut kemudian mengambil data selama 30 hari
terhadap rata-rata (mean) suhu ruangan dan Jumlah Cacat Produksi.

Penyelesaian

Penyelesaiannya mengikuti Langkah-langkah dalam Analisis Regresi Linear Sederhana adalah


sebagai berikut :

Langkah 1 : Penentuan Tujuan

Tujuan : Memprediksi Jumlah Cacat Produksi jika suhu ruangan tidak terkendali

Langkah 2 : Identifikasikan Variabel Penyebab dan Akibat

Varibel Faktor Penyebab (X) : Suhu Ruangan,


Variabel Akibat (Y) : Jumlah Cacat Produksi

Langkah 3 : Pengumpulan Data

Berikut ini adalah data yang berhasil dikumpulkan selama 30 hari (berbentuk tabel) :

Tanggal Rata-rata Suhu Ruangan Jumlah Cacat


1 24 10
2 22 5
3 21 6
4 20 3
5 22 6
6 19 4
7 20 5
8 23 9
9 24 11
10 25 13
11 21 7
12 20 4
13 20 6
14 19 3
15 25 12
16 27 13
17 28 16
18 25 12
19 26 14
20 24 12
21 27 16
22 23 9
23 24 13
24 23 11
25 22 7
26 21 5
27 26 12
28 25 11
29 26 13
30 27 14

Langkah 4 : Hitung X², Y², XY dan total dari masing-masingnya

Berikut ini adalah tabel yang telah dilakukan perhitungan X², Y², XY dan totalnya :

Rata-rata Suhu Jumlah


Tanggal Ruangan (X) Cacat (Y) X2 Y2 XY
1 24 10 576 100 240
2 22 5 484 25 110
3 21 6 441 36 126
4 20 3 400 9 60
5 22 6 484 36 132
6 19 4 361 16 76
7 20 5 400 25 100
8 23 9 529 81 207
9 24 11 576 121 264
10 25 13 625 169 325
11 21 7 441 49 147
12 20 4 400 16 80
13 20 6 400 36 120
14 19 3 361 9 57
15 25 12 625 144 300
16 27 13 729 169 351
17 28 16 784 256 448
18 25 12 625 144 300
19 26 14 676 196 364
20 24 12 576 144 288
21 27 16 729 256 432
22 23 9 529 81 207
23 24 13 576 169 312
24 23 11 529 121 253
25 22 7 484 49 154
26 21 5 441 25 105
27 26 12 676 144 312
28 25 11 625 121 275
29 26 13 676 169 338
30 27 14 729 196 378
Total (Σ) 699 282 16487 3112 6861

Langkah 5 : Hitung a dan b berdasarkan rumus Regresi Linear Sederhana

Menghitung Konstanta (a) :

a = (Σy) (Σx²) – (Σx) (Σxy)


. n(Σx²) – (Σx)²

a = (282) (16.487) – (699) (6.861)


30 (16.487) – (699)²

a = -24,38

Menghitung Koefisien Regresi (b)

b = n(Σxy) – (Σx) (Σy)


. n(Σx²) – (Σx)²

b = 30 (6.861) – (699) (282)


. 30 (16.487) – (699)²

b = 1,45

Langkah 6 : Buat Model Persamaan Regresi

Y = a + bX
Y = -24,38 + 1,45X

Langkah 7 : Lakukan Prediksi atau Peramalan terhadap Variabel Faktor Penyebab atau
Variabel Akibat

I. Prediksikan Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X), contohnya :
30°C
Y = -24,38 + 1,45 (30)
Y = 19,12

Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 19,12 unit
cacat yang dihasilkan oleh produksi.

II. Jika Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 4 unit, maka berapakah suhu
ruangan yang diperlukan untuk mencapai target tersebut ?

4 = -24,38 + 1,45X
1,45X = 4 + 24,38
X = 28,38 / 1,45
X = 19,57

Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah
sekitar 19,57°C

21. Apa yang dimaksud dengan time series forecasting


Time series forecasting melibatkan pengembangan model yang paling menggambarkan
serangkaian waktu yang diamati untuk memahami penyebab yang mendasar.
Variabel independen atau prediktor tidak benar-benar diperlukan untuk peramalan seri waktu
univariat, tetapi sangat disarankan untuk deret waktu multivariasi.
Metode peramalan seri waktu:

Data Driven Metod: Tidak ada perbedaan antara prediktor dan target. Teknik seperti time series
averaging atau smoothing dianggap sebagai pendekatan berbasis data untuk peramalan seri waktu.
Data Driven Methods: Naïve Forecast, Simple Average, Moving Average, Weighted Moving
Average.

Model Driven Method: Mirip dengan model prediksi "konvensional", yang memiliki variabel
independen dan dependen, tetapi dengan twist: variabel independen sekarang waktu

• Model Driven Method : Linear Regression


• Polynomial Regression
• Linear Regression with Seasonality

• Autoregression Models and ARIMA


Contoh time series forecasting

 Memprakirakan hasil jagung dalam ton oleh negara setiap tahun.


 Memprakirakan apakah jejak EEG dalam detik menunjukkan pasien mengalami kejang
atau tidak.
 Memprakirakan harga penutupan sebuah saham setiap hari.
 Memprakirakan angka kelahiran di semua rumah sakit di kota setiap tahun.

22. Jelaskan apa itu model Klasifikasi (Classification)


Klasifikasi adalah salah satu teknik machine learning. Teknik ini termasuk ke dalam tipe
supervised learning. Istilah dari klasifikasi didapat dari tujuan utama teknik ini untuk
memprediksikan suatu kategori dari input data.

 Tujuan: catatan yang sebelumnya tidak terlihat harus diberi kelas seakurat mungkin.
Satu set tes digunakan untuk menentukan akurasi model. Biasanya, set data yang diberikan
dibagi menjadi pelatihan dan set tes, dengan set pelatihan yang digunakan untuk
membangun model dan set tes yang digunakan untuk memvalidasi itu.
Ilustrasi Tugas Klasifikasi

Tid Attrib1 Attrib2 Attrib3 Class Learning


1 Yes Large 125K No
algorithm
2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No


Induction
5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No Learn


8 No Small 85K Yes Model
9 No Medium 75K No

10 No Small 90K Yes


Model
10

Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ? Deduction


14 No Small 95K ?

15 No Large 67K ?
10

Test Set
23. Berikan contoh penerapan model klasifikasi pada bisnis/proses

 Memprediksi sel tumor sebagai jinak atau ganas


 Mengklasifikasikan transaksi kartu kredit - sebagai sah atau curang
 Mengklasifikasi struktur sekunder protein? Sebagai alpha-helix, beta-sheet, atau
random? Coil
 Mengkategorikan berita sebagai keuangan,? Cuaca, hiburan, olahraga, dll

24. Apa yang dimaksud dengan underfitting dan overfitting Apa yang dimaksud dengan
underfitting dan overfitting

Underfitting : ketika suatu model terlalu simple, lalu error pada training dan testnya.
Overfitting : kekurangan data point di bagian bawah diagram sehingga sulit untuk memprediksi
secara benar class labels pada wilayah tertentu.

hasil overfitting pada decision tress lebih kompleks dari biasanya.

25. Metrik apa yang digunakan untuk mengukur akurasi model klasifikasi
Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja
suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang
membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang
seharusnya. Berdasarkan jumlah keluaran kelasnya, sistem klasifikasi dapat dibagi menjadi 4
(empat) jenis yaitu klasifikasi binary, multi-class, multi-label dan hierarchical.
1. Pada klasifikasi binary, data masukan dikelompokkan ke dalam salah satu dari dua kelas.
Jenis klasifikasi ini merupakan bentuk klasifikasi yang paling sederhana dan banyak
digunakan.
2. klasifikasi multi-class, data masukan diklasifikasikan menjadi beberapa kelas. Sebagai
contoh sistem yang dapat mengklasifikasikan jenis kendaraan seperti sepeda, sepeda
motor, mobil, bus, truk, dan sebagainya.
3. Klasifikasi multi-label pada dasarnya sama dengan multi-class dimana data
dikelompokkan menjadi beberapa kelas, namun pada klasifikasi multi-label, data dapat
dimasukkan dalam beberapa kelas sekaligus.
4. Klasifikasi Hierarchical. Data masukan dikelompokkan menjadi beberapa kelas, namun
kelas tersebut dapat dikelompokkan kembali menjadi kelas-kelas yang lebih sederhana
secara hirarkis.

Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat) istilah sebagai
representasi hasil proses klasifikasi. Keempat istilah tersebut adalah True Positive (TP),
True Negative (TN), False Positive (FP) dan False Negative (FN). Nilai True Negative
(TN) merupakan jumlah data negatif yang terdeteksi dengan benar, sedangkan False
Positive (FP) merupakan data negatif namun terdeteksi sebagai data positif. Sementara itu,
True Positive (TP) merupakan data positif yang terdeteksi benar. False Negative (FN)
merupakan kebalikan dari True Positive, sehingga data positif namun terdeteksi sebagai
data negatif.

26. Metode apa yang digunakan untuk mengukur presisi model klasifikasi
Confusion matrix adalah suatu metode yang biasanya digunakan untuk
melakukan perhitungan akurasi pada konsep data mining. Rumus ini
melakukan perhitungan dengan 4 keluaran, yaitu: recall, precision, acuraccy
dan error rate.
- Recall adalah proporsi kasus positif yang diidentifikasi dengan benar.
Rumus dari recall = d/(c+d)
- Precision adalah proporsi kasus dengan hasil positif yang benar.
Rumus dari Precision = d/(b+d)
- Accuracy adalah perbandingan kasus yang diidentifikasi benar denganjumlah semua kasus
Rumus dari accuracy= (a+c)/(a+b+c+d)
- Error Rate adalah kasus yang diidentifikasi salah dengan sejumlah semuakasus
Rumus dari Error Rate = (b+c)/(a+b+c+d)

Keterangan:
a) a jika hasil prediksi negatif dan data sebenarnya negatif.
b) b jika hasil prediksi positif sedangkan nilai sebenarnya negatif.
c) c jika hasil prediksi negatif sedangkan nilai sebenarnya positif.
d) d jika hasil prediksi positif dan nilai sebenarnya positif

Anda mungkin juga menyukai