www.polytron.co.id
Company Profile
www.polytron.co.id
Data Analytics?
www.polytron.co.id
Tujuan
www.polytron.co.id
Kegunaan
• Membuat keputusan
– Calon karyawan akan diterima atau tidak
• Proyeksi masa depan (bukan hal umum)
– Karyawan mempunyai potensi keluar atau tidak
www.polytron.co.id
Contoh analisa data yang sederhana:
Terlambat 7 0 1 0 5
Pulang 0 1 1 1 8
Cepat
Izin 3 0 0 1 4
Alpa 1 0 2 0 2
www.polytron.co.id
Contoh analisa data yang sederhana:
Terminasi
www.polytron.co.id
Rangkaian Proses
Validasi dan
Identifikasi Pengumpulan Visualisasi
Evaluasi Kasus Pembersihan Analisa Data
Data Data Data
Data
www.polytron.co.id
Increasing potential
to support business
End User
decisions Decision
Making
Data Exploration
Statistical Summary, Querying, and Reporting
www.polytron.co.id
www.polytron.co.id
www.polytron.co.id
Tools
• Excel
• SQL Server Management Studio
• Python
• Rapidminer
www.polytron.co.id
Permasalahan
www.polytron.co.id
Jenis data
• Big Data
• terstruktur
• Normal Data
• Big Data
• tidak terstruktur
• Normal Data
www.polytron.co.id
Internal Big Data
www.polytron.co.id
Eksternal Big Data
www.polytron.co.id
Pemanfaatan Data Analytics
www.polytron.co.id
From Stupid Apps to Smart Apps
www.polytron.co.id
Pengumpulan Data
www.polytron.co.id
Macam basis data
• Data Relasional
• Data karyawan
• Data penjualan
• Data Non Relasional
• Data Eksternal (Facebook, Instagram, Google, dsb)
www.polytron.co.id
Attribute/Feature Class/Label/Target
Record/
Object/
Sample/
Tuple
Nominal
Numerik
www.polytron.co.id
www.polytron.co.id
Data Karyawan
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Pengumpulan Data Leave Prediction
www.polytron.co.id
Data Mutasi
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Data Personal Info
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Google API Distance Matrix
www.polytron.co.id
Data Personal Info (+Distance)
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Data Keluarga
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Data Payroll
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Leave Prediction
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1
www.polytron.co.id
Kesalahan Umum Data Import
Tipe Data !
ID NIK Name Company Department Job Title
640 01000419 Name 419 HIT Administration Product Trainer
655 01000422 Name 422 HIT Commercial Product Specialist
703 01000423 Name 423 HIT Administration Product Trainer
715 01000424 Name 424 HIT Commercial Head of Brand Development
1000424
www.polytron.co.id
Pengumpulan Data Sentiment Analysis
www.polytron.co.id
Sentiment Analysis
Parsing
Menentukan Menghilangkan Menjalankan
StopWord StopWord Algoritma
www.polytron.co.id
Social Media API
www.polytron.co.id
Data Sosial Media
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai
Nama2 Sarapan pagi ....mongho nasgornya
Nama3 Apakah dengan mengkibarkan bendera putih lantas virus ini merasa kasihan dan
pergi ?? ..... wow Amazing klo itu yg dimaksud pertanyaannya apakah mungkin sesederhana
itu ....jangan jangan hanya karena EGOIS PELIT sbb TIDAK MAU KELUAR ANGGARAN YANG
BESAR ...
Nama4 Idul Adha bareng papa 🙏🏻
Belajar Islam dari Papa❤️
Indahnya toleransi dalam perbedaan
www.polytron.co.id
Parsing
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai
Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”
www.polytron.co.id
StopWord
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai
Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”
StopWord
“Bila”;”pun,”;”itu”;”dan”;”yang”
www.polytron.co.id
Menghilangkan StopWord
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai
Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”
StopWord
“Bila”;”pun,”;”itu”;”dan”;”yang”
Menghilangkan StopWord
”kamu”;”punya”;”impian”;”apa”;”bermimpilah”;”selama”;”positif”;”nggak”;”merugikan”;”orang”;”l
ain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”perlu”;”kamu”;”jalani”;”bila”;”ingin”;”segala”
;”impian-impian”;”tersebut”;”tercapai”
www.polytron.co.id
Sentiment Analysis
www.polytron.co.id
Image Processing
www.polytron.co.id
Kenapa butuh Image Processing?
0,2902 0,0627
0,3882 0,0313
www.polytron.co.id
www.polytron.co.id
www.polytron.co.id
Entity Relationship Diagram
www.polytron.co.id
11% 13%
www.polytron.co.id
Sentiment Analysis
Name 1 Name 2
Name 3
www.polytron.co.id
Association Analysis
www.polytron.co.id
Masalah dalam Data Analytics
www.polytron.co.id
Masalah dalam Data Analytics
• Manusia
• Kemampuan Logika
• Pengetahuan Data
• Pengetahuan SQL
• Sistem
• Data tidak lengkap
• Noise
• Data cepat berubah
• Menskala data
www.polytron.co.id
Kemampuan logika dan Pengetahuan Data
www.polytron.co.id
Mengetahui data mana yang harus diambil
www.polytron.co.id
Table1
ID NIK Name
640 01000419 Name 419
655 01000422 Name 422
703 01000423 Name 423
715 01000424 Name 424
Table2
ID Startdate Enddate EmployeeID NoHP
208 1 April 2001 30 April 2005 640 0812345
789 1 Mei 2005 31 Desember 9999 640 0816789
www.polytron.co.id
Mengetahui data mana yang harus diambil
www.polytron.co.id
Table1
ID NIK Name
640 01000419 Name 419
655 01000422 Name 422
703 01000423 Name 423
715 01000424 Name 424
Table3
ID EmployeeID NoHP
890 640 0816789
www.polytron.co.id
O(n) O(1)
www.polytron.co.id
4.5
3.5
2.5
1.5
0.5
O(1) O(n)
www.polytron.co.id
Mengetahui algoritma mana yang harus digunakan
• Estimasi
• Prediksi
• Klasifikasi
• Klastering
• Asosiasi
www.polytron.co.id
Contoh
www.polytron.co.id
Pengetahuan SQL
www.polytron.co.id
www.polytron.co.id
Data tidak lengkap
ID NIK No KTP Tanggal Lahir
640 01000419 3319086607960002
655 01000422 3320132307950001 23 Juli 1979
703 01000423 3175060803620011 8 Maret 1962
715 01000424 0951061306834050 13 Juni 1983
www.polytron.co.id
Noise
www.polytron.co.id
Contoh noise
www.polytron.co.id
Contoh noise
www.polytron.co.id
Contoh noise
www.polytron.co.id
Data cepat berubah
www.polytron.co.id
Menskala data
www.polytron.co.id
Non RealTime RealTime
Kebutuhan Analisa
Normal Besar
Pertambahan data
www.polytron.co.id
PreProcessing
www.polytron.co.id
Kenapa Perlu PreProcessing?
• Akurasi data
• Kelengkapan data
• Konsistensi data
www.polytron.co.id
Hal yang Biasa Dilakukan
• Data cleaning
• Mengisi data yang kosong
• Mengidentifikasi atau menghilangkan outliers
• Data Reduction
• Pengurangan dimensi
• Data Integration
• Integrasi dari beberapa database
www.polytron.co.id
Data Cleaning
• Data terutama big data, sangat kotor, penuh dengan data yang salah
karena:
– instrumen rusak
– kesalahan manusia atau komputer
– kesalahan transmisi
www.polytron.co.id
Data Cleaning
www.polytron.co.id
Data Tidak Lengkap
www.polytron.co.id
Contoh Data tidak lengkap
PersonalDataId StartDate EndDate EmployeeDataId Gender BloodTypeId
11995-12-01 9999-12-31 2Laki-laki 3
21996-06-15 2020-05-20 3Laki-laki NULL
258992020-05-21 9999-12-31 3Laki-laki NULL
32013-11-01 9999-12-31 4Laki-laki NULL
42013-05-28 9999-12-31 5Laki-laki 3
52013-11-06 9999-12-31 6Laki-laki 3
62005-07-26 9999-12-31 7Laki-laki 3
72004-04-13 9999-12-31 8Laki-laki 3
82002-04-09 9999-12-31 9Laki-laki 3
92002-11-13 9999-12-31 10Laki-laki NULL
102001-11-13 9999-12-31 11Laki-laki 5
www.polytron.co.id
Cara Mengatasi Data Tidak Lengkap
www.polytron.co.id
Noise
• Data outlier
• Data yang salah
www.polytron.co.id
Data Outlier
www.polytron.co.id
Data Outlier
www.polytron.co.id
Data yang Salah
www.polytron.co.id
Cara Mengatasi Noise
• Data Outlier
• Klastering menghilangkan data outlier
• Data yang salah
• Regresi, Rata-rata menimpa data
www.polytron.co.id
Data Reduction
www.polytron.co.id
Data Reduction
www.polytron.co.id
Mengurangi Dimensi
• “Kutukan” Dimensi:
• Ketika dimensi meningkat, data menjadi semakin berjarak
• Kepadatan dan jarak antar titik, sangat penting untuk
pengelompokan, analisis outlier menjadi kurang bermakna
• Kemungkinan kombinasi subruang akan tumbuh secara
eksponensial
www.polytron.co.id
Mengurangi Dimensi
www.polytron.co.id
Cara Mengurangi Dimensi
• Feature Extraction
• Principal Component Analysis (PCA)
• Self Organizing Map (SOM)
• dll
• Feature Selection
• Filter
• Wrapper
• Hybrid
www.polytron.co.id
Feature Selection
• Redundansi Atribut
• Contoh: Atribut BirthDate dan atribut Age
• Atribut yang tidak relevan
• Atribut yang berisi informasi yang tidak berarti
• Contoh: EmployeeID untuk leave prediction
www.polytron.co.id
Feature Selection
www.polytron.co.id
Mengurangi Data
www.polytron.co.id
Data tanpa Reduction
www.polytron.co.id
Data dengan Reduction
www.polytron.co.id
Sampling
• Under sampling
• Mengurangi jumlah data
• Over sampling
• Menambah jumlah data
www.polytron.co.id
Sampling
www.polytron.co.id
Cara Melakukan Sampling
Raw Data Cluster/Stratified Sample
www.polytron.co.id
Data Integration
www.polytron.co.id
Permodelan
www.polytron.co.id
Algoritma dalam Data Mining:
• Klasifikasi
• Klastering
• Asosiasi
• Estimasi
• Prediksi
www.polytron.co.id
Evaluasi Data Mining
www.polytron.co.id
Pengujian Model
• Pembagian dataset :
• Data training : untuk pembentukan model
• Data testing : untuk pengujian model
www.polytron.co.id
Pemisahan data training dan data testing
• Secara manual
• Otomatis dengan Split Data
• Linear : apa adanya
• Shuffled : acak
• Stratified : acak dengan memperhatikan proporsi Class
• Otomatis dengan X Validation
• 10-fold cross validation
www.polytron.co.id
Uji Beda
C4.5 NB K-NN LDA RF
Accuracy 88.12% 86.27% 84.96% 59.63% 59.37%
AUC 0.872 0.912 0.5 0.5 0.5
Urutan model terbaik:
1. NB ; C4.5 ; k-NN
2. RF ; LDA
www.polytron.co.id
Klasifikasi
www.polytron.co.id
Contoh algoritma klasifikasi
• Decision Tree
• Bayesian
• Neural Network
www.polytron.co.id
Klastering
www.polytron.co.id
Kegunaan Klastering
• Data reduction
• Mendeteksi outlier
• Memprediksi berdasarkan kelompok
www.polytron.co.id
Contoh algoritma klastering
• K-Means
• K-Medoids
• Agglomerative
www.polytron.co.id
Asosiasi
• Menemukan pola: pola (satu set item, sub urutan, sub struktur, dll.)
yang sering muncul dalam kumpulan data
• Kegunaan:
• Produk apa yang sering dibeli bersama?
• Produk apa yang dibeli setelah membeli produk tertentu
www.polytron.co.id
Kegunaan Asosiasi
www.polytron.co.id
Contoh algoritma asosiasi
• FP-Growth
www.polytron.co.id
Estimasi
www.polytron.co.id
Contoh algoritma estimasi
• Linear Regresion
• Neural Network
• SVM
www.polytron.co.id
Pembahasan
www.polytron.co.id
Implementasi
• Data Visual
• Inject ke aplikasi
www.polytron.co.id
Latihan
www.polytron.co.id