Anda di halaman 1dari 122

Data Analytics

Adhi Krisna Dermawan


www.polytron.co.id
Adhi Krisna Dermawan

• 1980 lahir di Semarang


• 1999-2003 S1 Unika Widya Mandala Surabaya jurusan Teknik Industri
• 2001-2003 Asisten dosen mata kuliah pemrograman komputer di Unika Widya Mandala Surabaya
• 2002 Ketua Industrial Games se Jawa Bali yang diadakan oleh Unika Widya Mandala Surabaya
• 2002 Pembicara pada seminar internasional Design and Application Technology
• 2004-2004 di PT. Hartono Istana Teknologi bagian Purchasing
• 2005-2005 di PT. Hartono Istana Teknologi bagian Production Planning and Inventory Control
• 2006-2013 di PT. Hartono Istana Teknologi bagian Information Technology
• 2014-2017 di PT. Hartono Istana Teknologi bagian SAP
• 2016-2017 S2 Universitas Dian Nuswantoro Semarang Jurusan ilmu Komputer
• 2018-2019 di PT. Hartono Istana Teknologi bagian Software Quality Assurance
• 2019-sekarang di PT. Hartono Istana Teknologi bagian HRIS Specialist

www.polytron.co.id
Company Profile

• Berdiri tahun 1975 di Kudus


• Perusahaan non rokok pertama dari Hartono bersaudara
• Produk yang dihasilkan antara lain Audio, Video, Lemari es, Mesin cuci, AC,
Dispenser
• Eksport ke lebih dari 52 negara, diantaranya Thailand, Myanmar,
Bangladesh, Spanyol, Arab Saudi, Srilanka, Filipina, dll
• Mempunyai lebih dari 35 patent di US, Canada dan Indonesia
• Mempunyai lebih dari 65 penghargaan baik dari dalam negeri maupun
dari luar negeri
www.polytron.co.id
Manusia memproduksi beragam
data yang jumlah dan ukurannya
sangat besar
– Astronomi
– Bisnis
– Kedokteran
– Ekonomi
– Olahraga
– Cuaca
– Financial
– …
www.polytron.co.id
Pertumbuhan data kilobyte (kB) 103
megabyte (MB) 106
Astronomi gigabyte (GB) 109
• Sloan Digital Sky Survey terabyte (TB) 1012
– New Mexico, 2000 petabyte (PB) 1015
– 140TB over 10 years exabyte (EB) 1018
zettabyte (ZB) 1021
• Large Synoptic Survey Telescope
yottabyte (YB) 1024
– Chile, 2016
– Will acquire 140TB every five days

Biologi dan Kedokteran


• European Bioinformatics Institute (EBI)
– 20PB of data (genomic data doubles in size each year)
– A single sequenced human genome can be around 140GB in
size
www.polytron.co.id
(Insight, Big Data Trends
for Media, 2015)
www.polytron.co.id
We are drowning in data, but
starving for knowledge!

www.polytron.co.id
Data Analytics?

• mengekstrak pengetahuan atau menemukan pola dari suatu data


yang besar

• Data: fakta yang terekam dan tidak membawa arti


• Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

www.polytron.co.id
Tujuan

• Menganalisa data untuk mendapatkan jawaban dari suatu


pertanyaan

www.polytron.co.id
Kegunaan

• Membuat keputusan
– Calon karyawan akan diterima atau tidak
• Proyeksi masa depan (bukan hal umum)
– Karyawan mempunyai potensi keluar atau tidak

www.polytron.co.id
Contoh analisa data yang sederhana:

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang 0 1 1 1 8
Cepat
Izin 3 0 0 1 4
Alpa 1 0 2 0 2

www.polytron.co.id
Contoh analisa data yang sederhana:

Terminasi

a ri ari ret ril ei ni uli us er er er er


n u ru a Ap M Ju J ust mb tob mb mb
Ja Feb M Ag pte Ok ove ese
Se N D

www.polytron.co.id
Rangkaian Proses

Validasi dan
Identifikasi Pengumpulan Visualisasi
Evaluasi Kasus Pembersihan Analisa Data
Data Data Data
Data

www.polytron.co.id
Increasing potential
to support business
End User
decisions Decision
Making

Data Presentation Business Analyst


Visualization Techniques
Data Mining Data Analyst
Information Discovery

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems

www.polytron.co.id
www.polytron.co.id
www.polytron.co.id
Tools

• Excel
• SQL Server Management Studio
• Python
• Rapidminer

www.polytron.co.id
Permasalahan

• Jumlah data yang luar biasa besar


• Data dengan dimensi yang besar
• Data dengan kompleksitas yang tinggi

www.polytron.co.id
Jenis data

• Big Data
• terstruktur
• Normal Data

• Big Data
• tidak terstruktur
• Normal Data

www.polytron.co.id
Internal Big Data

• Data absensi 30 ribu data perhari = 11 juta data pertahun


• Data transaksi 10 ribu data perhari = 4 juta data pertahun
• Data produksi 300 ribu data perhari = 110 juta data pertahun
• dll

www.polytron.co.id
Eksternal Big Data

• Web & Media Sosial menghasilkan sejumlah data


• Google memproses 100 PB tiap hari, ratusan ribu server
• Facebook mempunyai 4 PB data pengguna tiap hari
• Youtube mempunyai kapasitas video 1000PB

www.polytron.co.id
Pemanfaatan Data Analytics

• Prediksi karyawan akan keluar atau tidak


• Prediksi cacat software
• Menganalisis profil calon data karyawan
• Mengklaster lokasi penjualan
• Mengklaster usia pembeli
• dll

www.polytron.co.id
From Stupid Apps to Smart Apps

Sistem Penerimaan Sistem Analisa Profil


Karyawan Karyawan

Sistem Pencatatan Sistem Prediksi


Karyawan Terminasi Karyawan

Sistem Penjualan Sistem Analisa


Produk Penjualan Produk
www.polytron.co.id
k in M urah!
n Bi aya Ma
in C epat da
EFISIEN SI: Mak

www.polytron.co.id
Pengumpulan Data

www.polytron.co.id
Macam basis data

• Data Relasional
• Data karyawan
• Data penjualan
• Data Non Relasional
• Data Eksternal (Facebook, Instagram, Google, dsb)

www.polytron.co.id
Attribute/Feature Class/Label/Target

Record/
Object/
Sample/
Tuple

Nominal

Numerik

www.polytron.co.id
www.polytron.co.id
Data Karyawan
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID Area IsActive ID EmployeeStatus IsActive


5 Kudus 1 1 Harian 1
21 Semarang 1 2 Bulanan 1
24 Jakarta 1 3 Outsourcing 1
30 Pati 0 5 Magang 1
41 Surabaya 1

www.polytron.co.id
Pengumpulan Data Leave Prediction

• Data apa saja yang diperlukan?


• Data Mutasi
• Data Personal Info
• Data Keluarga
• Data Payroll
• Dari mana kita dapatkan?
• Database HRPersonal
• Database Payroll
• Google API

www.polytron.co.id
Data Mutasi
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID StartDate EndDate EmployeeID OUID JobTitleID


107 1 April 2001 30 April 2005 640 5 5
967 1 Mei 2005 31 Mei 2008 640 5 8
1600 1 Juni 2008 31 Desember 9999 640 28 13
308 1 Maret 2002 31 Desember 9999 655 19 11

www.polytron.co.id
Data Personal Info
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID StartDate EndDate EmployeeID Address CityID


208 1 April 2001 30 April 2005 640 Jl. Durian Raya no.15 3
789 1 Mei 2005 31 Desember 9999 640 Jl. Menoreh Timur I no. 58 5
1756 1 Juni 2008 31 Desember 9999 655 Jl. Taman Singorejo no. 13 3
308 1 Maret 2002 31 Desember 9999 703 Jl. Telaga Mas Barat VII/19 3

www.polytron.co.id
Google API Distance Matrix

www.polytron.co.id
Data Personal Info (+Distance)
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID StartDate EndDate EmployeeID Address CityID Distance Duration


208 1 April 2001 30 April 2005 640 Jl. Durian Raya no.15 3 8.1 5
789 1 Mei 2005 31 Desember 9999 640 Jl. Menoreh Timur I no. 58 5 1.3 2
17561 Juni 2008 31 Desember 9999 655 Jl. Taman Singorejo no. 13 3 20.5 90
308 1 Maret 2002 31 Desember 9999 703 Jl. Telaga Mas Barat VII/19 3 25.1 100

www.polytron.co.id
Data Keluarga
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID StartDate EndDate EmployeeID Relation Name


107 1 April 2001 31 Desember 9999 640 Istri Name 1
967 1 Mei 2005 31 Desember 9999 640 Anak Name 2
1600 1 Juni 2008 31 Desember 9999 640 Anak Name 3
308 1 Maret 2002 31 Desember 9999 655 Suami Name 4

www.polytron.co.id
Data Payroll
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID Period EmployeeID PercIncrease


1280 Maret 2012 640 3
1320 Maret 2012 655 9
1399 Maret 2012 703 6
1513 Maret 2012 715 10

www.polytron.co.id
Leave Prediction
ID NIK Name AreaID EmployeeStatusID IsActive
640 01000419 Name 419 5 2 0
655 01000422 Name 422 24 1 1
703 01000423 Name 423 21 5 1
715 01000424 Name 424 41 1 1

ID Period EmployeeID Prediction ACC


1280 Maret 2012 640 Leave 86
1320 Maret 2012 655 Stay 90
1399 Maret 2012 703 Stay 83
1513 Maret 2012 715 Leave 87

www.polytron.co.id
Kesalahan Umum Data Import

Tipe Data !
ID NIK Name Company Department Job Title
640 01000419 Name 419 HIT Administration Product Trainer
655 01000422 Name 422 HIT Commercial Product Specialist
703 01000423 Name 423 HIT Administration Product Trainer
715 01000424 Name 424 HIT Commercial Head of Brand Development

1000424

www.polytron.co.id
Pengumpulan Data Sentiment Analysis

• Data apa saja yang diperlukan?


• Data Feed
• Data Search
• Dari mana kita dapatkan?
• Facebook
• Instagram
• Twitter
• Google

www.polytron.co.id
Sentiment Analysis

Parsing
Menentukan Menghilangkan Menjalankan
StopWord StopWord Algoritma

www.polytron.co.id
Social Media API

www.polytron.co.id
Data Sosial Media
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai
Nama2 Sarapan pagi ....mongho nasgornya
Nama3 Apakah dengan mengkibarkan bendera putih lantas virus ini merasa kasihan dan
pergi ?? ..... wow Amazing klo itu yg dimaksud pertanyaannya apakah mungkin sesederhana
itu ....jangan jangan hanya karena EGOIS PELIT sbb TIDAK MAU KELUAR ANGGARAN YANG
BESAR ...
Nama4 Idul Adha bareng papa 🙏🏻
Belajar Islam dari Papa❤️
Indahnya toleransi dalam perbedaan

www.polytron.co.id
Parsing
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai

Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”

www.polytron.co.id
StopWord
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai

Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”

StopWord
“Bila”;”pun,”;”itu”;”dan”;”yang”

www.polytron.co.id
Menghilangkan StopWord
Nama Data
Nama1 Bila kamu punya impian apa pun, bermimpilah selama itu positif dan nggak merugikan
orang lain. Namun, ada banyak "formula-formula" yang perlu kamu jalani bila ingin segala
impian-impian tersebut tercapai

Parsing Data
“Bila”;”kamu”;”punya”;”impian”;”apa”;”pun,”;”bermimpilah”;”selama”;”itu”;”positif”;”dan”;”nggak
”;”merugikan”;”orang”;”lain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”yang”;”perlu”;”kam
u”;”jalani”;”bila”;”ingin”;”segala”;”impian-impian”;”tersebut”;”tercapai”

StopWord
“Bila”;”pun,”;”itu”;”dan”;”yang”

Menghilangkan StopWord
”kamu”;”punya”;”impian”;”apa”;”bermimpilah”;”selama”;”positif”;”nggak”;”merugikan”;”orang”;”l
ain.”;”Namun,”;”ada”;”banyak”;”formula”;”formula“;”perlu”;”kamu”;”jalani”;”bila”;”ingin”;”segala”
;”impian-impian”;”tersebut”;”tercapai”

www.polytron.co.id
Sentiment Analysis

Nama SocialMediaID Positive Negative


Nama1 1 65 35
Nama2 3 80 20
Nama3 1 35 65
Nama4 2 70 30

www.polytron.co.id
Image Processing

www.polytron.co.id
Kenapa butuh Image Processing?

• Mata manusia terbatas / bisa salah


• Mempercepat proses

Black & Blue


Or
Gold & White
www.polytron.co.id
0,4510 0,0627
0,2588 0,0313

0,2902 0,0627
0,3882 0,0313

www.polytron.co.id
www.polytron.co.id
www.polytron.co.id
Entity Relationship Diagram

www.polytron.co.id
11% 13%

www.polytron.co.id
Sentiment Analysis

Name 1 Name 2

Name 3

www.polytron.co.id
Association Analysis

www.polytron.co.id
Masalah dalam Data Analytics

www.polytron.co.id
Masalah dalam Data Analytics

• Manusia
• Kemampuan Logika
• Pengetahuan Data
• Pengetahuan SQL
• Sistem
• Data tidak lengkap
• Noise
• Data cepat berubah
• Menskala data

www.polytron.co.id
Kemampuan logika dan Pengetahuan Data

• Mengetahui data mana yang harus diambil


• Mengetahui algoritma mana yang harus digunakan
• Meningkatkan akurasi dari prosedur dan mempersingkat proses

www.polytron.co.id
Mengetahui data mana yang harus diambil

• Goal: Mendapatkan data No Telepon terakhir


Table1 Table2
ID NIK Name ID Startdate Enddate EmployeeID NoHP
640 01000419 Name 419 208 1 April 2001 30 April 2005 640 0812345
655 01000422 Name 422 789 1 Mei 2005 31 Desember 9999 640 0816789
703 01000423 Name 423
715 01000424 Name 424

www.polytron.co.id
Table1
ID NIK Name
640 01000419 Name 419
655 01000422 Name 422
703 01000423 Name 423
715 01000424 Name 424

Table2
ID Startdate Enddate EmployeeID NoHP
208 1 April 2001 30 April 2005 640 0812345
789 1 Mei 2005 31 Desember 9999 640 0816789

www.polytron.co.id
Mengetahui data mana yang harus diambil

• Goal: Mendapatkan data No Telepon terakhir


Table1 Table2
ID NIK Name ID Startdate Enddate EmployeeID NoHP
640 01000419 Name 419 208 1 April 2001 30 April 2005 640 0812345
655 01000422 Name 422 789 1 Mei 2005 31 Desember 9999 640 0816789
703 01000423 Name 423
715 01000424 Name 424
Table3
ID EmployeeID NoHP
890 640 0816789

www.polytron.co.id
Table1
ID NIK Name
640 01000419 Name 419
655 01000422 Name 422
703 01000423 Name 423
715 01000424 Name 424

Table3
ID EmployeeID NoHP
890 640 0816789

www.polytron.co.id
O(n) O(1)
www.polytron.co.id
4.5

3.5

2.5

1.5

0.5

O(1) O(n)

www.polytron.co.id
Mengetahui algoritma mana yang harus digunakan

• Estimasi
• Prediksi
• Klasifikasi
• Klastering
• Asosiasi

www.polytron.co.id
Contoh

• Leave Prediction  Prediksi


• Penentuan lokasi service  Klastering
• Penentuan target usia marketing  Klastering

www.polytron.co.id
Pengetahuan SQL

• Query yang dihasilkan sesuai dengan kebutuhan


• Efisien dan Optimal

www.polytron.co.id
www.polytron.co.id
Data tidak lengkap
ID NIK No KTP Tanggal Lahir
640 01000419 3319086607960002
655 01000422 3320132307950001 23 Juli 1979
703 01000423 3175060803620011 8 Maret 1962
715 01000424 0951061306834050 13 Juni 1983

ID NIK No KTP Tanggal Lahir


640 01000419 3319086607960002 6 Juli 1979
655 01000422 3320132507950001 25 Juli 1979
703 01000423 3175060803620011 8 Maret 1962
715 01000424 0951061306834050 13 Juni 1983

www.polytron.co.id
Noise

• Noise  data dengan informasi yang tidak berarti

• Akibat  hasil analisa menyimpang

www.polytron.co.id
Contoh noise

Range nilai: 1-100


Nama Nilai
Nama 1 5
Nama 2 10
Nama 3 5
Nama 4 13
Nama 5 100

Rata-rata nilai: 26.6

www.polytron.co.id
Contoh noise

www.polytron.co.id
Contoh noise

ID Period EmployeeID PercIncrease Leave


1280 Maret 2012 640 3 Leave
1320 Maret 2012 655 2 Leave
1399 Maret 2012 703 4 Leave
1516 Maret 2012 705 2 Stay
1789 Maret 2012 708 3 Leave
1078 Maret 2012 710 8 Stay
1320 Maret 2012 715 10 Stay

www.polytron.co.id
Data cepat berubah

• Data bertambah dengan cepat


• 5 detik bertambah 100 data  1 hari 1.728.000 data
• Teknologi cepat berkembang

www.polytron.co.id
Menskala data

• Data besar / data normal?


• Analisa realtime / tidak realtime

www.polytron.co.id
Non RealTime RealTime
Kebutuhan Analisa

Data Absensi Data Penjualan

Data Karyawan Data Produksi

Normal Besar
Pertambahan data
www.polytron.co.id
PreProcessing

www.polytron.co.id
Kenapa Perlu PreProcessing?

• Akurasi data
• Kelengkapan data
• Konsistensi data

www.polytron.co.id
Hal yang Biasa Dilakukan

• Data cleaning
• Mengisi data yang kosong
• Mengidentifikasi atau menghilangkan outliers
• Data Reduction
• Pengurangan dimensi
• Data Integration
• Integrasi dari beberapa database

www.polytron.co.id
Data Cleaning

• Data terutama big data, sangat kotor, penuh dengan data yang salah
karena:
– instrumen rusak
– kesalahan manusia atau komputer
– kesalahan transmisi

www.polytron.co.id
Data Cleaning

• Data tidak lengkap


• No KTP = “ ”
• Alamat = “ ”
• Noise
• PercSalary = “-10”
• Age = “100”
• Konsistensi
• Age = “30” ; BirthDate = “15 Mei 1980”
• MaritalStatus = “Tidak Kawin” ; sebelumnya “Lajang”

www.polytron.co.id
Data Tidak Lengkap

• Data tidak selalu tersedia


• Golongan darah
• Suhu lemari es
• Data tidak lengkap biasanya terjadi karena:
• Peralatan rusak
• Terhapus
• Data tidak diinput karena tidak tahu
• Beberapa data dianggap tidak perlu pada saat pertama diinput
• Terjadi perubahan input data

www.polytron.co.id
Contoh Data tidak lengkap
PersonalDataId StartDate EndDate EmployeeDataId Gender BloodTypeId
11995-12-01 9999-12-31 2Laki-laki 3
21996-06-15 2020-05-20 3Laki-laki NULL
258992020-05-21 9999-12-31 3Laki-laki NULL
32013-11-01 9999-12-31 4Laki-laki NULL
42013-05-28 9999-12-31 5Laki-laki 3
52013-11-06 9999-12-31 6Laki-laki 3
62005-07-26 9999-12-31 7Laki-laki 3
72004-04-13 9999-12-31 8Laki-laki 3
82002-04-09 9999-12-31 9Laki-laki 3
92002-11-13 9999-12-31 10Laki-laki NULL
102001-11-13 9999-12-31 11Laki-laki 5

www.polytron.co.id
Cara Mengatasi Data Tidak Lengkap

• Abaikan data tersebut


• Bisa dilakukan jika data yang hilang merupakan data class
• Mengisi data secara manual
• Mengisi data secara otomatis
• Diisi dengan nilai rata-rata dari keseluruhan data
• Diisi dengan nilai rata-rata dari data dengan class yang sama
• Diisi dengan nilai yang paling memungkinkan berdasarkan algoritma

www.polytron.co.id
Noise

• Data outlier
• Data yang salah

www.polytron.co.id
Data Outlier

ID Period EmployeeID PercIncrease Leave


1280 Maret 2012 640 3 Leave
1320 Maret 2012 655 2 Leave
1399 Maret 2012 703 4 Leave
1516 Maret 2012 705 2 Stay
1789 Maret 2012 708 3 Leave
1078 Maret 2012 710 8 Stay
1320 Maret 2012 715 10 Stay

www.polytron.co.id
Data Outlier

www.polytron.co.id
Data yang Salah

ID Period EmployeeID PercIncrease Leave


1280 Maret 2012 640 3 Leave
1320 Maret 2012 655 2 Leave
1399 Maret 2012 703 4 Leave
1516 Maret 2012 705 2 Stay
1789 Maret 2012 708 3 Leave
1078 Maret 2012 710 8 Stay
1320 Maret 2012 715 -10 Stay

www.polytron.co.id
Cara Mengatasi Noise

• Data Outlier
• Klastering  menghilangkan data outlier
• Data yang salah
• Regresi, Rata-rata  menimpa data

www.polytron.co.id
Data Reduction

• Mengurangi dataset sehingga menjadi lebih kecil tanpa mengurangi


hasil Analisa
• Mengapa?
• Data bisa terdiri dari ratusan juta record
• Analisa data yang kompleks membutuhkan waktu lama jika
menggunakan data yang lengkap

www.polytron.co.id
Data Reduction

• Cara Data Reduction:


• Mengurangi Dimensi
• Mengurangi Data

www.polytron.co.id
Mengurangi Dimensi

• “Kutukan” Dimensi:
• Ketika dimensi meningkat, data menjadi semakin berjarak
• Kepadatan dan jarak antar titik, sangat penting untuk
pengelompokan, analisis outlier menjadi kurang bermakna
• Kemungkinan kombinasi subruang akan tumbuh secara
eksponensial

www.polytron.co.id
Mengurangi Dimensi

• Mengurangi “kutukan” dimensi


• Membantu menghilangkan fitur yang tidak relevan dan mengurangi
Noise
• Mengurangi waktu yang dibutuhkan dalam data mining
• Visualisasi menjadi lebih mudah

www.polytron.co.id
Cara Mengurangi Dimensi

• Feature Extraction
• Principal Component Analysis (PCA)
• Self Organizing Map (SOM)
• dll
• Feature Selection
• Filter
• Wrapper
• Hybrid

www.polytron.co.id
Feature Selection

• Redundansi Atribut
• Contoh: Atribut BirthDate dan atribut Age
• Atribut yang tidak relevan
• Atribut yang berisi informasi yang tidak berarti
• Contoh: EmployeeID untuk leave prediction

www.polytron.co.id
Feature Selection

www.polytron.co.id
Mengurangi Data

• Cara yang dilakukan:


• Clustering
• Sampling

www.polytron.co.id
Data tanpa Reduction

www.polytron.co.id
Data dengan Reduction

www.polytron.co.id
Sampling

• Under sampling
• Mengurangi jumlah data
• Over sampling
• Menambah jumlah data

• Oversampling  untuk Class Imbalance

www.polytron.co.id
Sampling

ID Period EmployeeID PercIncrease Leave


1280 Maret 2012 640 3 Leave
1320 Maret 2012 655 2 Leave
1399 Maret 2012 703 4 Leave
1516 Maret 2012 705 2 Leave
1789 Maret 2012 708 3 Leave
1078 Maret 2012 710 8 Stay
1320 Maret 2012 715 10 Stay
Minoritas Class

www.polytron.co.id
Cara Melakukan Sampling
Raw Data Cluster/Stratified Sample

www.polytron.co.id
Data Integration

• Data di database terpisah2


• Analisa membutuhkan data yang lengkap dalam 1 row

www.polytron.co.id
Permodelan

www.polytron.co.id
Algoritma dalam Data Mining:

• Klasifikasi
• Klastering
• Asosiasi
• Estimasi
• Prediksi

www.polytron.co.id
Evaluasi Data Mining

• Klasifikasi : Accuracy, AUC


• Klastering : F-Measure
• Asosiasi : F-Measure
• Estimasi : RMSE
• Prediksi : RMSE

www.polytron.co.id
Pengujian Model

• Pembagian dataset :
• Data training : untuk pembentukan model
• Data testing : untuk pengujian model

www.polytron.co.id
Pemisahan data training dan data testing

• Secara manual
• Otomatis dengan Split Data
• Linear : apa adanya
• Shuffled : acak
• Stratified : acak dengan memperhatikan proporsi Class
• Otomatis dengan X Validation
• 10-fold cross validation

www.polytron.co.id
Uji Beda
C4.5 NB K-NN LDA RF
Accuracy 88.12% 86.27% 84.96% 59.63% 59.37%
AUC 0.872 0.912 0.5 0.5 0.5
Urutan model terbaik:
1. NB ; C4.5 ; k-NN
2. RF ; LDA

www.polytron.co.id
Klasifikasi

• mengeneralisasi struktur yang diketahui untuk diaplikasikan pada


data-data baru

www.polytron.co.id
Contoh algoritma klasifikasi

• Decision Tree
• Bayesian
• Neural Network

www.polytron.co.id
Klastering

• Termasuk unsupervised learning


• Pengelompokan data yang sama atau berdekatan satu dengan yang
lain

www.polytron.co.id
Kegunaan Klastering

• Data reduction
• Mendeteksi outlier
• Memprediksi berdasarkan kelompok

www.polytron.co.id
Contoh algoritma klastering

• K-Means
• K-Medoids
• Agglomerative

www.polytron.co.id
Asosiasi

• Menemukan pola: pola (satu set item, sub urutan, sub struktur, dll.)
yang sering muncul dalam kumpulan data
• Kegunaan:
• Produk apa yang sering dibeli bersama?
• Produk apa yang dibeli setelah membeli produk tertentu

www.polytron.co.id
Kegunaan Asosiasi

• Menemukan pola dalam data

www.polytron.co.id
Contoh algoritma asosiasi

• FP-Growth

www.polytron.co.id
Estimasi

• untuk menerka sebuah nilai yang belum diketahui

www.polytron.co.id
Contoh algoritma estimasi

• Linear Regresion
• Neural Network
• SVM

www.polytron.co.id
Pembahasan

• Bahas perbedaan antara klastering, estimasi, klasifikasi


• Bahas masing-masing 1 algoritma data mining
• Bahas metode metode preprocessing dan metode data mining yang
perlu digunakan

www.polytron.co.id
Implementasi

• Data Visual
• Inject ke aplikasi

www.polytron.co.id
Latihan

• Siapkan aplikasi Rapidminer

www.polytron.co.id

Anda mungkin juga menyukai