Anda di halaman 1dari 31

Data Mining

Introduction – Overview

Ahmad Afif Supianto


Why  Mine  Data?  Commercial  Viewpoint  

•  Banyak  data  telah  dikumpulkan    


dan  digudangkan  (warehoused)  
•  Web  data,  e-­‐commerce  
•  Pembelian  pada  pusat  belanja  
maupun  grosir  
•  Transaksi  Bank/Credit  Card    
•  Komputer  semakin  murah  dan  berkemampuan  Anggi  
•  Tingkat  persaingan  (Compe--ve  Pressure)  yang  makin  kuat  
•  Menyediakan  layanan  yang  lebih  baik  dan  sesuai  dengan  
pelanggan  
Why  Mine  Data?  Scienti7ic  Viewpoint  
•  Data  terkumpul  dan  tersimpan    
 pada  kecepatan  yang  luar  biasa  (GB/hour)  
•  Penginderaan  jarak  jauh  pada  satelit  
•  Pemindaian  telescopes  angkasa  
•  Larik  mikro  yang  membangkitkan  data  geneAk  
•  Simulasi  ilmiah  yang  membangkitkan    
 data  berukurang  besar  (terabytes  of  data)  
•  Cara  kuno  yang  Adak  layak  untuk  data-­‐data  mentah  (raw  
data)  
•  Data  mining  dapat  membantu  ilmuwan  
•  Dalam  mengklasifikasikan  dan  mengelompokkan    
 data  dalam  proses  pembentukan  hipotesis  
Mining  Large  Data  Sets  -­‐  Motivation  
•  Kadang  terdapat  informasi  yang  “tersembunyi”  dalam  data  
yang  Adak  tersedia  dengan  jelas  
•  Seorang  ahli  analisis  mungkin  membutuhkan  waktu  
berminggu-­‐minggu  untuk  menemukan  informasi  yang  
bermanfaat  dari  sekumpulan  data  yang  besar  
•  Kebanyakan  data  Adak  pernah  dianalisis  secara  keseluruhan  
Apa  Data  Mining?  
•  Beragam  definisi:  
•  Penguraian  (yang  Adak  sederhana)  informasi  potensi  implicit  
(Adak  nyata/jelas)  yang  sebelumnya  Adak  diketahui  dari  
sekumpulan  data  
•  Penggalian  dan  analisis,  dengan  menggunakan  peranA  otomaAs  
atau  semi  otomaAs,  dari  sejumlah  besar  data  yang  bertujuan  
untuk  menemukan  bentuk  yang  bermanfaat    
 
Asal  Data  Mining  
•  Menggambarkan  ide  dari  machine  learning/AI,  paOern  
recogniAon,  staAsAcs,  dan  database  systems  
•  Cara  tradisional  yang  sesuai  untuk  
•  Data  yang  amat  besar  
•  Data  dengan  banyak  dimensi   StaAsAcs/AI   Machine  Learning/  
•  Data  yang  heterogen     PaOern    
 RecogniAon  
 dan  tersebarHeterogeneous,    
Data  Mining  

Database  systems  
Tugas  Data  Mining  
•  PredicAon  Methods  
•  Menggunakan  beberapa  variabel  untuk  memprediksi  nilai  yang  Adak  
diketahui  atau  nilai  di  masa  mendatang  dari  variabel  lain.  
 
•  DescripAon  Methods  
•  Menemukan  bentuk  yang  mampu  diarAkan  manusia  (human-­‐
interpretable  pa7erns)  yang  dapat  menjelaskan  data  tertentu.  
 

From  [Fayyad,  et.al.]  Advances  in  Knowledge  Discovery  and  Data  Mining,  1996  
Data  Mining  Tasks...  
•  ClassificaAon  [PredicAve]  
•  Clustering  [DescripAve]  
•  AssociaAon  Rule  Discovery  [DescripAve]  
•  Regression  [PredicAve]  
•  SequenAal  PaOern  Discovery  [DescripAve]  
Classi7ication:  De7inition  
•  Jika  terdapat  sekumpulan  record  (training  set  )  
•  SeAap  record  terdiri  dari  sekumpulan  a7ributes,  satu  
dari  atribut  bisa  merupakan  class.  
•  Tentukan  suatu  model    untuk  atribut  class  sebagai  suatu  fungsi  
nilai  dari  atribut  lain.  
•  Tujuan:  menentukan  class  dari  sebuah  data  seakurat  mungkin.  
•  Suatu  test  set  digunakan  untuk  menentukan  keakuratan  
suatu  model.    Umumnya,  data  set  yang  diberikan  dibagi  
ke  dalam  training  sets  dan  test  sets,  training  set  
digunakan  untuk  membentuk  model  dan  test  set  
digunakan  untuk  mengujinya.  
Classi7ication  Example  
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No
Test  
3 No Single 70K No Set  
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes Training   Learn   Model  
9 No Married 75K No Set   Classifier  
10 No Single 90K Yes
10
Classi7ication:  Application  
•  Penjualan  Langsung  (Direct  Marke-ng)  
•  Tujuan:  Mengurangi  biaya  pengiriman  promosi  dengan  hanya  
membidik  (targe-ng)  sejumlah  konsumen  yang  suka  membeli  
produk  telepon  selular  baru.  
•  Pendekatan:  
•  Gunakan  data  untuk  produk  serupa  yang  telah  ditawarkan  sebelumnya.    
•  Kita  tahu  konsumen  mana  yang  memutuskan  untuk  membeli  dan  yang  
Adak.  Keputusan  {membeli,  )dak  membeli}  membentuk  atribut  class.  
•  Kumpulkan  berbagai  informasi  demografi,  gaya  hidup,  dan  semua  
informasi  yang  terkait  dengan  perusahaan  (jenis  usaha/pekerjaan,  di  
mana  mereka  Anggal,  berapa  pendapatann  mereka,  dsb.)  dari  konsumen  
tersebut.  
•  Gunakan  infomasi  ini  sebagai  atribut  masukan  pada  learn  a  classifier  
model.  
Diambil  dari  [Berry  &  Linoff]  Data  Mining  Techniques,  1997  
De7inisi  Clustering  
•  Diberikan  sekumpulan  data  AAk,  masing-­‐masing  memiliki  
sekumpulan  atribut,  dan  kesamaan  ukuran  diantaranya,  
temukan  gugus  (cluster)  sehingga  
•  Data  AAk  dalam  satu  cluster  lebih  serupa  kepada  yang  lain.  
•  Data  AAk  dalam  satu  cluster  yang  berbeda  lebih  nampak  kurang  
serupa  kepada  yang  lain.  
•  Similarity  Measures  (Ukuran  Kesamaan):  
•  Euclidean  Distance  jika  atributnya  konAnyu.  
•  Ukuran  kesamaan  lain  yang  khusus  untuk  problem  khusus  
(Problem-­‐specific  Measures).  
Illustrating  Clustering  
•  Euclidean Distance Based Clustering in 3-D space.

Intracluster  distances   Intercluster  distances  


are  minimized   are  maximized  
Clustering:  Application  
•  Document  Clustering:  
•  Tujuan:  Untuk  menemukan  kelompok  dokumen  yang  serupa  
dengan  yang  lain  berdasar  isAlah  penAng  yang  muncul  di  kedua  
dokumen  yang  dibandingkan.  
•  Pendekatan:  Mengenali  frekuensi  kemunculan  isAlah  pada  
masing-­‐masing  dokumen.    Membentuk  ukuran  kesamaan  
berdasar  frekuensi  dari  isAlah  yang  berbeda.    Gunakan  ukuran  
ini  sebagai  dasar  pengelompokkan.  
•  Pencapaian:  InformaAon  Retrieval  dapat  menggunakan  cluster  
untuk  menghubungkan  suatu  dokumen  baru  atau  mencari  isAlah  
pada  dokumen  yang  telah  dikelompokkan.  
Illustrating  Document  Clustering  
•  TiAk-­‐AAk  pengelompokan:  3204  ArAcle  dari  Kompas.  
•  Ukuran  kesamaan:  Seberapa  banyak  kata  yang  umum  berada  dalam  
dokumen-­‐dokumen  ini  setelah  dilakukan  filter.  
Category   Total  ArAcles   Correctly  Placed  

Financial   555   364  


Foreign   341   260  
NaAonal   273   36  
Metro   943   746  
Sports   738   573  
Entertainment   354   278  
Association  Rule  Discovery:  De7inition  
•  Diberikan  sekumpulan  record  di  mana  masing-­‐masing  record  terdiri  
dari  sejumlah  item  dari  koleksi  yang  diberikan;  
•  Perlu  dibuat  dependency  rules  (aturan  ketergantungan)  yang  
akan  memprediksikan  kemunculan  item  tersebut  berdasarkan  
TID kemunculan  
Items item  yang  lain.  
1 Bread, Coke, Milk
2 Beer, Bread
Rules Discovered:
3 Beer, Coke, Diaper, Milk {Milk} --> {Coke}
4 Beer, Bread, Diaper, Milk {Diaper, Milk} --> {Beer}
5 Coke, Diaper, Milk
Association  Rule  Discovery:  Application  1  
•  MarkeAng  and  Sales  PromoAon:  
•  Let  the  rule  discovered  be    
       {Bagels,  …  }  -­‐-­‐>  {Potato  Chips}  
•  Potato  Chips  as  consequent  =>  Can  be  used  to  determine  what  
should  be  done  to  boost  its  sales.  
•  Bagels  in  the  antecedent  =>  Can  be  used  to  see  which  products  
would  be  affected  if  the  store  disconAnues  selling  bagels.  
•  Bagels  in  antecedent  and  Potato  chips  in  consequent  =>  Can  be  
used  to  see  what  products  should  be  sold  with  Bagels  to  
promote  sale  of  Potato  chips!  
Association  Rule  Discovery:  Application  2  
•  Supermarket  shelf  management.  
•  Tujuan:  Menentukan  item  yang  dibeli  secara  bersamaan  dan  
cukup  oleh  banyak  konsumen.  
•  Approach:  Proses  data  pembelian  (point-­‐of-­‐sale)  yang  
dikumpulkan  dengan  barcode  scanners  untuk  menentukan  
ketergantungan  antar  item  yang  ada.  
Association  Rule  Discovery:  Application  3  
•  Inventory  Management:  
•  Goal:  A  consumer  appliance  repair  company  wants  to  anAcipate  
the  nature  of  repairs  on  its  consumer  products  and  keep  the  
service  vehicles  equipped  with  right  parts  to  reduce  on  number  of  
visits  to  consumer  households.  
•  Approach:  Process  the  data  on  tools  and  parts  required  in  
previous  repairs  at  different  consumer  locaAons  and  discover  the  
co-­‐occurrence  paOerns.  
Regression:  De7inition  
•  Regresi  adalah  suatu  metode  analisis  staAsAk  yang  digunakan  
untuk  melihat  pengaruh  antara  dua  atau  lebih  variabel  
•  Analisis  regresi  dipakai  secara  luas  untuk  melakukan  prediksi  
dan  ramalan  
•  Jenis  Analisis  Regresi  
•  Regresi  sederhana  (linier  dan  nonlinier)    
•  Regresi  berganda  (linier  atau  nonlinier)  
Regression:  Application  
•  Apakah  seperangkat  atau  sekumpulan  variabel  prediktor  
signifikan  dalam  memprediksi  variabel  respon?  
•  Variabel  prediktor  manakah  yang  signifikan  dalam  
menjelaskan  variabel  respon?    
•  Hal  ini  ditunjukkan  dengan  koefisien  esAmasi  regresi.  
Koefisien  esAmasi  inilah  yang  nanAnya  akan  membentuk  
persamaan  regresi.  
Sequential  Pattern  Mining:  Defnition  
•  SequenAal  paOern  mining  adalah  pola  yang  menggambarkan  
urutan  waktu  terjadinya  perisAwa.    
•  Pola  tersebut  akan  didapatkan  apabila  data  yang  disimpan  
dalam  jumlah  cukup  besar  dan  seAap  objeknya  melakukan  
beberapa  aksi  yang  berulang  kali.  
Sequential  Pattern  Mining:  Application  
•  AkAvitas  belanja  pelanggan  
•  Pertama  membeli  komputer,  kemudian  CD-­‐ROM,  dan  kemudian  
kamera  digital,  dalam  kurun  waktu  3  bulan.  
•  Penanganan  medis,  bencana  alam  (e.g.,  gempa  bumi),  stok  
dan  pasar,  saham,  dll.  
•  Pola  panggilan  telepon,  pola  kunjungan  website,  dll.  
•  Urutan  struktur  DNA  dan  Gen,  dll  
Deviation/Anomaly  Detection  
•  Detect  significant  deviaAons  from  normal  behavior  
•  ApplicaAons:  
•  Credit  Card  Fraud  DetecAon  

•  Network  Intrusion    
DetecAon  


Typical network traffic at University level may reach over 100 million connections per day
Tantangan  Data  Mining  
•  Scalability  
•  Dimensionality  
•  Complex  and  Heterogeneous  Data  
•  Data  Quality  
•  Data  Ownership  and  DistribuAon  
•  Privacy  PreservaAon  
•  Streaming  Data  
Any  Questions?  
Data  Mining  di  Jurusan  SI  
•  Fokus  SI  à  lingkungan  bisnis  
•  SDM,  proses,  data,  informasi,  bisnis,  dan  teknologi  informasi  
•  PerhaAan  utama  SI  
•  Mempelajari  perilaku  user  
•  DBMS  
•  Perkembangan  teknologi  dan  informasi  
•  Bidang  terkait  
•  Database  Management  System  
•  Management  InformaAon  System  
•  Data  Mining  
•  Decission  Support  Systems  
Data  Mining  di  Jurusan  SI  
•  Sistem  Informasi  diimplementasikan  dalam  sebuah  Organisasi  
untuk  men-­‐support  dan  meningkatkan  Proses  Bisnis  
•  SI  berperan  penAng  untuk  membuat  dan  meningkatkan  
performansi  dari  proses  bisnis  menjadi  lebih  baik  
•  Data  Mining  di  SI  difokuskan  untuk  mempelajari  metode-­‐
metode  dalam  menggali  data  untuk  perkembangan  organisasi  
•  Analisis  sejumlah  besar  data  untuk  menghasilkan  informasi  
tersembunyi  
•  ClassificaAon  
•  Clustering  
•  Regression  
Tugas  Pendahuluan  
•  Cari  informasi  mengenai  suatu  penerapan  data  mining  yang  
telah  dikemas  menjadi  produk  perangkat  lunak.    Uraikan  
penjelasan  mengenai  data  mining  task  dari  produk  tersebut!  
•  Cari  informasi  mengenai  perangkat  lunak  yang  merupakan  
tools  untuk  melakukan  data  mining.    Uraikan  penjelasan  
mengenai  data  mining  task  yang  didukung  oleh  tools  tersebut!  
Tugas  Pendahuluan  
•  Kirim  tugas  melalui  Google  Classroom  dengan  kode:    

3fz2qik  
•  Nama  file:  DMSI01-6A-NIM  
•  Tugas  diterima  paling  lambat:  
 Selasa,  04  Februari  2020  11:59  
Any  Questions?  

Anda mungkin juga menyukai