CIS62283 01 Pendahuluan

Data Mining
Introduction – Overview
Ahmad Afif Supianto

Why Mine Data? Commercial Viewpoint
•  Banyak data telah dikumpulkan

dan digudangkan (warehoused)
•  Web data, e-‐commerce
•  Pembelian pada pusat belanja
maupun grosir
•  Transaksi Bank/Credit Card
•  Komputer semakin murah dan berkemampuan Anggi
•  Tingkat persaingan (Compe--ve Pressure) yang makin kuat
•  Menyediakan layanan yang lebih baik dan sesuai dengan
pelanggan
Why Mine Data? Scienti7ic Viewpoint
•  Data terkumpul dan tersimpan
pada kecepatan yang luar biasa (GB/hour)
•  Penginderaan jarak jauh pada satelit
•  Pemindaian telescopes angkasa
•  Larik mikro yang membangkitkan data geneAk
•  Simulasi ilmiah yang membangkitkan
data berukurang besar (terabytes of data)
•  Cara kuno yang Adak layak untuk data-‐data mentah (raw
data)
•  Data mining dapat membantu ilmuwan
•  Dalam mengklasifikasikan dan mengelompokkan
data dalam proses pembentukan hipotesis
Mining Large Data Sets -‐ Motivation
•  Kadang terdapat informasi yang “tersembunyi” dalam data
yang Adak tersedia dengan jelas
•  Seorang ahli analisis mungkin membutuhkan waktu
berminggu-‐minggu untuk menemukan informasi yang
bermanfaat dari sekumpulan data yang besar
•  Kebanyakan data Adak pernah dianalisis secara keseluruhan
Apa Data Mining?
•  Beragam definisi:
•  Penguraian (yang Adak sederhana) informasi potensi implicit
(Adak nyata/jelas) yang sebelumnya Adak diketahui dari
sekumpulan data
•  Penggalian dan analisis, dengan menggunakan peranA otomaAs
atau semi otomaAs, dari sejumlah besar data yang bertujuan
untuk menemukan bentuk yang bermanfaat

Asal Data Mining
•  Menggambarkan ide dari machine learning/AI, paOern
recogniAon, staAsAcs, dan database systems
•  Cara tradisional yang sesuai untuk
•  Data yang amat besar
•  Data dengan banyak dimensi StaAsAcs/AI Machine Learning/
•  Data yang heterogen PaOern
RecogniAon
dan tersebarHeterogeneous,
Data Mining
Database systems
Tugas Data Mining
•  PredicAon Methods
•  Menggunakan beberapa variabel untuk memprediksi nilai yang Adak
diketahui atau nilai di masa mendatang dari variabel lain.

•  DescripAon Methods
•  Menemukan bentuk yang mampu diarAkan manusia (human-‐
interpretable pa7erns) yang dapat menjelaskan data tertentu.

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Data Mining Tasks...
•  ClassificaAon [PredicAve]
•  Clustering [DescripAve]
•  AssociaAon Rule Discovery [DescripAve]
•  Regression [PredicAve]
•  SequenAal PaOern Discovery [DescripAve]
Classi7ication: De7inition
•  Jika terdapat sekumpulan record (training set )
•  SeAap record terdiri dari sekumpulan a7ributes, satu
dari atribut bisa merupakan class.
•  Tentukan suatu model untuk atribut class sebagai suatu fungsi
nilai dari atribut lain.
•  Tujuan: menentukan class dari sebuah data seakurat mungkin.
•  Suatu test set digunakan untuk menentukan keakuratan
suatu model. Umumnya, data set yang diberikan dibagi
ke dalam training sets dan test sets, training set
digunakan untuk membentuk model dan test set
digunakan untuk mengujinya.
Classi7ication Example
Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No

2 No Married 100K No
Test
3 No Single 70K No Set
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes Training Learn Model
9 No Married 75K No Set Classifier
10 No Single 90K Yes
10
Classi7ication: Application
•  Penjualan Langsung (Direct Marke-ng)
•  Tujuan: Mengurangi biaya pengiriman promosi dengan hanya
membidik (targe-ng) sejumlah konsumen yang suka membeli
produk telepon selular baru.
•  Pendekatan:
•  Gunakan data untuk produk serupa yang telah ditawarkan sebelumnya.
•  Kita tahu konsumen mana yang memutuskan untuk membeli dan yang
Adak. Keputusan {membeli, )dak membeli} membentuk atribut class.
•  Kumpulkan berbagai informasi demografi, gaya hidup, dan semua
informasi yang terkait dengan perusahaan (jenis usaha/pekerjaan, di
mana mereka Anggal, berapa pendapatann mereka, dsb.) dari konsumen
tersebut.
•  Gunakan infomasi ini sebagai atribut masukan pada learn a classifier
model.
Diambil dari [Berry & Linoff] Data Mining Techniques, 1997
De7inisi Clustering
•  Diberikan sekumpulan data AAk, masing-‐masing memiliki
sekumpulan atribut, dan kesamaan ukuran diantaranya,
temukan gugus (cluster) sehingga
•  Data AAk dalam satu cluster lebih serupa kepada yang lain.
•  Data AAk dalam satu cluster yang berbeda lebih nampak kurang
serupa kepada yang lain.
•  Similarity Measures (Ukuran Kesamaan):
•  Euclidean Distance jika atributnya konAnyu.
•  Ukuran kesamaan lain yang khusus untuk problem khusus
(Problem-‐specific Measures).
Illustrating Clustering
•  Euclidean Distance Based Clustering in 3-D space.
Intracluster distances Intercluster distances

are minimized are maximized
Clustering: Application
•  Document Clustering:
•  Tujuan: Untuk menemukan kelompok dokumen yang serupa
dengan yang lain berdasar isAlah penAng yang muncul di kedua
dokumen yang dibandingkan.
•  Pendekatan: Mengenali frekuensi kemunculan isAlah pada
masing-‐masing dokumen. Membentuk ukuran kesamaan
berdasar frekuensi dari isAlah yang berbeda. Gunakan ukuran
ini sebagai dasar pengelompokkan.
•  Pencapaian: InformaAon Retrieval dapat menggunakan cluster
untuk menghubungkan suatu dokumen baru atau mencari isAlah
pada dokumen yang telah dikelompokkan.
Illustrating Document Clustering
•  TiAk-‐AAk pengelompokan: 3204 ArAcle dari Kompas.
•  Ukuran kesamaan: Seberapa banyak kata yang umum berada dalam
dokumen-‐dokumen ini setelah dilakukan filter.
Category Total ArAcles Correctly Placed
Financial 555 364

Foreign 341 260
NaAonal 273 36
Metro 943 746
Sports 738 573
Entertainment 354 278
Association Rule Discovery: De7inition
•  Diberikan sekumpulan record di mana masing-‐masing record terdiri
dari sejumlah item dari koleksi yang diberikan;
•  Perlu dibuat dependency rules (aturan ketergantungan) yang
akan memprediksikan kemunculan item tersebut berdasarkan
TID kemunculan
Items item yang lain.
1 Bread, Coke, Milk
2 Beer, Bread
Rules Discovered:
3 Beer, Coke, Diaper, Milk {Milk} --> {Coke}
4 Beer, Bread, Diaper, Milk {Diaper, Milk} --> {Beer}
5 Coke, Diaper, Milk
Association Rule Discovery: Application 1
•  MarkeAng and Sales PromoAon:
•  Let the rule discovered be
{Bagels, … } -‐-‐> {Potato Chips}
•  Potato Chips as consequent => Can be used to determine what
should be done to boost its sales.
•  Bagels in the antecedent => Can be used to see which products
would be affected if the store disconAnues selling bagels.
•  Bagels in antecedent and Potato chips in consequent => Can be
used to see what products should be sold with Bagels to
promote sale of Potato chips!
•  Supermarket shelf management.
•  Tujuan: Menentukan item yang dibeli secara bersamaan dan
cukup oleh banyak konsumen.
•  Approach: Proses data pembelian (point-‐of-‐sale) yang
dikumpulkan dengan barcode scanners untuk menentukan
ketergantungan antar item yang ada.
•  Inventory Management:
•  Goal: A consumer appliance repair company wants to anAcipate
the nature of repairs on its consumer products and keep the
service vehicles equipped with right parts to reduce on number of
visits to consumer households.
•  Approach: Process the data on tools and parts required in
previous repairs at different consumer locaAons and discover the
co-‐occurrence paOerns.
Regression: De7inition
•  Regresi adalah suatu metode analisis staAsAk yang digunakan
untuk melihat pengaruh antara dua atau lebih variabel
•  Analisis regresi dipakai secara luas untuk melakukan prediksi
dan ramalan
•  Jenis Analisis Regresi
•  Regresi sederhana (linier dan nonlinier)
•  Regresi berganda (linier atau nonlinier)
Regression: Application
•  Apakah seperangkat atau sekumpulan variabel prediktor
signifikan dalam memprediksi variabel respon?
•  Variabel prediktor manakah yang signifikan dalam
menjelaskan variabel respon?
•  Hal ini ditunjukkan dengan koefisien esAmasi regresi.
Koefisien esAmasi inilah yang nanAnya akan membentuk
persamaan regresi.
Sequential Pattern Mining: Defnition
•  SequenAal paOern mining adalah pola yang menggambarkan
urutan waktu terjadinya perisAwa.
•  Pola tersebut akan didapatkan apabila data yang disimpan
dalam jumlah cukup besar dan seAap objeknya melakukan
beberapa aksi yang berulang kali.
Sequential Pattern Mining: Application
•  AkAvitas belanja pelanggan
•  Pertama membeli komputer, kemudian CD-‐ROM, dan kemudian
kamera digital, dalam kurun waktu 3 bulan.
•  Penanganan medis, bencana alam (e.g., gempa bumi), stok
dan pasar, saham, dll.
•  Pola panggilan telepon, pola kunjungan website, dll.
•  Urutan struktur DNA dan Gen, dll
Deviation/Anomaly Detection
•  Detect significant deviaAons from normal behavior
•  ApplicaAons:
•  Credit Card Fraud DetecAon
•  Network Intrusion
DetecAon
 
Typical network traffic at University level may reach over 100 million connections per day
Tantangan Data Mining
•  Scalability
•  Dimensionality
•  Complex and Heterogeneous Data
•  Data Quality
•  Data Ownership and DistribuAon
•  Privacy PreservaAon
•  Streaming Data
Any Questions?
Data Mining di Jurusan SI
•  Fokus SI à lingkungan bisnis
•  SDM, proses, data, informasi, bisnis, dan teknologi informasi
•  PerhaAan utama SI
•  Mempelajari perilaku user
•  DBMS
•  Perkembangan teknologi dan informasi
•  Bidang terkait
•  Database Management System
•  Management InformaAon System
•  Data Mining
•  Decission Support Systems
Data Mining di Jurusan SI
•  Sistem Informasi diimplementasikan dalam sebuah Organisasi
untuk men-‐support dan meningkatkan Proses Bisnis
•  SI berperan penAng untuk membuat dan meningkatkan
performansi dari proses bisnis menjadi lebih baik
•  Data Mining di SI difokuskan untuk mempelajari metode-‐
metode dalam menggali data untuk perkembangan organisasi
•  Analisis sejumlah besar data untuk menghasilkan informasi
tersembunyi
•  ClassificaAon
•  Clustering
•  Regression
Tugas Pendahuluan
•  Cari informasi mengenai suatu penerapan data mining yang
telah dikemas menjadi produk perangkat lunak. Uraikan
penjelasan mengenai data mining task dari produk tersebut!
•  Cari informasi mengenai perangkat lunak yang merupakan
tools untuk melakukan data mining. Uraikan penjelasan
mengenai data mining task yang didukung oleh tools tersebut!
Tugas Pendahuluan
•  Kirim tugas melalui Google Classroom dengan kode:
3fz2qik
•  Nama file: DMSI01-6A-NIM
•  Tugas diterima paling lambat:
Selasa, 04 Februari 2020 11:59
Any Questions?

CIS62283 01 Pendahuluan

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CIS62283 01 Pendahuluan

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Ahmad Afif Supianto

•  Banyak data telah dikumpulkan

1 Yes Single 125K No

Intracluster distances Intercluster distances

Financial 555 364

Anda mungkin juga menyukai

CIS62283 01 Pendahuluan

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CIS62283 01 Pendahuluan

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Ahmad Afif Supianto

• Banyak data telah dikumpulkan

1 Yes Single 125K No

Intracluster distances Intercluster distances

Financial 555 364

Anda mungkin juga menyukai

•  Banyak data telah dikumpulkan