Anda di halaman 1dari 57

Modul ke:

Fakultas
Program Studi
Datawarehouse & Data Mining
Data Mining
Febrianti Supardinah
12
FASILKOM
Teknik
Informatika
Apa itu DATA MINING ?
Definisi Data Mining
Menggali informasi yang terpendam

Ekstraksi Informasi atau pola yang penting atau menarik
dari data yang ada di database yang besar

Knowledge Discovery in Databases (KDD)
Tahun 1990-an telah melahirkan gunungan data di bidang
ilmu pengetahuan, bisnis dan pemerintah

Kemampuan teknologi informasi untuk mengumpulkan dan
menyimpan berbagai tipe data

Metodologi tradisional untuk menganalisis data yang ada, tidak
dapat menangani data dalam jumlah besar
Sejarah Data Mining
Teknologi ini sekarang sudah ada dan diaplikasikan oleh
perusahaan-perusahaan untuk memecahkan berbagai
permasalahan bisnis

Alasan utama mengapa data mining diperlukan adalah karena
adanya sejumlah besar data yang dapat digunakan untuk
mengahasilkan informasi dan knowledge yang berguna.

Informasi dan knowledge yang didapat dapat digunakan pada
banyak bidang, mulai dari manjemen bisnis, kontrol produksi,
kesehatan, dan lain-lain
Sejarah Data Mining
Latar Belakang Data Mining
Latar Belakang Data Mining
Problem terhadap data explosion yang dialami banyak
organisasi

Pengumpulan data sekian tahun lamanya (data pembelian,
data penjualan, data nasabah, data transaksi dsb.)

Hampir semua data OLTP masuk ke penyimpanan database
Latar Belakang Data Mining
Contoh :
Data Web , e-Commerce
Data pembelian di toko / supermarket
Transaksi Bank/Kartu Kredit
Detail panggilan telepon
Statistik Pemerintahan
Rekam Medis
Database Molekul
Citra Astronomis
Komputer sekarang murah dan powefull
Tekanan kompetisi semakin kuat
Menyediakan layanan yang lebih baik dan Customized (misal :
Customer Relational Management)
Teknik penyimpanan data semakin tinggi dengan kecepatan
tinggi (GB/jam)
Proses ekstraksi informasi di dalam kumpulan data yang besar
Pendekatan analisis data tradisional tidak dapat digunakan
untuk ekstrak data dalam jumlah besar
Data Mining merupakan teknik yang menggabungkan teknik
analisis data tradisional dengan algoritma yang sophisticated
untuk pemrosesan data dalam jumlah besar
Latar Belakang Data Mining
Contoh Informasi yang dibutuhkan :
* Kebutuhan dari Pelanggan (data layanan telepon)
* Target responden untuk promosi produk
* Jenis produk yang paling banyak dijual
* Historis transaksi dari seorang pelanggan
* Pelanggan yang paling loyal
* Mengetahui behaviour nasabah dalam berbagai situasi
* Mengetahui nominal awal dan akhir musim pada suat area

Latar Belakang Data Mining

Apakah Data-data tersebut dibiarkan menggunung ?

Dianggap tidak berguna kemudian dibuang ?

Dapatkah kita me-nambang nya untuk mencari emas
dan berlian?
Latar Belakang Data Mining
Konsumen :
Kartu Kredit
1 x Penawaran = Rp 1,000
12 x Penawaran = Rp 12,000

Bank :
Nasabah = 1,000,000
1 x Penawaran = Rp 1,000 1 Milyar
12 x Penawaran = Rp 12,000 12 Milyar

Feedback : 10% 90% dari dana terbuang sia-sia
Contoh Latar Belakang Data Mining
Solusi :
Menambang data transaksi belanja kartu kredit untuk melihat
manakah pembeli yang memang potensial untuk membeli
produk tertentu

Hasil :
Feedback : 20 % 80% dapat digunakan untuk hal lain
Contoh Latar Belakang Data Mining
Contoh Latar Belakang Data Mining
Why ? What ? How ?
Manusia dalam suatu organisasi, sadar atau
tidak sadar telah memproduksi berbagai data
yang jumlahnya sangat besar
Contoh data: bisnis, kedokteran, ekonomi,
geografi, olahraga,

Pada dasarnya, data adalah entitas yang tidak
memiliki arti, meskipun kemungkinan memiliki
nilai di dalamnya
Mengapa Data Mining ?
Disiplin ilmu yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan pola dari
suatu data
1. Data: fakta yang terekam dan tidak membawa arti
2. Pengetahuan: pola, aturan atau model yang muncul dari data

Sehingga Data mining sering disebut Knowledge
Discovery in Database (KDD)

Konsep Transformasi
DataInformasiPengetahuan
Apa itu Data Mining ?
Apa itu Data Mining ?
Tidak membawa arti, merupakan kumpulan dari
fakta-fakta tentang suatu kejadian

Suatu catatan terstruktur dari suatu transaksi

Merupakan materi penting dalam membentuk
informasi

Data
Gabungan dari suatu pengalaman, nilai, informasi
kontekstual dan juga pandangan pakar yang
memberikan suatu framework untuk mengevaluasi
dan menciptakan pengalaman baru dan informasi
(Thomas H. Davenport, Laurence Prusak)

Bisa berupa solusi pemecahan suatu masalah,
petunjuk suatu pekerjaan dan ini bisa ditingkatkan
nilainya, dipelajari dan juga bisa diajarkan kepada
yang lain
Pengetahuan
Data Kehadiran Pegawai
Data Informasi - Pengetahuan
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00
Informasi Akumulasi Bulanan Kehadiran Pegawai
Data Informasi - Pengetahuan
NIP Masuk Alpa Cuti Sakit Telat
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
Informasi Kondisi Kehadiran Mingguan Pegawai

Data Informasi - Pengetahuan
Senin Selasa Rabu Kamis Jumat
Terlambat 7 0 1 0 5
Pulang
Cepat
0 1 1 1 8
Izin 3 0 0 1 4
Alpa 1 0 2 0 2
Pengetahuan tentang
kebiasaan pegawai
dalam jam
datang/pulang kerja

Pengetahuan tentang
bagaimana teknik
meningkatkan kehadiran
pegawai kebijakan
Data Informasi - Pengetahuan
Kebijakan penataan jam kerja karyawan
khusus untuk hari senin dan jumat
Peraturan jam kerja:
Hari Senin dimulai jam 10:00
Hari Jumat diakhiri jam 14:00
Sisa jam kerja dikompensasi ke hari lain:
1. Senin pulang setelah maghrib, toh jalanan jakarta
macet total di sore hari (bayar hutang 2 jam)
2. Rabu dan kamis bayar hutang setengah jam di pagi hari
dan setengah jam di sore hari (bayar hutang 2 jam)

Data Informasi - Pengetahuan
OLAP, Datawarehouse, Data Mining
Data Sources
Paper, Files, Information Providers, Database System, OLTP
Data Warehouse / Data Marts
OLAP
Data Exploration
Statistical Analysis, Querying, and Reporting
Data Mining
Information Discovery
Data Presentation
Visualization Techniques
Making
Decisions
End User
Business
Analysis
Data
Analysis
DBA
Increasing Potential to
Support business
decisions
Data Mining lebih khusus dan spesifik dibanding OLAP
Database bukan satu-satunya yang mempengaruhi Data
Mining
Data Mining turut diperkaya di banyak bidang ilmu :
Information Science (ilmu informasi)
High Performance Computing
Visualisasi
Machine Learning
Statistik
Permodelan Matematika
Information Retrieval
Information Extraction
Pengenalan Pola

OLAP, Datawarehouse, Data Mining
Paduan OLAP, Data Warehouse, dan Data Mining :

Diharapkan pengguna dapat melakukan hal-hal yang biasa
dilakukan di OLAP seperti drilling/rolling untuk melihat data
lebih dalam atau lebih umum, pivoting, slicing dan dicing.

Diharapkan dapat dilakukan secara interaktif dan dilengkapi
dengan visualisasi.

OLAP, Datawarehouse, Data Mining
OLAP, Datawarehouse, Data Mining
Berasal dari machine learning, AI, pattern recognition,
statistics, dan database
Teknik tradisional tidak sesuai disebabkan karena :
Data dengan dimensi yang besar
Data yang tersebar dan heterogen
Irisan Bidang Ilmu Data Mining
Statistics /
Artificial
Intelligence
Machine Learning /
Pattern Recognition
Database System
DATA MINING
Machine Learning
Bagian dari Artificial Intelligence
Mengenai bagaimana sebuah mesin belajar dan
mengenali bahasa manusia
Proses di dalamnya melibatkan rumus yang rumit dan juga
proses trial and error
Fokus : perbaikan performansi dari suatu teknik learning

Statistik
Bagaimana merencanakan, mengumpulkan, menganalisis,
menginterprestasi, dan mempresentasikan data
Hasil penerapan algoritma statistika pada suatu data
Fokus : pengujian hipotesis

Irisan Bidang Ilmu Data Mining
Artificial Intelligence
Kecerdasan buatan/kecerdasan entitas ilmiah
Kecerdasan dimasukkan ke dalam suatu mesin (komputer)
agar dapat melakukan pekerjaan seperti yang dapat
dilakukan manusia

Sistem Database
Data atau informasi yang dikumpulkan di dalam database

Data Mining
Gabungan dari keseluruhan di atas
Fokus : seluruh proses penemuan knowledge dan pola
Termasuk data cleansing, learning, dan visualisasi hasilnya


Irisan Bidang Ilmu Data Mining
Relation Database
Sebuah sistem database atau disebut juga DBMS
Mengandung sekumpulan data yang saling berhubungan
Dikenal sebagai sebuah database dan satu set program
perangkat lunak untuk mengatur dan mengakses data
tersebut

Data Warehouse
Dikenal sebagai sebuah database dan satu set program
Merupakan sebuah ruang penyimpaan informasi yang
terkumpul dari beraneka macam sumber
Disimpan dalam skema yang menyatu, dan biasanya terletak
pada sebuah site
Jenis Data dalam Data Mining
Jenis Data dalam Data Mining
Menurut IBM :
1. Verification Model
2. Discovery Model
Model Data Mining
Menurut IBM :
1. Verification Model
Menggunakan hipotesis/perkiraan dari pengguna
Melakukan tes dari perkiraan yang diambil dengan
menggunakan data-data yang ada
User bertanggung jawab terhadap :
penyusunan hipotesis
permasalahan pada data untuk meniadakan
menegaskan hasil hipotesis yang diambil


Model Data Mining
Contoh :
Bidang Pemasaran



Model Data Mining
Produk Baru
Informasi Kecenderungan
Pelanggan
Produk ke Pasar
Hipotesa :
Identifikasi pelanggan yang potensial dan karakteristik dari
pelanggan yang ada
Data-data tentang pembelian pelanggan sebelumnya dan data
tentang keadaan pelanggan
Melakukan perbandingan antara pembelian dan karakteristik
pelanggan untuk menetapkan dan menguji target yang telah
diperkirakan sebelumnya
Dilakukan penyaringan dengan cermat sehingga jumlah
hipotesa yang banyak menjadi berkurang


Model Data Mining
Kelemahan :

Data yang ada pada model ini hanya digunakan untuk
membuktikan pendukung hipotesa dengan data-data
yang ada sebelumnya

Model ini tergantung dari kemampuan user melakukan
analisa terhadap permasalahan yang ingin digali dan
diperoleh informasinya
Model Data Mining
2. Discovery Model
Sistem secara langsung menemukan informasi-informasi
penting yang tersembunyi dalam suatu data yang besar
Data yang ada dipilah-pilah untuk menemukan suatu
pola, trend yang ada, dan keadaan umum pada saat itu
Tidak ada campur tangan dan tuntunan dari pengguna
Hasil temuan : fakta yang ada dan dapat ditemukan
dalam waktu singkat
Model Data Mining
Contoh :
Bidang Perbankan



Model Data Mining
Produk Baru
Informasi Kecenderungan
Pelanggan
Produk ke Pasar
Kelompok pelanggan yang dapat dijadikan target suatu
produk yang akan keluar :

Keluarkan data pelanggan
Proses pencarian tanpa adanya hipotesa
Pelanggan dikelompokkan pada karakteristik yang sama
Model Data Mining
1. Data cleaning (Pembersihan Data) : untuk membuang data
yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi
bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui
knowledge base
5. Graphical User Interface (GUI) : untuk end user
Arsitektur Data Mining
Data mining merupakan bagian dari proses
Knowledge Discovery in Databases (KDD)
-- Proses transformasi data mentah menjadi informasi berguna --
Tahapan Data Mining
1. SELECTION
Penyeleksian atau segmentasi data berdasarkan kriteria
tertentu

2. PRE PROCESSING
Tahap pembersihan info tidak berguna dibuang
Data dikonfigurasi ulang untuk menjamin format tetap
konsisten

3. TRANSFORMATION
Proses transformasi sehingga data dapat digunakan dan
ditelusuri
Tahap Data Mining
4. DATA MINING
Proses ekstraksi sesuai pola dari data yang ada

5. INTERPRETATION/EVALUATION
Proses interpretasi pola menjadi pengetahuan yang dapat
digunakan untuk mendukung pengambilan keputusan
Contoh : prediksi, klasifikasi


Tahap Data Mining
Tahap Data Mining
1. Deskriptif mengklasifikasikan sifat umum suatu data di
dalam database yang dapat diinterpretasikan user.
Contoh : Clustering, Association Rule Discovery, Sequential
Pattern Discovery

2. Prediktif menggunakan beberapa atribut, mengambil
kesimpulan terhadap data terakhir untuk membuat prediksi
Atribut yang diprediksi = Target / independent variable
Terbagi menjadi 2 :
a. Classification untuk variable target diskrit
b. Regression untuk variable target kontinu
Tugas Data Mining
1. Pemasaran / Penyewaan
Identifikasi pola pembayaran pelanggan
Menemukan asosiasi antara karakteristik demografik pelanggan
Analisis keranjang pemasaran

2. Perbankan
Mendeteksi pola penyalahgunaan kartu kredit
Identifikasi pelanggan yang loyal
Mendeteksi fraud

3. Transformasi
Menentukan jadwal distribusi ke outlet-outlet

Aplikasi Data Mining
4. Asuransi dan Pelayanan Masyarakat
Analisis dari klaim
Memprediksi pelanggan yang akan membeli polis baru
Identifikasi pola perilaku pelanggan yang berbahaya

5. Pengobatan
Identifikasi terapi pengobatan yang berhasil untuk penyakit berbeda
Membaca behaviour pasien untuk memprediksi kunjungan
Menganalisa sejarah penyakit pasien, serta menemukan hubungan
antara penyakit-penyakit yang ada

6. Dunia Ilmuwan
Mendeteksi galaksi baru

Aplikasi Data Mining
Tidak hanya melakukan mining terhadap transaksi saja.

Penelitian di bidang data mining sudah merambah ke :
Sistem database lanjut seperti object oriented database
Image/spatial database
Time-series data/temporal database
Teks (dikenal dengan nama text mining)
Web (dikenal dengan nama web mining)
Multimedia database.
Next Data Mining
Penelitian saat ini :
* Peningkatan kinerja jika berurusan dengan data
berukuran terabyte
* Visualisasi yang lebih menarik untuk user
* Pengembangan bahasa query untuk data mining yang
sedapat mungkin mirip dengan SQL

Tujuan :
agar end-user dapat melakukan data mining dengan mudah
dan cepat serta mendapatkan hasil yang lebih akurat.
Next Data Mining
Intelligent Miner dari IBM :
* Berjalan di atas sistem operasi AIX, OS/390, OS/400,
Solaris dan Windows NT
* Dijual dengan harga sekitar US$60.000. Selain
* Mengeluarkan produk Intelligent Miner untuk teks
US$50.000.

Software Microsoft :
* Menambahkan fasilitas data mining di Microsoft SQL
Server 2000

Clementine dari SPSS
* Berjalan di atas sistem operasi UNIX dan Windows NT


Next Data Mining
Enterprise Miner dari SAS :
* Berjalan di atas sistem operasi AIX/6000, CMS, Compaq
Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS
Alpha, Open VMS Vax, Solaris, dan Windows

MineSet dari Silicon Graphics :
* Berjalan di atas sistem operasi Windows 9x/NT dan IRIX.
* Dijual per seat seharga US$995
* Server (Windows NT) seharga US$35.000
* IRIX dijual US$50.000
Next Data Mining
QUIZ
1. Jelaskan dengan kalimat sendiri, apa yang dimaksud
dengan Data Mining ?

2. Apa perbedaan antara DATA dan PENGETAHUAN
(knowledge) ?
Terima Kasih
Febrianti Supardinah

Anda mungkin juga menyukai