Anda di halaman 1dari 20

PERTEMUAN 2

GUDANG DATA, KLASIFIKASI, REGRESI,


DAN KLASTERISASI
Data Warehouse
• Gudang data (data warehouse) merupakan suatu system manajemen basis
data relational (RDBMS) yang didesain khusus untuk memenuhi kebutuhan
akan sistem pengolahan transaksi.
• Data warehouse secara bebas dapat didefinisikan sebagai tempat
penyimpanan data terpusat yang dapat di-query untuk manfaat bisnis.
• Data warehouse baik untuk mengintegrasikan keseluruhan data sebuah
perusahaan, tanpa memperhatikan lokasi, format atau kebutuhan
komunikasi yang memungkinkan untuk memasukkan informasi tambahan
atau ahli
• Data warehouse menyediakan data yang siap ditransformasi dan
disimpulkan sedemikian hingga membuatnya sesuai untuk aplikasi DSS dan
SIM yang lebih efisien
Data Warehouse Lanjutan
• Gudang data biasanya berisi data sejarah, terkumpul
dari sumber yang berbeda-beda, seperti sistem proses
transaksi online (online data transaction processing),
system warisan, file-file teks dan spreadsheet. Pada
data tersebut kemudian dilakukan proses
pembersihan untuk akurasi dan konsistensi dan
mengelolanya untuk memudahkan dan efisiensi query.
Karakteristik data warehouse (1)

• Subject-oriented: data diorganisasi menurut subyek dari aplikasi,


misalnya sebuah perusahaan asuransi menggunakan data warehouse
yang mengorganisasi data mereka sebagai pelanggan, premi dan
klaim daripada dengan produk-produk berbeda (otomotif, jiwa, dsb).
Data diatur oleh subyek yang hanya mengandung informasi yang
diperlukan untuk pengolahan pendukung keputusan.
Karakteristik data warehouse (2)

• Integrated: ketika data menempati aplikasi-aplikasi yang terpisah


dalam lingkungan operasional, pengkodean data seringkali tidak
konsisten. Sebagi contoh, dalam satu aplikasi, jender mungkin
dikodekan sebagai “m” dan “f”, ada juga dengan 0 dan 1. Saat data
dipindahkan dari lingkungan operasionalnya kedalam data
warehouse, mereka akan mengasumsikan suatu konvensi pengkodean
dengan kosisten. Misalnya data jender ditransformasi menjadi “m”
dan “f”.
Karakteristik data warehouse (3)
• Time-variant: Data warehouse terdiri dari suatu tempat untuk
menyimpan data yang berusia 5 sampai 10 tahun atau lebih lama,
untuk digunakan sebagai komparasi, trend dan peramalan. Data ini
tidak diupdate.
• Non-volatile: data yang tidak diupdate sesudah mereka memasukkan
data warehouse, tetapi hanya dimuat dan diakses.
Data warehouse dan sistem OLTP (1)
Sebuah basis data yang dibangun untuk pengolahan transaksi online,
OLTP, secara umum dipandang tidak cocok untuk data warehouse
dikarenakan mereka didesain dengan suatu kumpulan kebutuhan yang
berbeda, yaitu memaksimalkan kapasitas transaksi dan secara khusus
mempunyai ratusan table dalam urutan yang tidak membatasi user,
dsb.
Data warehouse dipandang dalam proses query sebagai lawan dari
proses transaksi.
Data warehouse dan sistem OLTP (2)
Sistem OLTP tidak dapat menjadi tempat penyimpanan dari data fakta
dan histori untuk analisa bisnis. Sistem ini tidak dapat menjawab secara
cepat query dan pengambilan kembali secara cepat hampir tidak
mungkin. Data yang tidak konsisten dan berubah, duplikasi masukan
yang ada, masukan yang hilang, dan tidak adanya data histori yang
diperlukan untuk menganalisa trend.
Pada dasarnya OLTP menawarkan sejumlah besar data mentah yang
tidak mudah dipahami.
Data warehouse menawarkan kemampuan untuk mengambil kembali
dan menganalisa informasi secara cepat dan mudah.
Data warehouse dan sistem OLTP (3)
Data warehouse melayani tujuan yang berbeda dari sistem OLTP
dengan memperbolehkan analisa query sebagai jawaban terhadap
“simple aggregation” seperti “bagaimana catatan keuangan dari
pelanggan ini?”
Query data warehouse khusus meliputi seperti “produk yang
bagaimana yang paling laku di Amerika Tengah dan bagaimana korelasi
terhadap data demografis?”
Data warehouse dan sistem OLTP (4)
Persamaan dan perbedaan OLTP dan data warehouse
OLTP Data Warehouse

Purpose Run day-to-day operations Information retrieval and analysis

Structure RDBMS RDBMS

Data model Normalised Multi-dimensional

Access SQL SQL plus data analysis extensions

Type of data Data that runs the business Data that analysis the business

Condition of data Changing, incomplete Historical, descriptive


Teknik Data Mining
Beberapa teknik dan sifat data mining adalah:
1. Classification [Predicitive]
2. Regression [Predictive]
3. Clustering [Descriptive]
4. AssociationRule Discovery [Descriptive]
5. SequentialPattern Discovery [Descriptive]
6. Deviation Detection [Predictive]
1. Klasifikasi (classification)
Klasifikasi adalah menentukan sebuah record data baru ke salah satu
dari beberapa kategori (atau klas) yang telah didefinisikan sebelumnya.
Disebut juga dengan “supervised learning”.
Beberapa aplikasi dari klasifikasi:
1. Penjualan langsung (direct marketing)
Tujuan: mengurangi cost surat menyurat dengan menentukan
(targeting) satu set konsumen yang mempunyai kesamaan dalam
membeli produk telepon seluler baru.
1. Klasifikasi (classification) Lanjutan
Pendekatan:
• Gunakan data penjualan untuk suatu produk telepon seluler
• Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang
memutuskan untuk tidak membeli. Keputusan {buy, don’t buy} membentuk
class attribute
• Himpun bermacam demografi, gaya hidup, dan company-interaction
sehubungan dengan informasi mengenai pelanggan tertentu, misalkan tipe
bisnis, dimana mereka tinggal, berapa banyak mereka membayar, dll
• Gunakan informasi tersebut sebagai atribut input untuk mempelajari suatu
model klasifikasi
1. Klasifikasi (classification) Lanjutan
2. Fraud Detection
Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan
kartu kredit.
Pendekatan:
• Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai
attribute. Misalnya: kapan seorang pelanggan membeli, apa yang dibeli, apa selalu
membayar tepat waktu, dsb.
• Beri label transaksi-transaksi sebelumnya sebagai transaksi “fraud” atau “fair” dan
bentuk ini menjadi class attribute
• Pelajari satu model untuk class transaksi tersebut
• Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi transaksi
kartu kredit tiap account
1. Klasifikasi (classification) Lanjutan
3. Customer Attrition/Churn
Tujuan: Memprediksi pelanggan mana yang akan berpindah ke
competitor kita
Pendekatan:
• Gunakan record transaksi dengan pelanggan yang lalu maupun yang sekarang
untuk mendapatkan atribut, seperti: seberapa sering pelanggan
menghubungi, dimana dia menghubungi, pada hari apa dia paling sering
menghubungi, status keuangannya, status perkawinannya, dsb.
• Beri label pelanggan sebagai “setia” atau “tidak setia”
• Temukan suatu model untuk “loyalty”
2. Regresi (regression)
Memprediksi nilai dari suatu variabel kontinyu yang diberikan
berdasarkan nilai dari variabel yang lain, dengan mengasumsikan
sebuah model ketergantungan linier atau nonlinier.
Teknik ini banyak dipelajari dalam statistika, bidang jaringan syaraf
tiruan (neural network).
Contoh aplikasinya:
• Memprediksi jumlah penjualan produk baru berdasarkan pada belanja
promosi/iklan
• Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban,
tekanan udara, dsb.
• Time series prediction dari indeks stock market
3. Klasterisasi (clustering)
Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian
rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set
properti yang di share bersama, dengan tingkat similaritas yang tinggi dalam
satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut
juga dengan “unsupervised learning”

Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah


atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan
klaster-klaster sedemikian hingga:
• Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar
• Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang
kecil
3. Klasterisasi (clustering) Lanjutan
Ukuran similaritas yang digunakan:
 Euclidean distance jika atributnya kontinyu
 Permasalahan lain – ukuran tertentu
Aplikasi dari klasterisasi diantaranya:
1. Market Segmentation
Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda,
dimana suatu sub-set mungkin dapat dipilih sebagai target pasar
yang dicapai dengan satu kombinasi pemasaran yang berbeda.
3. Klasterisasi (clustering) Lanjutan
Pendekatan:
• Kumpulkan atribut dari pelanggan yang berbeda berdasarkan pada informasi
tempat tinggal dan gaya hidup
• Tentukan klaster dari pelanggan-pelanggan yang sama
• Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada
klaster yang sama versus dari klaster yang berbeda
2. Document clustering:
Tujuan: Untuk mendapatkan kelompok dokumen yang mempunyai
kesamaan berdasarkan pernyataan atau kata-kata penting yang
muncul dalam dokumen tersebut
Pendekatan:
3. Klasterisasi (clustering) Lanjutan
Pendekatan:
Untuk mengenali kata-kata yang sering muncul dalam tiap
dokumen. Dari suatu pengukuran similaritas yang didasarkan
pada frekuensi term yang berbeda. Gunakan pengukuran ini
untuk membentuk klaster-klaster.

Pencapaian:
Information retrieval dapat dimanfaatkan untuk menghubungkan
suatu dokumen baru atau mencari term ke dokumen-dokumen
yang diklaster

Anda mungkin juga menyukai