Anda di halaman 1dari 54

Data Mining

Pertemuan 2

Hari Purwanto
hari_1271@yahoo.co.id
Course Outline
1. KDD & Data Warehouse
2. Beda KDD dan Data Mining
3. Tahapan Dalam KDD
4. Data Warehouse
5. Data
KDD & Data Warehouse
Beda KDD dan Data Mining ?
 Definisi sederhana dari KDD adalah proses dalam
mengidentifikasi pola-pola di dalam data secara
yang valid, berguna dan tentunya dapat
dimengerti.
 Sedangkan definisi dari data mining adalah
ekstraksi pola atau model dari data yang diamati.
 Meskipun data mining ada pada inti dari proses
discovery knowledge, tetapi data mining ini
biasanya mengambil hanya sebagian kecil
(diperkirakan 15% sampai 25%) dari proses secara
menyeluruh.
Tahapan Dalam KDD
Tahapan Dalam KDD (lanjutan…)
 Pemilihan Data (Data Preprocessing/Cleaning)
• Pemprosesan pendahuluan dan pembersihan data merupakan
operasi dasar seperti penghapusan noise dilakukan.

• Sebelum proses data mining dapat dilaksanakan, perlu


dilakukan proses cleaning pada data yang menjadi fokus KDD.

• Proses cleaning mencakup antara lain membuang duplikasi


data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan cetak (tipografi).

• Dilakukan proses enrichment, yaitu proses “memperkaya”


data yang sudah ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
Tahapan Dalam KDD (lanjutan…)

 Transformasi Data
• Pencarian fitur-fitur yang berguna untuk
mempresentasikan data bergantung kepada goal yang
ingin dicapai.
• Merupakan proses transformasi pada data yang telah
dipilih, sehingga data tersebut sesuai untuk proses
data mining. Proses ini merupakan proses kreatif dan
sangat tergantung pada jenis atau pola informasi yang
akan dicari dalam basis data
Tahapan Dalam KDD (lanjutan…)
 Data Mining
• Pemilihan tugas data mining; pemilihan goal dari proses
KDD misalnya klasifikasi, regresi, clustering, dll.
• Pemilihan algoritma data mining untuk pencarian
(searching)
• Proses Data mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara
keseluruhan.
Tahapan Dalam KDD (lanjutan…)
 Interpretasi/Evaluasi
• Penerjemahan pola-pola yang dihasilkan dari data
mining.
• Pola informasi yang dihasilkan dari proses data mining
perlu ditampilkan dalam bentuk yang mudah dimengerti
oleh pihak yang berkepentingan.
• Tahap ini merupakan bagian dari proses KDD yang
mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau
hipotesa yang ada sebelumnya.
Pengantar Data Warehouse
1. Mengapa Kita Perlu Data Warehouse
2. Data Warehouse
3. Sejarah Data Warehouse
4. Karakteristik Data Warehouse
5. Istilah-istilah Data Warehouse
6. Arsitektur Data Warehouse
7. Data
Mengapa Kita Perlu
Data Warehouse?
Permasalahan Database Saat ini
 Ketika organisasi memiliki kantor lebih dari satu,
setiap kantor akan membuat DBMS sendiri.
• Jikalau development tidak dikontrol secara terpusat,
coding untuk DBMS antar cabang akan berbeda.
Sangat sulit mengintegrasi database untuk informasi tertentu.
 Walaupun semua nama variable mengarah ke attribute
yang sama, integrasi dari database tetap menyulitkan
• Objek yang sama (misal, tabel pelanggan) kemungkinan
memiliki fields yang berbeda.
Di satu table terdiri dari,
- Costumer name, address1, address2, address3, customerid
Di table yang laen
- Customer name, address1, address2, city, state, country, costumerid
Permasalahan Database Saat ini
 Permasalahan lain: unit dari ukuran
• Misal: unit untuk mata uang di database indonesia
adalah rupiah, sedangkan di database di singapore
menggunakan mata uang dollar singapore
• Jadi akses data dan konsolidasi data dari dua database
tidak dapat langsung dilakukan.
 E-R model untuk data operasional menjadi lebih
kompleks dan sangat sulit untuk dipelajari.
Solusi :

DATA WAREHOUSE
Apa itu Data Warehouse?
 Data Warehouse adalah koleksi data yang mempunyai
sifat berorientasi subjek, terintegrasi, time-variant, dan
bersifat tetap dari koleksi data dalam mendukung
proses pengambilan keputusan management.
 Data Warehouse merupakan teknik baru yang powerful
yang membuatnya untuk mengekstrak data operasional
yang diarsipkan dan mengatasi ketidakkonsistenan dari
format-format data warisan yang berbeda.
Sejarah Data Warehouse
 Pada tahun 1970-an aplikasi komersial pertama dibangun untuk
operasi bisnis sehari-hari
• Sistem ini dibangun pada computer mainframe, yang sangat
mahal
• Sistem ini fokus pada bagaimana menyisipkan data baru dan
membaca data secara berurutan menggunakan magnetic
tapes
 Muncul sistem managemen database pertama yang
mengorganisasi data secara hirarki atau dalam bentuk jaringan
• COBOL  membuat laporan  membutuhkan waktu
 Pada saat data dapat diakses secara langsung, mulai dibangun
sistem pemrosesan transaksi secara online (OLTP)
Sejarah Data Warehouse
 Pada saat sistem OLTP dibangun untuk effisiensi
pengumpulan data, tantangan utama adalah
seberapa bagus data ini bisa interprestasikaan.
 Tahun 1980-an, mulai dilakukan tinjauan bisnis
secara menyeluruh
• Entreprise Data Warehouse pertama
BILL INMON  Bapaknya Data WareHousing
Karakteristik Data Warehouse
 Subject Oriented
Data warehouse berorientasi subjek, artinya data
warehouse berorientasi terhadap subjek-subjek
utama dalam suatu perusahaan, misalnya
perusahaan asuransi menggunakan data
warehouse yang mengorganisasi data mereka
sebagai customer, premi dan klaim daripada
dengan produk-produk berbeda (otomotif, jiwa,
dan sebagainya).
Dapat juga dikatakan bahwa data warehouse
didesain untuk membantu dalam menganalisis
data berdasarkan subjek-subjek tertentu sehingga
hanya data yang benar-benar diperlukan yang
dimasukkan ke dalam data warehouse.
Karakteristik Data Warehouse (……)
 Integrated
Ketika data menempati aplikasi2 yang terpisah dalam
lingkungan operasional, pengkodean data seringkali tidak
konsisten.
Contoh : Dalam satu aplikasi, Gender mungkin dikodekan “m”
dan “f”, ada juga 0 dan 1.
Saat data dipindahkan kedalam data warehouse, maka data
akan dikonvensikan pengkodean dengan konsisiten, misalnya
menjadi “m” dan “f”.
Data warehouse dapat menyimpan data-data yang berasal dari
sumber-sumber yang terpisah ke dalam suatu format yang
konsisten dan saling terintegrasi satu sama lain. Data tidak
dapat dipecah-pecah karena data yang ada merupakan suatu
kesatuan yang menunjang keseluruhan konsep data
warehouse itu sendiri.
Karakteristik Data Warehouse
 Non Volatile
Data-data dalam sebuah Data Warehouse tidak
dapat diubah (tidak dapat di-update). Data-data
tersebut merupakan data historis yang digunakan
untuk memenuhi kebutuhan analisis, bukan untuk
menangani transaksi seperti pada basis data
transaksional pada umumnya. Hanya ada dua
operasi initial loading of data dan access of data.
Karakteristik Data Warehouse
 Time Variant
Data yang berada di dalam data warehouse akurat
dan valid pada titik waktu tertentu atau dalam
interval waktu tertentu (hanya pada saat proses
ETL/update).
Setiap data yang dimasukkan ke data warehouse
pasti memiliki dimensi waktu. Dimensi waktu ini
akan dipergunakan sebagai pembanding dalam
perhitungan untuk menghasilkan laporan yang
diinginkan.
Selain itu, dengan menggunakan dimensi waktu,
pembuat keputusan dapat mengenal
kecenderungan dan pola dari suatu data.
Istilah-istilah Data Warehouse
1. Data Mart
Bagian dari data warehouse yang mendukung kebutuhan pada
tingkat departemen atau fungsi bisnis tertentu dalam
perusahaan. Karakteristik yang membedakan data mart dan
data warehouse adalah sebagai berikut (Connolly, Begg,
Strachan 1999).

• Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang


terkait dalam sebuah departemen atau fungsi bisnis.
• Data mart biasanya tidak mengandung data operasional yang rinci seperti
pada data warehouse.
• Data mart hanya mengandung sedikit informasi dibandingkan dengan data
warehouse. Data mart lebih mudah dipahami dan dinavigasi.
Istilah-istilah Data Warehouse
2. OLAP dan OLTP
 Teknologi RDBMS tradisional dan data
warehouse berbeda didalam tipe dari data
processing.
 Database application  On Line Transaction
Processing (OLTP)
 Data warehouse  On Line Analytical
Processing (OLAP)
Istilah-istilah Data Warehouse

 Sistem OLTP melakukan proses operasional data,


sedangkan sistem OLAP melakukan proses analisis
data
 Sistem OLTP melihat data dari satu dimensi,
sedangkan sistem OLAP data dilihat dari dimensi
yang berbeda, sehingga business intelligence bisa
diekstrak dari data tersebut
 Sistem OLTP dilakukan oleh personnel operasional,
sedangkan sistem OLAP dilakukan oleh pihak
managemen
Istilah-istilah Data Warehouse
 Sistem OLTP mengandung data saat ini termasuk
detail dari transaksi yang terjadi sedangkan OLAP
mengandung data historical dan juga data yang
telah diringkas (summarized)
 Ukuran database OLTP lebih kecil dibandingkan
OLAP. Jika database OLTP dapat menampung
Gigabyte (GB) dari storage, maka database OLAP
menampung Terabytes dari storage.
OLTP VS OLAP
OLTP OLAP
Purposes Run day-to-day operations Information retrieval and
analysis
Structure RDBMS RDBMS
Condition of data Changing incomplete Historica, descriptive
Data Model Up to date, rinci, relasional, Historis, multidimensi,
normalized terintegrasi
Access SQL SQL plus data analysis
extensions
Type of Data Data that runs the business Data that runs analyses the
business
Size of DB 100 MB-GB 100 TB-PB
Arsitektur Data Warehouse
 Terdapat beberapa bentuk arsitektur Data
warehouse berdasarkan spesifikasi dari
organisasi yang menggunakannya. Tiga bentuk
arsitektur yang biasa digunakan adalah sebagai
berikut :
1. Arsitektur Dasar Data Warehouse
Gambar berikut menampilkan arsitektur sederhana
dari suatu Data Warehouse. User dapat secara
langsung mengakses data yang diambil dari beberapa
source melalui data warehouse.
Arsitektur Data Warehouse
Arsitektur Data Warehouse
 Pada gambar diatas metadata dan raw data dari OLTP
(Online transaction processing) terdapat didalamnya,
dan sebagai tambahan di dalam Warehouse terdapat
summary data. Summary data ini sangat berguna
dalam data Warehouse karena mereka melakukan
perhitungan yang kompleks sebelumnya.
 Sebagai contoh, data warehouse melakukan query
untuk mendapatkan data sales di bulan Agustus.
Arsitektur Data Warehouse
2. Arsitektur Data Warehouse dengan
menggunakan Staging Area
Pada arsitektur ini, anda harus membersihkan
dan memproses data operasional sebelum
memasukkannya ke dalam warehouse. Anda
dapat melakukannya dengan menggunakan
program, meskipun hampir semua data
warehouse menggunakan staging area
didalamnya. Staging area menyederhanakan
proses pembuatan summary dan management
warehouse secara umum.
Arsitektur Data Warehouse
Arsitektur Data Warehouse
3. Arsitektur Data Warehouse dengan
menggunakan Staging Area dan Data Mart
Dalam menggunakan data warehouse anda
dapat mengkustomisasi arsitekturnya yang
disesuaikan dengan kebutuhan organisasi. Hal
ini dimungkinkan dengan menambahkan data
mart.
Data mart merupakan subset dari data
resource, biasanya berorientasi untuk suatu
tujuan yang spesifik atau subjek data yang
didistribusikan untuk mendukung kebutuhan
bisnis.
Arsitektur Data Warehouse
 Sebagai contoh data purchasing, sales, dan inventory
dapat di pisahkan dalam masing-masing cube. Dalam
contoh ini seorang analis keuangan dapat menganalisa
histori data untuk purchases dan sales.
Keuntungan Data Warehouse
 Data diorganisir dengan baik untuk query analisis
dan sebagai bahan untuk pemrosesan transaksi.
 Perbedaan diantara struktur data yang heterogen
pada beberapa sumber yang terpisah dapat
diatasi.
 Aturan untuk transformasi data diterapkan untuk
memvalidasi dan mengkonsolidasi data apabila
data dipindahkan dari database OLTP ke data
warehouse.
 Masalah keamanan dan kinerja bisa dipecahkan
tanpa perlu mengubah sistem produksi.
Sumber Data Untuk Datawarehouse
1. Data operasional dalam organisasi, misalnya
basis data pelanggan dan produk, dan
2. Sumber eksternal yang diperoleh misalnya
melalui Internet, basis data komersial, basis
data pemasok atau pelanggan
Sifat Data Warehouse
 Multidimensional yang
berarti bahwa terdapat banyak
lapisan kolom dan baris (Ini
berbeda dengan tabel pada T a h un n-4

model relasional yang hanya T a h un n-3


T ah un n-2
T a h un n-1
berdimensi dua) .
J aw a T engah
 Berdasarkan susunan data J a w a B a ra t

seperti itu, amatlah mudah


Produk 3
untuk memperoleh jawaban Produk 2

atas pertanyaan seperti: Produk 1

“Berapakah jumlah produk 1


terjual di Jawa Tengah pada
tahun n-3?”
Sifat Data Warehouse
 Data warehouse dapat dibangun sendiri dengan
menggunakan perangkat pengembangan aplikasi
ataupun dengan menggunakan perangkat lunak
khusus yang ditujukan untuk menangani hal ini.

 Beberapa contoh perangkat lunak yang digunakan


untuk administrasi dan manajemen data warehouse :

• HP Intelligent Warehouse (Hewlett Packard)


• FlowMark (IBM)
• SourcePoint (Software AG)
Petunjuk Membangun Data Warehouse
 Menentukan misi dan sasaran bisnis bagi
pembentukan data warehouse
 Mengidentifikasi data dari basis data operasional
dan sumber lain yang diperlukan bagi data
warehouse
 Menentukan item-item data dalam perusahaan
dengan melakukan standarisasi penamaan data
dan maknanya
 Merancang basis data untuk data warehouse
 Membangun kebijakan dalam mengarsipkan data
lama sehingga ruang penyimpanan tak menjadi
terlalu besar dan agar pengambilan keputusan
tidak menjadi terlalu lamban.
Pemodelan Data
 Skema tabel yang sering digunakan adalah skema
bintang (star schema), yang digunakan pada
OLAP
 Skema tabel ini membentuk struktur informasi
multidimensi yang kompatibel dengan kebutuhan
bisnis
Pemodelan Data
Karakteristik Star Schema
 Pusat skema bintang adalah fact table.
 Fact table berisi indikator – indikator kinerja pokok.
 Tabel di sekeliling fact table adalah dimension table
 Tiap dimension table di-relasikan fact table
berdasarkan primary key-nya
 Skema bintang diimplementasikan menggunakan
teknologi relational database.
Data
Definisi dan Tipe Data
 Data set /Himpunan Data (data-set) : kumpulan
dari objek beserta atributnya.
 Atribut : sifat atau karakteristik dari suatu objek
 Atribut bisa juga disebut dengan variabel, field,
karakteristik, atau fitur
• Contoh atribut : warna mata, warna kulit, suhu, dsb.
 Kumpulan dari atribut menggambarkan sebuah
objek
 Objek disebut juga dengan record, titik, kasus,
sample, entitas, atau instance.
Definisi dan Tipe Data (lanjutan…)
 Nilai-nilai atribut adalah angka atau simbol yang
memberi nilai pada atribut tersebut.
 Tipe dari atribut tergantung pada sifat yang dimiliki
berikut ini :
• Pembeda (Distinctness)
• Urutan (order)
• Penjumlahan (addition)
• Perkalian (multiplication)
Jenis Atribut

 Atribut berdasarkan tipe domainnya, yaitu :


• Atribut Kategorikal
• Atribut Numerik
 Atribut berdasarkan jumlah nilainya, yaitu :
• Atribut Diskrit
• Atribut Kontinyu
Atribut Kategorikal
 Salah satu tipe domainnya merupakan sebuah himpunan
simbol berhingga
Contoh : jenis kelamin, status, pendidikan, dsb
• Domain(jenis kelamin) = {L,P}
• Domain(status) = {menikah, belum menikah}
• Domain(pendidikan) = {SD, SMP, SMA, S1, S2, S3}
 Dibedakan 2 tipe :
• Nominal : Jika nilai-nilainya tidak dapat diurutkan. Atribut ini
mempunyai sifat pembeda (distinctness)
Misalnya : Jenis Kelamin, Warna mata.
• Ordinal : Jika nilai-nilainya dapat diurutkan. Sifat atribut ini
adalah pembeda dan urutan (order)
Misalnya : Ranking, grade, pendidikan
Atribut Numerik
 Domainnya berupa bilangan riil atau integer
 Contoh : umur, gaji  Bilangan riil positif
 Jenis atribut numerik :
• Interval : Jenis atribut yang mempunyai sifat bahwa
perbedaan antara nilai-nilainya sangat berarti
Contoh : tanggal, suhu dalam Celcius atau Fahrenheit
• Rasio : Jenis atribut yang mempunyai sifat bahwa, baik
beda maupun rasionya sangat berarti
Contoh : suhu dalam Kelvin, panjang, waktu, jumlah
Atribut Diskrit
 Atribut yang hanya menggunakan sebuah
himpunan nilai berhingga atau himpunan nilai tak
berhingga yang dapat dihitung.
 Contoh : zip codes, jumlah, himpunan kata dalam
sekumpulan dokumen.
 Sering dinyatakan sebagai variabel bilangan bulat
(integer).
Atribut Kontinyu
 Menggunakan bilangan riil sebagai nilai atribut
 Contoh : suhu, ketinggian, berat
 Pada kenyataannya, nilai riil hanya dapat diukur
dan dinyatakan menggunakan sejumlah digit yang
berhingga.
 Atribut kontinyu secara khusus dinyatakan sebagai
variabel desimal (floating point)
Tipe Himpunan Data (Data Set)
 Record Data : Data yang terdiri dari sekumpulan
record, yang masing-masing terdiri dari satu set
atribut yang tetap.
• Data Matriks
Jika objek data mempunyai himpunan atribut numerik
yang sama, maka objek data tersebut dapat dianggap
sebagai titik-titik dalam ruang multidimensi, dimana
masing-masing dimensi menyatakn satu atribut yang
berbeda.
Projection Projection Distance Load Thickness
of x load of y load
10.23 5.27 15.22 2.7 1.2
12.65 6.25 16.22 2.2 1.1
Tipe Himpunan Data (Data Set)
• Data Dokumen
Tiap dokumen menjadi satu vektor “term”. Tiap term
merupakan satu komponen(atribut) dari vektor tersebut.

• Data Transaksi
Merupakan tipe khusus dari record data, dimana tiap
record (transaksi) meliputi satu set item.
Tipe Himpunan Data (Data Set)
TID Items
1 Bread, Coke, Milk
2 Mineral Water, Bread
3 Mineral Water, Coke, Diaper, Milk
4 Mineral Water, Bread, Diaper, Milk
5 Coke, Diaper, Milk

• Data Graph
Merupakan data dalam bentuk graph yang terdiri dari
simpul (node) dan rusuk (edge).
Tipe Himpunan Data (Data Set)
• Data Terurut
Data-data yang memperhatikan urutan nilai-nilainya.
Yang termasuk data terurut adalah Genomic Sequence
Data atau Spatio Temporal Data

Anda mungkin juga menyukai