DATA WAREHOUSE
&
BUSINESS INTELLIGENCE
Disusun oleh :
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah SWT, yang telah memberikan
rahmat dan hidayahnya sehingga modul Jaringan Komputer ini dapat terselesaikan dengan
baik. Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang
mempelajari mata kuliah Data warehouse & Business Intelligence dengan software Rapid
Miner.
Tak lupa penulis mengucapkan banyak terima kasih kepada semua pihak yang
telah membantu dengan tenaga dan pikirannya, terima kasih juga kepada rekan–rekan
instruktur, dosen dan semuanya yang tidak bisa disebutkan satu persatu, yang selalu
mendukung penulis sehingga modul ini sehingga dapat selesai sesuai yang kita
inginkan semua.
Penulis menyadari masih banyak kekurangan dalam penyusunan modul ini.
Untuk itu saran dan kritik yang membangun sangat penulis harapkan guna perbaikan
dan pengembangan modul ini ke depan.
Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat
dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk mahasiswa umum yang
ingin mempelajari mata kuliah Data warehouse & Business Intelligence dengan software
Rapid Miner.
Penulis
2
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE
DAFTAR ISI
Cover........................................................................................................................................1
Kata Pengantar.........................................................................................................................2
Daftar Isi...................................................................................................................................3
BAB 1 Business Intelligence...................................................................................................4
BAB 2 Data Warehousing.......................................................................................................8
BAB 3 Business Performance Management..........................................................................18
BAB 4 Business Performance Management Methodologies.................................................23
BAB 5 Pengantar Data Mining...............................................................................................28
BAB 6 Metode Learning Algoritma Data Mining.................................................................32
BAB 7 Study Kasus.................................................................................................................40
BAB 8 Pembuatan Laporan dan Presentasi.............................................................................46
Daftar Pustaka.........................................................................................................................47
3
BAB 1
Business Intelligence
1. Definisi
BI adalah istilah umum yang menggabungkan arsitektur, alat, basis data, alat analisis,
aplikasi, dan metodologi. Seperti DSS, BI ekspresi bebas konten, berarti itu hal yang
berbeda untuk orang yang berbeda.
Tujuan utama BI adalah untuk memungkinkan akses mudah ke data (dan model) untuk
memberikan manajer bisnis dengan kemampuan untuk melakukan analisis.
BI membantu mengubah data, menjadi informasi (dan pengetahuan), menjadi keputusan
dan akhirnya bertindak
Sejarah BI
Istilah BI diciptakan oleh Gartner Group pada pertengahan 1990-an
Namun, konsepnya jauh lebih tua
1970-an - Pelaporan MIS - laporan statis / berkala
1980-an - Sistem Informasi Eksekutif (EIS)
1990-an - OLAP, dinamis, multidimensi, pelaporan ad-hoc -> penggabungan istilah "BI"
2005+ Inklusi kemampuan Penambangan AI dan Data / Teks; Portal / Dashboard berbasis
web
2010-an - belum terlihat
Evolusi Kemampuan BI
Arsitektur BI
Sistem BI memiliki empat komponen utama :
-Data warehouse, dengan data sumbernya
-Bussiness Analitycs, kumpulan alat untuk memanipulasi, menambang, dan menganalisis
data di gudang data;
-Bussiness Performance Management (BPM) untuk memantau dan menganalisis kinerja
-User interface(mis., dashboard)
4
Arsitektur BI
Komponen Arsitektur BI
Data warehouse adalah gudang besar data historis yang terorganisir dengan baik
Bussiness Analitycs adalah alat yang memungkinkan transformasi data menjadi informasi
dan pengetahuan
Bussiness Performance Management (BPM) memungkinkan pemantauan, pengukuran,
dan membandingkan indikator kinerja utama
User interface (mis., Dashboard) memungkinkan akses dan manipulasi komponen BI
lainnya dengan mudah
Model BI
Data warehouse adalah gudang besar data historis yang terorganisir dengan baik
Bussiness Analitycs adalah alat yang memungkinkan transformasi data menjadi informasi
dan pengetahuan
Bussiness Performance Management (BPM) memungkinkan pemantauan, pengukuran,
dan membandingkan indikator kinerja utama
User interface (mis., Dashboard) memungkinkan akses dan manipulasi komponen BI
lainnya dengan mudah
Keunggulan BI
Kemampuan untuk memberikan informasi yang akurat ketika dibutuhkan, termasuk
pandangan waktu nyata dari kinerja perusahaan dan bagian-bagiannya
Sebuah survei oleh Thompson (2004)
-Pelaporan lebih cepat, lebih akurat (81%)
-Pengambilan keputusan yang lebih baik (78%)
-Peningkatan layanan pelanggan (56%)
-Peningkatan pendapatan (49%)
Sistem kerja: sistem di mana peserta manusia dan / atau mesin melakukan proses bisnis,
menggunakan informasi, teknologi, dan sumber daya lainnya, untuk menghasilkan
produk dan / atau layanan untuk pelanggan internal atau eksternal
6
Sistem Pendukung Hibrida Terintegrasi
Tujuan dari dukungan keputusan yang terkomputerisasi, terlepas dari nama atau sifatnya,
adalah untuk membantu manajemen dalam memecahkan masalah manajerial atau
organisasi (dan menilai peluang dan strategi) lebih cepat dan lebih baik daripada yang
mungkin tanpa komputer
Setiap jenis alat memiliki kemampuan dan keterbatasan tertentu. Dengan
mengintegrasikan beberapa alat, kami dapat meningkatkan dukungan keputusan karena
satu alat dapat memberikan keuntungan di mana yang lain lemah. Oleh karena itu tren
menuju pengembangan Support Systems hybrid (terintegrasi)
Jenis integrasi
Gunakan setiap alat secara independen untuk menyelesaikan berbagai aspek masalah
Gunakan beberapa alat yang terintegrasi secara longgar. Ini terutama melibatkan transfer
data dari satu alat ke alat lain untuk diproses lebih lanjut
Gunakan beberapa alat yang terintegrasi erat. Dari sudut pandang pengguna, alat ini
muncul sebagai sistem terpadu
Selain melakukan tugas yang berbeda dalam proses penyelesaian masalah, alat dapat saling
mendukung
7
BAB 2
Data Warehousing
1. Definisi
Data Warehouse adalah kumpulan desain basis data terintegrasi dan berorientasi
subjek untuk mendukung fungsi DSS, di mana setiap unit data adalah non-volatile
dan relevan dengan waktu tertentu
Repositori fisik di mana data relasional diorganisasikan secara khusus untuk
menyediakan data yang dibersihkan perusahaan dalam format standar
2. Karakteristik DW
Berorientasi pada subjek
Terintegrasi
Time-variant (time series)
Nonvolatile
Diringkas
Tidak dinormalisasi
Metadata
Berbasis web, relational/multi-dimensi
Client/server
Real-time dan/atau right-time (aktif)
Data Mart
Departmen data warehouse yang hanya menyimpan data yang relevan
8
Kerangka Konseptual DW
4. Arsitektur Umum DW
Arsitektur Tiga Tingkat (Three-tier architecture)
Perangkat lunak akuisisi data (back-end)
Data warehouse yang berisi data & perangkat lunak
Software Client (front-end) yang memungkinkan pengguna untuk mengakses dan menganalisis data
warehouse
9
Pertimbangan Arsitektur DW
Masalah yang perlu dipertimbangkan ketika memutuskan arsitektur mana yang akan digunakan:
Database Management System (DBMS) yang mana yang harus dipakai?
Apakah akan menggunakan proses parallel dan/atau partisi?
Apakah alat migrasi data akan digunakan untuk memuat data warehouse?
Alat apa yang akan digunakan untuk mendukung pengambilan dan analisis data?
Web pages
Application Server
Data warehouse
Arsitektur Alternatif DW
10
Arsitektur Mana yang terbaik ??
• Bill Inmon Vs. Ralph Kimball
• Enterprise DW Vs. Data Marts approach
11
Sepuluh faktor yang berpotensi mempengaruhi keputusan pemilihan arsitektur:
1. Saling ketergantungan informasi antar unit organisasi
2. Kebutuhan informasi manajemen tingkat atas
3. Urgensi kebutuhan akan data warehouse
4. Sifat tugas end-user
5. Kendala pada sumber daya
6. Pandangan strategis dari data warehouse sebelum implementasi
7. Kompatibilitas dengan sistem yang ada
8. Kemampuan yang dirasakan dari staf TI in-house
9. Masalah teknis
10. Faktor Sosial/politik
12
Packaged application Transient data source
Data warehouse
Legacy system
Extract Transform Cleanse Load
Data mart
Other internal applications
6. Manfaat DW
Mengizinkan tampilan konsolidasi data perusahaan
Informasi yang lebih baik dan lebih tepat waktu
Peningkatan kinerja sistem
Penyederhanaan akses data
Manfaat tidak langsung dari data warehouse
Meningkatkan pengetahuan bisnis
Menghadirkan keunggulan kompetitif
Meningkatkan layanan dan kepuasan pelanggan
Memfasilitasi pengambilan keputusan
Membantu dalam mereformasi proses bisnis
7. Pengembangan DW
Pendekatan pengembangan data warehouse
a. Model Inmon : Pendekatan EDW (top-down)
b. Model Kimball : Pendekatan Data mart (bottom-up)
c. Model mana yang terbaik?
There is no one-size-fits-all strategy to DW
d. Salah satu alternative ada pada hosted warehouse
e. Struktur Data warehouse:
The Star Schema vs. Relational
f. Real-time pada datawarehouse?
DW Development Approaches
13
DW Structure : Star Schema
Driver Automotive
Facts:
Dimensions: Claim Information Central table that contains (usually summarized) information; also contains foreign keys t
How data will be sliced/ diced (e.g., by location, time period, type of automobile or driver)
Location Time
Pemodelan Dimensi
14
Kubus Data
Objek dua dimensi, tiga dimensi, atau lebih tinggi di mana setiap dimensi data mewakili ukuran yang
menarik
- Grain
- Drill-down
- Slicing
9. Resiko Implementasi Dw
Tidak ada misi atau tujuan
Kualitas data sumber tidak diketahui
Keterampilan tidak pada tempatnya
Anggaran tidak memadai
Kurangnya perangkat lunak pendukung
Sumber data tidak dipahami
Sponsor yang lemah
Pengguna tidak melek komputer
Masalah politik atau perang wilayah
Ekspektasi pengguna yang tidak realistis
15
10. Hal yang harus dihindari untuk keberhasilan DW
Dimulai dengan rantai sponsor yang salah
Menetapkan harapan yang tidak dapat Anda penuhi
Terlibat dalam perilaku naif secara politis
Memuat warehouse dengan informasi hanya karena ketersediaan
mempercayai bahwa desain database data warehouse sama dengan desain DB transaksional
Memilih manajer data warehouse yang berorientasi teknologi daripada berorientasi pengguna
12. Evolution DW
16
13. Comparing Traditional and Active DW
17
BAB 3
Business Performance Management
1. Definisi
Business Performance Management (BPM) adalah Sistem real-time yang mengingatkan manajer
akan peluang potensial, masalah yang akan datang, dan ancaman, dan kemudian memberdayakan
mereka untuk bereaksi melalui model dan kolaborasi
Disebut juga, corporate performance management (CPM by Gartner Group), enterprise
performance management (EPM by Oracle), strategic enterprise management (SEM by SAP)
BPM Overview
• BPM mengacu pada proses bisnis, metodologi, metrik, dan teknologi yang digunakan oleh
perusahaan untuk mengukur, memantau, dan mengelola kinerja bisnis
• BPM mencakup tiga komponen utama
– Seperangkat terintegrasi, manajemen loop tertutup dan proses analitik, didukung oleh
teknologi ...
– Alat untuk bisnis untuk menentukan tujuan strategis dan kemudian mengukur / mengelola
kinerja terhadap mereka
– Metode dan alat untuk memantau indikator kinerja utama (Key Performance Indicators),
terkait dengan strategi organisasi
2. BPM dan BI
BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya
• BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya
– Perusahaan yang sama memasarkan dan menjualnya
– BI telah berevolusi sehingga banyak perbedaan asli antara keduanya tidak ada lagi (mis.,
BI dulu berfokus pada proyek-proyek departemen daripada perusahaan-lebar enterprise-
wide projects)
– BI adalah elemen penting dari BPM
• BPM = BI + Planning (solusi terpadu)
18
Strategi
Perencanaan Strategis (Strategic planning)
Tugas umum untuk proses perencanaan strategis:
Lakukan analisis situasi saat ini
Tentukan cakrawala perencanaan
Lakukan pemindaian lingkungan
Identifikasi faktor penentu keberhasilan
Lengkapi analisis kesenjangan
Buat visi strategis
Kembangkan strategi bisnis
Identifikasi sasaran dan sasaran strategis
• Strategic objective
Pernyataan umum atau tindakan umum yang menentukan arah yang ditargetkan untuk
suatu organisasi
• Strategic goal
Sasaran terukur dengan periode waktu yang ditentukan
• Strategic vision
Gambaran atau gambaran mental tentang bagaimana seharusnya organisasi di masa depan
• Critical success factors (CSF)
Faktor-faktor kunci yang menggambarkan hal-hal yang harus dimiliki oleh suatu
organisasi untuk menjadi sukses
• Kesenjangan strategi
– Empat sumber untuk kesenjangan antara strategi dan eksekusi:
1. Komunikasi (enterprise-wide)
2. Penyelarasan penghargaan dan insentif
3. Fokus (berkonsentrasi pada elemen inti)
4. Sumber daya
Plan
Perencanaan Operasional
a. Rencana Operasional : rencana yang menerjemahkan sasaran dan sasaran strategis
organisasi ke dalam serangkaian taktik dan inisiatif yang ditetapkan dengan baik,
persyaratan sumber daya, dan hasil yang diharapkan untuk beberapa periode waktu
mendatang (biasanya satu tahun)
Perencanaan Operasional dapat :
Tactic-centric (focus operational)
Rencana yang terfokus pada anggaran (berfokus pada keuangan)
Perencanaan dan penganggaran keuangan
b. Tujuan strategis dan metrik utama organisasi harus berfungsi sebagai pendorong top-
down untuk alokasi aset berwujud dan tidak berwujud organisasi
c. Alokasi sumber daya harus diselaraskan dengan hati-hati dengan tujuan dan taktik
strategis organisasi untuk mencapai keberhasilan strategis
Monitor
• Kerangka kerja yang komprehensif untuk memantau kinerja harus mengatasi dua masalah
utama:
– Apa yang harus dipantau
• Faktor penentu keberhasilan
• Tujuan dan sasaran strategis
– Cara memonitor
19
• Sistem Kontrol Diagnostik
Sistem cybernetic yang memiliki input, proses untuk mentransformasikan input menjadi
output, standar atau tolok ukur untuk membandingkan output, dan saluran umpan balik
untuk memungkinkan informasi tentang perbedaan antara output dan standar untuk
dikomunikasikan dan ditindaklanjuti.
• Perangkap analisis varians
– Sebagian besar analisis pengecualian berfokus pada varian negatif ketika kelompok atau
departemen fungsional gagal memenuhi target mereka
– Jarang varians positif ditinjau untuk peluang potensial, dan jarang analisis fokus pada
asumsi yang mendasari pola varians
–
20
Harrah’s Closed-Loop Marketing Model
5. Performance Measurement
Masalah dengan sistem pengukuran kinerja yang ada
a. Sistem yang paling populer digunakan adalah beberapa varian balanced scorecard
(BSC)
21
50-90% dari semua perusahaan menerapkan BSC
b. Metodologi BSC adalah visi holistik dari sistem pengukuran yang terkait dengan arah
strategis organisasi dan didasarkan pada pandangan empat perspektif dunia:
Ukuran finansial didukung oleh metrik pelanggan (customer), internal, serta
pembelajaran (learning) dan pertumbuhan (growth)
22
BAB 4
Business Performance Management Methodologies
1. BPM Methodologies
Sistem pengukuran kinerja yang efektif harus membantu:
a. Menyelaraskan tujuan strategis tingkat atas dan inisiatif tingkat bawah
b. Identifikasi peluang dan masalah secara tepat waktu
c. Tentukan prioritas dan alokasikan sumber daya yang sesuai
d. Ubah pengukuran saat proses dan strategi yang mendasarinya berubah
e. Menggambarkan tanggung jawab, memahami kinerja aktual relatif terhadap
tanggung jawab, dan menghargai serta mengakui prestasi
f. Ambil tindakan untuk meningkatkan proses dan prosedur ketika data
mengharuskannya
g. Merencanakan dan memperkirakan secara lebih andal dan tepat waktu
Dalam BSC, istilah “balance“ (keseimbangan) muncul karena serangkaian tindakan gabungan
yang seharusnya mencakup indikator sbb:
– Keuangan dan nonkeuangan
– Terkemuka dan tertinggal (Leading & Legging)
– Internal dan eksternal
– Kuantitatif dan kualitatif
– Jangka pendek dan jangka panjang
23
3. Menyelaraskan organisasi
4. Merencanakan operasi
5. Pemantauan dan pembelajaran
6. Menguji dan mengadaptasi strategi
Peta Strategi
Tampilan visual yang menggambarkan hubungan antara tujuan organisasi utama untuk
keempat perspektif BSC
3. Six Sigma
Metodologi manajemen kinerja yang bertujuan mengurangi jumlah cacat dalam proses
bisnis sedekat mungkin dengan sebisamungkin nol cacat per juta peluang/defects per
million opportunities (DPMO)
– Model kinerja DMAIC
Model peningkatan bisnis loop tertutup yang mencakup langkah-langkah
mendefinisikan, mengukur, menganalisis, meningkatkan, dan mengendalikan suatu
proses
– Lean Six Sigma
• Lean manufacturing / lean production
• Lean production versus six sigma
Cara Sukses dalam Six Sigma
– Six Sigma terintegrasi dengan strategi bisnis
– Six Sigma mendukung tujuan bisnis
– Eksekutif kunci terlibat dalam proses ini
– Seleksi proyek didasarkan pada nilai potensial
– Ada banyak proyek dan sumber daya yang kritis
– Proyek-dalam-proses dikelola secara aktif
– Keterampilan kepemimpinan tim ditekankan
– Hasil dilacak dengan ketat
BSC + Six Sigma = Success
24
– Menerjemahkan strategi mereka menjadi tujuan yang dapat diukur
– Cascading obyektif melalui organisasi
– Menetapkan target berdasarkan suara pelanggan
– Menerapkan proyek strategis menggunakan Six Sigma
– Menjalankan proses secara konsisten untuk memberikan hasil bisnis
4. Arsitektur BPM
Desain logis dan fisik suatu sistem
Sistem BPM terdiri dari tiga bagian logis:
-Aplikasi BPM
-Pusat Informasi (Information Hub)
-Sumber Sistem (Source Systems)
Sistem BPM terdiri dari tiga bagian fisik:
-Tingkat Database
-Tingkat Application
-Client atau user interface
5. Aplikasi BPM
Manajemen strategi
Penganggaran, perencanaan, dan perkiraan
Konsolidasi keuangan
Pemodelan dan optimasi profitabilitas
Pelaporan keuangan, perundang-undangan, dan manajemen
25
6. Dashboard
Dashboards dan scorecards keduanya menampilkan tampilan visual dari informasi
penting yang dikonsolidasikan dan disusun dalam satu layar sehingga informasi dapat
dicerna dengan sekali pandang dan mudah dieksplorasi
Kinerja dashboards
Tampilan visual yang digunakan untuk memantau kinerja operasional (bentuk bebas ...)
Kinerja scorecards
Tampilan visual yang digunakan untuk memetakan kemajuan terhadap sasaran dan
target strategis dan taktis (tindakan yang telah ditentukan ...)
26
Tiga jenis kinerja dashboards:
Operational dashboards
Tactical dashboards
Strategic dashboards
Desain Dashboard
– "Tantangan mendasar dari desain dashboard adalah untuk menampilkan semua
informasi yang diperlukan pada satu layar, dengan jelas dan tanpa gangguan, dengan
cara yang dapat diasimilasi dengan cepat"
27
BAB 5
Pengantar Data Mining
1. Definisi
Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar
Ekstraksi dari data ke pengetahuan:
Data: fakta yang terekam dan tidak membawa arti
Pengetahuan: pola, rumus, aturan atau model yang muncul dari data
• Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan
sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011)
• Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan
keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)
• Extraction of interesting (non-trivial, implicit, previously unknown and potentially
useful) patterns or knowledge from huge amount of data (Han et al., 2011)
2. Contoh Data
Puluhan ribu data mahasiswa di kampus yang diambil dari sistem informasi akademik
Apakah pernah kita ubah menjadi pengetahuan yang lebih bermanfaat? TIDAK!
28
Seperti apa pengetahuan itu? Rumus, Pola, Aturan
Computing
Statistics
Algorithms
Machine Database
Learning Technology
29
5. Tipe Data
6. Dataset
30
7. Peran Utama Data Mining
1. Estimasi
5. Asosiasi 2. Forecasting
4. Klastering 3. Klasifikasi
31
10. Klasifikasi Kelulusan Mahasiswa
32
33
BAB 6
Metode Learning Algoritma Data Mining
1. Definisi
Machine learning (ML) adalah keluarga teknologi kecerdasan buatan yang terutama
berkaitan dengan desain dan pengembangan algoritma yang memungkinkan komputer
untuk "belajar" dari data historis
a. ML adalah proses dimana komputer belajar dari pengalaman
b. Ini berbeda dari perolehan pengetahuan di ES: bukannya mengandalkan para ahli
(dan kemauan mereka) ML bergantung pada fakta sejarah
c. ML membantu dalam menemukan pola dalam data
Learning adalah proses peningkatan diri, yang merupakan fitur penting dari perilaku
cerdas
Pembelajaran manusia adalah kombinasi dari banyak proses kognitif yang rumit,
termasuk :
d. Induksi
e. Deduksi
f. Analogi
g. Prosedur khusus lainnya yang terkait dengan mengamati dan / atau menganalisis
contoh
Machine Learning versus Human Learning
h. Beberapa perilaku ML dapat menantang kinerja pakar manusia (mis., Bermain
catur)
i. Meskipun ML kadang-kadang sesuai dengan kemampuan belajar manusia, ia tidak
dapat belajar sebaik manusia atau dengan cara yang sama seperti yang dilakukan
manusia
j. Tidak ada klaim bahwa pembelajaran mesin dapat diterapkan dengan cara yang
benar-benar kreatif
k. Sistem ML tidak berlabuh dalam teori formal apa pun (mengapa mereka berhasil
atau gagal tidak jelas)
l. Keberhasilan ML sering dikaitkan dengan manipulasi simbol (bukan hanya
informasi numerik)
34
2. Metode
Machine Learning
3. Supervised Learning
Pembelajaran dengan guru, data set memiliki target/label/class
Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification)
adalah supervised learning
Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable predictor
35
4. Unsupervised Learning
Algoritma data mining mencari pola dari semua variable (atribut)
Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)
Algoritma clustering adalah algoritma unsupervised learning
36
Proses Data Mining
7. Algoritma klasifikasi
• Klasifikasi (Han, 2006) adalah proses penemuan model (atau fungsi) yang
menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa
digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui.
• Proses klasifikasi didasarkan pada empat komponen: (Gorunescu, 2011) yaitu :
1. Kelas
2. Predictor
3. Training Dataset
4. Testing Dataset
-
- Buat cabang untuk tiap-tiap nilai
- Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
37
kelas yg sama
Algoritma NeuralNework
Neural Network adalah suatu model yang dibuat untuk meniru fungsi belajar yang
dimiliki otak manusia atau jaringan dari sekelompok unit pemroses kecil yang
dimodelkan berdasarkan jaringan saraf manusia
8. Analisis Clustering
Cluster: Kumpulan Objek Data
serupa (atau terkait) satu sama lain dalam kelompok yang sama
berbeda (atau tidak terkait) dengan objek dalam kelompok lain
Cluster analysis (atau clustering, segmentasi data, …)
Menemukan kesamaan antara data sesuai dengan karakteristik yang ditemukan dalam data
dan mengelompokkan objek data serupa ke dalam kelompok
Unsupervised learning: tidak ada kelas yang telah ditentukan (mis., learning by
observations vs. learning by examples: supervised)
Typical applications
Sebagai alat yang berdiri sendiri untuk mendapatkan wawasan tentang distribusi data
Sebagai langkah preprocessing untuk algoritma lain
K Means
Pilih jumlah klaster k yang diinginkan
Inisialisasi k pusat klaster (centroid) secara random
Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan
berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)
x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n atribut(kolom) antara
2 record
Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster
adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu
Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster
sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke
langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan
yang signifikan dari nilai SSE (Sum of Squared Errors)
9. Analisi Asosiasi
Frequent pattern: sebuah pola (satu set item, berikutnya, substruktur, dll.) Yang sering
terjadi dalam kumpulan data
Pertama kali diusulkan Agrawal, Imielinski, dan Swami [AIS93] dalam konteks frequent
itemset dan asosiasi rule mining
Motivation: Menemukan keteraturan yang melekat dalam data
Produk apa yang sering dibeli bersama? - Bir dan popok ?!
Apa pembelian selanjutnya setelah membeli PC?
Jenis DNA apa yang sensitif terhadap obat baru ini?
38
Bisakah kita secara otomatis mengklasifikasikan dokumen web?
Applications
Analisis data keranjang, pemasaran silang, desain katalog, analisis kampanye penjualan,
analisis log Web (aliran klik), dan analisis urutan DNA.
39
BAB 7
Studi Kasus
1. Himpunan Dataset
Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti
data mining
UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
ACM KDD Cup (http://www.sigkdd.org/kddcup/)
PredictionIO (http://docs.prediction.io/datacollection/sample/)
Data.go.id
Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti
dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable
Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
Classification:
Confusion Matrix: Accuracy
40
ROC Curve: Area Under Curve (AUC)
Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
View Operator
• Process Control
Untuk mengontrol aliran proses, seperti loop atau conditional branch
• Utility
Untuk mengelompokkan subprocess, juga macro dan logger
• Repository Access
Untuk membaca dan menulis repositori
• Import
Untuk membaca data dari berbagai format eksternal
• Export
Untuk menulis data ke berbagai format eksternal
• Data Transformation
Untuk transformasi data dan metadata
• Modelling
Untuk proses data mining yang sesungguhnya seperti klasifikasi, regresi, clustering, aturan asosiasi dll
• Evaluation
41
Untuk menghitung kualitas dan perfomansi dari model
42
-Operator dan proses
Proses data mining pada dasarnya adalah proses analisa yang berisi alur kerja dari komponen
data mining
Komponen dari proses ini disebut operator, yang didefinisikan dengan:
Deskripsi input
Deskripsi output
Aksi yang dilakukan
Parameter yang diperlukan
Sebuah operator bisa disambungkan melalui port masukan (kiri) dan port keluaran (kanan)
Indikator status dari operator:
– Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah
behasil dijalankan)
– Segitiga warning: bila ada pesan status
– Breakpoint: bila ada breakpoint sebelum/sesudahnya
– Comment: bila ada komentar
– Subprocess: bila mempunyai subprocess
Melihat Hasil
43
6. Studi Kasus
-Penentuan Bunga Iris
Lakukan training pada data Bunga Iris (ambil dari repositories rapidminer) dengan
menggunakan algoritma decision tree
Tampilkan himpunan data (dataset) dan pengetahuan (model tree) yang terbentuk
Tampilkan grafik dari cluster yang terbentuk
44
45
BAB 8
Pembuatan Laporan dan Presentasi
46
DAFTAR PUSTAKA
Imhoff C, Galemmo N, Geiger JG. Mastering Data Warehouse Design. Indianapolis, Indiana: Wiley
Publishing; 2003.
Han J, Kamber M. Data Mining: Concepts and Techniques. Soft Computing. 2006. 800 p.
Paulraj Ponniah, Data warehousing fundamentals for IT Professionals 2nd Edition, Wiley.
2010.
Ralph Kimball dan Margy Ross, The Data Warehouse Toolkit: The Definitive Guide to
Dimensional Modeling,. Wiley. 2013.
47