11160930000100 – SI 4 D
BAB 1 Pendahuluan
1.1 Definisi Data Mining
Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi
yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan
penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang
lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting
atau menarik dari data yang terdapat dalam basisdata.
Data mining biasa juga dikenal nama lain seperti : Knowledge discovery (mining) in
databases (KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan
kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk memanipulasi
data untuk penyajian informasi sesuai kebutuhan user dengan tujuan untuk membantu dalam
analisis koleksi pengamatan perilaku, secara umum definisi data-mining dapat diartikan
sebagai berikut
Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit,
sebefumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data
yang disimpan dalam jumfah besar.
Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam
jumlah besar untuk mencari pola dan aturan yang berarti.
Proses yang umumnya dilakukan oleh data mining antara lain: deskripsi, prediksi,
estimasi, klasifikasi, clustering dan asosiasi. Secara rinci proses data mining dijelaskan sebagai
berikut (Larose, 2005):
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada
suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah
dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah
dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada
sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik
postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining.
Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil yang valid
dan berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
c. Estimasi
Hasnan Attariq
11160930000100 – SI 4 D
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah
numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang
menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai
contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan
umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan
darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model
estimasi.
d. Klasifikasi
e. Clustering
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu
waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket
analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara
dua atau lebih atribut.
Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi
organisasi untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau
aplikasi operasional [Ferdiana, 2008]. Pemakaian teknologi data warehouse hampir
dibutuhkan oleh semua organisasi, tidak terkecuali Perpustakaan. Data warehouse
memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem.
Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi,
dan menganalisisnya untuk pengambilan keputusan”.
- Data warehouse adalah data-data yang berorientasi subjek, terintegrasi, memiliki dimensi
waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung
proses pengambilan keputusan oleh para manajer di setiap jenjang (namun terutama pada
jenjang manajerial yang memiliki peringkat tinggi).
Hasnan Attariq
11160930000100 – SI 4 D
- Data warehouse adalah data yang diperoleh dari proses dimana organisasi mengekstraksi
makna dari aset infromasi yang mereka miliki. Data warehouse adalah inovasi baru dalam
hal teknologi informasi. Sejak dimulai sekitar 15 tahun lalu, konsep data warehouse ini
berkembang secara cepat sehingga saat ni konsep data warehouse ini adalah konsep yang
paling banyak dibicarakan oleh para ahli di bidang tekhnologi informasi.
- Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database
berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision
Suport System) dan EIS (Executive Information System).
- Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.
- Salinan dari transaksi data yang terstruktur spesifik untuk querydan laporan.
Data mining bukanlah tugas yang mudah, karena algoritma yang digunakan bisa
menjadi sangat kompleks dan data tidak selalu tersedia di satu tempat. Perlu diintegrasikan dari
berbagai sumber heterogen data. Faktor-faktor ini juga membuat beberapa masalah.
dengan data gudang bahasa query dan dioptimalkan untuk memening data sehingga
efisien dan fleksibel.
Presentasi dan visualisasi hasil data minig / Presentation and visualization of data
mining results − setelah pola ditemukan perlu dinyatakan dalam bahasa tingkat tinggi,
dan presentasi visual. Pernyataan ini harus mudah di mengerti.
Penanganan data bising atau tidak lengkap / Handling noisy or incomplete data −
data cleaning metode diperlukan untuk menangani noisy dan benda-benda yang tidak
lengkap sementara data mining akan keteraturan. Jika metode data cleaning tidak ada
ketepatan pola ditemukan akan menjadi buruk.
Pattern evaluation - Evaluasi pola menemukan harus menarik karena baik mereka
mewakili kebaruan pengetahuan atau kekurangan yang umum.
Masalah kinerja
Ada beberaoa masalah yang berkaitan dengan kinerja seperti − berikut
Efisiensi dan skalabilitas data mining / Efficiency and scalability of data mining
algorithms− algoritma untuk secara efektif mengekstrak informasi dari sejumlah besar
data dalam database, data pertambangan algoritma harus efisien dan scalable.
Paralel, didistribusikan dan inkremental mining algoritma / Parallel, distributed,
and incremental mining algorithms − faktor-faktor seperti ukuran besar database,
distribusi data, dan kompleksitas dari metode pertambangan data memotivasi
pengembangan data paralel dan didistribusikan mining algoritma. Algoritma ini membagi
data ke partisi yang diproses lebih lanjut dalam mode paralel. Kemudian hasil dari partisi
digabungkan. Algoritma inkremental, update database tanpa pertambangan data lagi dari
awal.
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif
antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu
pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli
roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat
mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai
Hasnan Attariq
11160930000100 – SI 4 D
kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat
diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database
dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-
maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena
mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat pada gambar
diatas. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung
pohon menyatakan kelas data. Contoh di Gambar 3 adalah identifikasi pembeli komputer,
dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli
komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah
ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas
data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised
learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas
dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan
memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining:
Predictive Modeling, Discovery, dan Deviation Detection.
1. Predictive Modeling
1.1 Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data
contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank
dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan
disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.
1.2 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik
Hasnan Attariq
11160930000100 – SI 4 D
2. Discovery
3. Deviation Detection
sistem data mining. Hal ini juga akan memotivasi suatu studi sistematik untuk mengukur
kualitas dari informasi yang dihasilkan, termasuk seberapa menariknya dan tingkat
kepercayaannya yang dapat diukur secara statistik, analitis dan menggunakan model simulasi.
BAB 2 Data
Data adalah sesuatu yang belum mempunyai arti bagi penerimanya dan masih
memerlukan adanya suatu pengolahan. Data bisa berujut suatu keadaan, gambar, suara, huruf,
angka, matematika, bahasa ataupun simbol-simbol lainnya yang bisa kita gunakan sebagai
bahan untuk melihat lingkungan, obyek, kejadian ataupun suatu konsep.
Informasi merupakan hasil pengolahan dari sebuah model, formasi, organisasi, ataupun
suatu perubahan bentuk dari data yang memiliki nilai tertentu, dan bisa digunakan untuk
menambah pengetahuan bagi yang menerimanya. Dalam hal ini, data bisa dianggap sebagai
obyek dan informasi adalah suatu subyek yang bermanfaat bagi penerimanya. Informasi juga
bisa disebut sebagai hasil pengolahan ataupun pemrosesan data.
Data bisa merupakan jam kerja bagi karyawan perusahaan. Data ini kemudian perlu
diproses dan diubah menjadi informasi. Jika jam kerja setiap karyawan kemudian dikalikan
dengan nilai per-jam, maka akan dihasilkan suatu nilai tertentu. Jika gambaran penghasilan
setiap karyawan kemudian dijumlahkan, akan menghasilkan rekapitulasi gaji yang harus
dibayar oleh perusahaan. Penggajian merupakan informasi bagi pemilik perusahaan. Informasi
merupakan hasil proses dari data yang ada, atau bisa diartikan sebagai data yang mempunyai
arti. Informasi akan membuka segala sesuatu yang belum diketahui.
Jenis-jenis data dapat dibagi berdasarkan sifatnya, sumbernya, cara memperolehnya, dan waktu
pengumpulannya. Menurut sifatnya, jenis-jenis data yaitu:
Data Kualitatif: data kualitatif adalah data yang tidak berbentuk angka, misalnya:
Kuesioner Pertanyaan tentang suasana kerja, kualitas pelayanan sebuah rumah sakit
atau gaya kepemimpinan, dll.
Data Kuantitatif: data kuantitatif adalah data yang berbentuk angka, misalnya: harga
saham, besarnya pendapatan, dll.
Data Internal: data intenal adalah data dari dalam suatu organisasi yang
menggambarkan keadaan organisasi tersebut. Contohnya: suatu perusahaan, jumlah
karyawannya, jumlah modalnya, atau jumlah produksinya, dll.
Data Eksternal: data eksternal adalah data dari luar suatu organisasi yang dapat
menggambarkan faktor-faktor yang mungkin mempengaruhi hasil kerja suatu
organisasi. Misalnya: daya beli masyarakat mempengaruhi hasil penjualan suatu
perusahaan.
Hasnan Attariq
11160930000100 – SI 4 D
Data Primer (primary data): data primer adalah data yang dikumpulkan sendiri oleh
perorangan/suatu organisasi secara langsung dari objek yang diteliti dan untuk
kepentingan studi yang bersangkutan yang dapat berupa interview, observasi.
Data Sekunder (secondary data): data sekunder adalah data yang diperoleh/
dikumpulkan dan disatukan oleh studi-studi sebelumnya atau yang diterbitkan oleh
berbagai instansi lain. Biasanya sumber tidak langsung berupa data dokumentasi dan
arsip-arsip resmi.
Data cross section, yaitu data yang dikumpulkan pada suatu waktu tertentu (at a point
of time) untuk menggambarkan keadaan dan kegiatan pada waktu tersebut. Misalnya;
data penelitian yang menggunakan kuesioner.
Data berkala (time series data), yaitu data yang dikumpulkan dari waktu ke waktu untuk
melihat perkembangan suatu kejadian/kegiatan selama periode tersebut. Misalnya,
perkembangan uang beredar, harga 9 macam bahan pokok penduduk.
Jenis sumber data adalah mengenai dari mana data diperoleh. Apakah data diperoleh
dari sumber langsung (data primer) atau data diperoleh dari sumber tidak langsung (data
sekunder).
Metode Pengumpulan Data merupakan teknik atau cara yang dilakukan untuk
mengumpulkan data. Metode menunjuk suatu cara sehingga dapat diperlihatkan
penggunaannya melalui angket, wawancara, pengamatan, tes, dkoumentasi dan sebagainya.
Adapun tiga teknik pengumpulan data yang biasa digunakan adalah angket, observasi dan
wawancara.
1. Angket
Hasnan Attariq
11160930000100 – SI 4 D
Angket / kuesioner adalah teknik pengumpulan data yang dilakukan dengan cara
memberikan seperangkat pertanyaan atau pernyataan kepada orang lain yang dijadikan
responden untuk dijawabnya.
Meskipun terlihat mudah, teknik pengumpulan data melalui angket cukup sulit dilakukan jika
respondennya cukup besar dan tersebar di berbagai wilayah.
Beberapa hal yang perlu diperhatikan dalam penyusunan angket menurut Uma Sekaran
(dalam Sugiyono, 2007:163) terkait dengan prinsip penulisan angket, prinsip pengukuran dan
penampilan fisik.
Isi dan tujuan pertanyaan artinya jika isi pertanyaan ditujukan untuk mengukur maka
harus ada skala yang jelas dalam pilihan jawaban.
Tipe dan bentuk pertanyaan apakah terbuka atau terturup. Jika terbuka artinya jawaban
yang diberikan adalah bebas, sedangkan jika pernyataan tertutup maka responden
hanya diminta untuk memilih jawaban yang disediakan.
2. Observasi
Obrservasi merupakan salah satu teknik pengumpulan data yang tidak hanya mengukur
sikap dari responden (wawancara dan angket) namun juga dapat digunakan untuk merekam
berbagai fenomena yang terjadi (situasi, kondisi). Teknik ini digunakan bila penelitian
ditujukan untuk mempelajari perilaku manusia, proses kerja, gejala-gejala alam dan dilakukan
pada responden yang tidak terlalu besar.
Participant Observation
Dalam observasi ini, peneliti secara langsung terlibat dalam kegiatam sehari-hari orang
atau situasi yang diamati sebagai sumber data.
Kelemahan dari metode ini adalah peneliti tidak akan memperoleh data yang mendalam
karena hanya bertindak sebagai pengamat dari luar tanpa mengetahui makna yang terkandung
di dalam peristiwa.
Alat yang digunakan dalam teknik observasi ini antara lain : lembar cek list, buku
catatan, kamera photo, dll.
3. Wawancara
Wawancara merupakan teknik pengumpulan data yang dilakukan melalui tatap muka
dan tanya jawab langsung antara pengumpul data maupun peneliti terhadap nara sumber atau
sumber data.
Wawancara pada penelitian sampel besar biasanya hanya dilakukan sebagai studi
pendahuluan karena tidak mungkin menggunakan wawancara pada 1000 responden, sedangkan
pada sampel kecil teknik wawancara dapat diterapkan sebagai teknik pengumpul data
(umumnya penelitian kualitatif)
1. Wawancara terstruktur artinya peneliti telah mengetahui dengan pasti apa informasi
yang ingin digali dari responden sehingga daftar pertanyaannya sudah dibuat secara
sistematis. Peneliti juga dapat menggunakan alat bantu tape recorder, kamera photo,
dan material lain yang dapat membantu kelancaran wawancara.
1. Berorientasi Subjek
Data warehouse terorganisasi di seputar subjek kunci (atau entitas-entitas peringkat
tinggi) dalam perusahaan, Data warehouse adalah tempat penyimpanan berdasakan subyek
bukan berdasakan aplikasi. Subyek merupakan bagian dari suatu perusahaan. Contoh subyek
pada perusahaan manufaktur adalah penjualan, konsumen, inventori, daln lain sebagainya.
Contoh lain misalnya di bank, aplikasi kredit mengotomasi fungsi-
fungsi:verifikasi lamaran dan credit checking, pemeriksaan kolateral, approval, pendanaan,
tagihan, dan seterusnya. Didalam data warehouse data-data yang dihasilkan dari proses kredit
ini, diatur kembali (dikelompokkan) dan diintegrasikan (digabung) dengan data-data dari
fungsi-fungsi lain, agar berorientasi pada misalnya nasabah dan produk.
Gambar dibawah ini merupakan perbedaan mengenai data warehouse dan database
operasional.
2. Terintegrasi
Data yang tersimpan dalam data warehouse didefinisikan menggunakan konversi
penamaan yang konsisten, format-format, struktur terkodekan, serta karakteristik-karakteristik
yang berhubungan, Sumber data yang ada dalam data warehouse tidak hanya berasal dari
database operasional (internal source) tetapi juga berasal dari data diluar sistem (external
source). Data pada sumber berbeda dapat di-encode dengan cara yang berbeda. Sebagai
contoh, data jenis kelamin dapat di-enkode sebagai 0 dan 1 di satu tempat dan ”m” dan
”f” di tempat lain.
Hasnan Attariq
11160930000100 – SI 4 D
Contoh lain misalnya : Data dari macam-macam aplikasi transaksi (untuk bank misalnya:
tabungan, kredit, rekening koran) semua mengandung data nasabah, ada yang sama ada yang
spesifik (yang sama misalnya: nama dan alamat, yang spesifik misalnya: untuk kredit ada
kolateral, untuk rekening koran ada overdraft) didalam data warehouse data-data yang sama
harus diintegrasikan disatu database, termasuk misalnya diseragamkan formatnya (sederhana
tetapi paling sering terjadi – aplikasi-aplikasi sering dibeli vendor berbeda, dibuat
dengan/dijalankan di teknologi berbeda-beda)
Didalam data warehouse sering disimpan macam-macam waktu, seperti waktu suatu
transaksi terjadi/dirubah/dibatalkan, kapan efektifnya, kapan masuk ke komputer, kapan masuk
ke data warehouse; juga hampir selalu disimpan versinya, misalnya terjadi perubahan
definisi kode pos, maka yang lama dan yang baru ada semua didalam data warehouse
kita. Sekali lagi, data warehouse yang bagus adalah yang menyimpan sejarah.
4. Non-volatile
Data yang tersimpan dalam data warehouse diambil dari system operasional yang
sedang berjalan, tetapi tidak dapat diperbaharui (di-update) oleh pengguna (bersifat ‘hanya-
baca), Sekali masuk kedalam data warehouse, data-data, terutama data tipe transaksi, tidak
akan pernah di update atau dihapus (delete) Terlihat, bahwa keempat karakteristik ini saling
terkait kesemuanya harus diimplementasikan agar suatu data warehouse bisa efektif memiliki
data untuk mendukung pengambilan-keputusan. Dan, implementasi keempat karakteristik ini
membutuhkan struktur data dari data warehouse yang berbeda dengan database sistem
operasional.
Data dalam database operasional akan secara berkala atau periodik dipindahkan
kedalam data warehouse sesuai dengan jadwal yang sudah ditentukan. Misal perhari,
perminggu, perbulan, dan lain sebagainya. Sekali masuk ke dalam data warehouse, data adalah
read-only . Pada gambar 2 dibawah ini bisa dilihat bahwa database OLTP bisa dibaca, diupdate,
dan dihapus. Tetapi pada database data warehouse hanya bisa dibaca.
5. Ringkas
Jika diperlukan, data operasional dikumpulkan ke dalam ringkasan-ringkasan.
Hasnan Attariq
11160930000100 – SI 4 D
6. Granularity
Pada sistem operasional data dibuat secara real-time sehingga untuk mendapatkan
informasi langsung dilakukan proses query. Pada data warehouse pada menganalisis harus
memperhatikan level-of-detail misalkan perhari, ringkasan perbulan, ringkasan per-tiga-bulan.
7. Tidak ternormalisasi
Data di dalam sebuah data warehouse biasanya tidak ternormalisasi dan sangat
redundan. Dasar dari suatu data warehouse adalah suatu data yang besar yang mengandung
informasi bisnis. Data-data yang ada di dalam data warehouse bisa berasal dari banyak sumber,
misalkan dari database operasional atau transaksional dan sumber dari luar misalkan dari web,
penyedia jasa informasi, dari perusahaan lain, dan lain sebagainya.