TP - 1

Hasnan Attariq
11160930000100 – SI 4 D
BAB 1 Pendahuluan
1.1 Definisi Data Mining
Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi
yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan
penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang
lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting
atau menarik dari data yang terdapat dalam basisdata.
Data mining biasa juga dikenal nama lain seperti : Knowledge discovery (mining) in
databases (KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan
kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk memanipulasi
data untuk penyajian informasi sesuai kebutuhan user dengan tujuan untuk membantu dalam
analisis koleksi pengamatan perilaku, secara umum definisi data-mining dapat diartikan
sebagai berikut
 Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
 Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit,
sebefumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data
yang disimpan dalam jumfah besar.
 Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam
jumlah besar untuk mencari pola dan aturan yang berarti.
1.2 Operasi Data Mining
Proses yang umumnya dilakukan oleh data mining antara lain: deskripsi, prediksi,
estimasi, klasifikasi, clustering dan asosiasi. Secara rinci proses data mining dijelaskan sebagai
berikut (Larose, 2005):
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada
suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah
dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah
dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada
sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik
postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining.
Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil yang valid
dan berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan

berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari
tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan dalam
waktu dekat dan prediksi harga saham dalam tiga bulan yang akan datang.
c. Estimasi
Hasnan Attariq
11160930000100 – SI 4 D
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah
numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang
menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai
contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan
umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan
darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model
estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang

mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses
pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang
sudah didefinisikan sebelumnya.
e. Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke

dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki
kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam
kluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu
sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan
semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu
waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket
analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara
dua atau lebih atribut.
1.3 Data Warehouse
Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi
organisasi untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau
aplikasi operasional [Ferdiana, 2008]. Pemakaian teknologi data warehouse hampir
dibutuhkan oleh semua organisasi, tidak terkecuali Perpustakaan. Data warehouse
memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem.
Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi,
dan menganalisisnya untuk pengambilan keputusan”.
Beberapa konsep dasar tentang data warehouse :
- Data warehouse adalah data-data yang berorientasi subjek, terintegrasi, memiliki dimensi
waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung
proses pengambilan keputusan oleh para manajer di setiap jenjang (namun terutama pada
jenjang manajerial yang memiliki peringkat tinggi).
Hasnan Attariq
11160930000100 – SI 4 D
- Data warehouse adalah suatu paradigma baru dilingkungan pengambilan keputusan

strategik. Data warehouse bukan suatu produk tetapi suatu lingkungan dimana user dapat
menemukan informasi strategik [Poniah, 2001, h.14]. Data warehouse adalah kumpulan
data-data logik yang terpisah dengan database operasional dan merupakan suatu ringkasan.
- Data warehouse adalah data yang diperoleh dari proses dimana organisasi mengekstraksi
makna dari aset infromasi yang mereka miliki. Data warehouse adalah inovasi baru dalam
hal teknologi informasi. Sejak dimulai sekitar 15 tahun lalu, konsep data warehouse ini
berkembang secara cepat sehingga saat ni konsep data warehouse ini adalah konsep yang
paling banyak dibicarakan oleh para ahli di bidang tekhnologi informasi.
- Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database
berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision
Suport System) dan EIS (Executive Information System).
- Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.
- Salinan dari transaksi data yang terstruktur spesifik untuk querydan laporan.
1.4 Permasalahan dalam Data Mining
Data mining bukanlah tugas yang mudah, karena algoritma yang digunakan bisa
menjadi sangat kompleks dan data tidak selalu tersedia di satu tempat. Perlu diintegrasikan dari
berbagai sumber heterogen data. Faktor-faktor ini juga membuat beberapa masalah.
Masalah-masalah dalam data mining, yaitu:
- Pertambangan metodologi dan interaksi pengguna

- Masalah kinerja
- Jenis masalah Data beragam
Metodologi Data Mining dan masalah pada interaksi pengguna

Ia merujuk kepada jenis berikut − masalah
 Mining jenis pengetahuan dalam database / Mining different kinds of knowledge in
databases − pengguna yang berbeda mungkin tertarik dalam berbagai jenis pengetahuan.
Oleh karena itu sangatlah penting untuk data pertambangan untuk menutupi berbagai
pengetahuan penemuan tugas.
 Interaktif pengetahuan data mining di berbagai tingkat abstraksi / Interactive
mining of knowledge at multiple levels of abstraction − proses data mining perlu
interaktif karena hal itu memungkinkan pengguna untuk fokus mencari pola,
menyediakan dan menyempurnakan permintaan pertambangan data berdasarkan hasil
yang dikembalikan.
 Proses penggabungan / Incorporation of background knowledge − pengetahuan latar
belakang penemuan panduan dan untuk mengekspresikan pola ditemukan tidak hanya
dalam istilah yang ringkas tetapi di beberapa tingkatan abstraksi.
 Permintaan bahasa data mining dan ad hoc data mining / Data mining query
languages and ad hoc data mining− Data mining Query language yang memungkinkan
pengguna untuk menggambarkan tugas-tugas di Adhoc minging, harus diintegrasikan
Hasnan Attariq
11160930000100 – SI 4 D
dengan data gudang bahasa query dan dioptimalkan untuk memening data sehingga
efisien dan fleksibel.
 Presentasi dan visualisasi hasil data minig / Presentation and visualization of data
mining results − setelah pola ditemukan perlu dinyatakan dalam bahasa tingkat tinggi,
dan presentasi visual. Pernyataan ini harus mudah di mengerti.
 Penanganan data bising atau tidak lengkap / Handling noisy or incomplete data −
data cleaning metode diperlukan untuk menangani noisy dan benda-benda yang tidak
lengkap sementara data mining akan keteraturan. Jika metode data cleaning tidak ada
ketepatan pola ditemukan akan menjadi buruk.
 Pattern evaluation - Evaluasi pola menemukan harus menarik karena baik mereka
mewakili kebaruan pengetahuan atau kekurangan yang umum.
Masalah kinerja
Ada beberaoa masalah yang berkaitan dengan kinerja seperti − berikut
 Efisiensi dan skalabilitas data mining / Efficiency and scalability of data mining
algorithms− algoritma untuk secara efektif mengekstrak informasi dari sejumlah besar
data dalam database, data pertambangan algoritma harus efisien dan scalable.
 Paralel, didistribusikan dan inkremental mining algoritma / Parallel, distributed,
and incremental mining algorithms − faktor-faktor seperti ukuran besar database,
distribusi data, dan kompleksitas dari metode pertambangan data memotivasi
pengembangan data paralel dan didistribusikan mining algoritma. Algoritma ini membagi
data ke partisi yang diproses lebih lanjut dalam mode paralel. Kemudian hasil dari partisi
digabungkan. Algoritma inkremental, update database tanpa pertambangan data lagi dari
awal.
Jenis Masalah Data beragam

 Handling of relational and complex types of data / Penanganan relasional dan
kompleks jenis data− database dapat berisi objek datayang kompleks, objek multimedia
data, data spasial, temporal data dll. Hal ini tidakmungkin untuk satu sistem untuk mining
semua jenis data ini.
 Mining information from heterogeneous databases and global information
systems/ Pertambangan informasi dari database heterogen dan informasi global
sistem − data tersedia di sumber data yang berbeda pada LAN atau WAN. Sumber data
ini mungkin terstruktur, semi terstruktur atau tidak terstruktur. Oleh karena itu
pengetahuan mining dari mereka menambah tantangan data mining.
1.5 Teknik Data Mining
Teknik – Teknik Data Mining
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif
antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu
pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli
roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat
mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai
Hasnan Attariq
11160930000100 – SI 4 D
kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat
diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database
dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-
maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena
mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat pada gambar
diatas. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung
pohon menyatakan kelas data. Contoh di Gambar 3 adalah identifikasi pembeli komputer,
dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli
komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah
ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas
data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised
learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas
dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan
memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Metode Data Mining
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining:
Predictive Modeling, Discovery, dan Deviation Detection.
1. Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari

predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi
dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang
diselesaikan oleh predictive modeling: klasifikasi dan regresi.
1.1 Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data
contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank
dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan
disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.
1.2 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik
Hasnan Attariq
11160930000100 – SI 4 D
regresi meliputi neural networks dan decision (atau regression) trees.
2. Discovery
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi

discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan
association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan.
Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya
juga dapat diaplikasikan ke metode data mining yang lain
3. Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk

mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern
discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik
Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface
plots.
1.6 Tantangan dalam Data Mining

Untuk memperoleh efektifitas dalam data mining, seseorang harus melakukan
evaluasi kebutuhan dan memperhitungkan tantangan-tantangan apa saja yang mungkin
dihadapinya dalam me ngembangkan suatu teknik data mining. Hal-hal yang harus diper
hatikan tersebut antara lain adalah sebagai berikut :
1. Penanganan Berbagai Tipe Data

Karena ada bermacam data dan basis data yang digunakan dalam berbagai aplikasi,
seseorang mungkin saja berpikir bahwa suatu sistem knowledge discovery harus bisa
melakukan proses data mining yang efektif terhadap berbagai jenis data. Selanjutnya, banyak
aplikasi basis data memuat tipe data yang kompleks seperti data terstruktur, objek data
kompleks, data multimedia, data spasial dan data sementara, data transaksi dan lain sebagainya.
Oleh karena adanya beragam tipe data, tujuan yang berbeda dari data mining, maka adalah
tidak realistis untuk mengharapkan bahwa suatu sistem data mining mampu menangani semua
jenis data. Sistem data mining harus dikonstruksikan secara khusus untuk tipe-tipe data khusus
seperti dalam basis data relasional, basis data transaksi, basis data spasial, basis data
multimedia dan lain sebagainya.
2. Efisiensi dari Algoritma Data Mining

Untuk secara efektif melakukan ekstraksi informasi dari sejumlah besar data, algoritma
yang digunakan untuk mewujudkannya haruslah efisien untuk basis data yang besar. Yaitu,
waktu eksekusi dari algoritma tersebut haruslah sesuai dan realistis untuk data dengan ukuran
besar.
3. Kegunaan, Kepastian dan Keakuratan Hasil

Informasi yang diperoleh harus secara akurat menggambarkan isi basis data dan
berguna untuk aplikasi terkait. Kekurangsempurnaan yang ada haruslah dapat diekspresikan
dengan suatu ukuran yang pasti dalam bentuk aturan-aturan kuantitif dan perkiraan-perkiraan
yang masuk akal. Noise dan data-data yang tidak diperlukan harus ditangani dengan rapi dalam
Hasnan Attariq
11160930000100 – SI 4 D
sistem data mining. Hal ini juga akan memotivasi suatu studi sistematik untuk mengukur
kualitas dari informasi yang dihasilkan, termasuk seberapa menariknya dan tingkat
kepercayaannya yang dapat diukur secara statistik, analitis dan menggunakan model simulasi.
4. Ekspresi Terhadap Berbagai Jenis Hasil

Berbagai macam jenis informasi dapat diperoleh dari sejumlah besar data. Seseorang
mungkin ingin menguji informasi yang diperoleh dan sudut pandang yang berbeda dan
menampilkannya dalam bentuk yang berbeda. Ini menuntut kita untuk mengekspresikan
permintaan datamining dan informasi yang diperoleh dalam sebuah bahasa tingkat tinggi atau
graphical user interface yang baik, sehingga program dapat digunakan oleh para pemakai biasa
yang bukan ahli, dan hasil yang diperoleh dapat dimengerti serta langsung digunakan oleh
pemakainya. Oleh karenanya, sistem harus bisa mengadopsi teknik-teknik penyajian informasi
yang baik.
5. Memperoleh Informasi Dari Sumber-Sumber Data Yang Berbeda

Dengan adanya LAN (Local Area Network) dan WAN ( Wide Area Network) yang
tersebar secara luas dewasa ini, termasuk Internet, maka terhubunglah - berbagai sumber data
yang terdistribusi secara luas dan membentuk suatu basis data heterogen. Untuk memperoleh
informasi dari berbagai sumber dan dalam berbagai format dengan berbagai semantik data
menimbulkan tantangan baru dalam data mining. Di lain pihak, datamining bisa membantu
mengungkapkan informasi-informasi yang ada dalam suatu basis data heterogen, dimana hal
tersebut sulit untuk diwujudkan dengan sebuah sistem query sederhana. Lebih lanjut, ukuran
data yang besar, distribusi yang luas dad data dan kompleksitas dari proses komputasi beberapa
metode data mining, semakin memotivasi pengembangan algoritma untuk paralel data mining
dan data mining untuk basis data terdistribusi.
6. Proteksi dan Keamanan Data

Ketika data dapat diperlihatkan dari berbagai sudut pandang dan dalam level abstrak
yang berbeda, hal ini akan mengancam tujuan dari proteksi dan keamanan data, dan
pelanggaran terhadap sifat kerahasiaan informasi. Sangatlah penting untuk mempelajari apakah
penemuan informasi yang berguna itu akan mengakibatkan pelanggaran kerahasiaan dan
ukuran keamanan yang diperiukan untuk menghalangi akses terhadap data-data yang sifatnya
sensitif.
Referensi Bab 1 :
http://gsbipb.com/?p=821
https://www.kajianpustaka.com/2017/09/data-mining.html
https://opistation.wordpress.com/2013/10/15/pengertian-data-warehouse/
http://www.kapalomen.com/2016/10/masalah-yang-dihadapi-dalam-data-mining.html
http://yunus-fanani.blogspot.co.id/2013/01/data-mining-teknik-dan-metodenya.html
http://mardi-sugianto.blogspot.co.id/2011/05/data-mining.html
Hasnan Attariq
11160930000100 – SI 4 D
BAB 2 Data
2.1 Definisi Data
Data adalah sesuatu yang belum mempunyai arti bagi penerimanya dan masih
memerlukan adanya suatu pengolahan. Data bisa berujut suatu keadaan, gambar, suara, huruf,
angka, matematika, bahasa ataupun simbol-simbol lainnya yang bisa kita gunakan sebagai
bahan untuk melihat lingkungan, obyek, kejadian ataupun suatu konsep.
Informasi merupakan hasil pengolahan dari sebuah model, formasi, organisasi, ataupun
suatu perubahan bentuk dari data yang memiliki nilai tertentu, dan bisa digunakan untuk
menambah pengetahuan bagi yang menerimanya. Dalam hal ini, data bisa dianggap sebagai
obyek dan informasi adalah suatu subyek yang bermanfaat bagi penerimanya. Informasi juga
bisa disebut sebagai hasil pengolahan ataupun pemrosesan data.
Data bisa merupakan jam kerja bagi karyawan perusahaan. Data ini kemudian perlu
diproses dan diubah menjadi informasi. Jika jam kerja setiap karyawan kemudian dikalikan
dengan nilai per-jam, maka akan dihasilkan suatu nilai tertentu. Jika gambaran penghasilan
setiap karyawan kemudian dijumlahkan, akan menghasilkan rekapitulasi gaji yang harus
dibayar oleh perusahaan. Penggajian merupakan informasi bagi pemilik perusahaan. Informasi
merupakan hasil proses dari data yang ada, atau bisa diartikan sebagai data yang mempunyai
arti. Informasi akan membuka segala sesuatu yang belum diketahui.
2.2 Jenis Data
Jenis-jenis data dapat dibagi berdasarkan sifatnya, sumbernya, cara memperolehnya, dan waktu
pengumpulannya. Menurut sifatnya, jenis-jenis data yaitu:
 Data Kualitatif: data kualitatif adalah data yang tidak berbentuk angka, misalnya:
Kuesioner Pertanyaan tentang suasana kerja, kualitas pelayanan sebuah rumah sakit
atau gaya kepemimpinan, dll.
 Data Kuantitatif: data kuantitatif adalah data yang berbentuk angka, misalnya: harga
saham, besarnya pendapatan, dll.
Jenis-jenis data menurut sumbernya, antara lain:
 Data Internal: data intenal adalah data dari dalam suatu organisasi yang
menggambarkan keadaan organisasi tersebut. Contohnya: suatu perusahaan, jumlah
karyawannya, jumlah modalnya, atau jumlah produksinya, dll.
 Data Eksternal: data eksternal adalah data dari luar suatu organisasi yang dapat
menggambarkan faktor-faktor yang mungkin mempengaruhi hasil kerja suatu
organisasi. Misalnya: daya beli masyarakat mempengaruhi hasil penjualan suatu
perusahaan.
Hasnan Attariq
11160930000100 – SI 4 D
Jenis-jenis data menurut cara memperolehnya, antara lain:
 Data Primer (primary data): data primer adalah data yang dikumpulkan sendiri oleh
perorangan/suatu organisasi secara langsung dari objek yang diteliti dan untuk
kepentingan studi yang bersangkutan yang dapat berupa interview, observasi.
 Data Sekunder (secondary data): data sekunder adalah data yang diperoleh/
dikumpulkan dan disatukan oleh studi-studi sebelumnya atau yang diterbitkan oleh
berbagai instansi lain. Biasanya sumber tidak langsung berupa data dokumentasi dan
arsip-arsip resmi.
Jenis-jenis data menurut waktu pengumpulannya, antara lain:
 Data cross section, yaitu data yang dikumpulkan pada suatu waktu tertentu (at a point
of time) untuk menggambarkan keadaan dan kegiatan pada waktu tersebut. Misalnya;
data penelitian yang menggunakan kuesioner.
 Data berkala (time series data), yaitu data yang dikumpulkan dari waktu ke waktu untuk
melihat perkembangan suatu kejadian/kegiatan selama periode tersebut. Misalnya,
perkembangan uang beredar, harga 9 macam bahan pokok penduduk.
2.3 Metode Pengumpulan Data
Dalam penelitian, teknik pengumpulan data merupakan faktor penting demi

keberhasilan penelitian. Hal ini berkaitan dengan bagaimana cara mengumpulkan data, siapa
sumbernya, dan apa alat yang digunakan.
Jenis sumber data adalah mengenai dari mana data diperoleh. Apakah data diperoleh
dari sumber langsung (data primer) atau data diperoleh dari sumber tidak langsung (data
sekunder).
Metode Pengumpulan Data merupakan teknik atau cara yang dilakukan untuk
mengumpulkan data. Metode menunjuk suatu cara sehingga dapat diperlihatkan
penggunaannya melalui angket, wawancara, pengamatan, tes, dkoumentasi dan sebagainya.
Sedangkan Instrumen Pengumpul Data merupakan alat yang digunakan untuk

mengumpulkan data. Karena berupa alat, maka instrumen dapat berupa lembar cek list,
kuesioner (angket terbuka / tertutup), pedoman wawancara, camera photo dan lainnya.
Adapun tiga teknik pengumpulan data yang biasa digunakan adalah angket, observasi dan
wawancara.
1. Angket
Hasnan Attariq
11160930000100 – SI 4 D
Angket / kuesioner adalah teknik pengumpulan data yang dilakukan dengan cara
memberikan seperangkat pertanyaan atau pernyataan kepada orang lain yang dijadikan
responden untuk dijawabnya.
Meskipun terlihat mudah, teknik pengumpulan data melalui angket cukup sulit dilakukan jika
respondennya cukup besar dan tersebar di berbagai wilayah.
Beberapa hal yang perlu diperhatikan dalam penyusunan angket menurut Uma Sekaran
(dalam Sugiyono, 2007:163) terkait dengan prinsip penulisan angket, prinsip pengukuran dan
penampilan fisik.
Prinsip Penulisan angket menyangkut beberapa faktor antara lain :
 Isi dan tujuan pertanyaan artinya jika isi pertanyaan ditujukan untuk mengukur maka
harus ada skala yang jelas dalam pilihan jawaban.
 Bahasa yang digunakan harus disesuaikan dengan kemampuan responden. Tidak

mungkin menggunakan bahasa yang penuh istilah-istilah bahasa Inggris pada
responden yang tidak mengerti bahasa Inggris, dsb.
 Tipe dan bentuk pertanyaan apakah terbuka atau terturup. Jika terbuka artinya jawaban
yang diberikan adalah bebas, sedangkan jika pernyataan tertutup maka responden
hanya diminta untuk memilih jawaban yang disediakan.
2. Observasi
Obrservasi merupakan salah satu teknik pengumpulan data yang tidak hanya mengukur
sikap dari responden (wawancara dan angket) namun juga dapat digunakan untuk merekam
berbagai fenomena yang terjadi (situasi, kondisi). Teknik ini digunakan bila penelitian
ditujukan untuk mempelajari perilaku manusia, proses kerja, gejala-gejala alam dan dilakukan
pada responden yang tidak terlalu besar.
Participant Observation
Dalam observasi ini, peneliti secara langsung terlibat dalam kegiatam sehari-hari orang
atau situasi yang diamati sebagai sumber data.
Misalnya seorang guru dapat melakukan observasi mengenai bagaimana perilaku

siswa, semangat siswa, kemampuan manajerial kepala sekolah, hubungan antar guru, dsb.
Non participant Observation

Berlawanan dengan participant Observation, Non Participant merupakan observasi
yang penelitinya tidak ikut secara langsung dalam kegiatan atau proses yang sedang diamati.
Misalnya penelitian tentang pola pembinaan olahraga, seorang peneliti yang

menempatkan dirinya sebagai pengamat dan mencatat berbagai peristiwa yang dianggap perlu
sebagai data penelitian.
Hasnan Attariq
11160930000100 – SI 4 D
Kelemahan dari metode ini adalah peneliti tidak akan memperoleh data yang mendalam
karena hanya bertindak sebagai pengamat dari luar tanpa mengetahui makna yang terkandung
di dalam peristiwa.
Alat yang digunakan dalam teknik observasi ini antara lain : lembar cek list, buku
catatan, kamera photo, dll.
3. Wawancara
Wawancara merupakan teknik pengumpulan data yang dilakukan melalui tatap muka
dan tanya jawab langsung antara pengumpul data maupun peneliti terhadap nara sumber atau
sumber data.
Wawancara pada penelitian sampel besar biasanya hanya dilakukan sebagai studi
pendahuluan karena tidak mungkin menggunakan wawancara pada 1000 responden, sedangkan
pada sampel kecil teknik wawancara dapat diterapkan sebagai teknik pengumpul data
(umumnya penelitian kualitatif)
Wawancara terbagi atas wawancara terstruktur dan tidak terstruktur.
1. Wawancara terstruktur artinya peneliti telah mengetahui dengan pasti apa informasi
yang ingin digali dari responden sehingga daftar pertanyaannya sudah dibuat secara
sistematis. Peneliti juga dapat menggunakan alat bantu tape recorder, kamera photo,
dan material lain yang dapat membantu kelancaran wawancara.
2. Wawancara tidak terstruktur adalah wawancara bebas, yaitu peneliti tidak

menggunakan pedoman wawancara yang berisi pertanyaan yang akan diajukan secara
spesifik, dan hanya memuat poin-poin penting masalah yang ingin digali dari
responden.
Hasnan Attariq
11160930000100 – SI 4 D
BAB 3 Data Preprocessing
Bab 4 Data Warehouse
4.1 Karakteristik Data Warehouse
1. Berorientasi Subjek
Data warehouse terorganisasi di seputar subjek kunci (atau entitas-entitas peringkat
tinggi) dalam perusahaan, Data warehouse adalah tempat penyimpanan berdasakan subyek
bukan berdasakan aplikasi. Subyek merupakan bagian dari suatu perusahaan. Contoh subyek
pada perusahaan manufaktur adalah penjualan, konsumen, inventori, daln lain sebagainya.
Contoh lain misalnya di bank, aplikasi kredit mengotomasi fungsi-
fungsi:verifikasi lamaran dan credit checking, pemeriksaan kolateral, approval, pendanaan,
tagihan, dan seterusnya. Didalam data warehouse data-data yang dihasilkan dari proses kredit
ini, diatur kembali (dikelompokkan) dan diintegrasikan (digabung) dengan data-data dari
fungsi-fungsi lain, agar berorientasi pada misalnya nasabah dan produk.
Gambar dibawah ini merupakan perbedaan mengenai data warehouse dan database
operasional.
2. Terintegrasi
Data yang tersimpan dalam data warehouse didefinisikan menggunakan konversi
penamaan yang konsisten, format-format, struktur terkodekan, serta karakteristik-karakteristik
yang berhubungan, Sumber data yang ada dalam data warehouse tidak hanya berasal dari
database operasional (internal source) tetapi juga berasal dari data diluar sistem (external
source). Data pada sumber berbeda dapat di-encode dengan cara yang berbeda. Sebagai
contoh, data jenis kelamin dapat di-enkode sebagai 0 dan 1 di satu tempat dan ”m” dan
”f” di tempat lain.
Hasnan Attariq
11160930000100 – SI 4 D
Contoh lain misalnya : Data dari macam-macam aplikasi transaksi (untuk bank misalnya:
tabungan, kredit, rekening koran) semua mengandung data nasabah, ada yang sama ada yang
spesifik (yang sama misalnya: nama dan alamat, yang spesifik misalnya: untuk kredit ada
kolateral, untuk rekening koran ada overdraft) didalam data warehouse data-data yang sama
harus diintegrasikan disatu database, termasuk misalnya diseragamkan formatnya (sederhana
tetapi paling sering terjadi – aplikasi-aplikasi sering dibeli vendor berbeda, dibuat
dengan/dijalankan di teknologi berbeda-beda)
3. Memiliki dimensi waktu (Time variant)

Data yang tersimpan dalam data warehouse mengandung dimensi waktu yang mungkin
digunakan sebagai rekaman bisnis untuk tiap waktu tertentu, Data warehouse menyimpan
sejarah (historical data). Bandingkan dengan kebutuhan sistem operasional yang hampir
semuanya adalah data mutakhir! Waktu merupakan tipe atau bagian data yang sangat penting
didalam data warehouse.
Didalam data warehouse sering disimpan macam-macam waktu, seperti waktu suatu
transaksi terjadi/dirubah/dibatalkan, kapan efektifnya, kapan masuk ke komputer, kapan masuk
ke data warehouse; juga hampir selalu disimpan versinya, misalnya terjadi perubahan
definisi kode pos, maka yang lama dan yang baru ada semua didalam data warehouse
kita. Sekali lagi, data warehouse yang bagus adalah yang menyimpan sejarah.
4. Non-volatile
Data yang tersimpan dalam data warehouse diambil dari system operasional yang
sedang berjalan, tetapi tidak dapat diperbaharui (di-update) oleh pengguna (bersifat ‘hanya-
baca), Sekali masuk kedalam data warehouse, data-data, terutama data tipe transaksi, tidak
akan pernah di update atau dihapus (delete) Terlihat, bahwa keempat karakteristik ini saling
terkait kesemuanya harus diimplementasikan agar suatu data warehouse bisa efektif memiliki
data untuk mendukung pengambilan-keputusan. Dan, implementasi keempat karakteristik ini
membutuhkan struktur data dari data warehouse yang berbeda dengan database sistem
operasional.
Data dalam database operasional akan secara berkala atau periodik dipindahkan
kedalam data warehouse sesuai dengan jadwal yang sudah ditentukan. Misal perhari,
perminggu, perbulan, dan lain sebagainya. Sekali masuk ke dalam data warehouse, data adalah
read-only . Pada gambar 2 dibawah ini bisa dilihat bahwa database OLTP bisa dibaca, diupdate,
dan dihapus. Tetapi pada database data warehouse hanya bisa dibaca.
5. Ringkas
Jika diperlukan, data operasional dikumpulkan ke dalam ringkasan-ringkasan.
Hasnan Attariq
11160930000100 – SI 4 D
6. Granularity
Pada sistem operasional data dibuat secara real-time sehingga untuk mendapatkan
informasi langsung dilakukan proses query. Pada data warehouse pada menganalisis harus
memperhatikan level-of-detail misalkan perhari, ringkasan perbulan, ringkasan per-tiga-bulan.
7. Tidak ternormalisasi
Data di dalam sebuah data warehouse biasanya tidak ternormalisasi dan sangat
redundan. Dasar dari suatu data warehouse adalah suatu data yang besar yang mengandung
informasi bisnis. Data-data yang ada di dalam data warehouse bisa berasal dari banyak sumber,
misalkan dari database operasional atau transaksional dan sumber dari luar misalkan dari web,
penyedia jasa informasi, dari perusahaan lain, dan lain sebagainya.
4.2 Proses dalam Data Warehouse

TP - 1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TP - 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Hasnan Attariq

1.2 Operasi Data Mining

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang

Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke

1.3 Data Warehouse

Beberapa konsep dasar tentang data warehouse :

- Data warehouse adalah suatu paradigma baru dilingkungan pengambilan keputusan

1.4 Permasalahan dalam Data Mining

Masalah-masalah dalam data mining, yaitu:

- Pertambangan metodologi dan interaksi pengguna

Metodologi Data Mining dan masalah pada interaksi pengguna

Jenis Masalah Data beragam

1.5 Teknik Data Mining

Teknik – Teknik Data Mining

1. Association Rule Mining

Metode Data Mining

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari

regresi meliputi neural networks dan decision (atau regression) trees.

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk

1.6 Tantangan dalam Data Mining

1. Penanganan Berbagai Tipe Data

2. Efisiensi dari Algoritma Data Mining

3. Kegunaan, Kepastian dan Keakuratan Hasil

4. Ekspresi Terhadap Berbagai Jenis Hasil

5. Memperoleh Informasi Dari Sumber-Sumber Data Yang Berbeda

6. Proteksi dan Keamanan Data

2.1 Definisi Data

2.2 Jenis Data

Jenis-jenis data menurut sumbernya, antara lain:

Jenis-jenis data menurut cara memperolehnya, antara lain:

Jenis-jenis data menurut waktu pengumpulannya, antara lain:

2.3 Metode Pengumpulan Data

Dalam penelitian, teknik pengumpulan data merupakan faktor penting demi

Sedangkan Instrumen Pengumpul Data merupakan alat yang digunakan untuk

Prinsip Penulisan angket menyangkut beberapa faktor antara lain :

 Bahasa yang digunakan harus disesuaikan dengan kemampuan responden. Tidak

Misalnya seorang guru dapat melakukan observasi mengenai bagaimana perilaku

Non participant Observation

Misalnya penelitian tentang pola pembinaan olahraga, seorang peneliti yang

Wawancara terbagi atas wawancara terstruktur dan tidak terstruktur.

2. Wawancara tidak terstruktur adalah wawancara bebas, yaitu peneliti tidak

BAB 3 Data Preprocessing

Bab 4 Data Warehouse

4.1 Karakteristik Data Warehouse

3. Memiliki dimensi waktu (Time variant)

4.2 Proses dalam Data Warehouse

Anda mungkin juga menyukai