Anda di halaman 1dari 23

DATA MINING

Disusun guna Memenuhi Tugas Mata Kuliah Data Mining


Dosen Pengampu: Ir. Budi Setiyono, M.Kom.

Oleh:
Umi Laelatun Nafi’ah NIM: TI 11504

PROGRAM STUDI TEKNIK INFORMATIKA


UNIVERSITAS MA’ARIF NAHDLATUL ULAMA
TAHUN 2019
KATA PENGANTAR

Segala puji bagi Allah SWT, yang senantiasa memberikan karunia-Nya bagi
seluruh umat di dunia. Sholawat serta salam semoga tetap tercurahkan kepada
Nabi dan Rosul, serta keluarga, sahabat, dan para pengikut mereka hingga hari
akhir tiba.
Berkat rahmat dan inayah dari Allah SWT, penulis dapat menyelesaikan
makalah yang berjudul “Data Mining” guna memenuhi tugas mata kuliah Data
Mining. Tak lupa penulis ucapkan terima kasih kepada:
1. Bapak Ir. Budi Setiyono, M.Kom. selaku Dosen Pembimbing mata kuliah
Data Mining;
2. Orang tua yang sangat penulis hormati dan cintai, yang dengan ikhlas
memberikan dukungan materiil dan moril, serta do’a yang senantiasa
dipanjatkan kepada Allah SWT demi kelancaran penyelesaian makalah ini;
3. Teman-teman Teknik Informatika yang tidak bisa penulis sebutkan satu
persatu, yang telah membantu dan memberikan dorongan semangat sehingga
makalah ini dapat penulis selesaikan.

Tanpa bimbingan dan dorongan dari mereka, penulis tidak mungkin dapat
menyelesaiakan penyusunan makalah ini. Untuk itu, penulis mengucapan terima
kasih kepada semua pihak yang telah membantu dan semoga Allah SWT
memberikan balasan kebaikan bagi mereka semua. Penulis menyadari masih
banyaknya kekurangan dalam makalah ini. Oleh karenanya, penulis
mengharapkan kritik dan saran yang membangun dari pembaca untuk perbaikan
dikemudian hari. Akhirnya, semoga makalah ini dapat memberikan manfaat bagi
para pembacanya.
Kebumen, 8 November 2019

Tim Penyusun

ii
DAFTAR ISI

Halaman

HALAMAN JUDUL ............................................................................................ i


KATA PENGANTAR ........................................................................................... ii
DAFTAR ISI......................................................................................................... iii
BAB I PENDAHULUAN .............................................................................. 1
A. Latar Belakang Masalah.................................................................. 1

BAB II PEMBAHASAN ................................................................................. 3


A. Pengertian Data Mining ................................................................. 3
B. Karakteristik Data Mining ............................................................. 3
C. Manfaat Data Mining ...................................................................... 5
D. Karakter Umum Wirausaha yang Berhasil ..................................... 5
E. Motif Berprestasi dalam Kewirausahaan ........................................ 7

BAB III PENUTUP .......................................................................................... 18


A. Kesimpulan .................................................................................. 18
B. Saran-saran ................................................................................... 19

DAFTAR PUSTAKA .......................................................................................... 20

iii
BAB I
PENDAHULUAN

A. Latar Belakang
Salah satu efek yang dihasilkan dari adanya suatu sistem informasi
adalah munculnya banyak data. Data yang ada ini berasal dari sistem
operasional yang berfungsi untuk menangani transaksi yang terkait dengan
proses bisnis yang ditangani oleh sistem informasi tersebut.
Contoh: sistem informasi presensi mahasiwa memunculkan data jumlah

kehadiran mahasiwa setiap hari dengan data yang disimpan tergantung pada

apa yang dibutuhkan oleh sistem informasi tersebut (misalkan: nomor induk

mahasiwa, jam masuk, kelas, dsb.) Bayangkanlah sistem informasi ini

dipakai di perusahaan yang jumlah mahasiswa sebanyak 5000 orang. Dalam

sehari sudah ada 5000 data yang masuk, dalam seminggu sudah ada 35000

data yang masuk, dalam sebulan, dan setahun. Sehingga muncul

permasalahan baru, dimana sulit untuk mencari data yang dibutuhkan,

karena banyaknya data yang masuk.

Perkembangan yang pesat di bidang pengumpulan data dan teknologi

penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau

besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu

panjang, membosankan, dan tidak menarik. Seringkali, keputusan yang

katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari

intuisi para pembuat keputusan.

1
Atas dasar itu penulis mencoba membahas materi tentang data mining

sebagai proses eksplorasi dan analisis, secara otomatis atau semi otomatis

dengan tujuan untuk menemukan pola dan aturan yang bermanfaat. Penulis

tuangkan dalam sebuah karya tulis dengan harapan dapat berguna bagi

orang lain khususnya bagi penulis

2
BAB II
PEMBAHASAN

A. Pengertian Data Mining


Data mining dapat didefinisikan sebagai proses eksplorasi dan analisis,
secara otomatis atau semi otomatis dari sekumpulan data dalam ukuran
besar dengan tujuan untuk menemukan pola dan aturan yang bermanfaat.
Data mining merupakan salah satu tahapan dalam proses Knowledge
Discovery in Database.
Data Mining sebagai proses dalam Knowledge Discovery in Data (KDD).
KDD (Knowledge Discovery in Database) merupakan keseluruhan proses
konversi data mentah menjadi pengetahuan yang bermanfaat yang terdiri
dari serangkaian tahap transformasi meliputi data preprocessing dan
postprocessing. KDD secara garis besar dapat dijelaskan sebagai berikut
1. Data Selection
Pemilihan (selection) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain
yang relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses coding

3
dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis
atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan
metode atau algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah
pola atau informasi yang ditemukan bertentangan dengan fakta atau
hipotesa yang ada sebelumnya.

Data mining adalah elemen utama dalam proses knowledge discovery,


lengkapnya seperti pada gambar berikut.

4
Arsitektur Data Mining dapat dilihat pada gambar berikut.

Tugas-tugas dalam data mining secara umum dibagi ke dalam dua ketegori
utama:
 Prediktif. Memprediksi atribut target (variabel tak bebas) berdasarkan
atribut-atribut lainnya (variabel bebas/explanatory)
 Deskriptif. Menemukan pola-pola yang meringkas hubungan dalam data.

B. Teknik-Teknik Data Mining


Dengan definisi Data mining yang luas, ada banyak jenis teknik analisa
yang dapat digolongkan dalam Data mining. Tiga teknik Data mining yang
paling populer diantaranya:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan
aturan assosiatif antara suatu kombinasi item. Contoh dari aturan
assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa
diketahui berapa besar kemungkinan seorang pelanggan membeli roti
bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar
swalayan dapat mengatur penempatan barangnya atau merancang

5
kampanye pemasaran dengan memakai kupon diskon untuk kombinasi
barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui
dengan dua parameter, support yaitu persentase kombinasi item tsb.
dalam database dan confidence yaitu kuatnya hubungan antar item
dalam aturan assosiatif.
Algoritma yang paling populer dikenal sebagai Apriori dengan
paradigma generate and test, yaitu pembuatan kandidat kombinasi item
yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item
tersebut memenuhi syarat support minimum. Kombinasi item yang
memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai
untuk membuat aturan-aturan yang memenuhi syarat confidence
minimum. Algoritma baru yang lebih efisien bernama FP-Tree.

2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa
decision tree, formula matematis atau neural network. Proses
classification biasanya dibagi menjadi dua fase : learning dan test. Pada
fase learning, sebagian data yang telah diketahui kelas datanya
diumpankan untuk membentuk model perkiraan. Kemudian pada fase
test model yang sudah terbentuk diuji dengan sebagian data lainnya
untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi
model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

6
3. Clustering
Berbeda dengan association rule mining dan classification dimana
kelas data telah ditentukan sebelumnya, clustering melakukan penge-
lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering
dapat dipakai untuk memberikan label pada kelas data yang belum
diketahui itu. Karena itu clustering sering digolongkan sebagai metode
unsupervised learning.
Prinsip dari clustering adalah memaksimalkan kesamaan antar
anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster.
Clustering dapat dilakukan pada data yan memiliki beberapa atribut
yang dipetakan sebagai
ruang multidimensi. Ilustrasi dari clustering dapat dilihat di
Gambar 4 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari
pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster
dengan pusat cluster ditunjukkan oleh tanda positif (+).
Banyak algoritma clustering memerlukan fungsi jarak untuk
mengukur kemiripan antar data, diperlukan juga metode untuk
normalisasi bermacam atribut yang dimiliki data.
Beberapa kategori algoritma clustering yang banyak dikenal
adalah metode partisi dimana pemakai harus menentukan jumlah k
partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada
salah satu partisi, metode lain yang telah lama dikenal adalah metode
hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster
kecil menjadi cluster lebih besar dan top-down yang memecah cluster
besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah
bila bila salah satu penggabungan/pemecahan dilakukan pada tempat
yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan
yang banyak diambil adalah menggabungkan metode hierarki dengan
metode clustering lainnya seperti yang dilakukan oleh Chameleon.

7
C. Text Mining
Text mining adalah salah satu bidang khusus dari data mining. Sesuai
dengan buku The Text Mining Handbook, text mining dapat didefinisikan
sebagai suatu proses menggali informasi dimana seorang user berinteraksi
dengan sekumpulan dokumen menggunakan tools analisis yang merupakan
komponen-komponen dalam data mining yang salah satunya adalah
kategorisasi.
Tujuan dari text mining adalah untuk mendapatkan informasi yang
berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada
text mining adalah kumpulan teks yang memiliki format yang tidak
terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text
mining antara lain yaitu pengkategorisasian teks (text categorization) dan
pengelompokan teks (text clustering).
Text mining bisa dianggap subjek riset yang tergolong baru. Text
mining dapat memberikan solusi dari permasalahan seperti pemrosesan,
pengorganisasian / pengelompokkan dan menganalisa unstructured text
dalam jumlah besar. Dalam memberikan solusi, text mining mengadopsi dan
mengembangkan banyak teknik dari bidang lain, seperti Data mining,
Information Retrieval, Statistik dan Matematik, Machine Learning,
Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset
untuk text mining antara lain ekstraksi dan penyimpanan text, preprocessing
akan konten text, pengumpulan data statistik dan indexing dan analisa
konten.
Permasalahan yang dihadapi pada text mining sama dengan
permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar,
dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.
Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data
mining, data yang digunakan adalah structured data, sedangkan pada text
mining, data yang digunakan text mining pada umumnya adalah
unstructured data, atau minimal semistructured. Hal ini menyebabkan
adanya tantangan tambahan pada text mining yaitu struktur text yang

8
complex dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan
bahasa yang berbeda ditambah translasi yang tidak akurat.
Elemen text mining:
1. Koleksi Dokumen
Salah satu elemen kunci dari text mining adalah kumpulan dokumen
yang berbasis teks. Pada prakteknya, text mining ditujukan untuk
menemukan pola dari sekumpulan dokumen yang jumlahnya sangat
besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan. Koleksi
dokumen bisa statis, dimana dokumen tidak berubah, atau dinamis,
dimana dokumen selalu diupdate sepanjang waktu.
2. Representasi feature pada dokumen
Algoritma yang digunakan pada text mining, biasanya tidak hanya
melakukan perhitungan hanya pada dokumen, tetapi pada juga feature.
Empat macam feature yang sering digunakan:
Character, merupakan komponan individual, bisa huruf, angka,
karakter spesial dan spasi, merupakan block pembangun pada level
paling tinggi pembentuk semantik feature, seperti kata,term dan
concept.Pada umumnya, representasi character-based ini jarang
digunakan pada beberapa teknik pemrosesan teks.
Words.
Terms merupakan single word dan frasa multiword yang terpilih
secara langsung dari corpus. Representasi term-based dari dokumen
tersusun dari subset term dalam dokumen.
Concept, merupakan feature yang di-generate dari sebuah dokumen
secara manual, rule-based, atau metodologi lain. Pada tugas akhir ini,
concept di-generate dari argument atau verb yang sudah diberi label
pada suatu dokumen.

3. Text Preprocessing
Struktur data yang baik dapat memudahkan proses komputerisasi secara
otomatis. Pada text mining, informasi yang akan digali berisi informasi-

9
informasi yang strukturnya sembarang. Oleh karena itu, diperlukan
proses pengubahan bentuk menjadi data yang terstruktur sesuai
kebutuhannya untuk proses dalam data mining, yang biasanya akan
menjadi nilai-nilai numerik. Proses ini sering disebut Text
Preprocessing. Setelah data menjadi data terstruktur dan berupa nilai
numerik maka data dapat dijadikan sebagai sumber data yang dapat
diolah lebih lanjut.

4. Ekstraksi Dokumen

Teks yang akan dilakukan proses text mining, pada umumnya


memiliki beberapa karakteristik diantaranya adalah memiliki dimensi
yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang
tidak baik. Cara yang digunakan dalam mempelajari suatu data teks,
adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili
setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum
menentukan fitur – fitur yang mewakili, diperlukan tahap pre
processing yang dilakukan secara umum dalam text mining pada
dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging
dan analyzing.

Case folding adalah mengubah semua huruf dalam dokumen


menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima.

10
Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap
tokenizing / parsing adalah tahap pemotongan string input berdasarkan
tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai
berikut:

Tahap filtering adalah tahap mengambil kata - kata penting dari


hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang
kurang penting) atau wordlist (menyimpan kata penting). Stoplist /
stopword adalah katakata yang tidak deskriptif yang dapat dibuang
dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya. Contoh dari tahapan ini adalah
sebagai berikut:

Tahap stemming adalah tahap mencari root kata dari tiap kata
hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai
bentukan kata ke dalam suatu representasi yang sama. Tahap ini
kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit
diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa

11
Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh
dari tahapan ini pada teks berbahasa inggris adalah sebagai berikut:

D. Kategorisasi Teks
Kategorisasi adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
Pada kategorisasi teks, diberikan sekumpulan kategori (label) dan
koleksi dokumen yang berfungsi sebagai data latih, yaitu data yang
digunakan untuk membangun model, dan kemudian dilakukan proses untuk
menemukan kategori yang tepat untuk dokumen test, yaitu dokumen yang
digunakan untuk menentukan akurasi dari model. Misalkan ada sebuah
dokumen x sebagai inputan, maka output yang dihasilkan oleh model
tersebuat adalah kelas atau kategori y dari beberapa kategori tertentu yang
telah didefinisikan sebelumnya (y1,…,yk). Adapun contoh dari pemanfaatan
kategorisasi teks adalah pengkategorisasian berita ke dalam beberapa
kategori seperti bisnis, teknologi, kesehatan dan lain sebagainya;
pengkategorisasian email sebagai spam atau bukan; pengkategorisasian
kilasan film sebagai film favorit, netral atau tidak favorit;
pengkategorisasian paper yang menarik dan tidak menarik; dan penggunaan
dari kategorisasi teks yang paling umum adalah kategorisasi otomatis dari
web pages yang dimanfaatkan oleh portal Internet seperti Yahoo.
Kategorisasi otomatis ini memudahkan proses browsing artikel berdasarkan
topik tertentu yang dilakukan oleh user. Salah satu algoritma kategorisasi

12
yang sering digunakan adalah algoritma Naive bayes multinomial.
Algoritma ini merupakan algoritma yang menerapkan metode probabilistic
learning method.

B. Web Mining
Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun
tersimpan secara implisit pada kumpulan data yang relatif besar pada
layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web
content mining, web structure mining, dan web usage mining.
Web content mining adalah suatu proses otomatis untuk menemukan
informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini
mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web
antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink.
Ada dua strategi yang umum digunakan: pertama langsung melakukan
mining terhadap data, dan kedua melakukan pencarian serta mengimprove
hasil pencarian seperti layaknya search engine.
Web struncture mining dikenal juga sebagai web log mining adalah
teknik yang digunakan untuk menemukan struktur link dari hyperlink dan
membangun rangkuman website dan halaman web. Salah
satu manfaatnya adalah untuk menentukan pagerank pada suatu halaman
web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan
dan struktur web melalui informasi yang diperoleh dari log, click stream,
cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner
yang melakukan mining terhadap data log. Teknik yang lebih canggih
digunakan untuk melakukan OLAP. Manfaat web usage mining adalah
untuk kustomosasi halaman berdasarkan profil pengguna, menentukan
ketertarikan pelanggan terhadap produk tertentu, dan menentukan target
market yang sesuai.

C. Multimedia Mining dan Multimedia Retrial

13
1. Multimedia Mining
Multimedia mining adalah salah satu bagian ilmu data mining
untuk menambang/menggali pengetahuan dari informasi atau data
multimedia. Akan tetapi multimedia mining tidak sekedar perluasan
dari data mining, karena merupakan upaya interdisipliner yang
memanfaatkan keahlian dalam multimedia retrieval, pengolahan data
multimedia, computer vision, machine learning, dan kecerdasan buatan.
Multimedia mining berkaitan dengan ekstraksi pengetahuan implisit,
relasi data multimedia, atau pola lain yang tidak secara eksplisit
disimpan dalam file multimedia.
Sistem multimedia mining dapat secara otomatis mengekstraksi
informasi semantik sebagai pengetahuan dari file multimedia.
Umumnya, sistem database multimedia mengelola koleksi besar objek
multimedia, seperti image, video, audio dan data hypertext.
Secara umum, file multimedia dari database harus mengalami
praproses sesuai dengan format data yang sesuai, selanjutnya
mengalami berbagai transformasi dengan ekstraksi fitur untuk
menghasilkan fitur penting dari file multimedia. Dengan fitur yang
dihasilkan, mining dapat dilaksanakan dengan menggunakan teknik
data mining untuk menemukan pola signifikan untuk kemudian
dievaluasi dan diinterpretasikan untuk mendapatkan pengetahuan yang
diinginkan.
Proses aplikasi multimedia mining dapat dilihat pada Gambar
berikut (Kotsiantis et al, 2004).

14
Pengumpulan data adalah titik awal dari sebuah pembelajaran
sistem, sehingga kualitas data mentah dicapai pada kinerja secara
keseluruhan. Disini akan dilakukan ekstraksi fitur yang sesuai dengan
tipe data yang ada (teks, gambar, audio, video), misalkan untuk data
teks dengan tokenisasi, dan data audio dilihat dari pitch atau frekuensi
audio. Kemudian, tujuan dari pra-proses data adalah untuk menemukan
fitur penting atau seleksi fitur dari data mentah. Pra-proses data
meliputi pembersihan data, normalisasi, transformasi, seleksi fitur, dll.
Proses pembelajaran bisa cepat, jika informatif fitur dapat diidentifikasi
pada tahap pra-proses. Hasil dari pra-proses data adalah training set.
Jika diberikan sebuah training set, sebuah model pembelajaran harus
memilih untuk belajar dari itu. Kemudian dengn machine learning
dapat diperoleh model yang diinginkan dengan cara klasifikasi atau
kluster.

2. Multimedia Retrieval
Jika multimedia mining adalah bagian ilmu dari data mining, maka
multimedia retrival adalah bagian dari ilmu temu kembali informasi
yang menfokuskan pada temu kembali informasi dari data multimedia.
Secara umum, teknik-teknik yang dilakukan sama pada temu kembali
informasi untuk data bukan multimedia. Berbeda dengan data yang
hanya berupa numeric atau teks, karena data multimedia bisa apa saja

15
(teks, audio, image dan video) maka multimedia retrieval adalah model
temu kembali informasi berbasis konten (content-base infromastion
retrieval). Disini yang bisa menjadi query tidak hanya teks atau angka
saja, bisa audio atau gambar tergantung jenis data yang akan dicari.
Wei dan Li, 2004, menyajikan arsitektur untuk data multimedia
berdasarkan content-base infromastion retrieval, sebagai berikut :

Dalam content-base information retrieval system, konten media


dalam database diekstrak dan dideskripsikan oleh vector fitur multi-
dimensi, atau disebut deskriptor. Vektor fitur media merupakan fitur
dataset. Untuk mengambil data yang diinginkan, pengguna
mengirimkan contoh query untuk system temu kembali. Sistem
kemudian merepresentasikan contoh-contoh ini dengan vector fitur.
Jarak (yaitu, dalam arti ukuran kesamaan) antara vektor fitur dari
contoh query dan yang ada di media dalam fitur dataset kemudian
dihitung dan dirangking. Temu kembali dilakukan dengan menerapkan
suatu skema pengindeksan untuk memberikan cara yang efisien untuk
mencari database media. Akhirnya, sistem merangking hasil pencarian
dan kemudian mengembalikan hasil pencarian teratas yang paling mirip
dengan contoh query.
Untuk content-base information retrieval system, seorang
perancang harus mempertimbangkan empat aspek: fitur ekstraksi dan
representasi, dimensi reduksi fitur, pengindeksan, dan spesifikasi query.

16
3. Perbedaan Multimedia Mining dengan Multimedia Retrieva
Yang dilakukan dalam multimedia retrieval adalah bagaimana
mengekstraksi pengetahuan implisit, relasi data multimedia, atau pola
lain yang tidak secara eksplisit disimpan dalam file multimedia
(discovering), dibanding pada multimedia retrieval yang hanya untuk
merangking query yang dicari untuk disajikan ke user (searching).
Multimedia retrieval hanya menekankan pada temu kembali
data/informasi yang sesuai dengan query yang diminta. Sedangkan
multimedia mining mengelola data/informasi yang sesuai dengan proses
analisa yang diterapkan agar diperoleh informasi yang lebih banyak
(pengetahuan) berdasarkan query yang diminta.
Karena data perlu dianalisa berdasarkan teori dalam data mining,
maka dalam multimedia mining harus melakukan cleaning data dan
seleksi fitur untuk membuat analisanya menjadi lebih cepat dan
sederhana, artinya data yang “tidak baik” dibuang saja dan fitur yang
tidak signifikan mempengaruhi tidak perlu diikutkan dalam analisa.
Sedangkan pada multimedia retrieval, hal ini tidak dilakukan.

17
BAB III
PENUTUP

A. Kesimpulan
Dari seluruh pembahasan mengenai Data Mining, penyusun dapat
mengambil kesimpulan sebagai berikut.
1. Data mining dapat didefinisikan sebagai proses eksplorasi dan analisis,
secara otomatis atau semi otomatis dari sekumpulan data dalam ukuran
besar dengan tujuan untuk menemukan pola dan aturan yang
bermanfaat. Data mining merupakan salah satu tahapan dalam proses
Knowledge Discovery in Database.
2. Tugas-tugas dalam data mining secara umum dibagi ke dalam dua
ketegori utama:
a. Prediktif. Memprediksi atribut target (variabel tak bebas)
berdasarkan atribut-atribut lainnya (variabel bebas/explanatory)
b. Deskriptif. Menemukan pola-pola yang meringkas hubungan
dalam data.
3. Ada 3 teknik yang paling populer dalam data mining yaitu (1)
Association Rule Mining, (2) Classification, (3) Clustering
4. Text mining didefinisikan sebagai suatu proses menggali informasi
dimana seorang user berinteraksi dengan sekumpulan dokumen
menggunakan tools analisis yang merupakan komponen-komponen
dalam data mining yang salah satunya adalah kategorisasi.
Adapun tugas khusus dari text mining antara lain yaitu
pengkategorisasian teks (text categorization) dan pengelompokan teks
(text clustering).
5. Elemen text mining diantaranya Koleksi Dokumen, Representasi feature
pada dokumen, Text Preprocessing, Ekstraksi Dokumen.
6. Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun
tersimpan secara implisit pada kumpulan data yang relatif besar pada

18
layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web
content mining, web structure mining, dan web usage mining.
7. Multimedia mining adalah salah satu bagian ilmu data mining untuk
menambang/menggali pengetahuan dari informasi atau data multimedia.
Akan tetapi multimedia mining tidak sekedar perluasan dari data mining,
karena merupakan upaya interdisipliner yang memanfaatkan keahlian
dalam multimedia retrieval, pengolahan data multimedia, computer
vision, machine learning, dan kecerdasan buatan.
8. Multimedia retrival adalah bagian dari ilmu temu kembali informasi yang
menfokuskan pada temu kembali informasi dari data multimedia.
9. Yang dilakukan dalam multimedia retrieval adalah bagaimana
mengekstraksi pengetahuan implisit, relasi data multimedia, atau pola
lain yang tidak secara eksplisit disimpan dalam file multimedia
(discovering), dibanding pada multimedia retrieval yang hanya untuk
merangking query yang dicari untuk disajikan ke user (searching).

B. Saran-saran
Terakhir, penyusun menyadari sepenuhnya bahwa hasil kajian yang
tertuang dalam makalah ini masih mengandung banyak kekurangan, baik dari
segi metodologi maupun materi yang disajikan, oleh karena itu masih terbuka
ruang bagi penyusun-penyusun berikutnya untuk membuat makalah yang
lebih baik. Apalagi jika mengingat bahwa perubahan dan perkembangan ilmu
pengetahuan bisa saja terjadi dalam waktu yang singkat, sehingga
membutuhkan pemikiran dan penelitian baru menyangkut masalah tersebut.

19
DAFTAR PUSTAKA

Al-Hady,Muflih Juni, 2017.Makalah Data Mining.

https://www.scribd.com/document/335673375/Makalah-Data-

Mining.(diakses tanggal 04 November 2019).

Chendrawira, Jennifer.2016.Makalah Data Mining-sem 3 Psi.

https://www.scribd.com/document/329480037/Makalah-Data-Mining-

sem-3-Psi.(diakses tanggal 04 November 2019).

Fitria, Titis.2014.Makalah Data Mining. https://www.scribd.com/

doc/216421345/Makalah-Data-Mining.(diakses tanggal 04 November

2019).

20

Anda mungkin juga menyukai