Anda di halaman 1dari 43

BAB II

Pengantar Data Mining

Data Mining
Data

Mining

menemukan

merupakan

secara

otomatis

kegiatan
informasi

tersembunyi (pengetahuan atau pola) yang


berpotensi berharga dari sekumpulan data
berskala besar dengan cara atau teknik
yang tidak mudah.

Data Mining sebagai Disiplin Berbagai Ilmu

Databas
e

Algoritm
a

P. Pola

Data
Mining

M.
Pembela
jaran

Statistik

Visualis
asi

Perbedaan data mining danbukan data mining


Data Mining

Bukan Data Mining

Mencari Apple dalam konteks Mencari kata Apple dalam suatu


tertentu seperti nama perusahaan search engine.
atau nama buah
Mencari suatu atau daftar transaksi Mencari suatu/ daftar transaksi
credit card yang dianggap sebagai credit card dalam suatu periode
penipuan
tertentu
Mencari
pelanggan
suatu Mencari daftar 10 pelanggan dengan
supermarket
yang
termasuk transaksi
terbesar
pada
suatu
kedalam kelompok potensial atau supermarket
tidak potensial
Menentukan katagori suatu kalimat Mencari suatu kata tertentu dalam
atau berita, misalkan suatu berita sebuah kalimat atau berita
apakah termasuk katagori: ekonomi,
olahraga,
politik,
dan
lain
sebagainya.

Tugas Data Mining


Klasifikasi

Clusterisasi

Prediksi

Deskripsi

Asosiasi

Peringkasan

Estimasi

Visualisasi

Klasifikasi

Klasifikasi merupakan proses menemukan sebuah model


atau

fungsi

yang

mampu

mendeskripsikan

dan

membedakan data atau objek ke dalam kelas-kelas tertentu


yang sudah didefinisikan sebelumnya. Klasifikasi didasari
pada karakteristik dari objek tersebut.

Klasifikasi Linear Registration


Linear Regression
w0 + w1 x + w2 y >=
0

Regression
computes wi from
data to minimize
squared error to
fit the data
Not flexible enough

Klasifikasi Decision Trees

Y
if X > 5 then blue
else if Y > 3 then blue
else if X > 2 then green
else blue

Prediksi

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi


data diklasifikasikan berdasarkan perilaku atau nilai yang
diperkirakan pada masa yang akan datang. Contoh dari
tugas prediksi misalnya untuk memprediksikan adanya
pengurangan jumlah pelanggan dalam waktu dekat dan
prediksi harga emas dalam tiga bulan yang akan datang.

Asosiasi

Tugas asosiasi dalam data mining adalah menemukan


atribut yang muncul dalam suatu waktu. Dalam dunia
bisnis lebih umum disebut analisis keranjang belanja
(market basket). Tugas asosiasi berusaha untuk
mengungkap aturan untuk mengukur hubungan antara dua
atau lebih atribut.

Estimasi

Estimasi hampir sama dengan prediksi, kecuali variabel


target estimasi lebih ke arah numerik dari pada ke arah
kategori.

Clusterisasi

Clustering

adalah

pengelompokan

objek

dalam

suatu

kelompok yang serupa satu sama lain dan berbeda dari


objek di kelompok lain.

Deskripsi

Deskripsi bertujuan untuk mengidentifikasi pola yang


muncul secara berulang pada suatu data dan mengubah
pola tersebut menjadi aturan dan kriteria yang dapat
mudah dimengerti agar dapat dengan efektif meningkatkan
tingkat pengetahuan (knowledge) pada sistem.

Peringkasan

Tugas

peringkasan

dalam

data

mining

adalah

untuk

memberikan deskripsi pada suatu kelompok atau group.


Sebenarnya tugas ini sudah terkandung dalam dalam tugas
deskripsi di atas.

Visualisasi

Visualisasi bertugas memfasilitasi pengguna dalam


menemukan informasi atau pengetahuan dengan
menekankan pada tampilan atau aspek visual.

Tahapan Proses Data Mining


Integration
Da
ta

Se
& lect
Cl io
ea n
nin
g

DATA
Ware
house

ni n

Knowledge

__ __ __
__ __ __
__ __ __

Transformed
Data
Target
Data

Patterns
and
Rules

Understanding

Raw
Data

Tra
ns
for
ma
tio
n

Mi

Interpretation
& Evaluation

Penerapan Data Mining


Beberapa bidang dalam penerapan data mining dapat dijelaskan sebagai
berikut:
Segmentasi Pelanggan

Segmentasi Pelanggan (Customer Segmentation)

Segmentasi adalah proses untuk membagi pelanggan ke dalam grup


homogen yang unik dalam rangka pengembangan strategi pasar yang
berbeda berdasarkan karakteristiknya

Penerapan Data Mining Pada CRM

Pelanggan (Customer) adalah aset paling penting dari suatu


organisasi. Tidak akan terjadi prospek bisnis jika tanpa
adanya pelanggan yang merasa puas dan tetap setia
menjalin hubungan dengan suatu organisasi.

Data mining Dalam Kerangka CRM


Data mining dapat memberikan wawasan pelanggan, yang sangat penting
untuk membangun strategi CRM yang efektif. Hal ini dapat menyebabkan
interaksi personal dengan pelanggan, maka kepuasan meningkat. Lebih
khusus, kegiatan pemasaran yang dapat didukung dengan penggunaan
data mining meliputi topik-topik berikut (Tsiptsis dan Chorianopoulos,
2009).

Segmentasi pelanggan

Segmentasi Kampanye
Pemasaran Langsung
Model Akuisisi
Model Cross-/deep-/upselling
Model Pengurangan
Sukarela
Segementasi Market
Basket dan Sequence
Analysis

Aplikasi Data mining Dalam CRM

Beberapa contoh aplikasi yang memanfaatkan data mining dalam CRM yaitu
aplikasi retail, perbankan, telekomunikasi dan aplikasi lainnya. Setiap bisnis yang
tertarik dalam memprediksi perilaku pelanggan melalui pengetahuan yang
diperoleh dalam data mining (Rygielski dkk, 2002).

Aplikasi Retail
Melalui penggunaan sistem point-of-sale, Retailer (pengecer) dapat
menyimpan catatan secara rinci dari setiap transaksi belanja yang
dilakukan. Hal ini memungkinkan mereka untuk lebih memahami berbagai
segmen pelanggan mereka.

Beberapa aplikasi retail

Performing basket analysis

Sales forecasting

Database marketing

Merchandise planning and allocation

Contoh aplikasi

HasilClustering

Hasil segmentasi

Perbankan
Bank dapat memanfaatkan penemuan pengetahuan untuk berbagai
aplikasi, termasuk (Rygielski dkk, 2002):

Card Marketing

Cardholder pricing and profitability

Fraud detection (Deteksi penipuan)

Predictive life-cycle management.

Telekomunikasi
Perusahaan telekomunikasi di seluruh dunia menghadapi persaingan
yang semakin meningkat memaksa mereka untuk agresif memasarkan
program yang dimiliki dengan harga khusus yang ditujukan untuk
mempertahankan pelanggan yang ada dan menarik yang baru.
Pengetahuan penemuan di bidang telekomunikasi meliputi (Rygielski dkk,
2002):
- Call detail record analysis
- Customer loyalty (Loyalitas pelanggan)

Aplikasi Text Mining

Text mining (disebut juga dengan text


data mining), adalah suatu proses untuk
mengambil informasi dari teks yang ada.
Text mining mencari pola-pola yang ada di
teks teks dalam bahasa natural yang tidak
terstuktur seperti buk, email, artikel,
halaman web, dll. Kegiatan yang biasa
dilakukan oleh text mining adalah text
categorization,
text
clustering,
conception/entity extraction, dll.

4 feature text mining


1.

Character

Character, merupakan komponan individual, bisa huruf, angka,


karakter spesial dan spasi, merupakan block pembangun pada level paling
tinggi pembentuk semantik feature, seperti words, term dan concept. Pada
umumnya, representasi character-based ini jarang digunakan pada
beberapa teknik pemrosesan teks.

2.

Words

Words, merupakan kata-kata tertentu yang dipilih langsung dari sebuah dokumen asli
yang berada pada tingkat dasar kekayaan semantik. Secara umum, fitur kata pada suatu
tingkatan harus memiliki nilai dan tidak lebih dari satu token linguistik.
3.

Terms

Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari
corpus. Representasi term-based dari dokumen tersusun dari subset term dalam
dokumen.

4.

Concept

Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,
rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari argument
atau verb yang sudah diberi label pada suatu dokumen.

3 proses yang biasanya ada dalam


sebuah kegiatan text mining
1.

Characterization of data

Teks yang ada distrukturkan dengan proses seperti parsing, dan


diamsukkan ke dalam sebuah database
2.

Data mining

Dari data yang ada lalu dilakukan sebuah pencarian dengan algoritma
tertentu untuk mendapatkan pola dari data tersebut

3.

Data visualization

Hasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk output
yang dapat dimengerti dengan mudah.

Algoritma text mining

Langkah-Langkah Text Mining

Tokenizing
Tahap
Tokenizing
adalah
tahap
pemotongan string input berdasarkan tiap
kata yang menyusunnya

Filtering
Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token.
Bisa menggunakan algoritma stop list (membuang kata yang kurang
penting) atau word list (menyimpan kata penting)

Stemming
ahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering.

Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata
lampau atau kata hasil stemming

Analyzing
Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar katakata antar dokumen yang ada.

Bidang yang membutuhkan Text


mining
- Aplikasi keamanan

Aplikasi biomedis.

Perangkat Lunak dan Aplikasi

Aplikasi Media Online

Aplikasi Pemasaran

Sentiment Analysis

Aplikasi Akademik

Image Mining
Image Mining difokuskan pada pola penggalian pengetahuan,
secara implisit suatu citra atau pola yang tidak secara eksplisit
ditemukan dalam citra dari database atau koleksi suatu citra
(Zhang dkk, 2002). Beberapa metode yang digunakan untuk
mengumpulkan pengetahuan adalah: image retrivel, data
mining, pengolahan citra dan kecerdasan buatan.

Anda mungkin juga menyukai