Makala H

MAKALAH
DATA MINING
Oleh:
GUSRIADI (14615057)
MUHAMMAD TAUFIQ SUMADI (14615075)
RIZAL AL AZIZ (14615078)
KEMENTERIAN RISET TEKNOLOGI DAN PENDIDIKAN TINGGI
POLITEKNIK NEGERI SAMARINDA
JURUSAN TEKNOLOGI INFORMASI
PROGRAM STUDI TEKNIK INFORMATIKA
SAMARINDA 2016
DAFTAR ISI
Hal
DAFTAR ISI...........................................................................................................I
1. PENDAHULUAN..........................................................................................1
1.1 Latar Belakang...............................................................................1
1.2 Rumusan Masalah..........................................................................1
1.3 Tujuan Penelitian...........................................................................2
2. PEMBAHASAN.............................................................................................5
2.1 Pengertian Data Mining.................................................................5
2.2 Tahap-Tahap Data Mining.............................................................5
2.3 Teknik Data Mining.......................................................................8
2.4 Metode Data Mining....................................................................12
3. PENUTUP.....................................................................................................14
3.1 Kesimpulan..................................................................................14
3.2 Saran.............................................................................................14
DAFTAR PUSTAKA...........................................................................................16
i
ii
1. PENDAHULUAN
BAB I
PENDAHULUAN
1.1 Latar Belakang
Penyimpanan dokumen secara digital berkembang dengan pesat seiring
meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk
mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu,
walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai
algoritma yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian
terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat
pertumbuhan ukuran data yang tersimpan umumnya.
Pencarian informasi (Information Retrieval) adalah salah satu cabang ilmu yang
menangani masalah ini yang bertujuan untuk membantu pengguna dalam menemukan
informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Aplikasi
pencarian informasi yang telah ada salah satunya adalah web mining untuk pencarian
berdasarkan kata kunci dengan teknik clustering. Selain itu, pada dokumen dilakukan
juga text mining dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan
pengklusteran untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang
tepat untuk mengklusterkan dokumen-dokumen tersebut.
1.2 Rumusan Masalah
1. Apa yang dimaksud dengan Data Mining ?
2. Apa fungsi dan tujuan dari Data Mining ?
3. Bagaimana klasifikasi teks dan metode yang bisa digunakan untuk klasifikasi
teks data mining?
1
2
1.3 Tujuan Penelitian
1. Memenuhi tugas mata kuliah topik khusus
2. Mengetahui lebih luas tentang Data Mining
3. Menambah pengetahuan
2. PEMBAHASAN
BAB II
PEMBAHASAN
2.1 Pengertian Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi
otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstrasi dan menidentifikasi informasi pengetahuan
potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar.
Data mining didefinisikan sebagai proses menemukan pola-pola dalam data.
Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti
dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data
yang dibutuhkan dalam jumlah besar.
2.2 Tahap-Tahap Data Mining
5
6
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :
1. Pembersihan data
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan
maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang
hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki.
Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa
mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage
out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah)
merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi performasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data
Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-

entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi
data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi
nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua database berbeda
tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata
tidak ada di database lainnya.
3. Transformasi data
7
Beberapa teknik data mining membutuhkan format data yang khusus sebelum
bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi
dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa
angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini
sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh
teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga
menentukan kualitas dari hasil data mining nantinya karena ada beberapa
karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.
4. Aplikasi teknik data mining
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita
akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya.
Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia
di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau
untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik
data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil
microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
5. Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai,
atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin
bermanfaat.
6. Presentasi pola yang ditemukan untuk menghasilkan aksi
Tahap terakhir dari proses data mining adalah bagaimana memformulasikan

keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus
melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi
8
hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah
satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,
visualisasi juga bisa membantu mengkomunikasikan hasil data mining.
2.3 Teknik Data Mining

1. Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap

keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan
class attribute itu sebagai fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini. Sebuah Classification Model akan menggunakan atribut lain dari kasus
tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan
ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output
Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data
Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule /
pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan
Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah
Decision Trees, Neural Network dan Naives Bayes.
9
2. Clustering
Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk

mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar
ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu
Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan
kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
 Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
 Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
 Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut
input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah
model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah
memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
3. Association
10
Association juga disebut sebagai Market Basket Analysis. Sebuah problem

bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi
produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila
orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari
data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk
dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar
dibawah ini.
Beberapa hal dapat kita baca, misalnya :
 Ketika orang membeli susu, dia biasanya membeli keju
 Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
Di dalam istilah association, setiap item dipertimbangkan sebagai informasi.

Metode association memiliki dua tujuan:
 Untuk mencari produk apa yang biasanya terjual bersamaan
 Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
4. Regression
Metode Regression mirip dengan metode Classification, yang membedakannya

adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class
(kelas). Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai
numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari
Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang
berdasarkan nilai dari input. Bentuk yang lebih canggih dari regression sudah
mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik
paling popular yang digunakan untuk regression adalah linear regression dan logistic
regression. Teknik lain yang didukung oleh SQL Server Data mining adalah
Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural
Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya
untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.
11
5. Forecasting
Forecasting adalah metode data mining yang sangat penting. Contohnya

digunakan untuk menjawab pertanyaan seperti berikut:
 Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,
disimbolkan sebagai MSFT) pada keesokan hari?
 Sebanyak apa penjualan produk tertentu pada bulan depan?
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.

Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini
akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,
dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data
sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series
model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.
6. Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian

yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian
bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL.
Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai
sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
 Pertama-tama Seorang pelanggan membeli komputer
 kemudian membeli speaker

12
 dan akhirnya membeli sebuah webcam.
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama

sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang
khas.
Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node
adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL
tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan
kemungkinan transisi antara satu URL dan URL yang lain.
2.4 Metode Data Mining
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
mining. Metode inidikelompokkan dalam 3 paradigma utama data mining :
1. Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan
dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi
dan mengklasifikasi perilakumasa depan dari sebuah entitas. Ada dua tipe masalah yang
diselesaikan oleh predictive modeling:klasifikasi dan regresi.
 Klasifikasi melibatkan model pembelajaran yang memetakan (atau
mengklasifikasi) data contoh kedalam satu atau beberapa kelas yang telah
didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi
untuk menetukan pengajuan pinjaman yang akan disetujui. Teknik
klasifikasimeliputi Naive Bayesian, neural networks, dan decision trees.

13
 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued.
Teknik regresimeliputi neural networks dan decision (atau regression) trees.
2. Discovery
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi
discoverymenggunakan teknik yang menganalisis data set yang besar untuk menemukan
association rules(atau pola), atau menemukan kluster dari sampel yang dapat
dikelompokan. Hasil dari metode discoveryumumnya dimaksudkan untuk pengguna.
Walau begitu, hasilnya juga dapat diaplikasikan ke metodedata mining yang lain
3. Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya

untuk mengidentifikasikebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern
discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa.
teknik Deviation Detection melaluivisualisasi melalui parallel coordinates,
scatterplots, dan surface plots.
3. PENUTUP
BAB III
PENUTUP
3.1 Kesimpulan
1. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar
atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang
penting yang biasanya tidak disadari keberadaannya
2. Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang
tidak bisa dilakukannya.
3. Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar
adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa
saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari
hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data mining seharusnya dipahami sebagai suatu proses, yang
memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan
ke tahapan sebelumnya.
3.2 Saran
Dalam penulisan makalah tentang data mining ini penulis menyadari masih
kurang sempurna, kedepannya penulis akan lebih fokus dan details dalam menjelaskan
tentang makalah di atas dengan sumber-sumber yang lebih banyak yang tentunya dapat
14
15
di pertanggung jawabkan, maka dari itu dibutuhkan kritik dan saran yang membangun
untuk penulisan makalah ini agar lebih baik kedepannya.

DAFTAR PUSTAKA
DAFTAR PUSTAKA
Falani, Zakki. “Konsep Data Mining.”

http://mfile.narotama.ac.id/files/Zakki%20Falani/Konsep%20Data%20Mining/
Konsep%20Data%20Mining.pdf (diakses tanggal 5 April 2017)
Aryuni, Mediana. “Tahap-Tahap Data Mining.” http://sis.binus.ac.id/2016/12/15/tahap-

tahap-data-mining/ (diakses tanggal 5 April 2017)
Syeban, Saleh. “Teknik & Metode Data Mining.”

https://www.scribd.com/doc/174986731/Teknik-Metode-Data-Mining (diakses tanggal
5 April 2017)
16

Makala H

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makala H

Diunggah oleh

Hak Cipta:

Format Tersedia

MAKALAH

MUHAMMAD TAUFIQ SUMADI (14615075)

RIZAL AL AZIZ (14615078)

KEMENTERIAN RISET TEKNOLOGI DAN PENDIDIKAN TINGGI

POLITEKNIK NEGERI SAMARINDA

JURUSAN TEKNOLOGI INFORMASI

PROGRAM STUDI TEKNIK INFORMATIKA

1.1 Latar Belakang

Penyimpanan dokumen secara digital berkembang dengan pesat seiring

meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk

pertumbuhan ukuran data yang tersimpan umumnya.

tepat untuk mengklusterkan dokumen-dokumen tersebut.

1.2 Rumusan Masalah

1. Apa yang dimaksud dengan Data Mining ?

2. Apa fungsi dan tujuan dari Data Mining ?

teks data mining?

1.3 Tujuan Penelitian

1. Memenuhi tugas mata kuliah topik khusus

2. Mengetahui lebih luas tentang Data Mining

2.1 Pengertian Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan

otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan

machine learning untuk mengekstrasi dan menidentifikasi informasi pengetahuan

Data mining didefinisikan sebagai proses menemukan pola-pola dalam data.

yang dibutuhkan dalam jumlah besar.

2.2 Tahap-Tahap Data Mining

Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-

4. Aplikasi teknik data mining

5. Evaluasi pola yang ditemukan

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan

2.3 Teknik Data Mining

Classification adalah tindakan untuk memberikan kelompok pada setiap

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk

Association juga disebut sebagai Market Basket Analysis. Sebuah problem

Di dalam istilah association, setiap item dipertimbangkan sebagai informasi.

 Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

Metode Regression mirip dengan metode Classification, yang membedakannya

Forecasting adalah metode data mining yang sangat penting. Contohnya

disimbolkan sebagai MSFT) pada keesokan hari?

 Sebanyak apa penjualan produk tertentu pada bulan depan?

Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.

Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian

 kemudian membeli speaker

 dan akhirnya membeli sebuah webcam.

Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama

2.4 Metode Data Mining

mining. Metode inidikelompokkan dalam 3 paradigma utama data mining :

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan

diselesaikan oleh predictive modeling:klasifikasi dan regresi.

 Klasifikasi melibatkan model pembelajaran yang memetakan (atau

didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi

untuk menetukan pengajuan pinjaman yang akan disetujui. Teknik

klasifikasimeliputi Naive Bayesian, neural networks, dan decision trees.

 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued.

Teknik regresimeliputi neural networks dan decision (atau regression) trees.

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi

association rules(atau pola), atau menemukan kluster dari sampel yang dapat

dikelompokan. Hasil dari metode discoveryumumnya dimaksudkan untuk pengguna.

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya

penting yang biasanya tidak disadari keberadaannya

2. Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang

tidak bisa dilakukannya.