Makalah Data Mining PDF
Makalah Data Mining PDF
Makalah
DATA MINING
3/11/2014
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
2
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
-Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration
(di mana sumber data yang terpecah dapat disatukan)
- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke
dalam database)
- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat
untuk menambang dengan ringkasan performa atau operasi agresi)
- Data mining (proses esensial di mana metode yang intelejen digunakan untuk
mengekstrak pola data)
- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan
digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :
- Database, data warehouse, atau tempat penyimpanan informasi lainnya.
- Server database atau data warehouse.
- Knowledge base
- Data mining engine.
- Pattern evolution module.
- Graphical user interface.
2.1 Pengertian
Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining,
statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu
aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen
C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan
bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining
memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah
dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari
dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan
hyperlink.
3
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
4
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
5
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang
sering digunakan:
1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan
spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik
feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini
jarang digunakan pada beberapa teknik pemrosesan teks.
2. Words.
3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari
corpus. Representasi term-based dari dokumen tersusun dari subset term dalam
dokumen.
4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,
rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari
argument atau verb yang sudah diberi label pada suatu dokumen.
Text Preprocessing
Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis.
Pada text mining, informasi yang akan digali berisi informasi-informasi yang
strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi
data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang
biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.
Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat
dijadikan sebagai sumber data yang dapat diolah lebih lanjut.
Ekstraksi Dokumen
6
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.
Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan
dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif
yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut:
7
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap
ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi
yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit
diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak
memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks
berbahasa inggris adalah sebagai berikut:
8
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
9
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
10
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Ditarik dari kiri ke kanan, Decision Tree hanya burst nodes (membelah jalan) tapi tidak
ada sink nodes (konvergen jalan). Oleh karena itu, digunakan secara manual, mereka
dapat tumbuh sangat besar dan kemudian sering kali sulit untuk menarik sepenuhnya
dengan tangan.
Bab 6. Clustering
6.1 Pengertian
Clustering merupakan teknik yang umum digunakan dalam menganalisa data
statistik untuk berbagai bidang, misalnya machine learning, pattern analysis , image
analysis, information retrieval dan bio informatika.
6.2 Konsep dasar
Clustering Dengan Pendekatan Partisi
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi
ini adalah metode k-means. Secara umum metode k-means ini melakukan proses
pengelompokan dengan prosedur sebagai berikut:
11
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi
masih sudah di bawah treshold
Bab 7. Association
7.1 pengertian Association
Teknik Association adalah metode data mining digunakan secara luas dan
mengarah ke penemuan yang menarik hubungan antara variabel-variabel seperti yang
ditemukan di gudang data di bawah pemeriksaan. Data penambang menetapkan formula
yang disebut "aturan asosiasi". Dia kemudian memprediksi model masa depan dan
bertindak berdasarkan model untuk mendapatkan informasi penting. Sebagai contoh
mengambil kasus gelar akademik untuk spesialisasi. Jika seorang mahasiswa opt-in
12
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
untuk program tertentu maka mungkin ada probabilitas tinggi bahwa ia juga dapat
memilih spesialisasi yang relevan di masa depan untuk meningkatkan peluang karirnya.
7.2 Konsep Dasar Association
Bentuk Dasar Association Rule
Ada beberapa simbol yang akan membantu untuk menerapkan association rule, yaitu:
Association rule: implikasi yang dimisalkan dengan bentuk X -> Y, dimana X dan Y
saling disjoin (X ⋂ Y)
Support count(σ(X)): jumlah transaksi yang memuat itemset tertentu
Support (s(X->Y)): tingkat intensitas kemunculan gabungan rule(X U Y) pada
association rule pada seluruh data set
Confidence(c(X->Y)): tingkat intensitas kemunculan item Y pada transaksi yang
memuat X
Rumus support dan confidence:
Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas
kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar
kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada
pada rule tersebut.
Bab 8. Classification
8.1 pengertian
13
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Classification adalah metode yang paling umum pada data mining. Persoalan
bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan.
Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode
ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu
sebagai fungsi dari input attribute.
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini.
Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input
attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk
dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans
yang berisi Yes atau No).
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai
mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan
sebuthan dengan Supervised Algorithm.
14
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
dasar dan definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk
melakukan klasifikasi dalam Data Mining.
Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6.
15
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan
P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca
cerah pada saat olahraga adalah:
16
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme
Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak k-
itemset terpanjang.
3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item
atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari
minimum support.
4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan.
Bila tidak, maka k ditambah satu dan kembali ke bagian 1.
17
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam
cluster k.
6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.
18
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
19
Makalah Data Mining / Universitas Muhammadiyah siidoarjo
20