MID-IS-Data Mining - Sapta-Nofry-Celvin-Zumi
MID-IS-Data Mining - Sapta-Nofry-Celvin-Zumi
DESKRIPSI TEORI
1.1.3. Clustering
b) Variabel biner.
Keterangan :
r=2
a) Scalability
Mampu menangani data dalam jumlah yang besar.
Karena database yang besar berisi lebih dari jutaan objek, bukan
hanya ratusan objek. Maka dari itu diperlukan algoritma dengan
clustering yang scalable.
b) Ability to deal with different types of attributes
Banyak algoritma clustering yang hanya dibuat untuk
menganalisa data bersifat numerik. Namun sekarang ini, aplikasi
data mining harus dapat menangani berbagai macam bentuk data
seperti biner, data nominal, data ordinal, ataupun campuran.
c) Discovery of clusters with arbitrary shape
Banyak algoritma clustering yang menggunakan
euclidean atau manhattan. Namun, hasil dari metode tersebut
bukan hanya berbentuk bulat seperti pada contoh. Hasil dapat
berbentuk aneh dan tidak sama antara satu dengan yang lain.
Maka dari itu diperlukan kemampuan untuk menganalisa cluster
dengan bentuk apapun.
d) Requirements for domain knowledge to determain input
parameters
Banyak algoritma clustering yang mengharuskan
pengguna untuk memasukan parameter tertentu, seperti jumlah
cluster. Hasil clustering bergantung pada parameter yang
ditentukan. Terkadang parameter sulit untuk menentukan,
terutama pada data yang memiliki dimensi tinggi. Hal ini
menyulitkan pengguna serta kualitas clustering yang yang
dicapaipun tidak terkontrol.
e) Ablity to deal with noisy data
Pada kenyataannya, data pasti ada yang rusak, error,
tidak dimengerti, ataupun menghilang. Beberapa algoritma
clustering sangat sensitif terhadap data yang rusak, sehingga
menyebabkan cluster dengan kualitas yang rendah. Maka dari
itu, diperlukan clustering yang mampu menagani data yang
rusak.
f) Incremental clustering and insensitivity to input order
Data yang dimasukan dapat menyebabkan cluster
menjadi berubah total. Hal ini dapat terjadi karena tidak
sensitifnya algoritma clustering yang dipakai. Maka dari itu
diperlukan algoritma yang tidak senssitif terhadap urutan input
data.
g) Capability of clustering high-dimentionallity data
Sebuah kelompok data dapat berisi banyak dimensi
ataupun atribut. Kebanyakan algoritma clustering hanya mampu
menangani kelompok data dengan dimensi sedikit. Maka dari
itu, diperlukan algoritma clustering yang mampu menangani
data dengan dimensi yang berjumlah banyak.
h) Constraint based clustering
Pada kenyataannya, membuat clustering tentu saja
memiliki beberapa pembatas ataupun syarat tertentu. Hal ini
menajadi tugas yang menantang, karena diperlukan kemampuan
yang tinggi untuk mengelompokan data, dengan kendala dan
perilaku tertentu.
i) Interpretability and usability
a) Partitional Clustering
Metode yang paling sederhana dan paling mendasar
dari analisis partisi cluster, yang mengatur objek dari suatu
himpunan ke dalam beberapa kelompok eksklusif atau cluster.
Intinya adalah memisahkan data per kelompok dengan
kelompok lainnya.
Metode yang paling sering digunakan dalam partitional
clustering adalah metode K-Means. Algoritma K-Means
mendefinisikan centroid dari cluster menjadi rata-rata point dari
cluster tersebut. Ini hasil dari langkah-langkah dalam melakukan
metode K-Means. Langkah-langkah melakukan metode K-
Means:
a) Tentukan jumlah cluster yang akan dibuat.
b) Masukan elemen yang akan di-cluster secara acak ke
masing-masing cluster.
c) Hitung centroid (titik tengah) pada setiap cluster.
d) Ukur jarak antara satu titik ke titik tengah pada masing-
masing cluster.
e) Masukan titik ke centroid terdekat.
f) Ulangi sampai cluster benar-benar tersusun dengan baik.
b) Hierarchical Clustering
Pengelompokan data berdasarkan hierarkinya.
Langkah-langkah melakukan hierarchical clustering:
a) Identifikasi item dengan jarak terdekat.
b) Gabungkan item itu ke dalam satu cluster.
c) Hitung jarak antar cluster.
d) Ulangi dari awal, sampai semua terhubung.
c) Density-Based
Metode partitioning dan hierarchical adalah dirancang
untuk menemukan spherical-shaped cluster. Metode tersebut
memiliki kesulitan untuk menemukan cluster berbentuk
sembarang seperti bentuk “S” dan cluster ouval. Untuk hal
tersebut dengan menggunakan metode di atas, kemungkinan
besar tidak akurat, di mana kebisingan atau outlier termasuk
dalam cluster. Untuk menemukan cluster berbentuk sembarang,
sebagai alternatif, kita dapat memodelkan cluster ke dalam
beberapa bagian dalam data space, yang dipisahkan dari bagian
yang jarang. Ini adalah strategi utama di balik kepadatan metode
berbasis clustering, yang dapat menemukan cluster berebentuk
nonspherical.
d) Grid-Based
a) Business Intelligence
b) Image pattern recognition
c) Web search
d) Biology
e) Security
f) Economy
a) Business Intelligence
Clustering dapat digunakan untuk mengorganisir
pelanggan dalam jumlah besar ke dalam kelompok yang
memiliki banyak persamaan. Hal ini membantu dalam
proses CRM.
b) Web search
Clustering digunakan pada saat pencarian
menggunakan keyword. Karena sangat banyaknya
jumalah website yang ada, clustering dapat digunakan
untuk mengorganisir hasil pencarian ke dalam beberapa
kelompok, yang menyajikan hasil yang lebih mudah
ditelusuri.
c) Marketing
Untuk mengelompokan customer yang memiliki
keunikan dan mengembangkan program target marketing
terhadap beberapa customer tersebut.
2. STUDI KASUS
Pasar Modal
2.1. Saham
a) Saham Biasa
Merupakan jenis efek yang paling sering dipergunakan oleh
emiten untuk memperoleh dana dari masyarakat dan juga merupakan
jenis yang paling populer di Pasar Modal. Jenis ini memiliki
karakteristik seperti:
a) Hak klaim terakhir atas aktiva perusahaan jika perusahaan
dilikuidasi.
b) Hak suara proporsional pada pemilihan direksi serta keputusan lain
yang ditetapkan pada Rapat Umum Pemegang Saham.
c) Dividen, jika perusahaan memperoleh laba dan disetujui di dalam
Rapat Umum Pemegang Saham.
d) Hak memesan efek terlebih dahulu, sebelum efek tersebut
ditawarkan kepada masyarakat.
b) Saham Preferen
2.2. Obligasi
a) Bunga
Bunga dibayar secara regular sampai jatuh tempo dan
ditetapkan dalam presentase dari nilai nominal.
b) Capital Gain
Sebelum jatuh tempo, biasanya obligasi diperdagangkan di
Pasar Sekunder, sehingga investor mempunyai kesempatan untuk
memperoleh capital gain. Capital gain juga dapat diperoleh jika
investor membeli Obligasi dengan diskon, yaitu dengan nilai
lebih rendah dari nilai nominalnya.
c) Hak Klaim Pertama
Jika emiten bangkrut atau dilikuidasi, pemegang obligasi
sebagai kreditur memiliki Hak Klaim Pertama atas aktiva
perusahaan.
d) Jika memiliki obligasi konversi
Investor dapat mengkonversikan obligasi menjadi saham
pada harga yang telah ditetapkan, dan kemudian berhak untuk
memperoleh manfaat atas saham.
2.2.4. Derivatif
Derivatif terdiri dari efek yang diturunkan dari instrumen efek lain yang disebut
“underlying” . Ada beberapa macam instrument derivatif di Indonesia, seperti Bukti
Right, Waran, dan Kontrak Berjangka. Derivatif merupakan instrumen yang sangat
berisiko jika tidak dipergunakan secara hati-hati.
Latar Belakang
Evaluasi classification
dengan menggunakan
metode classification
Studi literatur dan
lain-lain
Visualisasi grafik
Identifikasi Masalah
Penerapan Data
Identifikasi Mining pada Targeted
kebutuhan informasi Marketing
Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan
pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho.
Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan
generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak
pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada
faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi
dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin
keakuratan formulasi yang diharapkan.
RapidMiner adalah salah satu software untuk pengolahan data mining. Pekerjaan yang
dilakukan oleh RapidMiner text mining adalah berkisar dengan analisis teks, mengekstrak pola-
pola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan
buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi
bermutu tertinggi dari teks yang diolah.
RapidMiner menyediakan prosedur data mining dan machine learning, di dalamnya
termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling
dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan
dengan XML, dan dibuat dengan GUI. Penyajiannya dituliskan dalam bahasa pemrograman
Java.
Untuk mengetahui lebih banyak tentang penggunaanya, saya telah menuliskan sebuah
artikel berjudul Analisis Kumpulan Dokumen dengan RapidMiner.
Selain itu, di Youtube ada banyak sekali video tutorial yang bisa anda pelajari sendiri,
berikut ini adalah beberapa contoh video tutorial RapidMiner yang bisa anda lihat dan pelajari.
-- http://www.softovator.com/eksplorasi-data-mining-menggunakan-rapidminer/
3.1 Tahap Instalasi WEKA
2 3 4
5 6 7
8
Tahap Instalasi Rapidminer
https://my.rapidminer.com/nexus/account/index.html#downloads
3.2. Bagaimana Menginput Data & RUN DATA
- WEKA
Pilih “explorer”, kemudian akan muncul layar WEKA Explorer
1. Simpan file ke
format CSV file,
3.3. Bagaimana Run Data
- WEKA
Open file
4. Kesimpulan
WEKA lebih dapat memberikan detail daripada rapidminer dalam hal define attribute, item dan
visualize detail lainnya