MID-IS-Data Mining - Sapta-Nofry-Celvin-Zumi

1.
DESKRIPSI TEORI
1.1. Metode-Metode Data Mining
1.1.1. Mining Frequent Patterns, Association, Correlations
Frequent pattern adalah pola yang sering muncul dalam kumpulan

data. Misalnya, satu set item seperti susu dan roti yang sering muncul bersama-
sama dalam satu set data transaksi adalah frequent itemset. Sebuah
subsequence, seperti membeli pertama kali sebuah PC, lalu kamera digital,
dan kemudian memory card. Jika sequence tersebut sering terjadi dalam
history pada database belanja, maka pola tersebut adalah frequent pattern.
Menemukan frequent pattern adalah peranan penting dalam mining
association, correlation, dan hubungan menarik lainnya antara data. Selain
itu, membantu dalam classification data, clustering, dan lainnya. Frequent
itemset mining kemungkinan untuk menemukan asosiasi dan korelasi dari
banyak item dari banyaknya transaksi. Dengan banyaknya data yang
terkumpul, banyak industri yang mulai tertarik pada pola mining tersebut dari
database mereka.
Penemuan hubungan korelasi yang menarik antara jumlah besar,
catatan transaksi bisnis, dapat membantu bisnis seperti dalam proses
pengambilan keputusan untuk desain katalog, lintas pemasaran, dan analisis
tingkah laku pelanggan. Assosciation rule mining yang biasanya disebut juga
market basket analysis adalah teknik mining untuk menemukan aturan
asosisatif antara suatu kombinasi item. Contoh aturan asosisatif dari analisa
pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar
kemungkinan seorang pelanggan membelli roti bersamaan dengan susu.
Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur
penempatan barangnya atau merancang kampanye pemasaran dengan
memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya
suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu
presentase kombinasi item tersebut dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan asosisatif.
1.1.2. Classification
Menurut Han, Jiawei , classification adalah satu bentuk analisis data

yang menghasilkan model untuk mendeskripsikan kelas data yang penting.
Classification memprediksi kategori (discrete, unordered) ke dalam label
class. Classification merupakan proses untuk menemukan model atau fungsi
yang menjelaskan atau membedakan konsep atau class data, dengan tujuan
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui. Model itu sendiri bisa berupa if-then-rules, decision tree, formula
matematis atau neural network. Sebagai contoh, kita dapat membangun model
klasifikasi untuk mengkategorikan aplikasi pinjaman bank, aman atau berisik.
Analisa tersebut dapat membantu memberikan pemahaman yang lebih baik
dari data pada umumnya. Classification memiliki berbagai aplikasi yaitu,
deteksi penipuan, pemasaran target, prediksi kinerja, manufaktur, dan diagnosa
medis.
1.1.2.1. Decision Tree
Decision tree adalah salah satu metode classification yang

paling populer karena mudah untuk diinterpretasi oleh manusia.
Decision tree menggunakan model seperti struktur pohon.
Pembangunan decision tree tidak memerlukan pengaturan
domain knowledge atau parameter, karena itu cocok untuk
eksplorasi penemuan pengetahuan. Decision tree dapat menangani
data multidimensi. Perwakilan dari pengetahuan yang diperoleh
dalam bentuk pohon memudahkan untuk dipelajari dan dipahami.
Decision tree memiliki akurasi yang baik. Namun, keberhasilan
penggunaannya tergantung pada data yang ada. Aplikasi klasifikasi
decision tree telah digunakan dalam banyak area, seperti
kedokteran, manufaktur dan produksi, analisis keuangan,
astronomi, dan biologi molekuler. Untuk menetukan proses
pembangunan decision tree, diperlukan adanya atribute selection
measure, yaitu suatu metode untuk memilih kriteria pemisahan
yang terbaik yang memisahkan partisi data yang diberikan, kelas-
label ke dalam class individu.
Atribute selection measure memberikan peringkat untuk
setiap atribut. Jika atribut yang terpisah adalah continues-valued
atau jika kita dibatasi ke dalam binary trees, maka subset yang
membelah juga harus ditentukan sebagai bagian dari kriteria
pemisahan. Node pohon diciptakan untuk partisi yang dilabeli
dengan kriteria pembagian, cabang yang tumbuh untuk setiap hasil
dari kinerja. Tiga selection measures attribute yang populer adalah
information gain, gain ratio, dan gain index.
1.1.2.2. Naive Bayes
Naïve Bayes Classifier merupakan sebuah metoda klasifikasi

yang berakar pada teorema Bayes . Metode pengklasifikasian dg
menggunakan metode probabilitas dan statistik yg dikemukakan
oleh ilmuwan Inggris Thomas Bayes , yaitu memprediksi peluang di
masa depan berdasarkan pengalaman di masa sebelumnya sehingga
dikenal sebagai Teorema Bayes . Ciri utama dr Naïve Bayes
Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi
dari masing-masing kondisi / kejadian.
Menurut Olson Delen (2008) menjelaskan Naïve Bayes unt

setiap kelas keputusan, menghitung probabilitas dg syarat bahwa
kelas keputusan adalah benar, mengingat vektor informasi obyek.
Algoritma ini mengasumsikan bahwa atribut obyek adalah
independen. Probabilitas yang terlibat dalam memproduksi
perkiraan akhir dihitung sebagai jumlah frekuensi dr " master " tabel
keputusan.
Naive Bayes Classifier bekerja sangat baik dibanding dengan

model classifier lainnya. Hal ini dibuktikan oleh Xhemali , Hinde
Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural
Networks in the Classification of Training Web Pages” mengatakan
bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yg lebih
baik dibandingmodel classifier lainnya”.
Keuntungan penggunan adalah bahwa metoda ini hanya
membutuhkan jumlah data pelatihan ( training data ) yg kecil unt
menentukan estimasi parameter yg diperlukan dalam proses
pengklasifikasian. Karena yg diasumsikan sebagai variable
independent, maka hanya varians dr suatu variable dalam sebuah
kelas yg dibutuhkan unt menentukan klasifikasi, bukan keseluruhan
dr matriks kovarians.
Tahapan proses Naive Bayes
1. Menghitung jumlah kelas / label
2. Menghitung Jumlah Kasus Per Kelas
3. Kalikan Semua Variable Kelas
4. Bandingkan Hasil Per Kelas
1.1.3. Clustering
Clustering adalah proses pengelompokan kumpulan data menjadi

beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak
kesamaan dan memiliki banyak perbedaan dengan objek di kelompok lain.
Perbedaan dan persamaannya biasanya berdaasarkan nilai atribut dari objek
tersebut dan dapat juga berupa perhitungan jarak. Clustering sendiri juga
disebut unsupervised classification, karena clustering lebih bersifat untuk
dipelajarai dengan diperhatikan. Cluster analysis merupakan proses partisi
satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah
cluster, sehingga objek yang ada di dalam cluster mirip satu sama dengan
lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.
Partisi tidak dilakukan dengan manual algoritma clustering. Oleh karena itu,
clustering sangat berguna dan bisa menemukan grup yang tidak dikenal dalam
data.
Cluster analysis banyak digunakan dalam berbagai aplikasi seperti
Business Intelligence, Image Pattern Recognition, Web Search, Biology, dan
Security. Di dalam business intelligence, clustering bisa mengatur banyak
customer ke dalam banyak grup. Contohnya pengelompokan customer ke
dalam beberapa cluster dengan persamaan karakteristik yang kuat. Clustering
juga dikenal sebagai data segmentation, karena clustering mempartisi banyak
data set ke dalam banyak grup berdasarkan persamaannya. Clustering juga
bisa sebagai outlier detection, di mana outlier bisa menjadi menarik daripada
kasus yang biasa. Aplikasinya adalah Outlier Detection, untuk mendeteksi
card fraud dan memonitori aktivitas.
1.1.3.1. Konsep Dasar Clustering
Proses clustering akan menghasilkan cluster yang baik

apabila:
a) Tingkat kesamaan yang tinggi dalam satu kelas.
b) Tingkat kesamaan yang rendah antar kelas.

Kesamaan yang dimaksud merupakan pengukuran secara
numerik terhadap dua buah objek. Nilai kesamaan ini akan semakin
tinggi apabila memiliki kemiripan yang tinggi. Perbedaan kualitas
hasil clustering tergantung pada metode yang dipakai.
Tipe data pada clustering:
a) Variabel berskala interval.
b) Variabel biner.
c) Variabel nominal, ordinal, dan rasio.
d) Variabel dengan tipe lainnya.
Meotde clustering juga harus dapat mengukur

kemampuannya dalam usaha untuk menemukan suatu pola
tersembunyi pada data yang tersedia. Dalam mengukur nilai
kesamaan ini, ada beberapa metode yang dapat dipakai. Salah satu
metodenya adalah Weighted Euclidean Distance. Dalam meotde
ini, dua buah poin dapat dihitung jaraknya bila diketahui nilai dari
masing-masing atribut pada kedua poin tersebut, berikut rumusnya:
Keterangan :
N = Jumlah record data

K = Urutan field data
r=2
k = Bobot field yang diberikan user
1.1.3.2. Persyaratan untuk Clustering
Syarat untuk melakukan analisa clustering:
a) Scalability
Mampu menangani data dalam jumlah yang besar.
Karena database yang besar berisi lebih dari jutaan objek, bukan
hanya ratusan objek. Maka dari itu diperlukan algoritma dengan
clustering yang scalable.
b) Ability to deal with different types of attributes
Banyak algoritma clustering yang hanya dibuat untuk
menganalisa data bersifat numerik. Namun sekarang ini, aplikasi
data mining harus dapat menangani berbagai macam bentuk data
seperti biner, data nominal, data ordinal, ataupun campuran.
c) Discovery of clusters with arbitrary shape
Banyak algoritma clustering yang menggunakan
euclidean atau manhattan. Namun, hasil dari metode tersebut
bukan hanya berbentuk bulat seperti pada contoh. Hasil dapat
berbentuk aneh dan tidak sama antara satu dengan yang lain.
Maka dari itu diperlukan kemampuan untuk menganalisa cluster
dengan bentuk apapun.
d) Requirements for domain knowledge to determain input
parameters
Banyak algoritma clustering yang mengharuskan
pengguna untuk memasukan parameter tertentu, seperti jumlah
cluster. Hasil clustering bergantung pada parameter yang
ditentukan. Terkadang parameter sulit untuk menentukan,
terutama pada data yang memiliki dimensi tinggi. Hal ini
menyulitkan pengguna serta kualitas clustering yang yang
dicapaipun tidak terkontrol.
e) Ablity to deal with noisy data
Pada kenyataannya, data pasti ada yang rusak, error,
tidak dimengerti, ataupun menghilang. Beberapa algoritma
clustering sangat sensitif terhadap data yang rusak, sehingga
menyebabkan cluster dengan kualitas yang rendah. Maka dari
itu, diperlukan clustering yang mampu menagani data yang
rusak.
f) Incremental clustering and insensitivity to input order
Data yang dimasukan dapat menyebabkan cluster
menjadi berubah total. Hal ini dapat terjadi karena tidak
sensitifnya algoritma clustering yang dipakai. Maka dari itu
diperlukan algoritma yang tidak senssitif terhadap urutan input
data.
g) Capability of clustering high-dimentionallity data
Sebuah kelompok data dapat berisi banyak dimensi
ataupun atribut. Kebanyakan algoritma clustering hanya mampu
menangani kelompok data dengan dimensi sedikit. Maka dari
itu, diperlukan algoritma clustering yang mampu menangani
data dengan dimensi yang berjumlah banyak.
h) Constraint based clustering
Pada kenyataannya, membuat clustering tentu saja
memiliki beberapa pembatas ataupun syarat tertentu. Hal ini
menajadi tugas yang menantang, karena diperlukan kemampuan
yang tinggi untuk mengelompokan data, dengan kendala dan
perilaku tertentu.
i) Interpretability and usability
Pengguna tentu saja menginginkan hasil clustering

mudah ditafsirkan, dimengerti, dan bermanfaat. Hal ini berarti
clustering perlu ditandai dengan beberapa syarat, sesuai
kemauan user, dan tentu saja hal itu memengaruhi pemilihan
metode clustering yang akan digunakan.
1.1.3.3. Tipe Clustering
Berikut ini merupakan tipe clustering yang umum

digunakan, antara lain:
a) Partitional Clustering
Metode yang paling sederhana dan paling mendasar
dari analisis partisi cluster, yang mengatur objek dari suatu
himpunan ke dalam beberapa kelompok eksklusif atau cluster.
Intinya adalah memisahkan data per kelompok dengan
kelompok lainnya.
Metode yang paling sering digunakan dalam partitional
clustering adalah metode K-Means. Algoritma K-Means
mendefinisikan centroid dari cluster menjadi rata-rata point dari
cluster tersebut. Ini hasil dari langkah-langkah dalam melakukan
metode K-Means. Langkah-langkah melakukan metode K-
Means:
a) Tentukan jumlah cluster yang akan dibuat.
b) Masukan elemen yang akan di-cluster secara acak ke
masing-masing cluster.
c) Hitung centroid (titik tengah) pada setiap cluster.
d) Ukur jarak antara satu titik ke titik tengah pada masing-
masing cluster.
e) Masukan titik ke centroid terdekat.
f) Ulangi sampai cluster benar-benar tersusun dengan baik.
b) Hierarchical Clustering
Pengelompokan data berdasarkan hierarkinya.
Langkah-langkah melakukan hierarchical clustering:
a) Identifikasi item dengan jarak terdekat.
b) Gabungkan item itu ke dalam satu cluster.
c) Hitung jarak antar cluster.
d) Ulangi dari awal, sampai semua terhubung.
c) Density-Based
Metode partitioning dan hierarchical adalah dirancang
untuk menemukan spherical-shaped cluster. Metode tersebut
memiliki kesulitan untuk menemukan cluster berbentuk
sembarang seperti bentuk “S” dan cluster ouval. Untuk hal
tersebut dengan menggunakan metode di atas, kemungkinan
besar tidak akurat, di mana kebisingan atau outlier termasuk
dalam cluster. Untuk menemukan cluster berbentuk sembarang,
sebagai alternatif, kita dapat memodelkan cluster ke dalam
beberapa bagian dalam data space, yang dipisahkan dari bagian
yang jarang. Ini adalah strategi utama di balik kepadatan metode
berbasis clustering, yang dapat menemukan cluster berebentuk
nonspherical.
d) Grid-Based
Metode clustering yang dibahas sejauh ini adalah

metode yang mempartisi set dari objek dengan distribusi objek
di embedding space. Pendekatan clustering Grid-Based
menggunakan grid multiresolusi struktur data. Ini membagi
objek space ke dalam jumlah yang terbatas dari struktur grid, di
mana operasi untuk clustering dilakukan. Keuntungan dari
pendekatan ini adalah waktu proses yang cepat, yang biasanya
tergantung dari jumlah objek data, namun tergantung pada
jumlah sel dalam setiap dimensi, dalam quantized space.
1.1.3.4. Penggunaan Metode Clustering
Clustering banyak digunakan pada berbagai bidang

aplikasi seperti:
a) Business Intelligence
b) Image pattern recognition
c) Web search
d) Biology
e) Security
f) Economy
Contoh aplikasi data mining yang menggunakan teknik

clustering:
a) Business Intelligence
Clustering dapat digunakan untuk mengorganisir
pelanggan dalam jumlah besar ke dalam kelompok yang
memiliki banyak persamaan. Hal ini membantu dalam
proses CRM.
b) Web search
Clustering digunakan pada saat pencarian
menggunakan keyword. Karena sangat banyaknya
jumalah website yang ada, clustering dapat digunakan
untuk mengorganisir hasil pencarian ke dalam beberapa
kelompok, yang menyajikan hasil yang lebih mudah
ditelusuri.
c) Marketing
Untuk mengelompokan customer yang memiliki
keunikan dan mengembangkan program target marketing
terhadap beberapa customer tersebut.
2. STUDI KASUS
Pasar Modal
2.1. Saham
2.1.1. Pengertian Saham
Saham adalah sertifikat yang menunjukkan bukti kepemilikan suatu

perusahaan, dan pemegang saham memiliki hak klaim atas penghasilan dan
aktiva perusahaan.
2.1.2. Jenis Saham
a) Saham Biasa
Merupakan jenis efek yang paling sering dipergunakan oleh
emiten untuk memperoleh dana dari masyarakat dan juga merupakan
jenis yang paling populer di Pasar Modal. Jenis ini memiliki
karakteristik seperti:
a) Hak klaim terakhir atas aktiva perusahaan jika perusahaan
dilikuidasi.
b) Hak suara proporsional pada pemilihan direksi serta keputusan lain
yang ditetapkan pada Rapat Umum Pemegang Saham.
c) Dividen, jika perusahaan memperoleh laba dan disetujui di dalam
Rapat Umum Pemegang Saham.
d) Hak memesan efek terlebih dahulu, sebelum efek tersebut
ditawarkan kepada masyarakat.
b) Saham Preferen
a) Pembayaran dividen dalam jumlah yang tetap.

b) Hak klaim lebih dahulu dibanding saham biasa, jika perusahaan
dilikuidasi.
c) Dapat dikonversikan menjadi saham biasa.
2.1.3. Manfaat Investasi Saham
a) Dividen
Dividen adalah bagian keuntungan perusahaan yang dibagikan
kepada pemegang saham. Jumlah dividen yang akan dibagikan
diusulkan oleh Dewan Direksi dan disetujui di dalam Rapat Umum
Pemegang Saham. Dividen terbagi menjadi dua, yaitu:
b) Dividen Tunai
Jika emiten membagikan dividen kepada para pemegang saham
dalam bentuk sejumlah uang untuk setiap saham yang dimiliki.
c) Dividen Saham
Jika emiten membagikan dividen kepada para pemegang saham
dalam bentuk saham baru perusahaan tersebut, yang pada akhirnya
akan meningkatkan jumlah saham yang dimiliki pemegang saham.
d) Capital Gain
Investor dapat menikmati capital gain, jika harga jual melebihi
harga beli saham tersebut.
2.1.4. Risiko Investasi Saham
Berikut ini adalah risiko investasi pada saham:
a) Tidak ada pembagian dividen

Jika emiten tidak dapat membukukan laba pada tahun berjalan
atau Rapat Umum Pemegang Saham memutuskan untuk tidak
membagikan dividen kepada pemegang saham karena laba yang
diperoleh akan digunakan untuk ekspansi perusahaan.
b) Capital Loss
Investor akan mengalami capital loss, jika harga beli saham
besar dari harga jual.
c) Risiko Likuidasi
Jika emiten bangkrut atau dilikuidasi, para pemegang saham
memiliki hak klaim terakhir terhadap aktiva perusahaan, setelah seluruh
kewajiban emiten dibayar.
d) Saham delisting dari Bursa
Karena beberpa alasan tertentu, saham dapat dihapus
pencatatannya (delisting) di Bursa, sehingga pada akhirnya saham
tersebut tidak dapat diperdagangkan.
2.2. Obligasi
2.2.1. Pengertian Obligasi
Obligasi adalah sertifikat yang berisi kontrak antara investor dan

perusahaan, yang menyatakan bahwa investor/pemegang obligasi telah
meminjam sejumlah uang kepada perusahaan. Perusahaan yang menerbitkan
obligasi mempunyai kewajiban untuk membayar bunga secara regular sesuai
dengan jangka waktu yang telah ditetapkan, serta pokok pinjaman pada saat
jatuh tempo.
2.2.2. Manfaat Investasi Obligasi
Berikut ini manfaat dari obligasi:
a) Bunga
Bunga dibayar secara regular sampai jatuh tempo dan
ditetapkan dalam presentase dari nilai nominal.
b) Capital Gain
Sebelum jatuh tempo, biasanya obligasi diperdagangkan di
Pasar Sekunder, sehingga investor mempunyai kesempatan untuk
memperoleh capital gain. Capital gain juga dapat diperoleh jika
investor membeli Obligasi dengan diskon, yaitu dengan nilai
lebih rendah dari nilai nominalnya.
c) Hak Klaim Pertama
Jika emiten bangkrut atau dilikuidasi, pemegang obligasi
sebagai kreditur memiliki Hak Klaim Pertama atas aktiva
perusahaan.
d) Jika memiliki obligasi konversi
Investor dapat mengkonversikan obligasi menjadi saham
pada harga yang telah ditetapkan, dan kemudian berhak untuk
memperoleh manfaat atas saham.
2.2.3. Risiko Investasi Obligasi
Berikut ini merupakan risiko investasi pada obligasi:
a) Gagal bayar (default)

Kegagalan dari emiten untuk melakukan pembayaran bunga
serta hutang pokok pada waktu yang telah ditetapkan, atau
kegiatan emiten untuk memenuhi ketentuan lain yang ditetapkan
dalam kontrak Obligasi.
b) Capital Loss
Obligasi yang dijual sebelum jatu tempo dengan harga yang
lebih rendah dari harga belinya.
c) Callability
Sebelum jatuh tempo, emiten mempunyai hak untuk
membeli kembali Obligasi yang telah diterbitkan.
2.2.4. Derivatif
Derivatif terdiri dari efek yang diturunkan dari instrumen efek lain yang disebut
“underlying” . Ada beberapa macam instrument derivatif di Indonesia, seperti Bukti
Right, Waran, dan Kontrak Berjangka. Derivatif merupakan instrumen yang sangat
berisiko jika tidak dipergunakan secara hati-hati.
2.2.4.1. Bukti Right
2.2.4.1. Pengertian Bukti Right
Sesuai dengan undang-undang Pasar Modal, Bukti Right

didefinisikan sebagai hak memesan efek terlebih dahulu pada harga
yang telah ditetapkan selama periode tertentu. Bukti Right
diterbitkan pada penawaran umum terbatas (Right Issue), dimana
saham baru ditawarkan pertama kali kepada pemegang saham lama.
Bukti Right juga dapat diperdagangkan di Pasar Sekunder selama
periode tertentu.
2.2.4.2. Manfaat Investasi Bukti Right
Berikut ini beberapa manfaat Bukti Right:
a) Investor memiliki hak istimewa untuk membeli saham

baru pada harga yang telah ditetapkan dengan
menukarkan Bukti Right yang dimilikinya. Hal ini
memungkinkan investor untuk memperoleh
keuntungan dengan membeli saham baru dengan harga
yang lebih murah.
b) Bukti Right dapat diperdagangkan pada Pasar
Sekunder, sehingga investor dapat menikmati Capital
Gain, ketika harga jual dari Bukti Right tersebut lebih
besar dari harga belinya.
2.2.4.3. Risiko Investasi Bukti Right
Berikut ini merupakan risiko dari memiliki Bukti Right:
a) Jika harga saham pada periode pelaksanaan jatuh dan

menjadi lebih rendah dari harga pelaksanaan, maka
investor tidak akan mengkonversikan Bukti Right
tersebut, sementara itu investor akan mengalami
kerugian atas harga beli Right.
b) Bukti Right dapat diperdagangkan pada pasar
sekunder, sehingga investor dapat mengalami kerugian
(Capital Loss), ketika harga jual dari Bukti Right
tersebut lebih rendah dari harga belinya.
2.2.4.4. Waran
2.2.4.4.1. Pengertian Waran
Waran biasanya melekat sebagai daya tarik (sweetener)

pada penawaran umum saham ataupun obligasi. Biasanya harga
pelaksanaan lebih rendah dari pada harga pasar saham. Setelah
saham ataupun obligasi tersebut tercatat di bursa, waran dapat
diperdagangkan secara terpisah.
2.2.4.4.2. Manfaat Investasi Waran
Berikut ini merupakan manfaat dari memiliki Waran:
a) Pemilik waran memiliki hak untuk membeli saham

baru perusahaan dengan harga yang lebih rendah dari
harga saham tersebut di Pasar Sekunder dengan cara
menukarkan waran yang dimilikinya ketika harga
saham perusahaan tersebut melebihi harga
pelaksanaan.
b) Apabila waran diperdagangkan di Bursa, maka pemilik
waran mempunyai kesempatan untuk memperoleh
keuntungan (capital gain) yaitu apabila harga jual
waran tersebut lebih besar dari harga beli.
2.3. Kerangka Pikir
Latar Belakang
Evaluasi classification
dengan menggunakan
metode classification
Studi literatur dan
lain-lain
Visualisasi grafik
Identifikasi Masalah
Penerapan Data
Identifikasi Mining pada Targeted
kebutuhan informasi Marketing
Gambar 2.3 Kerangka Pikir Penelitian

3. Deskripsi WEKA & Rapidminer
Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan
pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho.
Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan
generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak
pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada
faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi
dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin
keakuratan formulasi yang diharapkan.
RapidMiner adalah salah satu software untuk pengolahan data mining. Pekerjaan yang
dilakukan oleh RapidMiner text mining adalah berkisar dengan analisis teks, mengekstrak pola-
pola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan
buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi
bermutu tertinggi dari teks yang diolah.
RapidMiner menyediakan prosedur data mining dan machine learning, di dalamnya
termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling
dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan
dengan XML, dan dibuat dengan GUI. Penyajiannya dituliskan dalam bahasa pemrograman
Java.
Untuk mengetahui lebih banyak tentang penggunaanya, saya telah menuliskan sebuah
artikel berjudul Analisis Kumpulan Dokumen dengan RapidMiner.
Selain itu, di Youtube ada banyak sekali video tutorial yang bisa anda pelajari sendiri,
berikut ini adalah beberapa contoh video tutorial RapidMiner yang bisa anda lihat dan pelajari.
-- http://www.softovator.com/eksplorasi-data-mining-menggunakan-rapidminer/
3.1 Tahap Instalasi WEKA
2 3 4
5 6 7
8
Tahap Instalasi Rapidminer
https://my.rapidminer.com/nexus/account/index.html#downloads
3.2. Bagaimana Menginput Data & RUN DATA
- WEKA
Pilih “explorer”, kemudian akan muncul layar WEKA Explorer
2. Buka file csv

menggunakan notepad,
dan tambahkan
command seperti
diatas
3. Simpan file tersebut

ke ext “namafile.arff”
1. Simpan file ke
format CSV file,
3.3. Bagaimana Run Data
- WEKA
Open file
Open file format .arff

- Rapidminer
4. Kesimpulan
WEKA lebih dapat memberikan detail daripada rapidminer dalam hal define attribute, item dan
visualize detail lainnya

MID-IS-Data Mining - Sapta-Nofry-Celvin-Zumi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

MID-IS-Data Mining - Sapta-Nofry-Celvin-Zumi

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

1.1. Metode-Metode Data Mining

1.1.1. Mining Frequent Patterns, Association, Correlations

Frequent pattern adalah pola yang sering muncul dalam kumpulan

Menurut Han, Jiawei , classification adalah satu bentuk analisis data

1.1.2.1. Decision Tree

Decision tree adalah salah satu metode classification yang

1.1.2.2. Naive Bayes

Naïve Bayes Classifier merupakan sebuah metoda klasifikasi

Menurut Olson Delen (2008) menjelaskan Naïve Bayes unt

Naive Bayes Classifier bekerja sangat baik dibanding dengan

Tahapan proses Naive Bayes

1. Menghitung jumlah kelas / label

2. Menghitung Jumlah Kasus Per Kelas

3. Kalikan Semua Variable Kelas

4. Bandingkan Hasil Per Kelas

Clustering adalah proses pengelompokan kumpulan data menjadi

1.1.3.1. Konsep Dasar Clustering

Proses clustering akan menghasilkan cluster yang baik

b) Tingkat kesamaan yang rendah antar kelas.

c) Variabel nominal, ordinal, dan rasio.

d) Variabel dengan tipe lainnya.

Meotde clustering juga harus dapat mengukur

N = Jumlah record data

k = Bobot field yang diberikan user

1.1.3.2. Persyaratan untuk Clustering

Syarat untuk melakukan analisa clustering:

Pengguna tentu saja menginginkan hasil clustering

1.1.3.3. Tipe Clustering

Berikut ini merupakan tipe clustering yang umum

Metode clustering yang dibahas sejauh ini adalah

1.1.3.4. Penggunaan Metode Clustering

Clustering banyak digunakan pada berbagai bidang

Contoh aplikasi data mining yang menggunakan teknik

2.1.1. Pengertian Saham

Saham adalah sertifikat yang menunjukkan bukti kepemilikan suatu

2.1.2. Jenis Saham

a) Pembayaran dividen dalam jumlah yang tetap.

2.1.4. Risiko Investasi Saham

Berikut ini adalah risiko investasi pada saham:

a) Tidak ada pembagian dividen

2.2.1. Pengertian Obligasi

Obligasi adalah sertifikat yang berisi kontrak antara investor dan

2.2.2. Manfaat Investasi Obligasi

Berikut ini manfaat dari obligasi:

2.2.3. Risiko Investasi Obligasi

Berikut ini merupakan risiko investasi pada obligasi:

a) Gagal bayar (default)

2.2.4.1. Bukti Right

2.2.4.1. Pengertian Bukti Right

Sesuai dengan undang-undang Pasar Modal, Bukti Right

2.2.4.2. Manfaat Investasi Bukti Right

Berikut ini beberapa manfaat Bukti Right:

a) Investor memiliki hak istimewa untuk membeli saham

2.2.4.3. Risiko Investasi Bukti Right

Berikut ini merupakan risiko dari memiliki Bukti Right:

a) Jika harga saham pada periode pelaksanaan jatuh dan

2.2.4.4.1. Pengertian Waran

Waran biasanya melekat sebagai daya tarik (sweetener)

2.2.4.4.2. Manfaat Investasi Waran

Berikut ini merupakan manfaat dari memiliki Waran:

a) Pemilik waran memiliki hak untuk membeli saham

Gambar 2.3 Kerangka Pikir Penelitian