Anda di halaman 1dari 24

MAKALAH

DATA MINING

DOSEN PEMBIMBING
Karnadi, S.Kom.,M.Kom.

DISUSUN OLEH :
Lifya Zanuba Arifah Masito (162019061)

UNIVERSITAS MUHAMMADIYAH PALEMBANG

FAKULTAS TEKNIK

PRODI TEKNOLOGI INFORMASI

TAHUN AJARAN 2019/2020


Kata Pengantar

Dengan mengucapkan puji syukur Alhamdulillah kepada Allah SWT, yang


telah melimpahkan segala rahmat dan hidayah-Nya, sehingga saya dapat
mengerjakan makalah Data Mining ini dengan baik dan lancar. Makalah ini
disusun guna memenuhi kriteria penilaian pada Mata Kuliah Data Mining pada
program studi Teknik Informasi pada Universitas Muhammadiyah Palembang
selain itu dari makalah ini kita juga dapat menambah pengetahuan dan wawasan
sesuai dengan bidang studi yang telah saya tekuni.
Dalam kesempatan ini, kami ingin mengucapkan terima kasih kepada
semua pihak yang telah berkenan membantu pada tahap penyusunan hingga
selesainya makalah ini. Harapan kami semoga makalah yang telah tersusun ini
dapat bermanfaat bagi para pembaca, menambah wawasan serta pengalaman,
sehingga nantinya saya dapat memperbaiki bentuk ataupun isi makalah ini menjadi
lebih baik lagi.
Saya juga meminta maaf yang sebesar-besarnya apabila ada kekurangan,
kesalahan bahkan kata-kata yang tidak berkenan di hati dan disisi lain saya sangat
mengharapkan ada masukan baik kritik maupun saran dari saudara. Sehingga
penyusun dapat memperbaiki apa yang jadi kekurangan kami karena tidak ada
manusia yang sempurna. Akhir kata saya mengharapkan makalah ini banyak
manfaatnya bagi saya sendiri khususnya maupun semua pihak pada umumnya.

Palembang, 13 Juli 2021

Penulis

1
DAFTAR ISI
Halaman judul..............................................................................................................

Kata Pengantar ........................................................................................................... 1

Daftar isi .................................................................................................................... 2

BAB I CORRELATION
1.1 Konteks dan Perspektif .................................................................................. 3
1.2 Rumusan Masalah.......................................................................................... 3
1.3 Tujuan ............................................................................................................ 3
1.4 Pembahasan Korelasi (Correlation) ............................................................... 3
1.5 Penyelesaian Masalah .................................................................................... 7

BAB II ASSOCIATION RULES


2.1 Konteks dan Perspektif .................................................................................. 8
2.2. Rumusan Masalah.......................................................................................... 8
2.3. Tujuan ............................................................................................................ 8
2.4. Pembahasan Aturan Asosiasi (Assosiation Rules) ........................................ 9
2.5. Penyelesaian Masalah .................................................................................. 10

BAB III K-MEANS CLUSTERING


3.1. Konteks dan Perspektif ................................................................................ 13
3.2. Rumusan Masalah........................................................................................ 13
3.3. Tujuan .......................................................................................................... 13
3.4. Pembahasan Pengklasteran k rata-rata (K-Means Clustering) .................... 14
3.5. Penyelesaian Masalah .................................................................................. 17

BAB IV DISCRIMINANT ANALYSIS


4.1. Konteks dan Perspektif ................................................................................ 18
4.2. Rumusan Masalah........................................................................................ 18
4.3. Tujuan .......................................................................................................... 18
4.4. Pembahasan Pengklasteran k rata-rata (K-Means Clustering) .................... 19
4.5. Penyelesaian Masalah .................................................................................. 20

BAB V PENUTUP
5.1 Kesimpulan .................................................................................................. 23
5.2. Saran............................................................................................................. 23

2
BAB I
CORRELATION

1.1 Konteks dan Perspektif


Sarah adalah manajer penjualan regional untuk pemasok nasional bahan
bakar fosil untuk pemanas rumah. Volatilitas harga pasar untuk minyak
pemanas baru-baru ini, ditambah dengan variabilitas yang luas dalam setiap
pesanan untuk minyak pemanas rumah, membuat Sarah khawatir. Dia merasa
perlu memahami jenis perilaku dan faktor lain yang dapat mempengaruhi
permintaan minyak pemanas di pasar domestik. Faktor-faktor apa yang
terkait dengan penggunaan minyak pemanas, dan bagaimana cara
menggunakan pengetahuan tentang faktor-faktor tersebut untuk mengelola
inventarisnya dengan lebih baik, dan mengantisipasi permintaan? Sarah
percaya bahwa penambangan data dapat membantunya mulai memahami
pemahaman tentang faktor-faktor dan interaksi ini.

1.2 Rumusan Masalah


Setelah membaca dan latihan dalam bab ini, Anda harus dapat:
1. Jelaskan apa korelasinya, dan apa yang tidak.
2. Format Kenali Yang Data untuk review diperlukan hearts Rangka
untuk review melakukan analisis Korelasi.
3. Mengembangkan Model Hubungan di RapidMiner.
4. Menafsirkan koefisien hearts matriks Korelasi Dan menjelaskan
signifikansi mereka, jika ada.

1.3 Tujuan
Tujuan Sarah adalah untuk lebih memahami bagaimana perusahaannya
dapat berhasil di pasar minyak pemanas rumah. Dia menyadari bahwa ada
banyak faktor yang memengaruhi konsumsi minyak pemanas, dan tidak
percaya bahwa hubungan baik antara beberapa faktor tersebut, dia akan dapat
menyatukan dan merespons permintaan minyak pemanas dengan lebih. Dia
telah memilih korelasi sebagai cara untuk memodelkan hubungan antara
faktor-faktor yang ingin dia selidiki. Korelasi adalah ukuran statistik seberapa
kuat hubungan antara atribut dalam kumpulan data.

1.4 Pembahasan Korelasi (Correlation)


Korelasi adalah alat anilisis statistik yang relatif sederhana, sehingga
hanya ada sedikit parameter untuk mengendalikan. Bab ini telah
memperkenalkan konsep korelasi sebagai model data mining. Ini dipilih
sebagai model pertama untuk buku ini karena relatif sederhana untuk
dibangun, dijalankan, dan diinterpretasikan, sehingga menjadi titik awal yang

3
mudah untuk membangunnya. Model masa depan akan menjadi lebih
kompleks, tetapi terus mengembangkan keterampilan Anda di RapidMiner
dan membiasakan diri dengan alat akan membuat model yang lebih kompleks
lebih mudah untuk Anda capai saat kita bergerak maju.
Data mining memiliki dua sisi yang saling berhubungan: Klasifikasi, dan
Prediksi. Korelasi telah terbukti terutama di sisi Klasifikasi. Kami tidak
menyimpulkan sebab-akibatnya menggunakan metrik korelasi, kami juga
tidak menggunakan koefisien korelasi untuk memprediksi nilai satu atribut
berdasarkan nilai atribut lainnya. Namun kami dapat dengan cepat
menemukan tren umum dalam kumpulan data menggunakan korelasi, dan
kami dapat mengantisipasi seberapa kuat pergerakan yang diamati dalam satu
atribut akan terjadi bersamaan dengan pergerakan di atribut lainnya.
Korelasi dapat menjadi cara cepat dan mudah untuk melihat bagaimana
elemen-elemen dari suatu masalah dapat berinteraksi satu sama lain. Setiap
kali Anda menemukan diri Anda bertanya bagaimana faktor-faktor tertentu
dalam masalah yang Anda coba berinteraksi satu sama lain,
mempertimbangkan untuk membangun matriks korelasi untuk mencari
tahu. Misalnya, apakah kepuasan pelanggan berubah berdasarkan waktu
dalam setahun? Apakah curah hujan mengubah harga tanaman? Apakah
pendapatan rumah tangga mempengaruhi restoran mana yang dikunjungi
seseorang? Penjelasan untuk setiap ini mungkin 'ya', tetapi korelasi tidak
hanya dapat membantu kita mengetahui apakah itu benar, tetapi juga dapat
membantu kita mempelajari seberapa kuat interaksi itu kapan, dan jika,
interaksi itu terjadi.
Langkah-langkah untuk mengembangkan model korelasi, menghasilkan
matriks koefisien, dan menganalisis hasilnya.
1. Pilih organisasi olahraga profesional yang Anda sukai, atau yang
Anda ketahui. Temukan situs web organisasi itu dan cari statistik,
fakta, dan angka tentang atlet di organisasi itu.
2. Buka OpenOffice Calc, dan mulai dari Sel A di Baris 1 spreadsheet,
tentukan beberapa atribut (setidaknya tiga atau empat) untuk
menyimpan data tentang setiap atlet. Beberapa atribut yang mungkin
Anda pertimbangkan adalah gaji_tahunan, poin_per_permainan,
tahun_as_pro, tinggi badan, berat badan, usia, dll. Daftar ini mungkin
tidak terbatas, akan bervariasi berdasarkan jenis olahraga yang Anda
pilih, dan akan mengandalkan data yang tersedia untuk Anda di situs
web yang Anda pilih. Pengukuran gaji dan kinerja atlet dalam
kompetisi yang mungkin yang paling menarik. Anda dapat
memasukkan nama atlet, namun perlu diingat bahwa korelasi hanya
dapat dilakukan pada data numerik, sehingga atribut nama perlu

4
dikurangi dari kumpulan data Anda sebelum membuat matriks
korelasi. (Ingat operator Pilih Atribut!)
3. Cari statistik untuk setiap atribut yang Anda pilih dan masukkan
sebagai observasi ke dalam spreadsheet Anda. Cinta untuk
menemukan sebanyak yang Anda bisa— setidaknya tiga puluh adalah
aturan yang baik jempol untuk mencapai setidaknya setidaknya
tingkat validitas statistik. Lebih banyak lebih baik.
4. Setelah Anda membuat kumpulan data, gunakan menu untuk
menyimpannya sebagai file CSV. Klik File, lalu Simpan
Sebagai. Masukkan nama file, dan ubah 'Save as type:' menjadi Text
CSV (.csv). Pastikan untuk menyimpan file di folder data
penambangan data Anda.
5. Buka RapidMiner dan impor kumpulan data Anda ke dalam repositori
RapidMiner Anda. Beri nama Chapter4Exercise, atau sesuatu yang
deskriptif sehingga Anda akan mengingat data apa yang terkandung
dalam kumpulan data saat Anda melihat di repositori Anda.
6. Tambahkan kumpulan data ke proses baru di
RapidMiner. Pastikan Keluar portterhubung Ke res portdan key:
Model Andari. Simpan proses Anda dengan nama deskriptif jika Anda
mau. Periksa data Anda dalam perspektif hasil dan pastikan tidak ada
data yang hilang, tidak konsisten, atau bermasalah lainnya yang
mungkin perlu ditangani sebagai bagian dari fase Persiapan Data
Anda. Kembali ke perspektif desain dan tangani tugas persiapan data
apa pun yang mungkin diperlukan.
7. Tambahkan operator Matriks Korelasi ke aliran Anda dan pastikan
bahwa mat portterhubung ke res port. Jalankan model Anda
lagi. Interpretasikan koefisien korelasi Anda seperti yang ditampilkan
pada matriks tab.
8. Dokumentasikan temuan Anda. Korelasi apa yang ada? mungkin kuat
mereka? Apakah mereka mengejutkan Anda dan jika demikian,
mengapa? Apa atribut lain yang ingin Anda tambahkan? Apakah ada
yang akan Anda hilangkan sekarang setelah Anda menambang data
Anda?
9. Saat Masih dalam Perspektif hasil temuan, tab click PADA
ExampleSet (Yang ADA DENGAN asumsi Andari
membiarkan exa portterhubung Ke res pelabuhan Saat Andari berada
dalam Perspektif desain). Klik pada tombol radio Plot View. Periksa
korelasi yang Anda temukan dalam model Anda secara visual dengan
membuat plot sebar data Anda. Pilih satu atribut untuk Sumbu x Anda
dan atribut yang berkorelasi untuk Sumbu y Anda. Bereksperimenlah
dengan Jitter bilah geser. Apa yang sedang dilakukan? (Petunjuk:

5
Coba cari di Internet dengan istilah 'statistik jittering'.) Untuk
pengalaman tambahan visual, coba plot Scatter 3D atau Scatter 3D
Color. Perhatikan Gambar 1.0 dan 1.1 sebagai contoh. Perhatikan
bahwa dengan plot 3D di RapidMiner, Anda dapat mengeklik dan
menahan untuk memutar plot agar dapat melihat interaksi antar data
dengan lebih baik.

Gambar 1.0. Sebuah scatterplot dua dimensi dengan


dimensi ketiga berwarna dan sedikit jitter.

Gambar 1.1. Scatterplot tiga dimensi dengan dimensi keempat berwarna.

6
1.5. Penyelesaian Masalah
Untuk pertanyaannya, Sarah telah meminta bantuan kami dalam
membuat matriks korelasi enam atribut. bekerja sama, menggunakan sumber
daya data majikan Sarah yang terutama diambil dari penagihan database
perusahaan, kami membuat satu set data yang terdiri dari atribut berikut:
1. Isolasi : Ini adalah peringkat kepadatan, Mulai dari 1-10,
menunjukkan ketebalan isolasi masing-masing rumah . Rumah
dengan kepadatan kepadatan satu memiliki isolasi yang buruk,
sedangkan rumah dengan kepadatan sepuluh memiliki isolasi yang
sangat baik.
2. Suhu : ini adalah rata-rata suhu di luar ruangan ambien di rumah
masing-masing untuk yang paling tahun terakhir, ukuran dalam
derajat Fahrenheit.
3. Heating_Oil : Ini adalah jumlah unit minyak pemanas yang dibeli
oleh pemilik masing-masing rumah dalam setahun terkahir.
4. Num_Occupants : Ini adalah Jangka Waktu Total Penghuni Yang
Tinggal di rumah masing-masing.
5. Avg_Age: ini adalah Usia rata-rata para Penghuni.
6. Home_Size: ini adalah peringkat, pada skala 1-8, ukuran rumah
Beroperasi keseluruhan. Semakin tinggi angkanya, semakin besar
rumahnya.

7
BAB II
ASSOCIATION RULES

2.1. Konteks dan Perspektif


Roger adalah manajer kota untuk kota berukuran sedang, tetapi terus
berkembang. Kota memiliki sumber daya yang terbatas, dan seperti
kebanyakan kotamadya, ada lebih banyak kebutuhan daripada sumber daya. Ia
merasa warga di masyarakat cukup aktif di berbagai organisasi masyarakat,
dan tidak percaya bahwa ia mungkin bisa mengajak sejumlah kelompok untuk
bekerja sama memenuhi beberapa kebutuhan di masyarakat. Dia tahu ada
gereja, klub sosial, penggemar hobi, dan jenis kelompok lain di
komunitas. Apa yang tidak dia ketahui adalah apakah ada hubungan antara
kelompok yang memungkinkan kolaborasi antara dua atau lebih kelompok
yang dapat bekerja sama dalam proyek di sekitar kota. Dia memutuskan bahwa
sebelum dia dapat memulai meminta organisasi masyarakat untuk mulai
bekerja sama dan menerima tanggung jawab untuk proyek, dia perlu mencari
tahu apakah ada asosiasi yang ada antara berbagai jenis kelompok di daerah
tersebut.

2.2. Rumusan Masalah


Setelah menyelesaikan membaca dan latihan dalam bab ini, anda harus
dapat :
1. Jelaskan apa aturan asosiasi, bagaimana mereka menemukan dan
memanfaatkan dalam menggunakannya.
2. Mengenali format yang diperlukan untuk data untuk membuat aturan
asosiasi.
3. Mengembangkan model aturan asosiasi dalam RapidMiner.
4. Menafsirkan aturan yang dihasilkan oleh model aturan asosiasi dan
menjelaskan signifikansinya, jika ada.

2.3. Tujuan
Tujuan Roger adalah untuk Mengidentifikasi dan kemudian
memanfaatkan koneksi yang ada di komunitas lokalnya untuk menyelesaikan
pekerjaan yang akan bermanfaat bagi seluruh komunitas. Dia mengetahui
banyak dari organisasi di kota, memiliki informasi kontak untuk mereka dan
bahkan terlibat dalam beberapa dari mereka sendiri. Keluarganya terlibat dalam
kelompok organisasi yang lebih luas lagi, sehingga dia memahami tingkat
pribadi Keragaman kelompok dan kepentingan mereka. Karena orang-orang
yang dia dan keluarganya terlibat dalam kelompok lain di sekitar kota, dia
sadar dalam pengertian yang lebih umum tentang berbagai jenis, minat, tujuan,
dan kontribusi potensial mereka. Dia tahu bahwa untuk memulai, perhatian

8
utamanya adalah menemukan jenis organisasi yang menghubungkan satu sama
lain. setiap individu untuk bekerja dengan di setiap gereja, klub sosial atau
organisasi politik akan sangat banyak terlebih dahulu tanpa terlebih dahulu
mengkategorikan organisasi ke dalam kelompok dan mencari asosiasi antara
kelompok. Hanya setelah dia memeriksa koneksi yang ada, dia akan merasa
siap untuk mulai menghubungi orang dan meminta mereka untuk
menggunakan kontak lintas organisasi dan mengambil kepemilikan
proyek. Kebutuhan pertama adalah menemukan di mana asosiasi semacam itu
ada.

3.4. Pembahasan Aturan Asosiasi (Association Rule)


Aturan asosiasi adalah metode pembelajaran mesin berbasis aturan untuk
menemukan hubungan yang menarik antara variabel dalam database besar. Ini
dimaksudkan untuk mengidentifikasi aturan kuat yang ditemukan dalam
database menggunakan beberapa ukuran yang baik. Aturan asosiasi atau
association rule juga merupakan teknik data mining untuk menemukan aturan
assosiatif antara suatu kombinasi item. Association rule berguna untuk
menemukan hubungan penting antar item dalam setiap transaksi, hubungan
tersebut dapat menandakan kuat tidaknya suatu aturan dalam asosiasi.
Tujuan association rule adalah untuk menemukan keteraturan dalam data.
Association rule dapat digunakan untuk mengidentifikasi item-item produk
yang mungkin dibeli secara bersamaan dengan produk lain, atau dilihat secara
bersamaan saat mencari informasi mengenai produk tertentu. Dalam pencarian
association rule, diperlukan suatu variabel ukuran kepercayaan (interestingness
measure) yang dapat ditentukan oleh user, untuk mengatur batasan sejauh
mana dan sebanyak apa hasil output yang diinginkan oleh user.
Dalam menjelaskan persentase dukungan dan kepercayaan dalam bab ini,
contoh klasik dari analisis keranjang belanja digunakan. Untuk latihan ini,
Anda akan melakukan analisis aturan asosiasi keranjang belanja. Selesaikan
langkah-langkah berikut:
1. Menggunakan Internet, temukan kumpulan data contoh keranjang
belanja. Istilah pencarian seperti 'kumpulan data aturan asosiasi' atau
'kumpulan data keranjang belanja' akan menghasilkan sejumlah
contoh yang dapat diunduh. Dengan sedikit usaha, Anda akan dapat
menemukan contoh yang cocok.
2. Jika perlu, konversikan kumpulan data Anda ke format CSV dan
impor ke dalam repositori RapidMiner Anda. Beri nama deskriptif
dan seret ke jendela proses baru.
3. Jika perlu, lakukan aktivitas Pemahaman Data dan Persiapan Data
Anda pada kumpulan data Anda. Pastikan semua variabel Anda

9
memiliki data yang konsisten dan tipe datanya sesuai untuk operator
FP-Growth.
4. Buat aturan asosiasi untuk kumpulan data Anda. Ubah kepercayaan
diri dan nilai dukungan Anda untuk mengidentifikasi level paling
ideal sehingga Anda akan memiliki beberapa aturan menarik dengan
keyakinan dan dukungan yang masuk akal. Lihat ukuran kekuatan
aturan lainnya seperti LaPlace atau Conviction.
5. Dokumentasikan temuan Anda. Aturan apa yang Anda
temukan? Atribut apa yang paling kuat terkait satu sama
lain. Apakah ada produk yang sering dihubungkan yang
mengejutkan Anda? Mengapa menurut Anda ini mungkin? Berapa
banyak Anda harus menguji nilai dukungan dan kepercayaan yang
berbeda sebelum Anda menemukan beberapa aturan
asosiasi? Apakah ada aturan asosiasi Anda yang cukup baik sehingga
Anda akan mendasarkan keputusan padanya? Mengapa atau
mengapa tidak?
6. Buat model aturan asosiasi baru menggunakan kumpulan data yang
sama, tetapi kali ini, gunakan operator W FPGrowth. (Petunjuk
untuk menggunakan operator W-FPGrowth:
 Operator ini membuat aturannya sendiri tanpa bantuan dari
operator lain dan
 Parameter dukungan dan kepercayaan operator ini masing-
masing diberi label U dan C.
7. Algoritma Apriori sering digunakan dalam penambangan data untuk
asosiasi. Cari di pohon Operator RapidMiner untuk operator Apriori
dan tambahkan mereka ke kumpulan data Anda dalam proses
baru. Gunakan tab Bantuan di sudut kanan bawah RapidMiner untuk
mempelajari tentang parameter dan fungsi operator ini (pastikan
Anda telah memilih operator di jendela proses utama untuk melihat
konten bantuannya).

2.4. Penyelesaian Masalah


Untuk menjawab pertanyaannya, Roger telah meminta bantuan kami
dalam membuat aturan asosiasi model data mining. Aturan asosiasi adalah
metodologi penambangan data yang berusaha menemukan koneksi yang sering
antara atribut dalam kumpulan data. Aturan Asosiasi Sangat Umum Saat
Melakukan Analisis Keranjang Belanja. Pemasar dan vendor di banyak sektor
menggunakan pendekatan penambangan data ini untuk mencoba menemukan
produk mana yang paling sering dibeli bersama. Jika Anda pernah membeli
barang di situs ritel e-Commerce seperti Amazon.com, Anda mungkin pernah
melihat hasil penambangan data aturan asosiasi. Ini paling sering ditemukan di

10
bagian rekomendasi dari situs web tersebut. Anda mungkin memperhatikan
bahwa saat mencari ponsel cerdas, rekomendasi untuk pelindung layar, kotak
pelindung, dan aksesoris lainnya seperti kabel pengisi daya atau kabel data
sering direkomendasikan kepada Anda. Barang yang diidentifikasi
diidentifikasi dengan menambang barang yang dibeli pelanggan sebelumnya
bersama dengan barang yang Anda cari. Dengan kata lain, item tersebut
ditemukan terkait dengan item yang Anda cari, dan asosiasi tersebut sangat
sering terjadi dalam kumpulan data situs web, sehingga asosiasi tersebut dapat
dianggap sebagai aturan . Maka lahirlah nama pendekatan data mining ini:
“aturan asosiasi”. Sementara aturan asosiasi paling umum dalam analisis
keranjang belanja, teknik pemodelan ini dapat diterapkan pada berbagai
masalah. Kami akan membantu Roger dengan membuat model aturan asosiasi
untuk menemukan hubungan antar jenis komunitas organisasi bekerja sama,
kami menggunakan pengetahuan Roger tentang komunitas lokal untuk
membuat survei singkat yang akan kami kelola secara online melalui situs
web. Untuk memastikan ukuran integritas data dan mencoba mengamankan
dari kemungkinan, survei web kami dilindungi kata sandi. Setiap organisasi
yang diundang untuk berpartisipasi dalam survei yang diberikan kata sandi
unik. Pemimpin organisasi tersebut diminta untuk membagikan kata sandi
keanggotaannya dan untuk mendorong partisipasi dalam survei. Anggota
komunitas diberi waktu satu bulan untuk merespons, dan setiap kali seorang
individu masuk untuk menyelesaikan survei, kata sandi yang digunakan dicatat
sehingga kami dapat menentukan berapa banyak orang dari setiap organisasi
yang merespons.

Setelah ujung bulan, kami memiliki kumpulan data yang terdiri dari atribut
berikut:
1. ELAPSED_TIME : Ini adalah setiap jangka waktu responden
menghabiskan menyelesaikan pengumpulan kami. Hal ini dinyatakan
dalam menit desimal (misalnya 4,5 dalam atribut ini akan menjadi
empat menit, tiga puluh detik).
2. Time_in_Community : pertanyaan ini pada pengumpulan meminta
orang jika mereka telah tinggal di daerah untuk review 0-2 Tahun, 3-9
Tahun, atau 10 + Tahun; dan dicatat dalam kumpulan data masing-
masing sebagai Pendek, Sedang, atau Panjang.
3. Kelamin: Survei responden gender.
4. Kerja: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini memiliki Pekerjaan Yang Dibayar.
5. Umur: Usia Survei responden di Tahun.
6. Keluarga: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari organisasi serta

11
'masyarakat berorientasi keluarga, seperti Big Brothers / Big Sisters,
Anak-anak Rekreasi atau Olahraga liga, Kelompok silsilah, dll
7. Hobi: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari organisasi serta
'masyarakat hobi berorientasi, seperti amatir radio, Rekreasi Luar
ruangan, bermotor sepeda atau naik sepeda, dll
8. Social_Club: A ya / tidak kolom yang menunjukkan apakah atau
tidakresponden sebelumnya Saat ini anggota Dari Organisasi sosial
'masyarakat, seperti Rotary International, singa Klub, dll
9. Politik: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota dari organisasi politik dengan
pertemuan rutin di masyarakat, seperti partai politik, kelompok aksi
akar rumput, upaya lobi, dll
10. Profesional: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari professio Sebuah
organisasi serta nal denganPertemuan bab Lokal, seperti Sebuah bab
Dari hukum atau 'masyarakat Medis, Kelompok pemilik Bisnis Kecil,
dll
11. Agama: Sebuah ya / tidak kolom yang menunjukkan apakah atau
tidak responden sebelumnya Saat ini anggota Dari Sebuah Gereja di
'masyarakat.
12. Support_Group: A ya / tidak kolom yang menunjukkan apakah atau
tidak responden sebelumnya Saat ini anggota Dari organisasi serta
Dukungan society Yang berorientasi, seperti Alcoholics Anonymous,
Kelompok manajemen kemarahan, dll

12
BAB III
K-MEANS CLUSTERING

3.1. Konteks dan Perspektif


Sonia adalah direktur program untuk penyedia asuransi kesehatan
utama. Baru-baru ini dia telah membaca di jurnal medis dan artikel lainnya,
dan menemukan penekanan kuat pada pengaruh berat badan, jenis kelamin
dan kolesterol pada perkembangan penyakit jantung koroner. Penelitian yang
dia baca menegaskan dari waktu ke waktu bahwa ada hubungan antara ketiga
variabel ini, dan meskipun hanya sedikit yang dapat dilakukan tentang jenis
kelamin seseorang, tentu ada pilihan hidup yang dapat dibuat untuk
mengubah kolesterol dan berat badan seseorang. Dia mulai melakukan
brainstorming ide untuk perusahaannya untuk menawarkan program
manajemen berat badan dan kolesterol kepada individu yang menerima
asuransi kesehatan melalui majikannya. Saat dia mempertimbangkan di mana
usahanya mungkin paling efektif, dia mendapati dirinya bertanya-tanya
apakah ada kelompok alami individu yang paling berisiko untuk berat badan
tinggi dan kolesterol tinggi, dan jika ada kelompok seperti itu, di mana garis
pemisah alami antara kelompok terjadi.

3.2. Rumusan Masalah


Setelah menyelesaikan membaca dan latihan dalam bab ini, Anda harus
dapat :
1. Jelaskan apa yang k-means cluster, bagaimana mereka ditemukan
dan manfaat menggunakan mereka.
2. Kenali format yang diperlukan untuk data dalam rangka
menciptakan k-means cluster.
3. Mengembangkan k-means cluster yang model data mining di
RapidMiner.
4. Menafsirkan cluster yang dihasilkan oleh model k-means dan
menjelaskan signifikansi mereka, jika ada.

3.3. Tujuan
Tujuan Sonia adalah untuk mengidentifikasi dan kemudian mencoba
menjangkau individu yang diasuransikan oleh majikannya yang berisiko
tinggi terkena penyakit jantung koroner karena berat badan dan/atau
kolesterol tinggi mereka. Dia memahami bahwa mereka yang berisiko rendah,
yaitu mereka yang memiliki berat badan rendah dan kolesterol, tidak mungkin
berpartisipasi dalam program yang akan dia tawarkan. Dia juga memahami
bahwa mungkin ada pemegang polis dengan berat badan tinggi dan kolesterol
rendah, mereka dengan berat badan tinggi dan kolesterol tinggi, dan mereka

13
dengan berat badan rendah dan kolesterol tinggi. Dia lebih lanjut mengakui
kemungkinan ada banyak orang di suatu tempat di antara keduanya. Untuk
mencapai tujuannya, dia perlu mencari di antara ribuan pemegang polis untuk
menemukan kelompok orang dengan karakteristik yang sama dan program
kerajinan dan komunikasi yang akan relevan dan menarik bagi orang-orang
dalam kelompok yang berbeda ini.

3.4. Pembahasan Pengklasteran k rata-rata (K-Means Clustering)


K-Means Clustering adalah algoritme untuk membagi n pengamatan
menjadi k kelompok sedemikian hingga tiap pengamatan termasuk ke dalam
kelompok dengan rata-rata terdekat. Hasilnya adalah pembagian pengamatan
ke dalam sel-sel voronoi. k-Means clustering sangat fleksibel dalam
kemampuannya untuk mengelompokkan observasi secara bersama-
sama. Operator k-Means di RapidMiner memungkinkan penambang data
untuk mengatur jumlah cluster yang ingin mereka hasilkan, untuk
menentukan jumlah mean sampel yang digunakan untuk menentukan cluster,
dan menggunakan sejumlah algoritme berbeda untuk mengevaluasi
mean. Meskipun cukup sederhana dalam pengaturan dan definisinya,
pengelompokan k-Means adalah metode yang ampuh untuk menemukan
kelompok pengamatan alami dalam kumpulan data.
Dan ' k ' dalam k-means clustering adalah singkatan dari beberapa grup,
atau cluster. Tujuan dari metodologi data mining ini adalah untuk melihat
nilai atribut individual setiap pengamatan dan membandingkannya dengan
rata-rata, atau dengan kata lain rata-rata, dari kelompok potensial dari
pengamatan lain untuk menemukan kelompok alami yang mirip satu sama
lain. Algoritme k-means menyelesaikan ini dengan mengambil sampel
beberapa kumpulan pengamatan dalam kumpulan data, menghitung rata-rata,
atau rata-rata, untuk setiap atribut untuk pengamatan dalam sampel itu, dan
kemudian membandingkan atribut lain dalam kumpulan data dengan rata-rata
sampel itu. Sistem melakukan ini berulang-ulang untuk 'melingkari' pada
kecocokan terbaik dan kemudian merumuskan kelompok pengamatan yang
menjadi cluster. Ketika mean yang dihitung menjadi semakin mirip, cluster
terbentuk, dan setiap observasi yang nilai atributnya paling mirip dengan
mean cluster menjadi anggota cluster tersebut. Dengan menggunakan proses
ini, model pengelompokan k-means terkadang membutuhkan waktu yang
lama untuk dijalankan, terutama jika Anda menunjukkan sejumlah besar
"maks berjalan" melalui data, atau jika Anda mencari sejumlah besar cluster
( k ).

14
Untuk membangun model cluster k-means Anda, selesaikan langkah-
langkah berikut:
1. Kembali ke tampilan desain di RapidMiner jika Anda belum
melakukannya. Di kotak pencarian operator, ketik k-means (pastikan untuk
menyertakan tanda hubung). Ada tiga operator yang melakukan kerja k-
means clustering di RapidMiner. Untuk latihan ini, kita akan memilih yang
pertama, yang secara sederhana diberi nama “k-Means”. Seret operator ini
ke aliran Anda, dan ditunjukkan pada Gambar 3.0.

Gambar 3.0. Menambahkan operator k-Means ke model kita.

2. Karena kita tidak perlu menambahkan operator lain untuk


menyiapkan data kita untuk penambangan, model kita dalam latihan
ini sangat sederhana. Kita bisa, pada titik ini, menjalankan model kita
dan mulai menginterpretasikan hasilnya. Namun ini tidak akan terlalu
menarik. Ini karena default untuk k kami , atau jumlah cluster kami,
adalah 2, seperti yang ditunjukkan oleh panah hitam di sisi kanan
Gambar 3.0. Ini berarti kami meminta RapidMiner untuk menemukan
hanya dua cluster dalam data kami. Jika kami hanya ingin
menemukan mereka yang memiliki tingkat risiko tinggi dan rendah
untuk penyakit jantung koroner, dua kelompok akan berhasil. Namun
seperti yang dibahas di bagian Pemahaman Organisasi di awal bab
ini, Sonia telah menyadari bahwa kemungkinan ada beberapa jenis
kelompok yang perlu dipertimbangkan. Memisahkan kumpulan data
menjadi dua kelompok mungkin tidak akan memberikan Sonia
tingkat detail yang dia cari. Karena Sonia merasa bahwa mungkin ada
setidaknya 4 kelompok yang berpotensi berbeda, mari kita ubah
nilai k menjadi empat, seperti yang digambarkan pada Gambar
3.1. Kita juga bisa menambah jumlah 'max run', tapi untuk sekarang,
mari kita terima default dan jalankan modelnya.

15
Gambar 3.1. Mengatur jumlah cluster yang diinginkan untuk model kami.

3. Saat model dijalankan, kami menemukan laporan awal jumlah item


yang masuk ke masing-masing dari empat cluster kami. (Perhatikan
bahwa clustered diberi nomor mulai dari 0, hasil dari RapidMiner
yang ditulis dalam bahasa pemrograman Java.) Dalam model khusus
ini, kami cluster cukup seimbang. Sementara Klaster 1, dengan hanya
118 pengamatan (Gambar 3.2), lebih kecil dari klaster lainnya, bukan
tanpa alasan.

Gambar 3.2. Distribusi pengamatan di empat cluster kami.

Kita bisa kembali ke titik ini dan menyesuaikan jumlah cluster kita,
jumlah 'max run' kita, atau bahkan bereksperimen dengan parameter lain yang
ditawarkan oleh operator k-Means. Ada pilihan lain untuk tipe pengukuran
atau algoritma divergensi. Jangan ragu untuk mencoba beberapa opsi ini jika
Anda mau. Seperti halnya dengan Aturan Asosiasi, mungkin ada beberapa

16
percobaan bolak-balik-dan kesalahan saat Anda menguji parameter yang
berbeda untuk menghasilkan keluaran model.

3.5. Penyelesaian Masalah


Menggunakan database klaim perusahaan asuransi, Sonia mengekstrak
tiga atribut untuk 547 individu yang dipilih secara acak. Tiga atribut tersebut
adalah berat badan tertanggung dalam pound seperti yang tercatat pada
pemeriksaan kesehatan terakhir orang tersebut, tingkat kolesterol terakhir
mereka ditentukan oleh pemeriksaan darah di laboratorium dokter mereka,
dan jenis kelamin mereka. Seperti tipikal di banyak kumpulan data, atribut
gender menggunakan 0 untuk menunjukkan Wanita dan 1 untuk
menunjukkan Pria. Kami akan menggunakan data sampel ini dari basis data
perusahaan Sonia untuk membangun model klaster untuk membantu Sonia
memahami bagaimana klien perusahaannya, pemegang polis asuransi
kesehatan, tampak mengelompok berdasarkan berat badan, jenis kelamin, dan
kadar kolesterol mereka. Kita harus ingat saat kita melakukan ini bahwa mean
sangat rentan terhadap pengaruh yang tidak semestinya oleh outlier ekstrim,
jadi memperhatikan data yang tidak konsisten saat menggunakan metodologi
data mining pengelompokan k-Means sangat penting.

17
BAB IV
DISCRIMINANT ANALYSIS

4.1. Konteks dan Perspektif


Gill menjalankan akademi olahraga yang dirancang untuk membantu
atlet usia sekolah menengah mencapai potensi atletik maksimal mereka. Di
sisi anak laki-laki di akademinya, ia berfokus pada empat olahraga utama:
Sepak Bola, Bola Basket, Bisbol, dan Hoki. Dia telah menemukan bahwa
sementara banyak atlet sekolah menengah menikmati berpartisipasi dalam
sejumlah olahraga di sekolah menengah, ketika mereka mulai
mempertimbangkan untuk bermain olahraga di tingkat perguruan tinggi,
mereka lebih memilih untuk berspesialisasi dalam satu olahraga. Saat dia
bekerja dengan atlet selama bertahun-tahun, Gill telah mengembangkan
kumpulan data yang luas, dan dia sekarang bertanya-tanya apakah dia dapat
menggunakan kinerja masa lalu dari beberapa klien sebelumnya untuk
memprediksi olahraga utama untuk atlet sekolah menengah yang sedang naik
daun. Pada akhirnya, dia berharap dia dapat membuat rekomendasi kepada
setiap atlet mengenai olahraga yang kemungkinan besar mereka pilih untuk
berspesialisasi. Dengan mengevaluasi kinerja setiap atlet dalam serangkaian
tes, Gill berharap kami dapat membantunya mengetahui olahraga mana yang
memiliki bakat tertinggi bagi setiap atlet.

4.2. Rumusan Masalah


Setelah menyelesaikan membaca dan latihan dalam bab ini, Anda harus
dapat :
1. Jelaskan apa analisis diskriminan adalah, bagaimana digunakan dan
manfaat menggunakan itu.
2. Kenali format yang diperlukan untuk data dalam rangka untuk
melakukan analisis diskriminan.
3. Jelaskan perbedaan dan persamaan antara k-Means clustering dan
analisis diskriminan.
4. Mengembangkan model pertambangan analisis data diskriminan di
RapidMiner menggunakan kumpulan data pelatihan.
5. Menafsirkan output Model dan menerapkannya ke kumpulan data
scoring untuk menyebarkan model.

4.3. Tujuan
Tujuan Gill adalah untuk memeriksa atlet muda dan, berdasarkan kinerja
mereka di sejumlah metrik, membantu mereka memutuskan olahraga mana
yang paling utama untuk kesuksesan khusus mereka. Gill mengakui bahwa
semua kliennya memiliki beberapa ukuran atletis, dan bahwa mereka

18
menikmati berpartisipasi dalam sejumlah olahraga. Karena masih muda,
atletis, dan adaptif, sebagian besar kliennya cukup mahir dalam sejumlah
olahraga, dan dia telah melihat selama bertahun-tahun bahwa beberapa orang
sangat berbakat secara alami sehingga mereka akan unggul dalam olahraga
apa pun yang mereka pilih untuk spesialisasi. Oleh karena itu, dia mengakui,
sebagai batasan dari latihan penggalian data ini, bahwa dia mungkin tidak
dapat menggunakan data untuk menentukan olahraga "terbaik" seorang
atlet. Namun, dia telah melihat metrik dan evaluasi bekerja di masa lalu, dan
telah melihat bahwa beberapa atlet sebelumnya benar-benar menyukai
olahraga tertentu, dan bahwa mereka berhasil saat mereka melanjutkan
spesialisasi dalam olahraga itu. Berdasarkan pengalaman industrinya, ia telah
memutuskan untuk melanjutkan eksperimen dalam menambang data untuk
bakat atletik, dan telah meminta bantuan kami.

4.4. Pembahasan Analisis Diskriminan (Discriminant Analysis)


Analisis diskriminan adalah salah satu jenis metode penelitian statistik
yang berapa kali digunakan oleh peneliti untuk membantu dalam memahami
hubungan antara variabel dependen dengan variabel independen. Metode
dalam penganalisisan diskriminan mirip dengan analisis regresi dan analisis
varians (ANOVA). Perbedaan utama antara analisis diskriminan dan dua
metode lainnya berkaitan dengan sifat variabel dependen.
Analisis diskriminan membantu kita melewati ambang batas antara
Klasifikasi dan Prediksi dalam penambangan data. Sebelum Bab 2, model dan
metodologi penambangan data kami berfokus terutama pada kategorisasi
data. Dengan Analisis Diskriminan, kita dapat mengambil proses yang
sifatnya sangat mirip dengan pengelompokan k-means, dan dengan atribut
target yang tepat dalam kumpulan data pelatihan, menghasilkan prediksi
untuk kumpulan data skor. Ini bisa menjadi tambahan yang kuat untuk model
k-means, memberi kami kemampuan untuk menerapkan cluster kami ke
kumpulan data lain yang belum diklasifikasikan.
Analisis diskriminan dapat berguna di mana klasifikasi untuk beberapa
pengamatan diketahui dan tidak diketahui untuk yang lain. Beberapa aplikasi
klasik dari analisis diskriminan adalah dalam bidang biologi dan perilaku
organisasi. Dalam biologi, misalnya, analisis diskriminan telah berhasil
diterapkan pada klasifikasi spesies tumbuhan dan hewan berdasarkan ciri-ciri
makhluk hidup tersebut. Dalam perilaku organisasi, jenis pemodelan data ini
telah digunakan untuk membantu pekerja mengidentifikasi jalur karier yang
berpotensi sukses berdasarkan ciri kepribadian, preferensi, dan bakat. Dengan
menggabungkan kinerja masa lalu yang diketahui dengan data yang tidak
diketahui tetapi terstruktur serupa, kita dapat menggunakan analisis
diskriminan untuk melatih model secara efektif yang kemudian dapat menilai

19
catatan yang tidak diketahui untuk kita, memberi kita gambaran tentang
kategori apa yang kemungkinan akan menjadi pengamatan yang tidak
diketahui.

4.5. Penyelesaian Masalah


Untuk mulai merumuskan rencana, kami duduk bersama Gill untuk
meninjau aset datanya. Setiap atlet yang telah mendaftar di akademi Gill
selama beberapa tahun terakhir telah mengikuti tes baterai, yang menguji
sejumlah sifat atletik dan pribadi. Baterai telah diberikan kepada anak laki-
laki dan perempuan yang berpartisipasi dalam sejumlah olahraga yang
berbeda, tetapi untuk studi pendahuluan ini kami telah memutuskan dengan
Gill bahwa kami akan melihat data hanya untuk anak laki-laki. Karena
akademi telah beroperasi selama beberapa waktu, Gill mendapat manfaat
untuk mengetahui mantan muridnya yang mana yang mengambil spesialisasi
dalam satu olahraga, dan olahraga apa untuk masing-masing dari
mereka. Bekerja dengan Gill, kami mengumpulkan hasil baterai untuk semua
mantan klien yang telah menjadi spesialis, Gill menambahkan olahraga yang
menjadi spesialisasi setiap orang, dan kami memiliki kumpulan data yang
terdiri dari 493 pengamatan yang berisi atribut berikut:
1. Umur : ini adalah usia di tahun (satu desimal presisi
untuk bagian tahun sejak ulang tahun terakhir klien) pada
saat itu tes baterai atletik dan ciri kepribadian
diberikan. Peserta berusia antara 13-19 tahun pada saat
mereka mengambil baterai.
2. Kekuatan : Ini adalah kekuatan peserta diukur melalui
serangkaian latihan angkat berat dan dicatat pada skala 0-
10, dengan 0 menjadi kekuatan terbatas dan 10 makhluk
kekuatan yang cukup untuk melakukan semua
pengangkatan tanpa kesulitan. Tidak ada peserta yang
mendapat skor 8, 9 atau 10, tetapi beberapa peserta
mendapat skor 0.
3. Kecepatan : Ini adalah kinerja peserta pada serangkaian tes
responsif. Peserta diberi waktu tentang seberapa cepat mereka dapat
menekan tombol ketika mereka diterangi atau melompat ketika bel
berbunyi. Waktu respons mereka ditabulasikan pada skala 0-6, dengan
6 sebagai respons yang sangat cepat dan 0 untuk sangat lambat. Peserta
mendapat skor sepanjang spektrum untuk atribut ini.
4. Cedera : Ini adalah sederhana ya (1) / tidak (0) kolom yang
menunjukkan apakah atau tidak atlet muda sudah mengalami cedera

20
atletik terkait yang cukup parah untuk memerlukan operasi atau
intervensi medis utama lainnya. Cedera umum yang diobati dengan es,
istirahat, peregangan, dll. dimasukkan sebagai 0. Cedera yang
membutuhkan waktu lebih dari tiga minggu untuk sembuh, yang
memerlukan terapi fisik atau pembedahan ditandai sebagai 1.
5. Visi : Atlet tidak hanya diuji pada biasa visi 20/20 skala menggunakan
grafik mata, tetapi juga diuji menggunakan teknologi eye-tracking
untuk melihat seberapa baik mereka dapat mengambil benda
visual. Tes ini menantang peserta untuk mengidentifikasi item yang
bergerak cepat melintasi bidang penglihatan mereka, dan untuk
memperkirakan kecepatan dan arah objek bergerak. Skor mereka
dicatat pada skala 0 sampai 4 dengan 4 menjadi penglihatan yang
sempurna dan identifikasi objek bergerak. Tidak ada peserta yang
mendapat skor 4 sempurna, tetapi skornya berkisar dari 0 hingga 3.
6. Daya Tahan : Peserta dikenakan array tes fisik kebugaran termasuk
berjalan, senam, latihan aerobik dan kardiovaskular, dan jarak
berenang. Kinerja mereka dinilai pada skala 0-10, dengan 10 mewakili
kemampuan untuk melakukan semua tugas tanpa kelelahan dalam
bentuk apa pun. Skor berkisar dari 0 hingga 6 pada atribut ini. Gill
telah mengakui kepada kami bahwa bahkan atlet profesional yang
disetel dengan baik tidak akan dapat mencetak 10 pada bagian baterai
ini, karena baterai ini dirancang khusus untuk menguji batas daya tahan
manusia.
7. Agility : Ini adalah skor peserta pada serangkaian tes kemampuan
mereka untuk bergerak, twist, gilirannya, melompat, mengubah arah,
dll Tes diperiksa kemampuan atlet untuk bergerak gesit, tepat, dan kuat
dalam berbagai arah . Metrik ini bersifat komprehensif, dan
dipengaruhi oleh beberapa metrik lainnya, karena kelincahan sering
ditentukan oleh kekuatan, kecepatan, dll. Peserta diberi skor antara 0
dan 100 pada atribut ini, dan dalam kumpulan data kami dari Gill, kami
telah menemukan kinerja antara 13 dan 80.
8. Decision_Making : ini bagian dari baterai tes proses atlet memutuskan
apa yang harus dilakukan dalam situasi atletik. Atlet berpartisipasi
dalam simulasi yang menguji pilihan mereka apakah akan
mengayunkan pemukul, mengoper bola, pindah ke lokasi yang
berpotensi menguntungkan dari permukaan bermain, dll. Skor mereka
telah dicatat pada skala 0 hingga 100, meskipun Gill telah
mengindikasikan bahwa tidak ada orang yang menyelesaikan tes

21
seharusnya bisa mendapat skor lebih rendah dari 3, karena tiga poin
diberikan hanya untuk berhasil masuk dan keluar dari bagian
pengambilan keputusan dari baterai. Gill tahu bahwa 493 mantan
atletnya yang diwakili dalam kumpulan data ini berhasil masuk dan
keluar dari bagian ini, tetapi ada beberapa skor yang lebih rendah dari
3, dan juga beberapa di atas 100 dalam kumpulan data, jadi kami tahu
bahwa kami memiliki beberapa persiapan data di masa depan kita.
9. Prime_Sport : Atribut ini adalah olahraga masing-
masing 453 atlet melanjutkan untuk mengkhususkan diri
dalam setelah mereka meninggalkan akademi Gill. Ini
adalah atribut yang diharapkan Gill dapat diprediksi
untuk kliennya saat ini. Untuk anak laki-laki dalam
penelitian ini, atribut ini akan menjadi salah satu dari
empat olahraga: sepak bola (Amerika, bukan sepak bola;
maaf penggemar sepak bola), Bola Basket, Bisbol, atau
Hoki.

Saat kami menganalisis dan membiasakan diri dengan data ini, kami
menyadari bahwa semua atribut dengan pengecualian Prime_Sport adalah
numerik, dan dengan demikian, kami dapat mengecualikan Prime_Sport dan
melakukan latihan penambangan data pengelompokan k-means pada
kumpulan data. Dengan melakukan ini, kita mungkin dapat mengelompokkan
individu ke dalam satu kelompok olahraga atau yang lain berdasarkan rata-
rata untuk setiap atribut dalam kumpulan data. Namun, memiliki atribut
Prime_Sport memberi kita kemampuan untuk menggunakan jenis model
penambangan data yang berbeda: Analisis Diskriminan . Analisis diskriminan
sangat mirip dengan pengelompokan k-means, dalam hal itu
mengelompokkan pengamatan bersama ke dalam jenis nilai yang serupa,
tetapi juga memberi kita sesuatu yang lebih, dan itu adalah kemampuan
untuk memprediksi.

22
BAB V
PENUTUP

5.1.Kesimpulan
Data Mining adalah langkah analisis terhadap proses penemuan
pengetahuan didalam basisdata atau knowledge discovery in databases yang
disingkat KDD. Pengetahuan bisa berupa pola data atau relasi antar data yang
valid (yang tidak diketahui sebelumnya). Data Mining merupakan gabungan
sejumlah disiplin ilmu komputer yang didefinisikan sebagai proses penemuan
pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi metode-
metode yang merupakan irisan dari AI (artificial intelligence), machine
learning, statistics, dan database systems. Data Mining ditujukan untuk
mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data
sehingga didapatkan struktur yang dapat dimengerti manusia serta meliputi
basisdata dan managemen data, pemprosesan data, pertimbangan model dan
inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pasca
pemprosesan terhadap struktur yang ditemukan, visualisasi, dan online
updating.

5.2.Saran
Demikianlah makalah yang dapat saya buat. Kami sangat menyadari
bahwa dalam penyususnan makalah ini belum mendekati sempurna bahkan
jauh dari kesempurnaan. Maka dari itu kritik dan saran sangat diharapkan.
Semoga makalah ini bisa menjadi lebih baik dan bermanfaat bagi kita semua
Aamiin.

23

Anda mungkin juga menyukai