DATA MINING
DOSEN PEMBIMBING
Karnadi, S.Kom.,M.Kom.
DISUSUN OLEH :
Lifya Zanuba Arifah Masito (162019061)
FAKULTAS TEKNIK
Penulis
1
DAFTAR ISI
Halaman judul..............................................................................................................
BAB I CORRELATION
1.1 Konteks dan Perspektif .................................................................................. 3
1.2 Rumusan Masalah.......................................................................................... 3
1.3 Tujuan ............................................................................................................ 3
1.4 Pembahasan Korelasi (Correlation) ............................................................... 3
1.5 Penyelesaian Masalah .................................................................................... 7
BAB V PENUTUP
5.1 Kesimpulan .................................................................................................. 23
5.2. Saran............................................................................................................. 23
2
BAB I
CORRELATION
1.3 Tujuan
Tujuan Sarah adalah untuk lebih memahami bagaimana perusahaannya
dapat berhasil di pasar minyak pemanas rumah. Dia menyadari bahwa ada
banyak faktor yang memengaruhi konsumsi minyak pemanas, dan tidak
percaya bahwa hubungan baik antara beberapa faktor tersebut, dia akan dapat
menyatukan dan merespons permintaan minyak pemanas dengan lebih. Dia
telah memilih korelasi sebagai cara untuk memodelkan hubungan antara
faktor-faktor yang ingin dia selidiki. Korelasi adalah ukuran statistik seberapa
kuat hubungan antara atribut dalam kumpulan data.
3
mudah untuk membangunnya. Model masa depan akan menjadi lebih
kompleks, tetapi terus mengembangkan keterampilan Anda di RapidMiner
dan membiasakan diri dengan alat akan membuat model yang lebih kompleks
lebih mudah untuk Anda capai saat kita bergerak maju.
Data mining memiliki dua sisi yang saling berhubungan: Klasifikasi, dan
Prediksi. Korelasi telah terbukti terutama di sisi Klasifikasi. Kami tidak
menyimpulkan sebab-akibatnya menggunakan metrik korelasi, kami juga
tidak menggunakan koefisien korelasi untuk memprediksi nilai satu atribut
berdasarkan nilai atribut lainnya. Namun kami dapat dengan cepat
menemukan tren umum dalam kumpulan data menggunakan korelasi, dan
kami dapat mengantisipasi seberapa kuat pergerakan yang diamati dalam satu
atribut akan terjadi bersamaan dengan pergerakan di atribut lainnya.
Korelasi dapat menjadi cara cepat dan mudah untuk melihat bagaimana
elemen-elemen dari suatu masalah dapat berinteraksi satu sama lain. Setiap
kali Anda menemukan diri Anda bertanya bagaimana faktor-faktor tertentu
dalam masalah yang Anda coba berinteraksi satu sama lain,
mempertimbangkan untuk membangun matriks korelasi untuk mencari
tahu. Misalnya, apakah kepuasan pelanggan berubah berdasarkan waktu
dalam setahun? Apakah curah hujan mengubah harga tanaman? Apakah
pendapatan rumah tangga mempengaruhi restoran mana yang dikunjungi
seseorang? Penjelasan untuk setiap ini mungkin 'ya', tetapi korelasi tidak
hanya dapat membantu kita mengetahui apakah itu benar, tetapi juga dapat
membantu kita mempelajari seberapa kuat interaksi itu kapan, dan jika,
interaksi itu terjadi.
Langkah-langkah untuk mengembangkan model korelasi, menghasilkan
matriks koefisien, dan menganalisis hasilnya.
1. Pilih organisasi olahraga profesional yang Anda sukai, atau yang
Anda ketahui. Temukan situs web organisasi itu dan cari statistik,
fakta, dan angka tentang atlet di organisasi itu.
2. Buka OpenOffice Calc, dan mulai dari Sel A di Baris 1 spreadsheet,
tentukan beberapa atribut (setidaknya tiga atau empat) untuk
menyimpan data tentang setiap atlet. Beberapa atribut yang mungkin
Anda pertimbangkan adalah gaji_tahunan, poin_per_permainan,
tahun_as_pro, tinggi badan, berat badan, usia, dll. Daftar ini mungkin
tidak terbatas, akan bervariasi berdasarkan jenis olahraga yang Anda
pilih, dan akan mengandalkan data yang tersedia untuk Anda di situs
web yang Anda pilih. Pengukuran gaji dan kinerja atlet dalam
kompetisi yang mungkin yang paling menarik. Anda dapat
memasukkan nama atlet, namun perlu diingat bahwa korelasi hanya
dapat dilakukan pada data numerik, sehingga atribut nama perlu
4
dikurangi dari kumpulan data Anda sebelum membuat matriks
korelasi. (Ingat operator Pilih Atribut!)
3. Cari statistik untuk setiap atribut yang Anda pilih dan masukkan
sebagai observasi ke dalam spreadsheet Anda. Cinta untuk
menemukan sebanyak yang Anda bisa— setidaknya tiga puluh adalah
aturan yang baik jempol untuk mencapai setidaknya setidaknya
tingkat validitas statistik. Lebih banyak lebih baik.
4. Setelah Anda membuat kumpulan data, gunakan menu untuk
menyimpannya sebagai file CSV. Klik File, lalu Simpan
Sebagai. Masukkan nama file, dan ubah 'Save as type:' menjadi Text
CSV (.csv). Pastikan untuk menyimpan file di folder data
penambangan data Anda.
5. Buka RapidMiner dan impor kumpulan data Anda ke dalam repositori
RapidMiner Anda. Beri nama Chapter4Exercise, atau sesuatu yang
deskriptif sehingga Anda akan mengingat data apa yang terkandung
dalam kumpulan data saat Anda melihat di repositori Anda.
6. Tambahkan kumpulan data ke proses baru di
RapidMiner. Pastikan Keluar portterhubung Ke res portdan key:
Model Andari. Simpan proses Anda dengan nama deskriptif jika Anda
mau. Periksa data Anda dalam perspektif hasil dan pastikan tidak ada
data yang hilang, tidak konsisten, atau bermasalah lainnya yang
mungkin perlu ditangani sebagai bagian dari fase Persiapan Data
Anda. Kembali ke perspektif desain dan tangani tugas persiapan data
apa pun yang mungkin diperlukan.
7. Tambahkan operator Matriks Korelasi ke aliran Anda dan pastikan
bahwa mat portterhubung ke res port. Jalankan model Anda
lagi. Interpretasikan koefisien korelasi Anda seperti yang ditampilkan
pada matriks tab.
8. Dokumentasikan temuan Anda. Korelasi apa yang ada? mungkin kuat
mereka? Apakah mereka mengejutkan Anda dan jika demikian,
mengapa? Apa atribut lain yang ingin Anda tambahkan? Apakah ada
yang akan Anda hilangkan sekarang setelah Anda menambang data
Anda?
9. Saat Masih dalam Perspektif hasil temuan, tab click PADA
ExampleSet (Yang ADA DENGAN asumsi Andari
membiarkan exa portterhubung Ke res pelabuhan Saat Andari berada
dalam Perspektif desain). Klik pada tombol radio Plot View. Periksa
korelasi yang Anda temukan dalam model Anda secara visual dengan
membuat plot sebar data Anda. Pilih satu atribut untuk Sumbu x Anda
dan atribut yang berkorelasi untuk Sumbu y Anda. Bereksperimenlah
dengan Jitter bilah geser. Apa yang sedang dilakukan? (Petunjuk:
5
Coba cari di Internet dengan istilah 'statistik jittering'.) Untuk
pengalaman tambahan visual, coba plot Scatter 3D atau Scatter 3D
Color. Perhatikan Gambar 1.0 dan 1.1 sebagai contoh. Perhatikan
bahwa dengan plot 3D di RapidMiner, Anda dapat mengeklik dan
menahan untuk memutar plot agar dapat melihat interaksi antar data
dengan lebih baik.
6
1.5. Penyelesaian Masalah
Untuk pertanyaannya, Sarah telah meminta bantuan kami dalam
membuat matriks korelasi enam atribut. bekerja sama, menggunakan sumber
daya data majikan Sarah yang terutama diambil dari penagihan database
perusahaan, kami membuat satu set data yang terdiri dari atribut berikut:
1. Isolasi : Ini adalah peringkat kepadatan, Mulai dari 1-10,
menunjukkan ketebalan isolasi masing-masing rumah . Rumah
dengan kepadatan kepadatan satu memiliki isolasi yang buruk,
sedangkan rumah dengan kepadatan sepuluh memiliki isolasi yang
sangat baik.
2. Suhu : ini adalah rata-rata suhu di luar ruangan ambien di rumah
masing-masing untuk yang paling tahun terakhir, ukuran dalam
derajat Fahrenheit.
3. Heating_Oil : Ini adalah jumlah unit minyak pemanas yang dibeli
oleh pemilik masing-masing rumah dalam setahun terkahir.
4. Num_Occupants : Ini adalah Jangka Waktu Total Penghuni Yang
Tinggal di rumah masing-masing.
5. Avg_Age: ini adalah Usia rata-rata para Penghuni.
6. Home_Size: ini adalah peringkat, pada skala 1-8, ukuran rumah
Beroperasi keseluruhan. Semakin tinggi angkanya, semakin besar
rumahnya.
7
BAB II
ASSOCIATION RULES
2.3. Tujuan
Tujuan Roger adalah untuk Mengidentifikasi dan kemudian
memanfaatkan koneksi yang ada di komunitas lokalnya untuk menyelesaikan
pekerjaan yang akan bermanfaat bagi seluruh komunitas. Dia mengetahui
banyak dari organisasi di kota, memiliki informasi kontak untuk mereka dan
bahkan terlibat dalam beberapa dari mereka sendiri. Keluarganya terlibat dalam
kelompok organisasi yang lebih luas lagi, sehingga dia memahami tingkat
pribadi Keragaman kelompok dan kepentingan mereka. Karena orang-orang
yang dia dan keluarganya terlibat dalam kelompok lain di sekitar kota, dia
sadar dalam pengertian yang lebih umum tentang berbagai jenis, minat, tujuan,
dan kontribusi potensial mereka. Dia tahu bahwa untuk memulai, perhatian
8
utamanya adalah menemukan jenis organisasi yang menghubungkan satu sama
lain. setiap individu untuk bekerja dengan di setiap gereja, klub sosial atau
organisasi politik akan sangat banyak terlebih dahulu tanpa terlebih dahulu
mengkategorikan organisasi ke dalam kelompok dan mencari asosiasi antara
kelompok. Hanya setelah dia memeriksa koneksi yang ada, dia akan merasa
siap untuk mulai menghubungi orang dan meminta mereka untuk
menggunakan kontak lintas organisasi dan mengambil kepemilikan
proyek. Kebutuhan pertama adalah menemukan di mana asosiasi semacam itu
ada.
9
memiliki data yang konsisten dan tipe datanya sesuai untuk operator
FP-Growth.
4. Buat aturan asosiasi untuk kumpulan data Anda. Ubah kepercayaan
diri dan nilai dukungan Anda untuk mengidentifikasi level paling
ideal sehingga Anda akan memiliki beberapa aturan menarik dengan
keyakinan dan dukungan yang masuk akal. Lihat ukuran kekuatan
aturan lainnya seperti LaPlace atau Conviction.
5. Dokumentasikan temuan Anda. Aturan apa yang Anda
temukan? Atribut apa yang paling kuat terkait satu sama
lain. Apakah ada produk yang sering dihubungkan yang
mengejutkan Anda? Mengapa menurut Anda ini mungkin? Berapa
banyak Anda harus menguji nilai dukungan dan kepercayaan yang
berbeda sebelum Anda menemukan beberapa aturan
asosiasi? Apakah ada aturan asosiasi Anda yang cukup baik sehingga
Anda akan mendasarkan keputusan padanya? Mengapa atau
mengapa tidak?
6. Buat model aturan asosiasi baru menggunakan kumpulan data yang
sama, tetapi kali ini, gunakan operator W FPGrowth. (Petunjuk
untuk menggunakan operator W-FPGrowth:
Operator ini membuat aturannya sendiri tanpa bantuan dari
operator lain dan
Parameter dukungan dan kepercayaan operator ini masing-
masing diberi label U dan C.
7. Algoritma Apriori sering digunakan dalam penambangan data untuk
asosiasi. Cari di pohon Operator RapidMiner untuk operator Apriori
dan tambahkan mereka ke kumpulan data Anda dalam proses
baru. Gunakan tab Bantuan di sudut kanan bawah RapidMiner untuk
mempelajari tentang parameter dan fungsi operator ini (pastikan
Anda telah memilih operator di jendela proses utama untuk melihat
konten bantuannya).
10
bagian rekomendasi dari situs web tersebut. Anda mungkin memperhatikan
bahwa saat mencari ponsel cerdas, rekomendasi untuk pelindung layar, kotak
pelindung, dan aksesoris lainnya seperti kabel pengisi daya atau kabel data
sering direkomendasikan kepada Anda. Barang yang diidentifikasi
diidentifikasi dengan menambang barang yang dibeli pelanggan sebelumnya
bersama dengan barang yang Anda cari. Dengan kata lain, item tersebut
ditemukan terkait dengan item yang Anda cari, dan asosiasi tersebut sangat
sering terjadi dalam kumpulan data situs web, sehingga asosiasi tersebut dapat
dianggap sebagai aturan . Maka lahirlah nama pendekatan data mining ini:
“aturan asosiasi”. Sementara aturan asosiasi paling umum dalam analisis
keranjang belanja, teknik pemodelan ini dapat diterapkan pada berbagai
masalah. Kami akan membantu Roger dengan membuat model aturan asosiasi
untuk menemukan hubungan antar jenis komunitas organisasi bekerja sama,
kami menggunakan pengetahuan Roger tentang komunitas lokal untuk
membuat survei singkat yang akan kami kelola secara online melalui situs
web. Untuk memastikan ukuran integritas data dan mencoba mengamankan
dari kemungkinan, survei web kami dilindungi kata sandi. Setiap organisasi
yang diundang untuk berpartisipasi dalam survei yang diberikan kata sandi
unik. Pemimpin organisasi tersebut diminta untuk membagikan kata sandi
keanggotaannya dan untuk mendorong partisipasi dalam survei. Anggota
komunitas diberi waktu satu bulan untuk merespons, dan setiap kali seorang
individu masuk untuk menyelesaikan survei, kata sandi yang digunakan dicatat
sehingga kami dapat menentukan berapa banyak orang dari setiap organisasi
yang merespons.
Setelah ujung bulan, kami memiliki kumpulan data yang terdiri dari atribut
berikut:
1. ELAPSED_TIME : Ini adalah setiap jangka waktu responden
menghabiskan menyelesaikan pengumpulan kami. Hal ini dinyatakan
dalam menit desimal (misalnya 4,5 dalam atribut ini akan menjadi
empat menit, tiga puluh detik).
2. Time_in_Community : pertanyaan ini pada pengumpulan meminta
orang jika mereka telah tinggal di daerah untuk review 0-2 Tahun, 3-9
Tahun, atau 10 + Tahun; dan dicatat dalam kumpulan data masing-
masing sebagai Pendek, Sedang, atau Panjang.
3. Kelamin: Survei responden gender.
4. Kerja: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini memiliki Pekerjaan Yang Dibayar.
5. Umur: Usia Survei responden di Tahun.
6. Keluarga: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari organisasi serta
11
'masyarakat berorientasi keluarga, seperti Big Brothers / Big Sisters,
Anak-anak Rekreasi atau Olahraga liga, Kelompok silsilah, dll
7. Hobi: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari organisasi serta
'masyarakat hobi berorientasi, seperti amatir radio, Rekreasi Luar
ruangan, bermotor sepeda atau naik sepeda, dll
8. Social_Club: A ya / tidak kolom yang menunjukkan apakah atau
tidakresponden sebelumnya Saat ini anggota Dari Organisasi sosial
'masyarakat, seperti Rotary International, singa Klub, dll
9. Politik: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota dari organisasi politik dengan
pertemuan rutin di masyarakat, seperti partai politik, kelompok aksi
akar rumput, upaya lobi, dll
10. Profesional: A ya / tidak kolom yang menunjukkan apakah atau tidak
responden sebelumnya Saat ini anggota Dari professio Sebuah
organisasi serta nal denganPertemuan bab Lokal, seperti Sebuah bab
Dari hukum atau 'masyarakat Medis, Kelompok pemilik Bisnis Kecil,
dll
11. Agama: Sebuah ya / tidak kolom yang menunjukkan apakah atau
tidak responden sebelumnya Saat ini anggota Dari Sebuah Gereja di
'masyarakat.
12. Support_Group: A ya / tidak kolom yang menunjukkan apakah atau
tidak responden sebelumnya Saat ini anggota Dari organisasi serta
Dukungan society Yang berorientasi, seperti Alcoholics Anonymous,
Kelompok manajemen kemarahan, dll
12
BAB III
K-MEANS CLUSTERING
3.3. Tujuan
Tujuan Sonia adalah untuk mengidentifikasi dan kemudian mencoba
menjangkau individu yang diasuransikan oleh majikannya yang berisiko
tinggi terkena penyakit jantung koroner karena berat badan dan/atau
kolesterol tinggi mereka. Dia memahami bahwa mereka yang berisiko rendah,
yaitu mereka yang memiliki berat badan rendah dan kolesterol, tidak mungkin
berpartisipasi dalam program yang akan dia tawarkan. Dia juga memahami
bahwa mungkin ada pemegang polis dengan berat badan tinggi dan kolesterol
rendah, mereka dengan berat badan tinggi dan kolesterol tinggi, dan mereka
13
dengan berat badan rendah dan kolesterol tinggi. Dia lebih lanjut mengakui
kemungkinan ada banyak orang di suatu tempat di antara keduanya. Untuk
mencapai tujuannya, dia perlu mencari di antara ribuan pemegang polis untuk
menemukan kelompok orang dengan karakteristik yang sama dan program
kerajinan dan komunikasi yang akan relevan dan menarik bagi orang-orang
dalam kelompok yang berbeda ini.
14
Untuk membangun model cluster k-means Anda, selesaikan langkah-
langkah berikut:
1. Kembali ke tampilan desain di RapidMiner jika Anda belum
melakukannya. Di kotak pencarian operator, ketik k-means (pastikan untuk
menyertakan tanda hubung). Ada tiga operator yang melakukan kerja k-
means clustering di RapidMiner. Untuk latihan ini, kita akan memilih yang
pertama, yang secara sederhana diberi nama “k-Means”. Seret operator ini
ke aliran Anda, dan ditunjukkan pada Gambar 3.0.
15
Gambar 3.1. Mengatur jumlah cluster yang diinginkan untuk model kami.
Kita bisa kembali ke titik ini dan menyesuaikan jumlah cluster kita,
jumlah 'max run' kita, atau bahkan bereksperimen dengan parameter lain yang
ditawarkan oleh operator k-Means. Ada pilihan lain untuk tipe pengukuran
atau algoritma divergensi. Jangan ragu untuk mencoba beberapa opsi ini jika
Anda mau. Seperti halnya dengan Aturan Asosiasi, mungkin ada beberapa
16
percobaan bolak-balik-dan kesalahan saat Anda menguji parameter yang
berbeda untuk menghasilkan keluaran model.
17
BAB IV
DISCRIMINANT ANALYSIS
4.3. Tujuan
Tujuan Gill adalah untuk memeriksa atlet muda dan, berdasarkan kinerja
mereka di sejumlah metrik, membantu mereka memutuskan olahraga mana
yang paling utama untuk kesuksesan khusus mereka. Gill mengakui bahwa
semua kliennya memiliki beberapa ukuran atletis, dan bahwa mereka
18
menikmati berpartisipasi dalam sejumlah olahraga. Karena masih muda,
atletis, dan adaptif, sebagian besar kliennya cukup mahir dalam sejumlah
olahraga, dan dia telah melihat selama bertahun-tahun bahwa beberapa orang
sangat berbakat secara alami sehingga mereka akan unggul dalam olahraga
apa pun yang mereka pilih untuk spesialisasi. Oleh karena itu, dia mengakui,
sebagai batasan dari latihan penggalian data ini, bahwa dia mungkin tidak
dapat menggunakan data untuk menentukan olahraga "terbaik" seorang
atlet. Namun, dia telah melihat metrik dan evaluasi bekerja di masa lalu, dan
telah melihat bahwa beberapa atlet sebelumnya benar-benar menyukai
olahraga tertentu, dan bahwa mereka berhasil saat mereka melanjutkan
spesialisasi dalam olahraga itu. Berdasarkan pengalaman industrinya, ia telah
memutuskan untuk melanjutkan eksperimen dalam menambang data untuk
bakat atletik, dan telah meminta bantuan kami.
19
catatan yang tidak diketahui untuk kita, memberi kita gambaran tentang
kategori apa yang kemungkinan akan menjadi pengamatan yang tidak
diketahui.
20
atletik terkait yang cukup parah untuk memerlukan operasi atau
intervensi medis utama lainnya. Cedera umum yang diobati dengan es,
istirahat, peregangan, dll. dimasukkan sebagai 0. Cedera yang
membutuhkan waktu lebih dari tiga minggu untuk sembuh, yang
memerlukan terapi fisik atau pembedahan ditandai sebagai 1.
5. Visi : Atlet tidak hanya diuji pada biasa visi 20/20 skala menggunakan
grafik mata, tetapi juga diuji menggunakan teknologi eye-tracking
untuk melihat seberapa baik mereka dapat mengambil benda
visual. Tes ini menantang peserta untuk mengidentifikasi item yang
bergerak cepat melintasi bidang penglihatan mereka, dan untuk
memperkirakan kecepatan dan arah objek bergerak. Skor mereka
dicatat pada skala 0 sampai 4 dengan 4 menjadi penglihatan yang
sempurna dan identifikasi objek bergerak. Tidak ada peserta yang
mendapat skor 4 sempurna, tetapi skornya berkisar dari 0 hingga 3.
6. Daya Tahan : Peserta dikenakan array tes fisik kebugaran termasuk
berjalan, senam, latihan aerobik dan kardiovaskular, dan jarak
berenang. Kinerja mereka dinilai pada skala 0-10, dengan 10 mewakili
kemampuan untuk melakukan semua tugas tanpa kelelahan dalam
bentuk apa pun. Skor berkisar dari 0 hingga 6 pada atribut ini. Gill
telah mengakui kepada kami bahwa bahkan atlet profesional yang
disetel dengan baik tidak akan dapat mencetak 10 pada bagian baterai
ini, karena baterai ini dirancang khusus untuk menguji batas daya tahan
manusia.
7. Agility : Ini adalah skor peserta pada serangkaian tes kemampuan
mereka untuk bergerak, twist, gilirannya, melompat, mengubah arah,
dll Tes diperiksa kemampuan atlet untuk bergerak gesit, tepat, dan kuat
dalam berbagai arah . Metrik ini bersifat komprehensif, dan
dipengaruhi oleh beberapa metrik lainnya, karena kelincahan sering
ditentukan oleh kekuatan, kecepatan, dll. Peserta diberi skor antara 0
dan 100 pada atribut ini, dan dalam kumpulan data kami dari Gill, kami
telah menemukan kinerja antara 13 dan 80.
8. Decision_Making : ini bagian dari baterai tes proses atlet memutuskan
apa yang harus dilakukan dalam situasi atletik. Atlet berpartisipasi
dalam simulasi yang menguji pilihan mereka apakah akan
mengayunkan pemukul, mengoper bola, pindah ke lokasi yang
berpotensi menguntungkan dari permukaan bermain, dll. Skor mereka
telah dicatat pada skala 0 hingga 100, meskipun Gill telah
mengindikasikan bahwa tidak ada orang yang menyelesaikan tes
21
seharusnya bisa mendapat skor lebih rendah dari 3, karena tiga poin
diberikan hanya untuk berhasil masuk dan keluar dari bagian
pengambilan keputusan dari baterai. Gill tahu bahwa 493 mantan
atletnya yang diwakili dalam kumpulan data ini berhasil masuk dan
keluar dari bagian ini, tetapi ada beberapa skor yang lebih rendah dari
3, dan juga beberapa di atas 100 dalam kumpulan data, jadi kami tahu
bahwa kami memiliki beberapa persiapan data di masa depan kita.
9. Prime_Sport : Atribut ini adalah olahraga masing-
masing 453 atlet melanjutkan untuk mengkhususkan diri
dalam setelah mereka meninggalkan akademi Gill. Ini
adalah atribut yang diharapkan Gill dapat diprediksi
untuk kliennya saat ini. Untuk anak laki-laki dalam
penelitian ini, atribut ini akan menjadi salah satu dari
empat olahraga: sepak bola (Amerika, bukan sepak bola;
maaf penggemar sepak bola), Bola Basket, Bisbol, atau
Hoki.
Saat kami menganalisis dan membiasakan diri dengan data ini, kami
menyadari bahwa semua atribut dengan pengecualian Prime_Sport adalah
numerik, dan dengan demikian, kami dapat mengecualikan Prime_Sport dan
melakukan latihan penambangan data pengelompokan k-means pada
kumpulan data. Dengan melakukan ini, kita mungkin dapat mengelompokkan
individu ke dalam satu kelompok olahraga atau yang lain berdasarkan rata-
rata untuk setiap atribut dalam kumpulan data. Namun, memiliki atribut
Prime_Sport memberi kita kemampuan untuk menggunakan jenis model
penambangan data yang berbeda: Analisis Diskriminan . Analisis diskriminan
sangat mirip dengan pengelompokan k-means, dalam hal itu
mengelompokkan pengamatan bersama ke dalam jenis nilai yang serupa,
tetapi juga memberi kita sesuatu yang lebih, dan itu adalah kemampuan
untuk memprediksi.
22
BAB V
PENUTUP
5.1.Kesimpulan
Data Mining adalah langkah analisis terhadap proses penemuan
pengetahuan didalam basisdata atau knowledge discovery in databases yang
disingkat KDD. Pengetahuan bisa berupa pola data atau relasi antar data yang
valid (yang tidak diketahui sebelumnya). Data Mining merupakan gabungan
sejumlah disiplin ilmu komputer yang didefinisikan sebagai proses penemuan
pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi metode-
metode yang merupakan irisan dari AI (artificial intelligence), machine
learning, statistics, dan database systems. Data Mining ditujukan untuk
mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data
sehingga didapatkan struktur yang dapat dimengerti manusia serta meliputi
basisdata dan managemen data, pemprosesan data, pertimbangan model dan
inferensi, ukuran ketertarikan, pertimbangan kompleksitas, pasca
pemprosesan terhadap struktur yang ditemukan, visualisasi, dan online
updating.
5.2.Saran
Demikianlah makalah yang dapat saya buat. Kami sangat menyadari
bahwa dalam penyususnan makalah ini belum mendekati sempurna bahkan
jauh dari kesempurnaan. Maka dari itu kritik dan saran sangat diharapkan.
Semoga makalah ini bisa menjadi lebih baik dan bermanfaat bagi kita semua
Aamiin.
23