Anda di halaman 1dari 66

KONSEP MEMODELKAN

BIG DATA
FENOMENA DARI DATA,
PREDIKSI DARI DATA DAN
KONSEP DATA MINING
Ahmad Chusyairi
1
OUTLINE
➢ Pemahaman Simulasi Data sebagai penjelasan fenomena dunia nyata. Melihat
Data lebih dalam dari hanya sekedar rumus. Melihat hubungan kompleks antar
data
➢ Pengenalan simulasi Monte Carlo sebagai salah satu contoh metode simulasi
➢ Memperkenalkan konsep Training Data dan Test Data
➢ Pengenalan metodologi, model dan algoritma pada aktivitas Data Mining
➢ Pengenalan konsep Machine Learning
➢ Studi Kasus: Penggunaan data/statistik yang merubah bisnis olahraga (NBA)

2
SIMULASI DATA
➢ Simulasi data adalah proses mengambil sejumlah besar data dan
menggunakannya untuk meniru skenario atau kondisi dunia nyata.
➢ Dalam istilah teknis, ini dapat digambarkan sebagai pembangkitan bilangan acak
atau data dari proses stokastik yang dinyatakan sebagai distribusi distribusi
(misalnya, Normal: 𝑋~𝑁(𝜇, 𝜎²)).
➢ Ini dapat digunakan untuk memprediksi kejadian di masa mendatang, menentukan
tindakan terbaik, atau memvalidasi model AI/ML.

3
MANFAAT SIMULASI DATA
➢ Simulasi data terbukti sangat berharga di hampir setiap industri dan bidang studi,
dengan eksekutif bisnis, insinyur, dan peneliti yang menggunakannya dalam
pekerjaan mereka. Manfaat lainnya, simulasi data dapat:
➢ Ditampilkan dalam pembuatan model yang ditayangkan dari sistem yang
kompleks dan dinamis;
➢ Memberdayakan pengambilan keputusan berbasis data dan strategi
perencanaan;
➢ Membantu menguji hipotesis, memahami hubungan, dan meningkatkan prediksi;
➢ Izinkan studi tentang fenomena yang sulit atau tidak mungkin untuk dibatalkan
secara langsung; Dan
➢ Hasilkan data sintetik yang mewakili populasi atau kondisi tertentu yang
kemudian dapat digunakan untuk pengembangan ML dan AI.

4
DATA SIMULASI VS DATA INTERPOLASI
➢ Untuk beberapa hal teknis, manfaat ini mungkin terdengar seperti yang diperoleh
dari data interpolasi, jadi ada baiknya membahas perbedaannya secara singkat.
➢ Saat bekerja dengan data, seringkali perlu membuat perkiraan tentang apa yang
ada di luar cakupan kumpulan data.
➢ Ada dua metode utama untuk melakukan ini:
➢ simulasi dan
➢ interpolasi.
➢ Kedua metode memiliki kelebihan dan kekurangan, dan pendekatan terbaik
bergantung pada situasi spesifik.

5
DATA SIMULASI
➢ Simulasi dapat dianggap sebagai tiruan dari proses dunia nyata dari waktu ke
waktu.
➢ Dalam mesin pembelajaran, simulasi adalah algoritma yang meniru lingkungan
dunia nyata yang dapat digunakan untuk menguji berbagai tindakan.
➢ Meskipun simulasi tidak pernah bisa seakurat padanannya di dunia nyata,
kemampuan untuk menguji jutaan skenario terhadap simulasi telah terbukti
membantu model pembelajaran mesin belajar dengan cepat, dan bahkan
mengungguli model yang menyelesaikan pada data dunia nyata yang lebih
terbatas.
➢ Namun, simulasi hanya seakurat model yang mendasarinya, jadi penting untuk
memiliki pemahaman yang baik tentang model sebelum menggunakan pendekatan
ini.

6
INTERPOLASI DATA
➢ Data interpolasi melibatkan penggunaan titik data yang diketahui untuk
perkembangan nilai titik di antaranya.
➢ Ini dapat dilakukan dengan menggunakan fungsi matematika atau dengan
membuat perbandingan dengan kumpulan data serupa.
➢ Salah satu keuntungan interpolasi biasanya lebih akurat daripada simulasi karena
didasarkan pada titik data aktual.
➢ Namun, interpolasi hanya dapat digunakan jika ada hubungan yang erat antara
variabel, sehingga mungkin tidak sesuai untuk semua situasi.

7
KASUS UNTUK DATA SIMULASI
➢ Dengan munculnya teknologi pembuatan data sintetik berkualitas tinggi dan model
ML/AI yang canggih, ada beberapa kasus penggunaan yang menarik untuk
simulasi data yang muncul dalam beberapa tahun terakhir. Berikut adalah
beberapa contoh spesifik di berbagai bidang:
➢ Ilmu dan riset data
➢ Pengembangan perangkat lunak
➢ Minyak gas
➢ Manufaktur
➢ Kendaraan otonom

8
ILMU DAN RISET DATA
➢ Salah satu penghambat terbesar untuk membangun model pembelajaran mesin
yang lebih baik adalah kebutuhan yang terus-menerus akan lebih banyak data
baru.
➢ Sebagai contoh, katakanlah kita bekerja sebagai ilmuwan data untuk otoritas
lokal dan diminta menemukan cara untuk mengoptimalkan cara kerja rencana
antisipasi darurat jika terjadi bencana alam (misalnya tsunami atau gempa bumi).
➢ Data yang mungkin terlalu tidak seimbang untuk berguna karena ada beberapa
kejadian serupa yang kami miliki datanya untuk digunakan sebagai
perbandingan.

9
ILMU DAN RISET DATA(2)
➢ Di sini, simulasi data dapat digunakan untuk menghasilkan kumpulan data sintetik yang
mirip dengan bencana alam dunia nyata lainnya.
➢ Ini akan memungkinkan model pembelajaran mesin kami untuk menangkap pada data
yang lebih mewakili peristiwa dunia nyata yang langka ini, dan dengan demikian 9
rencana deteksi kami dengan lebih baik.
➢ Metode ini juga dapat digunakan untuk mempelajari bagaimana teknologi dapat
memengaruhi masyarakat.
➢ Misalnya, pada tahun 2020, Gretel melakukan simulasi untuk menganalisis hasil apa yang
diharapkan orang Amerika dari proposal Pelacakan Kontak Apple & Google yang
diperdebatkan dengan hangat, di mana mereka akan memberikan kemampuan menjaga
privasi yang memberi tahu orang-orang ketika mereka berada di dekat COVID- 19 orang
yang terinfeksi. Kode proyek tersedia di GitHub .

10
PELACAKAN KONTAK APPLE & GOOGLE

11
KODE PROYEK PELACAKAN KONTAK APPLE &
GOOGLE

12
ILMU DAN RISET DATA(3)
➢ Hasil utamanya adalah spesifikasi Apple dan Google secara substansial
menurunkan risiko privasi untuk melacak kontak dengan tidak mengumpulkan data
yang ada, tetapi dengan menghasilkan data kustom baru yang spesifik untuk kasus
penggunaan.
➢ Pelestarian privasi ini terjadi pada tingkat serendah mungkin.
➢ Handset dapat menghitung data sebanyak mungkin tetapi berbagi sesedikit
mungkin untuk memberikan pelacakan kontak yang efektif sekaligus menjaga
privasi pengguna.

13
PENGEMBANGAN PERANGKAT LUNAK
➢ Bagian penting dari pengembangan perangkat lunak apa pun adalah menguji
bagaimana kinerjanya dalam kondisi yang berbeda.
➢ Dengan membuat simulasi data yang meniru kondisi dunia nyata, pengembang
dapat menempatkan perangkat lunak melalui langkah-langkahnya dan
mengidentifikasi potensi masalah.
➢ Proses ini dapat digunakan pengguna untuk menguji semuanya, mulai dari
antarmuka hingga backend algoritma.

14
MINYAK GAS
➢ Simulasi data juga semakin banyak digunakan di industri minyak dan gas.
➢ Dengan membuat model reservoir, ahli geologi dapat lebih memahami bagaimana minyak
dan gas mengalir melalui batuan dan apakah mereka hadir dalam strata geologi yang
berbeda.
➢ Model ini dapat digunakan untuk memprediksi apa yang akan terjadi ketika sumur baru
dibor, dan juga dapat membantu developer merancang fasilitas produksi yang lebih baik.
➢ Perusahaan dan peneliti juga mempelajari dampak faktor lingkungan terhadap industri.
➢ Dengan mensimulasikan efek perubahan iklim, para peneliti mendapatkan pemahaman
yang lebih baik tentang bagaimana kenaikan suhu dapat memengaruhi produksi minyak
dan gas.

15
MANUFAKTUR
➢ Data simulasi juga digunakan untuk membuat “digital twins” yang merupakan
perpaduan virtual dari objek fisik, seperti mobil atau pabrik produksi.
➢ Model-model ini memungkinkan mempelajari objek dunia nyata dan operasinya
tanpa pernah menyentuhnya.
➢ Produsen dapat dengan mudah mengidentifikasi proses produksi yang paling
efisien dan efektif untuk produk tertentu, dan menghindari gangguan saat beralih
ke metode baru.

16
DIGITAL TWINS

17
KENDARAAN OTONOM
➢ Dan tentunya, tidak dapat berbicara tentang simulasi data tanpa mengakui kasus
penggunaannya yang paling terkenal: pelatihan mobil, drone, dan robot yang
dapat mengemudi sendiri.
➢ Mencoba menguji dan melatih sistem ini di dunia nyata itu lambat, mahal, dan
berbahaya.
➢ Namun dengan data sintetik, dapat membuat lingkungan pelatihan virtual untuk
meningkatkan teknologi baru ini.

18
KENDARAAN OTONOM(2)

Gambar dari VISTA 2.0: simulator fotorealistik sumber terbuka pertama untuk mengemudi secara otonom
19
VISTA 2.0

20
LANGKAH SIMULASI
➢ Untuk mensimulasikan data, perlu mengidentifikasi pola data dan juga memiliki
informasi tentang fitur data dan bagaimana distribusinya.
➢ Secara umum, ada tiga langkah utama untuk mensimulasikan data:
➢ Kembangkan hipotesis dan pahami distribusi sampel
➢ Hasilkan sampel data acak berdasarkan distribusi
➢ Visualisasikan dan analisis hasil simulasi data

21
BUAT HIPOTESIS DAN PAHAMI DISTRIBUSI
SAMPEL
➢ Sebelum mensimulasikan distribusi data, harus terlebih dahulu memiliki hipotesis
mengenai data.
➢ Ini adalah ide tentang apa yang mungkin terjadi saat membuat simulasi data.
➢ Beberapa distribusi tidak memerlukan pengujian hipotesis untuk mengetahui bahwa
data akan mengikuti jalur tertentu, tetapi sebagian besar diperlukan.
➢ Ada berbagai distribusi yang dapat dianalisis saat menggunakan simulasi data,
dan setiap jenis memiliki karakteristik uniknya sendiri untuk memodelkan jenis data
yang berbeda.
➢ Dengan memahami distribusi yang berbeda, peneliti dapat memanfaatkan simulasi
data dengan lebih baik untuk mempelajari berbagai fenomena.

22
DISTRIBUSI UMUM
➢ Di bawah ini adalah deskripsi dari beberapa distribusi umum:
➢ Distribusi normal
➢ Distribusi seragam
➢ Distribusi eksponensial
➢ Distribusi poisson
➢ Distribusi multinomial
➢ Distribusi laplace

23
DISTRIBUSI NORMAL
➢ Distribusi normal – fungsi probabilitas yang simetris di sekitar rata-rata,
menunjukkan bahwa titik-titik data lebih cenderung mengelompok di sekitar rata-
rata daripada terdistribusi secara merata di seluruh kurva.
➢ Puncak kurva menunjukkan rata-rata, median, dan modus, dan penyebaran kurva
menunjukkan variabilitas.
➢ Distribusi normal digunakan dalam statistik untuk memprediksi kejadian di masa
depan, untuk menghitung probabilitas, dan untuk memahami hubungan antar
variabel.
➢ Ini juga dapat digunakan untuk membuat model dan menguji hipotesis.
➢ Distribusi normal kadang-kadang disebut sebagai kurva lonceng karena
bentuknya.

24
DISTRIBUSI SERAGAM
➢ Distribusi seragam - distribusi probabilitas di mana semua nilai memiliki
probabilitas yang sama.
➢ Ini digunakan untuk memodelkan peristiwa yang sama-sama mungkin terjadi.
➢ Ini dapat diartikan sebagai kemungkinan variabel mengambil nilai apa pun dalam
rentang tertentu.
➢ Misalnya, jika kita melempar koin 100 kali, kita berharap hasilnya terbagi rata
antara kepala dan ekor.
➢ Namun, jika kita hanya melempar koin sebanyak 10 kali, hasilnya mungkin tidak
merata.
➢ Dalam hal ini, distribusi yang seragam dapat membantu kita memprediksi
kemungkinan mendapatkan kepala atau ekor.

25
DISTRIBUSI EKSPONENSIAL
➢ Distribusi eksponensial – distribusi probabilitas kontinu yang menggambarkan
waktu antara dua kejadian berurutan dalam proses Poisson.
➢ Ini sering digunakan untuk memodelkan waktu tunggu hingga suatu peristiwa
terjadi, seperti waktu hingga kematian atau waktu hingga terjadi gempa bumi.
1 12
➢ Distribusi eksponensial memiliki rata-rata dan variansi , di mana 𝜆 adalah
𝜆 𝜆
parameter laju.
➢ Misalnya, jika waktu tunggu rata-rata sebuah bus adalah 10 menit, maka waktu
tunggu bus mengikuti distribusi eksponensial dengan parameter laju 1/10.
➢ Artinya, kemungkinan menunggu bus lebih dari 10 menit sangat rendah.

26
DISTRIBUSI POISSON
➢ Distribusi poisson – distribusi probabilitas yang menghitung probabilitas sejumlah
peristiwa tertentu yang terjadi dalam periode waktu tertentu.
➢ Fungsi ini digunakan ketika kejadiannya independen dan terjadi dengan laju yang
konstan.
➢ Misalnya, jika peristiwa tersebut merupakan kejadian dari kejahatan tertentu,
distribusi poisson dapat digunakan untuk menghitung probabilitas sejumlah
kejahatan yang terjadi dalam periode waktu tertentu.

27
DISTRIBUSI MULTINOMIAL
➢ Distribusi multinomial – distribusi probabilitas yang menggambarkan hasil
percobaan multinomial, di mana ada lebih dari dua kemungkinan hasil untuk setiap
percobaan.
➢ Fungsinya adalah menghitung probabilitas (yakni peluang) dari setiap
kemungkinan kombinasi hasil.
➢ Misalnya, jika melempar koin tiga kali, ada delapan kemungkinan kombinasi hasil:
tiga kepala, dua kepala dan satu ekor, satu kepala dan dua ekor, tiga ekor, dan
seterusnya.

28
DISTRIBUSI LAPLACE
➢ Distribusi Laplace – distribusi probabilitas yang ditentukan oleh dua parameter:
parameter lokasi (yang menentukan rata-rata) dan parameter skala (yang
menentukan penyebaran).
➢ Distribusi Laplace sering digunakan untuk memodelkan data yang asimetris atau
memiliki outlier.
➢ Itu juga dapat digunakan untuk memodelkan data yang telah dihasilkan oleh suatu
proses dengan jumlah derau yang sangat kecil.

29
HASILKAN SAMPEL DATA ACAK
➢ Random sampling adalah proses yang digunakan untuk memilih sekelompok individu
dari suatu populasi di mana setiap individu memiliki kesempatan yang sama untuk
dipilih.
➢ Sekarang setelah memahami distribusi sampel, maka dapat menggunakan fungsi
tersebut untuk menghasilkan sampel data acak.
➢ Ini adalah pendekatan yang paling umum.
➢ Namun, ada banyak cara untuk menghasilkan data simulasi acak, dan metode
yang digunakan akan bergantung pada jenis penelitian yang dilakukan.
➢ Mari lihat dua metode populer:
➢ Simulasi Monte Carlo
➢ Simulasi Rantai Markov Monte Carlo

30
SIMULASI MONTE CARLO
➢ Simulasi Monte Carlo dilakukan dengan mengambil beberapa sampling acak dari
set distribusi probabilitas yang diberikan.
➢ Distribusi dapat berupa jenis apa pun, misalnya: Normal, Eksponensial, Seragam,
dan lain-lain.
➢ Simulasi Monte Carlo digunakan untuk menganalisis risiko dalam proyek sebelum
dipraktikkan.
➢ Itu dibangun di atas model matematika, yang menggunakan data empiris dari nilai
input dan output sistem nyata (misalnya, jumlah asupan pasokan vs hasil produksi).
➢ Hal ini memungkinkan identifikasi awal potensi ancaman dan apa yang mungkin
salah yang dapat memengaruhi laba atau sasaran pasar.

31
SIMULASI RANTAI MARKOV MONTE CARLO
➢ Markov Chain Monte Carlo sampling adalah teknik simulasi dari distribusi
probabilitas dimensi tinggi.
➢ Berbeda dengan metode sampling Monte Carlo yang mampu menarik sampel
independen dari suatu distribusi, metode Markov Chain Monte Carlo menarik
sampel dimana sampel berikutnya bergantung pada sampel yang ada.
➢ Ini berarti sampel yang dihasilkan secara acak hanya bergantung pada keadaan
saat ini, dan berkembang secara iteratif, saat "rangkaian" peristiwa terungkap.
➢ Gretel menggunakan bentuk simulasi Markov Chain saat membuat simulasi data
lokasi e-bike di berbagai kota, sebagai upaya untuk memprediksi pola lalu lintas.

32
SIMULASI RANTAI MARKOV MONTE CARLO(2)
➢ Bagan di bawah ini adalah contoh data e-sepeda yang disimulasikan.
➢ Untuk informasi lebih lanjut tentang studi kasus ini dan bagaimana dapat
mensimulasikan data lokasi di pos ini.

33
SIMULASI RANTAI MARKOV MONTE CARLO(3)

Gambar prediksi lokasi e-sepeda di pusat kota Tokyo


34
BUAT HISTOGRAM DAN ANALISIS DISTRIBUSI
➢ Histogram adalah representasi grafis dari data yang menunjukkan seberapa
sering nilai tertentu muncul.
➢ Histogram digunakan untuk merangkum kumpulan data besar, dan sering
digunakan dalam analisis statistik.
➢ Misalnya, histogram nilai ujian mungkin menunjukkan berapa banyak siswa yang
mendapat nilai di setiap rentang kelas.
➢ Histogram akan memberi tahu kita skor yang paling umum, berapa banyak siswa
yang mendapat skor di atas rata-rata, dan seterusnya.
➢ Histogram dapat membantu dalam memahami kumpulan data dan dalam
membuat keputusan tentang analisis statistik.

35
HASILKAN DATA SIMULASI
➢ Simulasi data adalah alat yang ampuh untuk memahami dan memecahkan
masalah yang kompleks.
➢ Ini memungkinkan untuk lebih memahami bagaimana perilaku data dan
bagaimana sistem dinamis merespons perubahan variabel.
➢ Apakah untuk mencoba dalam meramalkan pandemi berikutnya atau bahkan
melatih model AI untuk berjalan atau mengemudi, sehingga dapat menggunakan
simulasi data untuk meningkatkan hasil.

36
GRETEL.AI
➢ Jika tertarik untuk mempelajari lebih lanjut tentang simulasi data atau ingin
mencobanya sendiri, Gretel.ai siap membantu. Dengan platform ini, dapat
membuat simulasi data dalam hitungan menit dan melihat hasilnya sendiri.

37
DATA MINING
➢ Data mining adalah metode dalam ilmu komputer yang biasa digunakan dalam
proses pencarian knowledge.
➢ Tahapan di dalamnya berguna untuk mencari pola-pola tertentu dari data yang
ada pada database.
➢ Biasanya, metode ini banyak ditemukan pada bidang machine learning dan
statistika.
➢ Pada awalnya, metode penambangan data dikembangkan karena kompleksitas
kerja komputer yang semakin meningkat.
➢ Namun, disinilah keuntungan adanya data mining adalah proses pengumpulan dan
seleksi data yang lebih praktis.

38
PERBEDAAN DATA MINING DAN DATA WAREHOUSE
➢ Tidak sedikit yang belum mengetahui apa perbedaan data warehouse dan data
mining. Dari segi namanya, data mining adalah gabungan dari dua kata bahasa
Inggris “data” yang berarti data dan “mining” yang berarti menambang. Dengan
kata lain, data mining adalah sebuah proses penambangan data. Sedangkan
data “warehouse” adalah sebuah gudang atau tempat penyimpanan data.
➢ Selain perbedaan data warehousing dan data mining, keduanya memiliki
kesamaan pemakaian kata yang ditujukan untuk menggambarkan sebuah proses.
Namun data warehousing berarti pengumpulan data.
➢ Terlepas dari perbedaan data warehouse dan data mining, keduanya masih saling
berkaitan. Proses penambangan data membutuhkan data warehouse untuk
mengambil data yang akan diolah dan diamati polanya.

39
METODE DATA MINING
➢ Metode data mining adalah cara yang diterapkan namun perlu disesuaikan
dengan tujuan penggunanya. Ada beberapa pembagian metode data mining
berikut yang bisa ketahui.
➢ Classification
➢ Association
➢ Clustering
➢ Regression
➢ Forecasting
➢ Sequencing
➢ Descriptive

40
CLASSIFICATION
➢ Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan
karakteristik dalam suatu kelompok atau kelas (class).
➢ Klasifikasi data mining menjadi salah satu metode yang paling umum untuk
digunakan.
➢ Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang
labelnya belum diketahui.

41
ASSOCIATION
➢ Metode data mining yang kedua adalah market basket analysis (analisis keranjang
pasar) atau association.
➢ Berhubungan dengan pemasaran, metode ini bertujuan untuk mengidentifikasi
produk yang sering dibeli bersamaan oleh pelanggan.
➢ Bagaimana contohnya? Misalnya beberapa pelanggan akan membeli snak dan
minuman kemasan bersamaan.
➢ Dengan begitu perusahaan lebih mudah mengetahui kalau kedua barang tersebut
sering dibeli bersamaan.

42
CLUSTERING
➢ Clustering data mining adalah nama lain untuk metode segmentation.
➢ Tujuan dari segmentasi pada metode data mining adalah mengelompokkan suatu
class ke dalam beberapa segmen berdasarkan atribut yang ditentukan.
➢ Penentuan atribut harus sesuai kesamaan yang dimiliki beberapa class tadi.

43
REGRESSION
➢ Metode keempat dari data mining adalah regression.
➢ Metode yang satu ini sedikit mirip dengan klasifikasi data mining.
➢ Bedanya, regresi merupakan metode yang bertujuan untuk mencari pola nilai
numerik, bukan kelas.
➢ Hasil dari metode regression adalah sebuah fungsi sebagai penentu hasil yang
didasarkan nilai dari input.

44
FORECASTING
➢ Forecasting data mining adalah metode yang digunakan untuk memprediksi nilai
yang akan dicapai pada satu periode.
➢ Dengan menggunakan teknik ini, noise data dan nilai pada periode sebelumnya
dijadikan dasar bahan prediksi.

45
SEQUENCING
➢ Sequence adalah sebuah urutan peristiwa.
➢ Tidak jauh dari namanya, metode sequence analysis berfungsi untuk mencari sebuah
pola pada serangkaian kejadian atau sequence.
➢ Contoh sederhananya dalam kehidupan sehari-hari adalah ketika makan.
➢ Rangkaian yang umum dilakukan adalah mengambil piring, sendok dan garpu,
kemudian baru mengambil lauk pauk.
➢ Pola seperti itu yang berusaha dicari tahu melalui sequencing.

46
DESCRIPTIVE
➢ Metode data mining yang satu ini bertujuan untuk memahami lebih dalam
mengenai data-data yang masuk dalam pengamatan.
➢ Hasil akhirnya adalah mengetahui perilaku dari data itu sendiri.

47
TAHAPAN DATA MINING
➢ Sederhananya, bisa menganalogikan proses data mining dengan penambangan
emas.
➢ Sebagai penambang emas, pastinya harus melakukan beberapa tahapan agar
butiran batu mentah biasa bisa berubah menjadi emas berharga.
➢ Bagaimana penerapannya dalam tahapan data mining? Simak penjelasan
tahapan data mining di bawah ini.
➢ Pembersihan data (data cleaning)
➢ Integrasi data (data integration)
➢ Transformation
➢ Data mining
➢ Evaluasi pola (pattern evaluation)

48
DATA CLEANING
➢ Dalam proses menambang emas, tahap awal yang dilakukan adalah dengan
mencari batu atau lumpur yang sekiranya bisa diolah menjadi emas yang bagus.
➢ Dalam proses tersebut, pasti menemukan satu atau bahkan mencapai puluhan batu
yang kurang layak untuk diproses.
➢ Sehingga batu-batu itu perlu dibuang.
➢ Begitu juga penerapannya dalam tahapan data mining.
➢ Sebelum diproses dan dibentuk menjadi sebuah knowledge, data yang ada harus
dibersihkan terlebih dahulu.
➢ Jika ada yang mengandung error, maka data-data tersebut harus dibuang,
sehingga tersisa data yang ‘bagus’ untuk diolah dalam tahap selanjutnya.
49
DATA INTEGRATION
➢ Langkah kedua dalam tahapan data mining adalah integrasi data.
➢ Setelah menemukan batu-batu yang cocok, selanjutnya penambang akan mulai
mengkombinasikan untuk dijadikan batangan emas atau bentuk emas lainnya.
➢ Dalam data mining, data yang berhasil dibersihkan juga akan diintegrasi.

50
TRANSFORMATION
➢ Seperti bentuk emas yang berbeda-beda, maka proses pembentukannya juga
akan berbeda.
➢ Begitu juga dengan data, dalam tahap transformation data akan dipilih dan
diubah formatnya agar sesuai dengan teknik atau metode yang dipakai.
➢ Pada tahap ini pula kualitas data mining akan terlihat.

51
DATA MINING
➢ Tahapan data mining selanjutnya adalah proses penambangan data itu sendiri.
➢ Perlu penentuan metode penambangan yang tepat.

52
PATTERN EVALUATION
➢ Setelah bahan mentah emas selesai diolah, maka perlu diuji juga apakah sudah
sesuai dengan standar kualitasnya atau belum.
➢ Baru setelah itu bisa didistribusikan ke toko emas dan didisplay kepada
pelanggan.
➢ Setelah selesai melakukan proses data mining, pola-pola yang dihasilkan dari
proses tersebut perlu untuk dievaluasi.
➢ Tujuan dari dilakukannya evaluasi adalah untuk menguji hipotesis awal.
➢ Setelah teruji data bisa dipresentasikan kepada pengguna.

53
MANFAAT DATA MINING
➢ Secara teknis, metode ini memang tidak lepas dari ilmu komputer dan kecerdasan
buatan.
➢ Namun, ternyata manfaatnya bisa dirasakan dalam berbagai bidang lainnya,
termasuk bisnis dan pemasaran.
➢ Berikut sejumlah manfaat data mining.
➢ Mengetahui tren
➢ Metode untuk memprediksi keputusan bisnis di masa depan
➢ Mengetahui produk yang dibeli bersamaan
➢ Mengamati perilaku konsumen
➢ Model sebagai sarana menyusun strategi peningkatan penjualan

54
CONTOHDATA MINING
➢ Sebuah perusahaan terdiri dari berbagai macam divisi, salah satunya adalah
pemasaran produk.
➢ Pola-pola yang dihasilkan dari proses data mining bisa membantu mereka untuk
mengidentifikasi karakteristik pembeli.
➢ Setelah mengetahui bagaimana pola konsumen, maka akan lebih mudah dalam
mendesain promosi dan pengembangan produk.

55
CONTOHDATA MINING(2)
➢ Selain itu, data mining adalah metode yang bisa membantu suatu industri dalam
memprediksi perilaku konsumen.
➢ Seperti yang diketahui, perilaku konsumen adalah segala tindakan konsumen
terhadap suatu perusahaan atau produk.
➢ Dengan algoritma data mining, akan lebih mudah bagi perusahaan untuk
memantau dan mengamati kebiasaan perilaku yang dilakukan oleh seorang
pelanggan, sehingga ke depannya perusahaan bisa menyusun strategi yang lebih
efektif dengan mudah.

56
MACHINE LEARNING
➢ Machine learning adalah cabang aplikasi dari Artificial Intelligence (Kecerdasan
Buatan) yang focus pada pengembangan sebuah sistem yang mampu belajar
sendiri tanpa harus berulang kali di program oleh manusia.
➢ Istilah machine learning pada dasarnya adalah proses komputer untuk belajar
dari data, semua pengetahuan machine learning pasti akan melibatkan data.
➢ Data pada algoritma ini umumnya dibagi menjadi 2 bagian, yaitu data training
dan data testing.

57
DATA TRAINING DAN DATA TESTING
➢ Data training nantinya akan digunakan untuk melatih algoritma dalam mencari
model yang sesuai, sedangkan data testing akan dipakai untuk menguji dan
mengetahui performa model yang didapatkan pada tahapan testing.
➢ Training set adalah bagian dataset yang kita latih untuk membuat prediksi atau
menjalankan fungsi dari sebuah algoritma ML lainnya sesuai tujuannya masing-
masing.
➢ Pemberian petunjuk melalui algoritma agar mesin yang dilatih bisa mencari
korelasinya sendiri.
➢ Test set adalah bagian dataset yang dites untuk melihat keakuratannya, atau
dengan kata lain melihat performanya.

58
DATA TRAINING DAN DATA TESTING(2)

59
STUDI KASUS
➢ Prediksi Hasil Pertandingan NBA menggunakan Analisis Fitur dan Pembelajaran Mesin
➢ Abstrak: Dalam beberapa tahun terakhir, prediksi hasil olahraga semakin populer, seperti
yang ditunjukkan oleh transaksi keuangan besar-besaran dalam taruhan olahraga. Salah
satu olahraga populer dunia yang memikat taruhan dan menarik jutaan penggemar di
seluruh dunia adalah bola basket, khususnya National Basketball Association (NBA) Amerika
Serikat. Makalah ini mengusulkan kerangka pembelajaran mesin cerdas baru untuk
memprediksi hasil permainan yang dimainkan di NBA dengan bertujuan untuk menemukan
rangkaian fitur berpengaruh yang mempengaruhi hasil permainan NBA. Kami ingin
mengidentifikasi apakah metode pembelajaran mesin dapat diterapkan untuk
memperkirakan hasil pertandingan NBA menggunakan data historis (pertandingan
sebelumnya dimainkan), dan faktor signifikan apa yang memengaruhi hasil pertandingan.

60
STUDI KASUS(2)
➢ Untuk mencapai tujuan, beberapa metode pembelajaran mesin yang
memanfaatkan skema pembelajaran berbeda untuk menurunkan model, termasuk
Naïve Bayes, jaringan syaraf tiruan, dan Pohon Keputusan, dipilih. Dengan
membandingkan performa dan model yang diturunkan dengan rangkaian fitur
berbeda yang terkait dengan permainan bola basket, kami dapat menemukan
fitur utama yang berkontribusi pada performa yang lebih baik seperti akurasi dan
efisiensi model prediksi. Berdasarkan analisis hasil, fitur DRB (defensive rebound)
dipilih dan dianggap sebagai faktor paling signifikan yang mempengaruhi hasil
pertandingan NBA. Selain itu, faktor penting lainnya seperti TPP (persentase tiga
poin), FT (lemparan bebas dilakukan), dan TRB (total rebound) juga dipilih, yang
kemudian meningkatkan tingkat akurasi prediksi model sebesar 2–4%. jaringan
saraf tiruan, dan Pohon Keputusan, dipilih.

61
STUDI KASUS(3)
➢ Dengan membandingkan performa dan model yang diturunkan dengan rangkaian
fitur berbeda yang terkait dengan permainan bola basket, kami dapat
menemukan fitur utama yang berkontribusi pada performa yang lebih baik seperti
akurasi dan efisiensi model prediksi. Berdasarkan analisis hasil, fitur DRB
(defensive rebound) dipilih dan dianggap sebagai faktor paling signifikan yang
mempengaruhi hasil pertandingan NBA. Selain itu, faktor penting lainnya seperti
TPP (persentase tiga poin), FT (lemparan bebas dilakukan), dan TRB (total
rebound) juga dipilih, yang kemudian meningkatkan tingkat akurasi prediksi model
sebesar 2–4%. jaringan saraf tiruan, dan Pohon Keputusan, dipilih. Dengan
membandingkan performa dan model yang diturunkan dengan rangkaian fitur
berbeda yang terkait dengan permainan bola basket, kami dapat menemukan
fitur utama yang berkontribusi pada performa yang lebih baik seperti akurasi dan
efisiensi model prediksi.
62
STUDI KASUS(4)
➢ Berdasarkan analisis hasil, fitur DRB (defensive rebound) dipilih dan dianggap sebagai
faktor paling signifikan yang mempengaruhi hasil pertandingan NBA. Selain itu, faktor
penting lainnya seperti TPP (persentase tiga poin), FT (lemparan bebas dilakukan), dan TRB
(total rebound) juga dipilih, yang kemudian meningkatkan tingkat akurasi prediksi model
sebesar 2–4%. kami dapat menemukan fitur utama yang berkontribusi pada kinerja yang
lebih baik seperti akurasi dan efisiensi model prediksi. Berdasarkan analisis hasil, fitur DRB
(defensive rebound) dipilih dan dianggap sebagai faktor paling signifikan yang
mempengaruhi hasil pertandingan NBA. Selain itu, faktor penting lainnya seperti TPP
(persentase tiga poin), FT (lemparan bebas dilakukan), dan TRB (total rebound) juga dipilih,
yang kemudian meningkatkan tingkat akurasi prediksi model sebesar 2–4%. kami dapat
menemukan fitur utama yang berkontribusi pada kinerja yang lebih baik seperti akurasi
dan efisiensi model prediksi. Berdasarkan analisis hasil, fitur DRB (defensive rebound)
dipilih dan dianggap sebagai faktor paling signifikan yang mempengaruhi hasil
pertandingan NBA. Selain itu, faktor penting lainnya seperti TPP (persentase tiga poin), FT
(lemparan bebas dilakukan), dan TRB (total rebound) juga dipilih, yang kemudian
meningkatkan tingkat akurasi prediksi model sebesar 2–4%
63
STUDI KASUS(5)

64
REFERENSI
Jennings W. Simulasi Data: Alat, Manfaat, dan Kasus Penggunaan. Retrieved from
URL: https://gretel.ai/blog/data-simulation (diakses 30-6-2023).
Mufadho M. Perbedaan Data Training dan Data Testing. Retrieved from URL:
https://teknik-informatika-s1.stekom.ac.id/informasi/baca/Perbedaan-Data-
Training-dan-Data-Testing/d475bd43bdae3488afe8a0f648ee5671fb6cdc40
(diakses 30-6-2023).
Populix P. Apa itu Data Mining? Pengertian, Metode, Tahapan., Contoh. Retrieved from
URL: https://info.populix.co/articles/data-mining-adalah/ (diakses 30-6-2023).
Thabtah F, Zhang L. and Abdelhamid N. NBA Game Result Prediction Using Feature
Analysis and Machine Learning. Annalas of Data Science. 6(1), pp.103-116, 2019.

65
TERIMA KASIH

66

Anda mungkin juga menyukai