Wowo
Wowo
Syaputra (41515010099)
Niko Stevanus (41515010084)
Noval Kurniawan (41515010081)
Penyusun
Abstrak
Kemudahan akses informasi membuat akses berita hingga hiburan dapat dengan
mudah dibuka atau dilihat oleh pengguna di seluruh dunia. Dengan mengumpulkan data
mengenai NBA Playoff yang hanya di fokuskan di negara Indonesia melalui media sosial
yang populer seperti Twitter kita dapat mencari tahu bagaimana minat warga Indonesia
mengenai olahraga basket.
Jenis analisis ini dapat menggunakan keuntungan nyata dari media sosial untuk
megumpulkan opini dengan mengabungkan hasil pencarian dari waktu ke waktu. Ini dapat
melihat bagaimana opini warga Indonesia tentang olahraga basket dan mengidentifikasi apa
yang membuat mereka tertarik dari olahraga tersebut.
2. Rumusan Masalah
Dengan mengacu pada pada latar belakang masalah diatas, maka permasalahan yang
akan dibahas adalah : “bagaimana menerapkan data mining untuk melihat perkembangan
jumlah penonton pada setiap putaran Playoff NBA”
3. Batasan Masalah
Agar permasalahan lebih terarah dan sesuai dengan apa yang diharapakan maka
penulis membatasi hany apada data dari putaran awal playoff hingga final NBA.
Implementasi menggunakan MYSQL dan menggunakan Bahasa Python.
4. Tujuan penelitian
Adapun tujuan dari penelitian ini adalah menerapkan data mining untuk mengetahui
peningkatan jumlah pengemar dari tahap awal hingga akhir final.
5. Manfaat penelitian
Manfaat dari penelitian ini adalah untuk mengetahui bagaimana respon masyarakat
Indonesia terhadap NBA.
1. Landasan Teori
Data Mining
Terdapat beberapa teknik data mining yang sering disebut-sebut dalam literatur.
1. Association Rule Mining
Association Rule Mining adalah teknik mining untuk menemukan asosiatif antara
kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar
swalayan dapat mengatur penempatan barangnya atau merancang strategi pemasaran
dengan memakai kupon diskon untuk kombinasi barang tertentu.
2. Clustering
Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah
ditentukan sebelumnya, clustering dapat dipakai untuk memberikan label pada kelas
data yang belum diketahui. Karena itu clustering sering digolongkan sebagai metode
unsupervised learning. Prinsip clustring adalah memaksimalkan kesamaan antar
cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang
dipetakan sebagai ruang multidimensi.
3. Klasifikasi
Klasifikasi Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan
tinggi, pendapatan sedang, pendapatan rendah.
Database
Database management system (DBMS) adalah merupakan suatu sistem software yang
memungkinkan seorang user dapat mendefinisikan, membuat, dan memelihara serta
menyediakan akses terkontrol terhadap data. Database sendiri adalah sekumpulan data yang
berhubungan dengan secara logika dan memiliki beberapa arti yang saling berpautan.
Sistem Basis Data merupakan suatu sistem menyusun dan mengelola record-record
menggunakan computer untuk menyimpan atau merekam serta memelihara data operasional
lengkap sebuah organisasi/perusahaan sehingga mampu menyediakan informasi yang optimal
yang diperlukan pemakai untuk proses mengambil keputusan. Salah satu cara menyajikan
data untuk mempermudah modifikasi adalah dengan cara pemodelan data. Model yang akan
dipergunakan pada pelatihan ini adalah Entity Relationship Model.
Berdasarkan Orientasi pemakainnya DBMS dikelompokkan dalam 2 kategori, yaitu: 1.
DBMS yang berorientasi untuk satu atau sedikit pemakai. Contoh: MS-Access,
dBase/Clipper, FoxBase, dan Borland-Paradox. 2.
DBMS yang berorientasi untuk banyak pemakai. Contoh: IBM-DB2, Borland-Interbase,
Informix, Oracle, MS-SQL Server, MySQL
MySQL
MySQL ( My Strukture Query Language ) atau yang biasa di baca “mai-es-kuel” adalah
sebuah program pembuatan database yang bersifat open source, yang artinya siapa saja saja
boleh menggunakannya dan tidak akan di cekal
MySQL AB membuat MySQL tersedia sebagai perangkat lunak gratis dibawah lisensi GNU
General Public License(GPL), tetapi mereka juga menjual dibawah lisensi komersial untuk
kasus-kasus dimana penggunaannya tidak cocok dengan penggunaan GPL. MySQL adalah
Relational Database Management System (RDBMS) yang didistribusikan secara gratis
dibawah lisensi GPL ( General Public License ). Dimana setiap orang bebas untuk
menggunakan MySQL, namun tidak boleh dijadikan produk turunan yang bersifat closed
source atau komersial. MySQL sebenarnya merupakan turunan salah satu konsep utama
dalam database sejak lama, yaitu SQL (Structured Query Language). SQL adalah sebuah
konsep pengoperasian database, terutama untuk pemilihan atau seleksi dan pemasukan data,
yang memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis
MySQL adalah sebuah server database open source yang termasuk populer keberadaannya.
MySQL umumnya digunakan bersamaan dengan PHP untuk membuat aplikasi server yang
dinamis dan powerfull.
POHON KEPUTUSAN
Diantara beberapa metode yang dapat digunakan untuk klasifikasi adalah metode pohon
keputusan atau decission tree. Metode pohon keputusan merupakan sebuah metode yang
dapat mengubah fakta yang sangat besar menjadi sebuah pohon keputusan yang
merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami.
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi
kumpulan-kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil
dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian
pembagi, anggota himpunan hasil menjadi mirip satu dengan yang lainnya.
ALGORITMA C4.5
Salah satu algoritma yang dapat digunakan untuk membuat pohon keputusan (decission tree)
adalah algoritma C4.5. Algoritma C4.5 merupakan algoritma yang sangat populer yang
digunakan oleh banyak peneliti di dunia, hal ini dijelaskan oleh Xindong Wu dan Vipin
Kumar dalam bukunya yang berjudul The Top Ten Algorithms in Data Mining. Algoritma
C4.5 merupakan pengembangan dari algoritma ID3 yang di ciptakan oleh J. Rose Quinlan.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:
a. pilih atribut sebagai akar
b. buat cabang untuk tiap-tiap nilai
c. bagi kasus dalam cabang
d. ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang
sama.
Metodologi
Perangkat Keras
Harddisk dengan kapasitas 320GB
Prosesor Intel Core I5
Perangkat Lunak
Sistem Operasi Windows XP SP3
.MySQL sebagai pengolah database awal
Sublime
Weka
2. Kerangka Umum
Ide utama dari pengumpulan data ini adalah untuk mengamati dengan mengunakan Twitter
sebagai sumber data. Kemudian data diproses menggunakan program pengolahan teks.
3. pengumpulan data
Data akan dikumpulkan melalui Twitter dengan mengkalkulasi jumlah tweet dan memilahnya
sesuai lokasi atau negara tweet tersebut berasal. Untuk ini tweet di fokuskan hanya di wilayah
negara Indonesia. Wordnet akan digunakan untuk menghasilkan kata kunci, sinonim, dan
hyponim untuk memilih kemungkinan tweets dari aliran yang terkait dengan keluhan
pelanggan. Pre-filtering penting untuk mengembalikan tweet yang lebih relevan.
4. Twitter API
Twitter API menyediakan akses untuk mencari tweet-tweet dari Twitter. Tweet akan diambil
dengan kata kunci tertentu dan akan dikumpulkan. Api ini akan digunakan untuk
mendapatkan tweet yang terkait Tentang NBA Playoff.
5. Klasifikasi yang diawasi
Data akan diproses dan divisualisasikan dalam bentuk daftar. Daftar ini akan berubah secara
dinamis seiring perkembangan data tersebut.
7. Jadwal
Proposal
Kajian Pustaka
Koleksi data
dan analisis
Implemetasi
sistem
Pengujian
Laporan
Penulisan
Data yang dikumpulkan melalui Twitter tentang NBAPlayoff akan diklasifikasi menggunakan
pengolongan. Setelah itu semua data di visualisasikan dalam daftar. Dengan kerangka kerja ini
diharapkan dapat membantu mengatahui bagaimana respon masyarakat Indonesia tentang olaharag
basket.