Anda di halaman 1dari 6

From Big Data to Smart Data

Teaching Data Mining and Visualization


Antonio Sanchez, Lisa Burnell Ball
Department of Computer Science
Texas Christian University, Fort Worth, Texas, USA
{a.sanchez-aguillar,l.ball}@tcu.edu

Abstrak - Bagian terpenting dari pengolahan data yang besar adalah


untuk menciptakan pengetahuan dengan mengubah data menjadi data cerdas.
Pintar
data memerlukan data mining dan visualisasi
teknik. Kami percaya bahwa penting untuk mencakup konsep-konsep ini
dalam kurikulum sains komputer sarjana dan dengan demikian
telah mengajar kursus data mining dan visualisasi untuk
beberapa tahun. Dalam visualisasi kami berkonsentrasi
representasi dan interaksi dengan data. Untuk data mining
Kami mencakup beberapa topik, termasuk entropi dan informasi
Keuntungan untuk memilih atribut terbaik untuk klasifikasi dan prediksi.
Untuk pengolahan teks, algoritma statistik berdasarkan Bayes '
Teorema digunakan untuk penyaringan dan tokenisasi data.
Pilihan atribut yang diawasi dan tidak diawasi diberikan
sebagian dengan membedakan antara klasifikasi dan
asosiasi. Pembahasan tentang kappa metrik dan kebingungan
Tabel yang menggunakan validasi silang juga tertutup, seperti penggunaan
Pembelajaran berbasis contoh berdasarkan korelasi lingkungan
untuk klasifikasi dan pengelompokan Akhirnya, untuk berurusan dengan
dataset sangat besar penggunaan MapReduce dan model terkait
diajarkan.

Keywords: smart data, data mining, data visualization,


undergraduate courses component

1 Pendahuluan: Dari Informasi ke Pengetahuan


"Pengetahuan adalah pengalaman, selebihnya adalah informasi"
Albert Einstein
Data mining dan visualisasi sangat penting mengingat
exabyte data sekarang tersedia Untuk beralih dari Big Data ke Smart
Data, kita perlu berpikir dalam istilah Artificial Intelligence (AI)
mesin belajar algoritma untuk melakukan analisis, seleksi,
dan definisi pola, yaitu menciptakan pengetahuan dan bukan
memproses informasi menggunakan aplikasi database tradisional.
Menurut McKinsey [9] analisis data cerdas akan menjadi kuncinya
untuk kompetisi, produktivitas dan inovasi. Terlepas dari
domain (mis., perawatan kesehatan, pelayanan publik, manufaktur), a
Kekurangan ahli yang besar diprediksi pada 2018 dengan lebih dari
150.000 bukaan terisi untuk mereka yang memiliki analisis yang dibutuhkan
keterampilan [1]. Sudah waktunya untuk mulai melakukan sesuatu dan dengan
ketat
Mengajar keterampilan ini untuk sarjana Ilmu Komputer (CS) dan Mahasiswa
Teknologi Informasi (TI). Kami telah mengambil ini
Pendekatan dan dalam tulisan ini kita membahas topik yang kita
pertimbangkan
relevan untuk diajarkan termasuk perolehan kemampuan analisis
menggunakan topik pembelajaran mesin AI.
Jelas bahwa harus ada penekanan lebih pada pengetahuan
dan pilihan daripada informasi. Pola, kelompok dan
Klasifikasi adalah yang terbaik, namun dalam banyak kasus kita hanya
memiliki kecerdasan berarti yang berarti dan harus membuat
pilihan yang memadai Analisis data driven adalah proses dimana
Algoritma pembelajaran mesin dapat diperoleh dengan memadai
solusi. Harus ditekankan bahwa tidak ada satu data pun
pendekatan penambangan, namun agak kader teknik yang bekerja
sendiri atau dalam kombinasi satu sama lain.
Unsur penting dalam menangani data cerdas dengan tepat
visualisasi data; untuk mendapatkan respon yang diinginkan
Dari data penonton pasti cantik, koheren dan
interaktif. Jika tidak, kita kehilangan penonton terlepas dari
relevansi data.
Inti dari pendekatan pedagogis kita mengasumsikan kesepakatan yang bagus
pemrograman komputer, namun kita menggunakan pemrograman yang hebat
Java libraries, khususnya Processing [11] for Data
Visualisasi, Weka [6] untuk Data Mining dan Hadoop [12] untuk
Peta / Mengurangi pemrosesan arus. Mahasiswa CS dan IT harus
sadar bahwa pemrograman diskrit adalah inti dari perangkat lunak apapun
Perkembangan dan keinginan untuk itu adalah apa yang membuat kita mencintai
kita
profesi.

2 Dari Tabel Data ke Data


Visualisasi
"Nilai terbesar dari sebuah gambar adalah ketika hal itu memaksa kita
untuk memperhatikan apa yang tidak pernah kita harapkan untuk dilihat. "
John W. Tukey
Kami memulai pengajaran visualisasi data kursus kami, bukan
pergi dari data ke pengguna. Kami percaya bahwa siswa
Harus disadarkan bahwa setiap tabel atau grafik harus memiliki
narasi alam untuk melibatkan penonton. Memahami
Pertanyaan yang perlu dijawab adalah cara mendekati a
proyek visualisasi Setelah ini kemudian pergi dan mencari data yang
diperlukan Visualisasi memang membutuhkan beberapa data
pertambangan, tapi kebanyakan persyaratan berhubungan dengan perolehan,
Mengurai dan memfilter data adalah tempat penekanannya
ditempatkan. Menciptakan representasi interaktif yang bermakna adalah
kunci sukses proyek visualisasi.
Pada subjek representasi dan interaksi kita harus
hati-hati untuk mengarahkan minat kita untuk mewakili ketergantungan
variabel tidak dalam berbagai dimensi; Hanya ada tiga itu
kita bisa memvisualisasikan Sebaiknya gunakan dalam dua dimensi
skema menggunakan cara lain untuk mewakili dimensi lain.
Interaksi harus digunakan agar pengguna dapat secara dinamis
memodifikasi variabel independen sehingga menghasilkan yang diperlukan
godaan untuk menangkap khalayak. Alih-alih merencanakan a
Y = F (X) sederhana sebagai grafik atau tabel nilai membiarkan pengguna
berbeda
nilai X dan membiarkan Y berubah secara dinamis, seperti ditunjukkan pada
contoh disajikan di bawah ini.
Contoh yang kami hadirkan adalah hasil dari sebuah proyek yang ditugaskan
kepada siswa [13] dan ditunjukkan pada Gambar 1. Dalam kasusnya bukan
menyajikan tabel dengan data daerah umum untuk jumlah
perkawinan di Texas, dia menerapkan solusi menggunakan SVG
peta, menambahkan warna ke negara dengan nilai lebih tinggi (the
variabel tak bebas). Interaksi dicapai dengan memodifikasi
variabel independen untuk bulan dan tahun sehingga memberikan a
visualisasi menarik dimana pola dapat dirasakan dengan mudah.
Untuk kursus kami menggunakan pengolahan Ben Fry [3] tapi tidak
tentu sebagai bahasa melainkan seperangkat perpustakaan jar Java
yang memberikan keleluasaan untuk menambahkan lebih banyak perpustakaan jar
untuk ditingkatkan
proyek pemrograman apapun Manfaat dari pendekatan ini adalah untuk
memiliki akses ke API pemrosesan besar yang mengurangi bunyi berdarah
rincian pemrograman visual serta pemrosesan file dan
interaksi. Apalagi banyak kemampuan lain seperti data
implementasi pertambangan tersedia. Berpengalaman di
pemrograman, siswa dapat menggunakan Eclipse atau IDE lainnya
selesaikan tugas mereka

3 Bagilah dan Conquer menggunakan Entropi


Pada entropi Cybernetics telah digunakan sebagai pengukuran
keragaman dan keuntungan informasi. Dalam karya mani, W. Ross
Quillian mendekati data mining dengan menggunakan entropi untuk mendapatkan
klasifikasi pohon Sampai hari ini C4.5 dan C5 bagus
pendekatan untuk melakukannya Kekurangannya terletak pada kebutuhan
preprocessing untuk membuat model a priori. Dalam kursus kami gunakan
Weka [7] perpustakaan membuat pohon klasifikasi; lagi dengan menggunakan
Perpustakaan Weka dengan Java, siswa dapat menambahkan lebih banyak fitur
proyek mereka, seperti visualisasi yang bagus seperti yang dijelaskan
sebelumnya.
Yang terpenting, entropi bisa digunakan dalam tugas penting lainnya
dalam data mining: klasifikasi atribut. Ini di seleksi
atribut fitur terbaik yang akan digunakan dalam klasifikasi,
sambil mengabaikan yang tidak memberikan informasi yang berguna
mendapatkan, mengurangi waktu komputasi. Entropi sesederhana itu
didefinisikan sebagai -pLog2p adalah cara alami dan efisien untuk
melakukannya.
Weka memiliki dua kelas (InfoGain, GainRatio) yang menggunakan ini
metrik untuk mengevaluasi fitur atau atribut, bersama dengan
kelas ranker untuk metode pencarian yang memungkinkan atribut lebih sedikit
dalam dataset [8]. Namun pemangkasan apriori disarankan di sini
digunakan dengan perhatian dan keahlian; ini adalah untuk mengatakan bahwa
Anda harus
tahu data anda Tapi sekali lagi kita berada di ranah
pengolahan pengetahuan dan pilihan jadi harus dibuat.
Secara umum dalam tabel denormalized penggunaan entropi
dapat mengurangi jumlah atribut yang harus dipertimbangkan a
jumlah yang dapat diatur kurang dari 10.

4 Data Terstruktur ke Klasifikasi Teks


Pengolahan teks tidak terstruktur semakin meningkat
aplikasi. Misalnya, mesin pencari mengandalkannya. Itu
Pendekatan SQL tradisional dalam database relasional menentukan
terstruktur, tabel dinormalisasi. Alternatif NoSQL mulai meningkat
popularitas sebagai alternatif model relasional. Dalam hal apapun
teks preprocessing sebelum penambangan itu adalah aplikasi penting
untuk dipelajari. String tokenization, Stemming dan penggunaan
kamus stopword adalah persyaratan yang diperlukan saat berhadapan
dengan teks Perhitungan frekuensi teks menggunakan IDTF atau
TFT berubah seiring dengan normalisasi frekuensi kata
adalah tugas yang rinci dan rumit di lapangan. Untungnya Weka
menyediakan satu set filter yang membantu dalam perhitungan ini. Sebuah
Contoh oleh Hall [6] ditunjukkan pada Gambar 2.
Klasifikasi dalam kasus ini dilakukan dengan menggunakan Peraturan Bayes
probabilitas bersyarat didefinisikan sebagai
p (H | E) = p (E | H) p (H) / p (E) (1)
Meski jumlah atribut atau feature words mungkin
besar, pendekatan Nave Bayes, yang mengasumsikan kemerdekaan
antara fitur, adalah umum. Seiring dengan ini dimodifikasi
Pendekatan multinomial juga umum dilakukan. Dalam hal apapun a
Laplace Estimator digunakan untuk menghindari frekuensi nol. Kita gunakan
Pendekatan ini di kelas untuk melatih pesan teks
penolakan atau penerimaan

5 Validasi Pengetahuan
Fakta bahwa data mining adalah pilihan antara alternatif,
Aspek penting dalam data mining adalah pengetahuan
validasi Untungnya kebenaran seperti yang didefinisikan oleh Saint Thomas
adalah
cukup banyak metrik dan bukan nilai tetap, memungkinkan kita melakukannya
diskusikan di kelas seberapa bagus data mining kita. Kapan
melakukan klasifikasi dengan menggunakan berbagai algoritma pembelajaran
mesin
kita berakhir dengan satu pengukuran: Success = Right
Klasifikasi / Total jumlah klasifikasi. Asalkan
kami menggunakan distribusi normal dan hukum dalam jumlah besar,
kita dapat menentukan tingkat kepercayaan untuk klasifikasi oleh
memecahkan probabilitas p seperti yang disarankan oleh Hall et al. [7]. Itu
Poin penting dalam solusi ini adalah karena jumlah kasus
meningkatkan rentang interval bisa dikurangi, sehingga mendapatkan lebih
banyak
perkiraan yang tepat Memang ukuran datanya lebih banyak
penting seperti yang dikemukakan oleh Halevy, Norvig, dan Pereira [5] dan
Domingos [2]. Ditambahkan ke ini validasi lintas sepuluh kali lipat juga
cara yang baik untuk memvalidasi klasifikasi. Penggunaan kebingungan
matriks dan pengukuran Kappa adalah cara standar untuk melihat
kinerja algoritma pembelajaran mesin sejak kita
mengurangi hasil classificator acak.
6 Diawasi dan tidak diawasi
Klasifikasi
Asosiasi afinitas versus klasifikasi masih ada lagi
topik diskusi penting di kelas Sebagian besar karena
Pilihan atribut tanpa pengawasan adalah pendekatan standar saat
dihadapkan dengan hubungan antar berbagai aktivitas yang dilihat
atribut. Yang disebut "analisis keranjang pasar" terjadi saat
pengecer berusaha memahami perilaku pembelian
pelanggan. Weka menyediakan baik disaring dan tanpa filter a priori
associator yang dapat digunakan siswa untuk Analisis Afinitas di Indonesia
Berbeda dengan Prism yang digunakan dalam pengawasan tradisional
klasifikasi.
7 Korelasi: Dasar Data Besar
Pertambangan
Akhirnya kita membahas pendekatan yang paling umum digunakan
data mining, contoh berbasis mesin pembelajaran atau memori
belajar berdasarkan korelasi Dalam kasus ini bukan
melakukan model a priori yang eksplisit, contoh baru
dibandingkan dengan kondisi lingkungan sebelumnya yang terlihat di
pelatihan yang telah tersimpan di memori. Inilah alasannya
untuk menyebut pendekatan ini malas belajar; pada kenyataannya seharusnya
disebut tertunda belajar. Hipotesis dibuat
secara dinamis sehingga memungkinkan data dan kompleksitas tumbuh. Nya
Praktek umum dapat dikaitkan dengan kemampuannya untuk menyesuaikan diri
data sebelumnya tak terlihat Contohnya dibandingkan dengan yang sederhana
Pengukuran jarak numerik seperti Euclidean (kuadrat
nilai) atau Manhattan (nilai absolut) dengan menggunakan berikut
Metrik sederhana mempertimbangkan semua atribut (atribut 1 sampai k) atau
fitur untuk dua contoh yang dimaksud (i1, i2):
D = SQRT [(a1
i1-a1
i2) 2 + (a2
i1-a2
i2) 2 +. . . + (ak
i1-ak
i2) 2] (2)
Dengan menggunakan pendekatan ini, normalisasi atribut diperlukan sebagai
Begitu juga dengan penugasan nilai maksimal. Contoh ini
Jenis klasifikasi adalah algoritma tetangga terdekat k dan
mesin kernel untuk pencarian terbatas. Karena lebih banyak data ditambahkan
Manajemen memori menjadi masalah saat menyimpan semuanya
contoh pelatihan; Perhatian harus diambil agar tidak terlalu pas
kebisingan di set pelatihan Clustering sudah banyak digunakan
Pendekatan pembelajaran tanpa pengawasan dimana kelompok dikelompokkan
menurut sebuah (1) alam pusat massa menggunakan jarak berbasis
pengukuran atau K berarti, (2) probabilitas yang diharapkan
maksimalisasi, atau (3) pengorganisasian sendiri. Siswa perlu tahu
bagaimana dan kapan harus menggunakan clustering Weka berguna
kelas untuk pengelompokan, contoh-contoh yang ditunjukkan pada Gambar 3
[7] dan Gambar 4 [7].
8 Hadoop
Kursus di Big Data tidak akan lengkap tanpa
MAP / REDUCE model pemrograman stream untuk diproses
dan menghasilkan dataset besar dengan menggunakan paralel terdistribusi
Arsitektur. Dengan data mining, set awal MAP / REDUCE
Langkah - langkah tersebut dapat dianggap sebagai penyaringan yang
dibutuhkan untuk mempersiapkan
dataset menyediakan penyimpanan yang berlebihan.

Setelah tahap pertama ini data mining, algoritma bisa digunakan.


Perangkat lunak standar untuk pendekatan ini adalah Hadoop [12]. Untuk
Pengelompokan dan klasifikasi kita menggunakan mahout [4]. Manfaat dari
Menggunakannya sebagai pustaka Java adalah kita bisa menggabungkannya
program dengan perpustakaan lain seperti yang telah dibahas sebelumnya.
Kapan
Dihadapkan dengan database besar kesamaan tradisional
Pembelajaran berbasis contoh dapat diganti dengan co-occurrence
perhitungan matriks yang dapat diperoleh dengan menggunakan
MAP / MENGURANGI siklus. Inilah pendekatan yang disarankan oleh
Owen, Anil & Dunning [10]. Menggunakan pengelompokan mahout juga bisa
Diwakili dalam hal siklus MAP / REDUCE. Perhatikan itu
Hadoop / mahout bisa dijalankan baik secara benar-benar terdistribusi
arsitektur atau satu mesin sehingga memungkinkan Java kita
siswa untuk menerapkan keterampilan pemrograman data mining mereka
sendiri.
9 Kesimpulan
"Inovasi adalah transformasi praktik dalam a
masyarakat. Hal itu tidak sama dengan penemuan sebuah gagasan baru
atau objek. Karya nyata inovasi ada di
transformasi praktik. "
Peter Denning

Memang penelitian di Big Data dan data mining merupakan topik hangat
hari ini, namun jika terobosan ini tidak diajarkan di
Tingkat sarjana topik tidak menjadi inovasi.
Sama seperti Peter Denning menyatakan, inovasi membutuhkan rutinitas baru
untuk diciptakan dan dengan demikian mengajarkan konsep-konsep ini menjadi
sebuah
bagian penting dari proses inovasi. Di institusi kita kita
Mengajar kursus tentang data mining dan visualisasi terbuka untuk junior
dan manula; terutama kita tertarik pada programmer cerdas
yang telah terpapar pada kedua struktur data dan database
konsep. Kursus ini menghadapkan siswa pada tren saat ini,
masalah, dan teknologi. Proyek tim, pembelajaran aktif,
dan ukuran kelas kecil semuanya berkontribusi terhadap kesuksesan
Tentu saja. Dalam penilaian siswa formal, siswa sangat banyak
laporkan kursus itu menantang dan penting. Kami mendorong
departemen untuk memasukkan kursus dalam data mining dan
visualisasi dalam program sarjana CS dan IT mereka.

Anda mungkin juga menyukai