2. Sebutkan tools-tools yang digunakan pada data science dan jelaskan kelebihan dan
kekurangan masing-masing tools tersebut
Jawab:
a. Apache Spark
Apache Spark atau Spark adalah tools analisis yang dirancang dengan banyak
API untuk memfasilitasi Data Scientist membuat akses ke data yang diperlukan
untuk machine learning atau penyimpanan dalam SQL. Ini adalah alat gratis lain
yang menawarkan komputasi cluster dalam sekejap mata, yang secepat kilat.
Saat ini, sejumlah organisasi menggunakan Spark untuk memproses kumpulan
data besar. Alat data scientist ini mampu mengakses beragam sumber data,
termasuk HDFS, HBase, S3, dan Cassandra.
Kelebihan: Apache Spark memiliki banyak API machine learning yang dapat
membantu Anda membuat prediksi lebih kuat berdasarkan data. Apache Spark
menawarkan berbagai API yang dapat diprogram dalam Python, R, dan Java.
Selain itu, data science tools yang satu ini juga memiliki kecepatan tinggi.
Apache Spark dapat mencapai performa tinggi dalam hal pemrosesan data.
Kekurangan: Di satu sisi, web server Apache merupakan pilihan terjitu untuk
menjalankan website di platform yang canggih dan stabil. Namun, di sisi lainnya,
Apache juga memiliki beberapa kekurangan yaitu, Terjadi gangguan pada
performa jika suatu website menerima traffic dengan jumlah sangat tinggi dan
Terlalu banyak opsi konfigurasi yang bisa mengarah ke rentannya keamanan.
b. Tableau
Tableau adalah tools visualisasi data yang dikhususkan untuk keperluan intelijen
bisnis (business intelligence). Fungsi dari Tableau adalah mempercepat
pembuatan visualisasi interaktif dari pengolahan data tertentu. Fitur penting dari
Tableau adalah kemampuannya untuk berinteraksi dengan database,
spreadsheet, dan OLAP (Online Analytical Processing). Dengan fitur-fitur
tersebut, data science tools ini memiliki kemampuan untuk memvisualisasikan
data geografis dan dapat digunakan untuk merencanakan bujur dan lintang pada
peta. Tidak hanya itu, Tableau memungkinkan industri perbankan untuk
memonitor kinerja bisnis, pergerakan transaksi nasabah, dan potensi untuk
melakukan cross-selling produk.
Kelebihan:
Kemampuan visualisasi yang tak tertandingi adalah keunggulan utama Tableau.
Dengan menggunakan teknologi visualisasi yang unik, kita dapat dengan cepat
menganalisis data dengan cara mengekspresikan hasil analisis dengan
menggunakan warna, bentuk, dan ukuran. Tim development masih
menginvestigasi mana jenis grafik yang lebih disukai pengguna jadi Tableau
dapat menampilkan grafik terbaik untuk data. Satu-satunya kelemahan di bagian
ini adalah meter, grafik 3D dan ketidakmampuannya dalam membuat heatmap.
Kekurangan:
Kemampuan BI yang Rendah, Tableau tidak memiliki fungsi yang diperlukan oleh
software BI komprehensif seperti laporan skala besar, pembuatan tabel data, dan
static layout. Selain itu, format expor dan pencetakan juga terbatas yang
mempersulit pembagian hasil. Masalah Dalam Penyesuaian, dimana Tableau
cukup tertutup karena sulit untuk disesuaikan kedalam TI perusahaan.
Kelebihan: Opsi Widget Lengkap, Data Studio menyediakan alat lengkap yang
dapat berkinerja lebih baik daripada Google Analytics. Hal ini karena Google
Analytics menampilkan 12 grafik atau pilihan grafik dalam satu laporan. Saat
berada di Data Studio, kamu dapat mengakses opsi widget tambahan seperti
Diagram panah, diagram lingkaran, diagram deret waktu, dan sebagainya. Data
Studio memberi kamu fleksibilitas untuk melihat data sesukamu.
Kekurangan:
- Masalah Pemformatan Format: Data Studio bersifat unik karena hanya
berlaku untuk Data Studio. Dengan kata lain, ini tidak berfungsi seperti
Google Spreadsheet. Karena itu, sering kali ada masalah dengan data
yang tidak dapat diubah atau dibuka di luar Google Data Studio.
- Bukan Alat Intelijen Bisnis: Analisis Google Data Studio tidak sebanding
dengan alat intelijen bisnis (BI) teratas di pasar saat ini (Tableau, Power
BI, atau hanya beberapa). Google Data Studio bagus untuk
memvisualisasikan data, tetapi tidak begitu bagus untuk menganalisis
data.
d. QlikView
QlikView adalah data science tools yang bisa membantu membuat pengumpulan,
integrasi, dan pemrosesan data menjadi sangat cepat dengan fitur penyimpanan
dan memori yang disediakan. QlikView juga bisa digunakan untuk membuat
laporan data menggunakan software visualisasi dan dihubungkan secara
otomatis oleh software QlikView. Tidak hanya itu, salah satu fungsi QlikView
adalah pencarian pola dan tren dalam kumpulan data. Sehingga, QlikView dapat
membantu Anda memahami dan melihat pola dengan menyediakan tools bantu
visual seperti grafik, tabel, peta, dan lain sebagainya.
Kelebihan:
- Data Search Langsung dan Tidak Langsung: Di QlikView, Anda dapat
mencari data secara langsung dan tidak langsung. Di pencarian
langsung, Anda dapat menginput data dan mendapatkan informasi Anda.
Di pencarian tidak langsung, Anda dapat menginput sesuatu yang
berkaitan dengan data yang Anda perlukan dan Anda akan mendapatkan
data yang berkaitan.
Kekurangan:
- Tidak user-friendly untuk pengguna non-teknis: Manajemen data
harusnya user-friendly. Saat ini, hal ini terdapat didalam script editor.
Orang dengan pengetahuan Relational Database dapat menanganinya
dengan mudah, tapi diperlukan pengetahuan seorang programmer. Jika
Anda adalah pengguna non-teknis, QlikView cukup sulit untuk dipelajari.
- Tidak mendukung grafik peta: Pembuatan grafik pemetaan geografis
cukup kompleks kecuali jika Anda membeli add-on third-party.
e. Sisense
Sisense adalah tools data analysis yang memiliki kelebihan untuk membantu
memvisualisasikan hasil analisis data menjadi lebih mudah dimengerti.
Kelebihan:
- kemampuannya dalam menggabungkan data dari berbagai macam
sumber dan menyajikannya dengan visualisasi yang menarik.
- menyediakan dashboard yang interaktif untuk kolaborasi bersama
anggota tim. Jadi, kerja sama antar anggota tim bisa dengan mudah
dilakukan dengan tools yang satu ini.
- Sisense dapat dengan mulus mengintegrasi aplikasi third-party populer
seperti Google Adwords, Excel, Zendesk, dan Salesforce.
- Dengan in-chip engine dalam software ini, Anda dapat bertanya dan
mendapatkan jawab secara cepat tanpa perlu kembali ke drawing board
untuk masalah baru.
Kekurangan:
- Grafik yang terbatas: Grafiknya terbatas. Selain itu, visualisasi dan fitur
pelaporannya terlalu mendasar dibandingkan dengan kompetitornya.
- Tidak mudah untuk kerjaan tim: Saat ini, admin tidak dapat mengedit
dashboard admin lain, hanya pemilik folder dan dashboard yang dapat
mengedit dan mempublikasinya.
3. Jelaskan ada yang dimaksud dengan exploratory data analysis (EDA) pada data
science
Jawab:
Exploratory data analysis (EDA) digunakan oleh ilmuwan data untuk menganalisis
dan menyelidiki kumpulan data dan merangkum karakteristik utamanya, sering kali
menggunakan metode visualisasi data. Ini membantu menentukan cara terbaik untuk
memanipulasi sumber data untuk mendapatkan jawaban yang yang kita butuhkan, sehingga
memudahkan data scientists untuk menemukan pola, menemukan anomali, menguji
hipotesis, atau memeriksa asumsi.
EDA terutama digunakan untuk melihat data apa yang dapat diungkapkan di luar
pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih
baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat
membantu menentukan apakah teknik statistik yang kita pertimbangkan untuk analisis data
sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada
1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses
penemuan data saat ini.
EDA diciptakan, dikembangkan dan diadvokasi oleh John Tukey. Bukunya yang
berjudul " Exploratory Data Analysis " diterbitkan pada tahun 1977, dan masih digunakan
sampai sekarang. Ini mungkin tampak aneh, tetapi itu adalah perubahan mendasar dalam
cara ilmu data / statistik dilakukan. Pada dasarnya dia meringkas EDA dengan kutipan ini:
“It is important to understand what you CAN DO, before you learn to measure how
WELL you seem to have DONE it.” – J. W. Tukey (1977)
Jika Anda tidak memahami data, menjadi sulit untuk mengetahui bagaimana
menganalisisnya. Analisis Confirmatory dan exploratory tidak lebih unggul atau lebih rendah
satu sama lain, melainkan saling melengkapi. Dengan semua alat yang tersedia untuk
melakukan keduanya, mengabaikan salah satunya tidak dapat dimaafkan.
“Today, exploratory and confirmatory (analysis) – can – and should – proceed side
by side.” – J. W. Tukey (1977)
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi
apa pun. Ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami
pola dalam data, mendeteksi outlier atau peristiwa anomali, menemukan hubungan yang
menarik di antara variabel.
1. Dalam dunia bisnis EDA bisa digunakan untuk menganalisis data kepegawain
Berikut contoh visualisasi dari analisis data kepegawain dengan menggunakan
Exploratory Data Analysis
4. Jelaskan bagaimana machine learning dapat memprediksi opini dari teks yang ada
pada media sosial seperti Twitter
Jawab:
Dalam memprediski opini dari teks kita bisa menggunkanan Sentiment
analysis. Sentiment analysis adalah proses penggunaan text analytics untuk
mendapatkan berbagai sumber data dari internet dan beragam platform media
sosial. Tujuannya adalah untuk memperoleh opini dari pengguna yang terdapat pada
platform tersebut. Sentiment analysis merupakan salah satu bidang dari Natural
Languange Processing (NLP) yang membangun sistem untuk mengenali dan
mengekstraksi opini dalam bentuk teks.
Guna menghasilkan opini yang dibutuhkan, sentiment analysis tidak hanya
harus bisa mengenali opini dari teks. Proses yang juga disebut sebagai opini mining
ini juga perlu bekerja dengan mengenali tiga aspek berikut:
Subjek: topik apa yang sedang dibicarakan.
Polaritas: apakah opini yang diberikan bersifat positif atau negatif.
Pemegang opini: seseorang yang mengeluarkan opini tersebut.
Cara kerja sentiment analysis dalam mengambil data dapat dibagi menjadi
tiga langkah, yakni klasifikasi, evaluasi, dan visualisasi hasil. Tahap pertama yaitu
klasifikasi, pada tahap ini kita bisa menggunkanan Machine learning. Kita bisa
mwlakukan klasifikasi dengan melakukan Clustering dengan menggunakan algoritma
k-means.
Twitter mempunyai data user dan data tweet untuk setiap penggunanya.
Setiap data tersebut dapat terakuisisi dengan memanfaatkan Twitter API. Untuk
dapat mengakusisi data Twitter maka mendaftar sebuah aplikasi Twitter. Sebelum
mendaftar sebuah aplikasi Twitter, harus dilakukan login. Kemudian Aplikasi Twitter
akan menyediakan OAuth API sebagai bentuk autentikasi. Setelah mendapatkan
OAuth API (Consumer Key, Consumer Secret, Access Token, dan Access Secret
Token) proses akuisisi data user dan data tweet bisa dilakukan. Setelah
mendapatkan OAuth API, dilakukan crawling data untuk mengakuisisi data
berdasarkan lokasi Geocode, dan input keyword. Pada contoh ini keyword yang
diinputkan berkaitan dengan “K-Pop” dan “K-Drama” . Setelah itu nanti kita bisa
melihat data user yang sesuai dengan lokasi dan keyword yang kita masukkan. Pada
proses crawling tweet, Twitter melakukan payload yang artinya hasil yang dikirim
kembali setelah API panggilan. Pada Twitter menggunakan payload berupa JSON.
Ini juga dapat disebut ini output, atau set hasil. Payload ini biasanya terbuat dari
objek, yang mewakili konsep-konsep di Twitter seperti pengguna, status, dan
lainnya. Contohnya adalah potongan JSON fitur data tweet dengan keyword “Song
Joong Ki”. Halaman hasil menampilkan semua informasi yang sesuai dengan
keyword. Kita juga bisa menyimpan data yang ada pada database dalam
format CSV. Setelah data yang kita inginkan sudah didapat. Maka kita bisa
melakukan proses Clustering dengan K-Means. Sebagai contoh hasil dari
proses Clustering dengan K-Means yang dilakukan oleh Binuri Ayu Dwiarni
dan Budi Setiyono dari ITS yang termuat pada jurnal yang berjudul “Akuisisi dan
Clustering Data Sosial Media Menggunakan Algoritma K-Means sebagai Dasar untuk
Mengetahui Profil Pengguna”, sebagai berikut:
Langkah terkahir dari sentiment analysis yaitu, Visualisasi data. Langkah selanjutnya
dalam metode analisis sentimen adalah visualisasi data. Visualisasi data dilakukan
menggunakan bagan sesuai kebutuhan perusahaan atau siapa saja yang memanfaatkan
data-data ini. Sebagian besar orang biasanya menggunakan teknik yang sudah dikenal,
seperti grafik, histogram, atau matriks. Namun, hasil akhir dari sentiment analysis bisa
sangat bervariasi. Data yang ada dapat muncul disertai domain lain yang terlibat. Karena
itulah, teknik visualisasi data berupa wordcloud, peta interaktif, dan gaya sparkline juga
cukup efektif untuk menampilkan hasil analisis.
5. Terdapat empat (4) algoritma yang sering digunakan pada machine leaning antara
lain; Linear Regression, k-Nearest Neighbors, k-means, dan Naive Bayes. Jelaskan
salah satu dari algoritma tersebut dengan data.
Jawab:
Algoritma K-Means
Metode K-means merupakan metode clustering yang paling sederhana dan umum.
Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah
yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means merupakan
salah satu algoritma klastering dengan metode partisi (partitioning method) yang berbasis
titik pusat (centroid) selain algoritma k-Medoids yang berbasis obyek. Algoritma ini pertama
kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh Hartigan dan Wong tahun
1975 dengan tujuan untuk dapat membagi M data point dalam N dimensi kedalam sejumlah
k cluster dimana proses klastering dilakukan dengan meminimalkan jarak sum squares
antara data dengan masing masing pusat cluster (centroid-based). Algoritma k-Means
dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna
yaitu jumlah cluster k, inisialisasi klaster, dan jarak system, Biasanya, k-Means dijalankan
secara independen dengan inisialisasi yang berbeda menghasilkan cluster akhir yang
berbeda karena algoritma ini secara prinsip hanya mengelompokan data menuju local
minimal. Salah satu cara untuk mengatasi local minima adalah dengan
mengimplementasikan algoritma k-Means, untuk K yang diberikan, dengan beberapa nilai
initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil
(Jain, 2009).
K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering
obyek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari cluster
menjadi rata-rata point dari cluster tersebut.Dalam penerapan algoritma k-Means, jika
diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …, xin) adalah ystem
dalam ruang real Rn, maka algoritma k-Means akan menyusun partisi X dalam sejumlah k
cluster (a priori). Setiap cluster memiliki titik tengah (centroid) yang merupakan nilai rata rata
(mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-Means adalah
memilih secara acak k buah obyek sebagai centroid dalam data. Kemudian, jarak antara
obyek dan centroid dihitung menggunakan Euclidian distance. Algoritma k-Means secara
iterative meningkatkan variasi nilai dalam dalam tiap tiap cluster dimana obyek selanjutnya
ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik tengah
baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses
penentuan titik tengah dan penempatan data dalam cluster diulangi sampai nilai titik tengah
dari semua cluster yang terbentuk tidak berubah lagi (Han dkk, 2012).
Algoritma k-means:
Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi.
Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster.
Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster menjadi
terpusat atau selesai.
Berikut terdapat 8 record yang akan menjadi dataset kemudian dataset tersebut akan
kita gunakan dalam membantu memahami penerapan algoritma k-means clustering.
Langkah Pertama, tentukan jumlah cluster, sebagai contoh jumlah cluster yang akan
di bentuk dari dataset di atas adalah 2 Cluster (kelompok).
Langkah Kedua, tetapkan 2 record dari dataset sebagai titik pusat cluster.
Langkah ketiga, tentukan pusat cluster terdekat untuk setiap record dari dataset.
Nah, untuk tahap ini kita akan menggunakan persamaan Euclidean untuk menentukan jarak
setiap record dengan pusat cluster.
Dan dihitung seterusnya hingga data paling akhir (data ke 8), sehingga diperoleh
rekap hasil perhitungan jarak terdekat ke setiap cluster sebagai berikut :
Setelah didapat nilai update titik pusat cluster, selanjutnya kita akan mengulangi
langkah ketiga, guna menentukan kembali kelompok tiap data. Untuk menguji apakah terjadi
perpindahan kelompok pada data tersebut. So, setelah di hitung kembali didapatlah hasil
nilai terdekat tiap kelompok sebagai berikut.
sementara untuk penentuaan kelompok dapat dilihat pada tabel di bawah ini
Setelah dilakukan penentuan cluster yang baru, sesuai dengan titik pusat cluster
yang diupdate sebelumnya, ditemukan adanya 1 data yang berpindah kelompok, yang
mengakibatkan pengelompokan pada iterasi pertama ini belum konvergen, sehingga harus
dilakukan penentuan kelompok kembali pada iterasi kedua dengan nilai titik pusat cluster
yang harus diupdate ulang.
sebenarnya, inti dari terjadinya banyak iterasi adalah pada saat pemilihan acak titik
pusat cluster di awal, sebaiknya pilihlah titik pusat cluster yang memiliki selesih yang cukup
jauh agar tidak banyak iterasi yang terbentuk, selain itu pastikan juga bahwa titik pust cluster
benar-benar menggambarkan atau mewakili kelompok data yang ingin dikelompokan.