Anda di halaman 1dari 5

Nama : Septa Cahyani

NIM : 21/476269/PPA/06161

UTS Data Science


1. Jawab:
a. Data Operasional/Tradisional
Data operasional/tradisional adalah tempat penyimpanan data yang saling berhubungan secara
logika yang berhubungan dengan record dari file, sehingga bisa digunakan untuk
mendapatkan suatu informasi yang diperlukan oleh suatu organisasi atau perusahaan, bisa
dikatan data operasional merupakan database yang diperoleh dari kegiatan seharihari.
b. Data Warehouse
Data warehouse adalah database yang saling berinteraksi yang dapat digunakan untuk query
dan analisis, bersifat orientasi subjek, terintegrasi, time-variant, tidak berubah yang digunakan
untuk membantu para pengambilan keputusan.
• Teknik struktur data yang dioptimalkan untuk penyimpanan data di Data warehouse.
Tujuan pemodelan dimensi adalah untuk mengoptimalkan database agar pengambilan data
lebih cepat. Konsep Dimensional Modeling dikembangkan oleh Ralph Kimball dan terdiri
dari tabel “fakta” dan “dimensi”. Data warehouse umumnya berfokus pada pembuatan
rancangan arsitektur dari data warehouse ini. Di sini akan ditentukan pula komponen apa
saja yang dibutuhkan. Agar nanti ketika dipakai, setiap bagian dan datanya dapat
terintegrasi dan digunakan dengan baik. Biasanya ini terdiri atas sistem operasional,
penyimpan data, tools pengolah data, warehouse manager, dan lain-lain.
• Implementasi atau penerapan dari data warehouse secara umum bersifat cukup luas dan
sudah cukup dikenal di tengah masyarakat. Banyak perusahaan yang bergerak di berbagai
bidang yang menggunakan data warehouse untuk pengelolaannya. Pertama terdapat
perusahaan telekomunikasi yang menggunakannya untuk mengamati jumlah transaksi
yang ada. Kedua, terdapat perusahaan keuangan yang menggunakan data Warehouse untuk
mendeteksi transaksi keuangan. Ketiga, perusahaan asuransi yang menggunakan alat
tersebut untuk mengidentifikasi layanan kesehatan. Untuk perusahaan asuransi nantinya
bisa membedakan mana yang harus dan tidak untuk diberikan asuransi.
c. Big Data
Big data digunakan untuk pengolahan data yang melebihi kapasitas pemrosesan database
konvensional, berjumlah terlalu besar, bergerak terlalu cepat, tidak sesuai lagi dengan
kemampuan struktur model arsitektur database tradisional. Dengan menggunakan big data
kita bisa mengambil data dari sumber apa pun dan menganalisisnya untuk menemukan
jawaban yang memungkinkan 1) pengurangan biaya, 2) pengurangan waktu, 3)
pengembangan produk baru, dan penawaran yang dioptimalkan, serta 4) pengambilan
keputusan yang cerdas.
• Teknik yang dapat digunakan dalam menganalisis Big Data: Teknik analisa data ini
melibatkan membandingkan kelompok kontrol dengan berbagai kelompok uji. Tujuan dari
teknik analisa ini ialah mengetahui hasil dari perbedaan perlakuan atau perubahan apa yang
akan meningkatkan variabel objektif yang diberikan. Data mining atau penambangan data
merupakan salah satu cara analisa umum yang digunakan dalam analisa big data.
Contohnya adalah ketika data pelanggan diambil untuk menentukan segmen mana yang
paling mungkin tertarik terhadap suatu penawaran produk. Machine learning juga
digunakan untuk analisa data. Yakni bekerja dengan algoritme komputer untuk
menghasilkan asumsi berdasarkan data. Hasil yang diberikan ialah prediksi yang tidak
mungkin dilakukan oleh manusia.. NLP dikenal sebagai sub-spesialisasi dari ilmu
komputer, kecerdasan buatan, dan linguistik. Alat analisa data ini menggunakan algoritma
untuk menganalisa bahasa manusia secara alami. Statistik untuk mengumpulkan,
mengatur, dan menafsirkan data. Baik dalam survei maupun eksperimen langsung.
• Contoh penerapan secara nyata dalam analisis big data:
1. Netflix, sebuah layanan streaming yang berbasis langganan ini mendulang sukses
dengan memberikan layanan konsumen yang sifatnya personal. Hal ini tidak lepas dari
peran big data analytics software yang mengumpulkan lebih dari 150 juta
pelanggannya dan mengamati interaksi dan respon mereka terhadap sebuah tayangan.
Mulai dari jam berapa mereka biasa menonton, device apa yang mereka gunakan, dan
apakah seseorang menonton sebuah tayangan sampai habis atau tidak.
Informasi ini kemudian dipakai Netflix untuk kembali merekomendasikan film dan
serial televisi yang sesuai dengan perilaku penontonnya.
2. Traveloka melakukan personalisasi dengan menerapkan solusi big data untuk membaca
kebutuhan konsumennya. Dengan melacak kebiasaan konsumen serta lokasi mereka,
Traveloka dapat merekomendasikan promosi yang berada di area pelanggannya.
Traveloka juga menawarkan hotel maupun tiket perjalanan sesuai dengan kebiasaan-
kebiasaan konsumen dalam melakukan pencarian.
d. Business Intelligence
BI merupakan pengambilan keputusan yang mampu menginformasikan pola atau
memperkirakan peristiwa berdasarkan ekstraksi, transform, agregasi dalam sistem pengolahan
data. Business Intelligence (BI) digunakan melalui proses mengumpulkan, menyimpan, dan
menganalisa data dari kegiatan bisnis untuk membantu pengambilan keputusan. Seorang
business intelligence harus mahir menggunakan software untuk menganalisis data. Makanya,
banyak perusahaan yang mencari lulusan jurusan statistika atau teknik industri untuk mengisi
posisi ini, bukan hanya lulusan manajemen atau bisnis saja.
Contohya pada penerapan analisa big data penyebaran covid-19 berdasarkan peta sebaran dan
peraturan protokol dengan Business Intelligence (BI)
e. Machine Learning
Teknologi machine learning (ML) adalah mesin yang dikembangkan untuk bisa belajar
dengan sendirinya tanpa arahan dari penggunanya. Pembelajaran mesin dikembangkan
berdasarkan disiplin ilmu lainnya seperti statistika, matematika dan data mining sehingga
mesin dapat belajar dengan menganalisa data tanpa perlu di program ulang atau diperintah.
Dalam hal ini machine learning memiliki kemampuan untuk memperoleh data yang ada
dengan perintah ia sendiri. ML juga dapat mempelajari data yang ada dan data yang ia peroleh
sehingga bisa melakukan tugas tertentu. Tugas yang dapat dilakukan oleh ML pun sangat
beragam, tergantung dari apa yang ia pelajari.
• Ada beberapa teknik yang dimiliki oleh machine learning, namun secara luas ML memiliki
dua teknik dasar belajar, yaitu supervised dan unsupervised. Teknik supervised learning
merupakan teknik yang bisa kamu terapkan pada pembelajaran mesin yang bisa menerima
informasi yang sudah ada pada data dengan memberikan label tertentu. Diharapkan teknik
ini bisa memberikan target terhadap output yang dilakukan dengan membandingkan
pengalaman belajar di masa lalu. Teknik unsupervised learning merupakan teknik yang
bisa kamu terapkan pada machine learning yang digunakan pada data yang tidak memiliki
informasi yang bisa diterapkan secara langsung. Diharapkan teknik ini dapat membantu
menemukan struktur atau pola tersembunyi pada data yang tidak memiliki label.

f. Data Science
Data science merupakan ilmu yang sedang naik daun saat ini yang dibangun berdasarkan
disiplin ilmu matematika, statistik, dan komputer. Kombinasi disiplin ilmu tersebut membuat
data science powerful untuk mengolah big data.
• Data science dapat membantu proses pengolahan data yang meliputi pengumpulan data,
manipulasi data, hingga analisis data dengan melakukan pemodelan pada kumpulan data
untuk menghasilkan informasi berupa insight yang berguna dan bisa bisa dijadikan
pedoman dalam pengambilan keputusan di masa depan. Data science mengolah big data
dimana berisi data terstruktur maupun tidak terstruktur. Jadi tidak hanya data numerik saja,
tetapi juga data berupa suara, gambar, teks, dan sebagainya.
• Penerapan: Dalam industri makanan seperti restoran cepat saji. Dengan menerapkan data
science kita bisa mengolah data penjualan seperti melihat preferensi konsumen dalam
memilih menu makanan berdasarkan gender atau umur untuk menentukan komposisi paket
menu sehingga penjualan item tertentu yang sebelumnya kurang menjadi meningkat. Hal
ini juga bisa diterapkan dalam industri retail untuk menentukan strategi promosi pada
produk tertentu agar hasil penjualan untuk produk tersebut tidak menurun. Selain dalam
industri bisnis, data science juga bisa diterapkan dalam bidang kesehatan, pemerintahan,
dan lainnya.
• Penerapan data science di bidang kesehatan yang paling relevan dengan kondisi sekarang
ini adalah untuk mengetahui perkembangan Covid-19 di Indonesia. Dengan mengetahui
perkembangannya, pemerintah akan lebih mudah dalam mengambil tindakan yang dapat
menahan persebaran virus, memberikan wawasan kepada masyarakat khususnya wilayah
yang sudah parah persebaran virusnya untuk lebih menjaga kesehatannya, dan sebagainya.
Terdapat juga penelitian yang menggunakan data science untuk membantu pengobatan
kanker. Adapun alat yang digunakan dalam data science yaitu machine learning, data
mining, deep learning, dan artificial intelligence.

2. Jawab:
Pilihan Ganda yang ada di Ms.Teams

3. Jawab:
Dataset dibagi menjadi data training dan data testing.
a. Classifying
Mengklasifikasikan atau mengkategorikan sampel.
b. Correlating
We want to know how well does each feature correlate with Survival. We want to do this
early in our project and match these quick correlations with modelled correlations later in the
project.
c. Completing
i. We may want to complete Age feature as it is definitely correlated to survival.
ii. We may want to complete the Embarked feature as it may also correlate with
survival or another important feature.
d. Correcting
i. Ticket feature may be dropped from our analysis as it contains high ratio of
duplicates (22%) and there may not be a correlation between Ticket and
survival.
ii. Cabin feature may be dropped as it is highly incomplete or contains many null
values both in training and test dataset.
iii. PassengerId may be dropped from training dataset as it does not contribute to
survival.
iv. Name feature is relatively non-standard, may not contribute directly to survival,
so maybe dropped.

e. Creating
i. We may want to create a new feature called Family based on Parch and SibSp
to get total count of family members on board.
ii. We may want to engineer the Name feature to extract Title as a new feature.
iii. We may want to create new feature for Age bands. This turns a continous
numerical feature into an ordinal categorical feature.
iv. We may also want to create a Fare range feature if it helps our analysis.

f. Classifying
We may also add to our assumptions based on the problem description noted earlier.
1. Women (Sex=female) were more likely to have survived.
2. Children (Age<?) were more likely to have survived.
3. The upper-class passengers (Pclass=1) were more likely to have survived.

4. Jawab:
Pilihan Ganda yang ada di Ms.Teams

Anda mungkin juga menyukai