NIM : 21/476269/PPA/06161
f. Data Science
Data science merupakan ilmu yang sedang naik daun saat ini yang dibangun berdasarkan
disiplin ilmu matematika, statistik, dan komputer. Kombinasi disiplin ilmu tersebut membuat
data science powerful untuk mengolah big data.
• Data science dapat membantu proses pengolahan data yang meliputi pengumpulan data,
manipulasi data, hingga analisis data dengan melakukan pemodelan pada kumpulan data
untuk menghasilkan informasi berupa insight yang berguna dan bisa bisa dijadikan
pedoman dalam pengambilan keputusan di masa depan. Data science mengolah big data
dimana berisi data terstruktur maupun tidak terstruktur. Jadi tidak hanya data numerik saja,
tetapi juga data berupa suara, gambar, teks, dan sebagainya.
• Penerapan: Dalam industri makanan seperti restoran cepat saji. Dengan menerapkan data
science kita bisa mengolah data penjualan seperti melihat preferensi konsumen dalam
memilih menu makanan berdasarkan gender atau umur untuk menentukan komposisi paket
menu sehingga penjualan item tertentu yang sebelumnya kurang menjadi meningkat. Hal
ini juga bisa diterapkan dalam industri retail untuk menentukan strategi promosi pada
produk tertentu agar hasil penjualan untuk produk tersebut tidak menurun. Selain dalam
industri bisnis, data science juga bisa diterapkan dalam bidang kesehatan, pemerintahan,
dan lainnya.
• Penerapan data science di bidang kesehatan yang paling relevan dengan kondisi sekarang
ini adalah untuk mengetahui perkembangan Covid-19 di Indonesia. Dengan mengetahui
perkembangannya, pemerintah akan lebih mudah dalam mengambil tindakan yang dapat
menahan persebaran virus, memberikan wawasan kepada masyarakat khususnya wilayah
yang sudah parah persebaran virusnya untuk lebih menjaga kesehatannya, dan sebagainya.
Terdapat juga penelitian yang menggunakan data science untuk membantu pengobatan
kanker. Adapun alat yang digunakan dalam data science yaitu machine learning, data
mining, deep learning, dan artificial intelligence.
2. Jawab:
Pilihan Ganda yang ada di Ms.Teams
3. Jawab:
Dataset dibagi menjadi data training dan data testing.
a. Classifying
Mengklasifikasikan atau mengkategorikan sampel.
b. Correlating
We want to know how well does each feature correlate with Survival. We want to do this
early in our project and match these quick correlations with modelled correlations later in the
project.
c. Completing
i. We may want to complete Age feature as it is definitely correlated to survival.
ii. We may want to complete the Embarked feature as it may also correlate with
survival or another important feature.
d. Correcting
i. Ticket feature may be dropped from our analysis as it contains high ratio of
duplicates (22%) and there may not be a correlation between Ticket and
survival.
ii. Cabin feature may be dropped as it is highly incomplete or contains many null
values both in training and test dataset.
iii. PassengerId may be dropped from training dataset as it does not contribute to
survival.
iv. Name feature is relatively non-standard, may not contribute directly to survival,
so maybe dropped.
e. Creating
i. We may want to create a new feature called Family based on Parch and SibSp
to get total count of family members on board.
ii. We may want to engineer the Name feature to extract Title as a new feature.
iii. We may want to create new feature for Age bands. This turns a continous
numerical feature into an ordinal categorical feature.
iv. We may also want to create a Fare range feature if it helps our analysis.
f. Classifying
We may also add to our assumptions based on the problem description noted earlier.
1. Women (Sex=female) were more likely to have survived.
2. Children (Age<?) were more likely to have survived.
3. The upper-class passengers (Pclass=1) were more likely to have survived.
4. Jawab:
Pilihan Ganda yang ada di Ms.Teams