Nim : 20180801044
2. Jelaskan tujuan menemukan pusat lokasi dari suatu atribut dan jelaskan jenis statistic yang digunakan
untuk menentukan pusat lokasi tersebut.
Jawaban :
1. Dalam proses data science, eksplorasi data dimanfaatkan dalam berbagai langkah termasuk pre-
processing atau persiapan data, pemodelan, dan interpretasi hasil pemodelan.
o Eksplorasi data memberikan gambaran umum tingkat tinggi dari setiap atribut (juga disebut
variabel) dalam dataset dan interaksi antara atribut.
o Eksplorasi data membantu menjawab pertanyaan seperti apa nilai khas dari suatu atribut atau
seberapa banyak titik data berbeda dari nilai tipikal, atau keberadaan nilai ekstrem.
o Sebelum menerapkan algoritme data science, dataset harus disiapkan untuk menangani setiap
anomali yang mungkin ada dalam data.
o Anomali ini mencakup outlier, missing value, atau atribut yang sangat berkorelasi.
o Beberapa algoritme data science tidak berfungsi dengan baik ketika atribut input saling
berkorelasi. Dengan demikian, atribut yang berkorelasi perlu diidentifikasi dan dihapus.
o Eksplorasi data dasar terkadang dapat menggantikan seluruh proses data science.
o Misalnya, scatterplot dapat mengidentifikasi kluster dalam data dimensi rendah atau dapat
membantu mengembangkan model regresi
o Terakhir, eksplorasi data digunakan untuk memahami prediksi, klasifikasi, dan pengelompokan
hasil proses data science.
o Histogram membantu memahami distribusi atribut dan juga dapat berguna untuk
memvisualisasikan prediksi numerik, estimasi tingkat kesalahan, dll.
2. Tujuan menemukan pusat lokasi dari suatu atribut adalah untuk mengukur dataset dengan satu
nomor pusat atau nomor yang paling umum.
• Mean
Mean adalah rata-rata aritmatika dari semua pengamatan dalam kumpulan data. Ini dihitung dengan
menjumlahkan semua titik data dan membaginya dengan jumlah titik data. Rata-rata sepal length dalam
sentimeter adalah 5,0060.
• Median
Median adalah nilai titik pusat dalam distribusi. Median dihitung dengan menyortir semua observasi dari
kecil ke besar dan memilih observasi titik tengah dalam daftar yang diurutkan. Jika jumlah titik data
genap, maka rata- rata dari dua titik data tengah digunakan sebagai median. Median untuk panjang
sepal dalam sentimeter adalah 5.0000.
• Mode
Modus adalah observasi yang paling sering terjadi. Dalam dataset, titik data mungkin berulang, dan titik
data yang paling berulang adalah mode kumpulan data. Dalam contoh ini, mode dalam sentimeter
adalah 5.1000.