Anda di halaman 1dari 2

Nama : A.

A Ivan Arya Pangestu

Nim : 20180801044

Matkul : Kapita Selekta Informatika

1. Jelaskan tujuan eksplorasi data

2. Jelaskan tujuan menemukan pusat lokasi dari suatu atribut dan jelaskan jenis statistic yang digunakan
untuk menentukan pusat lokasi tersebut.

Jawaban :

1. Dalam proses data science, eksplorasi data dimanfaatkan dalam berbagai langkah termasuk pre-
processing atau persiapan data, pemodelan, dan interpretasi hasil pemodelan.

• Pemahaman data (Data Understanding) :

o Eksplorasi data memberikan gambaran umum tingkat tinggi dari setiap atribut (juga disebut
variabel) dalam dataset dan interaksi antara atribut.

o Eksplorasi data membantu menjawab pertanyaan seperti apa nilai khas dari suatu atribut atau
seberapa banyak titik data berbeda dari nilai tipikal, atau keberadaan nilai ekstrem.

• Persiapan data (Data Preparation) :

o Sebelum menerapkan algoritme data science, dataset harus disiapkan untuk menangani setiap
anomali yang mungkin ada dalam data.

o Anomali ini mencakup outlier, missing value, atau atribut yang sangat berkorelasi.

o Beberapa algoritme data science tidak berfungsi dengan baik ketika atribut input saling
berkorelasi. Dengan demikian, atribut yang berkorelasi perlu diidentifikasi dan dihapus.

• Tugas data science (Data Science Tasks) :

o Eksplorasi data dasar terkadang dapat menggantikan seluruh proses data science.

o Misalnya, scatterplot dapat mengidentifikasi kluster dalam data dimensi rendah atau dapat
membantu mengembangkan model regresi

o atau klasifikasi dengan aturan visual sederhana.


• Menginterpretasikan hasil (Interpreting the Results):

o Terakhir, eksplorasi data digunakan untuk memahami prediksi, klasifikasi, dan pengelompokan
hasil proses data science.

o Histogram membantu memahami distribusi atribut dan juga dapat berguna untuk
memvisualisasikan prediksi numerik, estimasi tingkat kesalahan, dll.

2. Tujuan menemukan pusat lokasi dari suatu atribut adalah untuk mengukur dataset dengan satu
nomor pusat atau nomor yang paling umum.

• Mean

Mean adalah rata-rata aritmatika dari semua pengamatan dalam kumpulan data. Ini dihitung dengan
menjumlahkan semua titik data dan membaginya dengan jumlah titik data. Rata-rata sepal length dalam
sentimeter adalah 5,0060.

• Median

Median adalah nilai titik pusat dalam distribusi. Median dihitung dengan menyortir semua observasi dari
kecil ke besar dan memilih observasi titik tengah dalam daftar yang diurutkan. Jika jumlah titik data
genap, maka rata- rata dari dua titik data tengah digunakan sebagai median. Median untuk panjang
sepal dalam sentimeter adalah 5.0000.

• Mode

Modus adalah observasi yang paling sering terjadi. Dalam dataset, titik data mungkin berulang, dan titik
data yang paling berulang adalah mode kumpulan data. Dalam contoh ini, mode dalam sentimeter
adalah 5.1000.

Anda mungkin juga menyukai