Anda di halaman 1dari 17

UJIAN TENGAH SEMESTER

EXPLORATORY DATA ANALYTIC

Disusun guna memenuhi tugas mata kuliah

Intelijen Bisnis dan Analisis

Dosen Pengampu :

Made Agung Raharja, S.Si., M.Cs

Oleh :

Putu Ayu Novia Aryanti (2008561011)

I Gede Teguh Permana (2008561015)

I Ketut Oning Pusparama (2008561017)

I Ketut Santa Wijaya (2008561028)

Gede Sudimahendra (2008561057)

Putu Bagus Dio Pranata (2008561100)

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS UDAYANA

MEI 2023
UJIAN TENGAH SEMESTER

EXPLORATORY DATA ANALYTIC

A. Deskripsi Singkat Kasus dan Dataset yang Digunakan

Exploratory Data Analysis (EDA) adalah metode eksplorasi data dengan teknik
aritmatika dan grafis dalam meringkas data. Dalam bisnis. EDA menjadi kebutuhan
utama untuk membantu menemukan wawasan dalam data, pengecekkan kualitas data,
dan penyampaian data secara visual agar lebih mudah dipahami. Dalam proses EDA
kali ini digunakan beberapa data, diantaranya :

1. Melbourne Housing Snapshot

Dataset terkait daftar harga rumah di Melbourne. Dimana terdapat 13.580


baris (records atau jumlah pengamatan) dalam dataset dengan 21 kolom
variabel. Adapun variabel - variabel pada dataset adalah sebagai berikut.

● Rooms: Number of rooms


● Price: Price in dollars
● Method: S - property sold; SP - property sold prior; PI - property
passed in; PN - sold prior not disclosed; SN - sold not disclosed; NB -
no bid; VB - vendor bid; W - withdrawn prior to auction; SA - sold
after auction; SS - sold after auction price not disclosed. N/A - price or
highest bid not available.
● Type: br - bedroom(s); h - house,cottage,villa, semi,terrace; u - unit,
duplex; t - townhouse; dev site - development site; o res - other
residential.
● SellerG: Real Estate Agent
● Date: Date sold
● Distance: Distance from CBD
● Regionname: General Region (West, North West, North, North east …
etc)
● Propertycount: Number of properties that exist in the suburb.
● Bedroom2 : Scraped # of Bedrooms (from different source)
● Bathroom: Number of Bathrooms
● Car: Number of carspots
● Landsize: Land Size
● BuildingArea: Building Size
● CouncilArea: Governing council for the area
2. Medical Cost Personal Datasets

Dataset terkait besaran biaya pengeluaran medis. Dimana terdapat 1338 baris
(records atau jumlah pengamatan) dalam dataset dengan 7 kolom variabel.
Adapun variabel - variabel pada dataset adalah sebagai berikut.

● Adage: age of primary beneficiary


● sex: insurance contractor gender, female, male
● bmi: Body mass index
● children: Number of children covered by health insurance / Number of
dependents
● smoker: Smoking
● region: the beneficiary's residential area in the US, northeast,
southeast, southwest, northwest.
● charges: Individual medical costs billed by health insurance
3. Spotify

Dataset terkait perbandingan jumlah streamed beberapa lagu barat di Spotify.


Dimana terdapat 366 baris (records atau jumlah pengamatan) dalam dataset
dengan 6 kolom variabel. Adapun variabel - variabel tersebut diantaranya :

● Date : tanggal streamed


● Shape of You
● Despacito
● Something Just Like This
● HUMBLE.
● Unforgettable
B. Analisis Kebutuhan Bisnis

Berdasarkan tiga dataset yang digunakan, terdapat tiga analisis kebutuhan bisnis
untuk mengetahui kebutuhan nilai bisnis yang diharapkan, diantaranya:

1. Untuk mengetahui pemetaan harga properti atau rumah (khususnya di daerah


Melbourne) berdasarkan beberapa fitur, seperti jumlah kamar, tipe properti,
tahun dibangun, luas tanah, luas bangunan, dan lokasinya.
2. Untuk mengetahui pemetaan pengeluaran biaya medis seseorang berdasarkan
fitur - fitur seperti usia, jenis kelamin, BMI (Body Mass Index atau ukuran
untuk menunjukkan kategori berat badan seseorang), jumlah tanggungan
(misalnya: anak), kebiasaan yang mempengaruhi kesehatan (misalnya:
merokok), dan tempat tinggal.
3. Untuk mengetahui pemetaan perkembangan lagu - lagu di aplikasi streaming
online yang populer pada kisaran tahun 2016 hingga 2017.
C. Hasil Exploratory Data Analytic
● Analisis Pada Dataset Melbourne House Price
Analisis 1 : Top Realtors by Type and Method
Pada hasil top realtors oleh type dan method didapatkan bahwa method
penjualan dengan property sold (S) menghasilkan penjualan tertinggi dengan
type rumah yang dijual adalah type house (h), type house menetapkan harga
penjualan tertinggi. Nelson, jellis, dan barry adalah sales yang menghasilkan
penjualan tertinggi dengan method dan type yang sama (property sold (S) &
house (h)).
Pada hasil top realtors oleh type dan method didapatkan bahwa method
penjualan selain property sold (S) dengan method penjualan vendor bid (VB)
dan property passed in (pi) mendapatkan jumlah penjualan terendah, adapun
ada sales dengan menggunakan method property sold (S) mendapatkan jumlah
terendah namun type property yang dijual adalah unit (u) yang mana tidak
cocok digunakan dan lebih cocok method property sold (S) digunakan pada
type property house (h). Marshall sebagai sales penjualan terbaik tidak terlalu
baik dengan method penjualan properti vendor bid (VB) dan jellis sebagai
sales penjualan terbaik tidak terlalu baik dengan type property unit (u).

Analisis 2 : Density Plot of the Prices

Kerapatan data pada fitur price dalam memetakan penyebaran data


harga rumah dengan skala kerapatan adalah 1e-6 dan price dengan skala 1e6,
dari visualisasi tersebut dapat dinyatakan bahwa data harga properti pada
tersebar pada range 0-3 yang mana tingkat kerapatan pada range 0-1
mengalami peningkatan dengan sebaran data pada range tersebut sampai 1,0
namun pada range 1-3 mengalami penurunan tingkat kerapatan data atau
penyebaran data. Berdasarkan ulasan tersebut bahwa data harga properti
secara optimal berada pada kisaran harga 0-3 dengan skala 1e 6 dan untuk
range harga 4-8 tidak cukup optimal untuk penyebaran datanya atau range
tersebut merupakan data outlier dan perlu dilakukan penambahan sampling
data pada range data tersebut.

Analisis 3 : Harga Rumah Berdasarkan Latitude dan Longitude

Tingkatan harga properti di daerah melbourne dapat dipetakan


berdasarkan visualisasi tersebut dengan menggunakan metode density
maxplot. Tingkatan nilai properti tersebut berdasarkan nilai pada jarak
longitude dan latitude, jarak longitude dan latitude harus menyerupai atau
mendekati untuk mendapatkan harga properti yang semakin tinggi ditandai
dengan warna daerah semakin kuning, dapat dilihat bahwa pada visualisasi
jika semakin dekat dengan pusat kota melbourne maka harga rumah cenderung
semakin mahal dengan nilai longitude dan latitude menyerupai atau mendekati
satu sama lain, namun jika nilai pada longitude tidak menyerupai atau
mendekati nilainya satu sama lain (longitude > latitude atau latitude >
longitude ) maka harga rumah cenderung tidak semakin tinggi ditandai dengan
warna daerah semakin ungu. Pada visualisasi dinyatakan bahwa jika daerah
semakin jauh dari pusat kota dengan longitude > latitude maka harga properti
semakin kecil ditandai dengan warna daerah berwarna ungu, pada visualisasi
tersebut didapat bahwa harga properti di daerah sekitar caroline springs
sebesar 700k.
Analisis 4 : List 5 region name based on price with the highest in the
highlights

5 tingkatan harga properti teratas berdasarkan nama daerahnya


didapatkan dengan menggunakan metode visualisasi bar chart,
divisualisasikan fitur region name dan fitur price sebagai harga properti
dengan skala 1e9. Pada visualisasi tersebut didapat bahwa southern
metropolitan merupakan nama daerah dengan harga properti tertinggi
(highlight merah pada visualisasi) dan pada nama daerah south-eastern
metropolitan sebagai nama daerah dengan harga properti terendah dari 5
tingkatan harga properti teratas. Pada tingkatan harga pada daerah southern
metropolitan sebagai tingkatan teratas dengan northern metropolitan sebagai
tingkatan nomor dua dan eastern metropolitan tingkatan nomor 3 dengan
south eastern metropolitan sebagai tingkatan nomor lima mengalami tingkatan
harga properti yang cukup mengalami perbedaan secara signifikan, namun
pada tingkatan nomor 2 (northern metropolitan), nomor 3(western
metropolitan), dan eastern metropolitan mengalami perbedaan tingkatan yang
tidak cukup berbeda atau mengalami penurunan harga secara fluktuatif
(berjenjang).
Analisis 5 : Trend Price House On Month and Year

Trend harga properti setiap bulan dan tahunnya dapat divisualisasikan


dengan line chat sebagai representasi data secara realtime untuk mengetahui
perkembangan trend harga properti di setiap bulan dan tahunnya. Pada
visualisasi tersebut didapatkan sebuah pengetahuan bahwa pada bulan july
trend rumah pada tahun 2017 mengalami penurunan secara signifikan jika
dibandingkan tahun sebelumnya (2016), namun pada akhir tahun yaitu bulan
desember mengalami peningkatan tend penjualan harga properti pada tahun
2017 jika dibandingkan pada tahun 2016 namun pada bulan november tahun
2017 trend penjualan harga properti mengalami penurunan kembali jika
dibandingkan pada tahun 2016 dan mengalami peningkatan kembali pada
bulan februari.

Analisis 6 : Analisis Tipe Rumah berdasarkan Harga Terendah


Merupakan hasil dari 3 tingkat harga terendah dari properti,
berdasarkan tipe, dengan menghitung rata - rata harga tiap tipe yaitu
Unit, kemudian Townhouse, dan House. Dimana hasilnya akan
dikelompokan berdasarkan Harga (Price), dan Tipe (Type), dan masing
masing akan mewakili harga rata - rata berdasarkan tipe properti,
dengan harga paling rendah berada paling atas, dan masing - masing
tipe memiliki harga rata - rata dibawah 1.5, dimulai dari harga terendah
yaitu tipe house, kemudian tipe townhouse, dan terakhir tipe unit,
dengan rata - rata paling kecil.

Analisis 7 : Boxplot Perbandingan Harga Rumah berdasarkan


Rentang Usia
Perbandingan harga rumah berdasarkan rentang usia (lama
rumah tersebut dibangun) dapat divisualisasikan dengan Boxplot.
Boxplot dipilih karena dapat memberikan gambaran yang lebih baik
terkait pusat dan penyebaran distribusi harga rumah serta
memungkinkan mengetahui adanya potensi outlier (yang bermanfaat
dalam pemrosesan data lebih lanjut). Nilai rentang usia diperoleh
dengan membuat kolom HouseAge baru dan kemudian dibagi ke
dalam himpunan bagian yang lebih kecil. Dimana dari hasil visualisasi
diperoleh informasi, semakin tua usia rumah maka semakin rendah
harga mediannya, yaitu harga rumah cenderung menurun seiring
bertambahnya usia, hingga mencapai usia 60 tahun. Sedangkan harga
rata- rata rumah berusia lebih dari 60 tahun daripada harga rata - rata
rumah berumur antara 40 dan 60 tahun.

Analisis 8 : Boxplot Perbandingan Harga Rumah berdasarkan


Banyak Kamar
Perbandingan harga rumah berdasarkan banyak kamar dapat
divisualisasikan dengan Boxplot. Boxplot dipilih karena dapat
memberikan gambaran secara visual hasil perhitungan statistik (mean
dan median) dari harga rumah berdasarkan banyak kamarnya. Dimana
semakin banyak kamar, semakin tinggi harga rata - rata rumah, ini
berlaku hingga mencapai rumah dengan 5 kamar. Ternyata rumah
dengan 5 kamar memiliki harga rata - rata tertinggi, bahkan lebih
tinggi dari rumah dengan 4 - 10 kamar.

● Analisis pada Dataset Insurance


Analisis 9 : Medical Charges Increase with age classified as smoking
Pengaruh biaya pengeluaran terhadap umur dapat
direpresentasikan dengan metode scatter plot dengan fitur age sebagai
x dan fitur charges sebagai y untuk mengetahui seberapa besar
pengaruh perkembangan umur terhadap biaya pengeluaran yang
diklasifikasikan kedalam perokok atau bukan perokok. Pada visualisasi
tersebut didapatkan bahwa fitur umur sebagai x berbanding lurus
terhadap fitur charges sebagai y, semakin besar umur maka biaya yang
dikeluarkan untuk kesehatan juga semakin besar ataupun semakin kecil
umur maka biaya pengeluaran untuk kesehatan juga semakin kecil
namun pada perokok biaya kesehatan yang dikeluarkan jauh lebih
besar dibandingkan bukan perokok, dapat dinyatakan bahwa
bertambahnya umur meningkatkan biaya untuk kesehatan karena
secara alamiah resiko kesehatan untuk diobati juga semakin besar dan
jika seorang perokok biaya pengeluarannya jauh lebih besar karena
secara risiko kesehatan disebabkan umur dan perokok dapat
menyebabkan resiko kesehatan yang semakin tinggi dan biaya
kesehatan untuk perawatannya juga semakin besar.

Analisis 10 : Charges people with smoke or no smoke

Pengaruh pengeluaran biaya kesehatan (charges) terhadap


perokok dapat direpresentasikan dengan swarm plot dengan smpker
sebagai x dan charges sebagai y, visualisasi tersebut digunakan untuk
mengetahui pengaruh biaya kesehatan yang dikeluarkan pada perokok
atau bukan perokok. Pada visualisasi tersebut dapat dinyatakan bahwa
seorang perokok memiliki pengeluaran biaya kesehatan yang lebih
besar dibandingkan seorang bukan perokok dengan biaya paling kecil
seorang perokok keluarkan untuk kesehatan sebesar 15.000 ke atas,
bahkan biaya yang dikeluarkan tertinggi sampai 60.000. Pada seorang
bukan perokok rata-rata biaya kesehatan yang dikeluarkan dalam range
100-16.000 dengan biaya kesehatan tertinggi sebesar 35.0000

Analisis 11 : Relations Charges with BMI on smokers (yes/no)


Pada visualisasi tingkat pengaruh BMI terhadap biaya pengeluaran
(charges) berdasarkan perokok atau tidak perokok dengan menggunakan
metode lmplot, digunakan untuk mengetahui keterhubungan setiap fitur data.
Pada visualisasi tersebut dapat dinyatakan bahwa BMI pada perokok
berbanding lurus terhadap biaya pengeluarannya (charges), jika semakin besar
BMI seseorang perokok maka biaya pengeluarannya semakin besar namun
jika semakin kecil BMI seseorang perokok maka biaya pengeluarannya
semakin kecil, BMI yang semakin besar akan sangat mempengaruhi resiko
masalah kesehatan namun pada seseorang tidak perokok tidak terlalu
berdampak pada tinggi pengeluarannya, semakin besar BMI yang
mempengaruhi resiko masalah kesehatan tidak terlalu seseorang tersebut
mengalami pengeluaran biaya (charges) yang cukup besar. Jadi seorang
perokok dan BMI yang tinggi mengalami biaya pengeluaran yang jauh lebih
besar dibandingkan bukan perokok.

● Analisis pada Dataset Spotify


Analisis 12 : Compare song Despacito and shape of you

Perkembangan harian secara global streams lagu yang popular pada


tahun 2017 dan 2018 dengan membandingkan perkembangan streams lagu
despacito dan shape of you menggunakan metode visualisasi line chart untuk
mengetahui perkembangan data secara realtime. Pada visualisasi tersebut
didapatkan bahwa perkembangan stream lagu shape of you pada awal tahun
lebih diminati dibandingkan lagu despacito namun pada perkembangannya
selama 100 hari lagu despacito mengalami lonjakan sangat signifikan dengan
daya tahan lonjakan selama 50 hari jika dibandingkan lagu shape of you
mengalami penurunan secara fluktuatif bertahap dari perkembangannya pada
hari ke-50 sampai hari ke 360 namun pada lagu despacito juga mengalami
penurunan secara fluktuatif bertahap dari hari ke 150- sampai hari ke 360.
Lagu - lagu tersebut mengalami era keemasan (golden stream) untuk
peminatnya yang mana pada lagu shape of you mengalami golden stream pada
awal tahun (hari ke-1) sampai hari ke 50 namun mengalami penurunan
setelahnya dan pada lagu despacito mengalami golden stream pada hari ke
100-150 namun mengalami penurunan setelahnya.

LAMPIRAN : Source Code Exploratory Data Analytic


Code: https://colab.research.google.com/drive/1FeLjjoMEd1vdmMOJDe9cIbuHHIimjcHj?
usp=sharing
Source Code Analisis 1 :

Source Code Analisis 2 :

Source Code Analisis 3 :

Source Code Analisis 4 :

Source Code Analisis 5 :

Source Code Analisis 6 :


Source Code Analisis 7 :

Source Code Analisis 8 :

Source Code Analisis 9 :

Source Code Analisis 10 :

Source Code Analisis 11 :

Source Code Analisis 12 :

Anda mungkin juga menyukai