Anda di halaman 1dari 9

5.

TUGAS 5 : Statistik
5.1. Sampel data
a) Menunjukkan sampel data 20 baris pertama
code :
import pandas as pd
df = pd.read_csv("movies.csv")
df[:20]

output :
Pada sampel data diatas terdiri dari 15 kolom yang berisikan 6 atribut numerik yaitu
year, score, votes, budget, gross, runtime.
1 kolom waktu yang menunjukan data tahun
9 atribut kategorikal yang terdiri dari name, rating, genre, released, director, writer,
star, country, company.
b) Menampilkan jumlah film tiap tahun
code :
df["year"].value_counts()

output :
c) Menampilkan urutan film berdasarkan tahun rilis
code :
df.sort_values(by=['released'],ascending=False)

output :

d) menampilkan urutan film berdasarkan score


pada contoh kali ini kami akan menampilkan score film di atas 7
code : df.[(df.score>7)]
output :
e) Menampilkan film berdasarkan genrenya
pada kasus ini kami memberikan contoh untuk menampilkan film bergenre comedy, bila
ingin mengganti yang lain, anda dapat merubah kata tersebut menjadi genre yang akan
anda cari.
Code :
df[(df.genre=="Comedy")]

Output :

f) Menampilkan budget tertinggi untuk pembuatan film


code :
df.agg(["max"])[["budget"]]

output :

g) Menampilkan budget terendah untuk pembuatan film


code : df.agg(["min"])[["budget"]]
output :
3.2 statistik atribut data
Menggunakan tipe data numerik kami dapat memperoleh statistik data yang berisikan
nilai rata-rata, standar deviasi, median, persentil (10%, 25%, 50%, 75%, 90%), nilai
ekstremum (nilai maksimum dan minimum) dan distribusi frekuensi nilai pada data.
a) Menampilkan nilai rata-rata
Code :
df.agg(["mean"])[["year","score","votes","budget","gross","runtime"]]
Output:

b) Menampilkan nilai standar deviasi


Code :
df.std()

Output :

Nilai median dari setiap data dapat diperoleh dengan menggunakan code df.median()
yang menampilkan hasil median tiap data yaitu, year sebesar 1.115351e+01, score
sebesar 9.688416e+01, votes sebesar 1.633238e+05, budget sebesar 4.145730e+08,
runtime sebesar 1.858125e+01.

c) Menampilkan nilai persentil


 Persentil 10%
Code : df.quantile (q=0,1)
Output :
 Persentil 25%
Code : df.quantile (q=0.25)
Output :

 Persentil 50%
Code : df.quantile (q=0.5)
Output :

 Persentil 75%
Code : df.quantile (q=0.75)
Output :
 Persentil 90%
Code : df.quantile (q=0.9)
Output :

d) Menampilkan nilai ekstrim


Code : df.agg(["min","max"])
[["year","score","votes","budget","gross","runtime"]]
Output :

e) Distribusi frekuensi nilai pada data

 Berdasarkan penulisnya (writer)


code : print(df["writer"].value_counts())
Output :

 Berdasarkan Negara (country)


Code : print(df["country"].value_counts())
Output :

 Berdasarkan director
Code : print(df["director"].value_counts())
Output :

 Berdasarkan Genre
Code : print(df["genre"].value_counts())
Output :

Anda mungkin juga menyukai