TUGAS 5 : Statistik
5.1. Sampel data
a) Menunjukkan sampel data 20 baris pertama
code :
import pandas as pd
df = pd.read_csv("movies.csv")
df[:20]
output :
Pada sampel data diatas terdiri dari 15 kolom yang berisikan 6 atribut numerik yaitu
year, score, votes, budget, gross, runtime.
1 kolom waktu yang menunjukan data tahun
9 atribut kategorikal yang terdiri dari name, rating, genre, released, director, writer,
star, country, company.
b) Menampilkan jumlah film tiap tahun
code :
df["year"].value_counts()
output :
c) Menampilkan urutan film berdasarkan tahun rilis
code :
df.sort_values(by=['released'],ascending=False)
output :
Output :
output :
Output :
Nilai median dari setiap data dapat diperoleh dengan menggunakan code df.median()
yang menampilkan hasil median tiap data yaitu, year sebesar 1.115351e+01, score
sebesar 9.688416e+01, votes sebesar 1.633238e+05, budget sebesar 4.145730e+08,
runtime sebesar 1.858125e+01.
Persentil 50%
Code : df.quantile (q=0.5)
Output :
Persentil 75%
Code : df.quantile (q=0.75)
Output :
Persentil 90%
Code : df.quantile (q=0.9)
Output :
Berdasarkan director
Code : print(df["director"].value_counts())
Output :
Berdasarkan Genre
Code : print(df["genre"].value_counts())
Output :