Anda di halaman 1dari 29

PENGENALAN KOMPUTASI

TUGAS ANALISIS DATA


“INDUSTRI FILM”
KU1102

KELOMPOK 1

MUHAMMAD ALKHADRI (16720467)


AXEL ALEXANDER CHRISTIAN S (16720425)
MUHAMMAD ARKAN NURUZZAHRAN (16720347)
DEVITO PRANATA (16720191)

INSTITUT TEKNOLOGI BANDUNG

BANDUNG

DESEMBER 2020

1
TUGAS 3 - Deskripsi Data dan File

1. Data yang diambil yaitu mengenai industri perfilman dalam interval waktu tiga dekade
(1986-2016). Data yang diambil ini mencakup biaya produksi film, perusahaan yang
membuat film, negara pembuatan film, director film, genre film, pendapatan kotor film,
judul film, rating film, tanggal rilis, waktu tayang film, score IMDB dari film, pemeran
utama film, jumlah orang yang melakukan vote terhadap film, penulis naskah cerita film,
dan tahun rilis film. Dari keseluruhan data tersebut kita dapat mengetahui bagaimana
keberlangsungan industri film selama ini.

2. Format data tersebut adalah .csv


Data tersebut diambil dari https://www.kaggle.com/danielgrijalvas/movies
Dimensi data tersebut adalah 6816 x 15
Ukuran file data tersebut adalah 954KB

2
TUGAS 4 - Karakteristik Data

1. Makna dan Karakteristik Tiap Atribut/Kolom)

Atribut/Kolom Pengertian Jenis

budget Biaya pembuatan film Kuantitatif - Discrete

company Perusahaan yang memproduksi film Kategorikal - Nominal

country Negara tempat pembuatan film Kategorikal - Nominal

director Sutradara film Kategorikal - Nominal

genre Genre film Kategorikal - Nominal

gross Pendapatan dari film Kuantitatif - Discrete

name Judul film Kategorikal - Nominal

rating Rating film Kategorikal - Ordinal

released Tanggal rilis film Kategorikal - Ordinal

runtime Durasi film Kuantitatif - Discrete

score IMDB rating Kuantitatif - Discrete

3
votes Jumlah user yang melakukan vote Kuantitatif - Discrete

star Aktor atau aktris utama Kategorikal - Nominal

writer Penulis film Kategorikal - Nominal

year Tahun rilis film Kategorikal - Ordinal

2. Range Tiap Atribut (Kuantitatif)

● Budget = 0 hingga 30.000.000


● Gross = 70 hingga 936.662.225
● Runtime = 50 hingga 366
● Score = 1,5 hingga 9,3
● Votes = 27 hingga 1.861.666

4
3. Persen Data Kosong

Dari gambar di atas dapat disimpulkan bahwa di dalam data kami tidak ditemukan data yang
kosong.

5
TUGAS 5 - Statistik
Pada tugas 5 ini, kelompok kami menampilkan berbagai hal yaitu data pada baris pertama tiap
kolom, 10 data terbesar di setiap kolom, 10 data terkecil di setiap kolom, sampel data dari setiap
kolom, dan statistik data (mean, nilai max, nilai min, standar deviasi, dan persentil).

1. Data Pada Baris Pertama

2. Menampilkan 10 Data Terbesar Di Setiap Kolom (Kuantitatif)


● Budget

● Gross

6
● Released

● Runtime

7
● Score

● Votes

8
● Year

3. Menampilkan 10 Data Terkecil Pada Setiap Kolom (Kuantitatif)

● Budget

● Gross

9
● Released

● Runtime

10
● Score

● Votes

11
● Year

4. Menampilkan Sampel Data Dari Setiap Kolom (Kuantitatif)

● Budget

● Gross

12
● Released

● Runtime

● Score

● Votes

13
● Year

5. Statistik Data

● Mean adalah nilai rata-rata dari tiap kolom data


● Nilai maksimum (max) adalah nilai terbesar dan nilai minimum (min) adalah nilai
terkecil dari setiap kolom data
● Std adalah standar deviasi dari tiap kolom data
● 25%, 50%, dan 75% menyatakan presentil bawah,nilai rata-rata(mean), dan presentil atas
● Persentil 10%

14
● Persentil 90%

● Distribusi frekuensi
❖ Country

15
❖ Company

❖ Director

❖ Genre

❖ Rating

16
❖ Released

❖ Score

❖ Star

❖ Writer

17
❖ Year

18
TUGAS 6 - Visualisasi

1. Visualisasi perbandingan kategori


● Perbandingan kategori

Dari visualisasi data tersebut, kita dapat mengetahui perbandingan banyaknya film pada
setiap rating yang tersedia di industri film. Label x menyatakan rating, sedangkan label y
menyatakan jumlah film.

Dari visualisasi data tersebut, kita dapat melihat perbandingan biaya yang dibutuhkan
untuk membuat film (budget) dan pendapatan kotor yang dihasilkan dari film tersebut

19
(gross) sehingga kita dapat mengetahui perbandingan keuntungan yang didapatkan dari
produksi setiap film pada tanggal 14 November 2014.Label x menyatakan film yang rilis
pada tanggal 14 November 2014, sedangkan label y menyatakan jumlah budget dan gross
dari setiap film.

● Penampilan perubahan terhadap waktu

Dari visualisasi data tersebut, kita dapat mengetahui jumlah pendapatan kotor (gross) dari
keseluruhan data industri film setiap tahunnya. Label x menyatakan tahun rilis film (year),
sedangkan label y menyatakan jumlah pendapatan kotor (gross).

Dari visualisasi data tersebut, kita dapat mengetahui jumlah biaya pembuatan film
(budget) dari keseluruhan data industri film setiap tahunnya. Label x menyatakan tahun
rilis film (year), sedangkan label y menyatakan jumlah biaya pembuatan film (budget).

20
● Penampilan hierarki dan hubungan keseluruhan bagian

❖ Country

❖ Genre

21
❖ Rating

❖ Score

22
❖ Year

● Plotting Relationships
1. Gross dan Budget

2. Score dan Votes

23
TUGAS 7 - Korelasi

1. Korelasi antara budget dan gross


Didapatkan nilai korelasi sebesar 0.7121955325421071. Nilai korelasi tersebut mendekati
1 sehingga dua kolom tersebut berbanding lurus.

24
2. Korelasi antara budget dan score
Didapatkan nilai korelasi sebesar 0.0421446825442559. Nilai korelasi tersebut mendekati
0 sehingga dua kolom tersebut tidak berkolerasi.

3. Korelasi antara budget dan runtime


Didapatkan nilai korelasi sebesar 0.2682256068790497. Nilai korelasi tersebut mendekati
0 sehingga dua kolom tersebut tidak berkorelasi.

25
4. Korelasi antara budget dan vote
Didapatkan nilai korelasi sebesar 0.5039239728983248. Nilai korelasi tersebut mendekati
0.5 sehingga dua kolom tersebut memiliki low positive corelation. Artinya “budget” dan
“vote” berkorelasi lurus, tetapi hubungannya tidak terlalu kuat.

5. Korelasi antara gross dan score


Didapatkan nilai korelasi sebesar 0.1656925604302081. Nilai korelasi tersebut mendekati
0 sehingga dua kolom tersebut tidak berkorelasi.

26
6. Korelasi antara gross dan vote
Didapatkan nilai korelasi sebesar 0.6624571618429045. Dengan nilai mendekati 0.5,
korelasi antara “gross” dan “vote” adalah Low Positive Correlation. Artinya “gross” dan
“vote” berkorelasi lurus, tetapi hubungannya tidak terlalu kuat.

7. Korelasi antara gross dan runtime


Didapatkan nilai korelasi sebesar 0.22457912557221918. Dengan nilai mendekati 0,
korelasi antara “gross” dan “runtime” adalah tidak berkorelasi.

27
8. Korelasi antara runtime dan score
Didapatkan nilai korelasi sebesar 0.39534305623009613. Dengan nilai mendekati 0.5,
korelasi antara “runtime” dan “score” adalah Low Positive Correlation. Artinya “runtime”
dan “score” masih berkorelasi lurus, tetapi hubungannya tidak terlalu kuat.

9. Korelasi antara runtime dan vote


Didapatkan nilai korelasi sebesar 0.31739943693439365. Dengan nilai mendekati 0.5,
korelasi antara “runtime” dan “vote” adalah Low Positive Correlation. Artinya “runtime”
dan “vote” berkorelasi lurus, tetapi hubungannya tidak terlalu kuat.

28
10. Korelasi antara score dan vote
Didapatkan nilai korelasi sebesar 0.39360749063017597. Dengan nilai mendekati 0.5,
korelasi antara “score” dan “vote” adalah Low Positive Correlation. Artinya “score” dan
“vote” berkorelasi lurus, tetapi hubungannya tidak terlalu kuat.

Pembagian Tugas
Sepanjang pembuatan tugas analisis data ini, kami selalu mengerjakan laporan secara
bersama-sama melalui platform Google Docs. Pengerjaan coding dibagi secara merata
untuk setiap anggota kelompok.

29

Anda mungkin juga menyukai