Anda di halaman 1dari 3

IF2132/Pemrograman Komputer Tugas Besar II

Sem. 1 2018/2019

Analisis Data Deskriptif dan Prediktif


Versi 19 November 2018

Deskripsi Persoalan:
Carilah minimum 2 (dua) dan maksimum 5 (lima) buah data dalam bentuk tabel di internet atau dari
sumber-sumber lain yang tersimpan dalam file csv atau xls/xlsx. Disarankan (tidak harus):
- data berhubungan dengan bidang teknik perminyakan.
- tabel-tabel data yang digunakan saling berhubungan atau berada dalam domain persoalan yang
sama.
Setiap tabel yang digunakan harus memenuhi syarat berikut:
- Minimum terdiri atas 5 atribut/kolom dan minimum terdiri atas 100 baris
- Harus mengandung atribut kategorikal dan atribut kuantitatif (numerik)
Setidaknya salah satu tabel harus memenuhi syarat berikut:
- Salah satu atribut harus merupakan data waktu (time-series)
Contoh-contoh lokasi untuk mendapatkan dataset di internet:
- US Energy Information and Administration: https://www.eia.gov/petroleum/data.php
- BPS: https://www.bps.go.id/
- Satu Data Indonesia: https://data.go.id/
- UCI Machine Learning Repositories: https://archive.ics.uci.edu/ml/datasets.html
- https://scikit-learn.org/stable/
Anda dapat mencari dari sumber-sumber lain di internet, atau sumber-sumber non-internet. Anda
dipersilakan untuk melakukan pengolahan/manipulasi tanpa menghilangkan esensi dasar dari data
yang Anda gunakan. Pengolahan yang bisa Anda lakukan, misalnya memperbaiki format data,
membersihkan data, mengurangi kolom yang tidak diperlukan, dll.

Tugas:
Dengan Python dan library yang terkait, yaitu Pandas, Matplotlib, dan Numpy Anda diminta untuk
melakukan beberapa analisis deskriptif (descriptive analysis) dan prediktif serta membuat laporan
dan kode program terkait dengan hal tersebut.
Berikut hal-hal yang harus disampaikan dalam laporan:
a. Jelaskan deskripsi data tersebut: data tersebut mengenai apa, informasi/pengetahuan apa yang
ingin diketahui terkait data tersebut.
Jelaskan pula format data tersebut (csv atau excel atau txt atau format data lain), data tersebut
diambil dari mana dan bagaimana dimensinya (ukuran: berapa banyak kolom dan baris), serta
ukuran file data.
Untuk setiap hal yang dilakukan, tuliskan kode programnya, minimum:
o Loading data dari file menjadi dataframe
o Kode program untuk mengetahui dimensi data
Jika Anda melakukan pengolahan/manipulasi terhadap data, jelaskan pengolahan/manipulasi
seperti apa yang Anda lakukan dan bagaimana hasilnya.
b. Tunjukkan sampel data dan berikan penjelasan pada sampel data tersebut. Sampel data dapat
berupa: beberapa data pada baris pertama, beberapa data yang terbesar atau terkecil (lakukan
sort terlebih dahulu), sampel data pada setiap kolom, dll.
Untuk setiap sampel, tuliskan bagaimana kode program untuk mendapatkannya dan tuliskan
hasilnya.
c. Jelaskan makna setiap atribut dan jelaskan jenis data atribut (kategorikal atau kuantitatif, jika
kategorikal, apakah nominal, binary, dst.).

11/19/2018 1
IF2132/Pemrograman Komputer Tugas Besar II
Sem. 1 2018/2019

Jelaskan juga karakteristik data untuk tiap atribut, misalnya terdiri atas nilai apa saja (pada
atribut kategorikal), atau berapa range nilai datanya (pada atribut kuantitatif), berapa persen
data yang kosong, dll.
Untuk setiap karakteristik data yang dibuat, tuliskan kode program untuk mendapatkannya,
misalnya dengan melakukan sorting, mencari nilai minimum/maksimum, dll.
d. Buatlah statistik pada untuk setiap atribut data, minimum terdiri atas:
o Rata-rata dan standar deviasi
o Percentile (10%, 25%, 50%, 75%, 90%)
o Ekstremum (nilai maksimum dan minimum)
o Distribusi frekuensi nilai pada data (jika mungkin)
Berikan penjelasan apa yang bisa diketahui dari statistik tersebut.
Untuk setiap statistik yang dibuat, tuliskan kode program untuk mendapatkannya.
e. Buatlah visualisasi dalam bentuk grafik/chart masing-masing minimum 2 buah, untuk setiap
kategori berikut:
o Perbandingan kategori
o Penampilan perubahan terhadap waktu
o Penampilan hierarki dan hubungan keseluruhan-bagian
o Plotting relationships
Untuk tiap visualisasi yang dibuat:
o Lengkapi visualisasi dengan informasi penting, yaitu: label sumbu x, label sumbu y,
legenda, dan judul visualisasi. Bonus: Jelaskan penggunaan warna yang dipilih.
o Jelaskan insight apa yang bisa Anda dapatkan dari visualisasi yang Anda tampilkan.
o Tuliskan skrip/kode program untuk mendapatkannya.
Bentuk-bentuk grafik/chart yang digunakan dapat menggunakan yang dicontohkan di kelas,
dapat pula Anda perluas dengan menggunakan grafik lain.
Bonus:
Anda diperbolehkan juga menggunakan library Python lain jika Anda, jika Anda memerlukan
membuat grafik/chart lain yang tidak disediakan Matplotlib.
f. Tunjukkan dan jelaskan korelasi antar semua atribut kuantitatif yang ada dalam tabel. Jelaskan
dalam bentuk angka dan perjelas dengan menggunakan visualisasi dalam bentuk grafik yang
terkait.
Tuliskan kode program untuk mendapatkan angka korelasi dan membangkitkan visualisasi dalam
bentuk grafik.
g. Berikan minimum 1 buah contoh contoh persoalan bagaimana analisis prediktif dengan
menggunakan regresi dapat dilakukan dengan data Anda.
Deskripsikan persoalannya, tuliskan kode program, grafik, dan bagaimana Anda melakukan
analisis prediktif untuk persoalan tersebut.
h. Bonus: Jika data Anda dalam keadaan “kotor”, yaitu mengandung terlalu banyak data kosong
atau data yang salah (misalnya: data umur seharusnya > 0, tetapi pada data terdapata angka
negative), buatlah pembahasan khusus tentang:
o Deskripsi tentang tingkat kekotoran data, misalnya: pada atribut yang mana, berapa
persen data yang kotor, dll.
o Bagaimana Anda mengatasinya:
▪ Jika dibiarkan apa adanya, jelaskan apa alasannya.
▪ Jika “dibersihkan”, jelaskan apa alasannya dan bagaimana melakukannya:
apakah diubah nilainya, atau dihapus baris yang mengandung data kotor, dll.
Tuliskan bagaimana kode program untuk mengecek “kekotoran data” dan bagaimana melakukan
pembersihan data (jika dilakukan).

11/19/2018 2
IF2132/Pemrograman Komputer Tugas Besar II
Sem. 1 2018/2019

Ketentuan Pengerjaan:
1. Tugas dikerjakan berkelompok dengan @ kelompok 3 s.d. 4 orang, sama dengan kelompok pada
Tugas Besar I
2. Tugas dikerjakan di komputer pribadi masing-masing.
3. Deskripsi Tugas Besar (termasuk template laporan) dapat dilihat di situs kuliah online
https://stei.kuliah.itb.ac.id/ dan di situs olympia https://olympia.id selambat-lambatnya Senin, 19
November 2018.
4. Jadwal Kegiatan:

Kegiatan Tanggal/Jam
Publikasi Soal Tugas Besar 19 November 2018
Masa pengerjaan 19 November s.d. 2 Desember 2018
Konsultasi wajib dengan asisten 26 November 2018 pada jam praktikum 07.00-09.00
Pengumpulan skrip dan laporan 30 November 2018 pukul 0.00 s.d. 2 Desember 2018 pukul 23.59

5. Dalam masa pengerjaan, semua pertanyaan mengenai spesifikasi program dan deliverables dapat
disampaikan melalui forum Tugas Besar yang akan dibuat di Olympia.
6. Setiap kelompok akan di-assign dengan asisten penilai demo. Waktu dan tempat pelaksanaan
demo ditentukan berdasarkan perjanjian dengan asisten penilai demo dalam rentang waktu yang
ditentukan pada jadwal kegiatan di atas.

Deliverables:
a. Skrip/kode program untuk seluruh persoalan di atas dikumpulkan dalam file
TB2IF2132_XX_YY.py dengan: XX: 2 digit nomor kelas dan YY: 2 digit nomor kelompok. Berikan
keterangan dalam bentuk komentar, skrip mana untuk persoalan yang mana.
Jika keterangan ini tidak diberikan, skrip tidak akan dinilai.
Berikan keterangan dengan jelas pula: Kelompok, anggota kelompok.
b. Data yang digunakan disimpan dalam satu buah folder dengan nama: TB2IF2132_XX_YY dengan
XX dan YY sesuai dengan ketentuan butir a.
Jika data terlalu besar, dapat diberikan dalam bentuk link. Tuliskan link tersebut dalam sebuah
file teks (.txt). Link ini harus tersedia sampai paling lambat tanggal 8 Januari 2019.

Skrip/kode program dikumpulkan dalam 1 file zip dengan nama: TB2IF2132_XX_YY.zip dengan XX
dan YY sesuai dengan ketentuan butir a.

c. Laporan dengan konten seperti di atas. Berikut format laporan:


o Penamaan file: LapTB2IF2132_XX_YY.pdf dengan XX dan YY sesuai ketentuan butir a.
o Ditulis dalam format kertas A4.
o Font formal (Times New Roman, Calibri, atau Arial) dengan ukuran min. 10 dan maksimum
12 dan spasi teks = 1. Setiap halaman laporan harus memiliki minimum nomor halaman
(boleh menambahkan informasi lain pada header dan footer dokumen).
o Berikan sampul laporan yang minimum mengandung informasi berikut: kode dan nama mata
kuliah, daftar NIM dan nama anggota kelompok, judul tugas, bulan dan tahun pemberian
tugas.
o Tuliskan pula bagaimana pembagian kerja dalam kelompok.
d. File zip berisi skrip program dan data berikut laporan dikumpulkan dalam link terpisah yang akan
disediakan di situs olympia https://olympia.id pada jadwal yang ditentukan di atas.

11/19/2018 3

Anda mungkin juga menyukai