Anda di halaman 1dari 12

Pengenalan Teknologi Informasi B

KU1072
PROJECT 2
ANALISIS DATA

“Angka Melek Huruf Usia 15-24 Tahun 2005-2009 di


Indonesia”

Tanggal Pemberian Tugas : 22 November 2018


Tanggal Pengumpulan : 6 Desember 2018
Kelas : 10
Dosen Mata Kuliah : Hadi Kardhana, S.T., M.T., Ph.D
Anggota Kelompok/NIM : Dimas Aryadenata /16618068
Marshal Akbar /16618080
M. Rifqi Rivaldi /16618086
Ezra Aftarekh A /16618176

Fakultas Teknik Sipil dan Lingkungan


2018
PEMBAHASAN
a. Deskripsi Data
Data ini berisikan berbagai informasi mengenai angka melek huruf di Indonesia. Data
disajikan dalam beberapa kolom meliputi Kode Provinsi, Nama Provinsi, Kode
Kabupaten/Kota, Nama Kabupaten/Kota, Tahun, Dan Angka Melek Huruf. Dari beberapa
informasi ini, kita dapat memanfaatkan Data Analisis untuk mengolah data sehingga didapat
beberapa poin penting sesuai diinginkan.
File data diambil dari https://data.go.id/dataset/angka-melek-huruf-usia-15-24-per-
provinsi dengan format data comma separated value (.csv) dengan ukuran file 140 kb.
Data berdimensi 2410 baris dan 6 kolom.
Loading data dari file menjadi dataframe dilakukan dengan cara menulis kode sebagai
berikut:
import pandas as pd
df = pd.read_csv(“processed-angka-melek-huruf-usia-15-24-2005-2009.csv”)
Lalu untuk mengetahui panjang data dilakukan dengan cara menulis kode sebagai
berikut:
print(len(df))

b. Sampel Data beseta penjelasan


Pada data yang tersedia, kita dapat mengambil beberapa sampel yang dapat digunakan
untuk mempermudah pengolahan data. Beberapa hal yang dapat kita peroleh yaitu :

 Sampel Data Teratas


Untuk mendapatkan dan menampilkan beberapa sampel data teratas dilakukan
dengan cara menulis kode sebagai berikut:
print(df[:5])
Kode di atas digunakan untuk menampilkan 5 data teratas, angka di dalam [] bisa
diubah sesuai keinginan. Tampilan hasil kode di atas adalah sebagai berikut:

 Sampel Data Terbesar


Untuk mendapatkan dan menampilkan beberapa sampel data terbesar dilakukan
dengan cara mengurutkan data dari yang terbesar hingga terkecil terlebih dahulu dengan
cara menulis kode sebagai berikut:
df1 = df.sort_values([“angka_melek_huruf”], ascending=[1])
print(df1[:5])
Kode di atas digunakan untuk membuat dataframe baru berdasarkan dataframe
lama yang diurutkan dari yang terbesar ke yang terkecil berdasarkan data kolom
angka_melek_huruf, basis pengurutan data bisa diubah sesuai keinginan asal tipe datanya
integer (bisa diurutkan). Lalu dilanjutkan dengan kode untuk menampilkan 5 data teratas
dari dataframe baru tersebut.

 Sampel Data Terkecil


Untuk mendapatkan dan menampilkan beberapa sampel data terkecil dilakukan
dengan cara mengurutkan data dari yang terkecil hingga terbesar terlebih dahulu dengan
cara menulis kode sebagai berikut:
df2 = df.sort_values([“angka_melek_huruf”], ascending=[0])
print(df2[:5])
Kode di atas digunakan untuk membuat dataframe baru berdasarkan dataframe
lama yang diurutkan dari yang terkecil ke yang terbesar berdasarkan data kolom
angka_melek_huruf, basis pengurutan data bisa diubah sesuai keinginan asal tipe datanya
integer (bisa diurutkan). Lalu dilanjutkan dengan kode untuk menampilkan 5 data teratas
dari dataframe baru tersebut.

c. Makna Setiap Atribut


Atribut terbagi menjadi 2, kuantitatif dan kategorikal.

 Atribut kuantitatif adalah data yang dapat dihitung banyaknya dan dapat diwakilkan
dalam bilangan interger atau real. Dapat berupa skala-interval atau skala-rasio,
contoh: data angka_melek_huruf, kode_provinsi, dan tahun. Atribut ini biasanya juga
disebut atribut terukur. Atribut terukur ini juga dibagi menjadi dua;
1. Discrete Measurement Data: hanya beberapa nilai saja yang mungkin
2. Continuous Measurement Data: data yang secara teori, membuat sebuah
interval pasti memiliki nilai diantara interval tersebut dengan alat ukur yang
baik
 Atribut kategorikal adalah data yang dibuat untuk mengelompokkan data acak
menjadi berkumpul dengan yang sama kategorinya. Atribut kategorikal bisa lagi
dibagi 3 jenis:
1. Atribut Nominal: data yang tidak dapat diurutkan, contoh: nama_provinsi, dan
nama_kabkota
2. Atribut binary: data yang hanya memiliki dua kategori(seperti apakah data
True atau False [Boolean]), contoh: atribut ordinal: data yang urutannya sangat
penting misalnya kode_provinsi, kode_kabkota.

Karakteristik atribut:

 Atribut kuantitatif, nilai mean, standar deviasi, nilai maksimum, nilai minimum, range
data, kuartil atas dan kuartil bawah, median, dan koefisien korelasi
 Atribut kategorikal, nominal yaitu menampilkan data yang sesuai dengan kategori
yang diinginkan, banyak atau jumlah dari pengambilan data tadi
d. Statistik Atribut
Terdapat beberapa data yang dapat diolah menggunakan Data Analisis untuk
memperoleh data-data statistik yaitu rata-rata, standar deviasi, persentil, dan nilai
ekstremum.
Sebelum menentukan data statistik tersebut, hal pertama yang harus dilakukan
adalah membatasi data apa saja yang ingin dicari statistiknya. Misalnya kita ingin mencari
data statistik khusus Provinsi Jawa Barat, atau khusus Kabupaten Aceh Singkil, atau
bahkan secara keseluruhan se-Indonesia, atau bisa juga terkhusus pada tahun tertentu
misalnya 2005. Oleh karena itu kita perlu membuat variabel yang nantinya akan
dimasukkan batasan datanya dengan menuliskan kode berikut:
a=str(input("Masukkan Nama Provinsi:"))
b=str(input("Masukkan Nama Kabupaten/Kota:"))
c=int(input("Masukkan Tahun:"))
Setelah itu baru kita lanjutkan dengan langkah menentukan data statistiknya:

 Rata-Rata
Rata-rata data secara keseluruhan:
print("Rata-rata angka melek huruf di Indonesia adalah " +
str(df["angka_melek_huruf"].mean()))
Rata-rata data provinsi
df1=df.loc [(df["nama_provinsi"] == a)]
df2=df1["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(a) + " adalah " + str(df2))
Rata-rata data provinsi pada tahun tertentu
df3=df.loc [(df["nama_provinsi"] == a) & (df["tahun"] == c)]
df4=df3["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(a) + " pada tahun " + str(c) + " adalah
" + str(df4))
Rata-rata data kabupaten/kota
df5=df.loc [(df["nama_kabkota"] == b)]
df6=df5["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(b) + " adalah " + str(df6))
Rata-rata data kabupaten pada tahun tertentu
df7=df.loc [(df["nama_kabkota"] == b) & (df["tahun"] == c)]
df8=df7["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(b) + " pada tahun " + str(c) + " adalah
" + str(df8))

 Standar Deviasi
Standar deviasi data secara keseluruhan:
print("Standar deviasi angka melek huruf di Indonesia adalah " +
str(df["angka_melek_huruf"].std()))
Standar deviasi data provinsi
df9=df.loc [(df["nama_provinsi"] == a)]
df10=df9["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + " adalah " + str(df10))
Standar deviasi data provinsi pada tahun tertentu
df11=df.loc [(df["nama_provinsi"] == a) & (df["tahun"] == c)]
df12=df11["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + " pada tahun " + str(c) + "
adalah " + str(df12))
Standar deviasi data kabupaten/kota
df13=df.loc [(df["nama_kabkota"] == b)]
df14=df13["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(b) + " adalah " + str(df14))
Standar deviasi data kabupaten pada tahun tertentu
df15= df.loc [(df["nama_provinsi"] == a) & (df["nama_kabkota"] == b) ]
df16=df15["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + ", " + str(b) + " adalah " +
str(df16))

 Nilai Minimum
Nilai minimum data secara keseluruhan
df17 = df.min()
print("Angka melek huruf minimum di Indonesia adalah " +
str(df17["angka_melek_huruf"]))
Nilai minimum data provinsi
df18=df.loc[df["nama_provinsi"] == a]
df19 = df18.min()
print("Angka melek huruf minimum di " + str(a) + " adalah " +
str(df19["angka_melek_huruf"]))
Nilai minimum data kabupaten/kota
df20=df.loc[df["nama_kabkota"] == b]
df21 = df20.min()
print("Angka melek huruf minimum di " + str(b) + " adalah " +
str(df21["angka_melek_huruf"]))

 Nilai Maximum
Nilai maximum data secara keseluruhan
df22 = df.max()
print("Angka melek huruf maximum di Indonesia adalah " +
str(df22["angka_melek_huruf"]))
Nilai maximum data provinsi
df23=df.loc[df["nama_provinsi"] == a]
df24 = df23.max()
print("Angka melek huruf maximum di " + str(a) + " adalah " +
str(df24["angka_melek_huruf"]))
Nilai maximum data kabupaten/kota
df25=df.loc[df["nama_kabkota"] == b]
df26 = df25.max()
print("Angka melek huruf maximum di " + str(b) + " adalah " +
str(df26["angka_melek_huruf"]))

e. Statistik Atribut
Sebelum menampilkan statistik atribut kita perlu memanggil program bawaan dari
python itu sendiri dan memanggil dataframe yang sebelumnya telah kita pakai dengan
menggunakan kode:
import pandas as pd
import matplotlib as plt
df = pd.read_csv("processed-angka-melek-huruf-usia-15-24-2005-2009.csv")
Adapun beberapa statistik atribut yang dapat dibuat adalah:

 Perbandingan Kategori
Perbandingan angka melek huruf Prov. Nanggroe Aceh Darussalam tahun 2005
Kode:
df1=df.loc[(df["nama_provinsi"] == "Prov. Nanggroe Aceh Darussalam") &
(df["tahun"] == 2005)]
df1.plot(kind="bar",x="nama_kabkota",y="angka_melek_huruf",title="Angka
Melek Huruf Prov. Nanggroe Aceh Darussalam Tahun 2005")
plt.pyplot.xlabel("Nama Kabupaten/Kota")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:
Perbandingan angka melek huruf Kab. Agam tiap tahun
Kode:
df2=df.loc[df["nama_kabkota"] == "Kab. Agam"]
df2.plot(kind="line",x="tahun",y="angka_melek_huruf",title="Angka Melek
Huruf Kab. Agam Tiap Tahun")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:

 Penampilan Perubahan terhadap Waktu


Perbandingan angka melek huruf Kab. Poso tiap tahun
Kode:
df3=df.loc[df["nama_kabkota"] == "Kab. Poso"]
df3.plot(kind="line",x="tahun",y="angka_melek_huruf",title="Angka Melek
Huruf Kab. Poso Tiap Tahun")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:

Perbandingan angka melek huruf Kota Bandung tiap tahun


Kode:
df4=df.loc[df["nama_kabkota"] == "Kota Bandung"]
df4.plot(kind="bar",x="tahun",y="angka_melek_huruf",title="Angka Melek Huruf
Kota Batam Tiap Tahun")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:
 Penampilan Hierarki Dan Hubungan Keseluruhan-Bagian

Hubungan data secara keseluruhan dalam grafik batang


Kode:
df5 = df.groupby(["nama_provinsi",
"tahun"])["angka_melek_huruf"].size().unstack()
df5.plot(kind="bar", title = "Hubungan Data Secara Keseluruhan", stacked=True)
plt.pyplot.xlabel("Nama Kabupaten/Kota")
plt.pyplot.ylabel("Jumlah Data")
Hasil:
Hubungan data secara keseluruhan dalam grafik garis
Kode:
df6 = df.groupby(["nama_provinsi",
"tahun"])["angka_melek_huruf"].size().unstack()
df6.plot(kind="line", title = "Hubungan Data Secara Keseluruhan", stacked=True)
plt.pyplot.xlabel("Nama Kabupaten/Kota")
plt.pyplot.ylabel("Jumlah Data")
Hasil:
 Plotting Relationships

Data angka melek huruf Prov. Kalimantan Timur


Kode:
df7 = df.loc [(df["nama_provinsi"] == "Prov. Kalimantan Timur")]
df7.plot(kind="scatter",x="tahun", y="angka_melek_huruf")
plt.pyplot.title("Pesebaran Angka Melek Huruf Prov. Kalimantan Timur")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:

Data angka melek huruf Prov. Kalimantan Timur


Kode:
df8 = df.loc [(df["nama_provinsi"] == "Prov. Papua")]
df8.plot(kind="scatter",x="tahun", y="angka_melek_huruf")
plt.pyplot.title("Pesebaran Angka Melek Huruf Prov. Papua")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:
Korelasi
Dua kolom pada data yang sama bisa memiliki korelasi. Tingkat korelasi ini kita
sebut sebagai koefisien korelasi. Cara memaknai koefisien korelasi adalah sebagai berikut:

 Semakin mendekati 0, semakin dua kolom tidak berkorelasi.


 Semakin mendekati 1, semakin dua kolom berbanding lurus.
 Semakin mendekati -1, semakin dua kolom berbanding terbalik.
Kode untuk mendapatkan korelasi ini adalah:
df["Tingkat_Inflasi"].corr(df["Tahun"])

Anda mungkin juga menyukai