KU1072
PROJECT 2
ANALISIS DATA
Atribut kuantitatif adalah data yang dapat dihitung banyaknya dan dapat diwakilkan
dalam bilangan interger atau real. Dapat berupa skala-interval atau skala-rasio,
contoh: data angka_melek_huruf, kode_provinsi, dan tahun. Atribut ini biasanya juga
disebut atribut terukur. Atribut terukur ini juga dibagi menjadi dua;
1. Discrete Measurement Data: hanya beberapa nilai saja yang mungkin
2. Continuous Measurement Data: data yang secara teori, membuat sebuah
interval pasti memiliki nilai diantara interval tersebut dengan alat ukur yang
baik
Atribut kategorikal adalah data yang dibuat untuk mengelompokkan data acak
menjadi berkumpul dengan yang sama kategorinya. Atribut kategorikal bisa lagi
dibagi 3 jenis:
1. Atribut Nominal: data yang tidak dapat diurutkan, contoh: nama_provinsi, dan
nama_kabkota
2. Atribut binary: data yang hanya memiliki dua kategori(seperti apakah data
True atau False [Boolean]), contoh: atribut ordinal: data yang urutannya sangat
penting misalnya kode_provinsi, kode_kabkota.
Karakteristik atribut:
Atribut kuantitatif, nilai mean, standar deviasi, nilai maksimum, nilai minimum, range
data, kuartil atas dan kuartil bawah, median, dan koefisien korelasi
Atribut kategorikal, nominal yaitu menampilkan data yang sesuai dengan kategori
yang diinginkan, banyak atau jumlah dari pengambilan data tadi
d. Statistik Atribut
Terdapat beberapa data yang dapat diolah menggunakan Data Analisis untuk
memperoleh data-data statistik yaitu rata-rata, standar deviasi, persentil, dan nilai
ekstremum.
Sebelum menentukan data statistik tersebut, hal pertama yang harus dilakukan
adalah membatasi data apa saja yang ingin dicari statistiknya. Misalnya kita ingin mencari
data statistik khusus Provinsi Jawa Barat, atau khusus Kabupaten Aceh Singkil, atau
bahkan secara keseluruhan se-Indonesia, atau bisa juga terkhusus pada tahun tertentu
misalnya 2005. Oleh karena itu kita perlu membuat variabel yang nantinya akan
dimasukkan batasan datanya dengan menuliskan kode berikut:
a=str(input("Masukkan Nama Provinsi:"))
b=str(input("Masukkan Nama Kabupaten/Kota:"))
c=int(input("Masukkan Tahun:"))
Setelah itu baru kita lanjutkan dengan langkah menentukan data statistiknya:
Rata-Rata
Rata-rata data secara keseluruhan:
print("Rata-rata angka melek huruf di Indonesia adalah " +
str(df["angka_melek_huruf"].mean()))
Rata-rata data provinsi
df1=df.loc [(df["nama_provinsi"] == a)]
df2=df1["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(a) + " adalah " + str(df2))
Rata-rata data provinsi pada tahun tertentu
df3=df.loc [(df["nama_provinsi"] == a) & (df["tahun"] == c)]
df4=df3["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(a) + " pada tahun " + str(c) + " adalah
" + str(df4))
Rata-rata data kabupaten/kota
df5=df.loc [(df["nama_kabkota"] == b)]
df6=df5["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(b) + " adalah " + str(df6))
Rata-rata data kabupaten pada tahun tertentu
df7=df.loc [(df["nama_kabkota"] == b) & (df["tahun"] == c)]
df8=df7["angka_melek_huruf"].mean()
print("Rata-rata angka melek huruf di " + str(b) + " pada tahun " + str(c) + " adalah
" + str(df8))
Standar Deviasi
Standar deviasi data secara keseluruhan:
print("Standar deviasi angka melek huruf di Indonesia adalah " +
str(df["angka_melek_huruf"].std()))
Standar deviasi data provinsi
df9=df.loc [(df["nama_provinsi"] == a)]
df10=df9["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + " adalah " + str(df10))
Standar deviasi data provinsi pada tahun tertentu
df11=df.loc [(df["nama_provinsi"] == a) & (df["tahun"] == c)]
df12=df11["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + " pada tahun " + str(c) + "
adalah " + str(df12))
Standar deviasi data kabupaten/kota
df13=df.loc [(df["nama_kabkota"] == b)]
df14=df13["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(b) + " adalah " + str(df14))
Standar deviasi data kabupaten pada tahun tertentu
df15= df.loc [(df["nama_provinsi"] == a) & (df["nama_kabkota"] == b) ]
df16=df15["angka_melek_huruf"].std()
print("Standar deviasi angka melek huruf di " + str(a) + ", " + str(b) + " adalah " +
str(df16))
Nilai Minimum
Nilai minimum data secara keseluruhan
df17 = df.min()
print("Angka melek huruf minimum di Indonesia adalah " +
str(df17["angka_melek_huruf"]))
Nilai minimum data provinsi
df18=df.loc[df["nama_provinsi"] == a]
df19 = df18.min()
print("Angka melek huruf minimum di " + str(a) + " adalah " +
str(df19["angka_melek_huruf"]))
Nilai minimum data kabupaten/kota
df20=df.loc[df["nama_kabkota"] == b]
df21 = df20.min()
print("Angka melek huruf minimum di " + str(b) + " adalah " +
str(df21["angka_melek_huruf"]))
Nilai Maximum
Nilai maximum data secara keseluruhan
df22 = df.max()
print("Angka melek huruf maximum di Indonesia adalah " +
str(df22["angka_melek_huruf"]))
Nilai maximum data provinsi
df23=df.loc[df["nama_provinsi"] == a]
df24 = df23.max()
print("Angka melek huruf maximum di " + str(a) + " adalah " +
str(df24["angka_melek_huruf"]))
Nilai maximum data kabupaten/kota
df25=df.loc[df["nama_kabkota"] == b]
df26 = df25.max()
print("Angka melek huruf maximum di " + str(b) + " adalah " +
str(df26["angka_melek_huruf"]))
e. Statistik Atribut
Sebelum menampilkan statistik atribut kita perlu memanggil program bawaan dari
python itu sendiri dan memanggil dataframe yang sebelumnya telah kita pakai dengan
menggunakan kode:
import pandas as pd
import matplotlib as plt
df = pd.read_csv("processed-angka-melek-huruf-usia-15-24-2005-2009.csv")
Adapun beberapa statistik atribut yang dapat dibuat adalah:
Perbandingan Kategori
Perbandingan angka melek huruf Prov. Nanggroe Aceh Darussalam tahun 2005
Kode:
df1=df.loc[(df["nama_provinsi"] == "Prov. Nanggroe Aceh Darussalam") &
(df["tahun"] == 2005)]
df1.plot(kind="bar",x="nama_kabkota",y="angka_melek_huruf",title="Angka
Melek Huruf Prov. Nanggroe Aceh Darussalam Tahun 2005")
plt.pyplot.xlabel("Nama Kabupaten/Kota")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil:
Perbandingan angka melek huruf Kab. Agam tiap tahun
Kode:
df2=df.loc[df["nama_kabkota"] == "Kab. Agam"]
df2.plot(kind="line",x="tahun",y="angka_melek_huruf",title="Angka Melek
Huruf Kab. Agam Tiap Tahun")
plt.pyplot.xlabel("Tahun")
plt.pyplot.ylabel("Angka Melek Huruf")
Hasil: