Anda di halaman 1dari 7

UNIVERSITAS NUSANTARA PGRI KEDIRI

FAKULTAS TEKNIK, PROGRAM STUDI TEKNIK INFORMATIKA


MATA KULIAH : PEMODELAN DAN SIMULASI
PERTEMUAN KE-02 (Dataset & Praproses)

A. Dataset
Dataset adalah sekumpulan data yang disusun secara terstruktur. Biasanya, dataset dipresentasikan
dalam bentuk tabel, alias baris dan kolom. Tiap baris dan kolom biasanya mewakili variabel tertentu.
Contohnya, misalkan suatu kolom mewakili jumlah skor siswa, sedangkan barisnya mewakili kelas siswanya.
salah satu fungsi dataset adalah untuk memperhatikan hubungan antar variabel. Khususnya jika jumlah data
dan variabel yang diteliti cukup bervariasi.
Beberapa jenis dataset yang paling umum digunakan, yaitu:
1. Numerical dataset
2. Correlation dataset
3. Nominal / Categorical dataset
4. Bivariate dataset
5. Multivariate dataset

Secara umum jenis data yang ada pada suatu dataset adalah data kualitatif dan kuantitatif, dan
berdasarkan Skala pengukuran, data memiliki empat bentuk data, yaitu :
1. Data Nominal
2. Data Ordinal
3. Data Interval
4. Data Rasio

Bentuk Data Keterangan Contoh


Kategoris Nominal Nilainya berupa nama, kode atau label Kode Pos, NIK, NPM
(Kualitatif) Ordinal Nilainya berupa teks informasi yang memiliki Suhu {Panas, Sedang, Dingin}
tingkatan Nilai Huruf {A, B, C, D, E}
Numerik Interval Nilainya berupa Angka yang merupakan tingkatan Suhu {0 ≤ x ≤ 100}
(Kuantitatif) informasi tertentu April {1 ≤ x ≤ 30}
Rasio Nilainya berupa Angka yang memiliki arti Umur, Panjang, Luas, Volume
sebenarnya

Dalam perkembangannya terdapat juga bentuk data Biner yang bernilai 1 dan 0, pada umumnya nilai
1 mewakili informasi “Ya” atau “Ada”, dan nilai 0 mewakili informasi “Tidak” atau “Nihil”. Data Biner dibagi
menjadi 2 jenis yaitu Simetris dan Asimetris. Biner Simetris digunakan untuk membedakan 2 nilai yang
setara, misal “Kiri” – “Kanan” atau “Pria” – “Wanita”. Sedangkan Biner Asimetris membedakan 2 nilai yang
berbeda, misal “Ada” – “Nihil” atau “Tidak” – “Tidak Bisa”.
Data Kuantitatif atau Numerik dibagi lagi menjadi dua jenis, yakni data diskrit dan data kontinu.
Berdasarkan Waktu Pengumpulannya data dibagi menjadi Data Cross-sectional dan Data Berkala (time-
series).

Ada empat sifat penting yang dimiliki data secara umum, yaitu :
1. Distinctness, = dan ≠, digunakan pada bentuk data Nominal.
2. Order, <, >, ≤ dan ≥, digunakan pada bentuk data Ordinal.
3. Addition, + dan –, digunakan pada bentuk data Interval.
4. Multiplication, * dan /, dugunakan pada bentuk data Rasio.
Sedangkan tipe dari dataset antara lain :
1. Record Data, data yang terdiri dari sekumpulan record, yang masing-masing terdiri dari satu set atribut
tetap. Contoh record data adalah :
a. Data Matrix
b. Data dokumen
c. Data transaksi
2. Data graph, data dalam bentuk graph yang terdiri dari simpul (node) dan rusuk (edge). Contoh data graph
adalah :
a. Topologi Jaringan Komputer
b. Traveling Salesman Problem
3. Data terurut, data-data yang memperhatikan urutan nilai-nilainya. Contoh data terurut adalah Genomic
Science.

Saat memperoleh dataset kita perlu memastikan kualitas data tersebut. Kualitas data adalah level
data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten
(consistent) sesuai dengan semua kebutuhan peraturan yang ada dan relevan. Kualitas dari suatu dataset
dapat ditentukan dengan cara :

B. Pengolahan awal (Prepocessing) Data


Untuk mendapatkan dataset yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang
tepat perlu dilakukan preprocessing atau pengolahan awal data. Data preprocessing adalah teknik awal data
mining untuk mengubah raw data (data mentah) menjadi format dan informasi yang lebih efisien dan
bermanfaat. Format pada raw data yang diambil dari berbagai macam sumber seringkali mengalami
error, missing value, dan tidak konsisten. Sehingga, perlu dilakukan pembenahan format agar hasil data
mining tepat dan akurat. Beberapa proses pengolahan awal adalah :
1. Pengumpulan (Aggregation)
2. Penarikan Contoh (Sampling)
3. Pengurangan dimensi (Dimensionity Reduction)
a. Principal Component Analysis
b. Singular Value Decomposition
4. Pemilihan fitur (Feature subset selection)
5. Pembuatan fitur (Feature creation)
6. Pendiskrititan dan pembineran (Discretization and Binarization)
7. Transformasi atribut (Attribute Transformation)

Tujuan dari pengolahan data awal ini adalah untuk menghapus noise, missing value, dan data yang
tidak konsisten. Data preprocessing dibagi menjadi beberapa langkah, yaitu :
1. Data Cleaning, suatu prosedur untuk memastikan kebenaran, konsistensi, dan kegunaan suatu data yang
ada dalam dataset. Langkah-langkahnya :
a. Mendeteksi error
b. Hapus duplikat data atau data yang tidak perlu
c. Perbaiki kesalahan struktur
d. Filter outlier yang tidak diinginkan
e. Menangani data yang hilang
f. Validasi dan lakukan Quality Assurance (QA)
2. Data Integration, tahap untuk menggabungkan data dari berbagai sumber menjadi satu kesatuan data
yang lebih besar atau penggabungan data dari berbagai database ke dalam satu database baru.
3. Data Transformation, proses mengonversi data atau informasi dari satu format ke format lainnya,
biasanya dari format sistem sumber ke dalam format yang diperlukan dari sistem tujuan baru. Terdapat
beberapa pendekatan/teknik untuk melakukan transformasi data, yaitu :
a. Smoothing, dilakukan jika data mengandung noise/nilai yang tidak valid terhadap data yang diolah.
b. Generalization, dilakukan jika data level rendah (low-level data) diganti dengan konsep yang lebih
tinggi, yaitu dengan melakukan diskretisasi.
c. Normalization, proses transformasi dimana sebuah atribut numerik diskalakan dalam range yang
lebih kecil seperti -1.0 sampai 1.0, atau 0.0 sampai 1.0.
d. Aggregation, operasi summary (peringkasan) diaplikasikan pada data numerik. Misalnya pada data
penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-
rata atau ditotal.
e. attribute construction, pembetukan atribut baru / turunan dari atribut yang sudah ada dan
ditambahkan bersama atribut lainnya untuk membantu meningkatkan ketelitian/ketepatan dan
pemahaman struktur dalam high-dimensional data. Misalnya penambahan atribut “Luas” yang
didapat dari perkalian atribut “Panjang” dan “Lebar”
4. Data Reduction, transformasi informasi digital numerik atau alfabet yang diperoleh secara empiris atau
eksperimental menjadi bentuk yang dikoreksi, dipesan, dan disederhanakan. Tujuan dari Data reduction
yaitu untuk mengatasi keterbatasan penyimpanan data dalam database/data warehouse dan mengatasi
lamanya waktu yang dibutuhkan untuk menganalisis data yang kompleks dalam tiap dataset yang
lengkap. Dua teknik data reduction yang sering digunakan yaitu :
a. Dimensionality Reduction
1) Ekstraksi Fitur
1. Principal Component Analysis (PCA)
2. Linear Discriminant Analysis (LDA)
3. Independent Component Analysis (ICA)
2) Seleksi Fitur
1. Filter Approach (Pendekatan Filter)
2. Wrapper Approach (Pendekatan Wrapper)
3. Embedded Approach (Pendekatan Embedded)
b. Numerosity Reduction
1) Model Regresi dan Log-Linear
2) Histogram, pengelompokan, pengambilan sampel

C. Kemiripan dan Ketidakmiripan Data


Similarity Measurement adalah proses pengukuran kemiripan suatu objek terhadap
objek acuan. Dalam Similarity Measurement akan dilakukan pengukuran jarak (distance), di
mana semakin meningkat jarak (distance) antara dua objek, maka semakin berbeda dua objek
tersebut, distance biasanya adalah ukuran dari ketidakmiripan. Matriks yang berisi kesamaan antar data
disebut Similarity Matrix, matriks yang berisi ketidaksamaan data disebut Dissimilarity Matrix, dan matriks
yang berisi jarak antar data disebut Adjacency Matrix. Ketiga matriks tersebut berukuran n × n, dimana n
adalah banyak data, dan umumnya lebih sering disajikan dalam bentuk matriks segitiga atas atau bawah
daripada matriks lengkap.
Terdapat beberapa cara untuk mengukur jarak antar objek data, yaitu :
1. Jarak untuk data nominal, menggunakan persamaan 1. Dimana 𝑑𝑑(𝑖𝑖, 𝑗𝑗) menyatakan jarak antara data ke-
i dan data ke-j ; p adalah banyak atribut dan m banyak atribut yang sama antara data ke-i dan data ke-j.
2. Jarak untuk data biner, menggunakan persamaan 2. Dimana q adalah jumlah atribut yang bernilai 1
untuk kedua atribut, r adalah banyak jumlah yang bernilai 1 untuk atribut ke-1 dan 0 untuk atribut ke-
2, s adalah jumlah atribut yang bernilai 0 untuk atribut ke-1 dan 1 untuk atribut ke-2, dan t adalah banyak
atribut yang bernilai 0 untuk kedua atribut.
3. Jarak untuk data numerik, menggunakan persamaan 3 (Euclidean Distance), persamaan 4 (Manhattan
Distance), persamaan 5 (Minkowski Distance) atau persamaan 6 (Supremum Distance). Dimana 𝑥𝑥𝑖𝑖,𝑘𝑘 adalah
data ke-i atribut ke-k dan 𝑥𝑥𝑗𝑗,𝑘𝑘 data ke-j atribut ke-k.
𝑝𝑝−𝑚𝑚 (𝑓𝑓) (𝑓𝑓)
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = ……(1) ∑𝑘𝑘
𝑓𝑓=1 𝑐𝑐𝑖𝑖,𝑗𝑗 ×𝑑𝑑𝑖𝑖,𝑗𝑗
𝑝𝑝 𝑑𝑑(𝑖𝑖, 𝑗𝑗) = (𝑓𝑓) ……(7)
𝑟𝑟+𝑠𝑠 ∑𝑘𝑘
𝑓𝑓=1 𝑐𝑐𝑖𝑖,𝑗𝑗
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = ……(2)
𝑞𝑞+𝑟𝑟+𝑠𝑠+𝑡𝑡 𝑥𝑥.𝑦𝑦 𝑇𝑇
𝑠𝑠𝑠𝑠𝑠𝑠(𝑥𝑥, 𝑦𝑦) = ‖𝑥𝑥‖.‖𝑦𝑦‖……(8)
2
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = �∑𝑚𝑚
𝑘𝑘=1�𝑥𝑥𝑖𝑖,𝑘𝑘 − 𝑥𝑥𝑗𝑗,𝑘𝑘 � …… (3)
‖𝑥𝑥‖ = �∑𝑚𝑚 2 𝑚𝑚 2
𝑘𝑘=1 𝑥𝑥𝑘𝑘 dan ‖𝑦𝑦‖ = �∑𝑘𝑘=1 𝑦𝑦𝑘𝑘 ……(9)
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = ∑𝑚𝑚
𝑘𝑘=1�𝑥𝑥𝑖𝑖,𝑘𝑘 − 𝑥𝑥𝑗𝑗,𝑘𝑘 � ……(4)
𝑞𝑞+𝑠𝑠
ℎ ℎ 𝑆𝑆𝑆𝑆𝑆𝑆(𝑖𝑖, 𝑗𝑗) = ……(10)
�∑𝑚𝑚 𝑞𝑞+𝑟𝑟+𝑠𝑠
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = 𝑘𝑘=1�𝑥𝑥𝑖𝑖,𝑘𝑘 − 𝑥𝑥𝑗𝑗,𝑘𝑘 � ……(5) 𝑞𝑞
𝐽𝐽𝐽𝐽(𝑖𝑖, 𝑗𝑗) = ……(11)
𝑑𝑑(𝑖𝑖, 𝑗𝑗) = max�𝑥𝑥𝑖𝑖,𝑘𝑘 − 𝑥𝑥𝑗𝑗,𝑘𝑘 �……(6) 𝑟𝑟+𝑡𝑡
𝑘𝑘 𝑥𝑥𝑖𝑖 .𝑥𝑥𝑗𝑗
𝐸𝐸𝐸𝐸𝐸𝐸(𝑖𝑖, 𝑗𝑗) = 2 ……(12)
‖𝑥𝑥𝑖𝑖 ‖2 +�𝑥𝑥𝑗𝑗 � −𝑥𝑥𝑖𝑖 .𝑥𝑥𝑗𝑗

4. Jarak untuk data ordinal, memiliki 2 tahapan yaitu :


a. Normalisasi tiap atribut dengan mengurutkan data yang ada dari 0 hingga n.
b. Gunakan persamaan 3, 4, 5 atau 6 untuk mendapatkan jaraknya.
5. Jarak untuk data campuran, menggunakan persamaan 7, dimana ci,j(f) adalah konstanta yang bernilai 0
jika (a) xi,f atau xj,f tak memiliki nilai ; atau (b) xi,f = xj,f = 0 dan f adalah atribut biner asimetris. ci,j(f) bernilai
1 jika kondisi a dan b tidak terpenuhi. di,j(f) adalah dissimilarity antara atribut ke-f objek data ke-i dan
objek data ke-j, yang dihitung berdasarkan jenis atributnya.
6. Cosine Similarity, ukuran jarak yang digunakan untuk data yang berupa vektor dokumen. Vektor
dokumen menyatakan frekuensi kemunculan kata dalam suatu dokumen. Cosine Similarity dihitung
menggunakan persamaan 8, dimana x adalah vektor x, dan yT adalah transpose dari vektor y.
7. Simple Matching Coefficient (SMC) & Jaccard Coefficient (JC), ukuran jarak yang digunakan untuk data
yang berupa vektor biner. Dihitung menggunakan persamaan 10 dan 11, dimana q adalah banyak atribut
yang sama-sama bernilai 1 dari objek i dan objek j, r adalah banyak atribut berbeda nilainya antara objek
i dan objek j, dan s adalah banyak atribut yang sama-sama bernilai 0 dari objek i dan objek j.
8. Extended Jaccard Coefficient (EJC), ukuran jarak yang digunakan untuk data yang berupa vektor
kontinyu. Dihitung menggunakan persamaan 12.

Misalnya dataset Capaian Nilai Ujian Nasional SMA Negeri di Kota Kediri Program Studi IPA
Tahun Pelajaran 2018/2019 (sumber) seperti berikut :
Nama Rerata Nilai Pada Mata Uji
Jumlah Rerata
No Kode Satuan NPSN Status
Peserta B.IND B.ING MAT FIS KIM BIO Nilai
Pendidikan
1 05040001 SMAN 1 20534389 N 277 85,94 78,70 58,27 60,00 65,44 69,02 72,34
2 05040004 SMAN 7 20534383 N 237 85,54 76,18 54,83 64,46 61,27 69,74 70,77
3 05040007 SMAN 2 20534388 N 255 87,89 83,99 66,98 68,90 71,88 78,38 78,47
4 05040008 SMAN 5 20534385 N 163 79,90 59,60 43,44 43,22 50,19 60,51 59,44
5 05040010 SMAN 3 20534387 N 199 84,19 68,74 53,88 52,69 60,77 66,62 67,49
6 05040011 SMAN 6 20534384 N 192 76,99 52,92 34,61 41,16 48,82 54,90 54,07
7 05040013 SMAN 4 20534386 N 158 81,86 62,42 44,60 44,74 51,18 56,12 60,44
8 05040016 SMAN 8 20534382 N 165 80,85 62,56 41,06 46,16 52,42 60,12 60,21

Pada dataset tersebut, atribut “No”, “Kode”, “Nama Satuan Pendidikan”, “NPSN”, “Status” dan
“Jumlah Peserta” merupakan atribut keterangan. Atribut “Rerata Nilai” adalah atribut construction.
Sehingga atribut yang digunakan untuk mencari jarak adalah 6 atribut “Rerata Nilai Pada Mata Uji”. Jika
tabel tersebut disederhanakan maka akan menjadi seperti berikut :
No B.IND B.ING MAT FIS KIM BIO

1 85,94 78,70 58,27 60,00 65,44 69,02


2 85,54 76,18 54,83 64,46 61,27 69,74
3 87,89 83,99 66,98 68,90 71,88 78,38
4 79,90 59,60 43,44 43,22 50,19 60,51
5 84,19 68,74 53,88 52,69 60,77 66,62
6 76,99 52,92 34,61 41,16 48,82 54,90
7 81,86 62,42 44,60 44,74 51,18 56,12
8 80,85 62,56 41,06 46,16 52,42 60,12

Atribut “No” digunakan sebagai ID datanya. Berikutnya kita hitung jaraknya, karena semua
atribut bertipe numerik, maka jaraknya dihitung menggunakan persamaan 3, 4, 5 atau 6. Misal jika
menggunakan persamaan 3, maka perhitungannya seperti berikut :
6 2
𝑑𝑑(1, 2) = �� �𝑥𝑥1,𝑘𝑘 − 𝑥𝑥2,𝑘𝑘 �
𝑘𝑘=1

2 2 2 2 2 2
𝑑𝑑(1, 2) = ��𝑥𝑥1,1 − 𝑥𝑥2,1 � + �𝑥𝑥1,2 − 𝑥𝑥2,2 � + �𝑥𝑥1,3 − 𝑥𝑥2,3 � + �𝑥𝑥1,4 − 𝑥𝑥2,4 � + �𝑥𝑥1,5 − 𝑥𝑥2,5 � + �𝑥𝑥1,6 − 𝑥𝑥2,6 �

𝑑𝑑(1, 2) = �(85,94 − 85,94)2 + (78,70 − 76,18)2 + (58,27 − 54,83)2 + (60,00 − 64,46)2 + (65,44 − 61,27)2 + (69,02 − 69,74)2
𝑑𝑑(1, 2) = �0,42 + 2,522 + 3,442 + −4,462 + 4,172 + −0,722
𝑑𝑑(1, 2) = �0,16 + 6,3504 + 11,8336 + 19,8916 + 17,3889 + 0,5184 = �56,1429 = 𝟕𝟕, 𝟒𝟒𝟒𝟒 (pembulatan 2 digit)

Setelah dilakukan perhitungan untuk semua data, maka didapat matriks adjacency-nya adalah
seperti berikut :
~ 7,49 17,77 34,75 14,23 46,21 32,73 31,98
⎡ 7,49 ~ 20,52 33,10 14,37 44,06 31,36 30,05⎤
⎢17,77 20,52 ~ 51,60 30,70 63,12 50,10 49,09⎥
⎢ ⎥
⎢ 34,75 33,10 51,60 ~ 21,21 12,99 5,98 5,39 ⎥
⎢ 14,23 14,37 30,70 21,21 ~ 32,96 19,92 19,19⎥
⎢46,21 44,06 63,12 12,99 32,96 ~ 15,29 14,65⎥
⎢32,73 31,36 50,10 5,98 19,92 15,29 ~ 5,76 ⎥
⎣ 31,98 30,05 49,09 5,39 19,19 14,65 5,76 ~ ⎦

Pada data berupa gambar atau citra digital, jarak antar 2 buah gambar dapat dihitung jika kedua
gambar tersebut memiliki ukuran yang sama dalam satuan pixel. Jika format gambar adalah berwarna,
fitur yang bisa digunakan untuk menghitung jaraknya adalah fitur warna Red, Green dan Blue. Kemudian
dengan menggunakan persamaan 3 atau 4 untuk tiap fitur warna maka didapat jarak kedua citra, atau
jika dituliskan ke dalam persamaan , seperti persamaan 13. Jika format gambar adalah Grayscale, maka
jaraknya dapat dihitung dengan menggunakan 3 atau 4.

𝑑𝑑(𝐺𝐺1 , 𝐺𝐺2 ) = 𝑑𝑑𝑅𝑅𝑅𝑅𝑅𝑅(𝐺𝐺1 , 𝐺𝐺2 ) + 𝑑𝑑𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝐺𝐺1 , 𝐺𝐺2 ) + 𝑑𝑑𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵(𝐺𝐺1 , 𝐺𝐺2 )


atau
2 2 2
𝑑𝑑(𝐺𝐺1 , 𝐺𝐺2 ) = �∑𝑛𝑛𝑘𝑘=1�𝑅𝑅1,𝑘𝑘 − 𝑅𝑅2,𝑘𝑘 � + �∑𝑛𝑛𝑘𝑘=1�𝐺𝐺1,𝑘𝑘 − 𝐺𝐺2,𝑘𝑘 � + �∑𝑛𝑛𝑘𝑘=1�𝐵𝐵1,𝑘𝑘 − 𝐵𝐵2,𝑘𝑘 � ……(13)

Pada data berupa dokumen atau teks, dokumen perlu diolah terlebih dahulu supaya bisa diolah,
dengan cara :
1. Text Preprocessing, melakukan analisis semantic dan sintaktik terhadap teks. Tujuannya adalah
mempersiapkan teks agar dapat dijadikan pengelohan tahap selanjutnya.
a. Text Clean Up, mengubah teks menjadi format biner
b. Case Folding, mengubah semua huruf dalam Dokumen menjadi huruf kecil
c. Tokenization, memotong kalimat menjadi per kata
d. Part-of-speech (PoS) tagging, cara untuk mengkategorikan kelas kata, seperti kata benda, kata
kerja, kata sifat, dan lain-lain.
2. Text Transformation, pembentukan atribut mengacu pada proses untuk mendapatkan representasi
dokumen yang diharapkan.
3. Feature Selection
a. Stop Words Removal, menghilangkan atau menghapuskata-kata yang tidak penting atau tidak
relevan
b. Stemming, mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya
(root word) dengan menggunakan aturan-aturan tertentu.

Fitur atau atribut yang digunakan pada dokumen teks adalah :


1. Character, merupakan komponen individual (huruf, angka, karakter special, dan spasi). Representasi
character-based ini jarang digunakan pada beberapa teknik pemrrosesan teks.
2. Words, kata atau istilah.
3. Terms, merupakan single word dan multiword phrase yang terpilih secara langsung dari corpus.
Represntasi term-based dari Dokumen tersusun dari subset term dalam dokumen.
4. Concept, merupakan fitur yang di-generate dari sebuah dokumen secara manual, rule-based, atau
metodologi lain.

D. Tugas
Jawab pertanyaan berikut sesuai pemahaman Anda dari hasil Studi Literatur dari buku manual,
buku elektronik atau situs di internet. Untuk setiap nomor cantumkan sumber anda dengan menggunakan
gaya penulisan Daftar Pustaka yang ada pada buku “Panduan KTI UNP Kediri 2021” yang dapat diunduh
disini. Contoh dataset dapat diperoleh dari situs http://www.kaggle.com/datasets dan
https://archive.ics.uci.edu/ml/datasets.php.
1. Berikan pengertian dari jenis dataset berikut, dan berikan contohnya (Tangkapan layar secukupnya, beri
keterangan sesuai keperluan) :
a. Numerical dataset
b. Correlation dataset
c. Nominal / Categorical dataset
d. Bivariate dataset
e. Multivariate dataset
2. Unduh dan buka file DATA P02A.xlsx dari tautan ini, yang berisi No. HP & Providernya (“Waktu” hanya
keterangan waktu pengisian), kemudian lakukan data cleaning. Ketikan tahapan data cleaning mulai dari
membaca file hingga selesai ! Proses pembersihan data boleh menggunakan bantuan program buatan
sendiri atau aplikasi yang telah ada (termasuk MS. Excel).
3. Unduh dan buka file dataset “Iris Flower” dari situs Kaggle atau UCI, pilih 5 data (bebas) untuk setiap
jenis bunga (Setosa, Versicolor, Virginica). Kemudian buat matrix adjacency dari 15 data tersebut,
disertai cara perhitungannya. Proses perhitungannya boleh menggunakan bantuan program buatan
sendiri atau aplikasi yang telah ada (termasuk MS. Excel).
4. Unduh dan buka file DATA P02B.xlsx dari tautan ini, yang berisi data penjualan mobil bekas (atribut
“No”, “ID”, “Title” dan “Image” hanya atribut keterangan), kemudian lakukan data cleaning dan buat
matrix adjacency dari data nomor 20*(n-1) s.d 20*n-1, dimana n adalah nomor urut presensi. Ketikan
tahapan data cleaning mulai dari membaca file hingga hingga terbentuknya matrix adjacency ! Semua
proses boleh menggunakan bantuan program buatan sendiri atau aplikasi yang telah ada (termasuk MS.
Excel).
Misal : nomor urut presensi = 25, maka data yang digunakan adalah nomor 20*(25-1) s.d 20*25-1 atau
nomor 480 s.d 499.
E. Petunjuk Menjawab Quiz dan Tugas
1. Jawaban Tugas diketikan pada aplikasi Ms.Word. Pada bagian Header berikan identitas kalian dan
bagian Footer berikan page number :
TUGAS PERTEMUAN KE-02
PEMODELAN DAN SIMULASI, GENAP 2022/2023
NPM : ….
Nama : ….
Kelas : ….
2. Setelah selesai mengetik jawaban, konversi atau simpan file Ms. Word tersebut ke format file PDF dengan
nama file :
a. TP1A.PDF  Jawaban nomor 1
b. TP1B.PDF  Jawaban nomor 2
c. TP1C.PDF  Jawaban nomor 3
d. TP1D.PDF  Jawaban nomor 4
(Ekstensi PDF otomatis ada jika menggunakan aplikasi pengubah atau converter online atau offline).
Note : jika menggunakan program buatan sendiri, lampirkan source codenya (cetak ke PDF kemudian
gabung/combine ke file jawaban).
3. Unggah keempat file tersebut ke Folder TUGAS di Folder Google Drive Pribadi yang sudah saya bagikan
di grup, sebelum tanggal 16 April 2023.
4. Untuk tugas Pertemuan ke-02 ada Bonus Poin urutan pengumpulan tugas, jadi silakan kerjakan dan
unggah jawaban sesegera mungkin. Jika terlambat tidak ada bonus urutan, tetapi akan ada pengurangan
poin -5 * lama keterlambatan (hari). Note : berlaku untuk tiap file.
5. Data tugas yang telah saya terima akan saya sampaikan di File REKAP NILAI PNS pada sheet TUGAS, dan
saya update secara berkala. Tautan File REKAP NILAI PNS linktr.ee/daniel.swanjaya. Update data file
REKAP NILAI PNS dilakukan secara berkala, jika kalian melakukan perubahan pada Tugas, tidak akan
langsung ter-update, silakan tunggu setidaknya 8 Jam.
6. Jika ada yang perlu ditanyakan silakan sampaikan di grup Telegram PnS.

Note :
Recommended aplikasi untuk konversi ke format PDF secara
• offline : Microsoft Print to PDF (petunjuk via googling)
• online : www.freepdfconvert.com/id

Anda mungkin juga menyukai