Pengambilan Data

1.
Pengambilan data
2. Analisis data adalah proses pengumpulan, pembersihan, transformasi, dan pemodelan data
dengan tujuan untuk menemukan informasi penting, menginformasikan kesimpulan dan
mendukung pengambilan keputusan. Data analisis dapat digunakan untuk :
1) Mengidentifikasi persebaran data
2) Mengekstrak fitur yang sesuai
3) Memilih algoritma machine learning yang sesuai
4) Mengevaluasi hasil dari machine learning
3. Dataset
4. Dataset adalah sekumpulan data yang disusun secara terstruktur. Beberapa istilah yang
terkait dengan data :
1) Instance : setiap baris dari table yang menunjukan pengamatan dari permasalahan.
2) Feature : setiap kolom dari table, digunakan untuk input data pada proses klasifikasi,
klasterisasi, maupun regresi, dan atributnya yang sama dengan data lain.
3) Data Type : masing-masing fitur memiliki tipe data.
4) Data Ordinal : data yang memiliki penomoran objek atau kategorinya disusun menurut
besarnya, dari terendah ke tertinggi.
5) Data Cardinal : data yang berupa nilai angka dalam bilangan bulat
6) Kelas : label atau target. Seringkali berupa nilai string, dan harus dipetakan ke nilai numerik
sebelum diberikan ke algoritma untuk pemodelan. Ini disebut sebagai pengkodean label, di
mana bilangan bulat unik diberikan ke setiap label kelas.
7) Binary-Class : dua kelas
8) Multi-Variabel : lebih dari dua variabel
9) Multi-Class : lebih dari dua kelas
10) Data Training : dataset yang digunakan komputer untuk melakukan proses belajar
11) Data Testing : dataset yang digunakan komputer untuk menguji model yang terbentuk dari
hasil training
12) Data Validation : sebagian dataset yang digunakan untuk memvalidasi atau mengevaluasi
model yang digunakan.
5. Algoritma yang menggunakan neural network untuk membangun sebuah model klasifikasi
pasti akan dihadapkan dengan hyperparameter dan parameter.
6. Hyperparameter : Variabel yang menentukan bagaimana sebuah model dilatih. Tidak diperbarui
selama proses training. Namun, dalam bidang AutoML, bisa jadi hyperparameter akan diupdate
dalam proses training untuk mencari kombinasi terbaik untuk suatu model.
7.
8. Parameter : Variabel dari model yang akan diupdate nilainya selama proses training.
9. Data Visualization
10. Visualisasi data adalah representasi grafis dari informasi dan data dengan menggunakan
elemen visual seperti bagan, grafik, dan peta untuk membuat data lebih mudah dipahami.
Tujuan utama dari visualisasi data adalah untuk memudahkan dalam mengidentifikasi pola, tren,
dan outlier dalam kumpulan data yang besar. Istilah ini sering digunakan secara bergantian
dengan yang lain, termasuk grafik informasi, visualisasi informasi, dan grafik statistik.
1) Line Charts
2) Pie Charts,
3) Area Charts,
4) Scatter Plots,
5) Radar Charts,
6) Treemaps,
7) Histograms,
8) Streamgraph,
9) Heat Map,
10) Matplotlib.
11. K
12. Data dan Fitur Engineering
13. Data, menurut KBBI, merupakan keterangan yang benar dan nyata. Data bisa berasal dari
berbagai macam sumber dan dengan menggunakan metode-metode tertentu. Data juga masih
bersifat universal, dimana ketika belum diolah, data cenderung masih belum terlihat secara jelas
bahwa data tersebut akan menghasilkan informasi.
14. Para peneliti, akademisi, hingga masyarakat pada umumnya bisa mengambil data-data
tersebut, mencerna dan memahaminya agar memunculkan suatu informasi, dan kemudian
meluas dan terkumpul berbagai macam informasi sehingga menjadi sebuah ilmu pengetahuan.
15. Data juga bisa disebut sebagai sumber yang paling awal dan umum, kemudian dipilih agar
lebih spesifik dan terorganisir yang bertujuan untuk menghasilkan suatu informasi, kemudian
lebih spesifik lagi yang dapat menjadi sebuah ilmu pengetahuan sehingga dapat diaplikasikan
dalam berbagai macam hal.
16. F
17. Ekstraksi Fitur
18. Untuk mengolah data-data yang ada perlu dilakukan proses ekstraksi fitur yang tujuan
utamanya adalah menemukan data-data yang paling baik dan berguna dalam proses learning
yang akan dilakukan. Ekstraksi fitur juga bisa diistilahkan sebagai “mencari butiran emas di
tumpukan pasir” yang mana jika proses ekstraksi fitur ini berhasil, maka proses learning-pun
akan semakin baik.
19. Ada beberapa metode ekstraksi fitur yang dapat terapkan, diantaranya dengan langsung saja
mengambil data asli dari sumber data yang ada, bisa juga dengan salah satu, bisa dengan
kombinasi beberapa parameter statistik, atau dengan cara mereduksi dimensi, atau dengan
metode yang dibangun sendiri yang terpenting adalah tujuan utama untuk mendapatkan
informasi-informasi penting yang terdapat dalam dataset tersebut tercapai.
1) Data Asli Sebagai Fitur
2) Penggunaan data asli sebagai fitur secara langsung yang berarti tidak dilakukan proses
ekstraksi fitur tingkat lanjut bisa diterapkan, namun cenderung tidak dapat menghasilkan
akurasi yang baik. Metode ini justru dapat memberatkan proses learning karena akan
menghabiskan sumber daya komputasi yang besar terutama untuk data dengan jumlah fitur
yang sangat banyak. Jumlah dimensi fitur yang masih bervariasi, dan banyaknya jumlah data
yang harus dilakukan proses learning juga dapat memakan waktu yang lebih lama.
3) Dalam contoh kasus data iris, terdapat 4 kolom yaitu sepal lenght, sepal width, petal
lenght, dan sepal width, maka ke empat kolom tersebut dapat dijadikan sebagai masukan
fitur untuk proses learning sehingga memiliki 4 fitur. Bisa hanya memilih beberapa kolom
sebagai fitur, namun akan banyak informasi yang hilang. Memang belum begitu terlihat
perbedaan yang mencolok karena data iris tidak memiliki banyak fitur.
4)
5) Parameter Statistik Sebagai Fitur
6) Penggunaan parameter statistik merupakan penerapan ekstraksi fitur yang masih sangat
sederhana, yaitu dengan menghitung beberapa parameter sehingga nantinya fitur yang
didapatkan bisa lebih sederhana namun cenderung dapat merepresentasikan dari sekian
banyak data.
7) Misal pada data iris yang sudah dibahas sebelumnya memiliki 4 fitur. Jika anda
menggunakan 1 parameter statistik Mean, maka dari ke 4 fitur tersebut akan menjadi 1 fitur
yang merupakan nilai rata-rata dari setiap data. Atau misalkan anda menggunakan Mean
dan Max, maka di setiap data akan memiliki dua fitur yang merupakan saduran dari setiap
data yang dihitung.
8) Parameter Statistik yang sering digunakan diantaranya:
 Mean (u)
 Mean merupakan rata-rata dari suatu data yang telah ditentukan. Nilai mean dapat
dihitung dengan Persamaan
n
1
μ= ∑ x i
n i=1
 Median
 Median adalah titik tengah data ketika kumpulan data tersebut diurutkan dari yang
terkecil hingga terbesar. Jika ada dua nilai tengah maka diambil rata-rata dari kedua nilai
tersebut.

 Simpangan Baku
 Simpangan baku atau Standard Deviation merupakan nilai yang digunakan untuk melihat
persebaran data dari suatu populasi atau sampel. Untuk menghitung simpangan baku
untuk populasi adalah dengan menggunakan Persamaan
√
n
1
σ= ∑ (x ¿¿ i−μ) ¿
n i−1
 dan untuk menghitung simpangan baku untuk sampel menggunakan Persamaan
√
n
1
s= ∑ x −x
n−1 i−1 i
 Max dan Min

 Max merupakan nilai maksimal dari suatu data, sedangkan Min merupakan nilai
terendah. Max dan Min bisa dipakai Bersama-sama dalam proses ekstraksi fitur, namun
bisa juga dipakai salah satunya.

 Skewness
 Skewness merupakan nilai ketidaksimetrisan dalam suatu data. Skewness bernilai positif
apabila ekor distribusi data berada di sebelah kanan nilai terbanyak sehingga sebagian
besar distribusi berada di nilai rendah. Skewness yang bernilai negatif berarti ekor
distribusi data berada di sebelah kiri sehingga Sebagian besar nilai berada di sisi kanan
kurva. Sementara skewness bernilai nol berarti nilai terdistribusi data bernilai simetris.
n
Skew=∑ (i−μ)3 x i
i=1

 Root Meab Square
 Root Mean Sguare (RMS) adalah akar dari nilai rata-rata dari suatu fungsi kuadrat.
RMS=
√ 1
∑ x2
n i i
 1
9) Principal Component Analysis (PCA)
10) Pada dasarnya, PCA adalah salah satu teknik reduksi dimensi linier yang paling banyak
digunakan. PCA adalah algoritma unsupervised learning, oleh karena itu PCA tidak peduli
dengan label data dan hanya menghitung variasi. Hal ini dalam beberapa kasus dapat
menyebabkan kesalahan klasifikasi data. Selengkapnya terkait PCA akan dijelaskan pada bab
selanjutnya.
11)
12) Independent Component Analysis (ICA)
13) ICA merupakan suatu teknik reduksi dimensi pada data numerik, dimana dimensi yang
baru disebut sebagai Independent Component (IC). ICA mereduksi dengan mencari dimensi
yang saling tidak terpengaruh dengan dimensi lain (independent) untuk menjadi dimensi
baru. Kondisi tersebut memungkinkan untuk membandingkan ketidakterhubungan dan
analisa data yang mengandung noise.
14)
15) Menggunakan Metode Sendiri Untuk Mencari Fitur
16) Untuk beberapa kasus data yang sangat unik dan tidak bisa diselesaikan dengan proses
ekstraksi yang sudah ada, diperlukan beberapa formula baru yang dibangun untuk
memenuhi kebutuhan tersebut. Proses pembuatan formula tersebut dapat dilakukan
dengan cara menganalisa bentuk dan struktur data. Misal, bisa dengan kombinasi dari
beberapa parameter statistik kemudian dihitung nilai tengah nya, atau dengan cara
memutar nilai kombinasi tersebut sehingga memunculkan dimensi baru, dan lain
sebagainya.
17)
20. Seleksi Fitur
21. Dalam dunia machine learning, proses seleksi fitur menjadi salah satu proses yang terpenting.
Ada beberapa alasan mengapa seleksi fitur sangat dibutuhkan, diantaranya:
1) Mereduksi dimensi.
2) Seperti yang sudah dijelaskan sebelumnya, bahwa dimensi yang terlalu besar akan
berdampak pada proses komputasi. Tidak hanya itu, dimensi yang berlebih juga akan
berdampak pada hasil akurasi yang bisa berakibat model yang didapatkan mengalami over
fitting, yang berarti model menghasilkan akurasi bagus hanya untuk jenis data yang ada
dalam proses training, namun akan menurun drastic jika diberikan data baru.
3)
4) Membuat data yang lebih sederhana.
5) Tentunya, jika anda memiliki data dengan jumlah fitur yang ideal, akan lebih mudah
dalam proses penjelasan dan visualisasi. Data bisa direpresentasikan dengan hanya fitur-fitur
terpilih dan membuang fitur yang tidak diperlukan sehingga dapat menghemat media
penyimpanan dan juga meringankan perangkat komputasi.
6)
7) Garbage in, garbage out.
8) Istilah ini sangat lazim di dunia kecerdasan buatan, dimana performa sangat dipengaruhi
oleh kualitas data yang digunakan. Jika data yang masuk terlalu banyak mengandung data
“sampah” yang justru mengganggu proses learning, maka yang dihasilkan juga berpotensi
menjadi sampah. Maka, proses seleksi fitur ini menjadi sangat penting.
22. Ada beberapa metode seleksi fitur yang bisa anda terapkan, diantaranya:
1) Pearson Correlation
2) Pearson Correlation Coefficient (1) merupakan filter-based method yang digunakan untuk
mencari hubungan antara dua variabel, yaitu variabel bebas (independent variable) dan
variable terikat (dependent variable).
n
1
2
s= ∑
n−1 i=1
(x i− x)2

Pengambilan Data

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pengambilan Data

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

 dan untuk menghitung simpangan baku untuk sampel menggunakan Persamaan

 Max dan Min

Anda mungkin juga menyukai