0% menganggap dokumen ini bermanfaat (0 suara)
251 tayangan3 halaman

Materi PPT Data Wrangling

Dokumen tersebut membahas tahapan pengelolaan data mulai dari mentah hingga siap produksi. Tahap awal meliputi penyerapan data dan pembuatan metadata. Dalam tahap ini, data dikelompokkan berdasarkan struktur, granularitas, akurasi, temporalitas dan ruang lingkupnya. Tahap berikutnya meliputi pengelolaan data di Python menggunakan pandas, yang mencakup eksplorasi, penanganan nilai hilang, pemodelan ulang, dan pen

Diunggah oleh

anggraeni lia
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
251 tayangan3 halaman

Materi PPT Data Wrangling

Dokumen tersebut membahas tahapan pengelolaan data mulai dari mentah hingga siap produksi. Tahap awal meliputi penyerapan data dan pembuatan metadata. Dalam tahap ini, data dikelompokkan berdasarkan struktur, granularitas, akurasi, temporalitas dan ruang lingkupnya. Tahap berikutnya meliputi pengelolaan data di Python menggunakan pandas, yang mencakup eksplorasi, penanganan nilai hilang, pemodelan ulang, dan pen

Diunggah oleh

anggraeni lia
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

Materi PPT Data Wrangling

Slide 8

Menghubungkan Tindakan Analitik ke Pergerakan Data: Sebuah Holistik Kerangka Alur Kerja untuk
Proyek Data

data bergerak melalui tahapan, dari mentah hingga halus hingga produksi. Setiap tahap memiliki
satu set kecil tindakan utama. Tindakan datang dalam dua jenis: di tiga kotak teratas pada Gambar 2-2
adalah tindakan yang hasilnya adalah data itu sendiri, dan di enam kotak bawah adalah tindakan yang
hasilnya diturunkan dari atau dibangun di atas kesimpulan data (misalnya, wawasan, laporan, produk,
atau layanan). Untuk kesederhanaan, hubungan penghubung antara tindakan pada Gambar 2-2
digambar dalam satu arah. Namun, proyek data nyata akan sering mengulang kembali melalui tindakan,
beralih ke hasil yang lebih baik.

Slide 9

Tindakan Tahap Data Mentah: Menyerap Data dan Membuat Metadata

Ada tiga tindakan utama dalam tahap data mentah: penyerapan data, pembuatan metadata generik,
dan pembuatan metadata kepatutan.

Menelan Data yang Diketahui dan Tidak Diketahui Proses menelan data dapat sangat bervariasi dalam
kompleksitasnya. Di ujung spektrum yang tidak terlalu rumit, banyak orang menerima data mereka
sebagai file melalui saluran seperti email, folder jaringan bersama, atau situs web FTP. Di suatu tempat
di tengah spektrum ini adalah platform berpemilik seperti Alteryx, Talend, dan Informatica Cloud yang
mendukung berbagai transfer data dan fungsi penyerapan, dengan tujuan memudahkan konfigurasi dan
pemeliharaan untuk non-insinyur.

 Membuat Metadata
Menyerap data yang tidak diketahui memicu dua tindakan tambahan, keduanya terkait dengan
pembuatan metadata. Satu tindakan difokuskan untuk memahami karakteristik data Anda, atau
mendeskripsikan data Anda. Kami menyebut tindakan ini sebagai menghasilkan metadata
umum. Tindakan kedua difokuskan pada penggunaan karakteristik data Anda untuk
menentukan nilai data Anda. Tindakan ini melibatkan pembuatan metadata khusus. Kumpulan
data terdiri dari catatan.Di luar deskripsi metadata umum, proses penemuan data sering kali
memerlukan penyimpulan dan pembuatan metadata khusus yang terkait dengan nilai potensial
data Anda.

Baik metadata generik maupun kustom terdiri dari kumpulan karakteristik dasar yang sama:
struktur, granularitas, akurasi, temporalitas, dan ruang lingkup.
1. Struktur : Struktur kumpulan data mengacu pada format dan pengkodean catatan dan
bidangnya. Kita dapat mempertimbangkan kumpulan data pada spektrum yang terkait
dengan homogenitas catatan dan bidangnya. Di salah satu ujung spektrum, dataset adalah
"persegi panjang" dan dapat diformat sebagai tabel dengan jumlah baris dan kolom yang
tetap.
2. Granularity : Granularity dari dataset mengacu pada jenis entitas yang masing-masing record
data mewakili atau berisi tentang informasi . Dalam bentuknya yang paling umum, catatan
dalam kumpulan data akan berisi informasi tentang banyak contoh dari jenis entitas yang
sama.
3. Akurasi Keakuratan dataset mengacu pada kualitasnya. Dengan kata lain, nilai yang mengisi
bidang rekaman dalam kumpulan data harus konsisten dan akurat. Misalnya, pertimbangkan
kumpulan data tindakan pelanggan. Dataset ini berisi catatan terkait saat pelanggan
menambahkan item ke keranjang belanja mereka.
4. Temporalitas : Sebuah catatan data adalah representasi dari suatu entitas pada waktu
tertentu (atau set waktu).Oleh karena itu, meskipun kumpulan data mungkin merupakan
representasi yang akurat dan konsisten pada saat dibuat, perubahan selanjutnya mungkin
membuat representasi tersebut tidak akurat atau tidak konsisten. Misalnya, Anda mungkin
menggunakan kumpulan data tindakan pelanggan untuk menentukan distribusi item yang
dimiliki orang. Namun, beberapa minggu atau bulan setelah penjualan awal, beberapa item
ini mungkin dikembalikan. Sekarang kumpulan data asli, meskipun merupakan representasi
akurat dari transaksi penjualan asli, tidak lagi merupakan representasi akurat dari barang
yang dimiliki seseorang.
5. Ruang Lingkup Ruang lingkup dataset memiliki dua dimensi utama. Dimensi pertama
menyangkut jumlah atribut berbeda yang direpresentasikan dalam kumpulan data.
Misalnya, untuk setiap tindakan pelanggan, kami mungkin tahu kapan itu terjadi (misalnya,
stempel waktu) dan beberapa detail tentangnya (seperti UPC mana yang ditambahkan
pelanggan ke keranjang). Dimensi kedua menyangkut cakupan populasi atribut demi atribut:
apakah "semua" atribut untuk setiap bidang terwakili dalam kumpulan data, atau adakah
beberapa yang secara acak, sengaja, atau secara sistematis dikecualikan

Slide 19

PENYELENGGARAAN DATA DI PYTHON :

pandas adalah sumber terbuka yang terutama digunakan untuk Analisis Data. Perselisihan data
berkaitan dengan fungsi berikut.

 Eksplorasi data:Visualisasi data dilakukan untuk menganalisis dan memahami data.


 Berurusan dengan nilai-nilai yang hilang:Memiliki nilai yang hilang dalam kumpulan data telah
menjadi masalah umum ketika berhadapan dengan kumpulan data besar dan harus berhati-hati
untuk menggantinya. Itu dapat diganti baik dengan mean, mode atau hanya memberi label
sebagai nilai NaN.
 Membentuk kembali data:Di sini data dimodifikasi dari pengalamatan data yang sudah ada
sebelumnya atau data dimodifikasi dan dimanipulasi sesuai dengan kebutuhan. Memfilter
data:Baris dan kolom yang tidak diinginkan disaring dan dihapus yang membuat data menjadi
format terkompresi.
 Yang lain:Setelah membuat data mentah menjadi kumpulan data yang efisien, data tersebut
dibeli menjadi berguna untuk visualisasi data, analisis data, pelatihan model, dll.

Anda mungkin juga menyukai