Anda di halaman 1dari 2

RAW DATA

Memahami data mana yang tersedia yang menggambarkan masalah dengan tepat dan akurat
sehingga memungkinkan untuk memodelkan perilaku yang ditargetkan. Setelah data yang diperlukan
telah diidentifikasi, itu harus diekstraksi dan dikonsolidasikan dalam database (sering disebut mart
data analitik) sehingga sudah tersedia untuk manipulasi data berikutnya dan langkah-langkah
penambangan data. Langkah penting lainnya adalah memeriksa kualitas data mentah analitik. Ini
termasuk pemeriksaan teknis serta memastikan data masuk akal dalam konteks bisnis yang diberikan
dan bahwa pemotongan yang benar dapat diperoleh. Selama fase proyek ini administrator database
dan profesional TI dengan pengetahuan tentang sistem sumber data akan diminta untuk
mengekstraksi dan menyediakan semua bidang data yang diperlukan untuk proyek data mining. Ini
dilakukan dalam kerja sama erat dengan penambang data untuk memastikan data yang diekstraksi
sesuai dengan persyaratan awal.

Langkah 1: Mencari Sumber Data

Untuk memulai akuisisi data mentah, kami melihat proses yang didorong oleh persyaratan bisnis yang
objektif terdiri dari mencari sumber data yang tersedia di perusahaan yang jelaskan masalahnya.
Infrastruktur data warehouse- data. Ini juga merupakan ide yang baik untuk meminta ekstraksi data
sampel kecil dari sumber untuk memeriksa apakah informasi tersebut mewakili apa yang Anda pikir
akan dilakukan. Pastikan Anda berbicara dengan banyak orang mulai dari bisnis dan manajemen data
untuk memahami semua metadata yang tersedia untuk sepenuhnya memahami struktur utama. Tipe
data, rentang nilai, dan primer / asing, setelah ada pemahaman yang lebih baik tentang sumber data
yang perlu dimuat, buat model data relasional di mana data sumber akan dipetakan. Model ini harus
dijaga sesederhana dan sedekat mungkin dengan model data bisnis.

Langkah 2: Memuat Data

Setelah menentukan di mana dan bagaimana data yang diperlukan akan diekstraksi, kita masih perlu
mendefinisikan batasan permintaan lebih lanjut karena kita mungkin ingin memodelkan hanya
sebagian dari data lengkap (misalnya, segmen pelanggan tertentu, wilayah geografis, periode waktu) ,
dll.). Tim TI akan menyiapkan kueri data yang diperlukan, yang akan dieksekusi selama jendela waktu
yang telah ditentukan dalam mode batch. Data yang diekstraksi kemudian dikirim ke lingkungan
penambangan data dalam format yang sudah ditentukan sebelumnya seperti tabel database dalam
format asli, atau cukup flat file dalam format ASCII atau XML (teks) dengan panjang catatan tetap atau
variabel. Bahkan, file datar masih merupakan format yang paling umum digunakan untuk
penambangan data karena kesederhanaannya, definisi yang ditingkatkan dari batasan sistem, dan
antarmuka. Penambang data menentukan bagaimana data akan diimpor ke lingkungan penambangan
data. Setelah data dikirim ke lingkungan penambangan data yang ditentukan. Langkah-langkah yang
didukung oleh paket perangkat lunak khusus. Beberapa alat penambangan data juga menawarkan
cukup canggih.

Langkah 3: Memeriksa Kualitas

Kualitas data dapat memengaruhi keputusan bisnis Menurut Olson (2003) biaya dari kualitas data yang
buruk diperkirakan sekitar 15-25% dari laba operasi, misalnya pelanggan yang hilang melalui layanan
yang buruk, atau keterlambatan pengiriman data ke pembuat keputusan. Kita perlu menilai dan
memahami keterbatasan mereka yang dihasilkan dari database kualitatif yang melekat bahwa semua
pihak yang terlibat (bisnis, penambangan data, TI) merasa nyaman dengan, karena itu adalah dasar
untuk analisis selanjutnya. Kualitas data sangat tergantung pada penggunaan yang dimaksudkan dan
data itu sendiri. Penilaian kualitas data awal dilakukan untuk memastikan tingkat kualitas yang dapat
diterima dari data yang dikirim dan untuk memastikan tim data mining memiliki pemahaman yang
jelas tentang bagaimana menafsirkan data dalam istilah bisnis. Semua pihak - bisnis, penambangan
data, dan IT - terlibat dalam tugas penting ini. Dengan demikian, data yang tersedia untuk proyek
pertambangan harus dianalisis untuk menjawab pertanyaan-pertanyaan berikut: (1) Apakah data
tersebut sesuai dengan persyaratan sumber asli? (2) Apakah kualitasnya memadai? dan (3) Apakah
kita memahami data? Beberapa iterasi ekstraksi data mungkin diperlukan untuk memenuhi
persyaratan data. Penambang data mewakili hubungan antara tuntutan bisnis dan TI. Miskomunikasi
antara bisnis dan TI dapat menyebabkan ekstraksi data yang salah. Seperti yang telah disebutkan,
data harus memiliki kualitas yang memadai untuk mencapai tujuan proyek. Bidang data tidak selalu
memiliki makna yang jelas (meskipun metadata yang tersedia mungkin awalnya memberi Anda kesan
itu). Terkadang informasi yang dibawanya berbeda dengan deskripsi resminya.

Contoh mendapatkan dan menggabungkan data dalam studi lebih lanjut tentang Credite Est. Karena
tujuannya adalah untuk memperoleh prospek yang kemungkinan akan menjadi pelanggan bernilai
tinggi, Credite Est harus mengandalkan karakteristik pelanggan yang umum bagi kedua pelanggan
(dasar untuk membuat profil penting) dan prospek (diberi skor berdasarkan profil mereka). Untuk
deskripsi yang lebih rinci tentang proses pembuatan profil.

Contoh lainnya adalah dengan mencari Raw Data melalui https://data.go.id/dataset untuk
mengetahui semua data yang ingin di ketahui di Indonesia, sehingga kita tidak perlu mensurvey
kesetiap pulau yang ada di Indonesia, melainkan dengan melihat website tersebut untuk kepentingan
dalam bisnis di suatu perusahaan tertentu.

Anda mungkin juga menyukai