DISUSUN OLEH:
FAKULTAS EKONOMI
2021
6.1. Organisasi Data Di Lingkungan File Tradisional
Redundansi data adalah adanya duplikat data pada beberapa file data
sehingga data yang sama tersimpan di lebih dari satu tempat atau lokasi.
Redundansi data terjadi ketika berbagai kelompok dalam sebuah organisasi secara
independen mengumpulkan data yang sama dan menyimpannya secara
independen satu sama lain. Redundansi data menghabiskan sumber daya
penyimpanan dan juga menyebabkan inkonsistensi data, di mana atribut yang
sama mungkin memiliki nilai yang berbeda.
3. Kurangnya Fleksibilitas
Informasi tidak dapat mengalir dengan bebas melintasi area fungsional yang
berbeda atau bagian organisasi yang berbeda. Jika pengguna menemukan nilai
yang berbeda dari bagian informasi yang sama dalam dua sistem yang berbeda,
mereka mungkin tidak ingin menggunakan sistem ini karena mereka tidak dapat
mempercayai keakuratan datanya.
Sampai dengan 5 tahun yang lalu sebagian besar data dikumpulkan oleh
organisasi yang terdiri atas data transaksi yang dapat ditempatkan dengan mudah
ke dalam kolom dan baris pada DBMS relasional. Sejak saat itu, ada lonjakan
data dari lalu lintas web dan konten media sosial. Demikian juga dari data yang
dihasilkan dari mesin seperti sensor atau dari sistem transaksi elektronik. Data-
data ini mungkin tidak memiliki struktur atau sedikit terstruktur dan juga tidak
sesuai dengan produk DBMS relasional yang mengorganisasikan data ke dalam
bentuk kolom dan baris. Data besar tidak mengacu pada jumlah yang spesifik,
namun umumnya mengacu pada data dalam kisaran petabyte dan exabyte
dengan kata lain miliaran sampai dengan triliunan rekaman, semua dari sumber
yang berbeda. Data besar dihasilkan dalam jumlah yang jauh lebih besar dan
lebih cepat ketimbang data tradisional. Organisasi bisnis tertarik dengan data
besar karena mereka dapat melihat pola yang lebih berbentuk dan anomali yang
lebih menarik ketimbang data kecil memberikan wawasan baru tentang perilaku
pelanggan, pola cuaca, aktivitas pasar saham, dan fenomena lainnya.
Data Warehouse adalah data yang menyimpan data historis dan data
terkini yang berpengaruh bagi kepentingan pengambilan keputusan diseluruh
perusahaan. Data tersebut ditunjukkan bagi banyak sistem operasional transaksi
penting seperti sistem penjualan data pelanggan, manufaktur, termasuk data
transaksi web. Data Warehouse menghasilkan data historis dan data terkini dari
berbagai sistem operasi pada organisasi. Data ini di kombinasi sekaligus
memperbaiki susunan data bagi kepentingan pelaporan dan analisis data bagi
pihak dengan data sumber eksternal, serta mengoreksi data yang tidak akurat dan
kurang lengkap, sekaligus memperbaiki susunan data bagi kepentingan
pelaporan dan analisis data bagi pihak manajemen sebelum dimasukkan ke
dalam data warehouse. Data Mart adalah bagian dari data Warehouse yang
diringkas atau dikhususkan untuk penanganan jenis data tertentu pada database
yang terpisah untuk kelompok pengguna yang telah ditentukan. Untuk
menangani data berkapasitas besar yang semi terstruktur atau tidak sama sekali
perusahaan menggunakan hadoop. Hadoop adalah Kerangka kerja open source
yang dikelola oleh Apache Software Foundation yang memungkinkan
pendistribusian proses data berkapasitas besar secara paralel pada computer
berbiaya terjangkau. Hadoop memecah masalah data besar tersebut menjadi
bagian yang lebih kecil, kemudian mendistribusikannya ke ribuan titik
pemrosesan komputer yang berbiaya terjangkau. Hadoop dapat menangani jenis
data apapun dengan kapasitas besar termasuk data transaksi terstruktur, data
dengan struktur yang agak longgar seperti masukan dari Facebook dan Twitter,
data-data yang kompleks seperti log file pada server web data audio dan video
yang tidak terstruktur
Cara lain untuk memfasilitasi analisis data yang besar adalah dengan
menggunakan komputasi dalam memori, yang sangat mengandalkan pada
memori utama dari computer untuk data penyimpanan. Para pengguna akan
mengakses data yang disimpan dalam memori system utama, dengan demikian
dapat menghilangkan kemacetan dari mengambil dan membaca data dalam suatu
database tradisional, berdasarkan pada disk dan secara dramatis akan
mempersingkat waktu tunggu atas permintaan. Produk komersial terkemuka
bagi komputasi dalam memori meliputi High Performance Analytics Appliance
(HANA) dari SAP dan Orale Exalytics.
Agar dapat memastikan bahwa data bagi bisnis tetap akurat, dapat
diandalkan, dan siap tersedia bagi mereka yang memerlukannya, maka bisnis
memerlukan kebijakan dan prosedur khusus untuk manajemen data.
Analisis kualitas data sering dimulai dengan audit kualitas data, yang
merupakan survey terstruktur atas keakuratan dan tingkat kelengkapan dari data
dalam suatu system informasi. Pembersihan data juga dikenal sebagai data
scrubbing, terdiri atas kegiatan mendeteksi dan mengoreksi data dalam database
yang tidak benar, tidak lengkap, dan tidak diformat dengan tepat. Pembersihan
data bukan hanya mengoreksi kesalahan, tetapi juga menekankan konsistensi
diantara serangkaian data yang berbeda yang berasal dari system informasi yang
terpisah.